Van blocnote tot big data

Van blocnote tot big data

De afgelopen 98 jaar verzamelden onderzoekers van Wageningen UR en andere instellingen een onvoorstelbare hoeveelheid informatie. Wat deden we met deze data? En hoe gaan we er de komende jaren mee om?

Ontdek de kansen van open data en big data, in dit historisch perspectief over onderzoek bij Wageningen UR.

1918Institutionele datacollectie

1918 - 1980

Institutionele datacollectie

Tussen 1918 en de 1980 gebruikten we nog weinig computers bij ons onderzoek. Microbiologisch onderzoek, het tellen van vogels of het in kaart brengen van sociale netwerken was vaak letterlijk mensenwerk. Rond de jaren ’60 deden de eerste computers hun intrede.

Datacollectie was vaak het initiatief van de universiteit of andere instituten, zoals de overheid. Veel data bleef daardoor ook binnen de muren van een instelling. De overheid gebruikte data over kadasters bijvoorbeeld vooral voor haar eigen werk.

Tijdperk
Methode dataverzameling
Doel van datagebruik

Laboratorium voor Landmeetkunde

Landmeten

Mondeling doorgegeven landmetingen en gegevens(posities) voor in schriftelijke logboeken.

Landmetingen en gegevens(posities) werden in de jaren ’50 mondeling doorgegeven aan een collega die alle informatie in logboeken opschreef. Deze informatie kwam vervolgens terecht in rapportages van het Laboratorium voor Landmeetkunde.

Landbouw Economisch Instituut (LEI)

Computers in economisch onderzoek

Data van boeren voor kostprijsberekeningen en als input voor beleid. Van handmatige verwerking van data van boeren voor beleid, tot het gebruik van de eerste computers met ponskaarten en het eerste model van de Nederlandse landbouw.

Vanaf de jaren ’40 verzamelt het LEI data bij boeren voor kostprijsberekeningen en als input voor beleid. De eerste jaren gebeurde dit allemaal met de hand en vanaf de jaren ‘60 doet de computer al zijn intrede. Opdrachten en informatie werden ingevoerd en geanalyseerd met ponskaarten.

In diezelfde periode gebruikten onderzoekers veelvuldig de factor-analyse. Deze digitale analyse vergrootte het inzicht in de verschillen tussen agrarische bedrijven en gaf wegen aan waarlangs achterblijvende resultaten verbeterd konden worden.

In de jaren ‘70 ontwikkelde het LEI ook haar eerste model van de Nederlandse landbouw. Dit ‘Intermodel’ maakte het mogelijk om de ontwikkeling van de agrarische sector te onderzoeken en te verklaren. Daarnaast konden onderzoekers het model gebruiken om de mogelijke gevolgen van beleidsbeslissingen na te gaan.

Prof.Dr.ir. RD Politiek

Analoge metingen veeteelt

(Analoge) metingen voor onderzoek naar verband tussen grootte van een koe en melkproductie.

Professor Politiek had een grote invloed op het onderzoek naar (vee)fokkerij en melkproductie. Hij deed onderzoek naar relevante eigenschappen bij selectieprocedures in de veefokkerij. Daarbij toonde Politiek onder meer zijn interesse voor het verband tussen de grootte van een koe en de melkproductie.

Politiek en Chardon analyseerden hun eigen (analoge) metingen. Bevindingen van het onderzoek deelden zij ook buiten de wetenschap, met melkboeren.

Een publicatie over het symposium ter ere van de pensionering Dr. ir. Politiek is hier te lezen.

1980 - 2000

Computer wordt mainstream

Vanaf de jaren ’80 gebruikten we steeds vaker computers voor het uitvoeren van onderzoek. We zetten computermodellen experimenteel in, bijvoorbeeld voor het uitvoeren van simulaties.

Op basis van bestaande informatie over een gewas, toetste een onderzoeker bijvoorbeeld zijn hypothese: Klopt mijn aanname over de oorzaken van een slechte oogst?

Tijdperk
Methode dataverzameling
Doel van datagebruik

Prof.dr.ir. CT de Wit

Modelleren van plantengroei

Eerste gebruik computers en dynamische modellen voor simuleren gewasgroei.

De Wit maakte als één van de eerste landbouwonderzoekers gebruik van computers en dynamische modellen om gewasgroei te simuleren. Tot de jaren ’80 werden dit soort modellen vooral gebruikt door economen. Onderzoekers over de hele wereld zien de toepassing door De Wit als pioneerswerk.

De Wit, C.T., 1992. Resource use efficiency in agriculture. Agricultural Systems 40, 125-15. Download hier het onderzoek.

"Op basis van mijn theorie werd voorspeld dat tarwe 10.000 kilogram droge stof per hectare kon opbrengen, terwijl het 4.000 kilogram was. Je werd toen voor gek verklaard. Nu is het zelfs 12.000 kilogram."

Wageningen UR

Opening Computechnion

Grote groei informatica-onderwijs en Rekencentrum.

In de jaren '80 groeiden het informatica-onderwijs en het Rekencentrum snel. Daarom opende Wageningen UR in 1987 een nieuw gebouw: het Computechnion. Het Computechnion had op dat moment het krachtigste computercluster van alle Nederlandse universiteiten.

Met de computers voerden onderzoekers onder meer complexe simulaties uit. Uit een nieuwsbericht op 10 september 1987: "(…) via het Computechnion kunnen we de werkelijkheid nabootsen. Complexe simulatiemodellen geven een beeld van bijvoorbeeld de groei van een gewas, zonder dat daar nog een boer, weer, wind en grond aan te pas komen."

Ir. CA van Diepen, ir. HL Boogaard, dr. AJW de Wit

MARS-OP geeft verwachte gewasopbrengst

In kaart brengen alle gewassen en oogsten binnen Europa.

In 1998 startte MARS-OP als dienst van EC-JRC, ondersteund door Wageningen UR. Het programma bracht aanvankelijk alle gewassen en oogsten binnen Europa in kaart. Inmiddels monitort MARS-OP seizoensgebonden gewasopbrengsten door middel van meteorologische informatie. Die informatie geeft input voor de verwachte productie van gewassen in Europa. Met deze voorspellingen kunnen noodhulporganisaties bijvoorbeeld bepalen waar en wanneer er een tekort of overschot aan landbouwproducten ontstaat.

2000 - nu

Digitale data als voorspeller

De laatste jaren zijn de simulaties veel complexer en vollediger. Digitale data benutten we binnen een onderzoeksterrein zelfs om te voorspellen. Daarmee is onderzoek een krachtig beleidsinstrument.

Een bekend voorbeeld zijn de klimaatmodellen die een stijging van het waterniveau voorspellen. Op andere momenten brengen data een positieve tipping point in kaart: na welke eerste maatregelen is een bosrijk gebied bijvoorbeeld in staat om zichzelf volledig te herstellen?

Tijdperk
Methode dataverzameling
Doel van datagebruik

Dr.ir. F van den Berg, ir. FM Peeters

FOCUSPEARL-model

Voorspellen gedrag gewasbeschermingsmiddelen.

Sinds 1989 wordt de uitspoeling van gewasbeschermingsmiddelen naar het grondwater beoordeeld met behulp van een model dat het gedrag van deze stoffen in het bodem-plant systeem simuleert. In de jaren negentig vond deze beoordeling in Nederland plaats op basis van een standaard scenario voor een kwetsbaar bodemprofiel.

Eind jaren negentig ontwikkelde Alterra met RIVM en PBL het FOCUSPEARL-model. Sindsdien wordt dit model gebruikt voor de beoordeling van de uitspoeling naar grondwater in de toelatingsprocedure van gewasbeschermingsmiddelen binnen de EU.

Voor toelating op nationaal niveau, gebruikt het College voor de toelating van gewasbeschermingsmiddelen en biociden (Ctgb) in Nederland het GeoPEARL-model. Dat doet het College sinds 2004 en ze maakt daarbij gebruik van GIS-data.

Daarmee is het mogelijk om het risico op uitspoeling te beoordelen in het areaal van het gewas in Nederland waarvoor een toelating wordt gevraagd.

dr. NJJP Koenderink

Match X

Winkelen zonder barcodes.

In een gemiddelde supermarkt kun je ongeveer 30.000 verschillende artikelen kopen die bij de kassa van elkaar worden gescand via een streepjescode. ITAB, de Europese marktleider op het gebied van kassa’s heeft Wageningen UR Food & Biobased Research gevraagd intelligente software te ontwikkelen waarmee alle producten automatisch herkend kunnen worden. Ook als de streepjescode niet leesbaar is of niet klopt. De Match X software is door Food & Biobased Research geïmplementeerd in de EasyFlow kassa.

De Match X software maakt van elk product een "digitale vingerafdruk". Deze vingerafdruk bestaat uit een combinatie van gewicht, vorm, volume, kleur en materiaalsamenstelling. Daardoor kan de MatchX software met 99% nauwkeurigheid bepalen welk product op de lopende band ligt, onafhankelijk van de streepjescode. Dit is nauwkeuriger dan de gemiddelde caissière!

De EasyFlow kassa identificeert alle producten op de lopende band, weegt automatisch groente en fruit, en bepaalt het totaal bedrag van je boodschappen. Voor de klant betekent dat snelheid bij het afrekenen en gemak tijdens het winkelen, voor de supermarkt betekent dit minder aanslag fouten en meer personeel beschikbaar om service te leveren.

Wageningen UR Bibliotheek

RAF luchtfoto’s WOII

Digitaliseren en archiveren historisch beeldmateriaal.

De bibliotheek van Wageningen UR werkt o.a. aan de digitalisering en archivering van historisch beeldmateriaal. Een combinatie van deze oude beelden en nieuwe data kan leiden tot nieuwe inzichten. Interessant zijn luchtfoto’s die de RAF nam tijdens de Tweede Wereldoorlog. Deze kunnen bijdragen aan het onderzoeken van veranderingen in topografie en landgebruik in de 20e eeuw. Daarnaast geven de beelden aanwijzingen voor het starten archeologisch onderzoek. Het toont bijvoorbeeld de locaties van voormalig concentratiekampen en laat de schade van bombardementen in Rotterdam zien.

De digitalisering van historisch beeldmateriaal vind je hier.

1000 bull genomes consortium

1.147 stieren in één databank

Bepalen welke stieren geschikt zijn om mee te fokken.

De complete DNA-genome van 1.147 stieren is bekend. Als onderdeel van het 1000 bull genome project staat dit DNA nu in een databank. Onderzoekers denken met de data sneller te kunnen bepalen welke stieren geschikt zijn voor het fokken van bijvoorbeeld koeien die meer melk produceren, of die juist zorgen voor minder broeikasgas.

Is een stier geschikt om mee te fokken? "Vroeger konden we die vraag pas na ongeveer zeven jaar beantwoorden, met DNA voorspelling al bij de geboorte"

Bekijk hier het artikel.

nu - 2030

Open data en big data

De herkomst van data is steeds diverser. Wetenschappers en onderzoekers krijgen vaker de beschikking over gedetailleerde satellietinformatie, crowd sourced data, informatie die verzameld wordt via sociale media, data die komt uit het massaal volgen van gedrag, et cetera. Nieuw is dat we steeds beter in staat zijn om grote hoeveelheden data uit verschillende onderzoeksgebieden te combineren.

Deze kansen kan de wetenschap alleen benutten wanneer er meer data ‘open’ beschikbaar komt. Welke nieuwe verbanden kan de onderzoeker leggen? Welke nieuwe databronnen kan hij daarvoor extra gebruiken?

Tijdperk
Methode dataverzameling
Doel van datagebruik

Dr.ir. MW den Besten, dr.ir. GJ Steeneveld, PAJ Daane MM BSc

Big data en voedselveiligheid

Big data uit verschillende disciplines combineren bij het onderzoeken van complexe vraagstukken.

Big data komen beschikbaar op verschillende onderzoeksniveaus. De integratie van vakoverschrijdende disciplines geeft handvatten om complexe vraagstukken te onderzoeken, bijvoorbeeld op het terrein van voedselveiligheid.

Nu spelen big data bijvoorbeeld een rol op drie gescheiden niveaus. Allereerst helpen big data op micro-niveau om het gedrag van micro-organismen te begrijpen en te voorspellen in de keten. Daarnaast geven big data op meso-niveau zicht op de lokale omgevingsfactoren, zoals fluctuaties in temperaturen. Op macro-niveau voorspellen big data het gedrag van consument en producent. Dat laat zien hoe consumenten het product behandelen en de verblijftijd van producten in de keten: wat betekent dit voor de ideale houdbaarheidsduur van producten?

Door het combineren van deze data over het gedrag van microbacteriën, weersvoorspellingen en verwacht consumentengedrag, kan een onderzoeker bijvoorbeeld beter voorspellen welk product de meeste gezondheidsrisico’s met zich meebrengt of waar in de keten extra maatregelen nodig zijn.

Dr.ir. PA Jansen, Y Liefting BSc

Camera traps

Onderzoek naar wilde dieren met behulp van cameravallen.

Het Camera Trap Lab onderzoekt wilde dieren met behulp van cameravallen. Deze vallen maken beelden wanneer dieren voor een warmtesensor langs lopen. Door camera’s te plaatsen op een groot aantal random geselecteerde plekken krijgen de onderzoekers een representatief beeld van een gebied of leefomgeving.

Op basis van de beelden kunnen onderzoekers een inschatting maken van de soortsamenstelling, populatiegroottes, het gedrag van dieren in een specifieke omgeving en hun dagelijkse activiteitenpatronen.

De beelden en gegevens worden opgeslagen in een grote database. Zo krijgen de onderzoekers de mogelijkheid grootschalige vergelijkingen te maken tussen verschillende soorten, gebieden en jaren.

GODAN: Global Open Data for Agriculture and Nutrition

Beschikbaar stellen data voor verbinden van overheden, bedrijfsleven en onderzoek.

Wageningen UR is actief betrokken bij GODAN; een internationaal netwerk om meer data open beschikbaar te krijgen en mondiaal een verbindende rol te spelen tussen overheden, bedrijfsleven en onderzoek in het gebruik van open data. In samenwerking met het Ministerie van Economische Zaken detacheert Wageningen UR een onderzoeker bij het GODAN secretariaat.

LEI Wageningen UR

FarmDigital

Standaardiseren data voor efficiëntere invoer en verspreiding.

Agrarisch ondernemers moeten steeds meer data vastleggen, onder meer voor de overheid, consumenten en klanten. Al deze partijen willen weten hoe veilig of duurzaam geproduceerd voedsel is.

Veel van deze data bevindt zich nu nog in verschillende systemen. De inhoud is vaak moeilijk te delen met stakeholders. FarmDigital zoekt nu naar mogelijkheden om datasets te standaardiseren en deelbaar te maken via een onafhankelijk platform. Daardoor hoeft een ondernemer zijn data in de toekomst slechts eenmaal in te voeren en kan hij de gegevens gemakkelijk delen.

prof.dr.ir. JL Top

Tiffany

Standaardiseren en veilig beschikbaar stellen van onderzoeksgegevens.

Onderzoek publiceren is meer dan het schrijven van een artikel: ook de onderliggende ruwe data en gebruikte methodes moeten bereikbaar én te begrijpen zijn. Tiffany is een online applicatie waarmee onderzoekers hun data en methoden op een overzichtelijke manier kunnen opslaan. Hiermee ligt het hele pad van de oorspronkelijke onderzoeksvraag tot de uiteindelijke publicatie vast. Datasets zijn geschikt voor hergebruik en makkelijk te delen met anderen.

Onderzoekers bepalen zelf wanneer en met wie hun onderzoek wordt gedeeld. Op die manier is de data wel beschikbaar, maar kan de onderzoeker voorkomen dat een ander zijn of haar werk op een verkeerde manier gebruikt.

dr.ir. J Bremmer

BIGt&u

Het toegankelijk maken van marktinformatie uit verschillende bronnen voor de tuinbouwsector.

In de tuinbouwsector hebben telers vaak niet genoeg marktinformatie om efficiënt te kunnen telen en hun bedrijf te laten groeien. De informatie die ze nodig hebben bestaat onder andere uit hoe hun product wordt verkocht en gewaardeerd.

Het BIGt&u project wil de toegang tot uiteenlopende databronnen (waaronder social media, marktonderzoeken en import/export gegevens) gemakkelijker maken. Op die manier wordt relevante data beschikbaar voor de hele sector en kunnen tuinbouwers ook meer marktgericht gaan telen.

Meer informatie

Kijk voor meer informatie over big data en Wageningen UR op www.wur.nl/bigdata.