donderdag 23 juli 2015

Big Fraud?

Hoe revolutionair is Big Data eigenlijk? Die vraag heb ik me de afgelopen weken gesteld. Ik zie nog niet veel bewijs dat het een enorme revolutie veroorzaakt. Ik zal enkele voorbeelden geven die mijn geloof in Big Data ernstig temperen.
Een veel aangehaalde uitspraak over Big Data is dat Google de verspreiding van griep beter kan voorspellen dan epidemiologen. Dit suggereert dat Big Data ons kan helpen om de gezondheidszorg wereldwijd te verbeteren. Helaas is deze uitspraak niet waar. Het gerenommeerde tijdschrift Science publiceerde in maart 2014 een artikel waarin deze bewering werd gelogenstraft. Google Flu, zoals het algoritme heet, miste bijvoorbeeld een uitbraak van de griep die niet in het seizoen was. Het lijkt er dus op dat Google Flu ook deels een detector van de winter is. Bovendien bleek dat drie weken oude data die verzameld werden in een Centre for Disease Control and Prevention (de Amerikaanse GGD) een betere voorspelling opleverde dan de real time informatie van Goolgle. Een van de problemen van Google Flu is dat Google haar zoekalgoritme continu aanpast. Dit beïnvloedt de dataverzameling. De auteurs zien wel in dat het misschien helpt als we grote datasets gebruiken, maar ze waarschuwen voor de gevaren. Het veranderen van de algoritmes is er één van. Een ander gevaar is dat mensen data manipuleren. Bedrijven doen bewust pogingen om bijvoorbeeld een tending topic op Twitter te worden. Internet genereert dan misschien wel veel data, maar veel is niet automatisch beter, en ook big data kunnen systematische vertekeningen hebben.
Experts doen soms ook rare uitspraken over big data. Neem deze uitspraak van Viktor Mayer-Schönberger, hoogleraar internet governance, en auteur over Big Data in de NRC van 1 juni 2013.
“Ook voor het onderwijs geldt dat (het gedetailleerder omschrijven van sociale ontwikkelingen JK), ik ondervind het aan den lijve. Mijn boek is ook digitaal beschikbaar. En Amazon stuurt mij een analyse van de vijf alinea’s die mensen het meest onderstrepen op hun e-reader. Tot mijn verbazing zijn het dingen die ik nooit had verwacht. Mijn intuïtie zit totaal fout. Als dit breder wordt toegepast zal de kwaliteit van leerboeken enorm verbeteren.”
Het ontgaat mij hoe je op basis van de gegevens over het onderstrepen van stukken tekst in de e-reader, tot een verbetering van de kwaliteit van leerboeken kan komen. Welke conclusie zou ik moeten trekken uit het feit dat mensen andere dingen onderstrepen dan ik had gedacht? Ik moet mijn boek herschrijven, want de lezer pikt de essentie van wat ik wil vertellen er niet uit. Of moet ik een nieuw boek gaan schrijven over de dingen die de lezers blijkbaar interessant vinden? En hoe weet je trouwens dat een leerboek niet goed is, als mensen andere dingen onderstrepen dan de auteur had voorzien?

Wat ik maar wil zeggen is dat de pleitbezorgers van Big Data er meer voordelen in zien dan ze op basis van de empirische gegevens kunnen waarmaken. Wat weer niet veel goeds beloofd voor het goed en eerlijk toepassen van Big Data. Als de pleitbezorgers data niet goed kunnen interpreteren, wat kunnen ze dan nog zeggen over het gebruik van Big Data in kennisprocessen. 
Deze post verscheen eerder op de blog van Ingoverment

Geen opmerkingen:

Een reactie posten