Big data

Een half miljoen foto’s per minuut

De hoeveelheid data die beschikbaar komt groeit snel. Op Internet, via social media, op discussiefora en bijvoorbeeld via reacties op posts verschijnen onvoorstelbare hoeveelheden foto’s, tekst en (meet)gegevens. Google verwerkt per seconde meer dan 40,000 zoekopdrachten – oftewel zo’n 3,5 miljard per etmaal. Op SnapChat verschijnen iedere minuut meer dan een half miljoen foto’s. Het aantal en het assortiment apparaten dat al deze data genereert neemt ook toe: computers, databases, camera’s, mobieltjes, slimme horloges, auto’s, sensoren. Een uitdaging van voor datawetenschappers: uitzoeken hoe je met al die gegevens op een betrouwbare manier maatschappelijk relevante dingen kunt doen.

Vroege screening betekent betere behandeling

‘Het onderzoek waarin wij op basis van blogteksten van mensen met traumatische ervaringen hebben kunnen voorspellen of zij later ten prooi zullen vallen aan een posttraumatische stressstoornis (PTSS) is een voorbeeld van zo’n maatschappelijk relevante big datatoepassing,’ zegt Bernard Veldkamp. ‘Je kunt je voorstellen dat het bijvoorbeeld voor politievakbonden heel waardevol is om inzicht te hebben in de mate waarin agenten te maken kunnen krijgen met PTSS. Met nauwkeurige voorspellingen kun je bijvoorbeeld effectievere, meer gerichte preventiemaatregelen nemen. Ook voor militaire veteranen of bij slachtofferhulp kunnen zulke analyses een verschil maken. Vroege screening betekent betere behandeling.’

Veldkamps collega Raymond Veldhuis merkt op dat ‘zijn’ onderzoek, waarin een geautomatiseerde fotoanalyse kan bepalen of de persoon op een foto wel of niet CEO is, niet alleen toepassingsrichtingen aan het licht brengt, maar ook vragen. ‘Denk bijvoorbeeld aan de ethische kant. Inschatten of iemand wel of geen CEO kan geen kwaad, maar wat als iemand dezelfde methodiek zou gebruiken om aan de hand van een foto vast te stellen of iemand crimineel is? Ethische verantwoordelijkheid speelt een belangrijke rol in dit soort onderzoek.’

Hoe het werkt

Veldkamp, onder meer gespecialiseerd in text mining – het ontlenen van informatie uit grote hoeveelheden tekst – legt uit hoe het uitvoeren van tekstanalyse om PTSS te voorspellen in z’n werk gaat. ‘We zijn begonnen met teksten van mensen die traumatische ervaringen achter de rug hadden. Een deel van de groep had later een posttraumatische stressstoornis opgelopen, een deel niet. Een algoritme gaat per tekst na welke woorden in welke frequentie voorkomen. We trainen vervolgens de computer om de teksten van de PTSS-slachtoffers te vergelijken met die van de groep waarin PTSS niet voorkwam. Op basis van die uitkomsten hebben we een model gebouwd dat op basis van tweeduizend onderscheidende woorden per groep dezelfde meting en vergelijking uitvoert met nieuwe teksten. Je krijgt dan een waarschijnlijkheidsratio, een likelihood ratio: in dit geval konden we tot op 85% nauwkeurig voorspellen of de tekstschrijver wel of geen PTSS zou oplopen.’ Bij het onderzoek wisten Veldkamp en zijn collega’s het systeem dusdanig te verfijnen dat het geen tweeduizend onderscheidende woorden meer nodig had, maar slechts tweehonderd. En één blogtekst, geschreven door het traumaslachtoffer, is voldoende voor het systeem om een voorspelling te doen.

Meer dan ja of nee

Wat is nu het onderscheidende van het onderzoek van Veldkamp, Veldhuis en hun collega’s? ‘Machine learning, dus systemen die getraind zijn om op basis van metingen conclusies te trekken, zie je overal. Dat is niet meer bijzonder,’ zegt Veldkamp. ‘Maar de meeste daarvan kunnen alleen een ja of een nee geven als conclusie. We noemen dat end-to-end machine learning. Wat er zich in de machine afspeelt tussen de data-invoer en de conclusie is niet duidelijk. De conclusie is niet ‘explainable’, verklaarbaar, en dat vermindert de betrouwbaarheid, de generaliseerbaarheid en potentieel ook de eerlijkheid en ethische verantwoordelijkheid van zulke toepassingen. Ons onderzoek komt voort uit onvrede daarover.’

Veldhuis: ‘Over big data wordt veel gepubliceerd en de verwachtingen zijn hoog. Met de grote rekenkracht die we vandaag de dag hebben kunnen we inderdaad in grote hoeveelheden data verborgen structuren blootleggen die waardevolle inzichten opleveren. Maar het verschijnsel big data heeft z’n belofte nog niet waargemaakt: door de afwezigheid van explainability en het gebruik van te kleine data sets, is in veel gevallen niet te hard te maken dat die conclusies generaliseerbaar zijn. Je weet niet of systeem A dezelfde conclusies zal trekken als systeem B. Onze nadruk op explainability verandert dat. De vraag is niet meer of we een computer kunnen trainen om bepaalde antwoorden te vinden, maar hoe – langs welke stappen – de computer dat doet. Hoe beter we dat kunnen uitleggen, des te betrouwbaarder, eerlijker en bruikbaarder zijn de uitkomsten.’ 

Samenwerking met inhoudsexperts is cruciaal

Veldkamp voegt eraan toe dat samenwerking met inhoudsexperts een cruciaal verschil maakt. ‘Bij de test met de blogteksten van traumaslachtoffers hebben we nauw samengewerkt met psychiaters. Wat wij als datawetenschappers niet kunnen, kunnen zij wel: duiden wat de mogelijke betekenis is van veel voorkomende woorden. Deze cross-disciplinaire aanpak levert een systeem op met een hoge explainability. Hier ligt de toekomst van big data.’

PROF.DR.IR. RAYMOND VELDHUIS
prof.dr.ir. R.N.J. Veldhuis (Raymond)
Hoogleraar Biometrische Patroonherkenning Universiteit Twente | Studeerde Elektrotechniek aan de Universiteit Twente, Wis- en Natuurkunde aan de Radboud Universiteit Nijmegen | Aandachtsgebieden: fundamenteel en toegepast onderzoek op het gebied van gezichtsherkenning (2D en 3D), vingerafdrukherkenning, bloedvatpatroonherkenning, multibiometric fusion, en biometrische gegevensbescherming

‘In de automatisering gebeurt zoveel zo snel, dat we niet eens altijd begrijpen hoe het werkt. Mijn drive is juist: als het te automatiseren is, moet het te begrijpen zijn. We kunnen systemen ontwikkelen die hele interessante conclusies voortbrengen of beslissingen, en dat gebeurt ook steeds meer. Het navigatiesysteem in de auto is een voorbeeld van een systeem dat zelf beslissingen voor ons neemt. Maar ik ben pas tevreden als we precies weten waar die beslissingen vandaan komen. Alleen op die manier krijgen we systemen die echte waarde toevoegen aan de maatschappij.’

PROF.DR.IR. BERNARD VELDKAMP
prof.dr.ir. B.P. Veldkamp (Bernard)
Hoogleraar Onderzoeksmethodologie Universiteit Twente | Studeerde Toegepaste Wiskunde en Psychometrie aan de Universiteit Twente | Aandachtsgebieden: onderzoeksmethodologie, data analyse, optimalisatie, text mining, computer-gebaseerde beoordeling

‘In allerlei sectoren zie je dat er steeds meer data beschikbaar komen. De psychometrie, bijvoorbeeld, genereert grote hoeveelheden zeer gecontroleerde data. Ik zie het als een belangrijke taak om eraan bij te dragen dat we die data dusdanig gebruiken om op een efficiënte en eerlijke manier iets te zeggen over mensen.’