Nieuws

Big data: herkennen en voorspellen

Samen met collega’s in Twente en Groningen heeft UT-wetenschapper Raymond Veldhuis  een systeem ontwikkeld dat aan de hand van een digitale foto tot op 80% nauwkeurigheid kan vaststellen of iemand CEO (Chief Executive Officer, algemeen directeur) is van een onderneming of niet.  

Zijn collega Bernard Veldkamp kan uit een korte blogtekst van iemand met traumatische ervaringen tot op 85% nauwkeurigheid afleiden of het slachtoffer later ten prooi zal vallen aan een posttraumatische stressstoornis (PTSS). De twee doen pionierend onderzoek naar big datamogelijkheden. ‘De echte uitdaging is bewijzen dat de conclusies die algoritmen trekken juist en generaliseerbaar zijn. Daarvoor moet je doorgronden hoe en waarom de conclusie bereikt is.’

Een half miljoen foto’s per minuut

De hoeveelheid data die beschikbaar komt groeit snel. Op Internet, via social media, op discussiefora en bijvoorbeeld via reacties op posts verschijnen onvoorstelbare hoeveelheden foto’s, tekst en (meet)gegevens. Google verwerkt per seconde meer dan 40,000 zoekopdrachten – oftewel zo’n 3,5 miljard per etmaal. Op SnapChat verschijnen iedere minuut meer dan een half miljoen foto’s. Het aantal en het assortiment apparaten dat al deze data genereert neemt ook toe: computers, databases, camera’s, mobieltjes, slimme horloges, auto’s, sensoren. Een uitdaging van voor datawetenschappers: uitzoeken hoe je met al die gegevens op een betrouwbare manier maatschappelijk relevante dingen kunt doen.

Vroege screening betekent betere behandeling

‘Het onderzoek waarin wij op basis van blogteksten van mensen met traumatische ervaringen hebben kunnen voorspellen of zij later ten prooi zullen vallen aan een posttraumatische stressstoornis (PTSS) is een voorbeeld van zo’n maatschappelijk relevante big datatoepassing,’ zegt Bernard Veldkamp. ‘Je kunt je voorstellen dat het bijvoorbeeld voor politievakbonden heel waardevol is om inzicht te hebben in de mate waarin agenten te maken kunnen krijgen met PTSS. Met nauwkeurige voorspellingen kun je bijvoorbeeld effectievere, meer gerichte preventiemaatregelen nemen. Ook voor militaire veteranen of bij slachtofferhulp kunnen zulke analyses een verschil maken. Vroege screening betekent betere behandeling.’

Veldkamps collega Raymond Veldhuis merkt op dat ‘zijn’ onderzoek, waarin een geautomatiseerde fotoanalyse kan bepalen of de persoon op een foto wel of niet CEO is, niet alleen toepassingsrichtingen aan het licht brengt, maar ook vragen. ‘Denk bijvoorbeeld aan de ethische kant. Inschatten of iemand wel of geen CEO kan geen kwaad, maar wat als iemand dezelfde methodiek zou gebruiken om aan de hand van een foto vast te stellen of iemand crimineel is? Ethische verantwoordelijkheid, of accountability, speelt een belangrijke rol in dit soort onderzoek.’

Hoe het werkt

Veldkamp, onder meer gespecialiseerd in text mining – het ontlenen van informatie uit grote hoeveelheden tekst – legt uit hoe het uitvoeren van tekstanalyse om PTSS te voorspellen in z’n werk gaat. ‘We zijn begonnen met teksten van mensen die traumatische ervaringen achter de rug hadden. Een deel van de groep had later een posttraumatische stressstoornis opgelopen, een deel niet. Een algoritme gaat per tekst na welke woorden in welke frequentie voorkomen. We trainen vervolgens de computer om de teksten van de PTSS-slachtoffers te vergelijken met die van de groep waarin PTSS niet voorkwam. Op basis van die uitkomsten hebben we een model gebouwd dat op basis van tweeduizend onderscheidende woorden per groep dezelfde meting en vergelijking uitvoert met nieuwe teksten. Je krijgt dan een waarschijnlijkheidsratio, een likelihood ratio: in dit geval konden we tot op 85% nauwkeurig voorspellen of de tekstschrijver wel of geen PTSS zou oplopen.’ Bij het onderzoek wisten Veldkamp en zijn collega’s het systeem dusdanig te verfijnen dat het geen tweeduizend onderscheidende woorden meer nodig had, maar slechts tweehonderd. En één blogtekst, geschreven door het traumaslachtoffer, is voldoende voor het systeem om een voorspelling te doen.

Meer informatie

De digitale samenleving is een belangrijk thema op de Universiteit Twente. Op deze website staat het volledige interview met Bernard Veldkamp en Raymond Veldhuis. Op deze site tref je ook andere voorbeelden van digitaliseringsprojecten op de UT aan.