Op weg naar slimme spraakherkenning
Automatische spraakherkenning kan naar een hoger niveau, denkt computerwetenschapper Khiet Truong. Ze werkt aan technologie die meer uit een gesprek haalt dan alleen de woorden.
Volgens Truong weten we nog steeds te weinig van de non-verbale aspecten van communicatie, dus van hóe iemand iets zegt. De technologie heeft zich lange tijd hoofdzakelijk gericht op de basale vorm van spraakherkenning, op wát iemand zegt. Dat laatste gebeurt bijvoorbeeld bij virtuele assistenten als Siri en Alexa.
Nuances in communicatie
“Ik vind juist de laag daaronder, bijvoorbeeld de emoties of mentale gesteldheid van een spreker, interessant. Kunnen we die laag uit spraak halen? Maar ook: zitten 2 sprekers met elkaar op een lijn in een dialoog, wat zegt dit lachje in de dialoog?”, aldus Truong. “Dat is belangrijk, want in communicatie gaat het heel erg over nuance. Denk aan stiltes, een zucht of een lach in een gesprek. Dat maakt het onderzoek relevant.”
De machine (de zorgrobot bijvoorbeeld) zou dus beter moeten aanvoelen wat de mens zegt. En omgekeerd: de machine moet op een natuurlijke manier communiceren met de gebruiker. In de afgelopen jaren van onderzoek heeft Truong ervaren dat het ontwikkelen van zo’n verbeterde spraakherkenning niet eenvoudig is. “Het is supercomplex. Als zelfs de psychologie nog niet helemaal weet hoe het werkt, is het ook voor de computerwetenschapper extra lastig om het menselijk gedrag om te zetten naar enen en nullen.”
Interactie hangt af van de context en van de persoon die aan het woord is, blijkt uit veel onderzoeken. “Ik heb lang gedacht dat het mogelijk zou zijn om een algemeen model voor automatische spraakherkenning te maken. Nu denk ik dat het individu veel meer aandacht moet krijgen en dat de context ook gemodelleerd moet worden. Denk bijvoorbeeld aan de non-verbale communicatie zoals het geven van een knikje.”
Basisemoties
Lange tijd is de psychologie uitgegaan van zes basisemoties: boosheid, blijdschap, afschuw, angst, verbazing en verdriet. Daarnaast zijn er spraakkenmerken als toonhoogte, spreeksnelheid, haperingen en zuchten. Databases met spraakopnames van acteurs zouden de input kunnen zijn voor een intelligente vorm van spraakherkenning. Maar spontane emoties komen daarin niet aan bod. Bovendien is de vraag hoe vaak een emotie als boosheid in een gesprek te horen is.
Khiet Truong wil zich daarom meer richten op geestelijk welzijn. Ze gaat onderzoek doen naar psychiatrische aandoeningen. Denk aan een bipolaire stoornis, depressiviteit en dementie. “Waar we naar toe willen is dat we uit de manier waarop mensen praten, kunnen destilleren of er bijvoorbeeld een depressieve periode aankomt.”
Kind-robot interactie
In het verlengde hiervan loopt een onderzoeksproject in samenwerking met collega Vanessa Evers, hoogleraar bij de onderzoeksgroep Human Media Interaction, en het Nederlands Instituut voor Beeld en Geluid in Hilversum. Het onderzoek richt zich op de interactie tussen robot en kind en maakt gebruik van het media-archief van Beeld en Geluid (zoals opnames van het Jeugdjournaal). Gekeken wordt welke factoren een rol spelen bij het vertrouwen van een kind in de robot als verstrekker van informatie. En of we bijvoorbeeld dit vertrouwen kunnen terug horen in de dialoog tussen kind en robot.
Onderzoek en onderwijs
Khiet Truong geeft verschillende vakken binnen de master Interaction Technology. “Ik gebruik in het onderwijs graag actuele nieuwsonderwerpen uit de media om te laten zien dat ons werk relevant is. De link met de realiteit is belangrijk om duidelijk te maken dat we dit niet voor niets doen en dat het ergens terechtkomt. Het leukste is het een-op-een begeleiden van studenten. Daar kan ik veel kwijt over mijn onderzoek en sta ik nóg dichter bij hen. Het is mooi om te zien hoe jonge mensen wetenschappelijke inzichten verkrijgen en zich op basis daarvan verder ontwikkelen.”
Over Khiet Truong
Dr. Khiet Truong (1980) studeerde taalwetenschap aan de Universiteit van Utrecht en deed daarna als PhD-student onderzoek bij TNO naar het automatisch herkennen van emotie in spraak en lachen. In 2009 promoveerde ze in computer science aan de Universiteit Twente, waar ze als assistent professor is verbonden aan de onderzoeksgroep Human Media Interaction. Truong is daarnaast bestuurslid van de stichting Open Spraaktechnologie, die spraakherkenningssoftware verzamelt en via open source beschikbaar wil stellen.
Persfoto's
Deze persfoto's kunnen zonder copyright restricties worden gebruikt.