Computers leren beter begrijpend lezen dankzij UT-onderzoek

woensdag 14 mei 2014

Mena B. Habib, onderzoeker aan onderzoeksinstituut CTIT van de Universiteit Twente, leert computers om beter begrijpend te kunnen lezen. Hij ontwikkelde een methode waarmee de computer in een tekst ‘named entities’ kan opsporen en interpreteren. Dit zijn bijvoorbeeld namen van personen, plaatsen en organisaties, waarvan de betekenis afhankelijk is van de context. De methode van Habib stelt de computer in staat de context te analyseren en zo te bepalen wat met de named entity bedoeld wordt.

Named entities
Maurice van Keulen, universitair hoofddocent Data Management Technology aan de Universiteit Twente die Habib begeleidddee bij zijn promotieonderzoek legt uit: “Een voorbeeld van een named entity is het rijksmuseum. Het hangt af van de context welk rijksmuseum er bedoeld wordt. Dit kan te maken hebben met de auteur, het discussieonderwerp, wat ervoor of erna is gezegd en soms zelfs met de locatie of de tijd. Woont de afzender in Enschede, dan doelt hij of zij waarschijnlijk op het rijksmuseum in Enschede. Maar het kan ook over één van de talrijke andere rijksmusea in Nederland gaan. Een ander voorbeeld is Paris Hilton: wordt hiermee de celebrity, het hotel in Parijs, of nog iets anders bedoeld?” Met de methode van Habib herkent de computer welk deel van de tekst een named entity is en wat er met de named entity bedoeld wordt.

Begrijpend lezen
Er is veel vraag naar nieuwe methodes om informatie uit teksten te halen. Op dit moment kunnen computers al redelijk veel informatie uit teksten halen, zoals de stemming en zelfs de leeftijd van de schrijver. Van Keulen: “Deze technieken zijn veelal gebaseerd op een oppervlakkige analyse van platte woorden. Daardoor blijft de meeste informatie ‘verborgen’ en maar beperkt toegankelijk voor computers, tenzij ze op grote schaal leren om begrijpend te lezen. Een computer kan met meer begrip van de genoemde entiteiten en beschikbare informatie daarover, veel meer en beter informatie uit tekst halen voor analysetoepassingen.”

Toepassing
Van Keulen: “We zijn betrokken bij een aantal projecten waar we de methode gaan toepassen. We passen de software bijvoorbeeld toe in de meldkamer van de brandweer en de politie in de regio Twente voor het project TEC4SE. Bij grote evenementen willen de hulpdiensten graag op de hoogte zijn van wat er gebeurt. Als er bijvoorbeeld een opstootje is dan is een kanaal als Twitter interessant om te monitoren. Onze software kan met enig begrip alle tweets lezen om zo veel beter te kunnen detecteren waar en wanneer er iets aan de hand is.

Van Keulen: “Habib heeft ervoor gezorgd dat zijn methode zo sterk en robuust mogelijk is. De methode werkt ook nog goed als je niet heel veel teksten ter beschikking hebt om van te leren. Daarnaast is zijn aanpak taalonafhankelijk: het werkt niet alleen voor teksten in het Nederlands, maar in alle talen.”

Habib won met dit onderzoek de ‘Making Sense of Microposts’ challenge: #Microposts2013 en werd tweede in 2014. Dit is een internationale wedstrijd waarbij onderzoeksgroepen met hun onderzoeksprototypes een gemeenschappelijke 'begrijpend lezen'-taak uitvoeren.

Het proefschrift van Mena Badieh Habib Morgan is getiteld: ‘Named Entity Extraction and Disambiguation for Informal Text -The Missing Link’. Habib promoveert op 9 mei bij de vakgroep Databases van onderzoeksinstituut CTIT van de Universiteit Twente. Hij voerde zijn onderzoek uit onder leiding van dr. Ir. Maurice van Keulen en prof. dr. Peter Apers.

Meer recent nieuws

Nieuwsoverzicht