CTIT University of Twente
Research Business & Innovation About CTIT Research Calls Looking for a job? Intranet

Radio Oranje Project

De Human Media Interaction Group van de faculteit EWI heeft een belangrijke bijdrage geleverd aan het Radio Oranje Project van het NIOD dat onlangs is afgerond. De toespraken die Koningin Wilhelmina tijdens de Tweede Wereldoorlog voor Radio Oranje hield zijn nu op woordniveau online doorzoekbaar op de site van het NIOD.

Door toepassing van spraakherkenning en alignmenttechnieken hoeven geen complete bestanden meer afgeluisterd te worden om informatie over een bepaald onderwerp te vinden. Via internet kan nu direct naar woorden en woordcombinaties én naar specifieke fragmenten in de audio worden gezocht. Bij het Radio Oranje Project werkte het NIOD samen met de UT en het Nederlands instituut voor Beeld en Geluid.

De collectie Radio Oranje-toespraken van Koningin Wilhelmina bestaat uit 37 geluidsopnamen, met de corresponderende getypte teksten. Met behulp van ‘optical character recognition’ werden deze pagina’s omgezet in tekstbestanden. De geluidsopnamen van de radiotoespraken werden in de oorlog op wasplaten opgenomen en zijn voor een groot gedeelte bewaard gebleven in het audio-archief van Beeld en Geluid. Deze opnamen zijn recentelijk gedigitaliseerd.

Om goed in gesproken documenten (radio- en TV-uitzendingen, interviews etc.) te kunnen zoeken, is het noodzakelijk een zogenaamde zoekindex te maken: een lijst van woorden waarin ieder woord gekoppeld is aan één of meerdere tijdstippen in elke toespraak waarin het voorkomt. Om een dergelijke index te maken voor de toespraken van Koningin Wilhelmina werden alle teksten opgelijnd met de corresponderende geluidsopnamen. Dit werd gedaan met behulp van de spraakherkenner voor het Nederlands ontwikkeld door de UT en werd speciaal aangepast op de stem van H.M. Koningin Wilhelmina.

Eerst werd de uitspraak van de geschreven woorden afgeleid door middel van een "grafeem-naar-foneem" conversie die de letters omzet in de bijbehorende reeks klanken. Van elke klank is een model beschikbaar dat de eigenschappen van het corresponderende geluid beschrijft. Door deze akoestische modellen met de audio te vergelijken, kon de precieze plek van elke klank in het geluidsbestand teruggevonden worden. Het resultaat geeft voor elk woord in elke zin van elke toespraak een tijdscode, zodat je precies kunt terugvinden waar het fragment zich in een geluidsbestand bevindt.

Voor meer informatie over het project: www.niod.nl/actueel. Voor meer informatie over de Human Media Interaction groep van de faculteit Elektrotechniek, Wiskunde en Informatica: http://hmi.ewi.utwente.nl.