CTIT University of Twente
Research Business & Innovation About CTIT Research Calls Looking for a job? Intranet

Afbeeldingen zoeken zonder voorkennis

Zoeken op beeldkenmerken èn beschrijving

Een spookachtig industrieterrein, paarden in de wei in hartje zomer, een crash op het circuit van Monte Carlo. Het zijn omschrijvingen van foto’s of videofragmenten, waarmee een gewone afbeeldingenzoeker niet uit de voeten kan. Door niet alleen te zoeken op bestandsnaam of tekstuele beschrijvingen, maar ook op beeldkenmerken, zijn de zoekmogelijkheden drastisch uit te breiden, aldus promovendus Thijs Westerveld. De kracht zit in de combinatie. Die maakt het bijvoorbeeld ook mogelijk om te gaan zoeken op basis van -tamelijk vage- ‘sfeerbeschrijvingen’. Westerveld heeft zijn onderzoek gedaan aan het Centrum voor Telematica en Informatietechnologie van de UT en het Centrum voor Wiskunde en Informatica in Amsterdam. Hij promoveert op 25 november.

“Vind meer foto’s zoals deze”: zo algemeen zou een zoekvraag moeten kunnen zijn, vindt Westerveld. Leg een foto voor aan een zoekprogramma, en laat het vergelijkbare exemplaren zoeken. En die zoekactie moet dan ook kunnen plaatsvinden in een niet-voorgeselecteerde collectie: de verzameling mag van de promovendus zo heterogeen mogelijk zijn. Op dit moment is afbeeldingen zoeken nog vaak een toevalstreffer: de naam van het fotobestand bevat precies de goede informatie of de foto’s zijn goed gedocumenteerd opgeslagen. Voor die gevallen zijn er al uitstekende zoekmechanismen die werken op basis van taal en statistiek. De zoekmethoden die werken met beeldkenmerken zijn tot nu toe beperkt. Toch hebben die methoden potentie, aldus Westerveld. Hij heeft een benadering gekozen die voor elke foto een statistisch model genereert, volgens de ‘Gaussian mixture’. Op basis van deze modellen worden foto’s met elkaar vergeleken. De representatie van het beeld ziet er dan uit als een rangschikking van typische elementen en kleurvlakken.

Afbeeldingen van een pitcher op de rug gezien 

Vind, aan de hand van het voorbeeldplaatje, afbeeldingen van de ‘pitcher’, op de rug gezien, die een bal gooit naar de ‘batter’. Hier blinkt de methode die met beeldkenmerken zoekt, in uit.

Westerveld ontkent de beperkingen van ‘zoeken op beeldkenmerken’ niet. Maar juist in de combinatie met taalmodellen ligt volgens hem de kracht. “In de praktijk worden dan vaak methoden naast elkaar gebruikt. Het is de kunst om de statistiek van het beeld te combineren met de taalmodellen en zo ook te profiteren van de methoden die al beschikbaar zijn voor taalmodellen. Twee heel verschillende werelden waaruit je het beste haalt.”

Naast het definiëren van nieuwe modellen en technieken is evaluatie een belangrijk aspect: werkt het ook echt? Daarvoor is in de VS een grote database van fragmenten en beelden beschikbaar, TRECVID. Eraan gekoppeld is een competitie waarin verschillende methoden worden vergeleken. De methode van Westerveld presteert daar steevast boven gemiddeld. Dat is des te opmerkelijker omdat zijn methode niet uitgaat van voorkennis over de collectie die doorzocht wordt. De methode trekt op meer fronten de aandacht: in 2004 mocht Westerveld een ‘best paper award’ in ontvangst nemen tijdens de Conference on Image and Video Retrieval in Dublin.

Noot voor de pers

Thijs Westerveld (Gendringen, 1974) studeerde tot 1997 Informatica aan de Universiteit Twente.Tot 2002 bleef hij verbonden aan de Universiteit Twente, waar hij binnen de vakgroep Taal, Kennis en Interactie werkte aan het onderzoek naar kansmodellen voor het zoeken van multimedia content. Dit onderzoek heeft hij sindsdien voortgezet aan het Centrum voor Wiskunde en Informatica in Amsterdam. Bij zijn promotie op 25 november is prof.dr. Franciska de Jong promotor en dr.ir. Arjen de Vries assistent-promotor.

Het proefschrift ‘Using generative probabilistic models for multimedia retrieval’ is te vinden op http://homepages.cwi.nl/~thijs/pub/phd.html

Contactpersoon voor de pers: ir. Wiebe van der Veen, tel (053) 4894244, email w.r.vanderveen@utwente.nl