Onderzoek

Gepubliceerd op 5 november 2009

Onderzoek uitgelicht: informaticus Cees Snoek

Foto: Bob Bronshoff

Je zoekt op internet naar dat éne videofragment. Vaak is dat een tijdrovend klusje, omdat de beelden tekstueel niet goed omschreven zijn. Als het aan informaticus Cees Snoek ligt, wordt het in de toekomst een stuk eenvoudiger om een specifiek beeld te vinden. Hij werkt aan een zoekmachine die zelf beelden herkent. 'Ik wil pixels vertalen naar tekst.'

Cees Snoek, werkzaam bij het Intelligent Systems Lab Amsterdam (ISLA) dat deel uitmaakt van het Instituut voor Informatica, doet al jaren onderzoek naar methoden om computers beelden te laten herkennen. En met succes: bij een jaarlijkse internationale competitie waar alle grote gerenommeerde bedrijven en universiteiten aan meedoen, eindigen Snoek en collega's steevast bovenaan. Wat is het geheim van hun MediaMill zoekmachine?

De door de MediaMill zoekmachine gevonden beelden worden in een CrossBrowser overzichtelijk teruggekoppeld naar de gebruiker.

Vierduizend kenmerken

Om een object of scène te herkennen op een foto of video, is het belangrijk dat de computer weet waar hij naar moet zoeken. Daarom heeft het programma ontzettend veel leervoorbeelden nodig. Snoek voedt de zoekmachine dan ook met zoveel mogelijk beeldfragmenten waaraan je een bepaalde zoekterm kunt koppelen. Vervolgens beoordeelt de zoekmachine het plaatje op zo'n vierduizend kenmerken, zoals variatie in kleur, vorm en structuur. Hieruit stelt de zoekmachine een  karakteristieke correlatie vast tussen de combinatie van kenmerken en de opgegeven zoekterm.

Aan de hand van het statistische model dat hieruit ontstaat, de zogenaamde concept detector, kan de computer vervolgens in een enorme databank zoeken naar andere afbeeldingen die aan het model voldoen. (zie filmpje via onderstaande link).

Afbeeldingen die aan het model voldoen moeten vervolgens teruggekoppeld worden naar de gebruiker. Dit gebeurt via een CrossBrowser. Op de verticale as staan de teruggevonden beelden, op de horizontale as de tijd. Handig, want een video bestaat uit ontzettend veel losse shots. En vaak is het zo dat als de beeldzoeker een gewenst resultaat oplevert, de shots voor en na dit goede resultaat óók voldoen aan de opgevraagde zoekopdracht.

Hoe herken je een Ferrari? Is het door te letten op de kleur rood, een glimmende textuur, of is de vorm van doorslaggevend belang? Verrassend genoeg gaat de huidige software voor videobeeldherkenning vooral uit van kleur- en textuurkenmerken, de vorm wordt grotendeels genegeerd.

Snoek laat zien hoe het werkt. Hij vult de vrij simpele zoekopdracht boot in. Het programma vindt in de enorme dataset een heleboel boten. Ook zit er een boorplatform bij en een auto die over overstroomd wegdek rijdt. 'Je ziet dat er een paar vergissingen bij zitten', geeft Snoek toe. 'Dat komt omdat de software voornamelijk kijkt naar textuur en kleureigenschappen. Mensen letten juist heel erg op vorm. Dat wordt nog niet genoeg gebruikt in de software. Maar over het algemeen pikt hij al goed de juiste plaatjes eruit.'

Foto: Bob Bronshoff

Zoekmachine wedstrijden

'Het is ontzettend handig als je kunt zoeken op beelden en niet afhankelijk bent van de al dan niet bijgeleverde tekstuele omschrijving', aldus Snoek. En dat blijkt ook uit de aandacht die voor het probleem bestaat: naast de zoekmachine van het ISLA zijn er zo'n vijftig teams van  onderzoeksinstellingen, universiteiten en bedrijven bezig met het maken van videozoekmachines. Ieder jaar is er zelfs een wedstrijd.

De deelnemers maken allemaal gebruik van dezelfde testset, bijvoorbeeld een enorme hoeveelheid videomateriaal uit het archief van het Nationale Instituut voor Beeld en Geluid. De uitdaging is om zo snel mogelijk een specifieke zoekopdracht correct uit te voeren, bijvoorbeeld het identificeren van fragmenten met een keuken. Snoek werkt als volgt: Eerst labelt hij alle shots uit de set: ‘keuken' of ‘niet keuken'. Vervolgens verdeelt hij de set in tweeën: een testset en een trainingsset. De trainingsset gebruikt hij om de voor de afbeelding specifieke correlatie van de vierduizend kenmerken te vinden. Dit resulteert in een concept detector, die hij loslaat op de testset. Uiteindelijk controleert hij hoe goed het model heeft gewerkt: in hoeveel procent van de gevallen was een gevonden keuken ook echt een keuken en niet toevallig een badkamer? En hoe vaak heeft de computer een afbeelding van een keuken over het hoofd gezien?

De 101 Lexicon

Een tijdrovende klus

Het labelen van de beelden uit de trainingsset is ontzettend veel werk. Snoek was een zomermaand lang iedere ochtend en avond aan het labelen. Uiteindelijk had hij 101 categoriën gelabeld. Hij onderzocht de correlatie tussen het aantal leervoorbeelden en de performance. Boot bleek met vrij weinig voorbeelden goed te vinden. Maar mobiele telefoon was veel lastiger. 'Dat heeft vooral te maken met de achtergrond. Een boot is een gat in het water. Maar een mobiele telefoon gebruik je overal en is er dus minder goed uit te pikken.'

Snoek en zijn groep zijn goed in het zoeken van beelden. Maar Snoek geeft toe dat dit bij sommige wedstrijdonderdelen niet alleen te maken heeft met de kwaliteit van de software. 'Als je zoals ik zomers lang besteedt aan het labelen van videomateriaal, word je vanzelf heel goed in het herkennen van beelden; je bent er op getraind. Het hangt dus ook af van wie er achter de knoppen zit.'

Labels van foto websites

Omdat het labelen van foto's ontzettend veel werk is, zijn Snoek en zijn team continu op zoek naar nieuwe manieren om foto's van een label te voorzien. Eén daarvan is door gebruik te maken van foto websites als Flickr, waarop de gebruikers zelf hun foto's labelen. Snoek laat de computer eerst controleren of het om voor hem nuttige beschrijvingen gaat. En vervolgens kan hij deze afbeeldingen gebruiken om de software beter te leren zoeken. Maar er zijn ook andere methodes. Google heeft het spelletje image labeler en je kunt online de esp game spelen. Hierin moeten jij en je medespeler zo snel mogelijk labels toevoegen aan een afbeelding. Zodra je allebei dezelfde omschrijving gebruikt, krijg je punten en verschijnt de volgende afbeelding. Zo kom je op een leuke manier op goede omschrijvingen.

Foto: Bob Bronshoff

Toch blijkt deze manier van informatie uitwisseling niet ideaal. 'We komen er steeds meer achter dat geleerde voorbeelden van de ene dataset niet goed werken op de andere dataset. Het lukt bijvoorbeeld nog niet goed om met consumentenfoto's van Flickr, begrippen te leren die we uit een dataset van Beeld en Geluid kunnen halen.' Waar het precies aan ligt weet Snoek niet. 'Misschien heeft het er mee te maken dat bij televisiemateriaal toch vaak dezelfde cameraposities worden gekozen, dat de belichting altijd van een bepaalde kwaliteit is enzovoorts, terwijl je op Flickr van alles tegenkomt. En wat zeker ook mee zal spelen is dat de software nog te veel een label geeft voor het hele plaatje, terwijl voor mensen vaak één vorm op de voorgrond overheerst. Maar hoe het precies zit, gaan we nog uitzoeken.'

Pinkpop

Vanaf 1 december gaat er een site online, waarop Snoek een voorproefje geeft waar de onderzoekers op dit moment toe in staat zijn. Op de site kunnen mensen beeldfragmenten zoeken uit opnames van Pinkpop TV uitzendingen. 'Vanwege copyright issues beperkt de zoekfunctie zich tot opnames van de Nederlandse artiesten'. De gebruikers van de site kunnen meteen terugkoppelen hoe goed het systeem werkt. Dus beide partijen hebben er iets aan: de gebruikers vinden leuke fragmenten terug en Snoek kan zijn zoekmachine verbeteren. Hoe lang het vervolgens nog duurt voordat de zoekmachine zover is dat hij algemeen ingezet gaat worden, is nog onbekend.

Auteur(s)


Bron: Communicatie FNWI
|