Voor de beste ervaring schakelt u JavaScript in en gebruikt u een moderne browser!
Je gebruikt een niet-ondersteunde browser. Deze site kan er anders uitzien dan je verwacht.
Hoewel de technologie voor het genereren van afbeeldingen zich snel ontwikkelt, zijn deze AI-modellen voornamelijk gericht op het Engels. Dit vergroot de digitale ongelijkheid voor niet-Engelstaligen. Onderzoekers van de UvA FNWI hebben nu NeoBabel ontwikkeld, een baanbrekende AI-beeldgenerator die zes verschillende talen begrijpt. Door alle onderdelen van hun onderzoek open source te maken, kan iedereen voortbouwen op het model en bijdragen aan inclusief AI-onderzoek.
Portrait picture

Wanneer je een afbeelding genereert met AI, zijn de resultaten vaak beter als je prompt in het Engels is. Dit komt doordat veel AI-modellen in de kern Engelstalig zijn: als je een andere taal gebruikt, wordt je prompt naar het Engels vertaald voordat de afbeelding wordt gegenereerd. De meeste mensen wereldwijd spreken echter geen Engels als moedertaal, wat hen in het nadeel brengt.

AI-tekstgeneratoren kunnen daarentegen meer dan 200 talen vloeiend weergeven. Daarom hebben onderzoekers van het UvA Informatics Institute de handen ineengeslagen met Cohere labs, een bedrijf gespecialiseerd in AI-tekstgeneratie. Het onderzoeksteam integreerde een systeem voor beeldgeneratie in deze tekstgeneratoren en creëerde zo een geavanceerde meertalige AI-beeldgenerator. De beeldgenerator, genaamd NeoBabel, ondersteunt momenteel zes talen: Engels, Frans, Nederlands, Chinees, Hindi en Perzisch.

Volledig open source

De meeste modellen voor beeldgeneratie worden gebouwd door een paar grote Amerikaanse bedrijven, die zelden alle details van hun model onthullen. Cees Snoek, hoogleraar informatica en onderdeel van het NeoBabel-onderzoeksteam: ‘Meestal is het meeste werk "closed source", waardoor we niet precies kunnen zien hoe het model werkt. We weten niet of er vertekeningen in de data zitten, hoe het systeem is gemaakt en hoe het verbeterd kan worden. Dit druist in tegen onze academische principes.’

Het onderzoeksteam heeft daarentegen, naast een publicatie over NeoBabel, al hun code en data openbaar gemaakt. Mohammad Derakhshani, promovendus en eerste auteur van het artikel: ‘Persoonlijk wilde ik een tool bouwen voor wetenschappelijk onderzoek, en daarvoor heb je de volledige onderzoeksprocedure nodig. We hebben de hele procedure openbaar gemaakt, zodat iedereen die geïnteresseerd is in dit vakgebied over alle benodigde informatie beschikt.’

Cees Snoek
Mohammad Derakhshani

Een eettafel en een beer

NeoBabel presteert net zo goed als beeldmodellen in het Engels, maar overtreft ze ruimschoots in de andere vijf talen. Concurrerende modellen vertalen eerst prompts naar het Engels, terwijl NeoBabel direct afbeeldingen genereert vanuit meerdere talen. Snoek legt uit: 'Vertalingen verliezen de nuances van taal en cultuur, omdat veel woorden geen goede Engelse equivalenten hebben.' Een voorbeeld van zo'n verkeerde vertaling is hieronder te zien, waar de prompt vroeg om een ​​afbeelding van een eettafel en een beer.

De prompt vroeg in het Nederlands om een ​​afbeelding van een eettafel en een beer. In het Engels is een "beer" een biertje, wat de meeste afbeeldingsgeneratoren in de war brengt.

De onderzoekers verbeterden ook de labeling van de data die gebruikt werd om het AI-model te trainen. Ze gebruikten meertalige taalmodellen om beeldlabels in meerdere talen te vertalen en maakten die labels beschrijvender. Snoek: ‘Hierdoor kunnen we ons model in al deze talen tegelijk trainen. Voor elke taal leert het de relatie tussen de woorden en de pixels.’

Door de verbeterde data is het AI-model ook kleiner dan andere concurrerende modellen – in technische termen, het heeft minder parameters. Daarnaast breidden de onderzoekers de publiekelijk beschikbare dataset van beeld-labelparen uit van 40 miljoen naar 124 miljoen. Derakhshani: ‘Deze hoeveelheid data is normaal gesproken niet publiekelijk toegankelijk. We hebben de dataset enorm opgeschaald, ondanks onze beperkte rekenkracht.’

Richting video

NeoBabel opent een breed scala aan toepassingen, waaronder een meertalig creatief canvas. Op dit digitale canvas kunnen meerdere gebruikers op dezelfde afbeelding 'schilderen', elk in hun eigen taal. Derakhshani legt uit: 'Als ik alleen Perzisch spreek en jij alleen Nederlands, kunnen we samen een afbeelding creëren zonder Engels te gebruiken. Jij zou de eerste versie in het Nederlands kunnen maken, en ik kan dan een gebied markeren en de wijzigingen in het Perzisch beschrijven. Het model past de afbeelding daarop aan.'

Volgens Snoek is de volgende stap voor NeoBabel het creëren van cultuurspecifieke afbeeldingen. Dit vereist echter cultuurspecifieke data en meer rekenkracht. 'Met een substantiëlere computerinfrastructuur zouden we veel meer kunnen bereiken', zegt Snoek. 'Deze AI-modellen hoeven niet afkomstig te zijn van grote industriële laboratoria. De creativiteit is er, maar we missen de middelen om die te demonstreren.'

De onderzoekers zijn daarom op zoek naar samenwerkingspartners. Op de lange termijn willen ze NeoBabel uitbreiden naar videocreatie. Snoek: ‘Mijn droom zou zijn dat het ook video's zou kunnen produceren. Er is een groot televisiearchief in Hilversum, “Beeld en Geluid”. Het zou fantastisch zijn om met hen samen te werken aan de productie van Nederlandse cultuurvideo's.’

Links

NeoBabel webpagina op GitHub

Paper NeoBabel: A Multilingual Open Tower for Visual Generation (arXiv), Mohammad Mahdi Derakhshani, Dheeraj Varghese, Marzieh Fadaee, Cees G. M. Snoek

Prof. dr. C.G.M. (Cees) Snoek

Faculteit der Natuurwetenschappen, Wiskunde en Informatica

Informatics Institute