Multilingual language technology that goes beyond where ChatGPT ends

16 mei 2023

Het Language and Technology Lab van de UvA helpt bij het creëren van taaltechnologieën voor talen waarvoor weinig data beschikbaar is en die niet door de grote techbedrijven worden bediend.

De afgelopen maanden heeft tekstgenerator ChatGPT de wereld versteld doen staan met het automatisch schrijven van mensachtige teksten in allerlei stijlen. Op basis van prompts die je intypt kan ChatGPT nieuwsartikelen, long reads, essays, gedichten, dialogen, scripts en zelfs grappen of computercode genereren. Het kan ook vragen beantwoorden en vertalen.

Opschalen

De fundamentele technieken van ChatGPT dateren uit 2017, maar sindsdien heeft OpenAI, het bedrijf dat de commerciële tekstgenerator heeft ontwikkeld, het model opgeschaald van 200 miljoen parameters naar 175 miljard parameters vorig jaar. Daarnaast heeft het de rekenkracht en trainingsgegevens zodanig opgeschaald dat de resultaten van dit jaar zelfs experts op dit gebied versteld hebben doen staan.

‘Wetenschappers konden ChatGPT zien aankomen’, zegt UvA-hoogleraar Christof Monz, ‘maar ik was toch verbaasd over hoe goed het werkt. Het is geweldig om te zien hoeveel belangstelling er nu is voor taaltechnologie. Dat laat zien hoe dicht menselijk denkvermogen en taal bij elkaar liggen en ook hoe belangrijk taal is om de indruk van een intelligent systeem te wekken.’

Het is geweldig om te zien hoeveel belangstelling er nu is voor taaltechnologie. Dat laat zien hoe dicht menselijk denkvermogen en taal bij elkaar liggen en ook hoe belangrijk taal is om de indruk van een intelligent systeem te wekken. Christof Monz

Dat gezegd hebbende, heeft ChatGPT lang niet alles in natuurlijke taalverwerking en taalgeneratie opgelost. Monz: ‘Het kan bijvoorbeeld plausibel ogende tekst genereren die feitelijk onjuist is, logisch inconsistent, of schadelijke vooroordelen bevat. Je moet je goed realiseren dat je de teksten van ChatGPT niet volledig kunt vertrouwen.’

Bij het Informatica Instituut leidt Monz het Language and Technology Lab, dat verder gaat waar ChatGPT ophoudt. Een van de tekortkomingen van ChatGPT is dat het enorme hoeveelheden data nodig heeft. De tekstgenerator wordt getraind op zoveel tekst, allemaal geschraapt van het internet, Wikipedia, online bibliotheken en andere bronnen, dat als één mens acht uur per dag en zeven dagen per week zou lezen, hij 22.000 jaar nodig zou hebben om te lezen wat ChatGPT tijdens zijn training heeft verwerkt.

‘Kleinere’ talen

Van de meer dan zevenduizend talen die wereldwijd worden gesproken, hebben de meeste echter zo weinig digitale gegevens beschikbaar dat ChatGPT deze ‘kleinere’ talen, waarvan vele trouwens nog talloze miljoenen sprekers hebben, niet kan begrijpen, genereren of vertalen. ‘Google Translate werkt voor ongeveer 140 talen,’ zegt Monz, ‘en het Europese equivalent DeepL voor ongeveer twintig talen. Maar vanuit het oogpunt van inclusiviteit wil je ook voor kleinere talen taaltechnologie aanbieden. Daar valt veel winst te behalen, en dat is een belangrijk onderdeel van wat wij in ons lab doen.’

Het Language and Technology Lab dat Monz leidt richt zich op machinaal vertalen, vraag-antwoordsystemen, het samenvatten van documenten en op niet-toxische taalgeneratie. Meertalige aspecten van taaltechnologieën vormen een rode draad in al dit onderzoek.

Monz: ‘We willen ook talen kunnen vertalen waarvoor weinig of geen gegevens bestaan. Neem het voorbeeld van het vertalen tussen Arabisch en Nederlands. Verrassend genoeg zijn er weinig teksten beschikbaar die van het Arabisch naar het Nederlands zijn vertaald, te weinig om onze deep learning-modellen op te trainen. Daarom trainen we onze systemen op andere taalparen waarvoor we wel veel data hebben, bijvoorbeeld Arabisch-Engels, Engels-Chinees en Nederlands-Engels. We proberen een systeem te ontwikkelen dat taalonafhankelijke representaties kan vinden voor meertalige zinnen met dezelfde betekenis.’

Deep learning-systemen zijn in wezen neurale netwerken waarin kunstmatige neuronen zijn geordend in tientallen of honderden lagen die duizenden tot miljarden neuronen met elkaar verbinden. Het aantal verbindingen tussen de neuronen is het aantal parameters van het model. Twee zinnen in twee verschillende talen hebben dezelfde weergave als alle parameters gelijk of ongeveer gelijk zijn.

‘We proberen technieken te ontwikkelen die dezelfde representatie geven voor meertalige zinnen met dezelfde betekenis’, zegt Monz. ‘We zijn er nog niet, maar in het ideale geval, als een Arabische zin dezelfde representatie heeft als een Nederlandse zin, heb je de Nederlandse vertaling van de Arabische zin gevonden zonder dat er expliciete vertaalgegevens van het Arabisch naar het Nederlands beschikbaar zijn.’

Meer informatie

https://openai.com/blog/chatgpt

Multilingual language technology that goes beyond where ChatGPT ends

Opschalen

‘Kleinere’ talen

Meer informatie

Cookie Consent