Voor de beste ervaring schakelt u JavaScript in en gebruikt u een moderne browser!
Je gebruikt een niet-ondersteunde browser. Deze site kan er anders uitzien dan je verwacht.
Dit jaar braken AI-systemen die menselijke teksten schrijven wereldwijd door. Toch zijn veel wetenschappelijke vragen over hoe ze precies werken nog onbeantwoord. Drie UvA-onderzoekers proberen de onderliggende taalmodellen transparanter, betrouwbaarder en menselijker te maken.

De lancering van ChatGPT door OpenAI op 30 november 2022 betekende een game-changer voor kunstmatige intelligentie (AI). Ineens maakte het grote publiek kennis met de kracht van schrijvende machines. Een kleine twee maanden later had ChatGPT al honderd miljoen gebruikers. 

Inmiddels gebruiken studenten het om essays te schrijven, programmeurs om code te genereren en bedrijven voor het automatiseren van allerhande schrijftaken. Tegelijkertijd zijn er grote zorgen over de onbetrouwbaarheid van automatisch gegenereerde teksten en over het napraten van stereotypen en discriminatie die in de trainingsdata zitten.

Wereldwijd sprongen media snel bovenop ChatGPT met verhalen die heen en weer slingerden tussen jubel en onheil. 'Vóór de lancering van ChatGPT vond ik het in de media lange tijd oorverdovend stil', zegt UvA-onderzoeker Jelle Zuidema, 'terwijl mijn collega's en ik de afgelopen jaren meerdere malen aan de bel hebben getrokken om te vertellen dat er een belangrijke ontwikkeling aan zat te komen.'

'Het probleem van grote taalmodellen is dat kennis niet op een voor mensen begrijpbare manier opgeslagen ligt' Jelle Zuidema

Zuidema is universitair hoofddocent Natural Language Processing, Explainable AI and Cognitive Modelling aan het Institute for Logic, Language and Computation (ILLC). Hij pleit voor een nuchtere discussie over het gebruik van grote taalmodellen, het soort model dat de basis vormt van ChatGPT (zie Kader 1). Zuidema: 'We hebben er niets aan om deze ontwikkeling ofwel te bagatelliseren ofwel er moreel zeer verontwaardigd over te doen, zo van: het is alleen maar plagiaat. Studenten gebruiken het, wetenschappers gebruiken het, programmeurs gebruiken het, en veel andere groepen in de maatschappij gaan ermee te maken krijgen. Dan moeten we het hebben over vragen als: Welke consequenties gaan taalmodellen hebben? Welke banen gaan veranderen? Wat gebeurt er met de eigenwaarde van tekstschrijvers?'

Onder de motorkap

Een belangrijke wetenschappelijke vraag is de vraag wat er precies onder de motorkap van een groot taalmodel gebeurt. 'Het probleem van grote taalmodellen is dat kennis niet op een voor mensen begrijpbare manier opgeslagen ligt', zegt Zuidema. 'Die kennis is namelijk gerepresenteerd in een heleboel getalletjes, de parameters van het diepe neurale netwerk. Maar we weten niet wat die getalletjes betekenen.'

Dat heeft grote consequenties. Het is bekend dat grote taalmodellen vaak onwaarheden verkondigen – feiten die niet kloppen, biografieën of verwijzingen die zijn verzonnen – en dat ze stereotype of haatdragende uitingen die in de trainingsdata zitten herhalen. 'Met de huidige technologie is het moeilijk om daar structureel iets aan te doen', zegt Zuidema. 'Daarom ben ik met mijn onderzoeksgroep in de afgelopen jaren technieken gaan ontwikkelen waarmee we wel kunnen begrijpen wat er in die taalmodellen omgaat. Daarmee hopen we ze ook betrouwbaarder te maken.'

Jelle Zuidema
Jelle Zuidema

Twee belangrijke aspecten van menselijke intelligentie waarop ChatGPT slecht scoort, zijn logisch redeneren en rekenen. Neem het volgende raadsel: 'Ik laat vijf t-shirts buiten drogen in de zon. Na vijf uur zijn ze alle vijf droog. Hoe lang duurt het dan voordat dertig t-shirts buiten in de zon zijn gedroogd?' ChatGPT antwoordt hierop: 'dertig uur'. Dat moet natuurlijk vijf uur zijn. 'Grote taalmodellen die ook kunnen redeneren is een van de grootste uitdagingen', zegt Zuidema. 'De afgelopen jaren heeft de logica in de hoek gezeten waar de klappen vielen, maar in het huidige AI-onderzoek heeft de logica weer een heel nieuwe relevantie gekregen.'

Om inzicht te krijgen in hoe een groot taalmodel onder de motorkap werkt, ontwikkelde Zuidema een soort detectoren, bijvoorbeeld een detector die opspoort of er in een taalmodel een logische redenering aan de gang is, of een detector die achterhaalt hoe het taalmodel getallen representeert. Zuidema: 'Neem deze twee zinnen: 'de treinen rijden wel' en 'de treinen rijden niet'. De tweede zin is de ontkenning van de eerste. Onze detector zoekt dan hoe deze ontkenning in het diepe neurale netwerk gerepresenteerd is. Als we dat snappen, kunnen we hopelijk ook ingrijpen op het moment dat het model redeneerfouten maakt.'      

Zuidema gebruikte ook een eenvoudig logisch model om eerst logische raadsels te genereren, daarna een taalmodel hierop te trainen en tenslotte te onderzoeken of ze konden ontdekken hoe het model die raadsels oplost. 'Dat lukt tot nu toe alleen voor hele eenvoudige logica's', zegt Zuidema. 'Het zijn kleine stappen vooruit, maar ze zijn wel noodzakelijk om een nieuwe generatie grote taalmodellen veel beter te laten redeneren.'

Stereotypen

Grote taalmodellen zijn op zoveel ongefilterde data getraind dat er automatisch allerlei stereotypen in zitten. Promovenda Rochelle Choenni onderzoekt binnen het ILLC welke stereotypen voorkomen in de trainingsdata en hoe gevoelig de taalmodellen zijn voor stereotypen.

Via zoekopdrachten in de zoekmachines van Google, Yahoo en DuckDuckGo maakte Choenni een database van meer dan tweeduizend stereotypen in de Engelse taal over beroepen, sociale groepen, land van herkomst, gender, leeftijd en politieke overtuiging. Choenni: 'Dat levert bijvoorbeeld stereotypen over zwarte mensen als snel, atletisch, gehaat, boos en luidruchtig. En voor millennials vonden we stereotypen als fragiel, nostalgisch, eenzaam en gebroken.'

Vervolgens onderzocht ze wat er met stereotypen gebeurt wanneer een taalmodel wordt verfijnd door het op zorgvuldig geselecteerde nieuwe teksten te trainen. Choenni: 'Daarvoor hebben we bijvoorbeeld teksten van Fox News genomen en teksten van The New Yorker. In de resultaten zagen we de stereotypen dan vrij snel veranderen. Train je op Fox News, dan zie je bijvoorbeeld dat het stereotype beeld over een politieagent positiever wordt. Maar train je op The New Yorker, dan wordt het beeld juist negatiever. Stereotypen in taalmodellen kunnen dus snel verschuiven afhankelijk van de teksten waarmee je ze traint.'

Rochelle Choenni
Copyright: Academic Affairs
Stereotypen in taalmodellen kunnen dus snel verschuiven afhankelijk van de teksten waarmee je ze traint. Rochelle Choenni

De promovenda benadrukt dat het belangrijk is om een onderscheid te maken tussen stereotypische informatie die in de trainingsdata zit en vooringenomenheden in het gedrag van een taalmodel. 'Net zoals mensen stereotypen kennen, maar deze niet automatisch hoeven te gebruiken in hun gedrag, zo geldt dat ook voor taalmodellen', zegt ze. 'Alleen als een taalmodel stereotypen die in de trainingsdata zitten ook daadwerkelijk gebruikt voor het genereren van een nieuw stuk tekst, dan zijn ze een probleem.'

Choenni onderzocht stereotypen in eerste instantie in een taalmodel dat alleen was getraind op Engelstalige teksten. Maar hoe zit het in taalmodellen die meerdere talen tegelijk aankunnen? Dat soort modellen wordt steeds meer gebruikt. Momenteel onderzoekt de promovenda wat daarin gebeurt met stereotypen: 'Verschillende culturen gebruiken verschillende stereotypen, en zo komen ze in verschillende talen terecht. Het zou kunnen dat het probleem van stereotypen zichzelf oplost wanneer je een taalmodel maar op genoeg talen traint, maar op dit moment weten we niet of dat zo is.'

Hoe kijkt Choenni aan tegen het huidige massale gebruik van taalmodellen waarvan we weten dat de trainingsdata vol zitten met stereotypen? 'Ik denk niet dat het realistisch is om alle stereotypen uit de trainingsdata te halen. Dat is veel te complex. Bovendien is niet elk stereotype per definitie negatief. Als ik zeg 'Nederlanders zijn lang', dan is dat een stereotype dat als statistisch gemiddelde waar is. Het belangrijkste is dat mensen zich überhaupt bewust zijn van het feit dat taalmodellen soms stereotypen kunnen produceren.'

Chatbots menselijker maken

Waar Zuidema en Choenni proberen om binnenin grote taalmodellen te kijken hoe ze werken, probeert UvA-hoogleraar Computational Linguistics & Dialogue Systems Raquel Fernández, ook verbonden aan het ILLC, een brug te slaan tussen grote taalmodellen en de manier waarop mensen taal gebruiken. Fernández: 'Ik ben geïnteresseerd in hoe mensen met elkaar praten en hoe we dit vermogen op een natuurlijke manier kunnen overbrengen op machines.'

Voor computationeel taalkundigen als Fernández bieden grote taalmodellen ineens een nieuw instrument om allerlei eigenschappen van menselijke dialogen te kwantificeren en te testen of bepaalde hypothesen over menselijk taalgebruik kloppen. Zo is een van de theorieën uit de psycholinguïstiek dat mensen onbewust hun taalgebruik zo aanpassen dat hun gesprekspartner hen met zo min mogelijk inspanning kan begrijpen. Bijvoorbeeld door een zin korter te maken, of door eenvoudigere woorden of eenvoudigere constructies te gebruiken.                       

Raquel Fernández
Raquel Fernández

Fernández: 'Met deze krachtige taalmodellen kunnen we tot op zekere hoogte kwantificeren hoe mensen taal gebruiken. Dan zien we dat mensen inderdaad proberen om zo te spreken dat de ander hen met minimale inspanning begrijpt. Maar we zien ook dat voor sommige zinnen en voor sommig taalgebruik de modellen die inspanning onderschatten. Dat komt doordat grote taalmodellen op veel meer teksten zijn getraind dan jij en ik ooit kunnen lezen.'

Behalve dit theoretische werk probeert Fernández taalmodellen uit te breiden door ze te verankeren in de visuele wereld, door ze als het ware ogen te geven. 'Wij mensen leren taal terwijl we contact hebben met de fysieke werkelijkheid. Visuele informatie is daarvan een belangrijk onderdeel. We verwachten dat een taalmodel dat tegelijk leert van plaatjes, taal beter leert. In een van onze onderzoeksprojecten koppelen we taal aan de gebaren die mensen tijdens het praten maken. Zeker wanneer je automatische dialoogsystemen wilt toepassen in bijvoorbeeld het onderwijs of in de gezondheidszorg is visuele informatie over houding, gebaren of gezichtsuitdrukkingen heel nuttig.'

Hoewel grote taalmodellen heel goed zijn in het genereren van taal, is het moeilijk om ze een specifieke taak te laten doen, zoals een restaurant of een ticket boeken. Fernández: 'Taalmodellen genereren wat het meest waarschijnlijk is en ze zijn niet getraind om samen met jou het doel te bereiken dat jij voor ogen hebt. Daarvoor moet het systeem weten wat het doel is en hoe het dat kan bereiken. Dat is op dit moment een grote uitdaging.'

Samen met een consortium van enkele Nederlandse universiteiten en bedrijven als Ahold Delhaize, Achmea, bol.com en KPN werkt Fernandez sinds afgelopen januari in het project LESSEN, gefinancierd door NWO. 'Hierin willen we chatgebaseerde conversationele AI-agenten ontwikkelen waar het Nederlandse bedrijfsleven concreet iets aan heeft', zegt Fernández. 'En dat willen we doen op een manier dat we minder trainingsdata nodig hebben, voor kleinere talen zoals het Nederlands en ook voor specifieke domeinen.'

Taalmodellen genereren wat het meest waarschijnlijk is en ze zijn niet getraind om samen met jou het doel te bereiken dat jij voor ogen hebt. Daarvoor moet het systeem weten wat het doel is en hoe het dat kan bereiken. Dat is op dit moment een grote uitdaging. Raquel Fernández

Toekomstverwachtingen

Hoe zien de drie UvA-onderzoekers de toekomst van de toepassingen van grote taalmodellen in de maatschappij?

Ondanks alle hobbels die nog op de weg liggen van een verantwoord gebruik van grote taalmodellen, is Rochelle Choenni tamelijk optimistisch: 'Het is net als met sociale media. Ook die hebben nadelen waarmee we leren omgaan. Grote taalmodellen zijn er en gaan nooit meer weg. We moeten we gewoon met ze leren omgaan. Het grootste voordeel van grote taalmodellen is volgens mij dat ze kennis nog toegankelijker gaan maken dan het internet al heeft gedaan. Maar voor succesvolle toepassingen zullen informatici wel moeten samenwerken met mensen uit andere disciplines, zoals psychologen, filosofen en sociologen.'       

Raquel Fernández wijst erop dat veel maatschappelijke sectoren een groot personeelstekort hebben dat deels kan worden opgelost door machines die goed met mensen kunnen communiceren. Fernández: 'In het onderwijs en de gezondheidszorg zie ik grote mogelijkheden voor conversationele AI agenten. De dialoog is een krachtig instrument, of het nu door een leraar of door een educatieve chatbot wordt gebruikt. En wanneer een chatbot mensen in een kwetsbare positie helpt omdat ze empathie van een machine voelen, waarom niet? Daarbij hebben we wel een grote verantwoordelijkheid. Ik vind wel dat we duidelijk moeten aangeven of mensen met een machine communiceren.'

Jelle Zuidema denkt dat we taalmodellen gaan krijgen die gespecialiseerd zijn in specifieke domeinen: 'Ik verwacht bijvoorbeeld veel toepassingen in het onderwijs. Met taalmodellen kun je onderwijsassistenten bouwen die oneindig veel geduld hebben. En we zullen betere interfaces gaan krijgen die gebruikers in staat stellen gemakkelijker en beter samen te werken met grote taalmodellen.' Zuidema roept hierbij wel de overheid op om in actie te komen en het maatschappelijke gebruik van grote taalmodellen in goede banen te leiden: 'Ik hoop zeer dat overheden regelgeving ontwikkelen die afdwingt dat toepassingen van grote taalmodellen alleen gebruikt mogen worden wanneer ze aan allerlei veiligheidseisen voldoen.'

Over de geïnterviewden

Jelle Zuidema
  • Associate professor in Computational Linguistics and Cognitive Science at the Institute for Logic, Language and Computation
Raquel Fernández
  • Professor in Computational Linguistics and Dialogue Systems at the Institute for Logic, Language and Computation;
  • Leading the Dialogue Modelling Group;
Rochelle Choenni
  • PhD Candidate in Natural Language Processing at the Institute for Logic, Language and Computation;
Lees meer over het onderzoeksthema Smart

De ontwikkelingen binnen de informatietechnologie gaan razendsnel. Wereldwijd, maar ook aan de UvA. Aan de Faculteit der Natuurwetenschappen, Wiskunde en Informatica vatten we al het onderzoek rondom dit thema samen onder de noemer Smart.

Bekijk onze themapagina Smart voor meer onderzoek op het gebied van AI, maar ook bijvoorbeeld big data en quantumcomputing. 

Meer interessant AI-onderzoek uit de regio

De UvA maakt deel uit van de coalitie Amsterdam AI, technology for people. Een uniek samenwerkingsverband tussen Amsterdamse kennisinstellingen, onderzoeks-en medische centra, de gemeente Amsterdam en Amsterdam Economic Board. Deze Amsterdamse coalitie richt zich op de ontwikkeling en toepassing van verantwoorde AI door de kracht van AI te combineren met een mensgerichte aanpak. 

Meer informatie? AmsterdamAI.com