9 december 2025
Een kind denkt veel flexibeler dan AI dat volgens vaste patronen denkt. Hierdoor hebben grote taalmodellen zoals ChatGPT nog altijd moeite met het soort flexibel redeneren dat kinderen al vanaf jonge leeftijd beheersen.
De onderzoekers vergeleken de prestaties van kinderen tussen de 7 en 9 jaar, volwassenen en vier van de belangrijkste AI-modellen van dit moment - waaronder ChatGPT- op een reeks analogie puzzels. Een analogie puzzel is een denkopgave waarbij je zoekt naar hetzelfde soort verband of overeenkomst tussen twee verschillende situaties. Het gaat bij zo’n puzzel niet om wat dingen zijn, maar om hoe ze tot elkaar in relatie staan. Bijvoorbeeld: Lichaam is tot voeten als boom is tot (wortels). Of: paard is tot stal als kip is tot (kippenhok).
In het onderzoek werden op tekst gebaseerde puzzels gebruikt. ‘Taalmodellen hebben nog veel moeite met het begrijpen van visuele puzzels’, legt hoofdonderzoeker Claire Stevenson van de UvA uit. ‘Maar de puzzel mocht ook geen moeilijke woorden bevatten die kinderen niet begrijpen.’ Ze kwamen daarom uit op letterreeksen. ‘Hier heb je bijna geen speciale kennis voor nodig’, stelt Stevenson. ‘Je kunt daardoor goed ontdekken hoe mensen en AI op een gelijk speelveld analogieën oplossen.’
De kinderen, volwassenen en AI moesten letterreeksen voorspellen die steeds veranderden volgens één of meer regels. Bijvoorbeeld: als ‘ab’ verandert in ‘ac’, wat moet er dan gebeuren met ‘gh’? Ze moesten dezelfde logica vervolgens toepassen in andere ‘alfabetten’: het Griekse alfabet en een alfabet met onbekende symbolen.
De resultaten waren duidelijk: kinderen en volwassenen pasten hun kennis vrij makkelijk toe in de onbekende domeinen - het Griekse en symbolen alfabet - terwijl de AI-modellen dat minder goed konden. Vooral bij het symbolenalfabet stortte de AI-prestatie in: waar kinderen gemiddeld 67% van de opgaven goed hadden, en zelfs beter scoorden in dit nieuwe en onbekende alfabet, daalden de modellen soms tot onder de 20%.
Volgens de onderzoekers laat dit zien dat er een wezenlijk verschil is tussen menselijk en kunstmatig redeneren. ‘Zelfs jonge kinderen begrijpen intuïtief dat een alfabet een geordende reeks is,’ legt Stevenson uit. ‘AI-modellen missen dat abstracte inzicht: ze herkennen vooral patronen in situaties die ze al kennen. Zodra de context verandert, kunnen ze de onderliggende structuur niet meer toepassen.’
Kennis flexibel toepassen in nieuwe situaties blijft dus vooralsnog een kenmerk van menselijke intelligentie. Het is de vraag of kunstmatige intelligentie dit ooit op vergelijkbare wijze zal kunnen.
‘Bij de ontwikkeling van AI wordt steeds meer gekeken naar hoe mensen doen en denken’, stelt Stevenson tenslotte. ‘Hoe ontwikkelen baby’s zich bijvoorbeeld en geeft dat handvaten voor hoe AI het beste kan leren? Het begint dus eigenlijk allemaal met psychologie!’
Claire E. Stevenson, Alexandra Pafford, Han L. J. van der Maas en Melanie Mitchell, 2025, 'Can large language models generalize analogy solving like children can?' Het artikel zal in de volgende editie van het tijdschrift Transactions of the Association of Computational Linguistics verschijnen (januari 2026), maar is nu al hier in te zien
Het onderzoek werd medegefinancierd door de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) binnen het project Learning to solve analogies: Why do children excel where AI models fail?