Vorig jaar schreef ik hier al over wat ik toen de stilte van de tegenstem bij AI noemde. Het probleem is vrij eenvoudig: veel chatbots zijn zo ontworpen dat ze behulpzaam, vriendelijk en bevestigend reageren. Dat maakt interacties aangenaam, maar het kan ook betekenen dat je minder snel echte tegenspraak krijgt. Of zoals ik het toen samenvatte: als we niet oppassen, maken LLM’s ons het vooral comfortabeler, maar maken ze ons niet noodzakelijk wijzer. Een nieuwe preprint die Jan me tipte geeft nu een interessante wetenschappelijke uitwerking en experimentele onderbouwing van precies dat probleem.
Niet hallucinaties, maar vleierij
Wanneer het over AI-problemen gaat, denken we meestal aan hallucinaties: systemen die simpelweg verkeerde informatie verzinnen. Maar deze studie kijkt naar iets anders: sycophancy.
Dat betekent dat een model geneigd is om antwoorden te geven die aansluiten bij wat de gebruiker lijkt te denken of te geloven. Niet noodzakelijk omdat het waar is, maar omdat het gesprek zo beter “loopt”. Dat lijkt op het eerste gezicht een klein probleem. In werkelijkheid kan het vrij fundamentele gevolgen hebben voor hoe mensen hun overtuigingen vormen.
Zekerder worden zonder dichter bij de waarheid te komen
De auteurs, Batista & Griffiths, analyseren dit probleem eerst theoretisch. Ze vertrekken vanuit een vrij klassiek idee uit de cognitieve wetenschap: mensen hebben een hypothese over de wereld en gebruiken nieuwe informatie om die hypothese bij te stellen. Als die nieuwe informatie uit de werkelijkheid komt, kan je stap voor stap dichter bij de waarheid komen. Mooi principe.
Maar… wanneer een large language model zoals ChatGPT antwoorden genereert die gebaseerd zijn op jouw hypothese, dan gebeurt er iets anders. Dan krijg je telkens voorbeelden die passen bij je oorspronkelijke idee. Het gevolg is paradoxaal: je vertrouwen in dat idee kan toenemen, terwijl je in werkelijkheid geen nieuwe onafhankelijke informatie hebt gekregen.
Je bevestigt dus eigenlijk je eigen hypothese met data die door diezelfde hypothese zijn gefilterd. Je danst als het ware met jezelf.
Het experiment
Om dit alles te testen gebruikten de onderzoekers een variant van de bekende 2-4-6-taak van Peter Wason. Deelnemers moesten de regel ontdekken achter een reeks getallen terwijl ze met een AI-agent communiceerden. De AI gaf verschillende soorten feedback: bevestigend, tegensprekend, willekeurig of gewoon het standaardgedrag van een chatbot.
Wat bleek? Wanneer deelnemers willekeurige voorbeelden kregen die niet afgestemd waren op hun hypothese, ontdekten ongeveer 29,5% van hen de juiste regel. Met een standaard AI-chatbot was dat nog maar ongeveer 5,9%.
Tegelijk gebeurde er nog iets anders: de deelnemers werden zelfverzekerder over hun eigen hypothese wanneer de AI bevestigend reageerde.
Kort samengevat: minder correcte antwoorden, maar meer zelfvertrouwen dat ze correct zijn.
AI als echo
Wat deze studie interessant maakt, is dat het probleem niet noodzakelijk bij de gebruiker hoeft te liggen. Zelfs een eerder rationele redeneerder kan misleid worden wanneer de informatiebron systematisch voorbeelden genereert die passen bij de bestaande hypothese. De AI fungeert dan eigenlijk als een soort epistemische echo.
Dat sluit dus opvallend goed aan bij het punt uit mijn eerdere blog: wanneer technologie de tegenstem wegfiltert, wordt denken comfortabeler maar ook kwetsbaarder.
Misschien moet een goede AI soms tegenspreken
Dit betekent uiteraard niet dat AI onbruikbaar is voor denken of leren. Maar het suggereert wel dat het ontwerp van zulke systemen belangrijk is. Een AI die altijd bevestigt is een aangename gesprekspartner (alhoewel…) Maar een AI die soms tegenvoorbeelden geeft of je hypothese onder druk zet, is waarschijnlijk een betere denkpartner.