Heeft AI een aandachtsprobleem?

De voorbije jaren hoorde ik geregeld dat AI-systemen werken met attention. Dat woord komt niet toevallig terug in de beroemde titel van het artikel dat de huidige generatie taalmodellen mogelijk maakte: Attention is All You Need. Maar hoe vergelijkbaar is die aandacht eigenlijk met menselijke aandacht? Een nieuwe studie van Suketu Patel en collega’s probeerde daar een antwoord op te geven met een van de bekendste experimenten uit de cognitieve psychologie: de Strooptest.

Misschien ken je deze test nog uit lessen psychologie. Je krijgt woorden te zien zoals “rood”, “blauw” of “groen”, maar de kleur van de letters komt niet overeen met het woord zelf. Het woord ROOD staat bijvoorbeeld in blauwe letters. De opdracht is simpel: noem de kleur van de letters en negeer het woord.

Dat blijkt verrassend moeilijk. Ons brein leest woorden namelijk automatisch. Zelfs wanneer we weten dat we dat niet moeten doen, blijft die betekenis zich opdringen. De Strooptest wordt daarom al bijna een eeuw gebruikt om iets te meten wat psychologen executieve controle noemen: het vermogen om een automatische reactie te onderdrukken en je aandacht gericht te houden op wat op dat moment relevant is.

De onderzoekers lieten GPT-4o en Claude 3.5 Sonnet deze taak uitvoeren. Op het eerste gezicht leek er weinig aan de hand. Bij korte lijstjes van vijf woorden deden beide modellen het behoorlijk goed. Net als mensen maakten ze meer fouten wanneer woord en kleur niet overeenkwamen dan wanneer ze wel overeenkwamen. Tot daar lijkt het verhaal zelfs geruststellend. Maar daarna maakten de onderzoekers de lijstjes langer en ging het fout.

Waar mensen hun prestaties meestal vrij goed behouden, begonnen de taalmodellen steeds meer moeite te krijgen. Vooral bij langere reeksen van twintig of veertig woorden stortten de prestaties in. GPT-4o zakte bij de incongruente conditie naar nauwelijks 15% correcte antwoorden. Claude hield iets langer stand, maar viel uiteindelijk ook terug naar ongeveer 24%. Tegelijk bleef het lezen van de woorden zelf vrijwel perfect verlopen.

Het probleem was dus niet dat de modellen de woorden niet konden zien of herkennen. Het probleem was dat ze de verkeerde taak bleven uitvoeren. Ze bleven als het ware automatisch het woord lezen, terwijl de opdracht was om de kleur te benoemen.

Volgens de auteurs wijst dit op een verschil tussen de aandacht van transformers en menselijke aandacht. Mensen beschikken niet alleen over mechanismen om informatie te selecteren, maar ook over mechanismen om conflicten op te lossen en doelen vast te houden. Wanneer we merken dat een taak moeilijk wordt, kunnen we extra controle inzetten. Die vorm van executieve controle lijkt veel minder aanwezig in de huidige taalmodellen, of toch deze die werden getest in deze experimenten.

Er is wel enige voorzichtigheid op zijn plaats. De studie zegt namelijk niet dat AI geen aandacht heeft. Ze zegt ook niet dat AI “dom” is. Integendeel. De modellen presteerden uitstekend op andere onderdelen van de taak en kunnen uiteraard tal van dingen die mensen niet kunnen. Bovendien gaat het hier om een specifieke experimentele taak die ontworpen werd om één bepaald aspect van aandacht te meten. Zoals altijd geldt: een laboratoriumtaak is geen volledige beschrijving van intelligentie.

Toch vond ik het onderzoek interessant genoeg om erover te bloggen omdat het iets blootlegt dat we soms vergeten wanneer we met AI werken. Wanneer een taalmodel een fout maakt, denken we vaak dat het een kennisprobleem is. Het model weet iets niet of heeft ergens verkeerde informatie geleerd. Deze studie suggereert dat sommige fouten misschien eerder lijken op aandachtsfouten. Het gaat dan dus niet omdat het model onvoldoende informatie heeft, maar omdat het moeite heeft om een doel consequent vast te houden wanneer er concurrerende signalen aanwezig zijn.

Dat wijst in feite op een opvallende paradox. Moderne taalmodellen beschikken over contextvensters van honderdduizenden woorden. Ze kunnen enorme hoeveelheden informatie verwerken. Maar meer geheugen blijkt niet automatisch hetzelfde als meer controle. De onderzoekers wijzen erop dat toekomstige AI-systemen misschien niet alleen grotere contextvensters nodig hebben, maar ook betere mechanismen om relevante informatie te selecteren, conflicten op te lossen en doelen vast te houden.

Intelligentie gaat niet alleen over hoeveel informatie je kunt verwerken. Soms gaat ze ook over het vermogen om de juiste informatie te negeren. Dat blijkt al lastig voor mensen. En vooralsnog blijkbaar ook voor AI. Ergens vind ik dat op een vreemde manier geruststellend.

Geef een reactie