Stel je voor dat je tijdens je universiteitsopleiding een paper indient. Een paar dagen later krijg je feedback. Uitgebreid. Beleefd. Goed gestructureerd. Misschien zelfs empathisch geformuleerd. Alleen: niemand heeft je tekst echt gelezen.
Dat scenario komt dichterbij dan veel mensen denken. Een nieuw Brits onderzoeksproject van onder meer Cambridge, Nottingham en Manchester Metropolitan University onderzocht hoe goed AI-systemen zoals ChatGPT, Claude en Gemini universitaire essays kunnen beoordelen. Niet met artificiële testjes, maar met echte examens van psychologiestudenten van drie verschillende universiteiten. De onderzoekers vergeleken AI-scores met de punten die menselijke beoordelaars oorspronkelijk hadden gegeven.
En het resultaat is tegelijk indrukwekkend en toch ook problematisch, maar misschien niet op de manier die je vermoedt. De AI-systemen bleken namelijk opvallend consistent. Soms zaten ze qua overeenstemming zelfs in de buurt van wat je normaal tussen twee menselijke beoordelaars ziet. Bovendien waren de AI-systemen onderling vaak consistenter dan mensen onderling.
Maar… consistentie is niet noodzakelijk hetzelfde als goed beoordelen. Want zodra de onderzoekers beter keken naar waar AI precies op reageerde, ging het mis. De systemen bleken namelijk systematisch gevoeliger voor de taalvorm dan menselijke beoordelaars. Langere essays kregen makkelijker hogere scores. Net als teksten met complexere zinnen, rijkere woordenschat en meer verbindingswoorden tussen ideeën.
Dat is eigenlijk logisch. Een taalmodel voorspelt taal. Het “begrijpt” een essay niet zoals een docent of lesgever dat probeert te doen. De software zoekt statistische patronen die vaak samengaan met goede teksten. Alleen blijken die patronen niet altijd synoniem met kwaliteit.
Nog opvallender was een tweede effect: AI had de neiging om alles richting het midden te trekken. Zwakke essays kregen relatief te hoge scores, sterke essays relatief te lage. Net daar waar evaluatie vaak het belangrijkst wordt, aan de grenzen tussen slagen en falen of tussen gemiddeld en excellent, bleek AI dus het minst betrouwbaar.
Dat maakt dit onderzoek interessanter dan zoveel discussies over “AI werkt” of “AI werkt niet”. De systemen werken namelijk duidelijk (deels) wél. Alleen niet noodzakelijk op de manier waarop onderwijs evaluatie bedoeld heeft.
En daar wordt het pedagogisch/didactisch relevant. Want in de focusgroepen ging het uiteindelijk minder over technologie dan over relaties. Studenten en docenten beschreven evaluatie als deel van een soort sociaal contract. Feedback gaat niet alleen over punten, maar ook over erkenning. Over het gevoel dat iemand je werk echt heeft gelezen. Dat iemand je denken probeert te begrijpen.
Een deelnemende student formuleerde het scherp:
“If both the students and the teachers are using it, then like, who’s learning? What are we doing here?” (op pagina 2)
Een zin die ik zelf al een paar keer gelijkaardig heb geformuleerd. Dat klinkt misschien dramatisch, maar het raakt wel een fundamentele vraag. Wat is evaluatie eigenlijk? Alleen een efficiënte manier om prestaties te classificeren? Of ook een essentieel onderdeel van onderwijs zelf?
De onderzoekers zijn trouwens opvallend genuanceerd. Ze zeggen niet dat AI nooit gebruikt mag worden in evaluatie. Integendeel. Ze zien mogelijke toepassingen in moderatie, kwaliteitscontrole of extra feedback. Dat laatste is een manier waarop ik het zelf gebruik. Ik merkte hierbij ook de beweging naar het midden, maar gelukkig lees en beoordeel ik alles eerst en vooral zelf. Sommige studenten ontdekten de voorbije maanden zelfs dat ik soms zo ver ga als het opsnorren en doornemen van hun geciteerde bronnen*.
En dat alles sluit aan bij de waarschuwing van de onderzoekers dat universiteiten zeer voorzichtig moeten zijn met automatische beoordeling als primaire evaluator.
* Ik weet dat sommige van mijn studenten deze blog ook regelmatig lezen en nu een smile van herkenning zullen hebben.