Google publiceerde zopas een paper over Learn Your Way, hun AI-verrijkte leerboekproject. Op het eerste gezicht klinkt het veelbelovend: een statisch handboek omzetten naar iets adaptiefs, multimodaal en gepersonaliseerd met generatieve AI. In hun proef scoorden leerlingen beter meteen na het leren, en zelfs drie dagen later bleken ze nog meer te onthouden. Case closed? Ik vrees van niet.
Het probleem van zelfevaluatie
Het eerste probleem is duidelijk: dit is een bedrijf dat zijn eigen product evalueert. Hetzelfde team dat de tool ontwierp, ontwierp ook de studie, rekruteerde de leerlingen en schreef het artikel. Dat betekent niet dat de data verzonnen zijn, maar het verhoogt wel de drempel voor geloofwaardig bewijs. Wanneer een innovatie door de ontwikkelaar zelf wordt getest, is scepsis geen cynisme, maar gewoon elementaire onderzoekslogica.
Een controlegroep die weinig bewijst
Een tweede probleem zit in de vergelijking. Learn Your Way werd namelijk afgezet tegen… Adobe Acrobat Reader. Met andere woorden: een interactieve, adaptieve, speelse, multimodale leeromgeving tegenover een statische pdf-lezer. Het is nauwelijks verrassend dat leerlingen de eerste leuker vonden én er iets meer van opstaken. Precies hier loert het Hawthorne-effect: deelnemers doen het beter omdat ze iets nieuws, glanzends en duidelijk op hen gericht krijgen. De onderzoekers melden zelfs dat alle leerlingen in de experimentele groep de quizzen en extra content gebruikten — een sterk signaal dat vooral de nieuwigheid en interactiviteit het verschil kunnen verklaren.
Nieuwigheid, betrokkenheid en het Hawthorne-effect
Daarbovenop: de steekproef is piepklein. Zestig leerlingen uit de regio Chicago, verdeeld in twee groepen van dertig, die één enkel leerboekhoofdstuk bestudeerden. Dat is een proof-of-concept, geen robuuste effectiviteitsstudie. Toch suggereren de auteurs dat dit een stap is naar een revolutie in leerboeken. Dat is alsof je een geneesmiddel goedkeurt omdat het één klas drie dagen lang beter deed presteren. Bovendien blijft volledig onduidelijk welke onderdelen het verschil maakten: de quizzen, de gepersonaliseerde metaforen, de ingesproken slides, of gewoon het feit dat de leerlingen wisten dat ze getest werden door Google.
Ook de ecologische validiteit is problematisch. Leerlingen studeerden 20–40 minuten in een gecontroleerde labomgeving, met duidelijke incentives om te presteren. Maar echte klaslokalen zijn rommelig, leerkrachten spelen een sleutelrol, en duurzame motivatie laat zich niet kweken met één korte sessie. De auteurs erkennen wel dat hun opzet beperkingen heeft, maar de toon van het artikel blijft opvallend triomfantelijk.
Wat de auteurs wél en níet meegeven
Om eerlijk te zijn: sommige beperkingen noemen de onderzoekers zelf. Ze geven toe dat ze slechts één hoofdstuk testten met een kleine groep, dat niet duidelijk is welke componenten van Learn Your Way precies effect sorteren, en dat een labsetting niet hetzelfde is als een klas. Dat zijn verstandige nuanceringen.
Maar ze laten opvallende dingen onbesproken. Ze vermelden nergens dat het Hawthorne-effect een mogelijke verklaring kan zijn. Ze erkennen niet dat Adobe Reader een extreem zwakke controlegroep is. En ze reflecteren helemaal niet op het feit dat dit onderzoek in wezen Google is dat Google beoordeelt. Die stiltes zijn minstens zo veelzeggend als de bekentenissen.
Hoe veelbelovend is dit onderzoek dus echt? In het beste geval toont het aan dat interactieve elementen en quizzen meer opleveren dan een platte pdf — iets wat het onderwijs al decennialang weet. In het slechtste geval is het een gelikt voorbeeld van het Hawthorne-effect: tijdelijke betere prestaties omdat leerlingen een nieuw speeltje krijgen.
De echte test moet nog komen: onafhankelijke replicaties, in verschillende vakken, met grotere en diversere populaties, en controlegroepen die werkelijk vergelijkbaar zijn. Tot die tijd moet je de headline “hogere testscores na drie dagen” lezen als een marketingteaser, niet als solide bewijs dat generatieve AI-leerboeken de toekomst van het onderwijs zijn.
Pingback: Het einde van de illusie? Microsoft kraakt zelf de medische AI-hype | X, Y of Einstein?