Ja, ik ben voorzichtig als het over de effectiviteit van AI in het onderwijs gaat en zeker ook nog steeds over onderzoek hierna. Niet omdat ik tegen AI zou zijn, maar om een heel ander soort reden. Een nieuwe reviewstudie van Edison Marino Cerón Salazar en Diana Carolina Burbano González laat me toe duidelijk te maken waarom.
De conclusie van de reviewstudie lijkt oprecht indrukwekkend. In maar liefst 89% van de studies vinden de onderzoekers positieve effecten. Case closed, toch? AI werkt. Alleen… zo eenvoudig is het niet.
Laat ons beginnen bij het goede nieuws. Dit is echt geen rommelstudie. De auteurs volgen netjes de regels van een systematische review, gebruiken PRISMA, screenen met meerdere onderzoekers en brengen 72 studies samen uit de periode 2014–2024. Dat is op zich waardevol. Zeker in een veld dat zo versnipperd is als AI in onderwijs.
En ja, er zit ook wel iets in die positieve bevindingen. Veel van deze systemen doen iets wat we al lang weten dat werkt: ze geven snelle feedback, laten leerlingen oefenen en passen het niveau een beetje aan. Dat zijn geen magische AI-eigenschappen. Dat zijn gewoon goede didactische principes die hun deugdelijkheid al lang bewezen hebben. Als technologie helpt om deze principes op schaal toe te passen, dan is het niet onlogisch dat je effecten ziet.
Maar net daar begint het probleem.
Die 89% zegt namelijk minder over hoe goed AI werkt en meer over hoe onderzoek in dit domein eruitziet. Om te beginnen is “positief effect” hier een brede categorie. Dat kan gaan van duidelijke leerwinst tot een lichte stijging in motivatie of zelfs kwalitatieve indrukken van verbetering. Dat telt men allemaal samen. Dat is op zich verdedigbaar binnen een review. Het is geen meta-analyse. Maar tegelijk maakt het de headline een stuk minder scherp dan ze lijkt.
Daarnaast zijn de studies zelf enorm verschillend. Onder de noemer “intelligente leersystemen” vallen hier heel uiteenlopende dingen: van klassieke intelligente tutors tot gamified apps en learning analytics dashboards. Verschillende vakken, leeftijden, contexten en implementaties bekeek men samen. Dat maakt het moeilijk om te zeggen wat nu precies wanneer werkt en waarom.
Nog belangrijker: veel van deze studies zijn methodologisch niet zo sterk als je zou hopen en dat is het grootste probleem dat ik met het onderzoeksveld heb. Kleine steekproeven, korte interventies, geen controlegroep of een combinatie daarvan. Bijna 40% van de interventies duurt ook minder dan vier weken. Bijna geen enkele studie kijkt naar effecten op de langere termijn. Wat je dan vaak meet, is niet zozeer leren, maar een combinatie van novelty (het Hawthorne-effect) en engagement op korte termijn.
En dan is er nog de grote olifant in de kamer: publicatiebias. Studies die positieve effecten vinden, worden gewoon vaker gepubliceerd. Ook al willen we daar met onder andere preregistratie tegenin gaan. Zeker in een veld dat zo sterk in de belangstelling staat als AI. Als je dan in een review 89% positieve resultaten ziet, moet je dat niet alleen lezen als “het werkt”, maar ook als “dit is wat er gepubliceerd raakt”.
Misschien nog het meest opvallend is waar die effecten gevonden worden. Het overgrote deel van de studies zit in STEM-domeinen en vooral in wiskunde. Ook dit lijkt me niet toevallig. Dat zijn net de domeinen waar kennis sterk gestructureerd is en waar adaptieve systemen relatief makkelijk op kunnen inspelen. Het zegt dus weinig over onderwijs in brede zin en nog minder over complexere domeinen zoals taal, geschiedenis of kritisch denken.
Wat in deze review – of beter in de studies die meegenomen werden – ook schittert door afwezigheid, is de rol van de leerkracht. Of beter: dit wordt wel genoemd, maar nauwelijks echt onderzocht. Nochtans weten we al lang dat je de impact van didactiek niet los kan zien van de persoon die ze uitvoert. Hoe een systeem gebruikt wordt. Hoe het ingebed zit in een les. Welke keuzes een leraar maakt… Dit alles bepaalt in grote mate mee het effect. Als je technologie onderzoekt zonder die context echt mee te nemen, dan lijkt het alsof het effect in het systeem zelf zit. Terwijl het evengoed, en waarschijnlijk vaker; zit in hoe het gebruikt wordt. Dat maakt het moeilijk om de gevonden effecten toe te schrijven aan “AI” op zich, in plaats van aan de bredere onderwijspraktijk waarin die technologie een rol speelt.
Samengevat: als je deze studie leest als bewijs voor de effectiviteit van AI in het onderwijs, dan lees je er meer in dan er staat. Als je ze leest als een bevestiging dat goede didactiek werkt en dat technologie dat soms kan ondersteunen, dan zit je dichter bij de realiteit.
Prima denkwerk. Ik vraag mij af hoever ‘ AI’ komt met dit soort metakritiek. Hooguit zal AI jouw soort beschouwingen, dus van echte mensen, meenemen, maar hier niet zelf opkomen.