Er wordt tegenwoordig veel beweerd over wat AI allemaal zal doen met onderwijs. Het zal lesgeven efficiënter maken, evalueren eerlijker, leren persoonlijker. Of net niet: het zal leraren overbodig maken, leerlingen dommer, en ongelijkheid groter. Maar wat weten we daar eigenlijk écht over? Elke keer ik hierover vragen krijg, moet ik zuchten. Ik probeer zelf dit onderwerp op te volgen, maar ik bots op behoorlijke uitdagingen naast het ogenschijnlijke overaanbod aan onderzoek.
Als je de literatuur erop naslaat, is het antwoord namelijk minder geruststellend dan de koppen suggereren. De meeste onderzoeken naar AI in onderwijs zijn methodologisch zwak. Ze zijn vaak intrigerend, maar methodologisch wankel.
Kleine studies, grote claims
De afgelopen vijf jaar zijn er honderden papers verschenen over AI in onderwijs. Systematische reviews (zoals Létourneau et al., 2025; Li et al., 2025; Zhang, 2025) tonen gemiddeld positieve effecten. Leerlingen die met een AI-tutor werkten, scoorden bijvoorbeeld beter op korte kennistests dan leerlingen in de controlegroep.
Maar die effecten komen meestal uit kleine, contextarme studies: dertig leerlingen hier, vijftig daar, vaak binnen één school of universiteit. Replicaties zijn zeldzaam. En de meeste studies zijn ontwikkeld en geëvalueerd door… de makers zelf.
Zoals John Ioannidis al in 2005 waarschuwde, is dat de perfecte voedingsbodem voor overschatte effecten. En in het geval van AI komt daar nog iets bij: de druk om te innoveren, om ‘mee te zijn’.
Gebrek aan onafhankelijke evaluatie
Waar stevige onafhankelijke evaluaties ontbreken, groeit het risico op positive bias. In veel papers staat dat een AI-tool “leerwinst bevordert”, maar zelden wordt vermeld dat het verschil soms neerkomt op een paar vragen op een korte test — of dat de vergelijking gemaakt werd met “geen interventie”.
De Education Endowment Foundation heeft daar een nuttige les over geleerd: ze rapporteren bij elk effect ook de zekerheid van de evidentie (hun “padlock rating”). Een programma met vijf slotjes is onafhankelijk getest in meerdere contexten; één slotje betekent: voorlopige evidentie, met grote onzekerheid. Bij Leerpunt zijn het afstudeerhoedjes
Als we die maatstaf toepassen op de huidige AI-literatuur, dan zitten de meeste studies nog tussen nul en twee slotjes.
Weinig zicht op hoe het werkt
Zelfs wanneer er een effect is, weten we zelden waarom. Veel onderzoeken beschrijven de technologie, maar nauwelijks de pedagogiek erachter. Was het de AI-feedback die werkte, of gewoon het feit dat leerlingen meer oefenden? Was het de gepersonaliseerde uitleg, of de extra tijd die leerlingen kregen?
Zonder die context kun je moeilijk leren van wat werkt. Nancy Cartwright en Jeremy Hardie noemden dat in hun boek Evidence-Based Policy (2012) treffend: “Evidence shows what worked somewhere, not what will work here.”
Kortetermijn en oppervlakkige uitkomsten
Een ander probleem is de meetlat. De meeste studies kijken naar kortetermijnresultaten: toetswinst, motivatie, tijd op taak. Zelden wordt er gekeken naar langere leertrajecten of diepere leerdoelen. We weten dus amper of AI leerlingen beter leert schrijven, denken of samenwerken. En dat zijn nu precies die dingen die vaak worden beloofd.
Toch is er ook licht
Dat wil niet zeggen dat we niets weten. Sommige intelligent tutoring systems (zoals de oudere versies van Carnegie Learning) zijn herhaaldelijk getest en tonen bescheiden maar consistente winst, vooral als ze gebruikt worden als aanvulling, niet als vervanging van de leraar.
Nieuwe studies over AI-feedbacksystemen tonen belofte als ze goed ingebed zijn in de didactiek. Een organisatie zoals de UNESCO benadrukt daarom terecht dat het niet gaat om of scholen AI gebruiken, maar hoe en met welke waarborgen.
Wat we eruit kunnen leren
De kwaliteit van de huidige evidentie is dus ondermaats, maar dat is geen reden tot cynisme. Het is een reden tot precisie. We kunnen drie dingen tegelijk doen:
-
Experimenteren, want leren over AI vraagt ervaring.
-
Eerlijk rapporteren, met duidelijke grenzen aan wat we weten.
-
Evidentie mee opbouwen, door implementaties te koppelen aan onafhankelijk onderzoek, transparantie en replicatie.
Dat is precies wat UNESCO bedoelt met responsible evidence-building. Niet wachten tot alles bewezen is, maar elke stap gebruiken om betere evidentie te creëren. Want uiteindelijk is het probleem niet dat de evidentie te zwak is om over AI te praten. Het probleem is dat we te vaak te stellig praten over zwakke evidentie.
Bronnen
-
Ioannidis, J. P. A. (2005). Why Most Published Research Findings Are False. PLOS Medicine.
-
Cartwright, N., & Hardie, J. (2012). Evidence-Based Policy: A Practical Guide to Doing It Better. Oxford University Press.
-
Education Endowment Foundation (EEF). (2019). Classifying the security of EEF findings.
-
Létourneau, A., Deslandes Martineau, M., Charland, P., Karran, J. A., Boasen, J., & Léger, P. M. (2025). A systematic review of AI-driven intelligent tutoring systems (ITS) in K-12 education. npj Science of Learning, 10(1), 29.
-
Li, S., Zeng, C., Liu, H., Jia, J., Liang, M., Cha, Y., … & Wu, X. (2025). A meta-analysis of AI-enabled personalized STEM education in schools. International Journal of STEM Education, 12(1), 58.
-
UNESCO (2023). Guidance for Generative AI in Education and Research.
- Zhang, J., Jantakoon, T., & Laoha, R. (2025). Meta-Analysis of Artificial Intelligence in Education. Higher Education Studies, 15(2), 189-210.
