Veel onderzoek naar AI in onderwijs heeft momenteel hetzelfde probleem. Kleine steekproeven, korte interventies, zwakke controlegroepen en vervolgens toch grote conclusies over hoe “AI het onderwijs verandert”. Het gevolg is dat het voor onderzoekers en mij vaak echt wieden is in een enorme hoeveelheid mindere kwaliteit. Daarom viel deze nieuwe studie over AI-feedback in Teaching and Teacher Education van Ding & collega’s me net op. Niet omdat ze perfect is. Dat is ze zeker niet. Maar wel omdat dit eigenlijk een van de betere AI-in-education studies is die ik de voorbije maanden las.
De onderzoekers bekeken of feedback van ChatGPT leraren in opleiding kon helpen bij het verbeteren van hun lesontwerp. Concreet: studenten maakten een lesvoorbereiding en kregen vervolgens feedback. De ene groep kreeg feedback van ChatGPT-4, de andere van ervaren docenten. Daarna moesten ze hun ontwerp herwerken.
Het interessante is dat de onderzoekers niet enkel keken naar het eindproduct, maar ook probeerden onderscheid te maken tussen twee zaken die in AI-discussies voortdurend door elkaar lopen: beter presteren op een taak en bredere competenties ontwikkelen.
Eerst het simpele deel: beide groepen verbeterden significant door feedback. Zowel feedback van docenten als feedback van ChatGPT leidden tot betere lesvoorbereidingen. Maar er was geen significant verschil tussen beide groepen. AI-feedback werkte dus ongeveer even goed als docentfeedback voor deze specifieke taak. Dat is in feite goed nieuws.
Alleen betekent dat niet automatisch dat studenten ook betere instructional designers werden. Want wanneer de onderzoekers keken naar bredere ontwerpcompetenties, veranderde er eigenlijk niets significant. Leraren in opleiding leverden betere producten af, maar ontwikkelden niet noodzakelijk diepere of meer overdraagbare expertise. Let wel: dit was ook niet het geval bij de feedback van docenten van vlees en bloed, al zaten die resultaten wel net iets dichter bij statistische significantie.
Dat klinkt misschien als een detail, maar het is waarschijnlijk een van de belangrijkste discussies rond AI in onderwijs. Want wat meten we eigenlijk wanneer we zeggen dat AI “werkt”? Dat iemand tijdens het gebruik betere output produceert? Of dat iemand achteraf ook zonder AI meer begrijpt, beter redeneert of duurzamere expertise ontwikkelt?
Deze studie suggereert vooral dat die twee niet hetzelfde zijn. Nog interessanter werd het toen de onderzoekers bekeken hoe studenten met feedback omgingen. Studenten die feedback kregen van ChatGPT namen die minder vaak letterlijk over. Ze pasten de feedback vaker aan hun eigen context aan. De auteurs noemen dit “adaptive implementation”.
Dat kan je positief lezen: AI stimuleert reflectie en actieve verwerking. Maar er is ook een andere interpretatie mogelijk. De interviews suggereren namelijk dat ChatGPT-feedback vaak vrij generiek bleef. Goed voor structuur, volledigheid en standaard pedagogische principes, maar minder sterk in contextspecifieke nuances. Docenten gaven vaker concrete opmerkingen over klasmanagement, haalbaarheid of overgangen binnen een les.
Misschien moesten studenten de AI-feedback dus vaker zelf vertalen naar iets bruikbaars. En eerlijk: dat klinkt eigenlijk vrij plausibel.
Methodologisch is deze studie bovendien sterker dan heel wat AI-papers die momenteel rondgaan. Er is een controlegroep, een pre-post design, kwalitatieve én kwantitatieve analyses en de auteurs blijven opvallend voorzichtig in hun conclusies. Tegelijk blijven de beperkingen groot: slechts 42 deelnemers, een interventie van zes weken en een vrij specifieke context binnen een Chinese lerarenopleiding. Zoals ik al schreef: zeker niet perfect.
We kunnen en mogen hier dus geen grootse conclusies uit trekken. Maar misschien hoeft dat ook niet. Want precies die voorzichtigheid maakt deze paper interessanter dan veel spectaculaire AI-verhalen. In plaats van alweer te claimen dat AI leraren vervangt of onderwijs fundamenteel transformeert, toont deze studie iets veel realistischer. Generatieve AI kan waarschijnlijk best nuttig zijn als schaalbare feedbacktool. Zeker voor concrete taken en eerste revisies. Maar een taak beter uitvoeren is nog niet hetzelfde als diepere professionele expertise ontwikkelen. En de combi van mens en machine… wellicht de beste optie. Al is dat laatste mijn persoonlijke mening.