Geen nieuw onderzoek in deze post, maar terug een terugtrekking van een onderzoek over AI. We hadden al die grote meta-analyse die niet bleek te voldoen aan de kwaliteitseisen, maar nu is het een ander verhaal. Deze keer gaat het om een artikel in Teaching and Teacher Education, een van de meest prestigieuze tijdschriften binnen de onderwijswetenschappen. De titel alleen al verraadt dat het niet om een klassieke effectstudie ging: Whom do we educate? Uncertainties and inexplicable ecstasy of the GenAI era in foreign language teacher education.
De reden voor de retractie is opvallend:
Following publication, concerns were raised by the Corresponding Author regarding inaccuracies in several citations and references. An investigation by the journal identified multiple errors in the reference list, including incorrect bibliographic details and references that could not be reliably verified.
Met andere woorden: de corresponderende auteur trok zelf aan de alarmbel. Het probleem zat niet in de data, niet in de statistische analyses en niet in de conclusies als gevolg van een fout experiment. Het probleem zat in de referenties…
Nu zijn foutjes in een referentielijst op zich niet uitzonderlijk. Verkeerde paginanummers, een fout jaartal of een ontbrekende auteur leiden normaal gezien tot een correctie. Daarvoor trekt men een artikel niet in, dan komt er gewoon een correctie.
Wat deze zaak anders maakt, is de formulering dat sommige referenties “niet betrouwbaar konden worden geverifieerd”. Dat gaat verder dan een typefout. Het roept de vraag op of sommige bronnen misschien niet bestonden, verkeerd waren weergegeven of niet konden worden teruggevonden. Juist, het gaat over Frankencitations.
En terwijl dit fenomeen al langer bestaat dan ChatGPT, toch moet je dan spontaan ook aan AI denken. Niet omdat de retractienotice vermeldt dat AI werd gebruikt. Dat doet ze niet. We weten dus niet wat de oorzaak was. Maar iedereen die de afgelopen twee jaar met generatieve AI heeft gewerkt, kent het fenomeen van hallucinerende referenties. Een chatbot die een perfect geloofwaardig klinkend artikel genereert, compleet met auteurs, tijdschrift en jaartal, maar waarbij het artikel eenvoudigweg niet bestaat.
Het probleem is dus niet nieuw. Wat wel nieuw is, is de schaal waarop zulke fouten kunnen ontstaan. Waar vroeger een auteur misschien één verkeerde referentie invoegde, kan een taalmodel in enkele seconden een volledige literatuurlijst produceren die er op het eerste gezicht indrukwekkend uitziet.
Dat brengt ons bij een ongemakkelijke vraag: hoe goed controleren we referenties eigenlijk? Peer reviewers controleren meestal niet systematisch elke bron. Daar is simpelweg geen tijd voor. Redacteurs doen dat doorgaans evenmin. Het systeem steunt voor een groot deel op vertrouwen: vertrouwen dat auteurs correct verwijzen naar bestaand werk. Dat vertrouwen is jarenlang redelijk goed blijven functioneren. Maar generatieve AI legt een zwakke plek bloot die er altijd al was.
Misschien wordt referentiecontrole wel een van de meest onderschatte vaardigheden van het AI-tijdperk. Niet alleen voor onderzoekers, redacteurs en reviewers, maar ook voor studenten die de komende weken hun scriptie indienen. Een bron die er overtuigend uitziet, is nog altijd niet noodzakelijk een bestaande bron.