ChatGPT in het wiskundeonderwijs? Veel enthousiasme, weinig evidentie

Een paar maanden geleden schreef ik deze blogpost. De aanleiding was het artikel van Weidlich, Gašević, Drachsler en mijn goede vriend en collega Paul Kirschner met als premise dat we misschien de verkeerde vragen stellen over ChatGPT in het onderwijs. We vragen ons vooral af wat het kan, niet wat het doet met leren. En enkele dagen geleden stelde ik een andere vraag: is de evidentie eigenlijk wel goed genoeg?

Intussen verscheen een nieuwe systematische review in Teaching and Teacher Education (Turmuzi, Azmi & Kertiyani, 2025). Ze onderzochten twintig empirische studies over ChatGPT in het wiskundeonderwijs, gepubliceerd tussen 2023 en 2025. En eerlijk: de resultaten lezen als een illustratie van beide eerdere blogposts En nee, ik schrijf dit niet omdat ik per se gelijk wil krijgen. Integendeel.

De auteurs concluderen dat ChatGPT vooral wordt gebruikt om snelle feedback te geven en om studenten extra oefeningen te bieden, vooral in algebra en statistiek. In 70% van de studies werkt dat goed. Leerlingen krijgen meer onmiddellijke feedback en voelen zich ondersteund. Maar het loopt mis zodra het om complexere redeneringen gaat, Denk dan aan calculus, probleemoplossend denken, het waarom achter de berekening.

Nog opvallender is wat men níét onderzoekt. In 65% van de studies ging het om percepties van studenten of leraren, niet om de effectieve leerresultaten. Slechts een handvol gebruikte een degelijk experimenteel design. En bijna allemaal waren de experimenten en bijhorende steekproeven klein: meestal minder dan tachtig deelnemers. Statistische kracht? Nauwelijks. Lange termijn? Onbekend.
De auteurs noemen dat netjes ‘een ontwikkelingsfase van het onderzoeksveld’, maar feitelijk bevestigt het wat ik eerder schreef: de hype is sneller dan de data.

Interessant genoeg raakt de review ook aan het stuk van april. De meeste studies onderzoeken ChatGPT als tool en niet als leeromgeving. Ze meten of het model juiste antwoorden geeft, maar niet wat er cognitief gebeurt bij de leerling. Wordt begrip verdiept? Wordt kritisch denken gestimuleerd, of net uitgeschakeld omdat het antwoord zo snel komt? Die vragen blijven grotendeels liggen.

Wie deze review leest, ziet dus vooral wat we nog niet weten. En dat is niet erg. Integendeel, het is waardevolle informatie. Want het helpt ons om de volgende generatie studies beter op te zetten: met grotere steekproeven, echte leeruitkomsten, en aandacht voor wat ChatGPT doet met motivatie, autonomie en denkproces.

Tot die tijd blijft de conclusie dezelfde: ChatGPT kan nuttig zijn in de klas. Zeker als je het inzet als hulpmiddel voor feedback of oefening. Maar het verandert niets aan het fundamentele principe van goed onderwijs: leren is een menselijk proces dat tijd, begeleiding en reflectie vraagt.

De volgende stap is hopelijk niet nóg een studie die laat zien dat ChatGPT handig kan zijn voor huiswerk, maar onderzoek dat uitlegt wanneer het werkt, voor wie en waarom. En dat zijn volgens mij geen verkeerde vragen.

Maar juf, maar meester: heeft u AI gebruikt?

“Maar juf, maar meester: heeft u AI gebruikt?”
Dat zou weleens de nieuwe vraag van deze generatie studenten kunnen worden. En eerlijk: ze hebben er reden toe. Want waar leraren en docenten zich zorgen maken over studenten die ChatGPT gebruiken, blijkt uit recent onderzoek dat studenten net zo goed het vertrouwen in hun leraren verliezen door… hoe leraren met AI omgaan. Ik kwam op het spoor van deze studie via een gast blog van Greg Toppo bij Larry Cuban.

In haar studie bij de Education University of Hong Kong onderzocht Jiahui Luo (Jess) hoe studenten vandaag vertrouwen (of wantrouwen) ervaren in een tijd waarin generatieve AI deel is geworden van de beoordelingspraktijk. Wat betekent “vertrouwen” nog, als je je werk moet indienen mét een AI-verklaring én de chatgeschiedenis met ChatGPT, terwijl je geen idee hebt hoe je docent daarmee omgaat?

Een angstige generatie studenten

Luo sprak elf studenten (meestal toekomstige leraren) over hun ervaringen met AI in hun opdrachten. Hun reacties waren opvallend eensluidend: angst.
“Ik gebruik geen enkele AI-tool meer, zelfs Grammarly niet,” zei één student. “Straks denkt de docent dat ik vals speel.”

De universiteit waar het onderzoek plaatsvond, verplicht studenten om elk gebruik van AI te melden. Maar hoe die informatie precies wordt beoordeeld, blijft vaak vaag. Studenten weten niet of eerlijkheid beloond wordt of juist tegen hen kan werken. Een van hen verwoordde het scherp:

“Als ik mijn AI-gebruik eerlijk vermeld, wie zegt dat ik daar niet op word afgerekend?”

Het resultaat? Veel studenten nemen het zekere voor het onzekere en vermijden AI volledig. Niet omdat ze denken dat het verkeerd is, maar omdat ze hun docent niet vertrouwen.

Vertrouwen is geen éénrichtingsverkeer

Wat Luo blootlegt, is een asymmetrie: studenten moeten transparant zijn over hun AI-gebruik, maar docenten zelden over het hunne. Terwijl studenten hun prompts moeten tonen, blijft voor hen onduidelijk of docenten zelf AI gebruiken bij het beoordelen, of hoe ze AI-scores van Turnitin interpreteren.

Luo noemt dat gebrek aan “two-way transparency” een fundamentele oorzaak van wantrouwen.

“Wanneer transparantie enkel van studenten wordt verwacht, voelt dat als toezicht, niet als samenwerking.”

De lat voor docenten ligt hoger

Een tweede opvallende bevinding: studenten verwachten meer van hun docenten dan vroeger. Niet enkel vakinhoudelijke expertise, maar ook AI-geletterdheid. Ze willen leraren die de technologie begrijpen, genuanceerd over de voor- en nadelen kunnen praten en rechtvaardige beoordelingsvormen ontwerpen die niet zomaar door een chatbot te produceren zijn.

“Mijn professor liet ons ChatGPT-antwoorden kritisch analyseren in de les,” vertelde een student. “Daardoor voelde ik me veilig om AI ook zelf te gebruiken.”
Een ander noemde het “hypocrisie” dat docenten AI verbieden, terwijl hun eigen cursusbeschrijving volgens een AI-detector “duidelijk met ChatGPT was geschreven.”

Vertrouwen vraagt moed – van beide kanten

De kern van Luo’s onderzoek is even eenvoudig als confronterend: zonder kwetsbaarheid is er geen vertrouwen.
Studenten durven zich pas openstellen als ze geloven dat hun docent dat ook doet.
In een tijd waarin AI detectie, regels en controle overheersen, is dat geen vanzelfsprekendheid meer.

Of zoals Luo het samenvat: we hebben leraren nodig die niet alleen uitleggen wat mag met AI, maar ook tonen hoe zij zelf omgaan met die onzekerheid.

Kort gezegd: studenten vragen niet om laissez-faire beleid, maar om eerlijkheid, wederkerigheid en menselijkheid. En misschien is de vraag “Heeft u AI gebruikt?” minder brutaal dan ze lijkt. Misschien is ze gewoon de nieuwste versie van wat onderwijs altijd al drijft: vertrouwen.

Niet meer weten, maar beter snappen: wat leraren écht nodig hebben voor AI

Er is geen gebrek aan optimisme over AI in het onderwijs — of aan ongerustheid, wat dat betreft. Tussen de beloften van ‘gepersonaliseerd leren’ en de angst voor ‘robotleraren’ vergeten we al eens dat een klas in de eerste plaats draait op mensen, niet op platforms. Een recente studie van Marta López-Costa en collega’s aan de Universitat Oberta de Catalunya neemt dat menselijke element serieus. Zij vroegen zich af wat nu echt bepaalt of leraren in het secundair onderwijs AI beginnen te gebruiken — en wat niet.

Hun analyse van meer dan 370 Catalaanse leraren levert iets verfrissend concreets op: het gaat niet om een STEM-achtergrond of om uitzonderlijke technische vaardigheden. Wat telt, is weten hoe AI werkt, en vlot kunnen omgaan met data in het algemeen. Leraren die al vertrouwd waren met digitale leeromgevingen en leerdata konden interpreteren, bleken veel vaker AI-tools te gebruiken. Meer gespecialiseerde of technische kennis — zoals privacy-beleid, databeheer of de interne structuur van een school — maakte nauwelijks verschil.

Het opvallendste resultaat is dat AI-kennis de sterkste voorspeller was van gebruik. Leraren die al geëxperimenteerd hadden met het maken van content via AI — beelden, lesideeën, zelfs stukjes code — integreerden de technologie het meest actief in hun praktijk. Niet horen over AI, maar ermee werken blijkt de brug naar gebruik.

Toch klinkt er ook een waarschuwing. De perceptie van AI — ethische zorgen over bias, transparantie of plagiaat — had een klein maar statistisch significant negatief effect. Met andere woorden: bezorgdheid speelt nog steeds een rol. Vertrouwen groeit met inzicht, maar twijfel blijft een stille tegenkracht.

Waarom dit ertoe doet

Als deze bevindingen ook elders gelden, moet nascholing misschien een andere klemtoon krijgen. Minder aandacht voor abstracte ‘digitale transformatie’ en meer voor praktische AI-geletterdheid: leren hoe generatieve systemen tekst of beelden produceren, wat een goede prompt is, en waar menselijk oordeel zwaarder weegt dan algoritmische output. Combineer dat met degelijke datageletterdheid — patronen in leerlingresultaten herkennen, ruis van signaal onderscheiden — en de kans op zinvol en ethisch AI-gebruik stijgt aanzienlijk.

Even belangrijk is dat de studie laat zien dat een achtergrond in wiskunde of wetenschap niet automatisch betekent dat je klaar bent voor AI. De vaardigheid om data te interpreteren en pedagogisch over technologie na te denken, overstijgt vakgrenzen. AI-gebruik is geen STEM-privilege; het is een professionele leeruitdaging.

Een genuanceerde conclusie

De auteurs overschatten hun resultaten niet: hun model verklaart zo’n 30 procent van de variatie in AI-gebruik — behoorlijk, maar niet alles. En het onderzoek is cross-sectioneel, dus oorzaak en gevolg blijven open. Toch past het patroon bij wat veel scholen in de praktijk zien: leraren gebruiken AI niet omdat het van bovenaf wordt opgelegd, maar omdat ze er zelf zinvolle, pedagogisch verantwoorde toepassingen voor vinden.

De boodschap is tegelijk eenvoudig en genuanceerd: om AI te laten werken in het onderwijs, begin niet bij AI. Begin bij de leraar — bij zijn of haar begrip van data, nieuwsgierigheid en vermogen om te testen, te twijfelen en aan te passen. Technologie volgt de mens, niet omgekeerd.

Abstract van het onderzoek:

This study investigates the factors influencing the adoption of Artificial Intelligence (AI) by secondary school teachers in Catalonia. Using a Partial Least Squares Structural Equation Modelling (PLS-SEM) methodology, a conceptual model was analyzed that includes AI perception, AI knowledge, General data use, Applied data use, and STEM training as predictors of AI adoption. The results reveal that AI knowledge (β = .482, p < .001) and General data use (β = .288, p = .001) are the most significant and positive predictors of AI adoption. In contrast, AI perception shows a weak but statistically significant negative relationship (β = -.105, p = .022), while applied data use and STEM training do not present a significant direct effect. The model explains 30.5 % of the variance in AI adoption. These findings suggest that developing specific knowledge on how to use AI for content creation and competence in general data use is crucial to fostering AI adoption among secondary school teachers in the Catalan context. In addition, this explorative work provides the research community with evidence that key Data Literacy competencies significantly shape AI adoption.

Woord van de dag: Workslop of waarom AI ons meer doet werken en minder doet presteren

De term “workslop” leerde ik kennen via een scherpe bijdrage in Harvard Business Review van Kate Niederhoffer, Gabriella Rosen Kellerman, Angela Lee, Alex Liebscher, Kristina Rapuano en Jeffrey T. Hancock (“AI-Generated ‘Workslop’ Is Destroying Productivity,” september 2025). Ze gebruiken het om te beschrijven hoe AI steeds meer rommelwerk produceert: e-mails, rapporten en teksten die eruitzien als productief werk, maar in werkelijkheid extra tijd en moeite kosten. Wat eerst tijdswinst leek, verandert zo in het tegendeel: we spenderen uren aan het nalezen, corrigeren en afstemmen van wat een algoritme zogezegd “af” heeft gemaakt.

De GenAI Divide: veel gebruik, weinig verandering

De aanleiding voor het HBR-artikel is het MIT-rapport The GenAI Divide: State of AI in Business 2025 van Aditya Challapally, Chris Pease, Ramesh Raskar en Pradyumna Chari. Ook daar klinkt een opvallend vergelijkbaar verhaal. Meer dan tachtig procent van de bedrijven experimenteert met generatieve AI, bijna veertig procent zegt het al te gebruiken, maar vijfennegentig procent van die projecten levert nul meetbare winst op.

Volgens de onderzoekers ligt dat niet aan de kwaliteit van de modellen of aan regelgeving, maar aan iets fundamentelers: de meeste systemen leren niet. Ze passen zich niet aan, onthouden geen context en verbeteren niet met gebruik. MIT noemt dat de GenAI Divide — de kloof tussen hoge adoptie en lage transformatie. Slechts een kleine groep organisaties weet echt waarde te halen uit AI, terwijl de rest blijft steken in proefprojecten en PowerPointpresentaties.

Wat opvalt: die kloof lijkt sterk op wat Niederhoffer en haar collega’s workslop noemen. Overal is er beweging, maar weinig vooruitgang. Bedrijven rapporteren “AI-initiatieven”, werknemers genereren bergen output, en toch verandert er nauwelijks iets wezenlijks in hoe het werk verloopt.

De schaduwzijde van AI-gebruik

Het is niet zo dat mensen geen AI gebruiken. Integendeel: volgens MIT gebruikt personeel in negentig procent van de onderzochte bedrijven regelmatig ChatGPT of Claude, vaak via persoonlijke accounts en zonder goedkeuring van IT. De onderzoekers spreken over een “shadow AI economy”: de stille, informele laag waarin werknemers zelf experimenteren met AI om hun werk gedaan te krijgen, terwijl de officiële projecten vastlopen.

Daarin schuilt precies de kern van het probleem. Zowel workslop als de GenAI Divide gaan over systemen die niet leren. Zoals MIT het verwoordt: het verschil zit niet in intelligentie, maar in geheugen, aanpassingsvermogen en context. Zolang AI die drie niet onder de knie heeft, blijft het vooral een generator van plausibel klinkende tekst die mensen daarna weer moeten verbeteren.

Het gevolg is een vreemde paradox: hoe meer AI we gebruiken, hoe vermoeiender het werk wordt. Teams verzuipen in drafts, samenvattingen en dashboards die nog steeds menselijk oordeel vereisen. De HBR-auteurs waarschuwen dat deze golf van synthetische output kenniswerk langzaam verandert in administratief herstelwerk. En bij MIT komen ze tot dezelfde conclusie: zolang systemen niet leren van feedback, blijven organisaties aan de verkeerde kant van de kloof.

Van slop naar leren

De echte volgende stap in AI heeft dus niets te maken met nóg grotere modellen of meer automatisering, maar met leren. Met feedback, geheugen en integratie in het echte werk. Pas als systemen kunnen evolueren — en niet telkens opnieuw moeten worden aangestuurd — kunnen ze meer zijn dan slimme gadgets.

Tot dan blijven we zitten met wat het mooiste en tegelijk pijnlijkste begrip van dit moment is: workslop. Het rommelige restant van ons digitale enthousiasme.

AI-verrijkte leerboeken: wat Google’s eigen onderzoek ons wél en niet vertelt

Google publiceerde zopas een paper over Learn Your Way, hun AI-verrijkte leerboekproject. Op het eerste gezicht klinkt het veelbelovend: een statisch handboek omzetten naar iets adaptiefs, multimodaal en gepersonaliseerd met generatieve AI. In hun proef scoorden leerlingen beter meteen na het leren, en zelfs drie dagen later bleken ze nog meer te onthouden. Case closed? Ik vrees van niet.

Het probleem van zelfevaluatie

Het eerste probleem is duidelijk: dit is een bedrijf dat zijn eigen product evalueert. Hetzelfde team dat de tool ontwierp, ontwierp ook de studie, rekruteerde de leerlingen en schreef het artikel. Dat betekent niet dat de data verzonnen zijn, maar het verhoogt wel de drempel voor geloofwaardig bewijs. Wanneer een innovatie door de ontwikkelaar zelf wordt getest, is scepsis geen cynisme, maar gewoon elementaire onderzoekslogica.

Een controlegroep die weinig bewijst

Een tweede probleem zit in de vergelijking. Learn Your Way werd namelijk afgezet tegen… Adobe Acrobat Reader. Met andere woorden: een interactieve, adaptieve, speelse, multimodale leeromgeving tegenover een statische pdf-lezer. Het is nauwelijks verrassend dat leerlingen de eerste leuker vonden én er iets meer van opstaken. Precies hier loert het Hawthorne-effect: deelnemers doen het beter omdat ze iets nieuws, glanzends en duidelijk op hen gericht krijgen. De onderzoekers melden zelfs dat alle leerlingen in de experimentele groep de quizzen en extra content gebruikten — een sterk signaal dat vooral de nieuwigheid en interactiviteit het verschil kunnen verklaren.

Nieuwigheid, betrokkenheid en het Hawthorne-effect

Daarbovenop: de steekproef is piepklein. Zestig leerlingen uit de regio Chicago, verdeeld in twee groepen van dertig, die één enkel leerboekhoofdstuk bestudeerden. Dat is een proof-of-concept, geen robuuste effectiviteitsstudie. Toch suggereren de auteurs dat dit een stap is naar een revolutie in leerboeken. Dat is alsof je een geneesmiddel goedkeurt omdat het één klas drie dagen lang beter deed presteren. Bovendien blijft volledig onduidelijk welke onderdelen het verschil maakten: de quizzen, de gepersonaliseerde metaforen, de ingesproken slides, of gewoon het feit dat de leerlingen wisten dat ze getest werden door Google.

Ook de ecologische validiteit is problematisch. Leerlingen studeerden 20–40 minuten in een gecontroleerde labomgeving, met duidelijke incentives om te presteren. Maar echte klaslokalen zijn rommelig, leerkrachten spelen een sleutelrol, en duurzame motivatie laat zich niet kweken met één korte sessie. De auteurs erkennen wel dat hun opzet beperkingen heeft, maar de toon van het artikel blijft opvallend triomfantelijk.

Wat de auteurs wél en níet meegeven

Om eerlijk te zijn: sommige beperkingen noemen de onderzoekers zelf. Ze geven toe dat ze slechts één hoofdstuk testten met een kleine groep, dat niet duidelijk is welke componenten van Learn Your Way precies effect sorteren, en dat een labsetting niet hetzelfde is als een klas. Dat zijn verstandige nuanceringen.

Maar ze laten opvallende dingen onbesproken. Ze vermelden nergens dat het Hawthorne-effect een mogelijke verklaring kan zijn. Ze erkennen niet dat Adobe Reader een extreem zwakke controlegroep is. En ze reflecteren helemaal niet op het feit dat dit onderzoek in wezen Google is dat Google beoordeelt. Die stiltes zijn minstens zo veelzeggend als de bekentenissen.

Hoe veelbelovend is dit onderzoek dus echt? In het beste geval toont het aan dat interactieve elementen en quizzen meer opleveren dan een platte pdf — iets wat het onderwijs al decennialang weet. In het slechtste geval is het een gelikt voorbeeld van het Hawthorne-effect: tijdelijke betere prestaties omdat leerlingen een nieuw speeltje krijgen.

De echte test moet nog komen: onafhankelijke replicaties, in verschillende vakken, met grotere en diversere populaties, en controlegroepen die werkelijk vergelijkbaar zijn. Tot die tijd moet je de headline “hogere testscores na drie dagen” lezen als een marketingteaser, niet als solide bewijs dat generatieve AI-leerboeken de toekomst van het onderwijs zijn.

Je kunt een auto niet opvoeden – AI wel?

Over AI hoor je vaak dat we meer regels of “guardrails” nodig hebben. Regels die ervoor zorgen dat de technologie niet ontspoort. Dat is een begrijpelijke gedachte – eentje die ik zelf ook had – maar ook een beetje misleidend. AI lijkt namelijk meer op een hond dan op een auto. Je kunt een auto niet opvoeden. Je programmeert ze, je bestuurt ze, je hoopt dat de remmen werken – maar een auto leert niets bij. AI daarentegen? Dat is een ander verhaal.

AI leert. Het maakt fouten. Het past zich aan. En net daarom is een vast parcours met vangrails niet genoeg. Wat AI nodig heeft, is iemand aan het andere eind van de lijn – iemand die ingrijpt als het nodig is, bijstuurt, feedback geeft. Zoals je dat doet met een hond aan de leiband. Zoals je dat doet met kinderen.

Ik haal dit idee bij twee onderzoekers, Cary Coglianese en Colton Crum. Zij stellen precies dat voor. In plaats van starre regels – “guardrails” – pleiten ze voor flexibele, mensgestuurde beheersing: een leiband, of leash. Geen systeem dat je installeert en vervolgens loslaat, maar een relationeel model dat inzet op voortdurende opvolging. Geen poging om elk risico vooraf te elimineren, maar een manier om aanwezig te blijven bij wat zich ontwikkelt.

Dat betekent niet dat er geen regels nodig zijn. Net als bij het opvoeden van een kind – of, in de metafoor van de auteurs, bij het trainen van een hond – begin je wél met een duidelijke set van basisregels. Wat mag wel, wat niet, waar liggen de grenzen. Zonder die kaders wordt het willekeur en mist het kind de broodnodige structuur. Zonder basisregels ontstaat chaos. Maar regels op zich zijn niet genoeg. Ze werken pas als er iemand is die ze uitlegt wanneer nodig, bewaakt, erop terugkomt wanneer het misgaat – en ze soms bijstelt als de situatie verandert.

En hoe meer je erover nadenkt, hoe herkenbaarder het wordt. Ook in onderwijs en opvoeding kiezen we vaak voor regels en protocollen in de hoop op voorspelbaar gedrag. Maar ook kinderen zijn geen auto’s. Ze zijn veranderlijk, verrassend, creatief én soms onvoorspelbaar. Net als AI. Wat écht werkt, is nabijheid. Iemand die oplet, bevraagt, begrenst waar nodig – en ruimte geeft waar het kan.

Coglianese en Crum halen voorbeelden aan van AI-systemen die ontspoorden: een zelfrijdende auto die een voetganger niet herkende, een chatbot die radicaliseerde, een algoritme dat discrimineerde bij sollicitaties. Niet uit kwade wil, maar omdat de training gebrekkig was of de mens die toezicht moest houden niet ingreep. Ook kinderen maken fouten – soms ernstige. Maar we sturen bij, praten, leren, proberen opnieuw. Dat is opvoeden. En dat is ook wat AI nodig heeft: voortdurende menselijke betrokkenheid, eerder dan blinde controle.

Het probleem van veel AI-discussies is dat ze geloven in de kracht van systemen zonder mensen. Als het protocol maar klopt. Als de regels maar helder zijn. Maar net zoals je kinderen niet met een handleiding opvoedt, zal AI zich niet netjes aan elk script houden. Wat telt, is iemand die blijft kijken. Blijft spreken. Blijft denken.

Misschien moeten we AI dus leren opvoeden zoals we kinderen proberen op te voeden: met een duidelijke basis aan regels, maar vooral via nabijheid en verantwoordelijkheid. Niet door alles vooraf te willen controleren, maar door aanwezig te blijven. En door toe te geven dat fouten soms niet te vermijden zijn – maar wél te herstellen. AI heeft dus misschien geen vangrails nodig, maar een stevige leiband. En vooral: iemand die ze vasthoudt.

Abstract van de paper:

Calls to regulate artificial intelligence (AI) have sought to establish “guardrails” to protect the public against AI going awry. Although physical guardrails can lower risks on roadways by serving as fixed, immovable protective barriers, the regulatory equivalent in the digital age of AI is unrealistic and even unwise. AI is too heterogeneous and dynamic to circumscribe fixed paths along which it must operate—and, in any event, the benefits of the technology proceeding along novel pathways would be limited if rigid, prescriptive regulatory barriers were imposed. But this does not mean that AI should be left unregulated, as the harms from irresponsible and ill-managed development and use of AI can be serious. Instead of “guardrails,” though, policymakers should impose “leashes.” Regulatory leashes imposed on digital technologies are flexible and adaptable—just as physical leashes used when walking a dog through a neighborhood allow for a range of movement and exploration. But just as a physical leash only protects others when a human retains a firm grip on the handle, the kind of leashes that should be deployed for AI will also demand human oversight. In the regulatory context, a flexible regulatory strategy known in other contexts as management-based regulation will be an appropriate model for AI risk governance. In this article, we explain why regulating AI by management-based regulation—a “leash” approach—will work better than a prescriptive or “guardrail” regulatory approach. We discuss how some early regulatory efforts are including management-based elements. We also elucidate some of the questions that lie ahead in implementing a management-based approach to AI risk regulation. Our aim is to facilitate future research and decision-making that can improve the efficacy of AI regulation by leashes, not guardrails.

 

‘Brain rot’ als symptoom van onze schermtijdcultuur: hype, houvast of beide?

Als je het woord ‘brain rot’ nog niet bent tegengekomen, heb je wellicht gewoon nog niet genoeg gescrolld. Sinds Oxford het uitriep tot Woord van het Jaar 2024, duikt het overal op: in krantenkoppen, TikToks en nu ook in de wetenschappelijke literatuur.

Gisteren was hiervoor aandacht in De Morgen in een degelijk, genuanceerd artikel. In het artikel verwijst men ook naar een recente review-studie in Brain Sciences (ja, van MDPI – daarover straks meer). Deze studie probeert het fenomeen van ‘brain rot’ te ontwarren. Het gaat om een snel uitgevoerde literatuurstudie naar de cognitieve gevolgen van overmatige blootstelling aan oppervlakkige, digitale content, vooral bij jongeren. Denk aan doomscrolling, zombie scrolling, eindeloze TikTok-loops – je kent het wel. En de conclusie? Al dat passieve scrollen zou kunnen leiden tot concentratieproblemen, mentale vermoeidheid, verstoord geheugen en een vertekend zelfbeeld.

De auteurs doen dat zeker niet onverdienstelijk. Ze brengen verschillende bestaande inzichten samen in een toegankelijke structuur, met aandacht voor dopamine-gedreven feedbackloops, executieve functies, en de sociale druk van always-on zijn. Hun analyse van digitale gewoontes is herkenbaar én relevant. Ze noemen concrete strategieën om het tij te keren: beperk schermtijd, curate je feeds, en zoek offline ervaringen op. Zeker voor ouders, leerkrachten en jongeren zelf valt er in dit stuk wel wat te rapen.

Maar… er is ook reden tot voorzichtigheid. Om te beginnen is ‘brain rot’ geen wetenschappelijk erkende term, en dat blijft in het artikel soms wat schimmig. Wat bedoelen we er precies mee? En wanneer wordt gewone vermoeidheid door een drukke week plots een neurologisch probleem? De auteurs benoemen het probleem, maar zetten het concept vervolgens zelf gretig in als kapstok voor alles wat mis is met onze schermgewoontes.

Ook methodologisch zijn er toch wel wat kanttekeningen te maken. Het gaat om een zogenaamde ‘rapid review’ – een versnelde samenvatting van de literatuur, zonder de strengheid van een klassieke systematische review. Dat is begrijpelijk gezien de actualiteit van het thema, maar het betekent ook: geen diepgaande analyse van de kwaliteit van de studies, geen heldere coderingsprocedures, geen toetsing van bias. Het is eerder een goed onderbouwde meningsvorming dan een doorslaggevende wetenschappelijke synthese.

En dan is er nog de uitgever. MDPI publiceert veel – volgens sommigen soms té veel – en staat bekend om zijn lage drempels, hoge publicatiedruk en niet altijd even robuuste peer review. Dat hoeft niet te betekenen dat dit artikel per definitie zwak is, maar het vraagt wel om een kritisch oog. De inhoud telt, maar het kader waarin die verschijnt ook.

Dus wat te zeggen? Misschien precies wat het artikel suggereert over schermgedrag: even stilstaan, niet blind geloven, maar ook niet meteen wegvegen. ‘Brain rot’ is een cultureel krachtig begrip dat een reëel ongemak benoemt. De onderliggende zorg – dat we met z’n allen steeds oppervlakkiger, vluchtiger en afhankelijker omgaan met informatie – is niet nieuw, maar wél urgent. Dit artikel helpt om dat gesprek te voeren. Maar het is geen eindpunt. Eerder een uitnodiging om verder te denken, en beter te meten.

Hoe emotioneel intelligent is ChatGPT? Verrassend slim, blijkt uit nieuw onderzoek

Emotionele intelligentie (in zoverre het al dan niet zou bestaan): het is een vaardigheid die we belangrijk vinden bij leerkrachten, hulpverleners, collega’s. Waarom dan niet ook bij technologie? Maar kunnen grote taalmodellen zoals ChatGPT emoties begrijpen, herkennen, inschatten of reguleren? En nog straffer: kunnen ze daar ook testvragen over beantwoorden? Een nieuwe studie gepubliceerd in Communications Psychology zocht het uit, met verrassend positieve resultaten.

De onderzoekers lieten zes toonaangevende taalmodellen – waaronder ChatGPT-4, Claude 3.5 en Gemini 1.5 – vijf gestandaardiseerde tests rond emotionele intelligentie invullen. Die tests meten bijvoorbeeld of je begrijpt waarom iemand zich op een bepaalde manier voelt, of wat een goede manier zou zijn om met emoties van jezelf of anderen om te gaan. Het resultaat: de modellen scoorden gemiddeld 81% juist, terwijl mensen in eerdere validatiestudies gemiddeld bleven steken op 56%. ChatGPT-4 bleek dus beter in het herkennen en reguleren van emoties… dan de gemiddelde mens, althans op dit soort gestandaardiseerde tests.

Maar daar stopte het niet. De onderzoekers vroegen aan ChatGPT-4 om zelf nieuwe testitems te bedenken, in dezelfde stijl en structuur als de originele toetsen. Die ‘AI-tests’ werden vervolgens voorgelegd aan 467 proefpersonen, zonder dat die wisten dat de vragen van een taalmodel kwamen. En ook hier was het resultaat opvallend: de versies van ChatGPT waren even moeilijk, even realistisch en even duidelijk als de originele. De interne consistentie was vergelijkbaar, en de verschillen in validiteit en helderheid waren statistisch klein (allemaal onder Cohen’s d 0.25).

Natuurlijk zijn er kanttekeningen. Sommige ChatGPT-items leken inhoudelijk wat op bestaande vragen (al was dat zelden letterlijk), en er zijn terechte vragen over wat dit nu écht betekent. Want een goed testresultaat betekent nog niet dat een model iets begrijpt – laat staan voelt – zoals mensen dat doen. En empathie is meer dan correct antwoorden op multiplechoicevragen.

Toch is de conclusie van de auteurs helder: als we emotionele intelligentie definiëren als het correct kunnen redeneren over gevoelens, dan scoren LLM’s opvallend goed. Dat opent perspectieven voor toepassingen in zorg, onderwijs en HR – en doet ons tegelijk filosofisch nadenken over wat het verschil nog is tussen menselijke en kunstmatige empathie en roept de vraag op wat er eigenlijk nog menselijk is aan empathie.

Abstract van het onderzoek:

Large Language Models (LLMs) demonstrate expertise across diverse domains, yet their capacity for emotional intelligence remains uncertain. This research examined whether LLMs can solve and generate performance-based emotional intelligence tests. Results showed that ChatGPT-4, ChatGPT-o1, Gemini 1.5 flash, Copilot 365, Claude 3.5 Haiku, and DeepSeek V3 outperformed humans on five standard emotional intelligence tests, achieving an average accuracy of 81%, compared to the 56% human average reported in the original validation studies. In a second step, ChatGPT-4 generated new test items for each emotional intelligence test. These new versions and the original tests were administered to human participants across five studies (total N = 467). Overall, original and ChatGPT-generated tests demonstrated statistically equivalent test difficulty. Perceived item clarity and realism, item content diversity, internal consistency, correlations with a vocabulary test, and correlations with an external ability emotional intelligence test were not statistically equivalent between original and ChatGPT-generated tests. However, all differences were smaller than Cohen’s d ± 0.25, and none of the 95% confidence interval boundaries exceeded a medium effect size (d ± 0.50). Additionally, original and ChatGPT-generated tests were strongly correlated (r = 0.46). These findings suggest that LLMs can generate responses that are consistent with accurate knowledge about human emotions and their regulation.

Les geven in het tijdperk van AI-oplichters

Stel je voor: je bent docent aan een community college in Californië. Het semester begint, je opent je online leeromgeving, en je denkt: wie zijn al deze mensen? Of beter: zijn ze wel mensen? Wat volgt is een ongelooflijk verhaal dat ik oppikte uit The Chronicle of Higher Education, iets dat ik nog niet direct verwacht in Vlaanderen of Nederland. Alhoewel, misdadigers zijn overal creatief.

Wat klinkt als een flauwe sciencefictionfilm, is sinds een paar jaar de nieuwe realiteit voor docenten als Julie Brown. Zij geeft marketingvakken en moest vorig semester dertig studenten uit haar online cursus schrappen omdat ze ervan overtuigd was dat het bots waren. Geen verlegen eerstejaars, geen onhandige typers — gewoon digitale oplichters, vaak gestuurd door mensen die uit zijn op één ding: studiefinanciering.

Het gaat hier niet om een paar slimme AI-gegenereerde essays. We hebben het over grootschalige, georganiseerde fraude. Fake studenten die zich inschrijven via een centraal aanmeldsysteem, zich voordoen als ‘terugkerende studenten’ om minder controle te krijgen, en die met genoeg finesse hun weg vinden naar een inschrijving én een uitbetaling. Tot wel $2.500 per nepstudent, per semester. Doe dat een paar duizend keer, en je hebt een businessmodel.

De schade? Onnoemelijk. Financieel uiteraard, met miljoenen aan misbruikte subsidies. Maar de echte pijn zit bij de docenten en de échte studenten. Want voor elke bot die een plaats bezet, is er een echte student die achter het net vist. En de docenten? Die worden plots speurders, fraude-experts en gezichtsherkenningsalgoritmes ineen. “Stuur me een foto van jezelf, schrijf een essay, reageer op klasgenoten, toon je gezicht op Zoom, of ik zet je uit de klas.” Het zijn geen maatregelen uit een dystopisch controleboek, het is gewoon wat er nodig is om enigszins grip te houden.

Wat het nog verwarrender maakt: AI maakt de grens tussen nep en echt waziger dan ooit. Een student die ChatGPT gebruikt voor een opdracht is misschien geen bot, maar hoe weet je dat nog zeker als ze je nooit in levenden lijve spreken, met flinterdunne digitale sporen, vage foto’s, en video’s die voelen alsof ze uit een slecht nagesynchroniseerde Netflixreeks komen?

Docenten gaan diep. Reverse image searches van profielfoto’s. Telefoonnummers natrekken. Video’s bekijken en lichaamstaal analyseren. En ondertussen moeten ze ook nog gewoon lesgeven, toetsen maken, feedback geven en proberen een band op te bouwen met de studenten die wél echt zijn.

En het ironische is: elke maatregel tegen bots is ook meteen een mogelijke drempel voor de kwetsbare studenten waarvoor community colleges juist bestaan. Lage kosten, open toegang, een tweede kans voor wie het nodig heeft. Maar hoe hou je dat ideaal overeind als je het tegelijk moet verdedigen tegen een georganiseerde bot-invasie?

Het is een bizar soort vak geworden, waarin docenten lesgeven aan een deels onzichtbare, deels oncontroleerbare klas. En waar vertrouwen — ooit de basis van elke onderwijssituatie — steeds vaker plaats moet maken voor controle en achterdocht.

De bots zijn slim. De fraudeurs leren elke dag bij. Ze weten hoe ze spamfilters moeten ontwijken, hoe ze systemen als ID.me kunnen omzeilen, en zelfs hoe ze docenten moeten mailen met excuses die menselijk genoeg klinken. “Mijn wifi was weg.” “Mijn oma is overleden.” “De bosbranden waren dichtbij.” En eerlijk: soms klopt dat. Maar hoe weet je dat nog zeker?

Sommige instellingen investeren nu in AI-gedreven detectiesystemen. Anderen zetten taskforces op, fraud squads, met mensen uit IT, administratie en onderwijs. Maar de schaal is zodanig dat veel instellingen vooral brandjes blussen. En ondertussen vragen docenten zich af: wie zit er eigenlijk aan de andere kant van mijn scherm?

Misschien is dat de kern van het hele probleem. Niet alleen het geld dat we verliezen. Niet alleen het extra werk. Maar de erosie van het vertrouwen. De twijfel aan de ander. De constante angst om misleid te worden. En het verdriet van die ene echte student die geen plaats kreeg, omdat er toevallig net een bot sneller was.

Je zou er bijna nostalgisch van worden naar een klaslokaal met krijtstof en krijsende stoelen. Want daar kon je tenminste in iemands ogen kijken.

Kan AI echt slagen voor de universiteit?

Stel je voor: een student die een semester lang nauwelijks zelf werkt, maar wél met gemak een B haalt in een universitair vak. Alleen niet door zelf te blokken… maar door ChatGPT te laten werken. Een doembeeld voor veel docenten, maar kan het ook echt?

Onderzoekers van de University of Illinois onder leiding van Gokul Puthumanaillam hebben precies dat getest. Ze vroegen zich af: hoe goed kan een taalmodel zoals ChatGPT een écht technische opleiding doorlopen? Niet zomaar losse vragen oplossen, maar alles: meerkeuzevragen, zware wiskundige afleidingen, uitgebreide programmeerprojecten en lange theoretische essays.

Het resultaat? Met minimale inspanning – gewoon opdrachten kopiëren en plakken zonder extra uitleg – slaagde ChatGPT er gemiddeld in om 82,24% te halen. Dat is nét onder het gemiddelde van de echte studenten, die op 84,99% zaten. Vooral in gestructureerde opdrachten zoals meerkeuzevragen en standaardexamens scoorde het model erg goed. In creatieve of open opdrachten, zoals het bouwen van controle-algoritmes of het schrijven van technische rapporten, liep het wél duidelijk achter.

Interessant: zelfs als de onderzoekers ChatGPT een beetje hielpen door relevante college-aantekeningen mee te sturen, verbeterde het model maar beperkt. Vooral in programmeerprojecten viel op hoe ChatGPT vaak brute-force oplossingen gaf die technisch werkten, maar weinig robuust of elegant waren. Alsof je een IKEA-kastje bouwt zonder ooit naar de handleiding te kijken: het staat, maar wie weet hoe lang.

De studie zegt eigenlijk vooral: AI kan veel, maar mist nog de échte intuïtie die mensen leren. En het roept een belangrijke vraag op: als AI steeds beter wordt in standaard taken, hoe moeten we dan onderwijs anders gaan inrichten? Misschien moeten we studenten niet alleen toetsen op juiste antwoorden, maar veel meer op hun redenatie, hun keuzes, en hun vermogen om complexe problemen vanuit verschillende hoeken te bekijken.

In plaats van AI-gebruik te verbieden, stelt dit onderzoek voor om onderwijs slim te hervormen. Minder simpele multiple-choice, meer echte projecten en open vragen die AI niet zomaar kan faken. Want precies daar ligt nog altijd het verschil tussen een goede ingenieur en een slimme chatbot.

Dus ja: ChatGPT haalde bijna een B. Maar gelukkig is excellentie nog altijd iets wat uit echte nieuwsgierigheid en kritisch denken komt – niet alleen uit slimme algoritmes.

Abstract van het onderzoek:

This paper presents a comprehensive investigation into the capability of Large Language Models (LLMs) to successfully complete a semester-long undergraduate control systems course. Through evaluation of 115 course deliverables, we assess LLM performance using ChatGPT under a “minimal effort” protocol that simulates realistic student usage patterns. The investigation employs a rigorous testing methodology across multiple assessment formats, from auto-graded multiple choice questions to complex Python programming tasks and long-form analytical writing. Our analysis provides quantitative insights into AI’s strengths and limitations in handling mathematical formulations, coding challenges, and theoretical concepts in control systems engineering. The LLM achieved a B-grade performance (82.24%), approaching but not exceeding the class average (84.99%), with strongest results in structured assignments and greatest limitations in open-ended projects. The findings inform discussions about course design adaptation in response to AI advancement, moving beyond simple prohibition towards thoughtful integration of these tools in engineering education. Additional materials including syllabus, examination papers, design projects, and example responses can be found at the project website: https://gradegpt.github.io.