X, Y of Einstein?

De persoonlijke blog van Pedro De Bruyckere over onderwijs, jongeren, cultuur en media.

Woord van de dag: Workslop of waarom AI ons meer doet werken en minder doet presteren

De term “workslop” leerde ik kennen via een scherpe bijdrage in Harvard Business Review van Kate Niederhoffer, Gabriella Rosen Kellerman, Angela Lee, Alex Liebscher, Kristina Rapuano en Jeffrey T. Hancock (“AI-Generated ‘Workslop’ Is Destroying Productivity,” september 2025). Ze gebruiken het om te beschrijven hoe AI steeds meer rommelwerk produceert: e-mails, rapporten en teksten die eruitzien als productief werk, maar in werkelijkheid extra tijd en moeite kosten. Wat eerst tijdswinst leek, verandert zo in het tegendeel: we spenderen uren aan het nalezen, corrigeren en afstemmen van wat een algoritme zogezegd “af” heeft gemaakt.

De GenAI Divide: veel gebruik, weinig verandering

De aanleiding voor het HBR-artikel is het MIT-rapport The GenAI Divide: State of AI in Business 2025 van Aditya Challapally, Chris Pease, Ramesh Raskar en Pradyumna Chari. Ook daar klinkt een opvallend vergelijkbaar verhaal. Meer dan tachtig procent van de bedrijven experimenteert met generatieve AI, bijna veertig procent zegt het al te gebruiken, maar vijfennegentig procent van die projecten levert nul meetbare winst op.

Volgens de onderzoekers ligt dat niet aan de kwaliteit van de modellen of aan regelgeving, maar aan iets fundamentelers: de meeste systemen leren niet. Ze passen zich niet aan, onthouden geen context en verbeteren niet met gebruik. MIT noemt dat de GenAI Divide — de kloof tussen hoge adoptie en lage transformatie. Slechts een kleine groep organisaties weet echt waarde te halen uit AI, terwijl de rest blijft steken in proefprojecten en PowerPointpresentaties.

Wat opvalt: die kloof lijkt sterk op wat Niederhoffer en haar collega’s workslop noemen. Overal is er beweging, maar weinig vooruitgang. Bedrijven rapporteren “AI-initiatieven”, werknemers genereren bergen output, en toch verandert er nauwelijks iets wezenlijks in hoe het werk verloopt.

De schaduwzijde van AI-gebruik

Het is niet zo dat mensen geen AI gebruiken. Integendeel: volgens MIT gebruikt personeel in negentig procent van de onderzochte bedrijven regelmatig ChatGPT of Claude, vaak via persoonlijke accounts en zonder goedkeuring van IT. De onderzoekers spreken over een “shadow AI economy”: de stille, informele laag waarin werknemers zelf experimenteren met AI om hun werk gedaan te krijgen, terwijl de officiële projecten vastlopen.

Daarin schuilt precies de kern van het probleem. Zowel workslop als de GenAI Divide gaan over systemen die niet leren. Zoals MIT het verwoordt: het verschil zit niet in intelligentie, maar in geheugen, aanpassingsvermogen en context. Zolang AI die drie niet onder de knie heeft, blijft het vooral een generator van plausibel klinkende tekst die mensen daarna weer moeten verbeteren.

Het gevolg is een vreemde paradox: hoe meer AI we gebruiken, hoe vermoeiender het werk wordt. Teams verzuipen in drafts, samenvattingen en dashboards die nog steeds menselijk oordeel vereisen. De HBR-auteurs waarschuwen dat deze golf van synthetische output kenniswerk langzaam verandert in administratief herstelwerk. En bij MIT komen ze tot dezelfde conclusie: zolang systemen niet leren van feedback, blijven organisaties aan de verkeerde kant van de kloof.

Van slop naar leren

De echte volgende stap in AI heeft dus niets te maken met nóg grotere modellen of meer automatisering, maar met leren. Met feedback, geheugen en integratie in het echte werk. Pas als systemen kunnen evolueren — en niet telkens opnieuw moeten worden aangestuurd — kunnen ze meer zijn dan slimme gadgets.

Tot dan blijven we zitten met wat het mooiste en tegelijk pijnlijkste begrip van dit moment is: workslop. Het rommelige restant van ons digitale enthousiasme.

AI-verrijkte leerboeken: wat Google’s eigen onderzoek ons wél en niet vertelt

Google publiceerde zopas een paper over Learn Your Way, hun AI-verrijkte leerboekproject. Op het eerste gezicht klinkt het veelbelovend: een statisch handboek omzetten naar iets adaptiefs, multimodaal en gepersonaliseerd met generatieve AI. In hun proef scoorden leerlingen beter meteen na het leren, en zelfs drie dagen later bleken ze nog meer te onthouden. Case closed? Ik vrees van niet.

Het probleem van zelfevaluatie

Het eerste probleem is duidelijk: dit is een bedrijf dat zijn eigen product evalueert. Hetzelfde team dat de tool ontwierp, ontwierp ook de studie, rekruteerde de leerlingen en schreef het artikel. Dat betekent niet dat de data verzonnen zijn, maar het verhoogt wel de drempel voor geloofwaardig bewijs. Wanneer een innovatie door de ontwikkelaar zelf wordt getest, is scepsis geen cynisme, maar gewoon elementaire onderzoekslogica.

Een controlegroep die weinig bewijst

Een tweede probleem zit in de vergelijking. Learn Your Way werd namelijk afgezet tegen… Adobe Acrobat Reader. Met andere woorden: een interactieve, adaptieve, speelse, multimodale leeromgeving tegenover een statische pdf-lezer. Het is nauwelijks verrassend dat leerlingen de eerste leuker vonden én er iets meer van opstaken. Precies hier loert het Hawthorne-effect: deelnemers doen het beter omdat ze iets nieuws, glanzends en duidelijk op hen gericht krijgen. De onderzoekers melden zelfs dat alle leerlingen in de experimentele groep de quizzen en extra content gebruikten — een sterk signaal dat vooral de nieuwigheid en interactiviteit het verschil kunnen verklaren.

Nieuwigheid, betrokkenheid en het Hawthorne-effect

Daarbovenop: de steekproef is piepklein. Zestig leerlingen uit de regio Chicago, verdeeld in twee groepen van dertig, die één enkel leerboekhoofdstuk bestudeerden. Dat is een proof-of-concept, geen robuuste effectiviteitsstudie. Toch suggereren de auteurs dat dit een stap is naar een revolutie in leerboeken. Dat is alsof je een geneesmiddel goedkeurt omdat het één klas drie dagen lang beter deed presteren. Bovendien blijft volledig onduidelijk welke onderdelen het verschil maakten: de quizzen, de gepersonaliseerde metaforen, de ingesproken slides, of gewoon het feit dat de leerlingen wisten dat ze getest werden door Google.

Ook de ecologische validiteit is problematisch. Leerlingen studeerden 20–40 minuten in een gecontroleerde labomgeving, met duidelijke incentives om te presteren. Maar echte klaslokalen zijn rommelig, leerkrachten spelen een sleutelrol, en duurzame motivatie laat zich niet kweken met één korte sessie. De auteurs erkennen wel dat hun opzet beperkingen heeft, maar de toon van het artikel blijft opvallend triomfantelijk.

Wat de auteurs wél en níet meegeven

Om eerlijk te zijn: sommige beperkingen noemen de onderzoekers zelf. Ze geven toe dat ze slechts één hoofdstuk testten met een kleine groep, dat niet duidelijk is welke componenten van Learn Your Way precies effect sorteren, en dat een labsetting niet hetzelfde is als een klas. Dat zijn verstandige nuanceringen.

Maar ze laten opvallende dingen onbesproken. Ze vermelden nergens dat het Hawthorne-effect een mogelijke verklaring kan zijn. Ze erkennen niet dat Adobe Reader een extreem zwakke controlegroep is. En ze reflecteren helemaal niet op het feit dat dit onderzoek in wezen Google is dat Google beoordeelt. Die stiltes zijn minstens zo veelzeggend als de bekentenissen.

Hoe veelbelovend is dit onderzoek dus echt? In het beste geval toont het aan dat interactieve elementen en quizzen meer opleveren dan een platte pdf — iets wat het onderwijs al decennialang weet. In het slechtste geval is het een gelikt voorbeeld van het Hawthorne-effect: tijdelijke betere prestaties omdat leerlingen een nieuw speeltje krijgen.

De echte test moet nog komen: onafhankelijke replicaties, in verschillende vakken, met grotere en diversere populaties, en controlegroepen die werkelijk vergelijkbaar zijn. Tot die tijd moet je de headline “hogere testscores na drie dagen” lezen als een marketingteaser, niet als solide bewijs dat generatieve AI-leerboeken de toekomst van het onderwijs zijn.

Je kunt een auto niet opvoeden – AI wel?

Over AI hoor je vaak dat we meer regels of “guardrails” nodig hebben. Regels die ervoor zorgen dat de technologie niet ontspoort. Dat is een begrijpelijke gedachte – eentje die ik zelf ook had – maar ook een beetje misleidend. AI lijkt namelijk meer op een hond dan op een auto. Je kunt een auto niet opvoeden. Je programmeert ze, je bestuurt ze, je hoopt dat de remmen werken – maar een auto leert niets bij. AI daarentegen? Dat is een ander verhaal.

AI leert. Het maakt fouten. Het past zich aan. En net daarom is een vast parcours met vangrails niet genoeg. Wat AI nodig heeft, is iemand aan het andere eind van de lijn – iemand die ingrijpt als het nodig is, bijstuurt, feedback geeft. Zoals je dat doet met een hond aan de leiband. Zoals je dat doet met kinderen.

Ik haal dit idee bij twee onderzoekers, Cary Coglianese en Colton Crum. Zij stellen precies dat voor. In plaats van starre regels – “guardrails” – pleiten ze voor flexibele, mensgestuurde beheersing: een leiband, of leash. Geen systeem dat je installeert en vervolgens loslaat, maar een relationeel model dat inzet op voortdurende opvolging. Geen poging om elk risico vooraf te elimineren, maar een manier om aanwezig te blijven bij wat zich ontwikkelt.

Dat betekent niet dat er geen regels nodig zijn. Net als bij het opvoeden van een kind – of, in de metafoor van de auteurs, bij het trainen van een hond – begin je wél met een duidelijke set van basisregels. Wat mag wel, wat niet, waar liggen de grenzen. Zonder die kaders wordt het willekeur en mist het kind de broodnodige structuur. Zonder basisregels ontstaat chaos. Maar regels op zich zijn niet genoeg. Ze werken pas als er iemand is die ze uitlegt wanneer nodig, bewaakt, erop terugkomt wanneer het misgaat – en ze soms bijstelt als de situatie verandert.

En hoe meer je erover nadenkt, hoe herkenbaarder het wordt. Ook in onderwijs en opvoeding kiezen we vaak voor regels en protocollen in de hoop op voorspelbaar gedrag. Maar ook kinderen zijn geen auto’s. Ze zijn veranderlijk, verrassend, creatief én soms onvoorspelbaar. Net als AI. Wat écht werkt, is nabijheid. Iemand die oplet, bevraagt, begrenst waar nodig – en ruimte geeft waar het kan.

Coglianese en Crum halen voorbeelden aan van AI-systemen die ontspoorden: een zelfrijdende auto die een voetganger niet herkende, een chatbot die radicaliseerde, een algoritme dat discrimineerde bij sollicitaties. Niet uit kwade wil, maar omdat de training gebrekkig was of de mens die toezicht moest houden niet ingreep. Ook kinderen maken fouten – soms ernstige. Maar we sturen bij, praten, leren, proberen opnieuw. Dat is opvoeden. En dat is ook wat AI nodig heeft: voortdurende menselijke betrokkenheid, eerder dan blinde controle.

Het probleem van veel AI-discussies is dat ze geloven in de kracht van systemen zonder mensen. Als het protocol maar klopt. Als de regels maar helder zijn. Maar net zoals je kinderen niet met een handleiding opvoedt, zal AI zich niet netjes aan elk script houden. Wat telt, is iemand die blijft kijken. Blijft spreken. Blijft denken.

Misschien moeten we AI dus leren opvoeden zoals we kinderen proberen op te voeden: met een duidelijke basis aan regels, maar vooral via nabijheid en verantwoordelijkheid. Niet door alles vooraf te willen controleren, maar door aanwezig te blijven. En door toe te geven dat fouten soms niet te vermijden zijn – maar wél te herstellen. AI heeft dus misschien geen vangrails nodig, maar een stevige leiband. En vooral: iemand die ze vasthoudt.

Abstract van de paper:

Calls to regulate artificial intelligence (AI) have sought to establish “guardrails” to protect the public against AI going awry. Although physical guardrails can lower risks on roadways by serving as fixed, immovable protective barriers, the regulatory equivalent in the digital age of AI is unrealistic and even unwise. AI is too heterogeneous and dynamic to circumscribe fixed paths along which it must operate—and, in any event, the benefits of the technology proceeding along novel pathways would be limited if rigid, prescriptive regulatory barriers were imposed. But this does not mean that AI should be left unregulated, as the harms from irresponsible and ill-managed development and use of AI can be serious. Instead of “guardrails,” though, policymakers should impose “leashes.” Regulatory leashes imposed on digital technologies are flexible and adaptable—just as physical leashes used when walking a dog through a neighborhood allow for a range of movement and exploration. But just as a physical leash only protects others when a human retains a firm grip on the handle, the kind of leashes that should be deployed for AI will also demand human oversight. In the regulatory context, a flexible regulatory strategy known in other contexts as management-based regulation will be an appropriate model for AI risk governance. In this article, we explain why regulating AI by management-based regulation—a “leash” approach—will work better than a prescriptive or “guardrail” regulatory approach. We discuss how some early regulatory efforts are including management-based elements. We also elucidate some of the questions that lie ahead in implementing a management-based approach to AI risk regulation. Our aim is to facilitate future research and decision-making that can improve the efficacy of AI regulation by leashes, not guardrails.

 

‘Brain rot’ als symptoom van onze schermtijdcultuur: hype, houvast of beide?

Als je het woord ‘brain rot’ nog niet bent tegengekomen, heb je wellicht gewoon nog niet genoeg gescrolld. Sinds Oxford het uitriep tot Woord van het Jaar 2024, duikt het overal op: in krantenkoppen, TikToks en nu ook in de wetenschappelijke literatuur.

Gisteren was hiervoor aandacht in De Morgen in een degelijk, genuanceerd artikel. In het artikel verwijst men ook naar een recente review-studie in Brain Sciences (ja, van MDPI – daarover straks meer). Deze studie probeert het fenomeen van ‘brain rot’ te ontwarren. Het gaat om een snel uitgevoerde literatuurstudie naar de cognitieve gevolgen van overmatige blootstelling aan oppervlakkige, digitale content, vooral bij jongeren. Denk aan doomscrolling, zombie scrolling, eindeloze TikTok-loops – je kent het wel. En de conclusie? Al dat passieve scrollen zou kunnen leiden tot concentratieproblemen, mentale vermoeidheid, verstoord geheugen en een vertekend zelfbeeld.

De auteurs doen dat zeker niet onverdienstelijk. Ze brengen verschillende bestaande inzichten samen in een toegankelijke structuur, met aandacht voor dopamine-gedreven feedbackloops, executieve functies, en de sociale druk van always-on zijn. Hun analyse van digitale gewoontes is herkenbaar én relevant. Ze noemen concrete strategieën om het tij te keren: beperk schermtijd, curate je feeds, en zoek offline ervaringen op. Zeker voor ouders, leerkrachten en jongeren zelf valt er in dit stuk wel wat te rapen.

Maar… er is ook reden tot voorzichtigheid. Om te beginnen is ‘brain rot’ geen wetenschappelijk erkende term, en dat blijft in het artikel soms wat schimmig. Wat bedoelen we er precies mee? En wanneer wordt gewone vermoeidheid door een drukke week plots een neurologisch probleem? De auteurs benoemen het probleem, maar zetten het concept vervolgens zelf gretig in als kapstok voor alles wat mis is met onze schermgewoontes.

Ook methodologisch zijn er toch wel wat kanttekeningen te maken. Het gaat om een zogenaamde ‘rapid review’ – een versnelde samenvatting van de literatuur, zonder de strengheid van een klassieke systematische review. Dat is begrijpelijk gezien de actualiteit van het thema, maar het betekent ook: geen diepgaande analyse van de kwaliteit van de studies, geen heldere coderingsprocedures, geen toetsing van bias. Het is eerder een goed onderbouwde meningsvorming dan een doorslaggevende wetenschappelijke synthese.

En dan is er nog de uitgever. MDPI publiceert veel – volgens sommigen soms té veel – en staat bekend om zijn lage drempels, hoge publicatiedruk en niet altijd even robuuste peer review. Dat hoeft niet te betekenen dat dit artikel per definitie zwak is, maar het vraagt wel om een kritisch oog. De inhoud telt, maar het kader waarin die verschijnt ook.

Dus wat te zeggen? Misschien precies wat het artikel suggereert over schermgedrag: even stilstaan, niet blind geloven, maar ook niet meteen wegvegen. ‘Brain rot’ is een cultureel krachtig begrip dat een reëel ongemak benoemt. De onderliggende zorg – dat we met z’n allen steeds oppervlakkiger, vluchtiger en afhankelijker omgaan met informatie – is niet nieuw, maar wél urgent. Dit artikel helpt om dat gesprek te voeren. Maar het is geen eindpunt. Eerder een uitnodiging om verder te denken, en beter te meten.

Hoe emotioneel intelligent is ChatGPT? Verrassend slim, blijkt uit nieuw onderzoek

Emotionele intelligentie (in zoverre het al dan niet zou bestaan): het is een vaardigheid die we belangrijk vinden bij leerkrachten, hulpverleners, collega’s. Waarom dan niet ook bij technologie? Maar kunnen grote taalmodellen zoals ChatGPT emoties begrijpen, herkennen, inschatten of reguleren? En nog straffer: kunnen ze daar ook testvragen over beantwoorden? Een nieuwe studie gepubliceerd in Communications Psychology zocht het uit, met verrassend positieve resultaten.

De onderzoekers lieten zes toonaangevende taalmodellen – waaronder ChatGPT-4, Claude 3.5 en Gemini 1.5 – vijf gestandaardiseerde tests rond emotionele intelligentie invullen. Die tests meten bijvoorbeeld of je begrijpt waarom iemand zich op een bepaalde manier voelt, of wat een goede manier zou zijn om met emoties van jezelf of anderen om te gaan. Het resultaat: de modellen scoorden gemiddeld 81% juist, terwijl mensen in eerdere validatiestudies gemiddeld bleven steken op 56%. ChatGPT-4 bleek dus beter in het herkennen en reguleren van emoties… dan de gemiddelde mens, althans op dit soort gestandaardiseerde tests.

Maar daar stopte het niet. De onderzoekers vroegen aan ChatGPT-4 om zelf nieuwe testitems te bedenken, in dezelfde stijl en structuur als de originele toetsen. Die ‘AI-tests’ werden vervolgens voorgelegd aan 467 proefpersonen, zonder dat die wisten dat de vragen van een taalmodel kwamen. En ook hier was het resultaat opvallend: de versies van ChatGPT waren even moeilijk, even realistisch en even duidelijk als de originele. De interne consistentie was vergelijkbaar, en de verschillen in validiteit en helderheid waren statistisch klein (allemaal onder Cohen’s d 0.25).

Natuurlijk zijn er kanttekeningen. Sommige ChatGPT-items leken inhoudelijk wat op bestaande vragen (al was dat zelden letterlijk), en er zijn terechte vragen over wat dit nu écht betekent. Want een goed testresultaat betekent nog niet dat een model iets begrijpt – laat staan voelt – zoals mensen dat doen. En empathie is meer dan correct antwoorden op multiplechoicevragen.

Toch is de conclusie van de auteurs helder: als we emotionele intelligentie definiëren als het correct kunnen redeneren over gevoelens, dan scoren LLM’s opvallend goed. Dat opent perspectieven voor toepassingen in zorg, onderwijs en HR – en doet ons tegelijk filosofisch nadenken over wat het verschil nog is tussen menselijke en kunstmatige empathie en roept de vraag op wat er eigenlijk nog menselijk is aan empathie.

Abstract van het onderzoek:

Large Language Models (LLMs) demonstrate expertise across diverse domains, yet their capacity for emotional intelligence remains uncertain. This research examined whether LLMs can solve and generate performance-based emotional intelligence tests. Results showed that ChatGPT-4, ChatGPT-o1, Gemini 1.5 flash, Copilot 365, Claude 3.5 Haiku, and DeepSeek V3 outperformed humans on five standard emotional intelligence tests, achieving an average accuracy of 81%, compared to the 56% human average reported in the original validation studies. In a second step, ChatGPT-4 generated new test items for each emotional intelligence test. These new versions and the original tests were administered to human participants across five studies (total N = 467). Overall, original and ChatGPT-generated tests demonstrated statistically equivalent test difficulty. Perceived item clarity and realism, item content diversity, internal consistency, correlations with a vocabulary test, and correlations with an external ability emotional intelligence test were not statistically equivalent between original and ChatGPT-generated tests. However, all differences were smaller than Cohen’s d ± 0.25, and none of the 95% confidence interval boundaries exceeded a medium effect size (d ± 0.50). Additionally, original and ChatGPT-generated tests were strongly correlated (r = 0.46). These findings suggest that LLMs can generate responses that are consistent with accurate knowledge about human emotions and their regulation.

Les geven in het tijdperk van AI-oplichters

Stel je voor: je bent docent aan een community college in Californië. Het semester begint, je opent je online leeromgeving, en je denkt: wie zijn al deze mensen? Of beter: zijn ze wel mensen? Wat volgt is een ongelooflijk verhaal dat ik oppikte uit The Chronicle of Higher Education, iets dat ik nog niet direct verwacht in Vlaanderen of Nederland. Alhoewel, misdadigers zijn overal creatief.

Wat klinkt als een flauwe sciencefictionfilm, is sinds een paar jaar de nieuwe realiteit voor docenten als Julie Brown. Zij geeft marketingvakken en moest vorig semester dertig studenten uit haar online cursus schrappen omdat ze ervan overtuigd was dat het bots waren. Geen verlegen eerstejaars, geen onhandige typers — gewoon digitale oplichters, vaak gestuurd door mensen die uit zijn op één ding: studiefinanciering.

Het gaat hier niet om een paar slimme AI-gegenereerde essays. We hebben het over grootschalige, georganiseerde fraude. Fake studenten die zich inschrijven via een centraal aanmeldsysteem, zich voordoen als ‘terugkerende studenten’ om minder controle te krijgen, en die met genoeg finesse hun weg vinden naar een inschrijving én een uitbetaling. Tot wel $2.500 per nepstudent, per semester. Doe dat een paar duizend keer, en je hebt een businessmodel.

De schade? Onnoemelijk. Financieel uiteraard, met miljoenen aan misbruikte subsidies. Maar de echte pijn zit bij de docenten en de échte studenten. Want voor elke bot die een plaats bezet, is er een echte student die achter het net vist. En de docenten? Die worden plots speurders, fraude-experts en gezichtsherkenningsalgoritmes ineen. “Stuur me een foto van jezelf, schrijf een essay, reageer op klasgenoten, toon je gezicht op Zoom, of ik zet je uit de klas.” Het zijn geen maatregelen uit een dystopisch controleboek, het is gewoon wat er nodig is om enigszins grip te houden.

Wat het nog verwarrender maakt: AI maakt de grens tussen nep en echt waziger dan ooit. Een student die ChatGPT gebruikt voor een opdracht is misschien geen bot, maar hoe weet je dat nog zeker als ze je nooit in levenden lijve spreken, met flinterdunne digitale sporen, vage foto’s, en video’s die voelen alsof ze uit een slecht nagesynchroniseerde Netflixreeks komen?

Docenten gaan diep. Reverse image searches van profielfoto’s. Telefoonnummers natrekken. Video’s bekijken en lichaamstaal analyseren. En ondertussen moeten ze ook nog gewoon lesgeven, toetsen maken, feedback geven en proberen een band op te bouwen met de studenten die wél echt zijn.

En het ironische is: elke maatregel tegen bots is ook meteen een mogelijke drempel voor de kwetsbare studenten waarvoor community colleges juist bestaan. Lage kosten, open toegang, een tweede kans voor wie het nodig heeft. Maar hoe hou je dat ideaal overeind als je het tegelijk moet verdedigen tegen een georganiseerde bot-invasie?

Het is een bizar soort vak geworden, waarin docenten lesgeven aan een deels onzichtbare, deels oncontroleerbare klas. En waar vertrouwen — ooit de basis van elke onderwijssituatie — steeds vaker plaats moet maken voor controle en achterdocht.

De bots zijn slim. De fraudeurs leren elke dag bij. Ze weten hoe ze spamfilters moeten ontwijken, hoe ze systemen als ID.me kunnen omzeilen, en zelfs hoe ze docenten moeten mailen met excuses die menselijk genoeg klinken. “Mijn wifi was weg.” “Mijn oma is overleden.” “De bosbranden waren dichtbij.” En eerlijk: soms klopt dat. Maar hoe weet je dat nog zeker?

Sommige instellingen investeren nu in AI-gedreven detectiesystemen. Anderen zetten taskforces op, fraud squads, met mensen uit IT, administratie en onderwijs. Maar de schaal is zodanig dat veel instellingen vooral brandjes blussen. En ondertussen vragen docenten zich af: wie zit er eigenlijk aan de andere kant van mijn scherm?

Misschien is dat de kern van het hele probleem. Niet alleen het geld dat we verliezen. Niet alleen het extra werk. Maar de erosie van het vertrouwen. De twijfel aan de ander. De constante angst om misleid te worden. En het verdriet van die ene echte student die geen plaats kreeg, omdat er toevallig net een bot sneller was.

Je zou er bijna nostalgisch van worden naar een klaslokaal met krijtstof en krijsende stoelen. Want daar kon je tenminste in iemands ogen kijken.

Kan AI echt slagen voor de universiteit?

Stel je voor: een student die een semester lang nauwelijks zelf werkt, maar wél met gemak een B haalt in een universitair vak. Alleen niet door zelf te blokken… maar door ChatGPT te laten werken. Een doembeeld voor veel docenten, maar kan het ook echt?

Onderzoekers van de University of Illinois onder leiding van Gokul Puthumanaillam hebben precies dat getest. Ze vroegen zich af: hoe goed kan een taalmodel zoals ChatGPT een écht technische opleiding doorlopen? Niet zomaar losse vragen oplossen, maar alles: meerkeuzevragen, zware wiskundige afleidingen, uitgebreide programmeerprojecten en lange theoretische essays.

Het resultaat? Met minimale inspanning – gewoon opdrachten kopiëren en plakken zonder extra uitleg – slaagde ChatGPT er gemiddeld in om 82,24% te halen. Dat is nét onder het gemiddelde van de echte studenten, die op 84,99% zaten. Vooral in gestructureerde opdrachten zoals meerkeuzevragen en standaardexamens scoorde het model erg goed. In creatieve of open opdrachten, zoals het bouwen van controle-algoritmes of het schrijven van technische rapporten, liep het wél duidelijk achter.

Interessant: zelfs als de onderzoekers ChatGPT een beetje hielpen door relevante college-aantekeningen mee te sturen, verbeterde het model maar beperkt. Vooral in programmeerprojecten viel op hoe ChatGPT vaak brute-force oplossingen gaf die technisch werkten, maar weinig robuust of elegant waren. Alsof je een IKEA-kastje bouwt zonder ooit naar de handleiding te kijken: het staat, maar wie weet hoe lang.

De studie zegt eigenlijk vooral: AI kan veel, maar mist nog de échte intuïtie die mensen leren. En het roept een belangrijke vraag op: als AI steeds beter wordt in standaard taken, hoe moeten we dan onderwijs anders gaan inrichten? Misschien moeten we studenten niet alleen toetsen op juiste antwoorden, maar veel meer op hun redenatie, hun keuzes, en hun vermogen om complexe problemen vanuit verschillende hoeken te bekijken.

In plaats van AI-gebruik te verbieden, stelt dit onderzoek voor om onderwijs slim te hervormen. Minder simpele multiple-choice, meer echte projecten en open vragen die AI niet zomaar kan faken. Want precies daar ligt nog altijd het verschil tussen een goede ingenieur en een slimme chatbot.

Dus ja: ChatGPT haalde bijna een B. Maar gelukkig is excellentie nog altijd iets wat uit echte nieuwsgierigheid en kritisch denken komt – niet alleen uit slimme algoritmes.

Abstract van het onderzoek:

This paper presents a comprehensive investigation into the capability of Large Language Models (LLMs) to successfully complete a semester-long undergraduate control systems course. Through evaluation of 115 course deliverables, we assess LLM performance using ChatGPT under a “minimal effort” protocol that simulates realistic student usage patterns. The investigation employs a rigorous testing methodology across multiple assessment formats, from auto-graded multiple choice questions to complex Python programming tasks and long-form analytical writing. Our analysis provides quantitative insights into AI’s strengths and limitations in handling mathematical formulations, coding challenges, and theoretical concepts in control systems engineering. The LLM achieved a B-grade performance (82.24%), approaching but not exceeding the class average (84.99%), with strongest results in structured assignments and greatest limitations in open-ended projects. The findings inform discussions about course design adaptation in response to AI advancement, moving beyond simple prohibition towards thoughtful integration of these tools in engineering education. Additional materials including syllabus, examination papers, design projects, and example responses can be found at the project website: https://gradegpt.github.io.

Helpt een social media detox echt? Wat de wetenschap zegt is nogal duidelijk…

Even een pauze nemen van social media – het klinkt als een eenvoudige manier om je gelukkiger te voelen, minder stress te ervaren en meer in het moment te leven. Maar helpt het echt? Een recente meta-analyse van Laura Lemahieu en collega’s, gepubliceerd in Scientific Reports, geeft daar een even duidelijk als nuchter antwoord op: nee, waarschijnlijk niet.

Lemahieu en haar team verzamelden gegevens uit tien verschillende studies (sommige las ik zelf eerder ook al) met in totaal 4674 deelnemers. Ze keken specifiek naar het effect van een social media detox op positieve gevoelens zoals blijdschap en enthousiasme, negatieve gevoelens zoals stress en frustratie, en algemene levenstevredenheid. Ook onderzochten ze of de duur van de social media pauze – van één dag tot vier weken – een verschil maakte.

De grote conclusie? Een tijdelijke social media pauze had geen aantoonbare invloed op positieve gevoelens, negatieve gevoelens of levenstevredenheid. Of je nu een dag, een week of zelfs een maand offline ging, de resultaten bleven hetzelfde. Dit betekent niet dat social media geen invloed heeft op welzijn – maar een korte detox lijkt niet de magische oplossing te zijn die sommige coaches en apps beloven.

Veel mensen die bewust hun social media gebruik verminderen, zeggen zich achteraf beter te voelen. Hoe valt dat te rijmen met deze studie? Er zijn een paar mogelijke verklaringen. Het placebo-effect kan een rol spelen: als je verwacht dat iets je goed zal doen, voelt het ook zo. Individuele verschillen kunnen meespelen: misschien heeft een social media pauze wél effect voor sommige mensen, maar niet gemiddeld genomen. Ook onzichtbare nadelen zoals FOMO (fear of missing out) of verveling kunnen ervoor zorgen dat eventuele voordelen teniet worden gedaan.

Als je je gestrest voelt door social media, is een detox geen slechte keuze – maar verwacht er niet automatisch een geluksboost van. Misschien is het slimmer om je social media-gebruik anders aan te pakken: bewuster kiezen wanneer en hoe je scrollt, je feed opruimen, of notificaties beperken. Wil je écht weten wat voor jou werkt? Experimenteer en luister naar jezelf. Maar als je hoopt dat een social media detox een wondermiddel is voor meer geluk, dan heeft de wetenschap daar nu een helder antwoord op: waarschijnlijk niet.

Abstract van de meta-analyse:

Abstaining from social media has become a popular digital disconnection strategy of individuals to enhance their well-being. To date, it is unclear whether social media abstinences are truly effective in improving well-being, however, as studies produce inconsistent outcomes. This preregistered systematic review and meta-analysis therefore aims to provide a more precise answer regarding the impact of social media abstinence on well-being. The databases of PubMed, Scopus, Web of Science, Communication Source, Cochrane Library, and Google Scholar were searched for studies examining the effect of social media abstinence on three outcomes, namely positive affect, negative affect, and/or life satisfaction. In total, ten studies (N = 4674) were included, allowing an examination of 38 effect sizes across these three outcomes. The analyses revealed no significant effects of social media abstinence interventions on positive affect, negative affect, or life satisfaction. Relationships between social media abstinence duration and the three outcomes were also non-significant. The findings thus suggest that temporarily stepping away from social media may not be the most optimal approach to enhance individual well-being, emphasizing the need for further research on alternative disconnection strategies. Nevertheless, important methodological differences between studies should be considered when interpreting these results.

Een bericht, verschillende platformen

Ik beken, ik twijfelde nauwelijks deze ochtend toen ik een zelfde bericht plaatste over Elon Musk op Twitter, Bluesky, Mastodon, Threads en Facebook. Ik wist dat er reactie zou komen, en ik kon vermoeden welke, alhoewel.

Zie het als een natuurlijk experiment.

Dus wat blijkt:

  • nauwelijks reactie op Threads (wie, wat, waar,…)
  • wat positieve reactie Mastodon
  • Vooral veel positieve reactie op Bluesky, door bepaalde tweeps ook Bluecry genoemd, al bleek dit ook wel zo op Facebook met wat onschuldig gegrap er bij.
  • Gemengde reacties op Twitter, aan de ene kant veel likes en delen, en ook wat bedenkingen en soms ronduit negatieve reacties in de vorm van reposts met commentaar en reacties.

In feite was het voor mij vooral opvallend dat op Twitter de reacties misschien meest divers waren.

Helpt gepersonaliseerd leren echt bij betere leerprestaties?

Deze blogpost schrijf ik in Parijs. Ik ben hier voor een congres van de UNESCO waar we nadenken met zeer veel verschillende profielen over onderwijs en onderzoek. Dit betekent dat er ook de nodige studies passeren. Deze meta-analyse van Ahmed Tlili en collega’s was onder mijn radar gevlogen, maar lijkt me zeer relevant voor onderwijsdiscussies.In de wereld van onderwijsinnovatie is gepersonaliseerd leren al een tijdje een hype – en ik merkte het hier ook in Parijs bij de mensen die vooral met technologie en leren bezig zijn. Het idee is simpel: pas het leerproces aan op de unieke behoeften van elke leerling en de resultaten verbeteren vanzelf. Maar hoe sterk is het bewijs dat deze aanpak daadwerkelijk werkt? Deze recente meta-analyse werpt licht op deze vraag, en de bevindingen zijn op zijn minst intrigerend te noemen.

Uit het onderzoek, waarin 19 studies met ruim 3800 deelnemers werden geanalyseerd, blijkt dat gepersonaliseerd leren een gemiddeld positieve impact heeft op leerprestaties. Maar lees zeker verder. De effectgrootte werd geschat op 0.45, wat volgens academische standaarden een middelmatig effect is en dus echt niet slecht. Toch zijn de resultaten niet zo eenduidig als je zou hopen.

Een belangrijke nuance is namelijk dat niet alle vormen van gepersonaliseerd leren even effectief blijken. Zo hadden systemen die gebruikmaken van prompts en feedback of diagnose en suggesties geen significante invloed op leerprestaties. Dit suggereert dat de manier waarop technologie wordt ingezet, cruciaal is voor het succes ervan. Iets wat we ook vaak bij andere toepassingen merkten. Daarnaast bleken factoren zoals het onderwijsniveau, het vakgebied en zelfs de geografische locatie van invloed op de effectiviteit.

Bijvoorbeeld, de grootste effecten werden gezien in technologische vakken en in het hoger onderwijs, terwijl lagere onderwijsniveaus en wiskunde minder baat hadden bij deze aanpak. Interessant genoeg lieten landen in Azië en Europa betere resultaten zien dan Noord-Amerika, wat mogelijk te maken heeft met culturele verschillen en de implementatie van technologie.

Wat leren we hieruit? Technologie kan helpen, maar is geen wondermiddel. Het vervangen van docenten door slimme systemen lijkt niet de weg vooruit. Sterker nog, de studie benadrukt dat technologie het beste werkt als aanvulling op menselijke begeleiding. Het ontwikkelen van een “collaboratieve intelligentie”, waarin mens en machine samen werken aan beter onderwijs, lijkt meer belovend.

Gepersonaliseerd leren heeft wellicht zeker een potentie, maar het succes ervan hangt zoals steeds bij onderwijs sterk af van hoe, waar en voor wie het wordt ingezet. Het is een oproep om niet alleen naar de technologie zelf te kijken, maar ook naar de bredere context waarin deze wordt toegepast. En wil dit nu net een van de rode draden te zijn in deze conferentie.

Abstract van het onderzoek:

Limited studies have quantitatively summarized the effect of personalized learning systems on learning achievement. To address this research gap, this study conducts a systematic review and a meta-analysis of personalized learning systems, where 19 studies (N = 3822) were included. The obtained results revealed that personalized learning has an overall medium positive effect (g = 0.45) on learning achievement. They further revealed that personalized learning systems based on Prompts & feedbacks and Diagnosis & suggestions do not significantly impact learning achievement. Finally, the results revealed that educational level, subject domain and continent might impact the effect of personalized learning systems on learning achievement. The findings of this study can contribute to the literature by explaining how the effect of personalized learning systems might vary depending on different moderating variables.