Over die Nature-studie: Reproduceerbaarheid vs repliceerbaarheid

Deze studie van Olivia Miske en zeer veel collega’s, gepubliceerd in Nature, zorgt voor veel animo. Hoog tijd om dus even dit grondig te bekijken en feiten van fictie te scheiden. Laat ons beginnen bij iets wat ik in de online discussie over deze studie al een paar keer fout zag lopen. Reproduceerbaarheid en repliceerbaarheid worden door elkaar gebruikt, terwijl het twee totaal verschillende dingen zijn.

Reproduceerbaarheid is eigenlijk de minimale hygiëne van onderzoek. Als ik jouw data neem en exact dezelfde analyse uitvoer, moet ik hetzelfde resultaat krijgen. Geen discussie, geen interpretatie, gewoon: dezelfde cijfers. Dat is wat deze studie onderzoekt. Niet of een effect “echt” is, maar of het correct gerapporteerd is.

Repliceerbaarheid is iets anders. Dan doe je het onderzoek opnieuw, met nieuwe data. Andere steekproef, zelfde hypothese. En dan kijk je of je opnieuw een gelijkaardig effect vindt. Dat gaat dus over generaliseerbaarheid en robuustheid. De replicatiecrisis in onder andere psychologie is zo ontstaan. Iets wat ik persoonlijk goed vind.

Dit verschil is cruciaal. Een studie kan perfect reproduceerbaar zijn en toch fout. Denk aan een slecht onderzoeksdesign dat consequent hetzelfde verkeerde resultaat oplevert. Omgekeerd kan een studie moeilijk reproduceerbaar zijn, bijvoorbeeld door slordige rapportering, maar inhoudelijk wel in de juiste richting wijzen. Wie die twee door elkaar haalt, mist waar deze studie van Miske et al echt over gaat.

En wat zegt dit onderzoek nu eigenlijk? Ongeveer 54% van de onderzochte papers kon precies gereproduceerd worden en ongeveer 73% minstens “bij benadering”. Al gaat het dan enkel om studies waarvoor data effectief beschikbaar was… Want dit is maar de helft van het verhaal. Om reproduceerbaarheid te testen, heb je namelijk data nodig. En daar wringt het pas echt. Van de 600 onderzochte artikels had slechts 24% de data beschikbaar. Drie op vier studies konden dus niet eens getest worden. Niet omdat ze fout zijn, maar omdat we het simpelweg niet weten.

En daar zit een eerste belangrijke nuance: als je alleen kijkt naar studies waar data beschikbaar is, lijkt het alsof reproduceerbaarheid “meevalt”. Maar als je de hele steekproef bekijkt, inclusief wat je niet kan controleren, dan zakt het beeld drastisch. De auteurs zelf tonen dat het verschil enorm is, afhankelijk van hoe je rekent.

Er zijn trouwens ook duidelijke verschillen tussen domeinen. In economie en politieke wetenschappen ligt de reproduceerbaarheid merkbaar hoger dan in andere disciplines. Onderwijsonderzoek zit in deze studie eerder aan de onderkant. Dat is precies het soort vaststelling dat sommigen online snel aangrijpen om het hele veld in vraag te stellen.

Maar die conclusie is te kort door de bocht. Het verschil lijkt vooral samen te hangen met hoe gebruikelijk het is om data en code te delen. In economie en politieke wetenschappen zijn daar al langer striktere regels en gewoontes rond. En net daar zie je dat reproduceerbaarheid beter lukt. Het gaat dus minder over “betere wetenschap” en meer over transparantie en controleerbaarheid.

Dat brengt ons bij een tweede punt dat online vaak verkeerd begrepen wordt: de steekproef. Ja, 600 artikels klinkt indrukwekkend. En dat is het ook, zeker voor dit soort onderzoek. Maar tegelijk is het, in verhouding tot het totale veld en over bijna tien jaar publicaties, eigenlijk klein. Bovendien wordt de effectieve analyse nog kleiner, omdat je enkel kan werken met studies waar data beschikbaar is. Met andere woorden: grote studie, maar een relatief smalle toegangspoort. Dat maakt de resultaten waardevol, maar ook beperkt in wat je eruit kan concluderen.

Nog een nuance die vaak verloren gaat: een reproductie die faalt, betekent niet dat het oorspronkelijke resultaat fout is. Het kan gaan om kleine verschillen in data, ontbrekende stappen in de beschrijving, andere keuzes in analyse, of gewoon praktische problemen. Omgekeerd geldt ook: een perfect gereproduceerd resultaat kan nog steeds gebaseerd zijn op een slecht design, bias of toevallige correlaties. Reproduceerbaarheid is een basisvoorwaarde voor betrouwbaarheid, maar geen garantie.

En dan zie je wat er op sociale media gebeurt. Deze studie wordt gebruikt als stok om onderwijsonderzoek – of breder sociaalwetenschappelijk onderzoek – mee te slaan. Alsof dit “bewijst” dat het allemaal niet werkt. Dat is een te makkelijke conclusie. Wat deze studie vooral toont, is iets wat we eigenlijk al langer weten: transparantie is het echte probleem. Niet noodzakelijk dat onderzoekers massaal fouten maken, maar dat we het vaak niet kunnen controleren.

En daar zit ook het positieve nieuws. In velden die data en code vaker delen, denk dus aan economie en politieke wetenschappen, ligt de reproduceerbaarheid duidelijk hoger. Dat wijst op iets hoopvols: beleid en praktijken maken verschil.

Binnen een parallele studie in Nature keken Andrew Tyner en collega’s naar de repliceerbaarheid. Ze controleerden dus of resultaten opnieuw gevonden werden in nieuwe studies. We zien bij hen een ander beeld. In deze grote studie van het SCORE-project ligt het replicatiesucces rond de helft en dat geldt ook voor onderwijsonderzoek. Niet uitzonderlijk goed, maar ook niet uitzonderlijk slecht. Gewoon wat je verwacht in sociaalwetenschappelijk onderzoek. Effecten die vaak kleiner worden en sterk afhankelijk zijn van context. Wil dit dan zeggen dat er geen probleem is? Zeker niet. Niet omdat onderwijsonderzoek uitzondelijk vaak faalt, wel omdat het gewoon relatief weinig gebeurt volgens ander onderzoek.

En dan is er nog een derde laag die vaak volledig onder de radar blijft. Een derde studie van Aczel en collega’s liet verschillende onderzoeksteams dezelfde data analyseren. Wat bleek? In de meerderheid van de gevallen kozen onderzoekers andere analysemethoden en kwamen ze soms tot verschillende conclusies. Het probleem zit dus niet alleen in of resultaten gereproduceerd of gerepliceerd worden, maar ook in hoe ze tot stand komen. Eén dataset levert niet één antwoord op, maar een reeks mogelijke antwoorden, afhankelijk van de keuzes die je maakt.

Dat maakt de discussie minder comfortabel, maar wel eerlijker: het probleem is niet dat onderzoek niet werkt, maar dat het complexer is dan de slogans doen vermoeden.

X, Y of Einstein?

De persoonlijke blog van Pedro De Bruyckere over onderwijs, jongeren, cultuur en media.

Wat deze Nature-studie wel en niet zegt over onderwijsonderzoek

Vind ik leuk:

Gerelateerd

Een gedachte over “Wat deze Nature-studie wel en niet zegt over onderwijsonderzoek”

Geef een reactieReactie annuleren