Wanneer je in discussies over onderwijs zegt dat iets “volgens onderzoek werkt,” krijg je vaak instemmend geknik in de ene hoek, gegrom in een andere hoek. Zeker ook wanneer het om een meta-analyse gaat. Maar dat is tenslotte toch de top van de piramide? Veel studies bij elkaar leggen, middelen, wegen en dan een effectgrootte rapporteren: dat klinkt betrouwbaar. Alleen blijkt uit een nieuwe meta-review van 247 meta-analyses over interventies in het leerplichtonderwijs dat werkelijkheid en ideaalbeeld niet altijd samenvallen.
De meta-review zelf is stevig, zorgvuldig en grondig uitgevoerd door Marta Pellegrini en collega’s, laat dat duidelijk zijn. Maar de resultaten zijn confronterend: transparantie is vaak beperkt, methodologische vernieuwingen geraken moeilijk ingeburgerd, en de interpretatie van resultaten laat soms te wensen over. Dat is niet het einde van de wetenschap. Het is precies het soort werkelijkheid dat onderzoek sterker maakt wanneer we de ongemakkelijke stukken durven bekijken.
Wat mij vooral opviel: slechts vier procent van alle bekeken meta-analyses had een vooraf geregistreerd protocol. Dat is vandaag eigenlijk basispraktijk om te vermijden dat onderzoekers onderweg hun aanpak aanpassen op basis van wat ze vinden en iets wat we onze studenten ook aanleren in Utrecht. Slechts zes procent deelde de volledige dataset of de statistische code. Er zijn natuurlijk praktische redenen waarom dat soms moeilijk is, maar het blijft verrassend laag in een domein vaak zonder privacybeperkingen. Ook rapporteren onderzoekers vaak de zoekstrategie onvolledig : negen procent gaf volledige zoekstrings, de rest beperkte zich tot voorbeelden. Dat maakt een review moeilijk reproduceerbaar. En toch wordt dat soort syntheseonderzoek wel gebruikt in beleidsnota’s en schoolverbetertrajecten. Het is alsof je een recept volgt waarin staat: “Neem wat kruiden.” Je weet alleen niet welke.
Een andere vaststelling: effectgroottes zijn vaak afhankelijk van elkaar. Denk aan meerdere uitkomsten binnen één studie. Tegelijk gebruikte slechts dertig procent van de meta-analyses moderne modellen die die afhankelijkheid correct aanpakken. In veel gevallen worden effectgroottes simpelweg gemiddeld, of behandeld alsof ze onafhankelijk zijn. Dat lijkt onschuldig, maar het kan de precisie van de resultaten vertekenen. En heel eerlijk: wie meta-analyses leest, ziet zelden dat dit expliciet wordt besproken. Terwijl dit exact het soort nuance is dat we nodig hebben om resultaten te begrijpen.
De vraag waarom studies verschillende resultaten vinden, krijgt ook slechts wisselende aandacht. Veel meta-analyses rapporteren keurig enkele standaardstatistieken, maar slechts een derde vermeldt hoe groot de échte variatie tussen studies is, en amper acht procent geeft een prediction interval, nochtans een van de meest praktijkrelevante parameters. Je kunt perfect een “gemiddeld effect” hebben, terwijl de variatie tussen studies eigenlijk zegt dat het onder sommige omstandigheden werkt en onder andere net niet. Dat is geen fout van de wetenschap, dat is de werkelijkheid van onderwijs en iets dat je beter meegeeft. Vandaar ook de ‘bijsluiters’ in de toolkit van Leerpunt en E.E.F..
En dan is er de zoektocht naar moderators: waarom werken bepaalde interventies beter voor sommige leerlingen of in sommige contexten? Hoewel bijna alle meta-analyses moderatie proberen te onderzoeken, gebruikt maar een kwart multiple meta-regressies. Dit is een aanpak die toelaat om verschillende factoren tegelijk in rekening te brengen. De rest blijft steken bij één factor per keer. Dat lijkt intuïtief, maar wie ooit in een school gewerkt heeft, weet dat contexten nooit uit één variabele bestaan. Toch is de belangrijkste reden meestal gewoon: te weinig studies, te veel ontbrekende data, of gebrek aan rapportage in de oorspronkelijke onderzoeken die men meenam in de meta-analyse. Ook dat is geen bewijs dat meta-analyses “waardeloos” zijn.
Opvallend: dit geldt niet alleen voor kleine reviews. Ook meta-analyses met vijftig of meer studies passen vaak geen multiple meta-regressies toe. Groot is dus niet automatisch sterker. Het laat vooral zien hoe kwetsbaar zelfs goede syntheses zijn als het onderliggende onderzoek mager of inconsistent gerapporteerd is.
Het zou makkelijk zijn om hiermee te zwaaien als bewijs dat we meta-analyses niet moeten vertrouwen. Maar dat zou precies het verkeerde signaal zijn. Net zoals je een thermometer niet weggooit omdat iemand hem fout heeft afgelezen, is het niet verstandig om de wetenschap te diskwalificeren omdat er soms achterlopen wordt op methodologische ontwikkelingen. Wat deze meta-review vooral toont, is dat onderwijswetenschap vooruitgaat, maar niet altijd gelijkmatig. En dat sommige van onze sterkste instrumenten nog sterker worden wanneer we eerlijk zijn over hun beperkingen. Dat is ook de reden waarom ik zelf over dit onderzoek blog.
Voor scholen en beleidsmakers betekent dit vooral: gebruik meta-analyses, maar doe het verstandig. Kijk niet alleen naar de conclusie, maar ook naar hoe ze tot stand kwam. Werden studies grondig gezocht? Werd er rekening gehouden met afhankelijkheid? Hoe variabel zijn de resultaten? En: hoe transparant is het hele proces? Wie die vragen stelt, haalt het meeste waarde uit onderzoek zonder het blind te volgen.
Wetenschap ondergraaf je niet door haar kritisch te bekijken. Integendeel: ze wordt betrouwbaarder wanneer we precies dit soort reflecties toelaten. En misschien is dat wel de belangrijkste les uit deze meta-review: goed onderzoek begint niet bij zekerheid, maar bij nieuwsgierigheid en de bereidheid om te zien waar het nog beter kan. Elk dag weer.
Afbeelding gemaakt met ChatGPT.
Pingback: Meta-meta-analyse nuanceert het effect van bewegen op cognitie
Pingback: Hoe bruikbaar zijn meta-analyses voor de klaspraktijk?