Soms is het aantrekkelijk om te bloggen over grote en nieuwe inzichten. Maar persoonlijk vind ik het minstens even relevant om stil te staan bij degelijke studies die nuance toevoegen aan wat we al deels weten. Onderzoek dat helpt begrijpen wat er echt gebeurt tijdens bijvoorbeeld een didactische aanpak. Deze post is er zo eentje.
Peer assessment of peer evaluatie is namelijk zo’n idee dat in theorie prachtig klinkt: leerlingen betrekken bij het beoordelen van elkaar, meer inzicht in criteria, meer eigenaarschap. Maar in de praktijk blijft één vraag steeds terugkomen: hoe eerlijk zijn leerlingen voor elkaar? En nog specifieker: geven ze hun vrienden geen hogere scores dan ze verdienen?
Een nieuwe studie van Mitsuko Tanaka uit Japan onderzocht precies dat. Eerstejaarsstudenten beoordeelden elkaars Engelse presentaties. Daarna gaven ze op een aparte vragenlijst aan hoe goed ze iedereen kenden en met wie ze bevriend waren. De onderzoekers gebruikten vervolgens behoorlijk geavanceerde modellen om te kijken waar de scores precies vandaan kwamen. Het ging dus niet om een snel survey’tje, maar om een stevige analyse: Rasch-modellen*, crossed random effects** en meer van dat moois. Voor wie bezig is met peer assessment reliability is dat interessant, want dit onderzoek vertrekt niet vanuit idealen, maar vanuit variatie en mogelijke vertekeningen.
Wat blijkt? Er is een vriendschapsbias, maar die is klein. Voor elke stap op de schaal van ‘ik ken je nauwelijks’ naar ‘we zijn vrienden buiten de klas’ stijgt de score gemiddeld met 0.16 punten op 35. Dat is bijna verwaarloosbaar. Ongeveer zoals zeggen dat iemand die je sympathiek vindt net iets meer glimlacht wanneer je passeert. Detecteerbaar, maar niet wereldschokkend.
Een tweede bevinding is dat vrouwelijke studenten gemiddeld iets hoger scoren dan mannelijke. Ook dat effect is klein. Geen grote verschuivingen, geen evidente onrechtvaardigheid. En interessant: het geslacht van de spreker speelt geen rol. Geen bewijs dat jongens strenger zijn voor jongens of meisjes voor meisjes. De vaak gehoorde angst dat zulke biases de evaluatie volledig scheeftrekken wordt dus niet bevestigd.
Maar de belangrijkste uitkomst zit misschien niet in de bias zelf, maar in de betrouwbaarheid van de beoordelingen. De correlatie tussen studenten en docenten was .67, wat perfect binnen de waarden ligt die meta-analyses meestal vinden rond dit onderwerp. Dat versterkt het vertrouwen in de resultaten. De scores waren intern ook behoorlijk consistent. Met andere woorden: hoewel er kleine vertekeningen zijn, functioneert peer assessment in deze studie als geheel zoals we op basis van eerdere literatuur mogen verwachten.
Is het resultaat universeel toepasbaar? Waarschijnlijk niet helemaal. Het onderzoek vond plaats bij Japanse studenten in een cultuur waar harmonie en groepscohesie sterker spelen dan in veel Europese landen. De context is niet anoniem, het gaat om mondelinge presentaties en de steekproef bevat meer mannen dan vrouwen. Tegelijk zien we elementen die herkenbaar zijn: beoordelingen blijven menselijke beoordelingen. Ze zijn nooit volledig objectief, maar meestal ook niet zo willekeurig als we vrezen.
Wat betekent dit voor de klaspraktijk? Misschien vooral dat peer assessment bruikbaar kan zijn, op voorwaarde dat je het doel helder houdt. Als het high stakes wordt, als het meetelt voor punten of studieresultaten, dan moet je voorzichtig zijn en combineren met andere evaluatiebronnen (triangulatie). Als het vooral bedoeld is als leerinstrument, hoeft het geen perfect systeem te zijn. Leerlingen leren vooral door te kijken, te vergelijken en criteria te gebruiken. De kleine afwijkingen die ontstaan door vriendschap of persoonlijkheid veranderen dat niet fundamenteel.
De studie biedt dus vooral geruststelling. Er is bias, maar niet dramatisch. Leerlingen beoordelen redelijk eerlijk, zelfs wanneer ze weten wie voor hen staat. En de variatie in strengheid tussen leerlingen lijkt vaak groter dan eender welke vriendschapseffecten. Je verliest meer betrouwbaarheid door één strenge of één heel milde rater dan door een vriendschap. Dat is misschien wel de belangrijkste les: menselijke beoordeling is per definitie variabel, maar daarom nog niet waardeloos.
* Mocht je je het afvragen: Een Rasch-model is een statistisch model om toets- of vragenlijstgegevens te analyseren, waarbij zowel itemmoeilijkheid als vaardigheid op één lat worden geplaatst. Het model veronderstelt dat de kans op een juist antwoord alleen afhangt van het verschil tussen vaardigheid en itemmoeilijkheid. Daardoor kun je items eerlijk vergelijken en schalen, ongeacht welke leerlingen welke items maakten.
** Crossed random effects gebruik je wanneer twee (of meer) bronnen van variatie elk onafhankelijk invloed hebben op de uitkomst, zonder hiërarchie. Bijvoorbeeld: leerlingen maken meerdere taken én taken worden door meerdere leerlingen gemaakt. In zo’n model krijgt zowel de leerling als de taak een eigen random effect. Zo kun je hun afzonderlijke bijdrage aan verschillen in prestaties betrouwbaar schatten.