Hoe emotioneel intelligent is ChatGPT? Verrassend slim, blijkt uit nieuw onderzoek

Emotionele intelligentie (in zoverre het al dan niet zou bestaan): het is een vaardigheid die we belangrijk vinden bij leerkrachten, hulpverleners, collega’s. Waarom dan niet ook bij technologie? Maar kunnen grote taalmodellen zoals ChatGPT emoties begrijpen, herkennen, inschatten of reguleren? En nog straffer: kunnen ze daar ook testvragen over beantwoorden? Een nieuwe studie gepubliceerd in Communications Psychology zocht het uit, met verrassend positieve resultaten.

De onderzoekers lieten zes toonaangevende taalmodellen – waaronder ChatGPT-4, Claude 3.5 en Gemini 1.5 – vijf gestandaardiseerde tests rond emotionele intelligentie invullen. Die tests meten bijvoorbeeld of je begrijpt waarom iemand zich op een bepaalde manier voelt, of wat een goede manier zou zijn om met emoties van jezelf of anderen om te gaan. Het resultaat: de modellen scoorden gemiddeld 81% juist, terwijl mensen in eerdere validatiestudies gemiddeld bleven steken op 56%. ChatGPT-4 bleek dus beter in het herkennen en reguleren van emoties… dan de gemiddelde mens, althans op dit soort gestandaardiseerde tests.

Maar daar stopte het niet. De onderzoekers vroegen aan ChatGPT-4 om zelf nieuwe testitems te bedenken, in dezelfde stijl en structuur als de originele toetsen. Die ‘AI-tests’ werden vervolgens voorgelegd aan 467 proefpersonen, zonder dat die wisten dat de vragen van een taalmodel kwamen. En ook hier was het resultaat opvallend: de versies van ChatGPT waren even moeilijk, even realistisch en even duidelijk als de originele. De interne consistentie was vergelijkbaar, en de verschillen in validiteit en helderheid waren statistisch klein (allemaal onder Cohen’s d 0.25).

Natuurlijk zijn er kanttekeningen. Sommige ChatGPT-items leken inhoudelijk wat op bestaande vragen (al was dat zelden letterlijk), en er zijn terechte vragen over wat dit nu écht betekent. Want een goed testresultaat betekent nog niet dat een model iets begrijpt – laat staan voelt – zoals mensen dat doen. En empathie is meer dan correct antwoorden op multiplechoicevragen.

Toch is de conclusie van de auteurs helder: als we emotionele intelligentie definiëren als het correct kunnen redeneren over gevoelens, dan scoren LLM’s opvallend goed. Dat opent perspectieven voor toepassingen in zorg, onderwijs en HR – en doet ons tegelijk filosofisch nadenken over wat het verschil nog is tussen menselijke en kunstmatige empathie en roept de vraag op wat er eigenlijk nog menselijk is aan empathie.

Abstract van het onderzoek:

Large Language Models (LLMs) demonstrate expertise across diverse domains, yet their capacity for emotional intelligence remains uncertain. This research examined whether LLMs can solve and generate performance-based emotional intelligence tests. Results showed that ChatGPT-4, ChatGPT-o1, Gemini 1.5 flash, Copilot 365, Claude 3.5 Haiku, and DeepSeek V3 outperformed humans on five standard emotional intelligence tests, achieving an average accuracy of 81%, compared to the 56% human average reported in the original validation studies. In a second step, ChatGPT-4 generated new test items for each emotional intelligence test. These new versions and the original tests were administered to human participants across five studies (total N = 467). Overall, original and ChatGPT-generated tests demonstrated statistically equivalent test difficulty. Perceived item clarity and realism, item content diversity, internal consistency, correlations with a vocabulary test, and correlations with an external ability emotional intelligence test were not statistically equivalent between original and ChatGPT-generated tests. However, all differences were smaller than Cohen’s d ± 0.25, and none of the 95% confidence interval boundaries exceeded a medium effect size (d ± 0.50). Additionally, original and ChatGPT-generated tests were strongly correlated (r = 0.46). These findings suggest that LLMs can generate responses that are consistent with accurate knowledge about human emotions and their regulation.

Geef een reactie