Wat big data ons niet kan leren over daten (Linda Duits)

Deze post verscheen eerder op dieponderzoek.nl.

Seth Stephens-Davidowitz is econoom en schrijver, bekend van het boek Everybody Lies. Daarin kijkt hij naar zoekopdrachten in plaats van naar survey-antwoorden, om te betogen dat mensen eerlijker zijn tegen Google dan tegen onderzoekers. Om zijn nieuwe boek Don’t Trust Your Gut: Using Data to Get What You Really Want in Life te promoten verscheen er een artikel van hem op Wired over dating en data science, met de catchy titel ‘People Are Dating All Wrong, According to Data Science’. Klopt dat?

Datagedreven
Stephens-Davidowitz’s stijl is aanstekelijk en gepersonaliseerd. In plaats van te beschrijven dat ene Samantha Joel 43 bestaande datasets combineerde en daarop een kunstmatige intelligentie losliet, schrijft hij over “a young, energetic, uber-curious, and brilliant scientist, Samantha Joel” die “recruited a large number of scientists”. Dat leidde dan tot een indrukwekkende dataset.

“Joel and her team didn’t just have more data than everybody else in the field. They had better statistical methods. Joel and some of the other researchers had mastered machine learning, a subset of artificial intelligence that allows contemporary scholars to detect subtle patterns in large mounds of data. One might call Joel’s project the AI Marriage, as it was among the first studies to utilize these advanced techniques to try to predict relationship happiness.”

Het is hyperbolisch taalgebruik dat de hype rond big data en data science (alsof niet alle wetenschap datagedreven is) aanwakkert: het idee is dat als je dataset maar groot genoeg is, je alle antwoorden kunt vinden. Dat blijkt niet zomaar zo te zijn, ook niet in het geval de zoektocht naar een romantische partner.

Opzet studie
Het is veelzeggend dat Stephens-Davidowitz nauwelijks iets vertelt over de onderzoeksvragen en de gehanteerde methode. Nu is het alsof de ‘AI Marriage’ magisch analyses uitvoerde, in plaats van door mensen werd gevoed met specifieke data. Uiteraard staat deze informatie wel in het artikel over de studie.

Er werden 43 datasets gecombineerd, met daarin in totaal 11.196 stellen die meermaals ondervraagd zijn, variërend van twee tot elf keer, over een tijdsperiode variërend van twee tot 48 maanden. Deze data zeggen dus sowieso niets over relaties langer dan vier jaar. De onderzoekers wilden weten hoeveel van de variantie in relatiekwaliteit verklaard kan worden en welke psychologische maten het beste zijn in relatiekwaliteit voorspellen. De mate van verklaarde variantie verwijst naar de grootte van de voorspellende waarde van een variabele.

Resultaten volgens Stephens-Davidowitz
In zijn boek en op Wired schrijft Stephens-Davidowitz dat big data ons niet kan helpen bij het vinden van een romantische partner. Volgens hem is er geen set van eigenschappen die geluk in de liefde garandeert en geen AI die kan voorspellen welke twee mensen met elkaar geluk gaan vinden. De factoren die wél voorspellende kracht hebben gaan over de respondent zelf, dus degene die de vragenlijst ingevuld had. Als iemand tevreden over zijn leven was voor de relatie begon, vrolijk ingesteld en niet depressief was, dan was de kans groter op een succesvolle relatie.

In de rest van het stuk reflecteert Stephens-Davidowitz op wat het betekent dat de resultaten van zo’n omvattend onderzoek exact hetzelfde is als de common sense-wijsheid “Nobody can make you happy until you’re happy with yourself first”. Hij blijft – uiteraard – enthousiast over een ‘data driven life’ en legt zich er maar bij neer:

“we data geeks must also accept [sic] when the data confirms conventional wisdom or clichéd advice. We must be willing to go wherever the data takes us, even if that is to findings like those featured on Daily Inspirational Quotes.”

Zijn uiteindelijke conclusie is dat we het verkeerde najagen op de datemarkt: lange mannen met sexy banen gaan ons niet gelukkig maken. Goh.

Resultaten volgens de studie
Het is belangrijk op te merken dat het onderzoek nooit ging over lange mannen met sexy banen. Lengte van de partner komt in het gehele onderzoek niet voor, de enige variabele die over uiterlijk ging was de mate waarin iemand de partner aantrekkelijk vond. In plaats daarvan staat in het onderzoek een onderscheid centraal tussen individuele variabelen (over de respondent zelf) en relatie-specifieke variabelen (over de partner en over de relatie), en gaat de conclusie over het verschil daartussen. Ook daarover rapporteert Stephens-Davidowitz verkeerd.

Relatie-variabelen, dus de manier waarop een respondent naar de relatie en de partner kijkt, verklaren 45 procent van de variantie aan het begin van het onderzoek en tot 18 procent van de variantie in relatiekwaliteit aan het einde van de studie. Individuele variabelen verklaren minder variantie, maar nog steeds 21 procent aan het begin en 12 aan het eind. Deze uitkomst sluit aan bij bestaande meta-analyses, oftewel: dit wisten we al.

Implicaties
Er is dus een grote mismatch tussen wat Stephens-Davidowitz beweert op basis van dit onderzoek en het onderzoek zelf. Het klinkt natuurlijk leuk: de belofte dat we beter zouden kunnen daten als we meer datagedreven zouden zijn. ‘Big data’ suggereert dat we voorbij menselijke fouten kunnen gaan – de computer weet het beter. Maar al aan het begin gaan hier dingen mis.

Wat zou goed daten inhouden? Dat we direct een partner voor het leven vinden? Dat zou betekenen dat mensen niet daten voor de seks en het impliceert dat een levenslange partner ideaaltypisch is boven bijvoorbeeld meerdere langdurige partners.

Een tweede fout is het idee dat partnerkeuze en/of relatiesucces überhaupt te verklaren is met kenbare variabelen. Mensen vinden het heel moeilijk te omschrijven waarom ze op iemand vallen, het meest in de buurt komt vaak ‘die persoon is fijn om bij te zijn’. Als onafhankelijke (voorspellende) variabele heb je daar niets aan als onderzoek want de samenhang met de afhankelijke variabele is veel te groot. De beste voorspeller voor geluk in de liefde is dan of je graag bij iemand bent. Daar verkoop je geen boeken mee.

Het werk van de YouTuber: slaaf van grillen van de aandachtsspanne van anderen (Linda Duits)

Deze post verscheen eerst op dieponderzoek.nl.

Het leven van een influencer gaat niet over rozen. Voor buitenstaanders is de arbeid die je verricht grotendeels onzichtbaar (zie wat ik daarover schreef met Cesar Majorana), tegelijkertijd werk je voor die buitenstaander – in de zin dat je probeert zijn views en likes te scoren. Onder influencers komen dan ook veel burnouts voor. Het is werk waar je niet makkelijk uitstapt: je hebt een schare volgers opgebouwd, daar verdien je geld mee en het is moeilijk die ‘deal’ te laten schieten en je om te scholen.

Op Vox schreef Rebecca Jennings over wat zij onhandig het YouTube-brein noemt: wat er gebeurt met je hersenen

“when you are both creatively and financially subject to the whims of other people’s attention spans for years at a time, weighed down by neverending demand for more content for dwindling returns.”

Onhandig, omdat het dus gaat om de hersenen van de contentmaker, niet van de gebruiker. Ter vergelijking, het twitterbrein ziet ze als mensen die op Twitter voortdurend boos zijn, het instagrambrein als te materialistisch en het tiktokbrein als onvoorwaardelijk trend-toegewijd. Maar Jennings signaleert wel iets relevants over het carrièrepad van vloggers.

Zij beginnen vaak jong en als ze succesvol blijken, zijn ze YouTuber for life. Jennings schrijft dat niet toe aan het systeem, maar aan de persoonlijkheden van de YouTubers die het maken. Ze noemt ze “fervently individualistic”, “a little bitter” en “keenly, almost freakishly attuned to the in-depth analytics YouTube provides for them”. Daaruit spreekt weinig empathie, en daarmee laat ze YouTube veel te makkelijk ontsnappen aan systeemkritiek. Het is immers YouTube dat, zoals Jennings zelf schrijft, de vlogger overstelpt met feedback over welke content het goed doet en welke niet.

Het lot van de YouTuber doet denken aan dat van kindsterretjes, zoals Miley Cyrus: op een gegeven moment past het pad en het imago niet meer, en dan moeten ze vrij breken. Dat gaat in de meeste gevallen niet goed. Het verschil is dat de oude kindsterren waren overgeleverd aan de wensen en financiële belangen van ouders, studio’s of platenmaatschappijen, de online generatie is slaaf aan de grillen van het algoritme. Tel daarbij op dat het online nog moeilijker is persoon en persona uit elkaar te houden, dus wie je echt bent en de persona die je neerzet in je vlogs, en je ziet dat deze mensen eerder hulp en sympathie verdienen dan kritiek en hoon.

Beeld: vlogger Dan Howell die na drie jaar radiostilte in een recent vlog uitlegt waarom hij met YouTube wilde stoppen. 

Games bespioneren gamers om ze geld afhandig te maken (Linda Duits)

Deze post verscheen eerst op dieponderzoek.nl.

Games leunen op regels: een actie van een speler kan verschillende gevolgen hebben, op basis van vooraf bekende regels. Eén manier om games te definiëren is dan dat games systemen zijn die menselijke handelingen omzetten in kenbare en voorspelbare output. Anders gezegd: de acties die je verricht in een game leveren data op. En waar data is, is surveillance.

Game-onderzoekers waarschuwen er al langer voor dat bedrijven en overheden burgers bespioneren in games (zie dit themanummer uit 2014). Gameplay, dus hoe een speler speelt, kan gekoppeld worden aan gegevens over zijn persoonlijkheid, om tot verbanden te komen als ‘plichtsgetrouwe spelers doen graag saaie taakjes zoals vissen’ (een voorbeeld uit een onderzoek). Wired gebruikt dit voorbeeld om vervolgens te waarschuwen voor “a new industry of firms selling middleware “data analytics” tools”.

Deze bedrijven gebruiker de data van spelers om strategisch voordeel te behalen voor gameontwikkelaars. Voor hen is het immers handig om te weten wat voor soort gamers waardevol zijn, dat wil zeggen: wie speelt lang, wie is bereid veel geld te betalen voor een game of op een advertentie te klikken.

“These companies sell the eyeballs (and perhaps fingers, with playable ads) of their users to advertisers and mobilize data to best match users with advertisers based on the specifications of the advertiser or the software working on the advertiser’s behalf.”

Net als met andere vormen van online surveillance is het bewustzijn onder consumenten van dit soort praktijken laag. Het persoonlijk voordeel (een leuk spel spelen) weegt op tegen het vrijwel onzichtbare nadeel.

Tieners worden graag bij de neus genomen: ze vinden influencers eerlijk, en willen niet weten wie sponsort (Linda Duits)

Deze post verscheen eerder op dieponderzoek.nl.

Influencer zijn is een baan: het is een manier om geld te verdienen. Dat kan bijvoorbeeld door sponsordeals aan te gaan: in je foto’s of video’s plaats je een product of doe je een aanbeveling omdat je daarvoor betaald wordt door een bedrijf. De grootste doelgroep van influencers zijn tieners, een groep die bedrijven graag willen bereiken maar die nog maar weinig ‘reguliere’ media gebruiken.

Communicatiewetenschappers van de UvA doen onderzoek naar de ‘reclamewijsheid’ van kinderen en jongeren: hoe goed zijn zij in herkennen dat iets reclame is? Daaruit blijkt keer op keer dat deze groepen daar niet goed in zijn, wat natuurlijk koren op de molen is van de bedrijven die deze groepen willen bereiken. Er gaan steeds meer stemmen op om duidelijker te maken wanneer een post gesponsorde content bevat. Zulke ‘disclosures’ [openheid geven] zouden de reclamewijsheid moeten vergroten.

In een recente studie [gratis toegang] onderzochten Sophia van Dam en Eva van Reijmersdal de invloed van disclosures op de waardering voor influencers door tieners (12-16 jaar). Dit deden zij door twintig jongeren verdeeld over vier focusgroepen te bevragen. De deelnemers moesten niet alleen vragen beantwoorden, maar ook video’s kijken en met post-its aangeven wat ze ervan vonden.

‘Influencers verdienen dit’
De onderzoekers onderscheiden drie soorten reclamewijsheid. Conceptuele reclamewijsheid is simpelweg het kunnen herkennen van reclames. De deelnemers vonden in eerste instantie dat zij daar goed zijn, maar zeiden tegelijkertijd dat anderen dat waarschijnlijk niet konden. Later in de focusgroep bleken ze minder zeker te zijn of bepaalde content gesponsord was. Deelnemers overschatten dus waarschijnlijk hun conceptuele reclamewijsheid. De deelnemers doorzagen wel het verdienmodel van influencers: ze maken zulke video’s om geld te krijgen.

Morele reclamewijsheid gaat over hoe moreel acceptabel mensen het vinden om reclame te maken. De onderzochte groep zag geen problemen met influencermarketing. Ze vinden het een logisch en noodzakelijk onderdeel van het verdienmodel. Bovendien meenden ze dat influencers betere video’s kunnen maken dankzij sponsoren. Omdat de respondenten een band voelen met influencers, leven ze met hen mee: ‘deze influencer werkt echt hard, en daarom verdient ze het’.

De derde vorm gaat over de houding ten aanzien van reclames in het algemeen. De deelnemers waren in zijn geheel niet sceptisch ten aanzien van influencermarketing. Irritatie ontstond alleen als ze vonden dat het er te dik boven op lag in een video, als een merk bijvoorbeeld de hele tijd werd genoemd. De deelnemers stelden dat ze YouTube een eerlijk medium vinden, eerlijker dan televisie. Dat is ook een van de redenen waarom ze liever naar YouTube kijken.

Liever niet weten
Pas wanneer ze vonden dat het teveel over reclame maken ging en te weinig ‘gewoon’ vermaak was, ontstond er twijfel over de waarachtigheid van zulke video’s. Het is daarbij extra opmerkelijk dat de respondenten het niet waardeerden als vroeg in de video duidelijk werd dat het om sponsoring ging. Minder expliciete disclosure had de voorkeur.

“In their eyes, a clear disclosure emphasized the commercial message too much and disrupted the perceived balance between entertaining and persuasive content: ‘In my opinion it should not be too pushy, like, this is advertising, because then you will keep this in mind all the time. Just indicating is fine, but it should not be visible all the time’ (FG3, 13- to 15-year-olds). Influencer marketing was no longer acceptable if a disclosure puts too much emphasis on the commercial content: ‘But if you say this [a written disclosure of the sponsorship] in the beginning, then the whole video will be less amusing, as you will notice all things sponsored’ (FG3, 13- to 15-year-olds).”

Dit wijst erop dat de deelnemers graag in de maling worden genomen: liever weten ze niet dat ze gewoon naar een reclamespotje zitten te kijken, in plaats van naar een leuke vlog van iemand die ze sympathiek vinden. Dit is in tegenspraak met hun eerder gerapporteerde bewustzijn van sponsoring, zo stellen de onderzoekers.

Zodra de deelnemers erachter kwamen dat een video in het doel van de adverteerder stond, vertoonden ze weerstand, vermijdingsgedrag en irritatie. Ze vonden de influencer dan ook oneerlijker.

Implicaties
Deze resultaten bevestigen de zorgen van beleidsmakers, onderwijsdeskundigen en ouders over de kwetsbaarheid van tieners, schrijven Van Dam en Van Reijmersdal. Ze gebruiken een niet mis te verstane term om hun inzichten samen te vatten: dissociatie. De respondenten vinden YouTube en influencers eerlijk, maar geven tegelijkertijd aan transparantie helemaal niet op prijs te stellen omdat dit hun entertainmentervaring verpest.

Voor oude media gelden duidelijke regels omtrent reclame, zeker als die reclame gericht is op kinderen. Dat is zo omdat we als samenleving vinden dat deze groepen extra kwetsbaar zijn en omdat we de overtuigingskracht van reclamemakers enigszins willen beteugelen. Nieuwe platformen, zoals YouTube en Instagram, zijn wat dit betreft het wilde westen. Dit onderzoek maakt duidelijke dat nadere regulering gewenst is, en dat beleidsmakers daar niet mee moeten wachten. Dat tieners graag bedonderd willen worden, maakt het niet okay dat bedrijven dat ook doen.

Wat leert een week YouTube analyseren PEW? Kinderen lijken de baas.

PEW analyseerde de meest populaire videokanalen gedurende de eerste week van 2019, een goed idee al kan het feit dat het de eerste week was wel voor een vertekening zorgen.

Concreet werden meer 43770 kanalen gevolgd die elk minstens 250000 abonnees hebben:

Lees verder