Hoe makkelijk kan je met anonieme data mensen herkennen? (saved you the click: vrij makkelijk)

Onderzoekers van MIT hebben in samenwerking met planologen onderzocht hoe makkelijk geanonimiseerde data die steden verzamelen via camera’s, sensoren,… kan gebruikt worden om de personen toch te herkennen. De onderzoekers gebruikten twee geanonimiseerde datasets van Singapore:

  • mobiele telefoon-bewegingen in de stad
  • informatie van het openbaar vervoer

In beide gevallen wordt een lokatie bewaard, terwijl de informatie verder anoniem was voor de onderzoekers. Door deze twee datasets te vergelijken via verschillende algoritmes, konden de onderzoekers binnen de week 17% van de gebruikers van het openbaar vervoer matchen met een telefoon, na 4 weken 55%, na 11 weken behaalde men 95%. Als ze de GPS-data van de smartphones gebruikten, slaagde men er in binnen de week 95% match te bereiken.

Voor alle duidelijkheid: op dat moment heb je nog niet de namen en gegevens van de personen in kwestie, maar de onderzoekers geven aan dat iemand met slechte bedoelingen hier al heel veel mee komt om vervolgens dit te koppelen aan wie wie is. De onderzoekers concluderen vooral dat geanonimiseerde data geen garantie is op privacy.

Abstract van het onderzoek:

The problem of unicity and reidentifiability of records in large-scale databases has been studied in different contexts and approaches, with focus on preserving privacy or matching records from different data sources. With an increasing number of service providers nowadays routinely collecting location traces of their users on unprecedented scales, there is a pronounced interest in the possibility of matching records and datasets based on spatial trajectories. Extending previous work on reidentifiability of spatial data and trajectory matching, we present the first large-scale analysis of user matchability in real mobility datasets on realistic scales, i.e. among two datasets that consist of several million people’s mobility traces, coming from a mobile network operator and transportation smart card usage. We extract the relevant statistical properties which influence the matching process and analyze their impact on the matchability of users. We show that for individuals with typical activity in the transportation system (those making 3-4 trips per day on average), a matching algorithm based on the co-occurrence of their activities is expected to achieve a 16.8% success only after a one-week long observation of their mobility traces, and over 55% after four weeks. We show that the main determinant of matchability is the expected number of co-occurring records in the two datasets. Finally, we discuss different scenarios in terms of data collection frequency and give estimates of matchability over time. We show that with higher frequency data collection becoming more common, we can expect much higher success rates in even shorter intervals.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.