Please select a page template in page properties.

Directe en indirecte herleidbaarheid

Je ziet het: er zijn vele soorten persoonsgegevens. Sommige persoonsgegevens lijken weinig risico in zich te hebben als je ze in een bepaalde context deelt, zoals je naam en adres bij een bestelling op internet. Andere persoonsgegevens zijn per definitie al een stuk gevoeliger, zoals je seksuele voorkeur, lidmaatschap van een politieke partij of je religieuze voorkeur. Het bekend raken van dergelijke gevoelige persoonsgegevens kan in allerlei contexten tot ongewenste of zelfs gevaarlijke situaties leiden. 

Wat zijn persoonsgegevens eigenlijk?

Met andere woorden: jouw persoonsgegevens verdienen een goede bescherming. Die bescherming van die persoonsgegevens is vastgelegd in de AVG, de ‘Algemene verordening gegevensbescherming’. De AVG is een Europese verordening die de regels voor de verwerking van persoonsgegevens door particuliere bedrijven en overheidsinstanties in de hele Europese Unie standaardiseert.

Naast die bescherming heeft de AVG een tweede doel, namelijk het bevorderen van de uitwisseling van persoonsgegevens binnen de EU. Voor onderzoekers zijn beide doelen relevant: voor onderzoek waarin persoonsgegevens een rol spelen, willen zij deze zo goed mogelijk kunnen verzamelen, verwerken en publiceren. Maar tevens dienen zij daarbij afdoende maatregelen te treffen om de verzamelde persoonsgegevens zo goed mogelijk te beschermen. Hier gaan we in module 2 dieper op in.

Om te weten of bepaalde maatregelen ter bescherming van persoonsgegevens in onderzoek nodig zijn, is het eerst zaak om goed te weten wat persoonsgegevens eigenlijk zijn. De definitie die de AVG hanteert (artikel 4.1 ‘Definities’) luidt als volgt:

“Persoonsgegevens": alle informatie over een geïdentificeerde of identificeerbare natuurlijke persoon ("de betrokkene"); als identificeerbaar wordt beschouwd een natuurlijke persoon die direct of indirect kan worden geïdentificeerd, met name aan de hand van een identificator zoals een naam, een identificatienummer, locatiegegevens, een online identificator of van een of meer elementen die kenmerkend zijn voor de fysieke, fysiologische, genetische, psychische, economische, culturele of sociale identiteit van die natuurlijke persoon.

Indirect en direct

Er zijn vele soorten persoonsgegevens. Een belangrijk onderscheid is te maken tussen ‘direct’ en ‘indirect’ herleidbare persoonsgegevens. Maar wat zijn direct en indirect herleidbare persoonsgegevens eigenlijk? Waarom zijn indirect herleidbare persoonsgegevens eigenlijk ook relevant om goed te beschermen? En hoe kun je via het koppelen van datasets die uit indirect herleidbare persoonsgegevens bestaan toch unieke personen identificeren? 

De AVG maakt zelf geen onderscheid in direct of indirect herleidbare persoonsgegevens; beide zijn persoonsgegevens. Op het moment namelijk dat iemand op welke manier dan ook via bepaalde (direct of indirect herleidbare) gegevens als uniek persoon te identificeren is, gelden deze gegevens als ‘persoonsgegevens’. Als onderzoeksondersteuner is het daarom van groot belang om je in eerste instantie bewust te zijn dat een persoonsgegeven breder is dan alleen een voor- en achternaam of je BSN. 

Een indirect herleidbaar persoonsgegeven kan vrijwel alles zijn, zoals een MAC-adres, een emotie of een geolocatie. Zolang er tussen databases koppelingen te maken zijn waarmee het indirect herleidbare persoonsgegeven in combinatie met andere persoonsgegevens toch een uniek persoon kan identificeren, moet je die indirect herleidbare persoonsgegevens binnen de AVG net zo goed beschermen als de direct identificeerbare persoonsgegevens. Voor onderzoekers is dit des te interessanter, aangezien het kenmerk van veel onderzoeken is dat men juist ‘quasi-identifiers’ wil verzamelen zoals emoties, meningen, aandoeningen, etc. Maar dat zijn dus ook persoonsgegevens, zij het indirect herleidbare.


Identificeerbaar

In de parlementaire geschiedenis van de Wbp wordt uiteengezet dat er sprake is van direct identificerende gegevens wanneer gegevens betrekking hebben op een persoon waarvan de identiteit zonder veel omwegen eenduidig vast te stellen is. Het gaat dan om gegevens als naam, adres, geboortedatum, die in combinatie met elkaar dermate uniek en dus kenmerkend zijn voor een bepaalde persoon dat deze in brede kring met zekerheid of met een grote mate van waarschijnlijkheid kan worden geïdentificeerd.

Dergelijke gegevens gebruikt men in het maatschappelijk verkeer ook om personen van elkaar te onderscheiden. Anders ligt dit wanneer de gegevens niet direct tot identificatie van een bepaald persoon leiden maar via nadere stappen in verband kunnen worden gebracht met een bepaalde persoon. Dit soort gegevens heten indirect identificerende gegevens. Zij kunnen zijn ontdaan van de naam, maar onder omstandigheden door combinatie met andere gegevens weer worden teruggebracht tot een bepaalde persoon. Aldus Kamerstukken II 1997/98, 25892, 3, p. 14-15; zie ook WP29, Advies 4/2007 over het begrip persoonsgegeven, (WP136) 20 juni 2007, p. 13-14. 

Bron: Tekst & Commentaar Privacy- en gegevensbeschermingsrecht, Definities bij: Verordening (EU) 2016/679 bescherming natuurlijke personen i.v.m. verwerking van persoonsgegevens en betreffende het vrije verkeer van die gegevens en tot intrekking van Richtlijn 95/46/EG, Artikel 4 Definities.

In de spotlight


Voorbeeld: 'Pseudonimisering'

Voorbeeld: 'Pseudonimisering'

Laten we eens naar een voorbeeld kijken waarin indirect herleidbare persoonsgegevens toch tot een uniek persoon kunnen leiden. Stel dat je als onderzoeker wilt weten of er een correlatie is tussen lengte, ziekte en inkomen in een bepaald dorp. Deze gegevens kun je bijvoorbeeld via vragenlijsten of interviews achterhalen, waarna je een mooie dataset hebt om mee aan de slag te gaan. Omdat het voor je onderzoek niet relevant is wat de namen van de deelnemers aan het onderzoek zijn, laat je deze gegevens weg in je dataset.

Hiermee lijkt de data niet meer naar een specifiek persoon herleidbaar te zijn, maar niets is minder waar… In de dataset is bijvoorbeeld te zien dat één persoon significant meer geld verdient dan de overige dorpsgenoten, een ongeneeslijke ziekte heeft en een lengte heeft van 2.05 meter. In het dorp zijn toevallig twee personen met deze lengte, maar één van hen is een landarbeider en de ander de burgemeester. De conclusie ligt voor de hand dat de persoon in de dataset de burgemeester is en daarmee is ook duidelijk dat hij aan een ongeneeslijke ziekte lijdt. 

Zo zie je dat schijnbaar niet herleidbare persoonsgegevens toch tot een uniek persoon te herleiden zijn. Je kunt dit risico verkleinen, bijvoorbeeld met een maatregel als pseudonimisering. Pseudonimisering betekent volgens de AVG (artikel 4.5 ‘Definities’):
 


Pseudonimisering: het verwerken van persoonsgegevens op zodanige wijze dat de persoonsgegevens niet meer aan een specifieke betrokkene kunnen worden gekoppeld zonder dat er aanvullende gegevens worden gebruikt, mits deze aanvullende gegevens apart worden bewaard en technische en organisatorische maatregelen worden genomen om ervoor te zorgen dat de persoonsgegevens niet aan een geïdentificeerde of identificeerbare natuurlijke persoon worden gekoppeld.



Pseudonimiseringsmaatregelen

In het voorbeeld van de burgemeester zou je als onderzoeker ervoor kunnen kiezen om niet met specifieke salarissen en lengtes, maar met categorieën van salarissen en lengtes te werken. Bijvoorbeeld niet ‘2.05 meter’, maar de categorie ‘langer dan 1.80 meter’. Zo voorkom je dat indirect herleidbare persoonsgegevens tot een uniek persoon te herleiden zijn.

Twee aandachtspunten hierbij:

  • Bij het toepassen van pseudonimisering dien je altijd rekening te houden met de context waarbinnen je het onderzoek uitvoert. Het toepassen van een categorie voor lengte als ‘langer dan 1.80 meter’ zorgt er in het ene land voor dat bepaalde data niet meer herleidbaar is. Maar dezelfde categorie kan in een land met gemiddeld minder lange inwoners juist voor meer directe herleidbaarheid zorgen. 
  • Voor pseudonimisering zijn daarmee geen standaard wetten of regels te noemen; iedere onderzoeker zal binnen de eigen context moeten kijken welke pseudonimiseringsmaatregelen het risico op identificatie het beste verkleinen.

Wil een onderzoeker aan de slag met pseudonimisering, dan is de toepassing Amnesia (te vinden in de EOSC marketplace) wellicht interessant. In de toepassing Amnesia kan een onderzoeker zien wat de minimale groepsgrootte met gelijke kenmerken moet zijn om identificatie onmogelijk te maken.

Voorbeeld 'Open data'

Voorbeeld 'Open data'

Overheidsorganisaties stellen om diverse redenen open datasets beschikbaar aan onderzoekers en het algemene publiek. Een van deze organisaties, de RDW (Dienst Wegverkeer), biedt online een uitgebreide set van databases aan: zie hier. Een van deze database heet: “Gekentekende_voertuigen” die aan gegevens bevat van alle Nederlandse voertuigen: Kenteken / Voertuigsoort / Merk  / Handelsbenaming / Vervaldatum APK / Datum tenaamstelling / Bruto BPM.  aan. Deze dataset bevatte op 31 augustus 2021 14,3 miljoen registraties en de dataset was op die datum (sinds 8 september 2015) 132 miljoen maal gedownload.

 

Mogelijke identificeerbare koppelingen

In deze dataset is bijvoorbeeld te zien van welke auto’s de APK is verlopen en in combinatie met waarnemingen van auto’s op de weg (en koppeling op basis van kenteken) zou een kwaadwillend persoon iets met deze info kunnen doen. Zo is de boete voor het op de openbare weg rijden met een verlopen APK: €130,-. De RDW geeft van de open data die zij publiceren aan: “Het gaat om gegevens die niet privacy-, fraude- of concurrentiegevoelig zijn.”. Het privacyrisico zit echter in het combineren van datasets en het kunnen linken van deze datasets op basis van unieke kenmerken zoals een kenteken. Zie bijvoorbeeld ook dit artikel van Andy Green: ​​New PII Discovered: License Plate Pictures

Tenslotte komt potentieel door verschillende hacks of andere vormen van cybercrime gevoelige informatie beschikbaar die in combinatie met openbare informatie een redelijk gedetailleerd beeld kan schetsen van personen. Dit kan resulteren in een inbreuk op de privacy van de betrokkenen. zie bijvoorbeeld het datalek van RDC.

Tenslotte publiceren veel mensen bijvoorbeeld op social media een foto van hun auto zonder het kenteken onleesbaar te maken, waardoor de koppeling tussen persoon, auto en kenteken gemaakt kan worden. Door datalekken in verkeerscontrolesystemen, zoals in Westbroek, “was een bestand met beelden, afkomstig van de verkeerscamera’s, zonder autorisatie toegankelijk via een webserver. Daarin waren duizenden beelden opgeslagen uit de periode 2017 tot en met 2021. Op de beelden zijn kentekens van voertuigen, locaties en tijdstippen te zien.”

Al deze data gecombineerd maakt dat je weet welke auto waar reed en wie daar reed. Als dergelijke verkeerscamera’s gericht zijn op parkeerplaatsen van bijvoorbeeld ziekenhuizen kan dit telkens een nieuwe laag van informatie blootleggen over personen, zonder dat deze hiervan zelf op de hoogte zijn. Deze informatie is mogelijk te misbruiken door een kwaadwillende.