Please select a page template in page properties.

Pseudonimiseren

Pseudonimisering is een van de maatregelen die een onderzoeker kan nemen om persoonsgegevens te transformeren tot een dataset die niet meer direct herleidbaar is tot een persoon. Het is een maatregel die op verschillende momenten in een onderzoekstraject een rol speelt, zoals je in onderstaande Metro-kaart kunt zien.

Op deze pagina lees je wat pseudonimisering precies is, hoe je het kunt toepassen en bieden we je een overzicht van interessante bronnen voor verdere verdieping.

Dit moet je minimaal weten over pseudonimiseren:

  • Gepseudonimiseerde persoonsgegevens zijn binnen de AVG 'persoonsgegevens' indien ze door het gebruik van aanvullende gegevens aan een natuurlijke persoon te koppelen zijn.
     
  • Bij pseudonimiseren van gegevens wordt in de regel gebruik gemaakt van een bronbestand met persoonsgegevens en een doelbestand, dat door middel van bepaalde statistische bewerkingen of andere pseudonimiseringstechnieken is gepseudonimiseerd. Er is in de regel een zogenaamd sleutelbestand op basis waarvan de onderzoeker van het gepseudonimiseerde bestand altijd terug kan naar het bronbestand.
     
  •  Bij pseudonimisering wordt in de regel het zogenaamde ‘vier ogen principe’ toegepast. Hierbij hebben altijd twee personen toegang tot het sleutelbestand, om zo voldoende transparantie te kunnen bieden en aan te kunnen tonen dat in het onderzoek geen inbreuk op de wetenschappelijke integriteit heeft plaatsgevonden.

In de spotlight


Hoe kun je gegevens pseudonimiseren? Waar die je rekening mee te houden?

Gepseudonimiseerde persoonsgegevens die door het gebruik van aanvullende gegevens aan een natuurlijke persoon kunnen worden gekoppeld, moeten als gegevens over een identificeerbare natuurlijke persoon worden beschouwd. (AVG recital 26).

De toepassing van pseudonimisering op persoonsgegevens kan de risico's voor de betrokkenen verminderen en de verwerkingsverantwoordelijken en de verwerkers helpen om hun verplichtingen inzake gegevensbescherming na te komen. De uitdrukkelijke invoering van 'pseudonimisering' in deze verordening is niet bedoeld om andere gegevensbeschermingsmaatregelen uit te sluiten. (AVG recital 28).

In de praktijk worden bij het pseudonimiseren van gegevens, bepaalde persoonsgegevens weggelaten of vervangen. Er zijn veel verschillende technieken om dit laatste te doen, afhankelijk van de vraag of deze gegevens nog voor statistische doeleinden dienen te worden gebruikt. Zo kan een specifieke leeftijd (dag/maand/jaar) door te veralgemeniseren worden vervangen door een reeks van jaren (geboren in jaar x  tot x+5), waardoor het datapunt ‘geboortejaar’ wel voor statistische doeleinden behouden blijft.

Je kunt bijvoorbeeld ook randomiseren, bijvoorbeeld door de waarde voor ‘achternaam’ willekeurig te vervangen door een andere achternaam. Of door de achternaam te vervangen door een reeks getallen. Ook kun je bijvoorbeeld waarden vervangen door een zogenaamde ‘hash’; het toepassen van een berekening (cryptografische hashfunctie) om gegevens van verschillende omvang te veranderen naar gegevens met dezelfde omvang. Hierdoor kun je niet raden wat de invoer was. 

In de ISO standaard: ISO/IEC STANDARD 20889: Privacy enhancing data de- identification terminology and classification of techniques worden de volgende de-identificatie technieken onderscheiden:

1. Statistical tools (Sampling, Aggregation), 

2. Cryptographic tools (Deterministic encryption, Order-preserving encryption, Format-preserving encryption, Homomorphic encryption, Homomorphic secret sharing), 

3. Suppression techniques (Masking, Local suppression, Record suppression)

4. Pseudonymization techniques (Selection of attributes, Creation of pseudonyms)

5. Anatomization

6. Generalization techniques (Rounding, Top and bottom coding, Combining a set of attributes into a single attribute, Local generalization)

7. Randomization techniques (Noise addition, Permutation,  Microaggregation)

8. Synthetic data

Bij pseudonimiseren van gegevens wordt in de regel gebruik gemaakt van een bronbestand met persoonsgegevens en een doelbestand dat door middel van bepaalde statistische bewerkingen of andere pseudonimiseringstechnieken is gepseudonimiseerd. Er is in de regel een zogenaamd sleutelbestand op basis waarvan de onderzoeker van het gepseudonimiseerde bestand altijd terug kan naar het bronbestand. Bijvoorbeeld omdat een deelnemer aan het onderzoek heeft aangegeven te willen worden geïnformeerd, als uit het onderzoek blijkt dat er sprake kan zijn van een erfelijke afwijking.

Voor het onderzoek zelf is de verwerking van gepseudonimiseerde gegevens het meest geschikt, vanuit het oog van zowel de analyse zelf (de naam van de betrokkene is voor de analyse niet nodig) als de bescherming van de persoonsgegevens (personen die de analyse uitvoeren hebben niet per definitie het recht om toegang te krijgen tot de persoonsgegevens van de betrokken onderzoeksdeelnemer). De hoofdonderzoeker (die bijvoorbeeld in een toestemmingsformulier de mogelijkheid heeft aangeboden om informatie te verstrekken aan de betreffende onderzoeksdeelnemer) moet echter vanuit de gepseudonimiseerde gegevens weer kunnen herleiden wie de betreffende onderzoeksdeelnemer was. Bijvoorbeeld ten behoeve van de afgesproken gerichte communicatie.

Vanuit het belang van bescherming van persoonsgegevens is de toegang tot het hierboven genoemde ‘sleutelbestand’ zeer beperkt. Vanuit het perspectief van wetenschappelijke integriteit wordt in de regel het zogenaamde ‘vier ogen principe’ toegepast, waarbij nooit alleen één persoon maar twee personen toegang hebben tot dit sleutelbestand. Dit om zo voldoende transparantie te kunnen bieden en aan te kunnen tonen dat in het onderzoek (bijvoorbeeld bij de dataverzameling) geen sprake is geweest van een inbreuk op de wetenschappelijke integriteit.

Verder lezen?

1. Zie deze infographic ‘basisstappen pseudonimiseren bij kleinschalig kwantitatief onderzoek’, van de LCRDM Taakgroep Pseudonimisering van het Landelijk Coördinatiepunt Research Data Management (LCRDM). Het Landelijk Coördinatiepunt Research Data Management is een landelijk netwerk van experts op het gebied van research data management (rdm). 

2. Zie deze handreiking met betrekking tot de ‘Omgang met pseudonimisering en sleutelbestanden bij kleinschalig onderzoek’, van de LCRDM Taakgroep Pseudonimisering van het Landelijk Coördinatiepunt Research Data Management (LCRDM). Het Landelijk Coördinatiepunt Research Data Management is een landelijk netwerk van experts op het gebied van research data management (rdm). 

3. Zie deze white paper over het Five Safes framework, van Privacy Analytics, dat ook ten grondslag lag aan de handreiking onder (2) hierboven.

4. Zie deze aanbevelingen van ENISA: Recommendations on shaping technology according to GDPR provisions. An overview on data pseudonymisation. 2018. Het Agentschap van de Europese Unie voor cyberbeveiliging, (European Union Agency for Cybersecurity (ENISA)), streeft ernaar een hoog niveau van cyberbeveiliging in heel Europa te bereiken.

5. Zie deze ISO standaard: ISO/IEC STANDARD 20889: Privacy enhancing data de- identification terminology and classification of techniques.