SPSS dataset privacy: anonimiseren van je dataset

Anonimiseren van je SPSS dataset

Bij het uitvoeren van een (survey) onderzoek worden gegevens van respondenten verzameld die nodig zijn voor het beantwoorden van onderzoeksvragen en het testen van hypotheses. Soms staan er echter gegevens in de datasets die de privacy van de respondenten kunnen bedreigen en die niet als zodanig nodig zijn voor het uitvoeren van statistische analyses. Niet alleen om de belofte aan respondenten dat hun gegevens anoniem verwerkt zullen worden te waarborgen, maar ook om te voldoen aan de wet AVG, is het van belang om te zorgen dat je dataset ook écht anoniem is voordat je deze doorstuurt of overdraagt.

Hieronder worden enkele vaker voorkomende, soms overduidelijke en andere minder duidelijke, zaken genoemd die de privacy van participanten kunnen bedreigen. Hierbij wordt een SPSS-dataset als voorbeeld genomen maar, hoewel de aanpak in andere statistische programma’s verschilt, is de gedachtegang erachter veelal hetzelfde.

Hopelijk  inspireert deze pagina tot het kritisch bekijken van je dataset en krijg je ideeën over hoe je op een veilige manier kunt omgaan met de gegevens die respondenten je hebben toevertrouwd. De volgende onderwerpen komen aan de orde:

Ip-adressen

Email-adressen

Geboortedatum

Overige gegevens en bedrijfsgegevens

 

Ip-adressen

Wanneer je gebruik hebt gemaakt van een online enquêtetool staat er vaak een kolom in je dataset met de ip-adressen van de respondenten in je onderzoek. Die ip-adressen geven een indicatie vanuit welke locatie de respondent de vragenlijst heeft ingevuld. Soms kan dit ip-adres handig zijn om te bepalen of je echt unieke respondenten hebt, maar de bruikbaarheid daarvoor is beperkt. Mensen die, bijvoorbeeld, op de universiteit de vragenlijst invullen en ingelogd zijn op de wifi hebben allemaal hetzelfde ip-adres.
In het algemeen is deze kolom met ip-adressen voor de analyses niet nodig. Om de privacy van je respondenten te bewaken, moet je deze kolom verwijderen voordat je deze doorstuurt aan andere betrokkenen.

Figuur 1: voorbeeld van een kolom met (aangepaste) ip-adressen uit qualtrics

 

Email-adressen

Soms wordt in een survey gevraagd naar de naam of het email-adres van de respondent, bijvoorbeeld omdat je een prijs wil verloten onder de respondenten om participatie te vergroten of om respondenten de kans te geven het onderzoeksverslag te ontvangen.

Een andere reden kan zijn dat je respondenten later nog een keer wil benaderen, bijvoorbeeld voor een follow-upmeting. En daarvoor wil je de namen of emailadressen gekoppeld houden aan de onderzoeksgegevens

In beide gevallen is het email-adres is niet nodig voor het beantwoorden van de onderzoeksvragen of het testen van de hypotheses. Deze emailadressen horen dan ook niet in de spss dataset te staan.

Voor de anonimiteit dien je de kolom met emailadressen te knippen uit de dataset en kun je deze  plakken in, bijvoorbeeld, een Excel of Word-bestand dat je apart van je spss dataset bewaart.

Als je namen of emailadressen bewaart voor vervolgmetingen, zorg dan dat elke respondent een uniek respondentnummer krijgt en kopieer de kolommen met naam of emailadres en respondentnummer gezamenlijk naar een ander bestand. Hou daarna de kolom met respondentnummers in je SPSS bestand, maar verwijder wel de kolom met namen of emailadressen. Zo kun je later de onderzoeksgegevens van de vervolgmeting op basis van dit respondentnummer in de dataset koppelen. 

Geboortedatum

Wanneer een geboortedatum is geregistreerd, zijn de antwoorden van een respondent mogelijk te herleiden naar een persoon. Vooral als er ook nog andere demografische gegevens gevraagd zijn of als de populatie beperkt is. Het advies is om, in plaats daarvan, in je onderzoek naar leeftijd (in jaren) te vragen en niet naar geboortedatum. Leeftijd is 365 keer minder persoonlijk. Behalve uiteraard wanneer er een onderzoekstechnische reden is om tóch voor geboortedatum te kiezen.

Mocht je een kolom met geboortedatum in je dataset hebben staan, en je wil leeftijd meenemen in je analyses, dan kun je de leeftijd (in jaren) als volgt berekenen:

Om uit een geboortedatum de leeftijd in jaren te berekenen ga je naar

Transform – Compute Variable en vul in:

  1. Onder [numeric expression]:
    DATEDIFF(Startdate,geboortedatum,”years”)
  2. Onder [ Target variable]:
    Een naam voor de nieuw te maken variabele, bijvoorbeeld ‘Leeftijd’

‘Startdate’ en ‘geboortedatum’ zijn in deze formule variabelen. Wanneer deze in jouw dataset een andere naam hebben, gebruik je die namen daarvoor in de plaats.  Het resultaat van deze berekening komt in een kolom die je de naam ‘Leeftijd’ of een andere herkenbare naam geeft (Figuur 2).

 

 

Figuur 2: Berekenen leeftijd uit geboortedatum en invuldatum vragenlijst

In dit voorbeeld is de leeftijd van de respondent berekend op het moment dat hij of zij de vragenlijst invulde. Wanneer dit moment niet bekend is, kun je ook in plaats van ‘Startdate’ in de formule een datum plaatsen. Bijvoorbeeld de datum waarop je de vragenlijst uitgezet hebt (Figuur 3).

Ga naar: Transform – Compute Variable en vul in:

  • Onder [numeric expression]:
    DATEDIFF(DATE.MDY(1,1,2018),geboortedatum,”years”)
  • Onder [ Target variable]:
    Een naam voor de nieuw te maken variabele, bijvoorbeeld ‘Leeftijd’

In plaats van (1,1,2018) kan dan de gekozen begindatum worden ingevuld.

Figuur 3: Berekenen leeftijd uit geboortedatum en een startdatum van het onderzoek.

Nadat je de leeftijd van de respondent hebt berekend, kun je de geboortedatum-kolom uit het databestand verwijderen.

 

Overige gegevens en bedrijfsgegevens

Naast bovengenoemde veelvoorkomende situaties, kunnen er nog andere gegevens in datasets terecht komen die de anonimiteit van de respondent bedreigen. Bijvoorbeeld sommige enquêtetools verzamelen ook Latitude en Longitude van de locatie waar de respondent de vragenlijst invulde. Voor de meeste onderzoekers zullen deze variabelen niet relevant zijn en dienen ze uit de dataset verwijderd worden.

Daarnaast kun je in jouw dataset ook bedrijfsgegevens hebben verzameld. Bedrijfsnamen in combinatie met bijvoorbeeld de leeftijd van een respondent, is een risico. Het beste is om ook bedrijfsnamen eruit te halen en te vervangen door een identificatienummer (die jij als onderzoeker alleen hebt genoteerd).

De algemene regel is dan ook: Kijk kritisch naar je dataset voordat je deze deelt met andere personen. Als er variabelen zijn die de anonimiteit van je respondenten, op welke manier dan ook, kunnen bedreigen, neem dan passende maatregelen.  

Zo kun je de (beloofde) anonimiteit van je respondenten garanderen.

 

Topscriptie heeft al ruim 3.250 studenten geholpen aan een Topscriptie!

Helpen wij jou ook aan een TopScriptie? Neem contact met ons op!

Professionele hulp bij je scriptie

Een intakegesprek is altijd geheel vrijblijvend, we geven je graag meer persoonlijke informatie en een advies op maat, zodat je vooraf een goed beeld hebt bij wat we voor jou kunnen betekenen.

  • Dit veld is bedoeld voor validatiedoeleinden en moet niet worden gewijzigd.

Meer weten?

Wil je meer informatie over de mogelijkheden die Topscriptie kan bieden?
Professionele, betaalbare hulp bij je scriptie?
Meer

Helpen wij jou, net als 3.250 anderen ook aan een Topscriptie?

sluit
  • Dit veld is bedoeld voor validatiedoeleinden en moet niet worden gewijzigd.