Vi vill lära oss från den data vi samlar in, men inte på bekostnad av användarens integritet
(I detta inlägg refererar jag till vissa engelska definitioner, då svenska saknas)
Företag och organisationer samlar in mer och mer data för att utveckla sina produkter, medan användarna vill ha bättre integritet. Denna konflikt kommer med stor sannolikhet inte att försvinna då datadriven tillväxt är en allt mer tillämpad strategi hos företag.
Hur kan företag och organisationer använda datan de samlar in i olika analyser utan att påverka användarnas integritet? Räcker det verkligen att bara anonymisera datan? Tyvärr är anonymisering inte alltid tillräckligt och även om datan i en databas anonymiseras kan det fortfarande finnas en risk för att informationen blir identifierbar. Ett exempel är om ett anonymiserat dataset länkas med ett annat, icke anonymiserat dataset som har identifierbar information. Det kan det då finnas en risk att personer i det anonymiserade datasetet ändå kan identifieras.
Ett exempel på detta kan ses i en tävling som Netflix arrangerade 2006, där de tävlande skulle skapa en algoritm som kunde förutse användarnas betygsättande för olika filmer och serier. Netflix försedde de tävlande med en databas där användarnamnen var anonymiserade och där även en del betyg bytts ut mot ett påhittat betyg för att göra anonymiteten bättre. Två tävlande tog hela databasen och jämförde den med IMDBs öppna databas och på så sätt kunde de två tävlande länka alla betyg i Netflix databas med IMDBs, där alla användarnamnen var offentliga. På så sätt lyckades de två tävlande identifiera användarna i Netflix databas.
Ett annat exempel är när en person tog New Yorks öppna databas med taxidata från olika taxiresor och kombinerade den med foton på kändisar från olika platser i New York. Genom att kartlägga var kändisarna fotats vid olika taxiresor, tillsammans med taxidatan i databasen, kunde personen lista ut vilka kändisar som rest var, hur mycket de betalade för resan och hur mycket de gav i dricks.
Föregående exempel kallas ”linkage attacks”, vilket alltså är när två olika databaser kan länkas ihop med varandra och på så sätt äventyra anonymiteten. Databaserna jämförs med varandra för att kunna länka personer eller uppgifter i databaserna. Detta innebär att det som varit anonymiserat kan bli identifierbart och den garanterade anonymiteten inte längre är garanterad.
“Privacy Enhancing Technologies” och “Differential privacy”
Det finns många olika typer av ”Privacy Enhance Technologies” (PET) som företag kan använda sig av för att göra den data de lagrar eller processar i sina databaser säkrare. Nedan beskriver jag en teknik som kallas Differential privacy.
Differential privacy är en teknik som öppnar dörrar för att kunna använda data för att genomföra olika dataanalyser för allmänna ändamål och trender utan att integriteten hos användare äventyras. Det är en teknik som förstärker anonymiseringen i databaser och förebygger linkage attacks.
För att göra anonymiseringen bättre tillförs ett slumpmässigt brus, ett så kallat "noise", till datan så att informationen blir blurrig och oklar. Föreställ dig noise som att pixelera ansiktet för att dölja någons identitet på ett foto. Hur svårt det är att identifiera personen beror på hur blurrig bilden är. På så sätt blir det mycket svårare att identifiera vem som är på bilden.
Samma sak gäller när vi tillsätter noise till datan i våra analyser – det blir svårare att identifiera specifika resultat eftersom datan inte blir helt korrekt. Däremot kan slutresultatet ändå fortfarande bli pålitligt vid generella analyser, men detta beror såklart på hur frågeställningarna ser ut vid olika analyser och hur exakt resultatet måste vara. Det beror också på hur mycket noise som tillsätts vid insamling, vilket är något som kan regleras i den applikation som använder denna typ av teknik.
Det finns situationer där analysering av data kan vara betydande för samhället för att kartlägga olika trender eller generella händelser. I följande Youtube-klipp (What is Differential Privacy?) tas ett exempel upp där personer boende i samma område ringer SOS på grund av andningssvårigheter. Denna typ av data, alltså medicinsk data, är känslig data och något som vi ska vara väldigt försiktiga med att använda. Men, genom att använda sig av Differential privacy skulle sådan typ av data kunna användas i särskilda situationer. Genom att använda den medicinska datan tillsammans med platsinformation (som också är känslig data), skulle vi kunna kartlägga om flera personer i ett specifikt område hade svårt att andas under samma tid. På så sätt kan vi snabbare och tydligare hitta fel i samhället, som t.ex. gasläckor eller om det pågår någon speciell sjukdomsspridning.
Det kan alltså vara problematiskt att bara nöja sig med att anonymisera och pseudonymisera data. Även om mycket är skyddat genom dessa åtgärder finns det andra tekniker som kan användas för att säkerställa integriteten. Olika typer av PET är absolut något som fler företag bör använda sig av när de samlar in data om deras användare. Differential privacy kan vara en teknik att använda vid generella analyser, speciellt vid analysering av känslig data. Tekniken behöver dock bli enklare att använda, vara kompatibel med många olika system och kunna kombineras med andra tekniker för att skapa flera skal av integritet.
Allt eftersom det datadrivna arbetssättet växer tror jag att diskussionerna kring hur vi lagrar data kommer bli större och incidenterna bli fler. Företag och organisationer behöver bli mer kritiska kring vilken data de samlar in och ha tydliga rutiner i sina processer för inhämtning av ny data – detta tillsammans med stöd och godkännande av ett dataskyddsombud.