Syntetiske persondata ved hjelp av maskinlæring

Personopplysningsloven og GDPR har gitt økt fokus på hva man kan bruke innsamlede personopplysninger til og ikke, og det hersker stor usikkerhet rundt hva det i praksis betyr at dataene kun skal brukes innenfor det formålet de var samlet inn for.

Man har i praksis disse valgene:

Tolke eksisterende formål med innsamlingen av persondata på en slik måte at det også gis anledning til å bruke produksjonsdata til utvikling, test og forvaltning av IT-systemene.
Syntetisere produksjonsdata ved hjelp av maskinlæring slik at de blir et fullgodt speilbilde av produksjonsdataene, men at personopplysningene er fullt ut anonymiserte og ikke på noen måte mulig å gjenskape.

Noen virksomheter tar sjansen på at eksisterende formål er godt nok også etter GDPR med de store konsekvensene dette kan få.

Hvorfor maskinlærte data — Hvorfor maskinlærte, syntetiske persondata? (Jon Christian Halvorsen, 2018)

Les mer: GDPR-vennlige data til test og analyseformål

Hvordan sikre at personopplysningene er anonyme?

Enkel anonymisering eller maskering av data er ikke godt nok fordi det da er stor sannsynlighet for at personopplysningene på ett eller annet vis kan gjenskapes.

Løsning:

Anonymisere dataene og gjøre dem syntetiske ved hjelp av maskinlæring. Da er det fritt frem å bruke dataene til utvikling og test av IT-systemer samt avanserte analyser og visualiseringer. Bruken faller da utenfor det GDPR regulerer.
Får å få fullgode testdata bør man i tillegg komplettere dataene med grensetilfellene (“cornercases”) som ikke finnes i produksjonsdataene i utgangspunktet.
Det syntetiske datasettet bør også gjøres dynamisk, det vil si ta høyde for de daglige endringene som skjer i produksjonsdataene. Disse endringene må også syntetiseres.

Oppsummert får man på denne måten et komplett datasett som tilfredsstiller GDPR, er realistisk (de statistiske egenskapene er ivaretatt), genereres kostnadseffektivt, gjenspeiler daglige endringer og inneholder alle ønskelige grensetilfeller.

Syntetisering av persondata (Jon Christian Halvorsen, 2018)

Figuren over viser Visma Consulting sitt konsept for syntetisering av produksjonsdata (skarpe data) via pseudonymisering og maskinlæring. For eksempel kan vi syntetisere meldinger om nye fødsler fra folkeregisteret. Et sett skarpe fødselsmeldinger trekkes ut fra kildesystemet og blir deretter pseudonymisert. Dette betyr at alle direkte identifiserbare attributter, som fødselsnummer og navn, blir erstattet med noe annet.

Deretter kjører vi det pseudonyme datasettet inn i en synth-komponent. Dette kan i prinsippet være hva som helst, men denne komponenten må kunne lære seg en statistisk representasjon av det pseudonyme datasettet. Synth-komponenten gir enten fra seg den maskinlærte modellen som vi senere kan hente ut syntetiske data fra, eller den gir fra seg de syntetiske dataene direkte.

For at de syntetiske, dynamiske dataene skal holde en kontinuerlig høy kvalitet må de forvaltes som om de var produksjonsdata.

Vil du lære mer om hvordan du kan benytte maskinlæring i dine business intelligence og analytics prosjekter?

Last ned gratis guide her

Populære temaer

Mest populære

Offentlig sektor
publisert 12. januar 2023
Privatist? Eksamen fra A til Å
Satser du på å ta eksamen som privatist? Her er svarene på spørsmålene du måtte ha.
Offentlig sektor
publisert 2. juni 2023
Hva bestemmer hvilken fagkarakter du får som elev?
Hver vår får tusenvis av videregående elever både standpunkt- og eksamenskarakterer, og mange venter spent på resultatet før de eventuelt skal søke høyere utdanning. For å hjelpe deg som elev å forstå hva som danner grunnlaget for disse karakterene, har vi samlet informasjon og svar på ofte stilte spørsmål nedenfor.
Lønn og HR
publisert 3. juni 2021
Seks ting du må vite om fleksitid
Det er mye man skal ha kontroll på når ansatte har fleksitid. Les hvilke seks ting du må vite å lykkes her.

Syntetiske persondata ved hjelp av maskinlæring

Hvordan sikre at personopplysningene er anonyme?

Populære temaer

Mest populære

Privatist? Eksamen fra A til Å

Hva bestemmer hvilken fagkarakter du får som elev?

Seks ting du må vite om fleksitid

Hold deg oppdatert