Syntetiske persondata ved hjelp av maskinlæring

Personopplysningsloven og GDPR har gitt økt fokus på hva man kan bruke innsamlede personopplysninger til og ikke, og det hersker stor usikkerhet rundt hva det i praksis betyr at dataene kun skal brukes innenfor det formålet de var samlet inn for.

Man har i praksis disse valgene:

  • Tolke eksisterende formål med innsamlingen av persondata på en slik måte at det også gis anledning til å bruke produksjonsdata til utvikling, test og forvaltning av IT-systemene.
  • Syntetisere produksjonsdata ved hjelp av maskinlæring slik at de blir et fullgodt speilbilde av produksjonsdataene, men at personopplysningene er fullt ut anonymiserte og ikke på noen måte mulig å gjenskape.

Noen virksomheter tar sjansen på at eksisterende formål er godt nok også etter GDPR med de store konsekvensene dette kan få.

Hvorfor maskinlærte data

Hvorfor maskinlærte, syntetiske persondata? (Jon Christian Halvorsen, 2018)

 

Les mer: GDPR-vennlige data til test og analyseformål

Hvordan sikre at personopplysningene er anonyme?

Enkel anonymisering eller maskering av data er ikke godt nok fordi det da er stor sannsynlighet for at personopplysningene på ett eller annet vis kan gjenskapes.

Løsning:

  • Anonymisere dataene og gjøre dem syntetiske ved hjelp av maskinlæring. Da er det fritt frem å bruke dataene til utvikling og test av IT-systemer samt avanserte analyser og visualiseringer. Bruken faller da utenfor det GDPR regulerer.
  • Får å få fullgode testdata bør man i tillegg komplettere dataene med grensetilfellene (“cornercases”) som ikke finnes i produksjonsdataene i utgangspunktet.
  • Det syntetiske datasettet bør også gjøres dynamisk, det vil si ta høyde for de daglige endringene som skjer i produksjonsdataene. Disse endringene må også syntetiseres.

Oppsummert får man på denne måten et komplett datasett som tilfredsstiller GDPR, er realistisk (de statistiske egenskapene er ivaretatt), genereres kostnadseffektivt, gjenspeiler daglige endringer og inneholder alle ønskelige grensetilfeller.

Syntetisering av persondata

Syntetisering av persondata (Jon Christian Halvorsen, 2018)

Figuren over viser Visma Consulting sitt konsept for syntetisering av produksjonsdata (skarpe data) via pseudonymisering og maskinlæring. For eksempel kan vi syntetisere meldinger om nye fødsler fra folkeregisteret. Et sett skarpe fødselsmeldinger trekkes ut fra kildesystemet og blir deretter pseudonymisert. Dette betyr at alle direkte identifiserbare attributter, som fødselsnummer og navn, blir erstattet med noe annet.

Deretter kjører vi det pseudonyme datasettet inn i en synth-komponent. Dette kan i prinsippet være hva som helst, men denne komponenten må kunne lære seg en statistisk representasjon av det pseudonyme datasettet. Synth-komponenten gir enten fra seg den maskinlærte modellen som vi senere kan hente ut syntetiske data fra, eller den gir fra seg de syntetiske dataene direkte.

For at de syntetiske, dynamiske dataene skal holde en kontinuerlig høy kvalitet må de forvaltes som om de var produksjonsdata.

Vil du lære mer om hvordan du kan benytte maskinlæring i dine business intelligence og analytics prosjekter?

Last ned gratis guide her

Morten Brurberg er COO i Visma Consulting AS. I denne rollen inngår arbeidet med strategisk planlegging og ledelse. Videre er Morten kundeansvarlig, leveranseansvarlig og prosjekteier for en rekke av Visma Consulting AS sine største og mest komplekse offentlige prosjekter. Morten har lang erfaring som leder, prosjektleder for systemutviklingsprosjekter, arkitekt og kundeansvarlig.
Connect with Morten: