Syntetiske data

Løser så mye mer enn personvern

Frigjør potensialet til dine data

Det ligger store verdier i gode data, men av personvernshensyn er ofte tilgangen begrenset. Syntetisering av data løser dette problemet, og forener personvern og databehandling. Syntetiske Data er generert av en maskinlæringsmodell som er trent opp på reelle data. De syntetiske dataene vil dermed oppføre seg som de originale dataene, men uten noen personlig identifiserende informasjon. Det er heller ikke mulig å re-identifisere personer, da dette er kunstig konstruerte data og ikke bare anonymiserte data. 

Riktig håndtering  av personvern er imidlertid bare den første av flere fordeler ved å ta i bruk Syntetiske Data.

GDPR-vennlig

Data er generert av en modell og kan ikke knyttes til personer

Tilgjengeliggjør data

Åpner for innsikt som før var utilgjengelig av personvernshensyn

Økt datakvalitet

Gir bedre datagrunnlag enn rene produksjonsdata

Bedre sikkerhet

Dataen er ikke re-identifiserbar, så den kan anvendes uten risiko

Slik gjør vi det

  1. Kartlegge: Vi kartlegger eksisterende system og finner syntetiseringsbehovet.

  2. Anonymisere: Vi fjerner alle identifiserende felter. I tillegg fjernes sjeldne tilfeller som kan være gjenkjennelige og lette å knytte til person. 

  3. Syntetisere: Anonymiseringen er enkel å re-identifisere, så vi trener en maskinlæringsmodell som generer kunstige data basert på anonymisert data

  4. Tilgjengeliggjøre: De syntetiske dataene tilgjengeliggjøres i systemene der de skal brukes

  5. Oppdatere: Data endres fort, så statiske data utdateres fort. Derfor oppdateres de syntetiske dataene daglig, på en realistisk måte.

 


 

Use Case

Syntetiske Testdata

Syntetiske Testdata handler om å tilby realistiske og dekkende testdata uten å gå på bekostning av personvern. Bruk av produksjonsdata til testing er problematisk, spesielt etter GDPR. Dette gjør det utfordrende å få tak i gode testdata, noe som har skapt behovet for syntetiske testdata. 

Økt datakvalitet

Test bredere: Ved testing ønsker man å teste alle mulige scenarier. Det får man sjeldent ved å bruke produksjonsdata. Vår løsning har en selvbetjent klient for å generere opp mer data. Dette gjør det enklere å teste edge-cases.

Levende testmiljø: Data endrer seg fort, og testdata er forbruksvare. En kopi av produksjonsdata blir derfor fort utdatert. Syntetiske Testdata har derfor et levende testmiljø som oppdateres realistisk hver dag. 

 

Mer tilgjengelige data 

Større datagrunnlag: Syntetiske Testdata åpner for innsikt i data som ellers er utilgjengelig av personvernshensyn. Eksempelvis kan man nå teste med reelle adresser og fødselsnummer da disse er frakoblet fra personinformasjon, noe som ikke er mulig med anonymiserte/maskerte data. 

Enhetlig testmiljø: Vi gir tilgang til et rikt datasett, der dataintegriteten er ivaretatt på tvers av systemer. Dette kan tilgjengeliggjøres uten streng tilgangskontroll.

Bedre sikkerhet

Ikke re-identifiserbar data: Andre løsninger for å anonymisere data, som maskeringsløsninger, er sårbare for linkage attacks. Dette er ikke en risiko for Syntetiske Testdata, da all data er konstruert og kunstig. En potensiell datalekkasje utgjør dermed ingen sikkerhetsrisiko. 

“Ikke oppbevar gull i en bank under konstruksjon”: Tilgangskontroll og sikkerhet er ofte ikke like god i testmiljø som i produksjon. Hvis reelle data brukes i testmiljøet, er man dermed mer sårbar for dataangrep.

 

Reduserte kostnader

Automatisering: Generering av testdata er ofte en veldig manuell prosess, og dette blir fort tidkrevende og dyrt når strengere regler rundt personvern øker kravene til testdata. Vi automatiserer prosessen med å generere og vedlikeholde testdata.

Selvbetjent testklient: Vår selvbetjente testklient gjør det enkelt å generere opp ytterligere testdata ved behov. I prosjekt med NAV sparte det inn over to årsverk!

Use Case

Syntetisk Analyseplattform

Data som før var underlagt streng tilgangskontroll, kan nå tilgjengeliggjøres uten å utgjøre en sikkerhetsrisiko. Syntetisk Analyseplattform syntetiserer datagrunnlaget på en slik måte at de gir samme innsikt, men uten at det er mulig å identifisere personer. Dette legger til rette for at man nå kan gjøre analyse på data som ellers har vært utilgjengelig. Teknologien baserer seg på forskning fra MIT (Synthetic Data Vault). Deres modell gir like god eller bedre prediksjon på syntetiske data som på reell data.