Slik fører kunstig intelligens til bedre personvern i NAV

NAV har et stort behov for å teste datasystemene sine, og det med så reelle data som mulig. Kunstig intelligens kombinert med en verdikjedetilnærming har vist seg å være sukessoppskriften for å sørge for testdata som ivaretar personvernet

I mange omganger har man prøvd ut maskering eller anonymisering av produksjonsdata uten at man har funnet en løsning som holder mål. Med det mener vi at de produserte dataene ikke har en like stor grad av spredning som de reelle dataene og at personopplysninger kunne lekke ut gjennom usikre anonymiseringsteknikker.

Disse teknikkene var derfor ikke holdbare og man måtte se etter en ny løsning for testdata.

En ny teknikk basert på kunstig intelligens kombinert med en verdikjedetilnærming (kontra databasetilnærming) har vist seg å være sukessoppskriften for å sørge for testdata som ivaretar personvernet. All nyutvikling skjer nå på syntetiske testdata.

Derfor fører kunstig intelligens nå til bedre personvern i NAV.

Verdikjedetilnærming ble løsningen

NAV hadde 1200 databasetabeller i sitt system som kalles Arena. For å kunne lage syntetiske testdata trengte man en oversikt over disse tabellene. Derfor så man på hvor dataene kommer inn, hvor går data ut og hva må man legge på her for å kunne jobbe med maskinlæring?

Å benytte seg av en verdikjedetilnærming betyr at man lager kunstige data i grensesnittene mellom systemer, istedenfor langt nede i databaser. Denne tilnærmingen medfører at par praktiske fordeler:

Det er færre grensesnitt enn databasetabeller. Dette fører til at man gjør en mindre jobb, da det er færre koblinger å holde styr på.
Data kommer inn på akkurat samme måten som reelle data. Dette gjør at vi kan gjenbruke dataflyter. Applikasjonene håndterer også forretningslogikken som gjør at vi får konsistens i dataene våre.
Når vi benytter eksisterende verdikjede for data inn i systemet, får vi automatisk også benyttet verdikjedene ut av gjeldende system. Distribusjonsmekanismer fungerer “out-of-the-box”.

En verdikjedetilnærming ble derfor løsningen for å skape seg oversikt.

Les mer om løsningen her: Tre basisløsninger for syntetiske data i NAV

Kunstig intelligens i sentrum

Selve kjernen i denne løsningen består av kunstig intelligens levert av Visma.

Denne kjernen lager data som “hermer” etter produksjonsdataene. Det betyr at de maskinlærte modellene genererer syntetiske testdata med de samme egenskapene som det opprinnelige datasettet. Disse dataene dekker nødvendig spredning for testing og utvikling av it-systemer ved at dataene blir så nært reelle data som mulig.

Om du mot formodning ikke skulle være fornøyd med disse dataene har vi også laget en self-service løsning for å generere dine egne data. Løsningen gjør at alle kan opprette og skreddersy syntetiske data etter deres behov, ved å legge inn ulike egenskaper. For eksempel dersom man ønsker å teste en uvanlig situasjon kan du opprette testdata for denne situasjonen og så kjøre test på dette.

Vil du lese mer om selve løsningen? Klikk her.

Hva med personvern i løsningen?

Testdataene som produseres gjennom denne modellen med kunstig intelligens er helt sikre og umulig å spore tilbake til enkeltpersoner. Selve prosessen med å hente ut treningsdata til den kunstige intelligensen kvalitetssikres på følgende måte:

Alle direkte identifiserende egenskaper blir tatt bort (som fødselsnummer og navn).
Det gjøres en kvalitativ analyse av resten av datasett, der statistiske abnormaliteter blir slettet.
Vi sitter nå igjen med anonyme data som ikke kan kobles tilbake til noen enkeltpersoner. Disse dataene brukes for å trene den kunstige intelligensen.

Les mer: 3 grunner til å velge syntetiske testdata

Hva har dette ført til?

NAV brukt svært mye tid og ressurser på å opprette testdata tidligere. Nå er denne prosessen blitt drastisk mye raskere, ved at du kan generere opp til 10.000 syntetiske personer på noen få minutter.

I tillegg til at denne løsningen har spart mye tid og ressurser er den også helt sikker og anonym. Det er helt umulig å spore tilbake til enkeltpersoner. På den måten sørges det for at man bevarer personvernet til enkeltpersoner og man kan trygt teste på disse dataene.

Guide: Syntetiske testdata som en løsning for personvern: Hva, hvordan og hvorfor

Hvordan kan man teste datasystemer uten å gå på bekostning av personvernlovgivningen? Hvordan kan man sikre at man skaper helt anonyme personopplysninger?

Last ned guiden her

Populære temaer

Mest populære

Offentlig sektor
publisert 12. januar 2023
Privatist? Eksamen fra A til Å
Satser du på å ta eksamen som privatist? Her er svarene på spørsmålene du måtte ha.
Offentlig sektor
publisert 2. juni 2023
Hva bestemmer hvilken fagkarakter du får som elev?
Hver vår får tusenvis av videregående elever både standpunkt- og eksamenskarakterer, og mange venter spent på resultatet før de eventuelt skal søke høyere utdanning. For å hjelpe deg som elev å forstå hva som danner grunnlaget for disse karakterene, har vi samlet informasjon og svar på ofte stilte spørsmål nedenfor.
Lønn og HR
publisert 3. juni 2021
Seks ting du må vite om fleksitid
Det er mye man skal ha kontroll på når ansatte har fleksitid. Les hvilke seks ting du må vite å lykkes her.

Slik fører kunstig intelligens til bedre personvern i NAV

Verdikjedetilnærming ble løsningen

Kunstig intelligens i sentrum

Hva med personvern i løsningen?

Hva har dette ført til?

Guide: Syntetiske testdata som en løsning for personvern: Hva, hvordan og hvorfor

Populære temaer

Mest populære

Privatist? Eksamen fra A til Å

Hva bestemmer hvilken fagkarakter du får som elev?

Seks ting du må vite om fleksitid

Hold deg oppdatert