Replikk

Ikke se til Facebook!

Kunstig intelligens trenger ikke mest mulig data for å fungere godt.

AI

Vi bør lage ansvarlige metoder for kunstig intelligens som får mest mulig ut av de dataene vi tross alt har lov til å bruke. Bilde: Roboten Pepper på Abelia og Telenors konferanse om kunstig intelligens i fjor.

Foto: Gorm Kallestad / NTB scanpix

Bør vi samle inn mest mulig data fordi kunstig intelligens kan få bruk for det en vakker dag? I en kronikk her på NRK Ytring, anklager Morten Goodwin Datatilsynet for å hindre bruk av kunstig intelligens og at vi bør datamaksimalisere som Facebook gjør. Morten Goodwin retter baker for smed, siden Datatilsynet bare gjør den jobben de er pålagt å gjøre av Stortinget. Goodwin imøtegås derfor av Bjørn Erik Thon. Som forsker mener jeg at Goodwin prøver å gjøre det beste til det godes fiende.

Mer ikke alltid bedre

Trenger kunstig intelligens så mye data som mulig for å fungere godt? Goodwin mener faktisk det. Det er helt riktig at det alltids kan være verdifull informasjon i de dataene vi ikke har samlet inn eller som personvernlovgivningen ikke lar oss bruke, men kunstig intelligens må generelt ikke ha enorme datamengder for å fungere.

Det kan være bekvemt å samle inn alt for å slippe å sile ut det som er viktig i et datasett. Og noen ganger kan det være at det er summen av mange små bidrag som får den kunstige intelligensen til å virke. Det vanligste er imidlertid at den kunstige intelligensen fungerer fint med et noenlunde avgrenset antall variabler.

Som forsker mener jeg at Goodwin prøver å gjøre det beste til det godes fiende.

Mer er ikke alltid bedre. Store datamengder betyr at sannsynligheten for feil og mangler i en eller flere variabler, øker betraktelig. Det finnes, og det vil fortsette å komme nok av eksempler på kunstig intelligens-fiaskoer, som Googles feilslåtte influensaprognoser og Microsofts Twitterrobot på villspor.

Et spørsmål om tillit

I forskningsartikkelen «The accuracy, fairness, and limits of predicting recidivism», undersøkte forskerne Julia Dressel og Hany Farid en algoritme, som siden år 2000 har blitt brukt i USA til å forutsi risikoen for tilbakefall for straffedømte innen to år etter løslatelse. Algoritmen baserer seg på 137 egenskaper ved den straffedømte. Dressel og Farid viste at en modell med bare de to viktigste egenskapene – alder og antall tidligere dommer – ser ut til å fungere like fint. Og for ordens skyld: Jeg mener ikke at det er riktig å høre på en hemmelig algoritme ved vurdering av straffedømte.

Store datamengder betyr at sannsynligheten for feil og mangler, øker betydelig.

Vi ønsker oss alle bedre behandling av sykdommer eller en mer effektiv offentlig forvaltning. Goodwin argumenterer for datamaksimalisering tilsynelatende uten å ta innover seg ulempene, fallgruvene og den tross alt skjøre tilliten vi er avhengige av at folk flest har til bruk og deling av data.

Selv om Goodwin legger for dagen en overdreven vekt og tro på datamaksimalisering, kan det ha noe for seg i noen situasjoner, spesielt i forskning. I noen tilfeller bør vi kunne få tilgang til mange variabler for å finne de viktigste, nåla-i-høystakken-variablene. Det betyr at vi kanskje må datamaksimalisere litt først for å kunne dataminimere siden.

Som forskere bør vi lage ansvarlige metoder for kunstig intelligens som får mest mulig ut av de dataene vi tross alt har lov til å bruke.

Følg NRK Debatt på Facebook og Twitter