Hopp til innhold

Du digitaliserer bøker for Google

Visste du at dei utydelege og forvrengte orda, som du må tyde når du til dømes skal opprette ei e-postadresse, blir brukt til å digitalisere gamle bøker?

recaptcha bøker

GLOBAL DUGNAD: Google skanner all verdas bøker og treng din hjelp for å digitalisere dei.

Foto: Johannesen, Sara / SCANPIX / Google

– Når millionar av menneske skriv inn desse orda kvar einaste dag over heile internett, så får ein digitalisert veldig mange ord og dermed veldig mange bøker, utan å betale noko som helst for det og utan at dei som gjer det nødvendigvis veit om det, seier universitetslektor ved Institutt for informatikk ved Universitetet i Oslo, Gisle Hannemyr.

Gisle Hannemyr

Gisle Hannemyr er universitetslektor ved Universitetet i Oslo.

Foto: Privat
recaptcha step by step

DIGITALISERING AV GAMLE BØKER: Ordet kjem frå ei bok som blir digitalisert.

Foto: Google

Når du til dømes skal opprette ein e-postkonto får du ein kode som du må tyde for å bevise at du er eit menneske og ikkje ein datamaskin ute etter å gjere ugang.

Kodane heiter CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart), og skal hindre datamaskiner i å sende søppelpost.

Varianten der du får to forvrengte ord å tyde heiter «reCAPTCHA».

Det er dette programmet Google bruker til å tyde skrifta i gamle bøker.

Slik fungerer det

– CAPTCHA går ut på at folk løyser oppgåver som menneske er flinke til, men datamaskiner enno ikkje meistrar. Ei av dei oppgåvene er tekstgjenkjenning, seier Hannemyr.

Google skannar ei stor mengd bøker for å gjere dei tilgjengelege gjennom «Google Bøker». Eit dataprogram tyder bileta av sidene og gjer dei om til tekst.

Men i gamle bøker er bokstavane ofte så utydelege at programmet ikkje klarer å tyde dei. Det er her du kjem inn.

– Det finst datamaskiner som kjenner igjen skrift, OCR («Optical Character Recognition»), men særleg i gamle bøker der blysatsen kanskje har vore litt slite, kjem desse programma til kort. Då må ein nytte menneskeleg arbeidskraft, seier Hannemyr.

(Saka held fram under biletet)

reCaptcha

KJENNER IGJEN TEKST: Eit programm gjer det meste av jobben, men slit med nokre av orda.

Foto: Google

Korleis veit programmet at det du svarar er rett?

– Det veit svaret på det eine ordet. Skriv du dét riktig, går det ut frå at du også har svara riktig på det ukjende ordet, seier Hannemyr.

Fleire internettbrukarar får det same ordet og når mange nok har svara det same, set programmet det inn i teksten. Og du har vore med på å digitalisere ei bok.

75 mil lang bokhylle

Til no har Google digitalisert over 15 millionar bøker på kring 400 forskjellige språk.

Gamal tekst

GAMMAL TEKST: Denne teksten er vanskeleg for ein datamaskin å lese, men eit menneske klarer å tyde det.

Foto: Google

Harald Jacob Skaarn, Google

Harald Jacob B. Skaarn er produktansvarlig hos Google.

Foto: Privat
Viss kvar bok er 5 cm tjukk vil det motsvare ei 75 mil lang bokhylle, seier Harald Jacob B. Skaarn i Google.

Det er ein sjanse for at nettopp du har medverka til dette.

– Eg har ikkje tal på kor mange av bøkene me har brukt «reCAPTCHA» på, det avheng av kvaliteten på teksten, men det er veldig mange, særleig dei eldre bøkene, seier Skaarn.

Gratis arbeidskraft

– Det er ei snedig utnytting av at veldig mange menneske bruker internett dagleg. Ein utnyttar mikroarbeidskrafta ved kvar einaste ordgjenkjenning, seier Hannemyr.

Han ser ingen problem med denne måten å digitalisere bøker på, fordi det er eit biprodukt av ei nyttig teneste, som skal stoppe spam og søppelkommentarar på internett.

– Nokon vil kanskje seie at her utnyttar ein millionar av internettbrukarar sin arbeidskraft gratis, men eg klarar ikkje å hisse meg opp over det. Om ein tek vare på ordet som mennesket kjenner igjen eller ikkje, så er arbeidet ein gjer det same, seier han.

Google kunne ikkje vore forutan den jobben internettbrukarane gjer.

– Men me samlar ikkje inn informasjon om nokon eller brukar det på noko annan måte, seier Skaarn.

Mange veit ikkje

Trass i at «reCAPTCHA» er ein global dugnad som hjelper Google til å digitalisere bøker, veit dei færraste om at dei er med på det.

– Google gjer ingen hemmelegheit ut av det, men ein må klikke på ei lenkje for å komme til sida der heile prosessen blir forklart, seier Hannemyr.

I vindauget som kjem opp, står det med lita skrift: «Stopp spam, les bøker».

Kvifor ikkje fleire veit kva dei er med på, har ikkje Skaarn i Google noko godt svar på.

– Det handlar kanskje om interesse. Det er eit teknisk produkt og mange ting går folk hus forbi. Eg trur mange kjenner igjen reCaptcha når dei ser det, seier han.

Viktig for Google

gamal bok

FRÅ 1848: Eit eksempel på kva reCaptcha kan bli brukt til.

Foto: Google

Det var forskarar ved Carnegie Mellon Universitetet i USA, som fekk den lyse ideen å kombinere menneskeleg teksttyding med sikkerheitsverktøy for internett. I 2009 vart selskapet kjøpt av Google.

For å vise omfanget av digitaliseringa, trekk Skaarn fram ei gamal norsk bok, som sannsynlegvis er digitalisert med hjelp av internettbrukarar, «Norske Huldreeventyr og folkesagn volum 2», trykt i 1848.

– Gammal informasjon er like spanande som ny informasjon. Å finne ut kva som står i gamle bøker er veldig viktig for Google, når me skal gjere all informasjon tilgjengeleg, seier Skaarn.

«Crowdsourcing»

«Crowdsourcing» er eit ordspel på ordet «outsourcing», som tyder å sette ut ei oppgåve til nokon andre. Her blir oppgåva sett ut til veldig mange.

– «Crowdsourcing» er eit fenomen som har oppstått på internett fordi det er så lett å dele eit prosjekt på veldig mange folk. Wikipedia er eit døme på det, seier Hannemyr.

Medan nettleksikonet Wikipedia er avhengig av at folk skriv artiklar for dei, er reCaptcha avhengig av at internettbrukarar løyser slike kodar.

– Det som er litt spesielt her er at ein tek i bruk «crowdsourcing» utan at dei som deltek i prosjektet blir fortalt at dei er med på det. Det er ikkje noko hemmeleg, men ein må oppsøkje informasjonen, avsluttar Hannemyr.

LES OGSÅ:

Kulturstrøm

  • Tre norske er nominert til Nordisk Råds barn- og ungdomslitteraturpris

    Grøssaren «Udyr» av Ingvild Bjerkeland og høgtlesingsboka «Oskar og eg» av Maria Parr og illustratør Åshild Irgens nominert frå Noreg.

    I tillegg er Saia Stueng frå Karasjok nominert for ungdomsromanen «Hamburgerprinseassa – Eallá dušše oktii» i kategorien for det samiske språkområdet.

    Totalt 14 nordiske biletebøker, barnebøker og ungdomsromanar nominerte til Nordisk råds barne- og ungdomslitteraturpris 2024.

    Fleire av dei nominerte tek for seg eksistensielle spørsmål om livet og døden. Eit anna tema som går att er menneska sin relasjon til naturen.

    Vinnaren vert offentleggjort 22. oktober.

    Montasje forfatterportrett Maria Parr og coveret til barneboka Oskar og eg
    Foto: Samlaget/Jula Marie Nagelstad
  • Tungtvann feirer 25-årsjubileum i Operaen

    I år er det 25 år siden Tungvann slapp sin første EP «Reinspikka Hip Hop».

    Det feirer de med å opptre på Operaen i Oslo.

    15. september blir det nemlig nordnorsk rap på menyen i hovedstadens storstue. Kringkastingsorkestret (KORK) blir også med på feiringen.

    I tillegg er hiphop-profiler som Petter, Jaa9 & OnklP, Lars Vaular, Oscar Blesson, Tyr, Grim Pil og Rambow invitert til jubileet.

    – Med den line-upen vi har så lurer jeg på om operaen er stor nok til å huse oss, sier Jørgen Nordeng i en pressemelding.

    – Sånn rent publikumsmessig, understreker han.

    Nordnorske Tungtvann er regnet for å være de første til å lykkes med rap på norsk.

    – Da vi begynte var det for å bevise at det gikk an. Vi følte at det meste vi hadde hørt av norsk rap ikke hørtes ut som hiphop, sier Nordeng.

    Arrangementet er i regi av Bodø2024.

    – Grunnen til at vi ønsker å gjøre det i Oslo, som den eneste produksjonen vi gjennomfører der, er at dette fenomenet funker på norsk takket være nordlendinger. Da gir det mening å ta det til hovedstaden, forteller programsjef Henrik Sand Dagfinrud

    Tungtvann opptrer på operaen 15. september
    Foto: Tarjei Krogh
  • Fleire artistar droppar Eurovision-arrangement

    Artistane Dotter og Titiyo skulle opptredd i Eurovision Village, men har no trekt seg. Det melder NTB.

    Eurovision Village er det offisielle festivalområdet knytt til Eurovision i Sverige. Der skal det vere fleire konsertar og arrangement frå 4. til 11. mai. Fleire av dei som skal opptre har trekt seg frå arrangementa.

    Bookingansvarleg for Titiyo skriv at «logistiske årsaker» er årsaka til at artisten ikkje speler. Dotter har fått fleire oppfordringar til å boikotte Eurovision på Instagram, fordi Israel deltek, skriv NTB.