Hopp til innhold

Du digitaliserer bøker for Google

Visste du at dei utydelege og forvrengte orda, som du må tyde når du til dømes skal opprette ei e-postadresse, blir brukt til å digitalisere gamle bøker?

recaptcha bøker

GLOBAL DUGNAD: Google skanner all verdas bøker og treng din hjelp for å digitalisere dei.

Foto: Johannesen, Sara / SCANPIX / Google

– Når millionar av menneske skriv inn desse orda kvar einaste dag over heile internett, så får ein digitalisert veldig mange ord og dermed veldig mange bøker, utan å betale noko som helst for det og utan at dei som gjer det nødvendigvis veit om det, seier universitetslektor ved Institutt for informatikk ved Universitetet i Oslo, Gisle Hannemyr.

Gisle Hannemyr

Gisle Hannemyr er universitetslektor ved Universitetet i Oslo.

Foto: Privat
recaptcha step by step

DIGITALISERING AV GAMLE BØKER: Ordet kjem frå ei bok som blir digitalisert.

Foto: Google

Når du til dømes skal opprette ein e-postkonto får du ein kode som du må tyde for å bevise at du er eit menneske og ikkje ein datamaskin ute etter å gjere ugang.

Kodane heiter CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart), og skal hindre datamaskiner i å sende søppelpost.

Varianten der du får to forvrengte ord å tyde heiter «reCAPTCHA».

Det er dette programmet Google bruker til å tyde skrifta i gamle bøker.

Slik fungerer det

– CAPTCHA går ut på at folk løyser oppgåver som menneske er flinke til, men datamaskiner enno ikkje meistrar. Ei av dei oppgåvene er tekstgjenkjenning, seier Hannemyr.

Google skannar ei stor mengd bøker for å gjere dei tilgjengelege gjennom «Google Bøker». Eit dataprogram tyder bileta av sidene og gjer dei om til tekst.

Men i gamle bøker er bokstavane ofte så utydelege at programmet ikkje klarer å tyde dei. Det er her du kjem inn.

– Det finst datamaskiner som kjenner igjen skrift, OCR («Optical Character Recognition»), men særleg i gamle bøker der blysatsen kanskje har vore litt slite, kjem desse programma til kort. Då må ein nytte menneskeleg arbeidskraft, seier Hannemyr.

(Saka held fram under biletet)

reCaptcha

KJENNER IGJEN TEKST: Eit programm gjer det meste av jobben, men slit med nokre av orda.

Foto: Google

Korleis veit programmet at det du svarar er rett?

– Det veit svaret på det eine ordet. Skriv du dét riktig, går det ut frå at du også har svara riktig på det ukjende ordet, seier Hannemyr.

Fleire internettbrukarar får det same ordet og når mange nok har svara det same, set programmet det inn i teksten. Og du har vore med på å digitalisere ei bok.

75 mil lang bokhylle

Til no har Google digitalisert over 15 millionar bøker på kring 400 forskjellige språk.

Gamal tekst

GAMMAL TEKST: Denne teksten er vanskeleg for ein datamaskin å lese, men eit menneske klarer å tyde det.

Foto: Google

Harald Jacob Skaarn, Google

Harald Jacob B. Skaarn er produktansvarlig hos Google.

Foto: Privat
Viss kvar bok er 5 cm tjukk vil det motsvare ei 75 mil lang bokhylle, seier Harald Jacob B. Skaarn i Google.

Det er ein sjanse for at nettopp du har medverka til dette.

– Eg har ikkje tal på kor mange av bøkene me har brukt «reCAPTCHA» på, det avheng av kvaliteten på teksten, men det er veldig mange, særleig dei eldre bøkene, seier Skaarn.

Gratis arbeidskraft

– Det er ei snedig utnytting av at veldig mange menneske bruker internett dagleg. Ein utnyttar mikroarbeidskrafta ved kvar einaste ordgjenkjenning, seier Hannemyr.

Han ser ingen problem med denne måten å digitalisere bøker på, fordi det er eit biprodukt av ei nyttig teneste, som skal stoppe spam og søppelkommentarar på internett.

– Nokon vil kanskje seie at her utnyttar ein millionar av internettbrukarar sin arbeidskraft gratis, men eg klarar ikkje å hisse meg opp over det. Om ein tek vare på ordet som mennesket kjenner igjen eller ikkje, så er arbeidet ein gjer det same, seier han.

Google kunne ikkje vore forutan den jobben internettbrukarane gjer.

– Men me samlar ikkje inn informasjon om nokon eller brukar det på noko annan måte, seier Skaarn.

Mange veit ikkje

Trass i at «reCAPTCHA» er ein global dugnad som hjelper Google til å digitalisere bøker, veit dei færraste om at dei er med på det.

– Google gjer ingen hemmelegheit ut av det, men ein må klikke på ei lenkje for å komme til sida der heile prosessen blir forklart, seier Hannemyr.

I vindauget som kjem opp, står det med lita skrift: «Stopp spam, les bøker».

Kvifor ikkje fleire veit kva dei er med på, har ikkje Skaarn i Google noko godt svar på.

– Det handlar kanskje om interesse. Det er eit teknisk produkt og mange ting går folk hus forbi. Eg trur mange kjenner igjen reCaptcha når dei ser det, seier han.

Viktig for Google

gamal bok

FRÅ 1848: Eit eksempel på kva reCaptcha kan bli brukt til.

Foto: Google

Det var forskarar ved Carnegie Mellon Universitetet i USA, som fekk den lyse ideen å kombinere menneskeleg teksttyding med sikkerheitsverktøy for internett. I 2009 vart selskapet kjøpt av Google.

For å vise omfanget av digitaliseringa, trekk Skaarn fram ei gamal norsk bok, som sannsynlegvis er digitalisert med hjelp av internettbrukarar, «Norske Huldreeventyr og folkesagn volum 2», trykt i 1848.

– Gammal informasjon er like spanande som ny informasjon. Å finne ut kva som står i gamle bøker er veldig viktig for Google, når me skal gjere all informasjon tilgjengeleg, seier Skaarn.

«Crowdsourcing»

«Crowdsourcing» er eit ordspel på ordet «outsourcing», som tyder å sette ut ei oppgåve til nokon andre. Her blir oppgåva sett ut til veldig mange.

– «Crowdsourcing» er eit fenomen som har oppstått på internett fordi det er så lett å dele eit prosjekt på veldig mange folk. Wikipedia er eit døme på det, seier Hannemyr.

Medan nettleksikonet Wikipedia er avhengig av at folk skriv artiklar for dei, er reCaptcha avhengig av at internettbrukarar løyser slike kodar.

– Det som er litt spesielt her er at ein tek i bruk «crowdsourcing» utan at dei som deltek i prosjektet blir fortalt at dei er med på det. Det er ikkje noko hemmeleg, men ein må oppsøkje informasjonen, avsluttar Hannemyr.

LES OGSÅ:

Kulturstrøm

  • Kirken: En grusom hendelse midt i Pride-feiringen

    Kirken slår ring om Pride-feiringen, kjærlighet og mangfold etter masseskytingen i Oslo sentrum.

    – Vi våkner til skrekk-meldingen om skudd, drepte og sårede på London pub. Dette burde vært utenkelig. Det er det ikke, skriver kirkerådsleder Kristin Gunleiksrud Raaum på Facebook.

    Raaum beskriver angrepet som en sterk kontrast til feiringen av kjærlighet og mangfold, som hun deltok i fredag.

    Preses i Den norske kirke Olav Fykse Tveit skriver at han tenker og ber for alle som er rammet.

    – Grusomme hendelser med skyting, drap og alvorlige skader i Oslo sentrum i natt, midt i Pride-feiringen der mange er ute for å feire livet og kjærligheten, skriver han.

    (NTB)

  • Bent Høie: – Flagget kan vi heise i solidaritet med de som er rammet direkte

    – I dag kan ikke paraden gjennomføres for å feire og kjempe. Det er ikke trygt i følge politiet. Flagget kan vi heise i solidaritet med de som er rammet direkte og for å vise at kjærligheten alltid vil vinne, skriver Bent Høie på Facebook.

  • Ny mentor i «The Voice»

    Artisten Jarle Bernhoft tar over som mentor i den kommende sesongen av «The Voice», melder TV2.

    Mandag denne uken ble det kjent at den folkekjære artisten og mentoren Matoma, er ferdig i The Voice.

    Hans arvtager Jarle Bernhoft sier han gleder seg til den nye jobben. – Jeg klarer nok ikke å fylle tårekvoten hans, men jeg må finne mine egne sko, sier Bernhoft.

Flere kulturnyheter