Hopp til innhold

Du digitaliserer bøker for Google

Visste du at dei utydelege og forvrengte orda, som du må tyde når du til dømes skal opprette ei e-postadresse, blir brukt til å digitalisere gamle bøker?

recaptcha bøker

GLOBAL DUGNAD: Google skanner all verdas bøker og treng din hjelp for å digitalisere dei.

Foto: Johannesen, Sara / SCANPIX / Google

– Når millionar av menneske skriv inn desse orda kvar einaste dag over heile internett, så får ein digitalisert veldig mange ord og dermed veldig mange bøker, utan å betale noko som helst for det og utan at dei som gjer det nødvendigvis veit om det, seier universitetslektor ved Institutt for informatikk ved Universitetet i Oslo, Gisle Hannemyr.

Gisle Hannemyr

Gisle Hannemyr er universitetslektor ved Universitetet i Oslo.

Foto: Privat
recaptcha step by step

DIGITALISERING AV GAMLE BØKER: Ordet kjem frå ei bok som blir digitalisert.

Foto: Google

Når du til dømes skal opprette ein e-postkonto får du ein kode som du må tyde for å bevise at du er eit menneske og ikkje ein datamaskin ute etter å gjere ugang.

Kodane heiter CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart), og skal hindre datamaskiner i å sende søppelpost.

Varianten der du får to forvrengte ord å tyde heiter «reCAPTCHA».

Det er dette programmet Google bruker til å tyde skrifta i gamle bøker.

Slik fungerer det

– CAPTCHA går ut på at folk løyser oppgåver som menneske er flinke til, men datamaskiner enno ikkje meistrar. Ei av dei oppgåvene er tekstgjenkjenning, seier Hannemyr.

Google skannar ei stor mengd bøker for å gjere dei tilgjengelege gjennom «Google Bøker». Eit dataprogram tyder bileta av sidene og gjer dei om til tekst.

Men i gamle bøker er bokstavane ofte så utydelege at programmet ikkje klarer å tyde dei. Det er her du kjem inn.

– Det finst datamaskiner som kjenner igjen skrift, OCR («Optical Character Recognition»), men særleg i gamle bøker der blysatsen kanskje har vore litt slite, kjem desse programma til kort. Då må ein nytte menneskeleg arbeidskraft, seier Hannemyr.

(Saka held fram under biletet)

reCaptcha

KJENNER IGJEN TEKST: Eit programm gjer det meste av jobben, men slit med nokre av orda.

Foto: Google

Korleis veit programmet at det du svarar er rett?

– Det veit svaret på det eine ordet. Skriv du dét riktig, går det ut frå at du også har svara riktig på det ukjende ordet, seier Hannemyr.

Fleire internettbrukarar får det same ordet og når mange nok har svara det same, set programmet det inn i teksten. Og du har vore med på å digitalisere ei bok.

75 mil lang bokhylle

Til no har Google digitalisert over 15 millionar bøker på kring 400 forskjellige språk.

Gamal tekst

GAMMAL TEKST: Denne teksten er vanskeleg for ein datamaskin å lese, men eit menneske klarer å tyde det.

Foto: Google

Harald Jacob Skaarn, Google

Harald Jacob B. Skaarn er produktansvarlig hos Google.

Foto: Privat
Viss kvar bok er 5 cm tjukk vil det motsvare ei 75 mil lang bokhylle, seier Harald Jacob B. Skaarn i Google.

Det er ein sjanse for at nettopp du har medverka til dette.

– Eg har ikkje tal på kor mange av bøkene me har brukt «reCAPTCHA» på, det avheng av kvaliteten på teksten, men det er veldig mange, særleig dei eldre bøkene, seier Skaarn.

Gratis arbeidskraft

– Det er ei snedig utnytting av at veldig mange menneske bruker internett dagleg. Ein utnyttar mikroarbeidskrafta ved kvar einaste ordgjenkjenning, seier Hannemyr.

Han ser ingen problem med denne måten å digitalisere bøker på, fordi det er eit biprodukt av ei nyttig teneste, som skal stoppe spam og søppelkommentarar på internett.

– Nokon vil kanskje seie at her utnyttar ein millionar av internettbrukarar sin arbeidskraft gratis, men eg klarar ikkje å hisse meg opp over det. Om ein tek vare på ordet som mennesket kjenner igjen eller ikkje, så er arbeidet ein gjer det same, seier han.

Google kunne ikkje vore forutan den jobben internettbrukarane gjer.

– Men me samlar ikkje inn informasjon om nokon eller brukar det på noko annan måte, seier Skaarn.

Mange veit ikkje

Trass i at «reCAPTCHA» er ein global dugnad som hjelper Google til å digitalisere bøker, veit dei færraste om at dei er med på det.

– Google gjer ingen hemmelegheit ut av det, men ein må klikke på ei lenkje for å komme til sida der heile prosessen blir forklart, seier Hannemyr.

I vindauget som kjem opp, står det med lita skrift: «Stopp spam, les bøker».

Kvifor ikkje fleire veit kva dei er med på, har ikkje Skaarn i Google noko godt svar på.

– Det handlar kanskje om interesse. Det er eit teknisk produkt og mange ting går folk hus forbi. Eg trur mange kjenner igjen reCaptcha når dei ser det, seier han.

Viktig for Google

gamal bok

FRÅ 1848: Eit eksempel på kva reCaptcha kan bli brukt til.

Foto: Google

Det var forskarar ved Carnegie Mellon Universitetet i USA, som fekk den lyse ideen å kombinere menneskeleg teksttyding med sikkerheitsverktøy for internett. I 2009 vart selskapet kjøpt av Google.

For å vise omfanget av digitaliseringa, trekk Skaarn fram ei gamal norsk bok, som sannsynlegvis er digitalisert med hjelp av internettbrukarar, «Norske Huldreeventyr og folkesagn volum 2», trykt i 1848.

– Gammal informasjon er like spanande som ny informasjon. Å finne ut kva som står i gamle bøker er veldig viktig for Google, når me skal gjere all informasjon tilgjengeleg, seier Skaarn.

«Crowdsourcing»

«Crowdsourcing» er eit ordspel på ordet «outsourcing», som tyder å sette ut ei oppgåve til nokon andre. Her blir oppgåva sett ut til veldig mange.

– «Crowdsourcing» er eit fenomen som har oppstått på internett fordi det er så lett å dele eit prosjekt på veldig mange folk. Wikipedia er eit døme på det, seier Hannemyr.

Medan nettleksikonet Wikipedia er avhengig av at folk skriv artiklar for dei, er reCaptcha avhengig av at internettbrukarar løyser slike kodar.

– Det som er litt spesielt her er at ein tek i bruk «crowdsourcing» utan at dei som deltek i prosjektet blir fortalt at dei er med på det. Det er ikkje noko hemmeleg, men ein må oppsøkje informasjonen, avsluttar Hannemyr.

LES OGSÅ:

Kulturstrøm

  • Gustav Klimts siste maleri solgt på auksjon

    Maleriet «Portrait of Miss Lieser» av den østerrikske kunstneren Gustav Klimt ble solgt på auksjon i Wien for 30 millioner euro, som tilsvarer rundt 350 millioner kroner.

    Klimt startet på portrettet i 1917, og det skulle bli hans siste maleri før han døde året etter. Han fikk aldri gjort det helt ferdig.

    Maleriet var savnet i nesten 100 år før det dukket opp på auksjonshuset i Wien tidligere i år, skriver BBC.

    Det har vært flere debatter om hvem kvinnen på bildet er, og hva som skjedde med bilde under 2. verdenskrig.

    Auksjonsleder Michael Kovacek, co-administrerende direktør for Kinsky Auction House taler ved siden av Claudia Moerth-Gasser, Klimt Expert, i begynnelsen av en auksjon for den østerrikske kunstneren Gustav Klimts portrett ble auksjonert ut.
    Foto: Reuters
  • Begravelses-musikal basert på Løvlands sanger.

    I september kommer begravelses-musikalen «You Raise me up» på Lillestrøm kultursenter, i samarbeid med komponist Rolf Løvland, skriver de i en pressemelding.

    Musikalen er en romantisk dramakomedie som utspiller seg i et begravelsesbyrå. Lisa Stokke og Øyvind Boye Løvold spiller hovedrollene.