– Når millionar av menneske skriv inn desse orda kvar einaste dag over heile internett, så får ein digitalisert veldig mange ord og dermed veldig mange bøker, utan å betale noko som helst for det og utan at dei som gjer det nødvendigvis veit om det, seier universitetslektor ved Institutt for informatikk ved Universitetet i Oslo, Gisle Hannemyr.
Når du til dømes skal opprette ein e-postkonto får du ein kode som du må tyde for å bevise at du er eit menneske og ikkje ein datamaskin ute etter å gjere ugang.
Kodane heiter CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart), og skal hindre datamaskiner i å sende søppelpost.
Varianten der du får to forvrengte ord å tyde heiter «reCAPTCHA».
Det er dette programmet Google bruker til å tyde skrifta i gamle bøker.
Slik fungerer det
– CAPTCHA går ut på at folk løyser oppgåver som menneske er flinke til, men datamaskiner enno ikkje meistrar. Ei av dei oppgåvene er tekstgjenkjenning, seier Hannemyr.
Google skannar ei stor mengd bøker for å gjere dei tilgjengelege gjennom «Google Bøker». Eit dataprogram tyder bileta av sidene og gjer dei om til tekst.
Men i gamle bøker er bokstavane ofte så utydelege at programmet ikkje klarer å tyde dei. Det er her du kjem inn.
– Det finst datamaskiner som kjenner igjen skrift, OCR («Optical Character Recognition»), men særleg i gamle bøker der blysatsen kanskje har vore litt slite, kjem desse programma til kort. Då må ein nytte menneskeleg arbeidskraft, seier Hannemyr.
(Saka held fram under biletet)
Korleis veit programmet at det du svarar er rett?
– Det veit svaret på det eine ordet. Skriv du dét riktig, går det ut frå at du også har svara riktig på det ukjende ordet, seier Hannemyr.
Fleire internettbrukarar får det same ordet og når mange nok har svara det same, set programmet det inn i teksten. Og du har vore med på å digitalisere ei bok.
75 mil lang bokhylle
Til no har Google digitalisert over 15 millionar bøker på kring 400 forskjellige språk.
Det er ein sjanse for at nettopp du har medverka til dette.
– Eg har ikkje tal på kor mange av bøkene me har brukt «reCAPTCHA» på, det avheng av kvaliteten på teksten, men det er veldig mange, særleig dei eldre bøkene, seier Skaarn.
- LES OGSÅ:
Gratis arbeidskraft
– Det er ei snedig utnytting av at veldig mange menneske bruker internett dagleg. Ein utnyttar mikroarbeidskrafta ved kvar einaste ordgjenkjenning, seier Hannemyr.
Han ser ingen problem med denne måten å digitalisere bøker på, fordi det er eit biprodukt av ei nyttig teneste, som skal stoppe spam og søppelkommentarar på internett.
– Nokon vil kanskje seie at her utnyttar ein millionar av internettbrukarar sin arbeidskraft gratis, men eg klarar ikkje å hisse meg opp over det. Om ein tek vare på ordet som mennesket kjenner igjen eller ikkje, så er arbeidet ein gjer det same, seier han.
Google kunne ikkje vore forutan den jobben internettbrukarane gjer.
– Men me samlar ikkje inn informasjon om nokon eller brukar det på noko annan måte, seier Skaarn.
- LES OGSÅ:
Mange veit ikkje
Trass i at «reCAPTCHA» er ein global dugnad som hjelper Google til å digitalisere bøker, veit dei færraste om at dei er med på det.
– Google gjer ingen hemmelegheit ut av det, men ein må klikke på ei lenkje for å komme til sida der heile prosessen blir forklart, seier Hannemyr.
I vindauget som kjem opp, står det med lita skrift: «Stopp spam, les bøker».
Kvifor ikkje fleire veit kva dei er med på, har ikkje Skaarn i Google noko godt svar på.
– Det handlar kanskje om interesse. Det er eit teknisk produkt og mange ting går folk hus forbi. Eg trur mange kjenner igjen reCaptcha når dei ser det, seier han.
Viktig for Google
Det var forskarar ved Carnegie Mellon Universitetet i USA, som fekk den lyse ideen å kombinere menneskeleg teksttyding med sikkerheitsverktøy for internett. I 2009 vart selskapet kjøpt av Google.
For å vise omfanget av digitaliseringa, trekk Skaarn fram ei gamal norsk bok, som sannsynlegvis er digitalisert med hjelp av internettbrukarar, «Norske Huldreeventyr og folkesagn volum 2», trykt i 1848.
– Gammal informasjon er like spanande som ny informasjon. Å finne ut kva som står i gamle bøker er veldig viktig for Google, når me skal gjere all informasjon tilgjengeleg, seier Skaarn.
«Crowdsourcing»
«Crowdsourcing» er eit ordspel på ordet «outsourcing», som tyder å sette ut ei oppgåve til nokon andre. Her blir oppgåva sett ut til veldig mange.
– «Crowdsourcing» er eit fenomen som har oppstått på internett fordi det er så lett å dele eit prosjekt på veldig mange folk. Wikipedia er eit døme på det, seier Hannemyr.
- LES OGSÅ:
Medan nettleksikonet Wikipedia er avhengig av at folk skriv artiklar for dei, er reCaptcha avhengig av at internettbrukarar løyser slike kodar.
– Det som er litt spesielt her er at ein tek i bruk «crowdsourcing» utan at dei som deltek i prosjektet blir fortalt at dei er med på det. Det er ikkje noko hemmeleg, men ein må oppsøkje informasjonen, avsluttar Hannemyr.
LES OGSÅ: