Taloussanomat
Lue uutinen mobiilisivustolla
Kirjojen digitoinnissa auttava captcha-toteutus

Palvelu varmistaa ihmisyyden vanhoilla kirjoilla

Recaptcha käytännössä.

30.5.2007 13:51 Carnegie Mellonin yliopistossa on kehitetty uusi, nokkela versio web-palveluissa käyttäjän ihmisyyden selvittävästä captcha-varmistajasta. Yliopiston Recaptcha toimii samalla myös vanhojen kirjojen digitoijana. Työn tekevät ihmiset sana kerrallaan.

Captcha-varmistajiin ovat todennäköisesti kaikki nettisurfailijat törmänneet. Niiden avulla web-palvelut varmistavat, että onko esimerkiksi foorumiin kirjoittava käyttäjä botti vai ihminen. Botteja kun yleensä tavataan käyttää muun muassa foorumeihin ja wikeihin roskapostittamiseen.

Captchassa käyttäjän täytyy varmistaa ihmisyytensä kirjoittamalla kuvana esitetyt, töhrityt kirjaimet ja numerot web-palveluun. Näin tiedetään, ettei kyseessä ole botti, sillä kuvaan sotketun tekstin kääntäminen takaisin kirjoitukseksi on hyvin hankalaa.

Ilmaiset 150 tuhatta työtuntia päivässä

Carnegie Mellonin yliopiston järkeilyn mukaan oikeat ihmiset ratkovat captcha-varmistuksia kuutisenkymmentä miljoonaa kertaa joka päivä. Keskimäärin ihmiseltä kuluu kymmenisen sekuntia captchan ymmärtämiseen ja syöttämiseen. Yliopiston laskelmien mukaan tämä tarjoaisi 150 tuhatta työtuntia joka päivä.

Yliopiston Recaptcha-projektin avulla captchoihin käytetty työaika voidaan valjastaa hyötykäyttöön, nimittäin vanhojen kirjojen digitoimiseen.

Digitointia varten vanhat kirjat kuvannetaan ja sen jälkeen niitä yritetään muuntaa normaaliksi tietokonetekstiksi ocr (optical character recognition) -ohjelmistojen avulla. Monesti vanhoissa kirjoissa laatu ei riitä tasaisesti ohjelmistoille.

Tällöin työhön tarvitaan ihmisiä, jotka kertovat tietokoneelle, mitä tekstissä lukee. Recaptcha-projektin avulla tämä työ tehostuu ja automatisoituu, sillä toimea varten ei tarvitse palkata erillistä henkilökuntaa, vaan nettikäyttäjät hoitavat sen kaiken muun ohella.

Recaptcha lähettää sanat, joita sen ocr ei tunnista captcha-lomakkeisiin, jotka käyttäjät sitten ratkovat.

Laajennuksilla kenen tahansa käyttöön

Recaptchasta on tarjolla valmiit lisälaajennustoteutukset muun muassa Wordpressille, Wikipediaa pyörittävälle Mediawikille ja Phpbb-foorumiohjelmistolle. Lisäksi webissä suosituille PHP-, Python-, Perl- ja Ruby-ohjelmointialustoille on tarjolla omat laajennuspalikat.

Tällä hetkellä Recaptcha tekee töitä Internet Archiven säilömien kirjojen digitoimiseksi.

Jutun kirjoitti: Matias Mäki

Matias Mäki

Kirjoita kommentti
Ohjeet: Pysy aiheessa ja kirjoita napakasti. Muista, että haastateltavilla, kanssakeskustelijoilla ja toimittajilla on oikeus omaan, eriävään mielipiteeseen. Ole kohtelias ja ystävällinen, äläkä tarkoituksella provosoi tai hauku muita keskustelijoita. Taloussanomat varaa oikeuden poistaa asiattomat viestit. Varauduthan siihen, että linkkejä sisältävät viestit tarkistetaan yksitellen roskapostin suodattamiseksi. Arvostamme mielipidettäsi!
> Lue koko keskusteluetiketti

Uusimmat uutiset

Digiyesterday


Kolme vuotta sitten

Madonnan konsertin lippuhässäkästä voi vaatia hyvitystä

11.02.2009 Kuluttajavirasto kertoo, että se on saanut yhteydenottoja Madonnan konserttilippujen myynnin ongelmista. Viraston mukaan yksi tapa edetä on tehdä kirjallinen valitus Lippupiste Oy:lle.

.