Taloussanomat
Lue uutinen mobiilisivustolla
Roskapostibottien eston lisäksi hyötykäyttöä

Recaptcha auttaa tekstin digitalisoimisessa

Recaptchassa optisten merkkientunnistusohjelmien tunnistamattomat sanat annetaan internetin käyttäjille tunnistettavaksi.

18.8.2008 12:44 Yhdysvaltalaisen Carnegie Mellon -yliopiston Recaptcha-projektissa ihmiset toimivat tietokoneen apuna vahingoittuneiden ja haalistuneiden tekstien kääntämiseksi digitaaliseen muotoon. Yli vuoden vanhassa projektissa digitalisoidaan jo neljä miljoonaa sanaa päivittäin.

Recaptcha-projektissa sivustojen kävijät auttavat pienellä panostuksella kääntämään haalistunutta ja vanhaa tekstiä digitaaliseen muotoon suodinohjelman yhteydessä.

Hankkeessa käyttäjät antavat panoksensa kuvavarmennuksen yhteydessä. Recaptcha-ohjelmassa kuvassa esiintyy haalistunutta tai vanhaa tekstiä skannatussa muodossa ja käyttäjä kirjoittaa sen oikeaan muotoon.

Perinteisesti captcha-varmistuksessa käyttäjän täytyy varmistaa ihmisyytensä kirjoittamalla kuvana esitetyt, töhrityt kirjaimet ja numerot web-palveluun. Näin tiedetään, ettei kyseessä ole botti, sillä kuvaan sotketun tekstin kääntäminen takaisin kirjoitukseksi on hyvin hankalaa.

Jo neljä miljoonaa
sanaa päivittäin

– Yhä useammat sivustot ottavat Recaptcha-ohjelman käyttöön päivittäin, joten käännösten määrä jatkaa lisääntymistään. Ohjelman kautta käännetään yli neljä miljoonaa sanaa päivittäin. Se vaatisi yli 1500 ihmistä työskentelemässä 40 tuntia viikossa 60 sanan minuuttivauhdilla, että päästäisiin meidän viikoittaiseen tulokseemme, hankkeen päätutkija Luis von Ahn kertoi sanomalehti Telegraphille projektin tehosta.

Ahnin ryhmä käyttää kahta erilaista optista merkintunnistusohjelmaa skannatakseen vanhoja kirjoja tai sanomalehtiartikkeleita ja muuntavat ne digitaalisiksi tiedostoiksi. Mutta kun ohjelmat ovat eri mieltä sanoista, niin sana lisätään Recaptchan tietokantaan ja sitä käytetään osana suodinohjelman kuvavarmennetta.

Nettisurffaajat
hyötykäytössä

Ahn avusti vuonna 2000 jo ensimmäisen captcha-tunnistuksen kehittämisessä. Recaptchan kantavana ideana on hyödyllisen tehtävän ujuttaminen tavallisten internetin aktiviteettien mukaan.

– Me näytämme, että voimme ottaa ihmisen panostuksen, - ihmisen prosessointivoiman - joka muuten menisi hukkaan, ja ohjata sen tehtäviin joita tietokoneet eivät pysty vielä ratkaisemaan, Ahn kertoi tietotekniikkalehti Wiredille.

Recaptcha on ollut mukana tilinluomisen yhteydessä jo ainakin sosiaalisessa yhteisöpalvelusivusto Facebookissa, ilmoituspalstasivusto Craigstlistissä ja yhdysvaltalaisessa lippupalvelusivusto Ticketmasterissa. Palvelu on ilmainen kaikille sivustoille.

Uutissivusto CNETin mukaan näissä palveluissa on ainakin ollut sanomalehti The New York Timesin arkistojen sisältöä kuvavarmenteina vuodesta 1851 vuoteen 1980.

Recaptchaa on myös ainakin aiemmin käytetty Internet Archiven säilömien kirjojen digitalisointiin.

Jutun kirjoitti: Hannu Nokso-Koivisto

Hannu Nokso-Koivisto

Teksti on lisensoitu Creative Commons Nimeä-Ei muutoksia-Epäkaupallinen -lisenssillä.

Kommentit (6)

Huono 0
Tässähän olisi oiva esimerkki tuon ynnäysälyttömyyden tilalle. Varsinkin, kun tuo kysyms ei vaihdu.
seitsemän
Huono 1
Näin tiedetään, ettei kyseessä ole botti, sillä kuvaan sotketun tekstin kääntäminen takaisin kirjoitukseksi on hyvin hankalaa.

Todellisuudessa se on hyvin helppoa. Tekstistä pitäisi saada sellaista ettei ihminenkään erottaisi siitä kirjaimia, silloin sitä voisi olla hankalaa koneellakaan tunnistaa.

Suurin osa CAPTCHA-teksteistä menee kevyesti läpi ilmaisista tekstin tunnistukseen kehitetyistä työkaluista.
Koodari
Huono 1
- Me näytämme, että voimme ottaa ihmisen panostuksen, - ihmisen prosessointivoiman - joka muuten menisi hukkaan

Eli toisin sanoen, nörttejä tietokoneen ääressä pelaamassa CS:ää :D
DC
Huono 1
"30.5.2007 klo 13:51 Carnegie Mellonin yliopistossa on kehitetty uusi, nokkela versio web-palveluissa käyttäjän ihmisyyden selvittävästä captcha-varmistajasta. Yliopiston Recaptcha toimii samalla myös vanhojen kirjojen digitoijana. Työn tekevät ihmiset sana kerrallaan."

Jaa, että yli vuoden vanha juttu uusintana?

http://www.digitoday.fi/tietoturva/2007/05/30/palvelu-varmistaa-ihmisyyden-vanhoilla-kirjoilla/200713293/66
P33l0
Huono 1
Ahaa. Siis se on tämä juttu joka on jokaisella waresivustolla rekisteröinnin/loggauksen yhteydessä. Selkis.
on joo
Sivut: 1 Edellinen Seuraava
Kirjoita vastaus
Ohjeet: Pysy aiheessa ja kirjoita napakasti. Muista, että haastateltavilla, kanssakeskustelijoilla ja toimittajilla on oikeus omaan, eriävään mielipiteeseen. Ole kohtelias ja ystävällinen, äläkä tarkoituksella provosoi tai hauku muita keskustelijoita. Taloussanomat varaa oikeuden poistaa asiattomat viestit. Varauduthan siihen, että linkkejä sisältävät viestit tarkistetaan yksitellen roskapostin suodattamiseksi. Arvostamme mielipidettäsi!
> Lue koko keskusteluetiketti

Uusimmat uutiset

Digiyesterday

Viisi vuotta sitten

Tulevaisuuden näyttötekniikka imee energiansa auringosta

26.05.2007 Monen laitteen suurin virtasyöppö on näyttö. Nyt näytöt halutaan valjastaa tuottamaan itse oma energiansa.


Kolme vuotta sitten

ISS Palvelut pystytti ideankeruumyllyn nettiin

26.05.2009 ISS Palveluissa on lähdetty panostamaan henkilökunnan ideoihin ja niiden jatkojalostamiseen. Ensimmäisenä tavoitteena on hankkia nettiohjelmiston avulla vinkkejä lisäpalvelujen myyntiin.

.