Recaptcha auttaa tekstin digitalisoimisessa

Recaptchassa optisten merkkientunnistusohjelmien tunnistamattomat sanat annetaan internetin käyttäjille tunnistettavaksi.
18.8.2008 12:44 Yhdysvaltalaisen Carnegie Mellon -yliopiston Recaptcha-projektissa ihmiset toimivat tietokoneen apuna vahingoittuneiden ja haalistuneiden tekstien kääntämiseksi digitaaliseen muotoon. Yli vuoden vanhassa projektissa digitalisoidaan jo neljä miljoonaa sanaa päivittäin.
Recaptcha-projektissa sivustojen kävijät auttavat pienellä panostuksella kääntämään haalistunutta ja vanhaa tekstiä digitaaliseen muotoon suodinohjelman yhteydessä.
Hankkeessa käyttäjät antavat panoksensa kuvavarmennuksen yhteydessä. Recaptcha-ohjelmassa kuvassa esiintyy haalistunutta tai vanhaa tekstiä skannatussa muodossa ja käyttäjä kirjoittaa sen oikeaan muotoon.
Perinteisesti captcha-varmistuksessa käyttäjän täytyy varmistaa ihmisyytensä kirjoittamalla kuvana esitetyt, töhrityt kirjaimet ja numerot web-palveluun. Näin tiedetään, ettei kyseessä ole botti, sillä kuvaan sotketun tekstin kääntäminen takaisin kirjoitukseksi on hyvin hankalaa.
Jo neljä miljoonaa
sanaa päivittäin
– Yhä useammat sivustot ottavat Recaptcha-ohjelman käyttöön päivittäin, joten käännösten määrä jatkaa lisääntymistään. Ohjelman kautta käännetään yli neljä miljoonaa sanaa päivittäin. Se vaatisi yli 1500 ihmistä työskentelemässä 40 tuntia viikossa 60 sanan minuuttivauhdilla, että päästäisiin meidän viikoittaiseen tulokseemme, hankkeen päätutkija Luis von Ahn kertoi sanomalehti Telegraphille projektin tehosta.
Ahnin ryhmä käyttää kahta erilaista optista merkintunnistusohjelmaa skannatakseen vanhoja kirjoja tai sanomalehtiartikkeleita ja muuntavat ne digitaalisiksi tiedostoiksi. Mutta kun ohjelmat ovat eri mieltä sanoista, niin sana lisätään Recaptchan tietokantaan ja sitä käytetään osana suodinohjelman kuvavarmennetta.
Nettisurffaajat
hyötykäytössä
Ahn avusti vuonna 2000 jo ensimmäisen captcha-tunnistuksen kehittämisessä. Recaptchan kantavana ideana on hyödyllisen tehtävän ujuttaminen tavallisten internetin aktiviteettien mukaan.
– Me näytämme, että voimme ottaa ihmisen panostuksen, - ihmisen prosessointivoiman - joka muuten menisi hukkaan, ja ohjata sen tehtäviin joita tietokoneet eivät pysty vielä ratkaisemaan, Ahn kertoi tietotekniikkalehti Wiredille.
Recaptcha on ollut mukana tilinluomisen yhteydessä jo ainakin sosiaalisessa yhteisöpalvelusivusto Facebookissa, ilmoituspalstasivusto Craigstlistissä ja yhdysvaltalaisessa lippupalvelusivusto Ticketmasterissa. Palvelu on ilmainen kaikille sivustoille.
Uutissivusto CNETin mukaan näissä palveluissa on ainakin ollut sanomalehti The New York Timesin arkistojen sisältöä kuvavarmenteina vuodesta 1851 vuoteen 1980.
Recaptchaa on myös ainakin aiemmin käytetty Internet Archiven säilömien kirjojen digitalisointiin.
- Digitodayn tuoreimmat uutiset.
- 25.5. Robottikäsivarsi hinasi Dragonin asemalle
- 25.5. Googlen Android-kauppa sai uusia rahastuskeinoja
- 25.5. Zuckerberg unohti sulhasen ohjeen - antoi 20 000 euron vihkisormuksen
- 25.5. Diablo III:n julkaisija hekumoi myyntiä ja pahoittelee bugeja
- 25.5. Lumialla voi katsella videoklippejä
- 25.5. Applen Cook kieltäytyy optioiden osingoista
- 25.5. ZTE toimittaa suomalaisella 3d-tekniikalla tehtyjä Android-puhelimia
- 25.5. Tämä käkikello muni Pebblen Kickstarter- pesään
- 25.5. Facebook Camera ottaa ja jakaa kuvia iPhonessa
- 24.5. IPhoneen uusi alihankkija
- 24.5. IBM pitää iPhonen Siriä tietoturvariskinä
- 24.5. Yle siirtää seuraavaksi Pasilan teräväpiirtoon
- 24.5. Nokia luopuu isosta massatapahtumasta
- 24.5. Huhu: Symbianiin ei enää päivityksiä
- 24.5. Blackberryn joukot harvenevat
- 24.5. Adoben flash saa saattohoitoa Windows 8:ssa
- 24.5. HP irtisanoo ja palaa taulutietokoneisiin
- 24.5. Motorola Mobilityn johdossa on nyt myyntimies
- 23.5. Oracle hävisi Googlelle taas: Ei patenttirikettä
- 23.5. Apple ja Samsung epäonnistuivat neuvotteluissa
- Uusimmat
- 48h luetuimmat kaikista uutisista.
- 23.5. Nykyinen televisiosi simahtaa vuonna 2026
- 24.5. Huhu: Symbianiin ei enää päivityksiä
- 23.5. Nokia pettyi - halpa-Lumian muisti ei riitä Skypeen
- 23.5. Nokia julkaisi uusia ”luksuskarkkeja”
- 25.5. Zuckerberg unohti sulhasen ohjeen - antoi 20 000 euron vihkisormuksen
- 23.5. Taulukko paljastaa – Nokialla ongelmia superhalvoissa ja huippupuhelimissa Kiinassa
- 23.5. Googlen Larry Page: Facebook pitää käyttäjiä panttivankeina
- 25.5. Lumialla voi katsella videoklippejä
- 23.5. Kodakin ”ilmiselvän” patentointi ei kelpaa
- 23.5. Sony avaa perjantaina Spotify-kilpailijan iPhoneen
- Luetuimmat
- 48h suositelluimmat kaikista uutisista.
- 23.5. Kodakin ”ilmiselvän” patentointi ei kelpaa
- 23.5. Amerikkalaiset kaapelioperaattorit yhdistävät wlan-palvelunsa
- Suositelluimmat
- 48h kommentoiduimmat kaikista uutisista.
- 23.5. Nokia pettyi - halpa-Lumian muisti ei riitä Skypeen
- 23.5. Nykyinen televisiosi simahtaa vuonna 2026
- 24.5. Huhu: Symbianiin ei enää päivityksiä
- 25.5. Lumialla voi katsella videoklippejä
- 23.5. Taulukko paljastaa – Nokialla ongelmia superhalvoissa ja huippupuhelimissa Kiinassa
- 25.5. ZTE toimittaa suomalaisella 3d-tekniikalla tehtyjä Android-puhelimia
- 24.5. IBM pitää iPhonen Siriä tietoturvariskinä
- 25.5. Applen Cook kieltäytyy optioiden osingoista
- 24.5. IPhoneen uusi alihankkija
- 24.5. Nokia luopuu isosta massatapahtumasta
- Kommentoiduimmat
Uutisviikko
Mitä viikolla on tapahtunut, mikä puhuttanut eniten? Koko viikon uutiset.
Palautetta?
Lähetä risut, ruusut ja uutisvinkit toimitukselle.
Uusimmat uutiset
- ZTE toimittaa suomalaisella 3d-tekniikalla tehtyjä Android-puhelimia 08:36
- Adoben flash saa saattohoitoa Windows 8:ssa 09:17
- HP irtisanoo ja palaa taulutietokoneisiin 07:19
- Nykyinen televisiosi simahtaa vuonna 2026 10:32
- Amerikkalaiset kaapelioperaattorit yhdistävät wlan-palvelunsa 08:59
- Apple, Microsoft, Ericsson perustivat patenttitrollin 09:59
- Chrome nousi maailman selainjohtajaksi 08:58
- Ballmer lupaa myydä 350 miljoonaa Windows 7-laitetta 07:01
- Lisää
Poiminnat
Digiyesterday
Viisi vuotta sitten
Tulevaisuuden näyttötekniikka imee energiansa auringosta
26.05.2007 Monen laitteen suurin virtasyöppö on näyttö. Nyt näytöt halutaan valjastaa tuottamaan itse oma energiansa.
Kolme vuotta sitten
ISS Palvelut pystytti ideankeruumyllyn nettiin
26.05.2009 ISS Palveluissa on lähdetty panostamaan henkilökunnan ideoihin ja niiden jatkojalostamiseen. Ensimmäisenä tavoitteena on hankkia nettiohjelmiston avulla vinkkejä lisäpalvelujen myyntiin.
Taloussanomat
- Suomi löysi taas Nokian älypuhelimet 06:01
- Autonvuokrauksessa hurjat eurohintaerot 06:09
- HS: Palkkakuilu levenee kovaa vauhtia 09:43
- Lumia 900:n myynti alkoi: "Näyttää erittäin lupaavalta" 06:03
- Oikeus päätti: Tekstarin lähettäjä syytön onnettomuuteen 10:13
- Kevään epämukavin pikku-Fiat 06:15
- Vain yksi pankki lellii asuntovelkaista korkokikkailijaa 06:01
- Taloussanomilta KHO-valitus VM:n vakuuspäätöksestä 12:58
- Kreikan rikkaat pitävät matalaa profiilia kriisin keskellä 21:02
- FT: Espanjan valtio pelastaa Bankian 20:02
- » Taloussanomat.fi












Kommentit (6)
Todellisuudessa se on hyvin helppoa. Tekstistä pitäisi saada sellaista ettei ihminenkään erottaisi siitä kirjaimia, silloin sitä voisi olla hankalaa koneellakaan tunnistaa.
Suurin osa CAPTCHA-teksteistä menee kevyesti läpi ilmaisista tekstin tunnistukseen kehitetyistä työkaluista.
Eli toisin sanoen, nörttejä tietokoneen ääressä pelaamassa CS:ää :D
Jaa, että yli vuoden vanha juttu uusintana?
http://www.digitoday.fi/tietoturva/2007/05/30/palvelu-varmistaa-ihmisyyden-vanhoilla-kirjoilla/200713293/66
http://video.google.com/videoplay?docid=-8246463980976635143