Taloussanomat
Lue uutinen mobiilisivustolla
Käsitepohjainen hakujärjestelmä

Tekes kehittää älykästä internet-hakukonetta

8.7.2003 15:55 Internetin suurimpien hakukoneiden omistus on keskittynyt Yhdysvaltoihin ja ne toimivat kaupallisilla periaatteilla. Tekesin Fenix - Vuorovaikutteinen tietotekniikka -teknologiaohjelmaan kuuluvassa projektissa kehitetään eurooppalaista, avoimeen lähdekoodiin
perustuvaa hakukonetta.

Teknillisen korkeakoulun ja Helsingin yliopiston yhteisen tietotekniikan tutkimusinstituutin HIIT:in Search-In-a-Box -projektissa lähdetään liikkeelle Internetiä helpommin hallittavissa olevasta tietomassasta. Siinä hakukonetta sovelletaan esimerkiksi yritysten intranetiin tai yhden käyttäjän henkilökohtaisiin sähköposteihin. Projektissa kehitetään intranet-käyttöliittymää ja palvelinta, jonka päälle yritykset voivat rakentaa sisäiseen verkkoonsa oman hakukoneen ja räätälöidä sen omien tarpeidensa mukaan.

- Yrityksillä ja yksittäisillä ihmisillä on koneillaan suuria määriä tietoa, johon ei ole mitään keinoa päästä käsiksi. Koneiden suorituskyvyn kasvaessa tiedon määrä lisääntyy ja tiedonhaun ongelmaan on löydettävä ratkaisu, sanoo tutkimusjohtaja Henry Tirri.

Avainsanahausta käsitehakuun

Tirrin tutkimusryhmän tavoitteena on kehittää hakukone, joka korvaa avainsanoihin perustuvan haun käsitepohjaisella hakujärjestelmällä. Se kuvaa dokumenttien sisältöä ja etsii avainsanoja ja termejä yläkäsitteiden alle. Tirrin mukaan hakukone ei analysoidessaan tekstiä etsi luonnollisen kielen kaltaisia yhtäläisyyksiä vaan todennäköisyyksiä hakujen perustaksi. Silloin esimerkiksi James Bondia ei käsitellä vain henkilönä vaan piirteenä löytää agenttielokuvia.

Hakujärjestelmä huomioi myös hakuhistorian ja käyttäjäkontekstin, oppii niistä ja luo automaattisesti hakijan henkilökohtaisen profiilin. Hakuja voidaan tehdä paitsi sanoilla, myös pitkillä teksteillä.

- Käsitteisiin perustuva haku tunnistaa käsitteiden lisäksi teeman, tyylin ja synonyymit. Visioissa on, että hakukoneella voitaisiin hakea myös kuvia. Voisin ottaa kamerakännykällä kuvan henkilöstä tai paikasta ja pyytää hakukonetta etsimään Internetistä kaikki kuvat kohteesta, visioi Tirri.

Internetistä malli skaalautuvuudelle

Hakukone toimii skaalautuvasti eli sen pyörittämän tietomassan koko kasvaa vähitellen. Aluksi sitä voidaan käyttää vaikkapa Intranetissä, sitten muutamilla www-sivuilla ja lopulta sillä voi olla mahdollista käsitellä koko Internetin tietomassaa.

Avoimeen lähdekoodiin perustuvan hakukoneen ajatuksena on, että Internetin käyttäjät voisivat itse pitää yllä hakupalvelua. Eri hakupalvelut toimisivat yhteydessä toisiinsa ja tukisivat siten toinen toistaan. Hakukoneen tietomassa voisi kasvaa samalla tavalla kuin Internetin tietomassa kasvaa.

- Esimerkiksi Google preferoi dokumentteja, joihin muissa dokumenteissa viitataan usein. Näin vaikkapa yksityisten ihmisten sivut tai heikot signaalit pääsevät vain harvoin listalle. Myös kaupallisuus vaikuttaa. Oikeusjuttujen pelossa hauista voidaan poistaa esimerkiksi tiettyjä tahoja kritisoivat sivut, kertoo Tirri.

Hakukoneet on suosittu tutkimusalue, mutta samassa muodossa kuin HIIT:n projektissa niitä tutkitaan vain vähän. Tirrin tutkimusryhmä kuuluu alan kolmen tunnetuimman joukkoon. Tirrin mukaan projekti on ensimmäinen niin sanottu big science -projekti, joka on noussut tietojenkäsittelytieteen sisältä. Hän arvelee projektin voivan toimia uusien perustutkimushankkeiden ja sovellusten vauhdittajan samaan tapaan kuin hiukkaskiihdytin fysiikassa.

Jutun kirjoitti: Tommi Kalliokoski

Tommi Kalliokoski

Mainitut yritykset

Kirjoita kommentti
Ohjeet: Pysy aiheessa ja kirjoita napakasti. Muista, että haastateltavilla, kanssakeskustelijoilla ja toimittajilla on oikeus omaan, eriävään mielipiteeseen. Ole kohtelias ja ystävällinen, äläkä tarkoituksella provosoi tai hauku muita keskustelijoita. Taloussanomat varaa oikeuden poistaa asiattomat viestit. Varauduthan siihen, että linkkejä sisältävät viestit tarkistetaan yksitellen roskapostin suodattamiseksi. Arvostamme mielipidettäsi!
> Lue koko keskusteluetiketti

Uusimmat uutiset

Digiyesterday

Viisi vuotta sitten

Tulevaisuuden näyttötekniikka imee energiansa auringosta

26.05.2007 Monen laitteen suurin virtasyöppö on näyttö. Nyt näytöt halutaan valjastaa tuottamaan itse oma energiansa.


Kolme vuotta sitten

Twitteristä kehitetään tv-ohjelma

26.05.2009 Tekstiviestejä käyttävä pikaviestipalvelu kelpaa tv-sarjan rakennusaineiksi.

.