Vapaatekstihaun tehokkuus ja siihen vaikuttavat tekijät sanomalehtiaineistoa sisältävässä tekstikannassa

Eero Sormunen

Research output: Book/ReportReport

Abstract

Tutkimuksessa selvitettiin kokeellisin menetelmin vapaatekstihaun tehokkuutta ja siihen vaikuttavia tekijöitä suomenkielistä sanomalehtiaineistoa sisältävässä tekstikannassa. Evaluoinnin tavoitteena oli perinteisen tiedonhakujärjestelmän toiminnallisten rajojen kartoittaminen. Tutkimukselle hahmoteltiin teoreettinen viitekehys, jossa vapaatekstihaun tehokkuuteen vaikuttaviksi muuttujiksi nimettiin tekstikannan koko, dokumenttien pituus, hakukysymyksen ominaisuudet ja käytetyt rajaavat operaattorit. Tutkimusta varten rakennettiin kaksi testitekstikantaa. Artikkelikanta sisältää noin 55 000 Aamulehden, Kauppalehden ja Keskisuomalaisen artikkelia, joiden keskipituus on noin 200 sanaa. Tiivistelmäkanta sisältää noin 37 000 uutistiivistelmää Esmerkin tuottamasta NEWS-tietokannasta. Tiivistelmien keskipituus on noin 50 sanaa. Testihakuja varten koottiin 35 testikysymystä, jotka edustivat toimitusympäristössä tavallisia hakutehtävätyyppejä. Tutkimuksessa kehitettiin uusi testausmenetelmä, jonka avulla on mahdollista tuottaa eri testikysymyksistä laaja joukko vaihtoehtoisia hakulausekkeita ja hakea näistä parhaiten toimiva kombinaatio optimointialgoritmia soveltamalla. Suuresta tekstikannasta haettaessa hakutulosten tarkkuus jäi huonommaksi kuin pienestä tekstikannasta haettaessa. Tarkkuus oli huonompi, vaikka optimoidut hakulausekkeet sisälsivät useampia rajauksia. Kun tulosjoukon koolle asetetaan rajoituksia, saantikin jää pienemmäksi suuresta tekstikannasta haettaessa. Samaten artikkeleita sisältävästä tekstikannasta haettaessa tarkkuus jäi huonommaksi kuin tiivistelmähauissa, vaikka artikkelihakujen optimoidut hakulausekkeet sisälsivät enemmän rajauksia. Huonomman tarkkuuden ja saannin syyksi havaittiin ns. saantileikkuri-ilmiö. Suuresta, pitkiä dokumentteja sisältävästä tekstikannasta haettaessa joudutaan tulosjoukon pienentämiseksi lisäämään hakulausekkeeseen usein epäselektiivisiäkin rajauksia. Epäselektiiviset rajaukset eivät paranna tulosten tarkkuutta, mutta alentavat tulosjoukon kokoa ja samalla saantia. Hakukysymysten rakenteelliset ominaisuudet vaikuttavat myös hakujen onnistumisen todennäköisyyteen. Hakukysymykset, jotka sisältävät luonnostaan useita rajaavia käsitteitä, näyttävät onnistuvan paremmin kuin yksinkertaisemmat hakukysymykset. Saantileikkuri ilmenee todennäköisemmin vähän rajaavia käsitteitä sisältävissä hakukysymyksissä, joissa tulosjoukon koon rajoittamistarve pakottaa turvautumaan myös epäselektiivisiin rajauksiin. Tutkimuksessa verrattiin myös perinteistä Boolen JA-operaattoria läheisyysoperaattoreihin. Läheisyysoperaattoreina käytettiin kappale- ja lauseoperaattoria. Artikkeliaineistossa kappaleoperaattori näytti tasapainottavan saannin ja tarkkuuden JA- ja lauseoperaattoria paremmin. Kun tarkasteltiin pelkästään parhaiden artikkelien löytyvyyttä, kappaleoperaattori antoi sekä parhaan tarkkuuden että saannin.
Original languageFinnish
Place of PublicationEspoo
PublisherVTT Technical Research Centre of Finland
Number of pages222
ISBN (Print)951-38-4138-3
Publication statusPublished - 1994
MoE publication typeD4 Published development or research report or study

Publication series

SeriesVTT Julkaisuja - Publikationer
Number790
ISSN1235-0613

Keywords

  • information retrieval
  • full-text databases
  • effectiveness

Cite this

Sormunen, E. (1994). Vapaatekstihaun tehokkuus ja siihen vaikuttavat tekijät sanomalehtiaineistoa sisältävässä tekstikannassa. VTT Technical Research Centre of Finland. VTT Julkaisuja - Publikationer, No. 790