TY - BOOK
T1 - Vapaatekstihaun tehokkuus ja siihen vaikuttavat tekijät sanomalehtiaineistoa sisältävässä tekstikannassa
AU - Sormunen, Eero
PY - 1994
Y1 - 1994
N2 - Tutkimuksessa selvitettiin kokeellisin menetelmin
vapaatekstihaun tehokkuutta
ja siihen vaikuttavia tekijöitä suomenkielistä
sanomalehtiaineistoa
sisältävässä tekstikannassa. Evaluoinnin tavoitteena oli
perinteisen
tiedonhakujärjestelmän toiminnallisten rajojen
kartoittaminen. Tutkimukselle
hahmoteltiin teoreettinen viitekehys, jossa
vapaatekstihaun tehokkuuteen
vaikuttaviksi muuttujiksi nimettiin tekstikannan koko,
dokumenttien pituus,
hakukysymyksen ominaisuudet ja käytetyt rajaavat
operaattorit.
Tutkimusta varten rakennettiin kaksi testitekstikantaa.
Artikkelikanta sisältää
noin 55 000 Aamulehden, Kauppalehden ja Keskisuomalaisen
artikkelia, joiden
keskipituus on noin 200 sanaa. Tiivistelmäkanta sisältää
noin 37 000
uutistiivistelmää Esmerkin tuottamasta
NEWS-tietokannasta. Tiivistelmien
keskipituus on noin 50 sanaa. Testihakuja varten koottiin
35 testikysymystä,
jotka edustivat toimitusympäristössä tavallisia
hakutehtävätyyppejä.
Tutkimuksessa kehitettiin uusi testausmenetelmä, jonka
avulla on mahdollista
tuottaa eri testikysymyksistä laaja joukko vaihtoehtoisia
hakulausekkeita ja
hakea näistä parhaiten toimiva kombinaatio
optimointialgoritmia soveltamalla.
Suuresta tekstikannasta haettaessa hakutulosten tarkkuus
jäi huonommaksi kuin
pienestä tekstikannasta haettaessa. Tarkkuus oli
huonompi, vaikka optimoidut
hakulausekkeet sisälsivät useampia rajauksia. Kun
tulosjoukon koolle asetetaan
rajoituksia, saantikin jää pienemmäksi suuresta
tekstikannasta haettaessa.
Samaten artikkeleita sisältävästä tekstikannasta
haettaessa tarkkuus jäi
huonommaksi kuin tiivistelmähauissa, vaikka
artikkelihakujen optimoidut
hakulausekkeet sisälsivät enemmän rajauksia. Huonomman
tarkkuuden ja saannin
syyksi havaittiin ns. saantileikkuri-ilmiö. Suuresta,
pitkiä dokumentteja
sisältävästä tekstikannasta haettaessa joudutaan
tulosjoukon pienentämiseksi
lisäämään hakulausekkeeseen usein epäselektiivisiäkin
rajauksia.
Epäselektiiviset rajaukset eivät paranna tulosten
tarkkuutta, mutta alentavat
tulosjoukon kokoa ja samalla saantia.
Hakukysymysten rakenteelliset ominaisuudet vaikuttavat
myös hakujen
onnistumisen todennäköisyyteen. Hakukysymykset, jotka
sisältävät luonnostaan
useita rajaavia käsitteitä, näyttävät onnistuvan paremmin
kuin
yksinkertaisemmat hakukysymykset. Saantileikkuri ilmenee
todennäköisemmin vähän
rajaavia käsitteitä sisältävissä hakukysymyksissä, joissa
tulosjoukon koon
rajoittamistarve pakottaa turvautumaan myös
epäselektiivisiin rajauksiin.
Tutkimuksessa verrattiin myös perinteistä Boolen
JA-operaattoria
läheisyysoperaattoreihin. Läheisyysoperaattoreina
käytettiin kappale- ja
lauseoperaattoria. Artikkeliaineistossa
kappaleoperaattori näytti
tasapainottavan saannin ja tarkkuuden JA- ja
lauseoperaattoria paremmin. Kun
tarkasteltiin pelkästään parhaiden artikkelien
löytyvyyttä, kappaleoperaattori
antoi sekä parhaan tarkkuuden että saannin.
AB - Tutkimuksessa selvitettiin kokeellisin menetelmin
vapaatekstihaun tehokkuutta
ja siihen vaikuttavia tekijöitä suomenkielistä
sanomalehtiaineistoa
sisältävässä tekstikannassa. Evaluoinnin tavoitteena oli
perinteisen
tiedonhakujärjestelmän toiminnallisten rajojen
kartoittaminen. Tutkimukselle
hahmoteltiin teoreettinen viitekehys, jossa
vapaatekstihaun tehokkuuteen
vaikuttaviksi muuttujiksi nimettiin tekstikannan koko,
dokumenttien pituus,
hakukysymyksen ominaisuudet ja käytetyt rajaavat
operaattorit.
Tutkimusta varten rakennettiin kaksi testitekstikantaa.
Artikkelikanta sisältää
noin 55 000 Aamulehden, Kauppalehden ja Keskisuomalaisen
artikkelia, joiden
keskipituus on noin 200 sanaa. Tiivistelmäkanta sisältää
noin 37 000
uutistiivistelmää Esmerkin tuottamasta
NEWS-tietokannasta. Tiivistelmien
keskipituus on noin 50 sanaa. Testihakuja varten koottiin
35 testikysymystä,
jotka edustivat toimitusympäristössä tavallisia
hakutehtävätyyppejä.
Tutkimuksessa kehitettiin uusi testausmenetelmä, jonka
avulla on mahdollista
tuottaa eri testikysymyksistä laaja joukko vaihtoehtoisia
hakulausekkeita ja
hakea näistä parhaiten toimiva kombinaatio
optimointialgoritmia soveltamalla.
Suuresta tekstikannasta haettaessa hakutulosten tarkkuus
jäi huonommaksi kuin
pienestä tekstikannasta haettaessa. Tarkkuus oli
huonompi, vaikka optimoidut
hakulausekkeet sisälsivät useampia rajauksia. Kun
tulosjoukon koolle asetetaan
rajoituksia, saantikin jää pienemmäksi suuresta
tekstikannasta haettaessa.
Samaten artikkeleita sisältävästä tekstikannasta
haettaessa tarkkuus jäi
huonommaksi kuin tiivistelmähauissa, vaikka
artikkelihakujen optimoidut
hakulausekkeet sisälsivät enemmän rajauksia. Huonomman
tarkkuuden ja saannin
syyksi havaittiin ns. saantileikkuri-ilmiö. Suuresta,
pitkiä dokumentteja
sisältävästä tekstikannasta haettaessa joudutaan
tulosjoukon pienentämiseksi
lisäämään hakulausekkeeseen usein epäselektiivisiäkin
rajauksia.
Epäselektiiviset rajaukset eivät paranna tulosten
tarkkuutta, mutta alentavat
tulosjoukon kokoa ja samalla saantia.
Hakukysymysten rakenteelliset ominaisuudet vaikuttavat
myös hakujen
onnistumisen todennäköisyyteen. Hakukysymykset, jotka
sisältävät luonnostaan
useita rajaavia käsitteitä, näyttävät onnistuvan paremmin
kuin
yksinkertaisemmat hakukysymykset. Saantileikkuri ilmenee
todennäköisemmin vähän
rajaavia käsitteitä sisältävissä hakukysymyksissä, joissa
tulosjoukon koon
rajoittamistarve pakottaa turvautumaan myös
epäselektiivisiin rajauksiin.
Tutkimuksessa verrattiin myös perinteistä Boolen
JA-operaattoria
läheisyysoperaattoreihin. Läheisyysoperaattoreina
käytettiin kappale- ja
lauseoperaattoria. Artikkeliaineistossa
kappaleoperaattori näytti
tasapainottavan saannin ja tarkkuuden JA- ja
lauseoperaattoria paremmin. Kun
tarkasteltiin pelkästään parhaiden artikkelien
löytyvyyttä, kappaleoperaattori
antoi sekä parhaan tarkkuuden että saannin.
KW - information retrieval
KW - full-text databases
KW - effectiveness
M3 - Report
SN - 951-38-4138-3
T3 - VTT Julkaisuja - Publikationer
BT - Vapaatekstihaun tehokkuus ja siihen vaikuttavat tekijät sanomalehtiaineistoa sisältävässä tekstikannassa
PB - VTT Technical Research Centre of Finland
CY - Espoo
ER -