Vapaatekstihaun tehokkuus ja siihen vaikuttavat tekijät sanomalehtiaineistoa sisältävässä tekstikannassa

Eero Sormunen

Research output: Book/ReportReport

Abstract

Tutkimuksessa selvitettiin kokeellisin menetelmin vapaatekstihaun tehokkuutta ja siihen vaikuttavia tekijöitä suomenkielistä sanomalehtiaineistoa sisältävässä tekstikannassa. Evaluoinnin tavoitteena oli perinteisen tiedonhakujärjestelmän toiminnallisten rajojen kartoittaminen. Tutkimukselle hahmoteltiin teoreettinen viitekehys, jossa vapaatekstihaun tehokkuuteen vaikuttaviksi muuttujiksi nimettiin tekstikannan koko, dokumenttien pituus, hakukysymyksen ominaisuudet ja käytetyt rajaavat operaattorit. Tutkimusta varten rakennettiin kaksi testitekstikantaa. Artikkelikanta sisältää noin 55 000 Aamulehden, Kauppalehden ja Keskisuomalaisen artikkelia, joiden keskipituus on noin 200 sanaa. Tiivistelmäkanta sisältää noin 37 000 uutistiivistelmää Esmerkin tuottamasta NEWS-tietokannasta. Tiivistelmien keskipituus on noin 50 sanaa. Testihakuja varten koottiin 35 testikysymystä, jotka edustivat toimitusympäristössä tavallisia hakutehtävätyyppejä. Tutkimuksessa kehitettiin uusi testausmenetelmä, jonka avulla on mahdollista tuottaa eri testikysymyksistä laaja joukko vaihtoehtoisia hakulausekkeita ja hakea näistä parhaiten toimiva kombinaatio optimointialgoritmia soveltamalla. Suuresta tekstikannasta haettaessa hakutulosten tarkkuus jäi huonommaksi kuin pienestä tekstikannasta haettaessa. Tarkkuus oli huonompi, vaikka optimoidut hakulausekkeet sisälsivät useampia rajauksia. Kun tulosjoukon koolle asetetaan rajoituksia, saantikin jää pienemmäksi suuresta tekstikannasta haettaessa. Samaten artikkeleita sisältävästä tekstikannasta haettaessa tarkkuus jäi huonommaksi kuin tiivistelmähauissa, vaikka artikkelihakujen optimoidut hakulausekkeet sisälsivät enemmän rajauksia. Huonomman tarkkuuden ja saannin syyksi havaittiin ns. saantileikkuri-ilmiö. Suuresta, pitkiä dokumentteja sisältävästä tekstikannasta haettaessa joudutaan tulosjoukon pienentämiseksi lisäämään hakulausekkeeseen usein epäselektiivisiäkin rajauksia. Epäselektiiviset rajaukset eivät paranna tulosten tarkkuutta, mutta alentavat tulosjoukon kokoa ja samalla saantia. Hakukysymysten rakenteelliset ominaisuudet vaikuttavat myös hakujen onnistumisen todennäköisyyteen. Hakukysymykset, jotka sisältävät luonnostaan useita rajaavia käsitteitä, näyttävät onnistuvan paremmin kuin yksinkertaisemmat hakukysymykset. Saantileikkuri ilmenee todennäköisemmin vähän rajaavia käsitteitä sisältävissä hakukysymyksissä, joissa tulosjoukon koon rajoittamistarve pakottaa turvautumaan myös epäselektiivisiin rajauksiin. Tutkimuksessa verrattiin myös perinteistä Boolen JA-operaattoria läheisyysoperaattoreihin. Läheisyysoperaattoreina käytettiin kappale- ja lauseoperaattoria. Artikkeliaineistossa kappaleoperaattori näytti tasapainottavan saannin ja tarkkuuden JA- ja lauseoperaattoria paremmin. Kun tarkasteltiin pelkästään parhaiden artikkelien löytyvyyttä, kappaleoperaattori antoi sekä parhaan tarkkuuden että saannin.
Original languageFinnish
Place of PublicationEspoo
PublisherVTT Technical Research Centre of Finland
Number of pages222
ISBN (Print)951-38-4138-3
Publication statusPublished - 1994
MoE publication typeD4 Published development or research report or study

Publication series

SeriesVTT Julkaisuja - Publikationer
Number790
ISSN1235-0613

Fingerprint

Yemen
Newspapers
Databases
hakea gibbosa gum

Keywords

  • information retrieval
  • full-text databases
  • effectiveness

Cite this

Sormunen, E. (1994). Vapaatekstihaun tehokkuus ja siihen vaikuttavat tekijät sanomalehtiaineistoa sisältävässä tekstikannassa. Espoo: VTT Technical Research Centre of Finland. VTT Julkaisuja - Publikationer, No. 790
Sormunen, Eero. / Vapaatekstihaun tehokkuus ja siihen vaikuttavat tekijät sanomalehtiaineistoa sisältävässä tekstikannassa. Espoo : VTT Technical Research Centre of Finland, 1994. 222 p. (VTT Julkaisuja - Publikationer; No. 790).
@book{af48ee8df10642b896da8b16efe739b2,
title = "Vapaatekstihaun tehokkuus ja siihen vaikuttavat tekij{\"a}t sanomalehtiaineistoa sis{\"a}lt{\"a}v{\"a}ss{\"a} tekstikannassa",
abstract = "Tutkimuksessa selvitettiin kokeellisin menetelmin vapaatekstihaun tehokkuutta ja siihen vaikuttavia tekij{\"o}it{\"a} suomenkielist{\"a} sanomalehtiaineistoa sis{\"a}lt{\"a}v{\"a}ss{\"a} tekstikannassa. Evaluoinnin tavoitteena oli perinteisen tiedonhakuj{\"a}rjestelm{\"a}n toiminnallisten rajojen kartoittaminen. Tutkimukselle hahmoteltiin teoreettinen viitekehys, jossa vapaatekstihaun tehokkuuteen vaikuttaviksi muuttujiksi nimettiin tekstikannan koko, dokumenttien pituus, hakukysymyksen ominaisuudet ja k{\"a}ytetyt rajaavat operaattorit. Tutkimusta varten rakennettiin kaksi testitekstikantaa. Artikkelikanta sis{\"a}lt{\"a}{\"a} noin 55 000 Aamulehden, Kauppalehden ja Keskisuomalaisen artikkelia, joiden keskipituus on noin 200 sanaa. Tiivistelm{\"a}kanta sis{\"a}lt{\"a}{\"a} noin 37 000 uutistiivistelm{\"a}{\"a} Esmerkin tuottamasta NEWS-tietokannasta. Tiivistelmien keskipituus on noin 50 sanaa. Testihakuja varten koottiin 35 testikysymyst{\"a}, jotka edustivat toimitusymp{\"a}rist{\"o}ss{\"a} tavallisia hakuteht{\"a}v{\"a}tyyppej{\"a}. Tutkimuksessa kehitettiin uusi testausmenetelm{\"a}, jonka avulla on mahdollista tuottaa eri testikysymyksist{\"a} laaja joukko vaihtoehtoisia hakulausekkeita ja hakea n{\"a}ist{\"a} parhaiten toimiva kombinaatio optimointialgoritmia soveltamalla. Suuresta tekstikannasta haettaessa hakutulosten tarkkuus j{\"a}i huonommaksi kuin pienest{\"a} tekstikannasta haettaessa. Tarkkuus oli huonompi, vaikka optimoidut hakulausekkeet sis{\"a}lsiv{\"a}t useampia rajauksia. Kun tulosjoukon koolle asetetaan rajoituksia, saantikin j{\"a}{\"a} pienemm{\"a}ksi suuresta tekstikannasta haettaessa. Samaten artikkeleita sis{\"a}lt{\"a}v{\"a}st{\"a} tekstikannasta haettaessa tarkkuus j{\"a}i huonommaksi kuin tiivistelm{\"a}hauissa, vaikka artikkelihakujen optimoidut hakulausekkeet sis{\"a}lsiv{\"a}t enemm{\"a}n rajauksia. Huonomman tarkkuuden ja saannin syyksi havaittiin ns. saantileikkuri-ilmi{\"o}. Suuresta, pitki{\"a} dokumentteja sis{\"a}lt{\"a}v{\"a}st{\"a} tekstikannasta haettaessa joudutaan tulosjoukon pienent{\"a}miseksi lis{\"a}{\"a}m{\"a}{\"a}n hakulausekkeeseen usein ep{\"a}selektiivisi{\"a}kin rajauksia. Ep{\"a}selektiiviset rajaukset eiv{\"a}t paranna tulosten tarkkuutta, mutta alentavat tulosjoukon kokoa ja samalla saantia. Hakukysymysten rakenteelliset ominaisuudet vaikuttavat my{\"o}s hakujen onnistumisen todenn{\"a}k{\"o}isyyteen. Hakukysymykset, jotka sis{\"a}lt{\"a}v{\"a}t luonnostaan useita rajaavia k{\"a}sitteit{\"a}, n{\"a}ytt{\"a}v{\"a}t onnistuvan paremmin kuin yksinkertaisemmat hakukysymykset. Saantileikkuri ilmenee todenn{\"a}k{\"o}isemmin v{\"a}h{\"a}n rajaavia k{\"a}sitteit{\"a} sis{\"a}lt{\"a}viss{\"a} hakukysymyksiss{\"a}, joissa tulosjoukon koon rajoittamistarve pakottaa turvautumaan my{\"o}s ep{\"a}selektiivisiin rajauksiin. Tutkimuksessa verrattiin my{\"o}s perinteist{\"a} Boolen JA-operaattoria l{\"a}heisyysoperaattoreihin. L{\"a}heisyysoperaattoreina k{\"a}ytettiin kappale- ja lauseoperaattoria. Artikkeliaineistossa kappaleoperaattori n{\"a}ytti tasapainottavan saannin ja tarkkuuden JA- ja lauseoperaattoria paremmin. Kun tarkasteltiin pelk{\"a}st{\"a}{\"a}n parhaiden artikkelien l{\"o}ytyvyytt{\"a}, kappaleoperaattori antoi sek{\"a} parhaan tarkkuuden ett{\"a} saannin.",
keywords = "information retrieval, full-text databases, effectiveness",
author = "Eero Sormunen",
year = "1994",
language = "Finnish",
isbn = "951-38-4138-3",
series = "VTT Julkaisuja - Publikationer",
publisher = "VTT Technical Research Centre of Finland",
number = "790",
address = "Finland",

}

Sormunen, E 1994, Vapaatekstihaun tehokkuus ja siihen vaikuttavat tekijät sanomalehtiaineistoa sisältävässä tekstikannassa. VTT Julkaisuja - Publikationer, no. 790, VTT Technical Research Centre of Finland, Espoo.

Vapaatekstihaun tehokkuus ja siihen vaikuttavat tekijät sanomalehtiaineistoa sisältävässä tekstikannassa. / Sormunen, Eero.

Espoo : VTT Technical Research Centre of Finland, 1994. 222 p. (VTT Julkaisuja - Publikationer; No. 790).

Research output: Book/ReportReport

TY - BOOK

T1 - Vapaatekstihaun tehokkuus ja siihen vaikuttavat tekijät sanomalehtiaineistoa sisältävässä tekstikannassa

AU - Sormunen, Eero

PY - 1994

Y1 - 1994

N2 - Tutkimuksessa selvitettiin kokeellisin menetelmin vapaatekstihaun tehokkuutta ja siihen vaikuttavia tekijöitä suomenkielistä sanomalehtiaineistoa sisältävässä tekstikannassa. Evaluoinnin tavoitteena oli perinteisen tiedonhakujärjestelmän toiminnallisten rajojen kartoittaminen. Tutkimukselle hahmoteltiin teoreettinen viitekehys, jossa vapaatekstihaun tehokkuuteen vaikuttaviksi muuttujiksi nimettiin tekstikannan koko, dokumenttien pituus, hakukysymyksen ominaisuudet ja käytetyt rajaavat operaattorit. Tutkimusta varten rakennettiin kaksi testitekstikantaa. Artikkelikanta sisältää noin 55 000 Aamulehden, Kauppalehden ja Keskisuomalaisen artikkelia, joiden keskipituus on noin 200 sanaa. Tiivistelmäkanta sisältää noin 37 000 uutistiivistelmää Esmerkin tuottamasta NEWS-tietokannasta. Tiivistelmien keskipituus on noin 50 sanaa. Testihakuja varten koottiin 35 testikysymystä, jotka edustivat toimitusympäristössä tavallisia hakutehtävätyyppejä. Tutkimuksessa kehitettiin uusi testausmenetelmä, jonka avulla on mahdollista tuottaa eri testikysymyksistä laaja joukko vaihtoehtoisia hakulausekkeita ja hakea näistä parhaiten toimiva kombinaatio optimointialgoritmia soveltamalla. Suuresta tekstikannasta haettaessa hakutulosten tarkkuus jäi huonommaksi kuin pienestä tekstikannasta haettaessa. Tarkkuus oli huonompi, vaikka optimoidut hakulausekkeet sisälsivät useampia rajauksia. Kun tulosjoukon koolle asetetaan rajoituksia, saantikin jää pienemmäksi suuresta tekstikannasta haettaessa. Samaten artikkeleita sisältävästä tekstikannasta haettaessa tarkkuus jäi huonommaksi kuin tiivistelmähauissa, vaikka artikkelihakujen optimoidut hakulausekkeet sisälsivät enemmän rajauksia. Huonomman tarkkuuden ja saannin syyksi havaittiin ns. saantileikkuri-ilmiö. Suuresta, pitkiä dokumentteja sisältävästä tekstikannasta haettaessa joudutaan tulosjoukon pienentämiseksi lisäämään hakulausekkeeseen usein epäselektiivisiäkin rajauksia. Epäselektiiviset rajaukset eivät paranna tulosten tarkkuutta, mutta alentavat tulosjoukon kokoa ja samalla saantia. Hakukysymysten rakenteelliset ominaisuudet vaikuttavat myös hakujen onnistumisen todennäköisyyteen. Hakukysymykset, jotka sisältävät luonnostaan useita rajaavia käsitteitä, näyttävät onnistuvan paremmin kuin yksinkertaisemmat hakukysymykset. Saantileikkuri ilmenee todennäköisemmin vähän rajaavia käsitteitä sisältävissä hakukysymyksissä, joissa tulosjoukon koon rajoittamistarve pakottaa turvautumaan myös epäselektiivisiin rajauksiin. Tutkimuksessa verrattiin myös perinteistä Boolen JA-operaattoria läheisyysoperaattoreihin. Läheisyysoperaattoreina käytettiin kappale- ja lauseoperaattoria. Artikkeliaineistossa kappaleoperaattori näytti tasapainottavan saannin ja tarkkuuden JA- ja lauseoperaattoria paremmin. Kun tarkasteltiin pelkästään parhaiden artikkelien löytyvyyttä, kappaleoperaattori antoi sekä parhaan tarkkuuden että saannin.

AB - Tutkimuksessa selvitettiin kokeellisin menetelmin vapaatekstihaun tehokkuutta ja siihen vaikuttavia tekijöitä suomenkielistä sanomalehtiaineistoa sisältävässä tekstikannassa. Evaluoinnin tavoitteena oli perinteisen tiedonhakujärjestelmän toiminnallisten rajojen kartoittaminen. Tutkimukselle hahmoteltiin teoreettinen viitekehys, jossa vapaatekstihaun tehokkuuteen vaikuttaviksi muuttujiksi nimettiin tekstikannan koko, dokumenttien pituus, hakukysymyksen ominaisuudet ja käytetyt rajaavat operaattorit. Tutkimusta varten rakennettiin kaksi testitekstikantaa. Artikkelikanta sisältää noin 55 000 Aamulehden, Kauppalehden ja Keskisuomalaisen artikkelia, joiden keskipituus on noin 200 sanaa. Tiivistelmäkanta sisältää noin 37 000 uutistiivistelmää Esmerkin tuottamasta NEWS-tietokannasta. Tiivistelmien keskipituus on noin 50 sanaa. Testihakuja varten koottiin 35 testikysymystä, jotka edustivat toimitusympäristössä tavallisia hakutehtävätyyppejä. Tutkimuksessa kehitettiin uusi testausmenetelmä, jonka avulla on mahdollista tuottaa eri testikysymyksistä laaja joukko vaihtoehtoisia hakulausekkeita ja hakea näistä parhaiten toimiva kombinaatio optimointialgoritmia soveltamalla. Suuresta tekstikannasta haettaessa hakutulosten tarkkuus jäi huonommaksi kuin pienestä tekstikannasta haettaessa. Tarkkuus oli huonompi, vaikka optimoidut hakulausekkeet sisälsivät useampia rajauksia. Kun tulosjoukon koolle asetetaan rajoituksia, saantikin jää pienemmäksi suuresta tekstikannasta haettaessa. Samaten artikkeleita sisältävästä tekstikannasta haettaessa tarkkuus jäi huonommaksi kuin tiivistelmähauissa, vaikka artikkelihakujen optimoidut hakulausekkeet sisälsivät enemmän rajauksia. Huonomman tarkkuuden ja saannin syyksi havaittiin ns. saantileikkuri-ilmiö. Suuresta, pitkiä dokumentteja sisältävästä tekstikannasta haettaessa joudutaan tulosjoukon pienentämiseksi lisäämään hakulausekkeeseen usein epäselektiivisiäkin rajauksia. Epäselektiiviset rajaukset eivät paranna tulosten tarkkuutta, mutta alentavat tulosjoukon kokoa ja samalla saantia. Hakukysymysten rakenteelliset ominaisuudet vaikuttavat myös hakujen onnistumisen todennäköisyyteen. Hakukysymykset, jotka sisältävät luonnostaan useita rajaavia käsitteitä, näyttävät onnistuvan paremmin kuin yksinkertaisemmat hakukysymykset. Saantileikkuri ilmenee todennäköisemmin vähän rajaavia käsitteitä sisältävissä hakukysymyksissä, joissa tulosjoukon koon rajoittamistarve pakottaa turvautumaan myös epäselektiivisiin rajauksiin. Tutkimuksessa verrattiin myös perinteistä Boolen JA-operaattoria läheisyysoperaattoreihin. Läheisyysoperaattoreina käytettiin kappale- ja lauseoperaattoria. Artikkeliaineistossa kappaleoperaattori näytti tasapainottavan saannin ja tarkkuuden JA- ja lauseoperaattoria paremmin. Kun tarkasteltiin pelkästään parhaiden artikkelien löytyvyyttä, kappaleoperaattori antoi sekä parhaan tarkkuuden että saannin.

KW - information retrieval

KW - full-text databases

KW - effectiveness

M3 - Report

SN - 951-38-4138-3

T3 - VTT Julkaisuja - Publikationer

BT - Vapaatekstihaun tehokkuus ja siihen vaikuttavat tekijät sanomalehtiaineistoa sisältävässä tekstikannassa

PB - VTT Technical Research Centre of Finland

CY - Espoo

ER -

Sormunen E. Vapaatekstihaun tehokkuus ja siihen vaikuttavat tekijät sanomalehtiaineistoa sisältävässä tekstikannassa. Espoo: VTT Technical Research Centre of Finland, 1994. 222 p. (VTT Julkaisuja - Publikationer; No. 790).