TY - BOOK
T1 - Suomen kielen sananmuotoja tulkitsevien ohjelmien hyödyntäminen tiedonhakujärjestelmissä
AU - Nurminen, Riitta
PY - 1986
Y1 - 1986
N2 - Helsingin yliopistossa ja SITRAssa on kehitelty suomen
kieltä automaattisesti analysoivia ohjelmia. Tässä
tutkimuksessa on selvitetty, miten suomalaisissa
tiedonhakujärjestelmissä voidaan hyödyntää sananmuotoja
muokkaavia ja analysoivia FINSTEMS-, TAIVUTIN-, MORFO ja
Kaksitasomalli-ohjelmia.
Testauksissa on tutkittu, miten kattavasti ja
virheettömästi ohjelmat analysoivat suomen kieltä sekä
sitä, mitä niiden käyttö vaikuttaa hakutermien muotoon ja
tiedonhaun viemään aikaan. Testausympäristönä on ollut
MINTTU-tiedonhakujärjestelmä. Lisäksi on selvitetty, mitä
sanojen perusmuotoon palauttaminen vaikuttaa
käänteishakemiston muistitilan tarpeeseen.
Suomalaiset tiedonhakujärjestelmät käsittelevät
tallennettavan tekstin sananmuotoja nykyisin
merkkijonoina, jotka tallennetaan sellaisinaan
käänteishakemistoon. Tällöin sanan jokainen erilainen
esiintymä on oma hakemistoterminsä, mikä vie paljon
järjestelmän muistitilaa. Lisäksi käyttäjän on
hakuvaiheessa otettava sanojen taipuminen huomioon
typistämällä hakutermi eli katkaisemalla sana kohdasta,
joka on yhteinen kaikille taivutusmuodoille.
Automaattisen analyysin soveltamisessa on kaksi
vaihtoehtoa: Tekstin sanat tallennetaan
taivutusmuodoissaan, mutta hakuvaiheessa käyttäjän
antamasta hakusanasta tuotetaan automaattisesti eri
taivatusmaodot. Toisaalta tekstin sanat voidaan palauttaa
perusmuotoon ennen käänteishakemiston muodostamista.
Kummassakin tapauksessa käyttäjän tarvitsee antaa
syötteeksi vain hakusanan perusmuoto ja järjestelmä
huolehtii eri taivutusmuotojen löytämisestä.
AB - Helsingin yliopistossa ja SITRAssa on kehitelty suomen
kieltä automaattisesti analysoivia ohjelmia. Tässä
tutkimuksessa on selvitetty, miten suomalaisissa
tiedonhakujärjestelmissä voidaan hyödyntää sananmuotoja
muokkaavia ja analysoivia FINSTEMS-, TAIVUTIN-, MORFO ja
Kaksitasomalli-ohjelmia.
Testauksissa on tutkittu, miten kattavasti ja
virheettömästi ohjelmat analysoivat suomen kieltä sekä
sitä, mitä niiden käyttö vaikuttaa hakutermien muotoon ja
tiedonhaun viemään aikaan. Testausympäristönä on ollut
MINTTU-tiedonhakujärjestelmä. Lisäksi on selvitetty, mitä
sanojen perusmuotoon palauttaminen vaikuttaa
käänteishakemiston muistitilan tarpeeseen.
Suomalaiset tiedonhakujärjestelmät käsittelevät
tallennettavan tekstin sananmuotoja nykyisin
merkkijonoina, jotka tallennetaan sellaisinaan
käänteishakemistoon. Tällöin sanan jokainen erilainen
esiintymä on oma hakemistoterminsä, mikä vie paljon
järjestelmän muistitilaa. Lisäksi käyttäjän on
hakuvaiheessa otettava sanojen taipuminen huomioon
typistämällä hakutermi eli katkaisemalla sana kohdasta,
joka on yhteinen kaikille taivutusmuodoille.
Automaattisen analyysin soveltamisessa on kaksi
vaihtoehtoa: Tekstin sanat tallennetaan
taivutusmuodoissaan, mutta hakuvaiheessa käyttäjän
antamasta hakusanasta tuotetaan automaattisesti eri
taivatusmaodot. Toisaalta tekstin sanat voidaan palauttaa
perusmuotoon ennen käänteishakemiston muodostamista.
Kummassakin tapauksessa käyttäjän tarvitsee antaa
syötteeksi vain hakusanan perusmuoto ja järjestelmä
huolehtii eri taivutusmuotojen löytämisestä.
KW - information retrieval
KW - natural languages
KW - finnish language
KW - Finland
M3 - Report
SN - 951-38-2497-7
T3 - Valtion teknillinen tutkimuskeskus. Tutkimuksia - Research Reports
BT - Suomen kielen sananmuotoja tulkitsevien ohjelmien hyödyntäminen tiedonhakujärjestelmissä
PB - VTT Technical Research Centre of Finland
CY - Espoo
ER -