Suomen kielen sananmuotoja tulkitsevien ohjelmien hyödyntäminen tiedonhakujärjestelmissä

Riitta Nurminen

Research output: Book/ReportReportProfessional

Abstract

Helsingin yliopistossa ja SITRAssa on kehitelty suomen kieltä automaattisesti analysoivia ohjelmia. Tässä tutkimuksessa on selvitetty, miten suomalaisissa tiedonhakujärjestelmissä voidaan hyödyntää sananmuotoja muokkaavia ja analysoivia FINSTEMS-, TAIVUTIN-, MORFO ja Kaksitasomalli-ohjelmia. Testauksissa on tutkittu, miten kattavasti ja virheettömästi ohjelmat analysoivat suomen kieltä sekä sitä, mitä niiden käyttö vaikuttaa hakutermien muotoon ja tiedonhaun viemään aikaan. Testausympäristönä on ollut MINTTU-tiedonhakujärjestelmä. Lisäksi on selvitetty, mitä sanojen perusmuotoon palauttaminen vaikuttaa käänteishakemiston muistitilan tarpeeseen. Suomalaiset tiedonhakujärjestelmät käsittelevät tallennettavan tekstin sananmuotoja nykyisin merkkijonoina, jotka tallennetaan sellaisinaan käänteishakemistoon. Tällöin sanan jokainen erilainen esiintymä on oma hakemistoterminsä, mikä vie paljon järjestelmän muistitilaa. Lisäksi käyttäjän on hakuvaiheessa otettava sanojen taipuminen huomioon typistämällä hakutermi eli katkaisemalla sana kohdasta, joka on yhteinen kaikille taivutusmuodoille. Automaattisen analyysin soveltamisessa on kaksi vaihtoehtoa: Tekstin sanat tallennetaan taivutusmuodoissaan, mutta hakuvaiheessa käyttäjän antamasta hakusanasta tuotetaan automaattisesti eri taivatusmaodot. Toisaalta tekstin sanat voidaan palauttaa perusmuotoon ennen käänteishakemiston muodostamista. Kummassakin tapauksessa käyttäjän tarvitsee antaa syötteeksi vain hakusanan perusmuoto ja järjestelmä huolehtii eri taivutusmuotojen löytämisestä.
Original languageFinnish
Place of PublicationEspoo
PublisherVTT Technical Research Centre of Finland
Number of pages98
ISBN (Print)951-38-2497-7
Publication statusPublished - 1986
MoE publication typeD4 Published development or research report or study

Publication series

NameTutkimuksia / Valtion teknillinen tutkimuskeskus
PublisherVTT
Volume386

Fingerprint

information retrieval

Keywords

  • information retrieval
  • natural languages
  • finnish language
  • Finland

Cite this

Nurminen, R. (1986). Suomen kielen sananmuotoja tulkitsevien ohjelmien hyödyntäminen tiedonhakujärjestelmissä. Espoo: VTT Technical Research Centre of Finland. Valtion teknillinen tutkimuskeskus. Tutkimuksia - Research Reports, No. 386
Nurminen, Riitta. / Suomen kielen sananmuotoja tulkitsevien ohjelmien hyödyntäminen tiedonhakujärjestelmissä. Espoo : VTT Technical Research Centre of Finland, 1986. 98 p. (Valtion teknillinen tutkimuskeskus. Tutkimuksia - Research Reports; No. 386).
@book{e844cadf657345138104bec960a5cef0,
title = "Suomen kielen sananmuotoja tulkitsevien ohjelmien hy{\"o}dynt{\"a}minen tiedonhakuj{\"a}rjestelmiss{\"a}",
abstract = "Helsingin yliopistossa ja SITRAssa on kehitelty suomen kielt{\"a} automaattisesti analysoivia ohjelmia. T{\"a}ss{\"a} tutkimuksessa on selvitetty, miten suomalaisissa tiedonhakuj{\"a}rjestelmiss{\"a} voidaan hy{\"o}dynt{\"a}{\"a} sananmuotoja muokkaavia ja analysoivia FINSTEMS-, TAIVUTIN-, MORFO ja Kaksitasomalli-ohjelmia. Testauksissa on tutkittu, miten kattavasti ja virheett{\"o}m{\"a}sti ohjelmat analysoivat suomen kielt{\"a} sek{\"a} sit{\"a}, mit{\"a} niiden k{\"a}ytt{\"o} vaikuttaa hakutermien muotoon ja tiedonhaun viem{\"a}{\"a}n aikaan. Testausymp{\"a}rist{\"o}n{\"a} on ollut MINTTU-tiedonhakuj{\"a}rjestelm{\"a}. Lis{\"a}ksi on selvitetty, mit{\"a} sanojen perusmuotoon palauttaminen vaikuttaa k{\"a}{\"a}nteishakemiston muistitilan tarpeeseen. Suomalaiset tiedonhakuj{\"a}rjestelm{\"a}t k{\"a}sittelev{\"a}t tallennettavan tekstin sananmuotoja nykyisin merkkijonoina, jotka tallennetaan sellaisinaan k{\"a}{\"a}nteishakemistoon. T{\"a}ll{\"o}in sanan jokainen erilainen esiintym{\"a} on oma hakemistotermins{\"a}, mik{\"a} vie paljon j{\"a}rjestelm{\"a}n muistitilaa. Lis{\"a}ksi k{\"a}ytt{\"a}j{\"a}n on hakuvaiheessa otettava sanojen taipuminen huomioon typist{\"a}m{\"a}ll{\"a} hakutermi eli katkaisemalla sana kohdasta, joka on yhteinen kaikille taivutusmuodoille. Automaattisen analyysin soveltamisessa on kaksi vaihtoehtoa: Tekstin sanat tallennetaan taivutusmuodoissaan, mutta hakuvaiheessa k{\"a}ytt{\"a}j{\"a}n antamasta hakusanasta tuotetaan automaattisesti eri taivatusmaodot. Toisaalta tekstin sanat voidaan palauttaa perusmuotoon ennen k{\"a}{\"a}nteishakemiston muodostamista. Kummassakin tapauksessa k{\"a}ytt{\"a}j{\"a}n tarvitsee antaa sy{\"o}tteeksi vain hakusanan perusmuoto ja j{\"a}rjestelm{\"a} huolehtii eri taivutusmuotojen l{\"o}yt{\"a}misest{\"a}.",
keywords = "information retrieval, natural languages, finnish language, Finland",
author = "Riitta Nurminen",
year = "1986",
language = "Finnish",
isbn = "951-38-2497-7",
series = "Tutkimuksia / Valtion teknillinen tutkimuskeskus",
publisher = "VTT Technical Research Centre of Finland",
address = "Finland",

}

Nurminen, R 1986, Suomen kielen sananmuotoja tulkitsevien ohjelmien hyödyntäminen tiedonhakujärjestelmissä. Valtion teknillinen tutkimuskeskus. Tutkimuksia - Research Reports, no. 386, VTT Technical Research Centre of Finland, Espoo.

Suomen kielen sananmuotoja tulkitsevien ohjelmien hyödyntäminen tiedonhakujärjestelmissä. / Nurminen, Riitta.

Espoo : VTT Technical Research Centre of Finland, 1986. 98 p. (Valtion teknillinen tutkimuskeskus. Tutkimuksia - Research Reports; No. 386).

Research output: Book/ReportReportProfessional

TY - BOOK

T1 - Suomen kielen sananmuotoja tulkitsevien ohjelmien hyödyntäminen tiedonhakujärjestelmissä

AU - Nurminen, Riitta

PY - 1986

Y1 - 1986

N2 - Helsingin yliopistossa ja SITRAssa on kehitelty suomen kieltä automaattisesti analysoivia ohjelmia. Tässä tutkimuksessa on selvitetty, miten suomalaisissa tiedonhakujärjestelmissä voidaan hyödyntää sananmuotoja muokkaavia ja analysoivia FINSTEMS-, TAIVUTIN-, MORFO ja Kaksitasomalli-ohjelmia. Testauksissa on tutkittu, miten kattavasti ja virheettömästi ohjelmat analysoivat suomen kieltä sekä sitä, mitä niiden käyttö vaikuttaa hakutermien muotoon ja tiedonhaun viemään aikaan. Testausympäristönä on ollut MINTTU-tiedonhakujärjestelmä. Lisäksi on selvitetty, mitä sanojen perusmuotoon palauttaminen vaikuttaa käänteishakemiston muistitilan tarpeeseen. Suomalaiset tiedonhakujärjestelmät käsittelevät tallennettavan tekstin sananmuotoja nykyisin merkkijonoina, jotka tallennetaan sellaisinaan käänteishakemistoon. Tällöin sanan jokainen erilainen esiintymä on oma hakemistoterminsä, mikä vie paljon järjestelmän muistitilaa. Lisäksi käyttäjän on hakuvaiheessa otettava sanojen taipuminen huomioon typistämällä hakutermi eli katkaisemalla sana kohdasta, joka on yhteinen kaikille taivutusmuodoille. Automaattisen analyysin soveltamisessa on kaksi vaihtoehtoa: Tekstin sanat tallennetaan taivutusmuodoissaan, mutta hakuvaiheessa käyttäjän antamasta hakusanasta tuotetaan automaattisesti eri taivatusmaodot. Toisaalta tekstin sanat voidaan palauttaa perusmuotoon ennen käänteishakemiston muodostamista. Kummassakin tapauksessa käyttäjän tarvitsee antaa syötteeksi vain hakusanan perusmuoto ja järjestelmä huolehtii eri taivutusmuotojen löytämisestä.

AB - Helsingin yliopistossa ja SITRAssa on kehitelty suomen kieltä automaattisesti analysoivia ohjelmia. Tässä tutkimuksessa on selvitetty, miten suomalaisissa tiedonhakujärjestelmissä voidaan hyödyntää sananmuotoja muokkaavia ja analysoivia FINSTEMS-, TAIVUTIN-, MORFO ja Kaksitasomalli-ohjelmia. Testauksissa on tutkittu, miten kattavasti ja virheettömästi ohjelmat analysoivat suomen kieltä sekä sitä, mitä niiden käyttö vaikuttaa hakutermien muotoon ja tiedonhaun viemään aikaan. Testausympäristönä on ollut MINTTU-tiedonhakujärjestelmä. Lisäksi on selvitetty, mitä sanojen perusmuotoon palauttaminen vaikuttaa käänteishakemiston muistitilan tarpeeseen. Suomalaiset tiedonhakujärjestelmät käsittelevät tallennettavan tekstin sananmuotoja nykyisin merkkijonoina, jotka tallennetaan sellaisinaan käänteishakemistoon. Tällöin sanan jokainen erilainen esiintymä on oma hakemistoterminsä, mikä vie paljon järjestelmän muistitilaa. Lisäksi käyttäjän on hakuvaiheessa otettava sanojen taipuminen huomioon typistämällä hakutermi eli katkaisemalla sana kohdasta, joka on yhteinen kaikille taivutusmuodoille. Automaattisen analyysin soveltamisessa on kaksi vaihtoehtoa: Tekstin sanat tallennetaan taivutusmuodoissaan, mutta hakuvaiheessa käyttäjän antamasta hakusanasta tuotetaan automaattisesti eri taivatusmaodot. Toisaalta tekstin sanat voidaan palauttaa perusmuotoon ennen käänteishakemiston muodostamista. Kummassakin tapauksessa käyttäjän tarvitsee antaa syötteeksi vain hakusanan perusmuoto ja järjestelmä huolehtii eri taivutusmuotojen löytämisestä.

KW - information retrieval

KW - natural languages

KW - finnish language

KW - Finland

M3 - Report

SN - 951-38-2497-7

T3 - Tutkimuksia / Valtion teknillinen tutkimuskeskus

BT - Suomen kielen sananmuotoja tulkitsevien ohjelmien hyödyntäminen tiedonhakujärjestelmissä

PB - VTT Technical Research Centre of Finland

CY - Espoo

ER -

Nurminen R. Suomen kielen sananmuotoja tulkitsevien ohjelmien hyödyntäminen tiedonhakujärjestelmissä. Espoo: VTT Technical Research Centre of Finland, 1986. 98 p. (Valtion teknillinen tutkimuskeskus. Tutkimuksia - Research Reports; No. 386).