Suomen kielen sananmuotoja tulkitsevien ohjelmien hyödyntäminen tiedonhakujärjestelmissä

Riitta Nurminen

Research output: Book/ReportReport

Abstract

Helsingin yliopistossa ja SITRAssa on kehitelty suomen kieltä automaattisesti analysoivia ohjelmia. Tässä tutkimuksessa on selvitetty, miten suomalaisissa tiedonhakujärjestelmissä voidaan hyödyntää sananmuotoja muokkaavia ja analysoivia FINSTEMS-, TAIVUTIN-, MORFO ja Kaksitasomalli-ohjelmia. Testauksissa on tutkittu, miten kattavasti ja virheettömästi ohjelmat analysoivat suomen kieltä sekä sitä, mitä niiden käyttö vaikuttaa hakutermien muotoon ja tiedonhaun viemään aikaan. Testausympäristönä on ollut MINTTU-tiedonhakujärjestelmä. Lisäksi on selvitetty, mitä sanojen perusmuotoon palauttaminen vaikuttaa käänteishakemiston muistitilan tarpeeseen. Suomalaiset tiedonhakujärjestelmät käsittelevät tallennettavan tekstin sananmuotoja nykyisin merkkijonoina, jotka tallennetaan sellaisinaan käänteishakemistoon. Tällöin sanan jokainen erilainen esiintymä on oma hakemistoterminsä, mikä vie paljon järjestelmän muistitilaa. Lisäksi käyttäjän on hakuvaiheessa otettava sanojen taipuminen huomioon typistämällä hakutermi eli katkaisemalla sana kohdasta, joka on yhteinen kaikille taivutusmuodoille. Automaattisen analyysin soveltamisessa on kaksi vaihtoehtoa: Tekstin sanat tallennetaan taivutusmuodoissaan, mutta hakuvaiheessa käyttäjän antamasta hakusanasta tuotetaan automaattisesti eri taivatusmaodot. Toisaalta tekstin sanat voidaan palauttaa perusmuotoon ennen käänteishakemiston muodostamista. Kummassakin tapauksessa käyttäjän tarvitsee antaa syötteeksi vain hakusanan perusmuoto ja järjestelmä huolehtii eri taivutusmuotojen löytämisestä.
Original languageFinnish
Place of PublicationEspoo
PublisherVTT Technical Research Centre of Finland
Number of pages98
ISBN (Print)951-38-2497-7
Publication statusPublished - 1986
MoE publication typeD4 Published development or research report or study

Publication series

SeriesValtion teknillinen tutkimuskeskus. Tutkimuksia - Research Reports
Number386
ISSN0358-5077

Keywords

  • information retrieval
  • natural languages
  • finnish language
  • Finland

Cite this