Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla: FULLTEXT-projektin loppuraportti

Riitta Alkula, Timo Honkela

Research output: Book/ReportReport

Abstract

Suomenkielisten tekstitietokantojen tallennus- ja hakutekniikat (FULLTEXT) -projektissa tuotettiin useita testitietokantoja, joissa kokeiltiin käytännössä, millä tavoin suomen kielen tulkintaohjelmat vaikuttavat hakujärjestelmien ominaisuuksiin ja tiedonhaun tuloksiin. Testijärjestelminä olivat KTA-Papyrus Oy:n edustama BASIS-tiedonhakujärjestelmä ja VTKK:n kokeellinen APL-MINTTU-hakujärjestelmä. Suomen kielen tulkintaohjelmina käytettiin pääasiassa Kielikone Oy:n HAHMOTIN- ja MORFO-ohjelmia sekä Lingsoft Oy:n FINSTEMS-ohjelmaa. Kun hakemistoon tallennettavat sanat palautetaan perusmuotoon, tällainen hakemisto vie vähemmän muistitilaa kuin perinteinen hakemisto, johon sanat tallennetaan taivutusmuotoisina. Siinäkin tapauksessa, että perusmuotohakemisto sisältää perusmuotojen lisäksi myös yhdyssanojen eri osat, hakemisto on edelleen kooltaan pienempi kuin perinteinen hakemisto. Saannin kannalta paras hakemisto oli sellainen, jossa hakemiston sanat olivat perusmuodossa ja hakemisto sisälsi myös yhdyssanojen kaikki osat. Tässä tapauksessa saatiin myös ne sanat, joissa hakusana oli esiintynyt muualla kuin yhdyssanan alkuosana, kun ne muista hakemistoista haettaessa jäivät löytymättä. Vaikka hakujen saanti oli hyvä, tarkkuus ei vastaavasti huonontunut, vaan oli samaa luokkaa kuin muissa hakemistoissa. Myös perinteisestä hakujärjestelmästä saatiin hyvä saanti, kun hakijan oletettiin osaavan katkaista hakusanat optimaalisesta kohdasta. Lyhyeksi katkaistujen hakusanojen ongelmana kuitenkin oli huono tarkkuus. Tarkin hakutulos saatiin haettaessa perinteisestä, taivutusmuodot sisältävästä hakemistosta automaattisesti katkaistuilla hakusanoilla ja seulomalla perusmuotoon palauttavan ohjelman avulla pois ne hakemiston sanat, jotka eivät olleet alkuperäisen hakusanan taivutusmuotoja Tässä tapauksessa saanti kuitenkin oli selvästi huonompi kuin muissa hakemistoissa. Tutkimuksessa selvitettiin myös, mitä ongelmia perusmuotoisten hakusanojen ja perusmuotohakemistojen käytössä on. Kun perinteisesti itse katkaistuilla hakusanoilla saadaan samalla haetuksi sekä yhdyssanat että johdokset, ne on perusmuotoisia hakutermejä käytettäessä tietoisesti liitettävä mukaan kyselyyn. Lisäksi ongelmia tuovat taivutusmuodossa annetut tai suomen kielen tulkintaohjelmille tuntemattomat hakusanat. Hakujärjestelmään on liitettävä virheenkorjaustoimintoja, jotta suomen kielen tulkintaohjelmien tallennusvaiheessa tekemät väärät tulkinnat voidaan hakuvaiheessa korjata automaattisesti.
Original languageFinnish
PublisherVTT Technical Research Centre of Finland
Number of pages103
ISBN (Print)951-38-4113-8
Publication statusPublished - 1992
MoE publication typeD4 Published development or research report or study

Publication series

SeriesVTT Julkaisuja - Publikationer
Number765
ISSN1235-0613

Keywords

  • automatic language processing
  • information retrieval
  • information systems
  • natural languages
  • Finnish language
  • Finland

Cite this