Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla

FULLTEXT-projektin loppuraportti

Riitta Alkula, Timo Honkela

Research output: Book/ReportReportProfessional

Abstract

Suomenkielisten tekstitietokantojen tallennus- ja hakutekniikat (FULLTEXT) -projektissa tuotettiin useita testitietokantoja, joissa kokeiltiin käytännössä, millä tavoin suomen kielen tulkintaohjelmat vaikuttavat hakujärjestelmien ominaisuuksiin ja tiedonhaun tuloksiin. Testijärjestelminä olivat KTA-Papyrus Oy:n edustama BASIS-tiedonhakujärjestelmä ja VTKK:n kokeellinen APL-MINTTU-hakujärjestelmä. Suomen kielen tulkintaohjelmina käytettiin pääasiassa Kielikone Oy:n HAHMOTIN- ja MORFO-ohjelmia sekä Lingsoft Oy:n FINSTEMS-ohjelmaa. Kun hakemistoon tallennettavat sanat palautetaan perusmuotoon, tällainen hakemisto vie vähemmän muistitilaa kuin perinteinen hakemisto, johon sanat tallennetaan taivutusmuotoisina. Siinäkin tapauksessa, että perusmuotohakemisto sisältää perusmuotojen lisäksi myös yhdyssanojen eri osat, hakemisto on edelleen kooltaan pienempi kuin perinteinen hakemisto. Saannin kannalta paras hakemisto oli sellainen, jossa hakemiston sanat olivat perusmuodossa ja hakemisto sisälsi myös yhdyssanojen kaikki osat. Tässä tapauksessa saatiin myös ne sanat, joissa hakusana oli esiintynyt muualla kuin yhdyssanan alkuosana, kun ne muista hakemistoista haettaessa jäivät löytymättä. Vaikka hakujen saanti oli hyvä, tarkkuus ei vastaavasti huonontunut, vaan oli samaa luokkaa kuin muissa hakemistoissa. Myös perinteisestä hakujärjestelmästä saatiin hyvä saanti, kun hakijan oletettiin osaavan katkaista hakusanat optimaalisesta kohdasta. Lyhyeksi katkaistujen hakusanojen ongelmana kuitenkin oli huono tarkkuus. Tarkin hakutulos saatiin haettaessa perinteisestä, taivutusmuodot sisältävästä hakemistosta automaattisesti katkaistuilla hakusanoilla ja seulomalla perusmuotoon palauttavan ohjelman avulla pois ne hakemiston sanat, jotka eivät olleet alkuperäisen hakusanan taivutusmuotoja Tässä tapauksessa saanti kuitenkin oli selvästi huonompi kuin muissa hakemistoissa. Tutkimuksessa selvitettiin myös, mitä ongelmia perusmuotoisten hakusanojen ja perusmuotohakemistojen käytössä on. Kun perinteisesti itse katkaistuilla hakusanoilla saadaan samalla haetuksi sekä yhdyssanat että johdokset, ne on perusmuotoisia hakutermejä käytettäessä tietoisesti liitettävä mukaan kyselyyn. Lisäksi ongelmia tuovat taivutusmuodossa annetut tai suomen kielen tulkintaohjelmille tuntemattomat hakusanat. Hakujärjestelmään on liitettävä virheenkorjaustoimintoja, jotta suomen kielen tulkintaohjelmien tallennusvaiheessa tekemät väärät tulkinnat voidaan hakuvaiheessa korjata automaattisesti.
Original languageFinnish
PublisherVTT Technical Research Centre of Finland
Number of pages103
ISBN (Print)951-38-4113-8
Publication statusPublished - 1992
MoE publication typeD4 Published development or research report or study

Publication series

NameVTT Julkaisuja
PublisherVTT
No.765
ISSN (Print)1235-0613

Keywords

  • automatic language processing
  • information retrieval
  • information systems
  • natural languages
  • Finnish language
  • Finland

Cite this

Alkula, R., & Honkela, T. (1992). Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla: FULLTEXT-projektin loppuraportti. VTT Technical Research Centre of Finland. VTT Julkaisuja - Publikationer, No. 765
Alkula, Riitta ; Honkela, Timo. / Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla : FULLTEXT-projektin loppuraportti. VTT Technical Research Centre of Finland, 1992. 103 p. (VTT Julkaisuja - Publikationer; No. 765).
@book{5ed7704b25fe4603be29ffb39766a6de,
title = "Tekstin tallennus- ja hakumenetelmien kehitt{\"a}minen suomen kielen tulkintaohjelmien avulla: FULLTEXT-projektin loppuraportti",
abstract = "Suomenkielisten tekstitietokantojen tallennus- ja hakutekniikat (FULLTEXT) -projektissa tuotettiin useita testitietokantoja, joissa kokeiltiin k{\"a}yt{\"a}nn{\"o}ss{\"a}, mill{\"a} tavoin suomen kielen tulkintaohjelmat vaikuttavat hakuj{\"a}rjestelmien ominaisuuksiin ja tiedonhaun tuloksiin. Testij{\"a}rjestelmin{\"a} olivat KTA-Papyrus Oy:n edustama BASIS-tiedonhakuj{\"a}rjestelm{\"a} ja VTKK:n kokeellinen APL-MINTTU-hakuj{\"a}rjestelm{\"a}. Suomen kielen tulkintaohjelmina k{\"a}ytettiin p{\"a}{\"a}asiassa Kielikone Oy:n HAHMOTIN- ja MORFO-ohjelmia sek{\"a} Lingsoft Oy:n FINSTEMS-ohjelmaa. Kun hakemistoon tallennettavat sanat palautetaan perusmuotoon, t{\"a}llainen hakemisto vie v{\"a}hemm{\"a}n muistitilaa kuin perinteinen hakemisto, johon sanat tallennetaan taivutusmuotoisina. Siin{\"a}kin tapauksessa, ett{\"a} perusmuotohakemisto sis{\"a}lt{\"a}{\"a} perusmuotojen lis{\"a}ksi my{\"o}s yhdyssanojen eri osat, hakemisto on edelleen kooltaan pienempi kuin perinteinen hakemisto. Saannin kannalta paras hakemisto oli sellainen, jossa hakemiston sanat olivat perusmuodossa ja hakemisto sis{\"a}lsi my{\"o}s yhdyssanojen kaikki osat. T{\"a}ss{\"a} tapauksessa saatiin my{\"o}s ne sanat, joissa hakusana oli esiintynyt muualla kuin yhdyssanan alkuosana, kun ne muista hakemistoista haettaessa j{\"a}iv{\"a}t l{\"o}ytym{\"a}tt{\"a}. Vaikka hakujen saanti oli hyv{\"a}, tarkkuus ei vastaavasti huonontunut, vaan oli samaa luokkaa kuin muissa hakemistoissa. My{\"o}s perinteisest{\"a} hakuj{\"a}rjestelm{\"a}st{\"a} saatiin hyv{\"a} saanti, kun hakijan oletettiin osaavan katkaista hakusanat optimaalisesta kohdasta. Lyhyeksi katkaistujen hakusanojen ongelmana kuitenkin oli huono tarkkuus. Tarkin hakutulos saatiin haettaessa perinteisest{\"a}, taivutusmuodot sis{\"a}lt{\"a}v{\"a}st{\"a} hakemistosta automaattisesti katkaistuilla hakusanoilla ja seulomalla perusmuotoon palauttavan ohjelman avulla pois ne hakemiston sanat, jotka eiv{\"a}t olleet alkuper{\"a}isen hakusanan taivutusmuotoja T{\"a}ss{\"a} tapauksessa saanti kuitenkin oli selv{\"a}sti huonompi kuin muissa hakemistoissa. Tutkimuksessa selvitettiin my{\"o}s, mit{\"a} ongelmia perusmuotoisten hakusanojen ja perusmuotohakemistojen k{\"a}yt{\"o}ss{\"a} on. Kun perinteisesti itse katkaistuilla hakusanoilla saadaan samalla haetuksi sek{\"a} yhdyssanat ett{\"a} johdokset, ne on perusmuotoisia hakutermej{\"a} k{\"a}ytett{\"a}ess{\"a} tietoisesti liitett{\"a}v{\"a} mukaan kyselyyn. Lis{\"a}ksi ongelmia tuovat taivutusmuodossa annetut tai suomen kielen tulkintaohjelmille tuntemattomat hakusanat. Hakuj{\"a}rjestelm{\"a}{\"a}n on liitett{\"a}v{\"a} virheenkorjaustoimintoja, jotta suomen kielen tulkintaohjelmien tallennusvaiheessa tekem{\"a}t v{\"a}{\"a}r{\"a}t tulkinnat voidaan hakuvaiheessa korjata automaattisesti.",
keywords = "automatic language processing, information retrieval, information systems, natural languages, Finnish language, Finland",
author = "Riitta Alkula and Timo Honkela",
note = "in RawData",
year = "1992",
language = "Finnish",
isbn = "951-38-4113-8",
series = "VTT Julkaisuja",
publisher = "VTT Technical Research Centre of Finland",
number = "765",
address = "Finland",

}

Alkula, R & Honkela, T 1992, Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla: FULLTEXT-projektin loppuraportti. VTT Julkaisuja - Publikationer, no. 765, VTT Technical Research Centre of Finland.

Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla : FULLTEXT-projektin loppuraportti. / Alkula, Riitta; Honkela, Timo.

VTT Technical Research Centre of Finland, 1992. 103 p. (VTT Julkaisuja - Publikationer; No. 765).

Research output: Book/ReportReportProfessional

TY - BOOK

T1 - Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla

T2 - FULLTEXT-projektin loppuraportti

AU - Alkula, Riitta

AU - Honkela, Timo

N1 - in RawData

PY - 1992

Y1 - 1992

N2 - Suomenkielisten tekstitietokantojen tallennus- ja hakutekniikat (FULLTEXT) -projektissa tuotettiin useita testitietokantoja, joissa kokeiltiin käytännössä, millä tavoin suomen kielen tulkintaohjelmat vaikuttavat hakujärjestelmien ominaisuuksiin ja tiedonhaun tuloksiin. Testijärjestelminä olivat KTA-Papyrus Oy:n edustama BASIS-tiedonhakujärjestelmä ja VTKK:n kokeellinen APL-MINTTU-hakujärjestelmä. Suomen kielen tulkintaohjelmina käytettiin pääasiassa Kielikone Oy:n HAHMOTIN- ja MORFO-ohjelmia sekä Lingsoft Oy:n FINSTEMS-ohjelmaa. Kun hakemistoon tallennettavat sanat palautetaan perusmuotoon, tällainen hakemisto vie vähemmän muistitilaa kuin perinteinen hakemisto, johon sanat tallennetaan taivutusmuotoisina. Siinäkin tapauksessa, että perusmuotohakemisto sisältää perusmuotojen lisäksi myös yhdyssanojen eri osat, hakemisto on edelleen kooltaan pienempi kuin perinteinen hakemisto. Saannin kannalta paras hakemisto oli sellainen, jossa hakemiston sanat olivat perusmuodossa ja hakemisto sisälsi myös yhdyssanojen kaikki osat. Tässä tapauksessa saatiin myös ne sanat, joissa hakusana oli esiintynyt muualla kuin yhdyssanan alkuosana, kun ne muista hakemistoista haettaessa jäivät löytymättä. Vaikka hakujen saanti oli hyvä, tarkkuus ei vastaavasti huonontunut, vaan oli samaa luokkaa kuin muissa hakemistoissa. Myös perinteisestä hakujärjestelmästä saatiin hyvä saanti, kun hakijan oletettiin osaavan katkaista hakusanat optimaalisesta kohdasta. Lyhyeksi katkaistujen hakusanojen ongelmana kuitenkin oli huono tarkkuus. Tarkin hakutulos saatiin haettaessa perinteisestä, taivutusmuodot sisältävästä hakemistosta automaattisesti katkaistuilla hakusanoilla ja seulomalla perusmuotoon palauttavan ohjelman avulla pois ne hakemiston sanat, jotka eivät olleet alkuperäisen hakusanan taivutusmuotoja Tässä tapauksessa saanti kuitenkin oli selvästi huonompi kuin muissa hakemistoissa. Tutkimuksessa selvitettiin myös, mitä ongelmia perusmuotoisten hakusanojen ja perusmuotohakemistojen käytössä on. Kun perinteisesti itse katkaistuilla hakusanoilla saadaan samalla haetuksi sekä yhdyssanat että johdokset, ne on perusmuotoisia hakutermejä käytettäessä tietoisesti liitettävä mukaan kyselyyn. Lisäksi ongelmia tuovat taivutusmuodossa annetut tai suomen kielen tulkintaohjelmille tuntemattomat hakusanat. Hakujärjestelmään on liitettävä virheenkorjaustoimintoja, jotta suomen kielen tulkintaohjelmien tallennusvaiheessa tekemät väärät tulkinnat voidaan hakuvaiheessa korjata automaattisesti.

AB - Suomenkielisten tekstitietokantojen tallennus- ja hakutekniikat (FULLTEXT) -projektissa tuotettiin useita testitietokantoja, joissa kokeiltiin käytännössä, millä tavoin suomen kielen tulkintaohjelmat vaikuttavat hakujärjestelmien ominaisuuksiin ja tiedonhaun tuloksiin. Testijärjestelminä olivat KTA-Papyrus Oy:n edustama BASIS-tiedonhakujärjestelmä ja VTKK:n kokeellinen APL-MINTTU-hakujärjestelmä. Suomen kielen tulkintaohjelmina käytettiin pääasiassa Kielikone Oy:n HAHMOTIN- ja MORFO-ohjelmia sekä Lingsoft Oy:n FINSTEMS-ohjelmaa. Kun hakemistoon tallennettavat sanat palautetaan perusmuotoon, tällainen hakemisto vie vähemmän muistitilaa kuin perinteinen hakemisto, johon sanat tallennetaan taivutusmuotoisina. Siinäkin tapauksessa, että perusmuotohakemisto sisältää perusmuotojen lisäksi myös yhdyssanojen eri osat, hakemisto on edelleen kooltaan pienempi kuin perinteinen hakemisto. Saannin kannalta paras hakemisto oli sellainen, jossa hakemiston sanat olivat perusmuodossa ja hakemisto sisälsi myös yhdyssanojen kaikki osat. Tässä tapauksessa saatiin myös ne sanat, joissa hakusana oli esiintynyt muualla kuin yhdyssanan alkuosana, kun ne muista hakemistoista haettaessa jäivät löytymättä. Vaikka hakujen saanti oli hyvä, tarkkuus ei vastaavasti huonontunut, vaan oli samaa luokkaa kuin muissa hakemistoissa. Myös perinteisestä hakujärjestelmästä saatiin hyvä saanti, kun hakijan oletettiin osaavan katkaista hakusanat optimaalisesta kohdasta. Lyhyeksi katkaistujen hakusanojen ongelmana kuitenkin oli huono tarkkuus. Tarkin hakutulos saatiin haettaessa perinteisestä, taivutusmuodot sisältävästä hakemistosta automaattisesti katkaistuilla hakusanoilla ja seulomalla perusmuotoon palauttavan ohjelman avulla pois ne hakemiston sanat, jotka eivät olleet alkuperäisen hakusanan taivutusmuotoja Tässä tapauksessa saanti kuitenkin oli selvästi huonompi kuin muissa hakemistoissa. Tutkimuksessa selvitettiin myös, mitä ongelmia perusmuotoisten hakusanojen ja perusmuotohakemistojen käytössä on. Kun perinteisesti itse katkaistuilla hakusanoilla saadaan samalla haetuksi sekä yhdyssanat että johdokset, ne on perusmuotoisia hakutermejä käytettäessä tietoisesti liitettävä mukaan kyselyyn. Lisäksi ongelmia tuovat taivutusmuodossa annetut tai suomen kielen tulkintaohjelmille tuntemattomat hakusanat. Hakujärjestelmään on liitettävä virheenkorjaustoimintoja, jotta suomen kielen tulkintaohjelmien tallennusvaiheessa tekemät väärät tulkinnat voidaan hakuvaiheessa korjata automaattisesti.

KW - automatic language processing

KW - information retrieval

KW - information systems

KW - natural languages

KW - Finnish language

KW - Finland

M3 - Report

SN - 951-38-4113-8

T3 - VTT Julkaisuja

BT - Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla

PB - VTT Technical Research Centre of Finland

ER -

Alkula R, Honkela T. Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla: FULLTEXT-projektin loppuraportti. VTT Technical Research Centre of Finland, 1992. 103 p. (VTT Julkaisuja - Publikationer; No. 765).