TY - BOOK
T1 - Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla
T2 - FULLTEXT-projektin loppuraportti
AU - Alkula, Riitta
AU - Honkela, Timo
N1 - in RawData
PY - 1992
Y1 - 1992
N2 - Suomenkielisten tekstitietokantojen tallennus- ja
hakutekniikat (FULLTEXT)
-projektissa tuotettiin
useita testitietokantoja, joissa kokeiltiin käytännössä,
millä tavoin suomen
kielen tulkintaohjelmat
vaikuttavat hakujärjestelmien ominaisuuksiin ja
tiedonhaun tuloksiin.
Testijärjestelminä olivat
KTA-Papyrus Oy:n edustama BASIS-tiedonhakujärjestelmä ja
VTKK:n kokeellinen
APL-MINTTU-hakujärjestelmä. Suomen kielen
tulkintaohjelmina käytettiin
pääasiassa Kielikone
Oy:n HAHMOTIN- ja MORFO-ohjelmia sekä Lingsoft Oy:n
FINSTEMS-ohjelmaa.
Kun hakemistoon tallennettavat sanat palautetaan
perusmuotoon, tällainen
hakemisto vie vähemmän
muistitilaa kuin perinteinen hakemisto, johon sanat
tallennetaan
taivutusmuotoisina. Siinäkin
tapauksessa, että perusmuotohakemisto sisältää
perusmuotojen lisäksi myös
yhdyssanojen eri osat,
hakemisto on edelleen kooltaan pienempi kuin perinteinen
hakemisto.
Saannin kannalta paras hakemisto oli sellainen, jossa
hakemiston sanat olivat
perusmuodossa ja
hakemisto sisälsi myös yhdyssanojen kaikki osat. Tässä
tapauksessa saatiin myös
ne sanat, joissa
hakusana oli esiintynyt muualla kuin yhdyssanan
alkuosana, kun ne muista
hakemistoista haettaessa
jäivät löytymättä. Vaikka hakujen saanti oli hyvä,
tarkkuus ei vastaavasti
huonontunut, vaan oli
samaa luokkaa kuin muissa hakemistoissa. Myös
perinteisestä hakujärjestelmästä
saatiin hyvä saanti,
kun hakijan oletettiin osaavan katkaista hakusanat
optimaalisesta kohdasta.
Lyhyeksi katkaistujen
hakusanojen ongelmana kuitenkin oli huono tarkkuus.
Tarkin hakutulos saatiin haettaessa perinteisestä,
taivutusmuodot sisältävästä
hakemistosta
automaattisesti katkaistuilla hakusanoilla ja seulomalla
perusmuotoon
palauttavan ohjelman avulla
pois ne hakemiston sanat, jotka eivät olleet alkuperäisen
hakusanan
taivutusmuotoja Tässä
tapauksessa saanti kuitenkin oli selvästi huonompi kuin
muissa hakemistoissa.
Tutkimuksessa selvitettiin myös, mitä ongelmia
perusmuotoisten hakusanojen ja
perusmuotohakemistojen käytössä on. Kun perinteisesti
itse katkaistuilla
hakusanoilla saadaan samalla
haetuksi sekä yhdyssanat että johdokset, ne on
perusmuotoisia hakutermejä
käytettäessä tietoisesti
liitettävä mukaan kyselyyn. Lisäksi ongelmia tuovat
taivutusmuodossa annetut
tai suomen kielen
tulkintaohjelmille tuntemattomat hakusanat.
Hakujärjestelmään on liitettävä
virheenkorjaustoimintoja,
jotta suomen kielen tulkintaohjelmien tallennusvaiheessa
tekemät väärät
tulkinnat voidaan
hakuvaiheessa korjata automaattisesti.
AB - Suomenkielisten tekstitietokantojen tallennus- ja
hakutekniikat (FULLTEXT)
-projektissa tuotettiin
useita testitietokantoja, joissa kokeiltiin käytännössä,
millä tavoin suomen
kielen tulkintaohjelmat
vaikuttavat hakujärjestelmien ominaisuuksiin ja
tiedonhaun tuloksiin.
Testijärjestelminä olivat
KTA-Papyrus Oy:n edustama BASIS-tiedonhakujärjestelmä ja
VTKK:n kokeellinen
APL-MINTTU-hakujärjestelmä. Suomen kielen
tulkintaohjelmina käytettiin
pääasiassa Kielikone
Oy:n HAHMOTIN- ja MORFO-ohjelmia sekä Lingsoft Oy:n
FINSTEMS-ohjelmaa.
Kun hakemistoon tallennettavat sanat palautetaan
perusmuotoon, tällainen
hakemisto vie vähemmän
muistitilaa kuin perinteinen hakemisto, johon sanat
tallennetaan
taivutusmuotoisina. Siinäkin
tapauksessa, että perusmuotohakemisto sisältää
perusmuotojen lisäksi myös
yhdyssanojen eri osat,
hakemisto on edelleen kooltaan pienempi kuin perinteinen
hakemisto.
Saannin kannalta paras hakemisto oli sellainen, jossa
hakemiston sanat olivat
perusmuodossa ja
hakemisto sisälsi myös yhdyssanojen kaikki osat. Tässä
tapauksessa saatiin myös
ne sanat, joissa
hakusana oli esiintynyt muualla kuin yhdyssanan
alkuosana, kun ne muista
hakemistoista haettaessa
jäivät löytymättä. Vaikka hakujen saanti oli hyvä,
tarkkuus ei vastaavasti
huonontunut, vaan oli
samaa luokkaa kuin muissa hakemistoissa. Myös
perinteisestä hakujärjestelmästä
saatiin hyvä saanti,
kun hakijan oletettiin osaavan katkaista hakusanat
optimaalisesta kohdasta.
Lyhyeksi katkaistujen
hakusanojen ongelmana kuitenkin oli huono tarkkuus.
Tarkin hakutulos saatiin haettaessa perinteisestä,
taivutusmuodot sisältävästä
hakemistosta
automaattisesti katkaistuilla hakusanoilla ja seulomalla
perusmuotoon
palauttavan ohjelman avulla
pois ne hakemiston sanat, jotka eivät olleet alkuperäisen
hakusanan
taivutusmuotoja Tässä
tapauksessa saanti kuitenkin oli selvästi huonompi kuin
muissa hakemistoissa.
Tutkimuksessa selvitettiin myös, mitä ongelmia
perusmuotoisten hakusanojen ja
perusmuotohakemistojen käytössä on. Kun perinteisesti
itse katkaistuilla
hakusanoilla saadaan samalla
haetuksi sekä yhdyssanat että johdokset, ne on
perusmuotoisia hakutermejä
käytettäessä tietoisesti
liitettävä mukaan kyselyyn. Lisäksi ongelmia tuovat
taivutusmuodossa annetut
tai suomen kielen
tulkintaohjelmille tuntemattomat hakusanat.
Hakujärjestelmään on liitettävä
virheenkorjaustoimintoja,
jotta suomen kielen tulkintaohjelmien tallennusvaiheessa
tekemät väärät
tulkinnat voidaan
hakuvaiheessa korjata automaattisesti.
KW - automatic language processing
KW - information retrieval
KW - information systems
KW - natural languages
KW - Finnish language
KW - Finland
M3 - Report
SN - 951-38-4113-8
T3 - VTT Julkaisuja - Publikationer
BT - Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla
PB - VTT Technical Research Centre of Finland
ER -