Suomenkielisten tekstitietokantojen tallennus ja hakutekniikkojen kehittäminen

Translated title of the contribution: Developing the storage and retrieval techniques of Finnish text databases. Preliminary study

Eero Sormunen, Riitta Alkula

Research output: Book/ReportReportProfessional

Abstract

Julkaisun tavoitteena on esittää yleistajuisessa muodossa suomenkielisten tekstitietokantojen tallennus- ja hakutekniikkoihin liittyviä ongelmia ja kehittämistarpeita. Tarkastelun kohteena ovat paljon vapaamuotoista tekstiä sisältävät elektroniset arkistot, joista esimerkkeinä voidaan mainita lehtien tekstiarkistot, julkishallinnon dokumenttiarkistot ja toimistojen tekstiarkistot. Aluksi esitellään vapaatekstihakuun ja Boolen logiikkaan perustuvan tiedonhakujärjestelmän toimintaperiaatteet. Sen jälkeen kuvataan kirjallisuustutkimuksen valossa tekstitietokantojen erityiskysymyksiä: muistilavaatimuksia, löytyvyys -(saanti-) ja tarkkuusongelmia sekä dokumenttien teknisen ja sisällöllisen kuvailun (indeksoinnin) tarvetta. Suomen kielen erityiskysymyksistä tiedonhaussa käsitellään mm. sanojen taipumista, yhdyssanoja, homografiaa, johdoksia ja sanaliittoja, sekä esitellään suomen kieltä analysoivia ohjelmia. Myös tekstitietokantojen käyttäjiä ja käyttöliittymiä käsitellään lyhyesti. Julkaisu päättyy tutkimussuunnitelmaan, joka sisältää neljä projektiehdotusta: 1) tekstitietokantojen suunnittelumenetelmät 2) perusmuodoilla haku ja perusmuotoiset hakemistot 3) dokumenttien indeksoinnin automatisointi ja 4) käyttäjän sanastotuen kehittäminen. Kolme ensin mainittua ehdotusta liittyvät tietokannan rakentamiseen ja ne esitetään toteutettavaksi välittömästi. Neljäs projekti liittyy käyttöliittymän kehittämiseen ja se esitetään toteutettavaksi myöhemmin.
Original languageFinnish
Place of PublicationEspoo
PublisherVTT Technical Research Centre of Finland
Number of pages60
ISBN (Print)951-38-3691-6
Publication statusPublished - 1990
MoE publication typeNot Eligible

Publication series

NameTiedotteita / Valtion teknillinen tutkimuskeskus
PublisherVTT
No.1121
ISSN (Print)0358-5085

Fingerprint

Databases

Keywords

  • automatic language processing
  • information retrieval
  • information systems
  • natural languages
  • Finnish language
  • Finland
  • index terms

Cite this

Sormunen, E., & Alkula, R. (1990). Suomenkielisten tekstitietokantojen tallennus ja hakutekniikkojen kehittäminen. Espoo: VTT Technical Research Centre of Finland. Valtion teknillinen tutkimuskeskus. Tiedotteita, No. 1121
Sormunen, Eero ; Alkula, Riitta. / Suomenkielisten tekstitietokantojen tallennus ja hakutekniikkojen kehittäminen. Espoo : VTT Technical Research Centre of Finland, 1990. 60 p. (Valtion teknillinen tutkimuskeskus. Tiedotteita; No. 1121).
@book{5ee07220f0d245c1bad0d62698365156,
title = "Suomenkielisten tekstitietokantojen tallennus ja hakutekniikkojen kehitt{\"a}minen",
abstract = "Julkaisun tavoitteena on esitt{\"a}{\"a} yleistajuisessa muodossa suomenkielisten tekstitietokantojen tallennus- ja hakutekniikkoihin liittyvi{\"a} ongelmia ja kehitt{\"a}mistarpeita. Tarkastelun kohteena ovat paljon vapaamuotoista teksti{\"a} sis{\"a}lt{\"a}v{\"a}t elektroniset arkistot, joista esimerkkein{\"a} voidaan mainita lehtien tekstiarkistot, julkishallinnon dokumenttiarkistot ja toimistojen tekstiarkistot. Aluksi esitell{\"a}{\"a}n vapaatekstihakuun ja Boolen logiikkaan perustuvan tiedonhakuj{\"a}rjestelm{\"a}n toimintaperiaatteet. Sen j{\"a}lkeen kuvataan kirjallisuustutkimuksen valossa tekstitietokantojen erityiskysymyksi{\"a}: muistilavaatimuksia, l{\"o}ytyvyys -(saanti-) ja tarkkuusongelmia sek{\"a} dokumenttien teknisen ja sis{\"a}ll{\"o}llisen kuvailun (indeksoinnin) tarvetta. Suomen kielen erityiskysymyksist{\"a} tiedonhaussa k{\"a}sitell{\"a}{\"a}n mm. sanojen taipumista, yhdyssanoja, homografiaa, johdoksia ja sanaliittoja, sek{\"a} esitell{\"a}{\"a}n suomen kielt{\"a} analysoivia ohjelmia. My{\"o}s tekstitietokantojen k{\"a}ytt{\"a}ji{\"a} ja k{\"a}ytt{\"o}liittymi{\"a} k{\"a}sitell{\"a}{\"a}n lyhyesti. Julkaisu p{\"a}{\"a}ttyy tutkimussuunnitelmaan, joka sis{\"a}lt{\"a}{\"a} nelj{\"a} projektiehdotusta: 1) tekstitietokantojen suunnittelumenetelm{\"a}t 2) perusmuodoilla haku ja perusmuotoiset hakemistot 3) dokumenttien indeksoinnin automatisointi ja 4) k{\"a}ytt{\"a}j{\"a}n sanastotuen kehitt{\"a}minen. Kolme ensin mainittua ehdotusta liittyv{\"a}t tietokannan rakentamiseen ja ne esitet{\"a}{\"a}n toteutettavaksi v{\"a}litt{\"o}m{\"a}sti. Nelj{\"a}s projekti liittyy k{\"a}ytt{\"o}liittym{\"a}n kehitt{\"a}miseen ja se esitet{\"a}{\"a}n toteutettavaksi my{\"o}hemmin.",
keywords = "automatic language processing, information retrieval, information systems, natural languages, Finnish language, Finland, index terms",
author = "Eero Sormunen and Riitta Alkula",
year = "1990",
language = "Finnish",
isbn = "951-38-3691-6",
series = "Tiedotteita / Valtion teknillinen tutkimuskeskus",
publisher = "VTT Technical Research Centre of Finland",
number = "1121",
address = "Finland",

}

Sormunen, E & Alkula, R 1990, Suomenkielisten tekstitietokantojen tallennus ja hakutekniikkojen kehittäminen. Valtion teknillinen tutkimuskeskus. Tiedotteita, no. 1121, VTT Technical Research Centre of Finland, Espoo.

Suomenkielisten tekstitietokantojen tallennus ja hakutekniikkojen kehittäminen. / Sormunen, Eero; Alkula, Riitta.

Espoo : VTT Technical Research Centre of Finland, 1990. 60 p. (Valtion teknillinen tutkimuskeskus. Tiedotteita; No. 1121).

Research output: Book/ReportReportProfessional

TY - BOOK

T1 - Suomenkielisten tekstitietokantojen tallennus ja hakutekniikkojen kehittäminen

AU - Sormunen, Eero

AU - Alkula, Riitta

PY - 1990

Y1 - 1990

N2 - Julkaisun tavoitteena on esittää yleistajuisessa muodossa suomenkielisten tekstitietokantojen tallennus- ja hakutekniikkoihin liittyviä ongelmia ja kehittämistarpeita. Tarkastelun kohteena ovat paljon vapaamuotoista tekstiä sisältävät elektroniset arkistot, joista esimerkkeinä voidaan mainita lehtien tekstiarkistot, julkishallinnon dokumenttiarkistot ja toimistojen tekstiarkistot. Aluksi esitellään vapaatekstihakuun ja Boolen logiikkaan perustuvan tiedonhakujärjestelmän toimintaperiaatteet. Sen jälkeen kuvataan kirjallisuustutkimuksen valossa tekstitietokantojen erityiskysymyksiä: muistilavaatimuksia, löytyvyys -(saanti-) ja tarkkuusongelmia sekä dokumenttien teknisen ja sisällöllisen kuvailun (indeksoinnin) tarvetta. Suomen kielen erityiskysymyksistä tiedonhaussa käsitellään mm. sanojen taipumista, yhdyssanoja, homografiaa, johdoksia ja sanaliittoja, sekä esitellään suomen kieltä analysoivia ohjelmia. Myös tekstitietokantojen käyttäjiä ja käyttöliittymiä käsitellään lyhyesti. Julkaisu päättyy tutkimussuunnitelmaan, joka sisältää neljä projektiehdotusta: 1) tekstitietokantojen suunnittelumenetelmät 2) perusmuodoilla haku ja perusmuotoiset hakemistot 3) dokumenttien indeksoinnin automatisointi ja 4) käyttäjän sanastotuen kehittäminen. Kolme ensin mainittua ehdotusta liittyvät tietokannan rakentamiseen ja ne esitetään toteutettavaksi välittömästi. Neljäs projekti liittyy käyttöliittymän kehittämiseen ja se esitetään toteutettavaksi myöhemmin.

AB - Julkaisun tavoitteena on esittää yleistajuisessa muodossa suomenkielisten tekstitietokantojen tallennus- ja hakutekniikkoihin liittyviä ongelmia ja kehittämistarpeita. Tarkastelun kohteena ovat paljon vapaamuotoista tekstiä sisältävät elektroniset arkistot, joista esimerkkeinä voidaan mainita lehtien tekstiarkistot, julkishallinnon dokumenttiarkistot ja toimistojen tekstiarkistot. Aluksi esitellään vapaatekstihakuun ja Boolen logiikkaan perustuvan tiedonhakujärjestelmän toimintaperiaatteet. Sen jälkeen kuvataan kirjallisuustutkimuksen valossa tekstitietokantojen erityiskysymyksiä: muistilavaatimuksia, löytyvyys -(saanti-) ja tarkkuusongelmia sekä dokumenttien teknisen ja sisällöllisen kuvailun (indeksoinnin) tarvetta. Suomen kielen erityiskysymyksistä tiedonhaussa käsitellään mm. sanojen taipumista, yhdyssanoja, homografiaa, johdoksia ja sanaliittoja, sekä esitellään suomen kieltä analysoivia ohjelmia. Myös tekstitietokantojen käyttäjiä ja käyttöliittymiä käsitellään lyhyesti. Julkaisu päättyy tutkimussuunnitelmaan, joka sisältää neljä projektiehdotusta: 1) tekstitietokantojen suunnittelumenetelmät 2) perusmuodoilla haku ja perusmuotoiset hakemistot 3) dokumenttien indeksoinnin automatisointi ja 4) käyttäjän sanastotuen kehittäminen. Kolme ensin mainittua ehdotusta liittyvät tietokannan rakentamiseen ja ne esitetään toteutettavaksi välittömästi. Neljäs projekti liittyy käyttöliittymän kehittämiseen ja se esitetään toteutettavaksi myöhemmin.

KW - automatic language processing

KW - information retrieval

KW - information systems

KW - natural languages

KW - Finnish language

KW - Finland

KW - index terms

M3 - Report

SN - 951-38-3691-6

T3 - Tiedotteita / Valtion teknillinen tutkimuskeskus

BT - Suomenkielisten tekstitietokantojen tallennus ja hakutekniikkojen kehittäminen

PB - VTT Technical Research Centre of Finland

CY - Espoo

ER -

Sormunen E, Alkula R. Suomenkielisten tekstitietokantojen tallennus ja hakutekniikkojen kehittäminen. Espoo: VTT Technical Research Centre of Finland, 1990. 60 p. (Valtion teknillinen tutkimuskeskus. Tiedotteita; No. 1121).