Suomenkielisten tekstitietokantojen tallennus ja hakutekniikkojen kehittäminen

Translated title of the contribution: Developing the storage and retrieval techniques of Finnish text databases. Preliminary study

Eero Sormunen, Riitta Alkula

Research output: Book/ReportReport

Abstract

Julkaisun tavoitteena on esittää yleistajuisessa muodossa suomenkielisten tekstitietokantojen tallennus- ja hakutekniikkoihin liittyviä ongelmia ja kehittämistarpeita. Tarkastelun kohteena ovat paljon vapaamuotoista tekstiä sisältävät elektroniset arkistot, joista esimerkkeinä voidaan mainita lehtien tekstiarkistot, julkishallinnon dokumenttiarkistot ja toimistojen tekstiarkistot. Aluksi esitellään vapaatekstihakuun ja Boolen logiikkaan perustuvan tiedonhakujärjestelmän toimintaperiaatteet. Sen jälkeen kuvataan kirjallisuustutkimuksen valossa tekstitietokantojen erityiskysymyksiä: muistilavaatimuksia, löytyvyys -(saanti-) ja tarkkuusongelmia sekä dokumenttien teknisen ja sisällöllisen kuvailun (indeksoinnin) tarvetta. Suomen kielen erityiskysymyksistä tiedonhaussa käsitellään mm. sanojen taipumista, yhdyssanoja, homografiaa, johdoksia ja sanaliittoja, sekä esitellään suomen kieltä analysoivia ohjelmia. Myös tekstitietokantojen käyttäjiä ja käyttöliittymiä käsitellään lyhyesti. Julkaisu päättyy tutkimussuunnitelmaan, joka sisältää neljä projektiehdotusta: 1) tekstitietokantojen suunnittelumenetelmät 2) perusmuodoilla haku ja perusmuotoiset hakemistot 3) dokumenttien indeksoinnin automatisointi ja 4) käyttäjän sanastotuen kehittäminen. Kolme ensin mainittua ehdotusta liittyvät tietokannan rakentamiseen ja ne esitetään toteutettavaksi välittömästi. Neljäs projekti liittyy käyttöliittymän kehittämiseen ja se esitetään toteutettavaksi myöhemmin.
Translated title of the contributionDeveloping the storage and retrieval techniques of Finnish text databases. Preliminary study
Original languageFinnish
Place of PublicationEspoo
PublisherVTT Technical Research Centre of Finland
Number of pages60
ISBN (Print)951-38-3691-6
Publication statusPublished - 1990
MoE publication typeNot Eligible

Publication series

SeriesValtion teknillinen tutkimuskeskus. Tiedotteita
Number1121
ISSN0358-5085

Keywords

  • automatic language processing
  • information retrieval
  • information systems
  • natural languages
  • Finnish language
  • Finland
  • index terms

Fingerprint

Dive into the research topics of 'Developing the storage and retrieval techniques of Finnish text databases. Preliminary study'. Together they form a unique fingerprint.

Cite this