English

Eesti keele koondkorpus

Eesti keele koondkorpuse loomist on rahastanud:

Milleks meile selline korpus?

Tänapäeva arvutilingvistika (ega ka muu lingvistika) ei saa kuidagi hakkama tekstikorpusteta, st suurte süstemaatiliste struktureeritud tekstikogudeta. Arvutilingvistika ja keelestatistika vajadusteks ei piisa enam paarist miljonist sõnast koosnevatest korpustest, vaja läheb mitmekümnest miljonist, veel parem, mitmesajast miljonist sõnast koosnevaid korpusi.

Millest korpus koosneb?

Siin korpuses on terviktekstid, mitte 2000-sõnalised tekstikatked, millest suures osas koosneb Eesti Kirjakeele Korpus 1890-1990. Korpus sisaldab ainult kirjalikku keelekasutust.

Koondkorpuses järgmised allkorpused:

Segakorpuse tasakaalustatud alaosa on Tasakaalus korpus.

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kaks võimalust:

Allalaaditavate tekstideni pääseb iga allkorpuse kirjelduse juurest. Mõnda kasutajaliidese kaudu kasutatavat teksti ei saa terviktekstina alla laadida.

Millisel kujul on Koondkorpuse tekstid?

Allalaaditavad failid on märgendatud TEI põhimõtete järgi. Allalaaditava korpuseversiooni struktuur on järgmine:

Keeleveebi kaudu kasutatavas korpuses on igale tekstisõnale lisatud info tema algvormi e lemma, morfoloogiliste kategooriate ja Tasakaalus korpusesse kuuluvates tekstides ka süntaktilise funktsiooni kohta.

Kuidas me seda teeme?

Korpuse koostamise hõlbustamiseks kogume esmajoones neid tekste, mis on juba elektroonilistel kandjatel, lihtsaim viis on koguda internetis olevaid tekste. Enim on internetis muidugi ajakirjandust, kuid sel viisil on võimalik hankida ka nt seaduste tekste, teadustekste jms. Enim on probleeme ilukirjandusega - arusaadavalt autorikaitse põhjustel.

Eesmärgiks on vajalikud tööd võimalikult suurel määral automatiseerida. Esialgne idee oli kirjutada üks programm, mis tõmbaks võrgust vajalikud tekstid, konverteeriks need HTML kujult TEI kujule (TEI - Text Encoding Initiative, üks korpuste märgendamise standardeid), märgendaks teksti osad, nende osade pealkirjad ja allkirjad, lõigud ja laused ning kontrolliks tulemuse formaalset korrektsust so vastavust SGML standardile. Seejärel on võimalik tekstid morfoloogilise analüsaatori abil lemmatiseerida and ühestada. Lõppeesmärgiks on lausestatud tekst, millele on võimalik esitada päringuid nii sõna algvormi, sõnavormi kui ka suvalise stringi kohta. Praegu kasutajaliidese kaudu kasutatavad tekstid on lausestatud, kuid lemmatiseerimata.

Töö käigus aga selgus, et tekstide, eriti ajalehetekstide esitus internetis on niivõrd varieeruv, et ainult üks programm ei ole võimeline nendega toime tulema, iga uus väljaanne kujutab endast uut ülesannet.

Korpuslingvistikas räägitakse palju korpuse representatiivsusest, mis tähendab seda, et korpuses peaksid olema esindatud kõik (või valitud) tekstiklassid, mis antud kultuuris antud ajavahemikul olemas on ja korpuse tasakaalustatusest, mis tähendab seda, et nende tekstiklasside esindatus korpuses peab vastama nende esindatusele antud kultuuris. Tegelikult kaotavad representatiivsus and tasakaalustatus oma tähtsust sedamööda, kui korpused järjest mahukamaks muutuvad.
Tõeliselt suuri representatiivseid korpusi on maailmas koostatud suhteliselt vähe, üks tänapäevasemaid näiteid on briti inglise keele British National Corpus.

Suure koondkorpuse allosadest on koostatud väiksem, ent (rohkem) tasakaalus korpus, mille nimeks ongi Tasakaalus korpus. See sisaldab ajalehti, ilu- ja teaduskirjandust, igaühte 5 miljonit sõna.

Kuna Tasakaalus korpus on Koondkorpuse allosa, siis on ta kasutajaliideses esitatud eraldi päringuaknas (et vältida viga, mil päringule vastuseks saab kaks korda sama lause).

Koondkorpus ei ole enam suurim eesti keele korpus, selleks on hoopis Eesti Keele Instituudi ja Lexical Computing Ltd koostöös koostatud internetikorpus etTenTen, millele saab esitada päringuid Keeleveebi kaudu.


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: Wed, 09. December 2015 17:15 EET.