Morfoloogiliselt ühestatud korpus

Vanad asjad:

Morfoloogiliselt ühestatud korpuse kasutajaliides
Korpuse 2004. a. versioon erineb käesolevast tähekodeeeringu ning mitmesõnaliste pärisnimede esitusviisi poolest.

Failis failid.zip on käsitsi ühestatud tekstid. Iga teksti on ühestanud teineteisest sõltumatult vähemalt 2 inimest; kolmas on tulemused hiljem ühtlustanud.

Sisu

Töö selle korpusega algas COPERNICUS-projektiga "Multext-East" (1995-1997), mil ühestati G. Orwelli "1984". Valdav osa korpusest, 400 000 sõna, ühestati 2002-2003 riikliku sihtprogrammi "Eesti keel ja rahvuskultuur" toel. Põhilised tegijad on olnud: Külli Habicht, Heiki-Jaan Kaalep, Neeme Kahusk, Kadri Muishnek, Heili Orav, Andriela Rääbis, Kadri Vider.

Tekstid kuuluvad järgmistesse klassidesse (sõnade hulka ei ole arvestatud kirjavahemärke):

Liik	sõnade arv
Ilukirjandus (eesti autorid)	104 000
G. Orwelli "1984"	75 500
Ajakirjandus	111 000
Seadused	121 000
Horisont	98 000
Info-tekstid	4 000
Suuline*	100 000
Kokku	613 000

* morfoloogiliselt analüüsitud suulise kõne tekste saab kasutada ainult kasutajaliidese kaudu.

Failinimed

algavad on 3-tähelise klassi-koodiga (ilu[kirjandus], sea[dus], aja[kirjandus], hor[isont], inf[o], 1984).)

Failide päritolu

Kõik ilukirjanduse failid, v.a. "1984", on eesti kirjakeele korpusest. Faili nimes sisalduv number on sama, mis originaalil, ainult faili alguses olnud stkt või tkt on asendatud 3-tähelise koodiga ilu.

Ajakirjanduse failid on pärit mitmest erinevast korpusest ja kuuluvad vahemikku 1995-1999. Faili nimi ütleb ära, mis ajalehega on tegu.

Seadusetekstid on pärit: esiteks ÕTK koduleheküljelt http://www.legaltext.ee seisuga aprill 2002 ja teiseks kuskilt mujalt... ÕTK-st pärit failinimed sisaldavad täpselt sama numbrit, mis originaalid. Mujalt saadud tekstide failinimed ütlevad ise ära, mis seadusega on tegu.

Horisondi artiklid on pärit koduleheküljelt www.horisont.ee seisuga 9. oktoober 2003 ja esindavad aastaid 1996-2003. Failinimed on samuti pärit Horisondi koduleheküljelt.

Info-tekstid on pärit eesti kirjakeele korpusest; inf_tht0002 on klassist hobid-harrastused ja inf_tnt0011 klassist entsüklopeediad.

Faili sisu

Sõnad on analüüsitud ükshaaval. Ühe sõna analüüsi tulemus on järgmine:

sõna tüvi+lõpp // analüüs //

<sõna> on sõna sellisena, nagu ta algselt esines
<tüvi> on lemma e. algvormi tüvi: käändsõnadel ainsuse nimetav (kui seda ei ole olemas, siis mitmuse nimetav), pöördsõnadel ma-infinitiivi tüvi ilma (ma-lõputa)
<lõpp> on sõna lõpp, kusjuures mitmuse tunnus on temaga liitunud (nagu seda on käsitletud ka Ülle Viksi "Väikeses vormisõnastikus"); partikkel GI/KI, kui ta esineb, on lihtsalt lõppu "kleepunud"; ka juhul, kui sõnal ei saagi lõppu olla (nt. hüüdsõnal), pannakse sõnale lõpp - nn. null-lõpp
<analüüs> on üks variantidest, mis on kõik esitatud morfoloogiliste kategooriate tabelis.

Kui on tegemist liitsõna või tuletisega, siis:

Tüvi on eristatud eelnevast komponendist '_' märgiga;
Lõpp on eristatud eelnevast komponendist '+' märgiga; nn. null-lõpp ongi '+0'
Sufiks on eristatud eelnevast komponendist '=' märgiga. Sufiksite märkimine ei ole järjekindel: märgitakse ainult teatud hulka produktiivseid sufikseid.
Lemmatüvi leitakse ainult viimase parempoolse komponendi alusel

Mitmesõnalistes pärisnimedes on analüüs antud kõigile osadele, kusjuures esimesed on analüüsitud kui teadmata vormis pärisnimed:

Rio Rio //_S_ prop ? //

de de //_S_ prop ? //

Janeiros Janeiro+s //_S_ prop sg in //

Omaette ridadel asuvad märgendid <s> ja </s> tähistavad lause või pealkirja algust ja lõppu; mõnedes failides esinevad <p> ja </p> tähistavad lõigu algust ja lõppu.

Tähed ja märgid

Kooditabeliks on utf-8. <, > ja & on tähistatud olemitena <, > ja &

Teadaolevad probleemid

Umbes 0,3% analüüsidest võib olla vaieldav või lausa vale.

Ebaühtlaselt on märgendatud 14.09.2004 seisuga nt järgmised sõnad: näiteks siis varem vähem taoline igalt/ühelt+poolt ligi von van de

Kui sõna lõpus on algselt '-' siis on analüüs ebaühtlane; lõppu pole plussiga märgitud.

Kirjandust

H.-J. Kaalep, K. Muischnek, K. Müürisep, A. Rääbis, K. Habicht. Kas tegelik tekst allub eesti keele morfoloogilistele kirjeldustele? Eesti kirjakeele testkorpuse morfosüntaktilise märgendamise kogemusest. Keel ja Kirjandus 9/2000, lk. 623-633 doc fail, pdf fail
K. Muischnek, K. Vider. Sõnaliigituse kitsaskohad eesti keele arvutianalüüsis esitatud avaldamiseks Rakenduslingvistika konverentsi 2004 kogumikus doc fail pdf fail