English

Morfoloogiliselt ühestatud korpus

Vanad asjad:

Failis failid.zip on käsitsi ühestatud tekstid. Iga teksti on ühestanud teineteisest sõltumatult vähemalt 2 inimest; kolmas on tulemused hiljem ühtlustanud.

Sisu

Töö selle korpusega algas COPERNICUS-projektiga "Multext-East" (1995-1997), mil ühestati G. Orwelli "1984". Valdav osa korpusest, 400 000 sõna, ühestati 2002-2003 riikliku sihtprogrammi "Eesti keel ja rahvuskultuur" toel. Põhilised tegijad on olnud: Külli Habicht, Heiki-Jaan Kaalep, Neeme Kahusk, Kadri Muishnek, Heili Orav, Andriela Rääbis, Kadri Vider.

Tekstid kuuluvad järgmistesse klassidesse (sõnade hulka ei ole arvestatud kirjavahemärke):

Liik sõnade arv
Ilukirjandus (eesti autorid) 104 000
G. Orwelli "1984" 75 500
Ajakirjandus 111 000
Seadused 121 000
Horisont 98 000
Info-tekstid 4 000
Suuline* 100 000
Kokku 613 000

* morfoloogiliselt analüüsitud suulise kõne tekste saab kasutada ainult kasutajaliidese kaudu.

Failinimed

algavad on 3-tähelise klassi-koodiga (ilu[kirjandus], sea[dus], aja[kirjandus], hor[isont], inf[o], 1984).)

Failide päritolu

Kõik ilukirjanduse failid, v.a. "1984", on eesti kirjakeele korpusest. Faili nimes sisalduv number on sama, mis originaalil, ainult faili alguses olnud stkt või tkt on asendatud 3-tähelise koodiga ilu.

Ajakirjanduse failid on pärit mitmest erinevast korpusest ja kuuluvad vahemikku 1995-1999. Faili nimi ütleb ära, mis ajalehega on tegu.

Seadusetekstid on pärit: esiteks ÕTK koduleheküljelt http://www.legaltext.ee seisuga aprill 2002 ja teiseks kuskilt mujalt... ÕTK-st pärit failinimed sisaldavad täpselt sama numbrit, mis originaalid. Mujalt saadud tekstide failinimed ütlevad ise ära, mis seadusega on tegu.

Horisondi artiklid on pärit koduleheküljelt www.horisont.ee seisuga 9. oktoober 2003 ja esindavad aastaid 1996-2003. Failinimed on samuti pärit Horisondi koduleheküljelt.

Info-tekstid on pärit eesti kirjakeele korpusest; inf_tht0002 on klassist hobid-harrastused ja inf_tnt0011 klassist entsüklopeediad.

Faili sisu

Sõnad on analüüsitud ükshaaval. Ühe sõna analüüsi tulemus on järgmine:

sõna     tüvi+lõpp // analüüs //

Kui on tegemist liitsõna või tuletisega, siis:

Mitmesõnalistes pärisnimedes on analüüs antud kõigile osadele, kusjuures esimesed on analüüsitud kui teadmata vormis pärisnimed:

Rio Rio //_S_ prop ? //

de de //_S_ prop ? //

Janeiros Janeiro+s //_S_ prop sg in //

Omaette ridadel asuvad märgendid <s> ja </s> tähistavad lause või pealkirja algust ja lõppu; mõnedes failides esinevad <p> ja </p> tähistavad lõigu algust ja lõppu.

Tähed ja märgid

Kooditabeliks on utf-8. <, > ja & on tähistatud olemitena &lt;, &gt; ja &amp;

Teadaolevad probleemid

Umbes 0,3% analüüsidest võib olla vaieldav või lausa vale.

Ebaühtlaselt on märgendatud 14.09.2004 seisuga nt järgmised sõnad: näiteks siis varem vähem taoline igalt/ühelt+poolt ligi von van de

Kui sõna lõpus on algselt '-' siis on analüüs ebaühtlane; lõppu pole plussiga märgitud.

Kirjandust

  1. H.-J. Kaalep, K. Muischnek, K. Müürisep, A. Rääbis, K. Habicht. Kas tegelik tekst allub eesti keele morfoloogilistele kirjeldustele? Eesti kirjakeele testkorpuse morfosüntaktilise märgendamise kogemusest. Keel ja Kirjandus 9/2000, lk. 623-633 doc fail, pdf fail
  2. K. Muischnek, K. Vider. Sõnaliigituse kitsaskohad eesti keele arvutianalüüsis esitatud avaldamiseks Rakenduslingvistika konverentsi 2004 kogumikus doc fail pdf fail

Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: N, 02. veebruar 2023 10:42 UTC.