Vanad asjad:
Failis failid.zip on käsitsi ühestatud tekstid. Iga teksti on ühestanud teineteisest sõltumatult vähemalt 2 inimest; kolmas on tulemused hiljem ühtlustanud.
Töö selle korpusega algas COPERNICUS-projektiga "Multext-East" (1995-1997), mil ühestati G. Orwelli "1984". Valdav osa korpusest, 400 000 sõna, ühestati 2002-2003 riikliku sihtprogrammi "Eesti keel ja rahvuskultuur" toel. Põhilised tegijad on olnud: Külli Habicht, Heiki-Jaan Kaalep, Neeme Kahusk, Kadri Muishnek, Heili Orav, Andriela Rääbis, Kadri Vider.
Tekstid kuuluvad järgmistesse klassidesse (sõnade hulka ei ole arvestatud kirjavahemärke):
Liik | sõnade arv |
---|---|
Ilukirjandus (eesti autorid) | 104 000 |
G. Orwelli "1984" | 75 500 |
Ajakirjandus | 111 000 |
Seadused | 121 000 |
Horisont | 98 000 |
Info-tekstid | 4 000 |
Suuline* | 100 000 |
Kokku | 613 000 |
* morfoloogiliselt analüüsitud suulise kõne tekste saab kasutada ainult kasutajaliidese kaudu.
algavad on 3-tähelise klassi-koodiga (ilu[kirjandus], sea[dus], aja[kirjandus], hor[isont], inf[o], 1984).)
Kõik ilukirjanduse failid, v.a. "1984", on eesti kirjakeele korpusest. Faili nimes sisalduv number on sama, mis originaalil, ainult faili alguses olnud stkt või tkt on asendatud 3-tähelise koodiga ilu.
Ajakirjanduse failid on pärit mitmest erinevast korpusest ja kuuluvad vahemikku 1995-1999. Faili nimi ütleb ära, mis ajalehega on tegu.
Seadusetekstid on pärit: esiteks ÕTK koduleheküljelt http://www.legaltext.ee seisuga aprill 2002 ja teiseks kuskilt mujalt... ÕTK-st pärit failinimed sisaldavad täpselt sama numbrit, mis originaalid. Mujalt saadud tekstide failinimed ütlevad ise ära, mis seadusega on tegu.
Horisondi artiklid on pärit koduleheküljelt www.horisont.ee seisuga 9. oktoober 2003 ja esindavad aastaid 1996-2003. Failinimed on samuti pärit Horisondi koduleheküljelt.
Info-tekstid on pärit eesti kirjakeele korpusest; inf_tht0002 on klassist hobid-harrastused ja inf_tnt0011 klassist entsüklopeediad.
Sõnad on analüüsitud ükshaaval. Ühe sõna analüüsi tulemus on järgmine:
sõna tüvi+lõpp // analüüs //
Kui on tegemist liitsõna või tuletisega, siis:
Mitmesõnalistes pärisnimedes on analüüs antud kõigile osadele, kusjuures esimesed on analüüsitud kui teadmata vormis pärisnimed:
Rio Rio //_S_ prop ? //
de de //_S_ prop ? //
Janeiros Janeiro+s //_S_ prop sg in //
Omaette ridadel asuvad märgendid <s> ja </s> tähistavad lause või pealkirja algust ja lõppu; mõnedes failides esinevad <p> ja </p> tähistavad lõigu algust ja lõppu.
Kooditabeliks on utf-8. <, > ja & on tähistatud olemitena <, > ja &
Umbes 0,3% analüüsidest võib olla vaieldav või lausa vale.
Ebaühtlaselt on märgendatud 14.09.2004 seisuga nt järgmised sõnad:
näiteks siis varem vähem taoline igalt/ühelt+poolt ligi von van de
Kui sõna lõpus on algselt '-' siis on analüüs ebaühtlane; lõppu pole plussiga märgitud.