Failis failid2004.zip on käsitsi ühestatud tekstid. Iga teksti on ühestanud teineteisest sõltumatult vähemalt 2 inimest; kolmas on tulemused hiljem ühtlustanud.
Töö selle korpusega algas COPERNICUS-projektiga "Multext-East" (1995-1997), mil ühestati G. Orwelli "1984". Valdav osa korpusest, 400 000 sõna, ühestati 2002-2003 riikliku sihtprogrammi "Eesti keel ja rahvuskultuur" toel. Põhilised tegijad on olnud: Külli Habicht, Heiki-Jaan Kaalep, Neeme Kahusk, Kadri Muishnek, Heili Orav, Andriela Rääbis, Kadri Vider.
Tekstid kuuluvad järgmistesse klassidesse (sõnade hulka ei ole arvestatud kirjavahemärke):
Liik | sõnade arv |
---|---|
Ilukirjandus (eesti autorid) | 104 000 |
G. Orwelli "1984" | 75 500 |
Ajakirjandus | 111 000 |
Seadused | 121 000 |
Horisont | 98 000 |
Info-tekstid | 4 000 |
Suuline* | 100 000 |
Kokku | 613 000 |
* morfoloogiliselt analüüsitud suulise kõne tekste saab kasutada ainult kasutajaliidese kaudu.
algavad on 3-tähelise klassi-koodiga (ilu[kirjandus], sea[dus], aja[kirjandus], hor[isont], inf[o], 1984).)
Kõik ilukirjanduse failid, v.a. "1984", on eesti kirjakeele korpusest. Faili nimes sisalduv number on sama, mis originaalil, ainult faili alguses olnud stkt või tkt on asendatud 3-tähelise koodiga ilu.
Ajakirjanduse failid on pärit mitmest erinevast korpusest ja kuuluvad vahemikku 1995-1999. Faili nimi ütleb ära, mis ajalehega on tegu.
Seadusetekstid on pärit: esiteks ÕTK koduleheküljelt http://www.legaltext.ee seisuga aprill 2002 ja teiseks kuskilt mujalt... ÕTK-st pärit failinimed sisaldavad täpselt sama numbrit, mis originaalid. Mujalt saadud tekstide failinimed ütlevad ise ära, mis seadusega on tegu.
Horisondi artiklid on pärit koduleheküljelt www.horisont.ee seisuga 9. oktoober 2003 ja esindavad aastaid 1996-2003. Failinimed on samuti pärit Horisondi koduleheküljelt.
Info-tekstid on pärit eesti kirjakeele korpusest; inf_tht0002 on klassist hobid-harrastused ja inf_tnt0011 klassist entsüklopeediad.
Sõnad on analüüsitud ükshaaval, v.a. mõned mitmesõnalised pärisnimed nagu New York, kus analüüs on antud nimele tervikuna. Ühe sõna analüüsi tulemus on järgmine:
sõna tüvi+lõpp // analüüs //
Kui on tegemist liitsõna või tuletisega, siis:
Mitmesõnalised nimed on sellisel kujul:
New Yorgis New York+s //_S_ prop sg in //
Omaette ridadel asuvad märgendid <s> ja </s> tähistavad lause või pealkirja algust ja lõppu; mõnedes failides esinevad <p> ja </p> tähistavad lõigu algust ja lõppu.
Peale tähtede ja numbrite on korpuses kasutatud järgmisi märke: ,;.:<>()!?%&"'*+-/=@_~
Täpitähed on sgml-kujul olemitena. Kõik korpuses kasutatud olemid on üles loetud olemite tabelis.
Mõttekriips on - või -- ja tema analüüs alati — (erinevalt etmrf | fs2kym väljundist, mille puhul väljundiks ongi -). Loetelu alguseks tekstis võib olla -. ja see on sel juhul analüüsitud kui —.
Jutumärgid on nii, nagu nad algtekstides olid tähistatud, ehk järgmiselt:
" | alustav või lõpetav kahekordne jutumärk |
' | alustav või lõpetav ühekordne jutumärk |
“ | alustav kahekordne jutumärk |
” | lõpetav kahekordne jutumärk |
‘ | alustav ühekordne jutumärk |
’ | lõpetav ühekordne jutumärk |
Umbes 0,3% analüüsidest võib olla vaieldav või lausa vale.
Ebaühtlaselt on märgendatud 14.09.2004 seisuga nt järgmised sõnad: näiteks siis varem vähem taoline n-ö igalt/ühelt+poolt ligi von van de
Kui sõna lõpus on algselt '-' siis on analüüs ebaühtlane; lõppu pole plussiga märgitud.