English

Segakorpus: Eesti Ekspress

Sisu ja maht

Selles allkorpuses on ajalehe 'Eesti Ekspress' numbrid alates 09. 08. 1996 kuni 29. 11.  2001.

Need tekstid on osa eesti keele Koondkorpusest. Korpuse loomist on toetanud riiklik programm „Eesti keele keeletehnoloogiline tugi“ projektiga „Eesti keele koondkorpus“.

NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!

Eesti Ekspressi korpuses on kokku 7,2 miljonit sõna, aastate kaupa täpsemalt:

AASTA
SÕNU
1996
293886
1997
890856
1998
1263175
1999
1628341
2000
1625561
2001
1458048
KOKKU
7159867

Allikmaterjal

Tekstid pärinevad Eesti ekspressi internetiarhiivist, nad on automaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Kaarel Kaljurand, lausestas ja valideeris Heiki-Jaan Kaalep.

Ühes failis on üks lehenumber. Välja on jäetud mitte-tekstiline materjal so fotod, illustratsioonid, karikatuurid, koomiksid.

Märgendus

Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause

Ma nägin, et ta tuleb, ja ütlesin: "Tere!"

on korpuses kujul

Ma nägin , et ta tuleb , ja ütlesin : " Tere !"

Allalaaditavad failid on märgendatud TEI põhimõtete järgi.

Allalaaditavate korpuseversioonide struktuur on järgmine:

Fail so üks lehenumber on tüüpiliselt jagatud järgmisteks üksusteks:

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Tekstides parandusi pole tehtud, sõnu ei poolitata. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.

Tekstides on lisaks eespoolnimetatutele kasutatud järgmisi märgendeid:

<div3> ja <div4> pealkirjades ning autorite märgendamises võib esineda vigu.

Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms

Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina märgendatud, kasutades atribuuti rend. Kui šrifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:

<hi rend='rasvane'>, <hi rend='kaldkiri'>, <hi rend='ülaindeks'>, <hi rend='alaindeks'> <p rend='rasvane'>, <p rend='kaldkiri'>

Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. väljajätet näitav märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info ajaleheartikli autori ja pealkirja, rubriigi ja lehenumbri kohta.

Olemid

SGML-failides esinevad olemid on kirjas selles tabelis


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: R, 21. detsember 2018 15:49 UTC.