English

Ajalehed tasakaalus korpuses

Tasakaalus korpuse ajalehtede allkorpus sisaldab kokku 5 miljonit sõna ajalehekeelt aastatest 1995-2007. Korpuses on u 1,5 miljonit sõna Postimehe tekste, 1,5 miljonit sõna Päevalehe tekste, 1 miljon sõna (SL)Õhtulehe tekste, 1 miljon sõna Eesti Ekspressi tekste ja 1 miljon sõna Maalehe tekste. Korpuse täpset koostist näeb siit tabelist.

Allalaaditavad failid on märgendatud TEI põhimõtete järgi. Allalaaditava korpuseversiooni struktuur on järgmine: Ühes failis on üks ajalehenumber.

Iga korpusefail algab päisega <teiheader>. Päises on dokumenteeritud failis sisalduva ajalehe nimi ja kuupäev, sõnade arv tekstis ja faili suurus baitides, samuti on päises loetletud selles failis kasutatud märgendid ja nende arv.

Ajalehe tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>. Tekstides on märgendatud terviktekst (st lehenumber ja selle osad st rubriigid, võimalikud alamrubriigid ja artiklid).

Originaaltekstist väljajäetud materjal on asendatud märgendiga <gap>, millel on atribuut 'desc', mille väärtus kirjeldab väljajäetud materjali. Näiteks <gap desc='tabel'> või <gap desc='sisukord'>.

Kasutajaliidese kaudu kasutatavas korpuses on märgendus kustutatud, v.a. märgend <gap ...>.

Täpitähed jms on esitatud SGML-kujul. Kirjavahemärgid on sõnadest lahku tõstetud.

Võimalikud vead ja puudused:


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: N, 11. oktoober 2018 13:49 UTC.