Selles allkorpuses on päevalehe Postimees lehenumbrid 27.11.1995 - 10.10.2000, (1760 numbrit 88 600 artikliga), kokku 32,9 miljonit sõna 2,5 miljonis lauses; aastate kaupa:
Aasta | maht |
---|---|
1995 | 0,4 |
1996 | 6,1 |
1997 | 6,8 |
1998 | 8,2 |
1999 | 6,5 |
2000 | 4,9 |
Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keel ja rahvuskultuur“.
NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!
Tekstid on pärit ajalehe Postimees internetiarhiivist https://www.postimees.ee.
Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult SGML TEI kujule. Vajalikud programmid kirjutasid Erik Saarts ja Heiki-Jaan Kaalep.
Ühes failis on üks lehenumber. Välja on jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid, karikatuurid, koomiksid). Välja on jäetud ka valuutakursside tabelid, telekavad, igasugune reklaam ja kuulutused, samuti horoskoop. Topelt artiklid on välja jäetud, kuid nt anekdootides ja raamatututvustustes esineb palju korduvaid tekstilõike.
Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause
Ma nägin, et ta tuleb, ja ütlesin: "Tere!"
on korpuses kujul
Ma nägin , et ta tuleb , ja ütlesin : " Tere !"
Allalaaditavad failid on märgendatud TEI põhimõtete järgi.
Allalaaditavate korpuseversioonide struktuur on järgmine:
Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.
Tekstides parandusi pole tehtud, sõnu ei poolitata.
Tekstides on kasutatud järgmisi märgendeid:
<div2>, <div3> või <div4> pealkiri võib ka puududa; pealkirjade liigitamisel tasanditesse võib olla ebajärjekindlust. Plaadi-, raamatu- jm arvustuste puhul võib ühe <div4> sees olla tegelikult mitu mini-artiklit. <div1> ja <div2> ja sageli ka <div3> määratlemise aluseks olid algversiooni failinimed.
Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina märgendatud, kasutades atribuuti rend. Kui šrifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:
<hi rend='bold'>, <hi rend='italic'>, <hi rend='sup'>, <hi rend='underline'>, <hi>, <p rend='bold'>, <p rend='bold_italic'>, <p rend='bold_underline'>, <p rend='h3'>, <p rend='h3_bold'>, <p rend='h3_italic'>, <p rend='h4'>, <p rend='h4_bold'>, <p rend='italic'>, <p rend='italic_bold'>, <p rend='underline'>, <p rend='underline_bold'>
Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.
SGML-failides esinevad olemid on kirjas selles tabelis