Selles allkorpuses on populaarteadusliku ajakirja «Horisont» numbrid aastatest 1996 - 2003, (230 artiklit 7 failis), 260 000 sõna, mis jaotuvad aastati järgmiselt:
aasta | sõnu |
---|---|
1996 | 6 729 |
1997 | 19 973 |
1998 | 44 982 |
1999 | 38 230 |
2000 | 52 017 |
2001 | 36 060 |
2002 | 42 480 |
2003 | 18 595 |
Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keel ja rahvuskultuur“.
NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!
Tekstid on pärit koduleheküljelt http://www.horisont.ee seisuga 9. oktoober 2003
Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Heiki-Jaan Kaalep
Ühes failis on ühe aasta artiklid. Välja on jäetud mitte-tekstiline materjal, so pildid.
Algselt oli tekst kujundatud tabelina; seda ta enam pole. Kui ühes algfailis oli mitu erinevat artiklit, siis märgendus on ikkagi selline nagu oleks seal üks artikkel.
Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause
Ma nägin, et ta tuleb, ja ütlesin: "Tere!"
on korpuses kujul
Ma nägin , et ta tuleb , ja ütlesin : " Tere !"
Allalaaditavad failid on märgendatud TEI põhimõtete järgi.
Allalaaditavate korpuseversioonide struktuur on järgmine:
Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Tabelites ja pealkirjades olev tekst on lausestatud ainult juhul, kui <cell> või <head> väljas oli punktiga eraldatud lauseid. Pealkirjad ja autorid on märgendatud. Autori märgenduseks on <bibl> <author>; autorit iseloomustav tekst on samas sees (nt. toimetaja). Märgend <lb> tähistab tabelites vm. olnud kujunduslikku reavahetust. Muidu pole teksti struktuur märgendatud: märgendamata on alapealkirjad, joonealused viited, fotoallkirjad, intervjuude küsimused jpm.
Tekstides on kasutatud järgmisi märgendeid:
Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina märgendatud, kasutades atribuuti rend. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:
<hi rend="rasvane", rend="kaldkiri", rend="ülaindeks", rend="alaindeks"
Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.
SGML-failides esinevad olemid on kirjas selles tabelis