Selles allkorpuses on Eesti Päevalehe lehenumbrid 18.10.1995 - 31.10.2007, (4065 numbrit 366862 artikliga), kokku 87,9 miljonit sõna 6,6 miljonis lauses.
aasta | numbrid | artiklid | laused | sõnad |
---|---|---|---|---|
1995 | 61 | 1876 | 58493 | 738037 |
1996 | 292 | 10867 | 305755 | 3946465 |
1997 | 286 | 13169 | 303103 | 4013049 |
1998 | 331 | 14546 | 338472 | 4377783 |
1999 | 310 | 18481 | 418157 | 5455466 |
2000 | 329 | 51070 | 934380 | 12329581 |
2001 | 338 | 63777 | 1065952 | 14246608 |
2002 | 356 | 35666 | 629646 | 8643510 |
2003 | 364 | 29366 | 584089 | 7937521 |
2004 | 364 | 28296 | 565734 | 7656749 |
2005 | 365 | 28977 | 561782 | 7586399 |
2006 | 365 | 36987 | 523889 | 7132934 |
2007 | 304 | 33784 | 273143 | 3836326 |
Kokku: | 4065 | 366862 | 6562595 | 87900428 |
Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keele keeletehnoloogiline tugi“ projekti „Koondkorpus“ kaudu.
NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!
Tekstid on pärit Eesti Päevalehe internetiarhiivist http://epl.ee.
Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Katrin Tsepelina.
Ăśhes failis on ĂĽks lehenumber. Välja on jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid, karikatuurid). Välja on jäetud ka valuutakursside tabelid, pankadevahelise rahaturu intressimäärade tabelid, saatekavad, edetabelid, sĂĽnnipäevaliste nimekirjad, rubriik "НаРусском", ilmateade ja horoskoop.
Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause
Ma nägin, et ta tuleb, ja ütlesin: "Tere!"
on korpuses kujul
Ma nägin , et ta tuleb , ja ütlesin : " Tere !"
Allalaaditavad failid on märgendatud TEI põhimõtete järgi.
Allalaaditavate korpuseversioonide struktuur on järgmine:
Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.
Tekstides parandusi pole tehtud, sõnu ei poolitata.
Kasutatud on järgmisi märgendeid:
Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina märgendatud, kasutades atribuuti rend. Kui šrifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule, kui tervet loendi üksust <item>, siis sellele. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:
hi rend="rasvane", rend="kaldkiri", rend="rasvane_kaldkiri", rend="allajoonitud", rend="väike", rend="väike_värviline", rend="värviline", rend="värviline_allajoonitud", rend="alaindeks", rend="ülaindeks"
item rend="hüperlink", rend="kaldkiri", rend="rasvane", rend="vahepealkiri", rend="värviline"
p rend="allajoonitud", rend="hüperlink", rend="kaldkiri", rend="keskel_rasvane", rend="rasvane", rend="rasvane_allajoonitud", rend="rasvane_kaldkiri", "rasvane_värviline", rend="suur", rend="suur_hüperlink", rend="suur_kaldkiri", rend="suur_rasvane", rend="tekst_pildi_all", rend="vahepealkiri", rend="väike", rend="värviline"
Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.
SGML-failides esinevad olemid on kirjas selles tabelis
Esinemisi |
Olem | Märk | Kirjeldus |
---|---|---|---|
46 | Á | Á | ladina suur A akuudiga |
1254 | á | á | ladina väike a akuudiga |
33 | â | â | ladina väike a tsirkumfleksiga e. katusega |
3 | Â | Â | ladina suur A tsirkumfleksiga e. katusega |
42 | Æ | Æ | (AE ligatuur) |
1508 | æ | æ | (ae ligatuur ) |
4 | À | À | ladina suur A graavisega |
221 | à | à | ladina väike a graavisega |
55 | ā | ā | ladina väike a ulakriipsuga |
9329 | & | & | ampersand |
128 | Å | Å | ladina suur A ülasooriga |
1260 | å | å | ladina väike a ülasooriga |
70 | ã | ã | ladina väike a tildega |
41881 | Ä | Ä | A |
6954694 | ä | ä | a |
71 | • | • | ### |
412 | ć | ć | ladina väike c akuudiga |
3 | Č | Č | ladina suur C haagiga |
13 | č | č | ladina väike c haagiga |
107 | ç | ç | ladina väike c sediiga |
7 | Ç | Ç | ladina suur C sediiga |
64 | Ĉ | Ĉ | ladina suur C tsirkumfleksiga e. katusega |
490 | ĉ | ć | ladina väike c tsirkumfleksiga e. katusega |
29 | © | © | autoriõiguse märk |
1 | † | † | ### |
651 | ° | ° | kraadimärk |
17 | ÷ | ÷ | jagamismärk |
98 | É | É | ladina suur E akuudiga |
4504 | é | é | ladina väike e akuudiga |
5 | ê | ê | ladina väike e tsirkumfleksiga e. katusega |
221 | è | è | ladina väike e graavisega |
10 | Ē | Ē | ladina suur e ulakriipsuga |
113 | ē | ē | ladina väike e ulakriipsuga |
575 | ë | ë | ladina väike e umlautiga |
7 | Ë | Ë | ladina suur E umlautiga |
25 | € | € | euro märk |
43 | ½ | ½ | murd 1/2 |
18 | ¼ | ¼ | murd 1/4 |
4 | ¾ | ¾ | murd 3/4 |
1 | ǵ | ǵ | ladina väike g akuudiga |
415 | > | > | suurem-kui-märk |
817 | … | … | ### |
203 | í | í | ladina väike i akuudiga |
2 | Í | Í | ladina väike l akuudiga |
3 | î | î | ladina väike i tsirkumfleksiga e. katusega |
3 | ì | ì | ladina väike i graavisega |
41 | ī | ī | ladina väike i ulakriipsuga |
32 | ï | ï | ladina väike i umlautiga |
155 | ķ | ķ | ladina väike k sediiga |
6 | Ķ | Ķ | ladina suur K sediiga |
13 | ļ | ļ | ladina väike l sediiga |
60 | < | < | vaiksem-kui-märk |
2 | Ń | Ń | ladina suur N akuudiga |
9 | ń | ń | ladina väike n akuudiga |
26 | | tuhik | |
36 | ņ | ń | ladina väike n sediiga |
2 | ≠ | ≠ | ei-võrdu-märk |
180 | ñ | ñ | ladina väike n tildega |
716 | ó | ó | ladina väike o akuudiga |
16 | Ó | Ó | ladina suur O akuudiga |
333 | ô | ô | ladina väike o tsirkumfleksiga e. katusega |
2 | œ | œ | (oe ligatuur) |
3 | ò | ò | ladina väike o graavisega |
3 | Ō | Ō | ladina suur O ulakriipsuga |
56 | ō | ō | ladina väike o ulakriipsuga |
1829 | ø | ø | ladina väike o labiva kaldkriipsuga |
53 | Ø | Ø | ladina suur O labiva kaldkriipsuga |
5816758 | õ | õ | õ |
66638 | Õ | Õ | Õ |
1746821 | ö | ö | ö |
13594 | Ö | Ö | Ö |
201 | ‰ | ‰ | promilli märk |
10 | ± | ± | pluss-miinus |
724 | ? | ? | küsimärk |
7 | → | → | paremale näitav nool |
2 | ř | ř | ladina väike r haagiga |
44 | ® | ® | registreeritud kaubamärk |
6 | Ś | Ś | ladina suur S akuudiga |
37 | ś | ś | ladina väike s akuudiga |
102757 | š | ř | š |
19033 | Š | Š | Š |
14 | ş | ş | ladina väike s sediiga |
22 | Ş | Ş | ladina suur S sediiga |
2140 | § | § | paragrahvi märk |
17 | ¹ | ¹ | ülaindeks 1 |
423 | ² | ² | ülaindeks 2 |
156 | ³ | ³ | ülaindeks 3 |
44 | ß | ß | ladina väike sz |
36 | × | × | korrutusmärk |
9 | ™ | ™ | ### |
32 | ú | ú | ladina väike u akuudiga |
17 | Ú | Ú | ladina suur U akuudiga |
5 | Û | Û | ladina suur U tsirkumfleksiga e. katusega |
46 | û | û | ladina väike u tsirkumfleksiga e. katusega |
5 | ù | ù | ladina väike u graavisega |
1 | Ū | Ū | ladina suur U ülakriipsuga |
60 | ū | ū | ladina väike u ülakriipsuga |
1 | ů | ů | ladina väike u ülasooriga |
1 | ũ | ũ | ladina väike u tildega |
193682 | Ü | Ü | Ü |
3853548 | ü | ü | ü |
12 | ý | ý | ladina väike y akuudiga |
3 | Ý | Ý | ladina suur Y akuudiga |
16 | ÿ | ÿ | ladina väike y umlautiga |
44311 | ž | ž | ž |
2573 | Ž | Ž | Ž |
1 | Б | Б | ### |
2 | В | В | ### |
1 | Д | Д | ### |
1 | З | З | ### |
1 | И | И | ### |
1 | Л | Л | ### |
2 | М | М | ### |
1 | О | О | ### |
1 | С | С | ### |
2 | Т | Т | ### |
1 | Ч | Ч | ### |
1 | Ы | Ы | ### |
2 | Э | Э | ### |
1 | Ю | Ю | ### |
4 | Я | Я | ### |
15 | а | а | ### |
1 | в | в | ### |
4 | д | д | ### |
7 | е | е | ### |
2 | ж | ж | ### |
1 | з | з | ### |
5 | и | и | ### |
1 | й | й | ### |
3 | к | к | ### |
3 | л | л | ### |
7 | н | н | ### |
5 | о | о | ### |
1 | п | п | ### |
6 | р | р | ### |
7 | с | с | ### |
13 | т | т | ### |
4 | у | у | ### |
1 | х | х | ### |
1 | ч | ч | ### |
3 | ш | ш | ### |
1 | ь | ь | ### |
1 | э | э | ### |
1 | ю | ю | ### |
2 | я | я | ### |
2 | ה | ה | ### |
2 | ו | ו | ### |
2 | ח | ח | ### |
2 | כ | כ | ### |
2 | נ | נ | ### |