English

Koondkorpus: Valgamaalane

Sisu ja maht

Seles allkorpuses on ajalehe Valgamaalane lehenumbrid ajavahemikust 02.09.2004 - 31.07.2008, (598 numbris 10 577 artikliga), kokku 2 495 302 sõna 182 936 lauses. Täpsema ülevaate korpuse mahust aastate kaupa annab alljärgnev tabel:

AASTA
NUMBREID
ARTIKLEID
LAUSEID
SÕNU
2004
51 812 15 681 196 437
2005
152 2562 45 501 602 164
2006
148 2378 41 789 560 543
2007
152 2976 48 421 679 370
2008
95 1849 31 544 456 788
KOKKU
598 10577 182 936 2 495 302

Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keele keeletehnoloogiline tugi“ projekti „Koondkorpus“ kaudu.

NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!

Allikmaterjal

Tekstid on pärit veebilehelt www.valgamaalane.ee

Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Kristel Uiboaed

Ühes failis on üks lehenumber. Välja on jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid, karikatuurid). Välja on jäetud ka valuutakursside tabelid, pankadevahelise rahaturu intressimäärade tabelid, saatekavad, edetabelid, ilmateade ja horoskoop.

Märgendus

Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause

Ma nägin, et ta tuleb, ja ütlesin: "Tere!"

on korpuses kujul

Ma nägin , et ta tuleb , ja ütlesin : " Tere !"

Allalaaditavad failid on märgendatud TEI põhimõtete järgi.

Allalaaditavate korpuseversioonide struktuur on järgmine:

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.

Tekstides parandusi pole tehtud, sõnu ei poolitata.

Tekstides on kasutatud järgmisi märgendeid:

Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.

Olemid

SGML-failides esinevad olemid on kirjas selles tabelis


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: R, 21. detsember 2018 18:59 UTC.