English

Eesti keele segakorpus: Seadused

Sisu

Selles korpuses on:
  1. Eesti seadused, 391 tk - pealkirjad ja failinimed
  2. Euroopa Liidu õigusaktide eestikeelsed tõlked, 5432 tk - pealkirjad ja failinimed

Need tekstid on osa tulevasest korpusest töönimega 'Eesti keele segakorpus'. Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist 'Eesti keel ja rahvuskultuur'.

Allikmaterjal ja märgendus

Tekstid on pärit Eesti Õiguskeele Keskuse koduleheküljelt http://www.legaltext.ee seisuga 30.04.2002

Tekstid on internetist automaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Heiki-Jaan Kaalep

Ühes failis on üks seadus või määrus vms. Välja on jäetud mitte-tekstiline materjal, so pildid. EL tekstides on sageli mitte-eestikeelseid osi.   

Kõik šrifti muutused (nt. kursiiv, rasvane kiri) on kaotatud. Üla- ja alaindeksid on vastavalt <hi rend="sup"> ja <hi rend="sub">. UNICODE-olemid kujul &#number; on teisendatud SGML-olemiteks. Susisevate tähtede, islandi ja paljude muude võõrtähtede esitamisel on arvatavasti palju vigu. Loendid (HTML-listid) on teisendatud tavaliseks nummerdatud või nummerdamata tekstiks; punktloendite puhul on punkti asemel -. Sõnu ei poolitata. Olem &quest; tähistab märke, mille kuju kohta informatsioon puudub. Alustav jutumärk on &ldquo;, lõpetav jutumärk on &rdquo;.

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Muidu pole teksti struktuur märgendatud: märgendamata on jaotised, osad, paragrahvid, pealkirjad, allkirjad, lisad, joonealused viited jpm.

Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms

Maht

Eesti seadused (1 791 653 sõna)

Euroopa Liidu õigusaktide eestikeelsed tõlked (9 582 698 sõna)

Sõnade hulka on loetud ka numbrid ja lühendid.

Erisümbolid

Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: R, 21. detsember 2018 20:40 UTC.