English

Segakorpus: Arvutiteadus ja Andmetöötlus

Sisu

Selles korpuses on tekstid ajakirja "Arvutiteadus ja Andmetöötlus" internetiarhiivist (kokku ca 625 000 sõna). Korpuses on olemas ajakirja numbrid perioodist 1999 – 2005.

aasta sõnu
1999 70 083
2000 87 141
2001 87 854
2002 102 722
2003 88 670
2004 94 880
2005 93 570
Kokku 624 920

Need tekstid on osa tulevasest korpusest töönimega «Eesti keele segakorpus». Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist «Eesti keele keeletehnoloogiline tugi».

Allikmaterjal ja märgendus

Tekstid on teisendatud HTML-kujult TEI-kujule. Vajalikud programmid kirjutasid Kaarel Veskis ja Heiki-Jaan Kaalep.

Ühes failis on üks ajakirjanumber. Välja on jäetud mitte-tekstiline materjal so illustratsioonid ja joonised, samuti tabelid ja kirjanduse loetelud.

Tekstides parandusi pole tehtud, sõnu ei poolitata.

Märgendus

Alustav jutumärk on &ldquo;, lõpetav jutumärk on &rdquo;. Ühekordne jutumärk on '. Šrifti muutuse algus on tähistatud märgendiga <hi rend='milline šrift'> ja lõpp märgendiga</hi> või, kui erineva šriftiga on terve lõik, siis algab lõik märgendiga <p rend='milline šrift'>.

<div0> tähistab üht ajakirja numbrit ja <div1> tähistab artiklit või alaosa.

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Pealkirjad ja autorid on märgendatud. Autor võib mõnel alaosal ka puududa. Autori märgenduseks on <bibl> <author> <s>; autorit iseloomustav tekst on samas sees.

Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms.

Erisümbolid

Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: R, 21. detsember 2018 19:19 UTC.