Selles korpuses on tekstid meditsiiniajakirja 'Eesti Arst' internetiarhiivist http://www.eestiarst.ee/et/arhiiv/index.html (kokku ca 712 000 sõna). Korpuses on olemas kõik ajakirja numbrid perioodist 2002 – 2004, välja arvatud 2004. a nr 3, mis korpuse koostamise ajal ei olnud ajakirja kodulehelt saadaval.
aasta | sõnu |
---|---|
2002 | 249 784 |
2003 | 244 343 |
2004 | 217 697 |
Kokku | 711 824 |
Need tekstid on osa tulevasest korpusest töönimega «Eesti keele segakorpus». Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist «Eesti keel ja rahvuskultuur».
Tekstid on teisendatud PDF-kujult TEI kujule. Vajalikud programmid kirjutasid Kaarel Veskis ja Heiki-Jaan Kaalep.
Ühes failis on ühe aasta kõik ajakirjanumbrid. Välja on jäetud mitte-tekstiline materjal so illustratsioonid ja joonised, samuti tabelid ja ingliskeelsed sisukokkuvõtted ning kirjanduse loetelud.
Tekstides parandusi pole tehtud, sõnu ei poolitata. Alustav jutumärk on “, lõpetav jutumärk on ”. Ühekordne jutumärk on '. Šrifti muutusi pole TEI kujul olevas tekstis märgenditega tähistatud, välja arvatud juhud, kui šrifti muutus hõlmab tervet lõiku. Lõigu esiletõstmise võimalused selles korpuses on järgmised:
<p
rend='esirida'> - artikli esimene lõik
<p
rend='toc'> - numbri sisukord
<p rend='teesid'> -
ettekannete teesid, mille šrift on artiklitest veidi
väiksem
<p rend='bold'> - rasvane kiri
<p
rend='table_heading’> - tabelit iseloomustav tekst
<p
rend='figure_heading’> - joonist iseloomustav tekst
<p
rend='abstract'> - rasvases kirjas artikli kokkuvõttev
osa
<p rend='keywords'> - artiklit iseloomustavad märksõnad
algselt värvilisel taustal
<p rend='H6'>, <p
rend='H5'>, <p rend='H4'>, <p rend='H3'>, <p
rend='H2'>,
<p rend='H1'> - erineva suurusega
(ala)pealkirjad
<div0> tähistab ühe aasta
numbreid, <div1> tähistab numbrit ja <div2>
tähistab artiklit või muud alaosa.
Tekst on jagatud lõikudeks nagu algne PDF-fail ja automaatselt lausestatud. Pealkirjad ja autorid on märgendatud. Autor võib mõnel alaosal ka puududa. Autori märgenduseks on <bibl> <author> <s>; autorit iseloomustav tekst on samas sees. Lõigumärgendite osas võib ette tulla ebaühtlust (omavahel šriftilt sarnased, kuid ülejäänud tekstist eristuvad lõigud võivad omada atribuuti rend, kuid võivad olla esitatud ka tavaliste lõikudena). See ebaühtlus ja reavahetusega seotud vead on tingitud PDF-formaadi teisendamise raskustest ja samuti originaalfailide vormistuse ebaühtlusest.
Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms.
SGML-failides esinevad olemid on kirjas selles tabelis