Teaduskirjandus tasakaalustatud korpuses

NB! Korpust muudeti veebruaris 2008!

Teadustekstide korpuses on 5 miljonit sõna teaduskirjandust. Umbes poole sellest moodustavad doktoritööd, ülejäänu hulgas on ajakirjad ’Eesti Arst’, ’Arvutitehnika ja Andmetöötlus’, ’Agraarteadus’, Emakeele Seltsi ja Eesti Matemaatika Seltsi aastaraamatud ja muid teadustekste. Täpsemalt vaata siit tabelist.

Täpitähed jms erisümbolid on esitatud SGML-kujul (vt olemid) või https://www.w3.org/TR/REC-html40/sgml/entities.html)

Kirjavahemärgid on sõnadest lahku tõstetud. Kõik jutumärgid on esitatud tollimärkidena (").

Võimalikud vead ja puudused: vahepealkirjade ja muude mittelauseliste tekstiüksuste (nt loendid) puhul võib lauseteks (so ridadeks) jaotamine olla vigane.

Võõrkeelsed tekstiosad on välja jäetud ja asendatud märgendiga <gap desc='...'>. Enamus tabeleid (mis ei sisaldanud lauseid) on asendatud märgendiga <gap desc='tabel'>. Valemid on asendatud märgendiga <gap desc='valem'>, joonised märgendiga <gap desc=’joonis’>.

Allalaaditavad failid on märgendatud TEI põhimõtete järgi. Allalaaditava korpuseversiooni struktuur on järgmine: Iga korpusefail algab päisega <teiheader>. Päises on dokumenteeritud failis sisalduva teose autor ja pealkiri, sõnade arv tekstis ja faili suurus baitides, samuti on päises loetletud selles failis kasutatud märgendid ja nende arv.

Ilukirjandustekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>. Tekstides on kasutatud järgmisi märgendeid: Tervikteksti ja selle osade märgendamiseks: <div0 type='tervikteos'> või <div0 type='dissertatsioon'> ja <div1 type='alaosa'>. Pealkirjade märgendamiseks <head> Autorite märgndamiseks <bibl><author> Lõikude märgendamiseks <p> Lausete märgendamiseks <s>

Kogu Tasakaalus korpuse teaduskirjanduse allkorpuse saate endale tõmmata siit:

tasakaalus_teadus_lausestatud.zip

Veebisepp Viimati muudetud: E, 21. jaanuar 2019 19:00 UTC.