Koondkorpuse doktoritööde allkorpus sisaldab Eestis eesti keeles kirjutatud doktoridissertatsioone. Korpuse maht on 2,3 miljonit sõna. Korpuses sisalduvate dissertatsioonide loendi leiate siit tabelist. Korpuse koostamist on toetanud riiklik programm „Eesti keele keeletehnoloogiline tugi“ projekti „Eesti keele koondkorpus“ kaudu.
NB! Needsamad doktoritööd kuuluvad ka Tasakaalus korpuse koosseisu!
Võimalikud vead ja puudused: vahepealkirjade ja muude mittelauseliste tekstiüksuste (nt loendid) puhul võib lauseteks (so kasutajaliidese puhul ridadeks) jaotamine olla vigane.
Allalaaditavad failid on märgendatud TEI põhimõtete järgi. Allalaaditava korpuseversiooni struktuur on järgmine:
<text><body>
ja lõpeb märgendiga </body></text>
Tekstides on kasutatud järgmisi märgendeid:
<div0 type='tervikteos'>
või <div0 type='dissertatsioon'>
ja <div1 type='alaosa'>
. <head>
<bibl><author>
<p>
<s>
Väljajäetud tekstiosad
Võõrkeelsed tekstiosad on välja jäetud ja asendatud märgendiga <gap desc='...'>
. Enamus tabeleid (mis ei sisaldanud lauseid) on asendatud märgendiga <gap desc='tabel'>
. Valemid on asendatud märgendiga <gap desc='valem'>
, joonised märgendiga <gap desc=’joonis’>
.
Kasutajaliidese kaudu kättesaadavas korpuses on kustutatud muu märgendus peale väljajäetud tekstiosi tähistavate <gap ...>
Mitte-ASCII sümbolid on asendatud SGML-olemitega, täpse olemite loendi leiate siit tabelist.