Selles korpuses on 162 + 1904 = 2066 jututoavestluse salvestust aastatest 2001 - 2004 ja 2007 - 2010.
Need tekstid on osa «Eesti keele koondkorpusest». Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist «Eesti keeletehnoloogia».
Korpuse kasutusõiguse saamiseks kirjutage palun Kadri.Muischnek@ut.ee ja kirjeldage lühidalt oma uurimiseesmärki.
Tekstid on pärit kahest jututoast (Zoneforum ja Planetforum), kokku 4067458 kasutaja poolt toodetud või stage-märgendite vahel esinevat sõna 948299 repliigis. Jututoas Planetforum esineb 804 erinevat kasutajanime, jututoas Zoneforum esineb 3117 erinevat kasutajanime.
Failid on märgendatud TEI P5 (XML) https://www.tei-c.org/Guidelines/P5/ põhimõtete järgi. Kodeering on utf-8.
Märgendamine lähtus tõdemusest, et jututoa salvestus on nagu näidendi üleskirjutus: tegelased tulevad lavale, esitavad oma repliigid ja lahkuvad sealt. Kõigi sündmuste aeg on märgendatud <time> abil; kõneleja on <speaker>; repliikide välised sündmused on
Ühe katkematu jututoavestluse märgendiks on <div1 type="jututoavestlus"> vestlus </div1>.
Päeva, kuupäeva, kuu ja aasta märgendiks on <date> päeva nimetus kuupäev.kuu.aasta </date>.
Postituste kellaaegade märgendiks on <time> 00:00 </time>.
Märgend <sp> tekst </sp> tähistab ühe kasutaja postitust koos kasutajanimega.
Märgend <stage> sündmus </stage> tähistab kõiki sündmusi, mis ei kujuta endast jututoa kasutajate juttu.
Märgend <speaker> kasutaja </speaker> tähistab kõnelema hakkavat jututoa kasutajat.
Märgend <foreign> võõrkeelne tekst </foreign> tähistab automaatselt tuvastatud võõrkeelset repliiki.
Ühe kasutaja repliik, st üks postitus on märgendatud üheks lõiguks <p> postitus </p>.
Hüperlingid on eemaldatud ja asendatud märgendiga <gap rend="hüperlink"/>.
Meiliaadressid on asendatud stringiga meiliaadress@xxxxx.xxx.
Sümbol < on asendatud <, sümbol > on asendatud > ja sümbol & on asendatud olemiga &.
Võõrkeelne tekst, mida õnnestus automaatselt tuvastada, on märgendatud märgendiga <foreign> võõrkeelne tekst </foreign>.
Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud olemeid ehk entiteete.