Segakorpus:
Arvutiteadus ja Andmetöötlus
Sisu
Selles korpuses on tekstid ajakirja "Arvutiteadus ja Andmetöötlus" internetiarhiivist (kokku ca 625 000 sõna). Korpuses on olemas ajakirja numbrid perioodist 1999 – 2005.
aasta |
sõnu |
1999 |
70 083 |
2000 |
87 141 |
2001 |
87 854 |
2002 |
102 722 |
2003 |
88 670 |
2004 |
94 880 |
2005 |
93 570 |
Kokku |
624 920 |
Need tekstid on osa tulevasest korpusest töönimega «Eesti keele segakorpus». Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist «Eesti keele keeletehnoloogiline tugi».
Allikmaterjal ja märgendus
Tekstid on teisendatud HTML-kujult TEI-kujule. Vajalikud programmid kirjutasid Kaarel Veskis ja Heiki-Jaan Kaalep.
Ühes failis on üks ajakirjanumber. Välja on jäetud mitte-tekstiline materjal so illustratsioonid ja joonised, samuti tabelid ja kirjanduse loetelud.
Tekstides parandusi pole tehtud, sõnu ei poolitata.
Märgendus
Alustav jutumärk on “, lõpetav jutumärk on ”. Ühekordne jutumärk on '. Šrifti muutuse algus on tähistatud märgendiga <hi rend='milline šrift'> ja lõpp märgendiga</hi> või, kui erineva šriftiga on terve lõik, siis algab lõik märgendiga <p rend='milline šrift'>.
<div0> tähistab üht ajakirja numbrit ja <div1> tähistab artiklit või alaosa.
Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Pealkirjad ja autorid on märgendatud. Autor võib mõnel alaosal ka puududa. Autori märgenduseks on <bibl> <author> <s>; autorit iseloomustav tekst on samas sees.
Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms.
Erisümbolid
Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:
- Ä -Ä
- Á - Á (ladina suur A akuudiga)
- Â - Â (ladina suur A tsirkumfleksiga)
- Å - Å (ladina suur A ülasõõriga)
- À - À (ladina suur A graavisega)
- Ä - Ä
- É - É (ladina suur E akuudiga)
- Ê - Ê (ladina suur E tsirkumfleksiga)
- È - È (ladina suur E graavisega)
- Ð - Ð
- Ë - Ë (ladina suur E umlaudiga)
- Í - Í (ladina suur I akuudiga)
- Ì - Ì (ladina suur I graavisega)
- Ï - Ï (ladina suur I umlaudiga)
- Ń - Ń (ladina suur N akuudiga)
- Ñ - Ñ (ladina suur N tildega)
- Ó - Ó (ladina suur O akuudiga)
- Ô - Ô (ladina suur O tsirkumfleksiga)
- Ò - Ò (ladina suur O graavisega)
- Ø - Ø (ladina suur O kaldkriipsuga)
- Õ - Õ
- Ö - Ö
- Š - Š
- Þ - Þ
- Ü - Ü
- Ž - Ž
- Ý - Ý (ladina suur Y akuudiga)
- á - á (ladina väike a akuudiga)
- â - â (ladina väike a tsirkumfleksiga)
- æ - æ (ae ligatuur)
- à - à (väike ladina a graavisega)
- & - & (ampersand)
- ą - ą
- å - å (ladina väike a ülasõõriga)
- * - *
- ã - ã (ladina väike a tildega)
- ä - ä
- č - č (ladina väike c haagiga)
- ç - ç (ladina väike c alakomaga)
- @ - @
- © - © (autoriõiguse märk)
- ° - º (kraadimärk)
- ÷ - ÷ (jagamismärk)
- $ - º (dollarimärk)
- é - é (ladina väike e akuudiga)
- ê - ê (ladina väike e tsirkumfleksiga)
- è - è (ladina väike e graavisega)
- ð - ð
- ë - ë (ladina väike e umlaudiga)
- ¾ -¾ (murd 3/4)
- ¼ -¼ (murd 1/4)
- ½ -½ (murd 1/2)
- > - >
- ≥ - ≥
- ½ - > ½ (murd 1/2)
- í - í (ladina väike i akuudiga)
- î - î (ladina väike i tsirkumfleksiga)
- ì - ì (ladina väike i graavisega)
- ï - ï (ladina väike i umlaudiga)
- ≤ - ≤
- < - <
- µ - µ
- · - ·
- ń - ń (ladina väike n akuudiga)
- ñ - ñ
- ó - ó (ladina väike o akuudiga)
- ô - ô (ladina väike o tsirkumfleksiga)
- ò - ò (ladina väike o graavisega)
- õ - õ
- ö - ö
- + - +
- " - " (jutumärk)
- → - → (paremale suunatud nool)
- ® - ® (registreeritud kaubamärk)
- š - š
- § - § (paragrahvi märk)
- × - × (korrutusmärk)
- þ - þ
- ˜ - ~ (tilde)
- û - û (ladina väike u tsirkumfleksiga)
- ù - ù (ladina väike u graavisega)
- ü - ü
- | - |
- ÿ - ÿ (ladina väike y umlaudiga)
Veebisepp Viimati muudetud: R, 21. detsember 2018 19:19 UTC.