Corpus of textbooks of Estonian 2018
Corpus TEI-5 XML
The corpus is free for non-commercial use.
Content
The corpus is based on 8 textbooks of Estonian:
- Pesti, M., Ahi, H. (2015). E nagu Eesti: eesti keele õpik algajatele. Tallinn: Kiri-Mari Kirjastus.
- Kitsnik, M., Kingisepp, L. (2002). Avatud uksed: eesti keele õppekomplekt kesk- ja kõrgtasemele: õpperaamat. Tallinn: TEA Kirjastus.
- Kitsnik, M. (2012). Eesti keele õpik: B1, B2. Tallinn: M. Kitsnik.
- Pesti, M., Ahi, H. (2015). Eesti keele õpik A1. Tallinn: Justiitsministeerium.
- Pesti, M., Ahi, H. (2012). Eesti keele õpik A2. Tallinn: M. Pesti.
- Pesti, M., Ahi, H. (2015). Eesti keele õpik B1. Tallinn: Justiitsministeerium.
- Sooneste, M. (2007). Eesti keele õpik: vene õppekeelega gümnaasium: kesk- ja kõrgtase. Tallinn: Varrak.
- Rammo, S., Teral, M., Klaas-Lang, B., Allik, M. (2012). Keel selgeks!: eesti keele õpik täiskasvanutele. Tallinn: Avita.
The corpus was made in two stages:
- In 2017, the books were digitized by the Digitization Centre of the National Library of Estonia. Jelena Kallas and Kristina Koppel assigned language proficiency levels (A1-C1) to textual divisions and Katrin Tsepelina wrote programmes for turning the DOC-files to XML.
A version of that corpus is here: DOI: 10.15155/3-00-0000-0000-0000-06ADEL https://metashare.ut.ee/repository/browse/corpus-of-estonian-coursebook-content-2017/a23a3cf6cdd911e7a6e4005056b400243c0fd0d1773b49cdb9aa42a4a0ab5cae/
- In 2018, Katrin Tsepelina converted the corpus to TEI-5.
Size: 0.5 million tokens
Webmaster
Last modified: April 30 2019 12:22:59.