Pakitud korpused failis korpused.zip on järgmised:
Liik | sõnade arv | päritolu |
---|---|---|
Ilukirjandus (eesti autorid) | 104 000 | https://cl.ut.ee/korpused/morfkorpus/ |
Ajakirjandus | 111 000 | https://cl.ut.ee/korpused/morfkorpus/ |
Suuline kõne | 100 000 | https://cl.ut.ee/korpused/morfkorpus/ |
Jututoad | 94 000 | https://cl.ut.ee/korpused/jutumorf/ |
CHILDES hoidjakeel | 400 000 | https://childes.talkbank.org/access/Other/ |
Silbitamine toimus kahe-astmelisena:
Kooditabeliks on utf-8. Liitsõnasisest sõnapiiri tähistab alakriips "_" ja silbipiiri tähistab punkt "."
Korpuste alusel leitud CV-struktuurid on siin: CVstruktuurid.zip