1980ndate korpus (tegemise ajal nimega "baaskorpus") - kokku 1 miljon sõna - koosneb järgmistest tekstivaldkondadest.
Valdkond | Failinime algus | Sõnade arv | Protsent korpusest |
---|---|---|---|
ajakirjandus | tat | 175 000 | 17,5 % |
dokumendid | tdt | 12 000 | 1,2 % |
entsüklopeedilised teosed | tnt | 20 000 | 2,0 % |
esseed ja biograafiad | tet | 90 000 | 9,0 % |
hobid ja harrastused | tht | 75 000 | 7,5 % |
ilukirjandus | tkt | 250 000 | 25,0 % |
populaarteadus | tpt | 150 000 | 15,0 % |
propaganda | tot | 60 000 | 6,0 % |
religioon | trt | 8 000 | 0,8 % |
teadus | ttt | 160 000 | 16,0 % |