English

Sõnaliikide sagedusloend ning käändsõna grammatiliste kategooriate sagedusloendid Tasakaalus korpuse põhjal

Tekstiklassid (tekstitüübid, tekstiliigid, registrid, žanrid) võivad erineda üksteisest nii oma sõnavara kui ka grammatika poolest. Sellealaste uuringute hõlbustamine ongi üks siin avaldatud sõnaliikide ja grammatiliste kategooriate sagedusloendite eesmärke. Siit lehelt leiate sõnaliikide ning käändsõnas avalduvate grammatiliste kategooriate sagedusloendid. Sagedusloendid on koostatud Tasakaalus Korpuse põhjal, mis jaguneb kolmeks võrdseks 5 miljoni sõna suurusteks osaks aja-, -ilu ja teaduskirjanduse vahel. Sagedusloendite tegemisel on kasutatud Tasakaalus korpuse morfoloogiliselt ühestatud versiooni. Kasutatud on nn Filosofti morfoloogiliste kategooriate süsteemi, ühestatud on statistilise, trigrammidel põhineva ühestajaga t3sta. Sagedusloendid on koostatud riikliku programmi "Eesti keele keeletehnoloogiline tugi" toel.

Käändsõna grammatiliste kategooriate loendite koostamisel on arvestatud järgmiste sõnaliigi märgendi saanud sõnavormidega:

_A_ omadussõna - algvõrre (adjektiiv - positiiv), nii käänduvad kui käändumatud, nt kallis või eht,
_C_ omadussõna - keskvõrre (adjektiiv - komparatiiv), nt laiem,
_U_ omadussõna - ülivõrre (adjektiiv - superlatiiv), nt pikim,
_S_ nimisõna (substantiiv), nt asi,
_N_ põhiarvsõna (kardinaalnumeraal), nt kaks,
_O_ järgarvsõna (ordinaalnumeraal), nt teine.
_P_ asesõna (pronoomen), nt mina, see

Tabelis 2 on esitatud ka järgmiste sõnaliikide sagedused:

_V_ tegusõna (verb), nt tegema
_D_ määrsõna (adverb), nii täistähenduslikud, pro- kui ka afiksaaladverbid, nt kiiresti, siis, üle (jääma)
_J_ sidesõna (konjunktsioon), nt ja, kui
_K_ kaassõna (pre/postpositsioon), nt maja all, üle tee
_Y_ lühend, nt USA

Teatavasti paiknevad verbi partitsiibivormid verbi ja adjektiivi sõnaklassi piiril; mineviku partitsiibid võivad lauses funktsioneerida nii ühe kui teisena. Verbide partitsiibivormide automaatne morfoloogiline ühestamine ei ole sagedusloendite aluseks olevas korpuseversioonis eriti õnnestunud. Nii otsustati morfoloogilise ühestamise tulemusi siinkohal mitte usaldada ja omadussõna märgendi saanud mineviku partitsiipe (nud- ja tud-vorme) omadussõnade hulka ikkagi mitte arvata, st nud- ja tud-partitsiibid on alati loetud verbideks, hoolimata nende süntaktilisest funktsioonist. Oleviku, st v- ja tav-partitsiibid on alati saanud omadussõna sõnaliigilise märgendi. Arvsõnu võib tekstis kirjutada nii sõnade kui ka numbritega (2 või kaks, 2. või teine). Arvsõnade puhul on välja jäetud nii ainult numbriga kirjutatud (2) kui ka numbrit sisaldavad sõnavormid (2-aastane).

Loendites on kasutatud järgmisi sõnaliikide ja grammatiliste kategooriate lühendeid:

Tabel 1. Käändsõna grammatiliste kategooriate lühendid t3mesta väljundis

ab abessiiv ilmaütlev
abl ablatiiv alaltütlev
ad adessiiv alalütlev
adt aditiiv suunduv (lühike sisseütlev)
all allatiiv alaleütlev
el elatiiv seestütlev
es essiiv olev
g genitiiv omastav
ill illatiiv sisseütlev
in inessiiv seesütlev
kom komitatiiv kaasaütlev
n nominatiiv nimetav
p partitiiv osastav
pl pluural mitmus
sg singular ainsus
ter terminatiiv rajav
tr translatiiv saav

Sõnaliikide sagedus

Tabelis 2 on esitatud erinevatesse sõnaliikidesse kuuluvate sõnade sagedused Tasakaalus korpuses tervikuna ja allkorpustes eraldi. Loendite tegemisel selgus huvitav tõsiasi, et kuigi Tasakaalus korpuses oli alustekste igas tekstiklassis (ajakirjandus, ilukirjandus, teadus) ühepalju, siis sisaldasid need ühesuurused tekstihulgad käändsõnu erineval hulgal. Nagu näha ka Tabelist 2, eristuvad käändsõnade ja verbide suhte alusel eriti selgelt teadustekstid ja ilukirjandustekstid, üllatav on adjektiivide suur hulk teadustekstides; ilmselt mängib siin olulist rolli asjaolu, et oleviku partitsiibid on loetud omadussõnade hulka.

Edasised sagedusloendid on jagatud nelja ossa, sõltuvalt sellest, millist infot (millist osa morfoloogilisest märgendist) on sageduste arvutamisel arvestatud.

ESIMESES osas on arvutatud täismärgendite (sõnaliik, arv, kääne) sagedused Tasakaalus korpuses tervikuna ning kolmes tekstiklassis eraldi.

TEISES osas on vaatluse all arv ja kääne, koostatud on 5 loendit:
1) käände ja arvu kombinatsioonide sagedus (kõigi käändsõnade kohta kokku, sõnaliiki ei ole arvestatud) Tasakaalus Korpuses tervikuna ja kolme tekstiklassi kaupa eraldi (tabel 4);
2) kogu Tasakaalus korpuse käände ja arvu sagedus sõnaliikidevahelise võrdlusena (tabel 5);
3) ajakirjanduse kogu käände ja arvu sagedus sõnaliikide kaupa (tabel 6);
4) ilukirjanduse kogu käände ja arvu sagedus sõnaliikide kaupa (tabel 7);
5) teaduskirjanduse kogu käände ja arvu sagedus sõnaliikide kaupa (tabel 8).

KOLMANDAS osas on võetud vaatluse alla ainult kääne, sarnaselt teise osaga on koostatud 5 loendit:
1) kogu Tasakaalus korpuse käände sagedus jaotatud kolme tekstiklassi kaupa (tabel 9);
2) kogu Tasakaalus korpuse käände sagedus jagatud sõnaliikide kaupa (tabel 10);
3) ajakirjanduse kõik käänded sõnaliikide kaupa (tabel 11);
4) ilukirjanduse kõik käänded sõnaliikide kaupa (tabel 12);
5) teaduskirjanduse kõik käänded sõnaliikide kaupa (tabel 13).

NELJANDAS osas on esitatud arvukategooria sagedus Tasakaalus korpuses tervikuna ja kolmes tekstiklassis eraldi.


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: Wed, 09. December 2015 22:29 EET.