Mitmikud

Lemmade ja sõnavormide mitmikute (n-grammide) sagedusloendid Tasakaalus korpuse põhjal

Loendite koostamispõhimõtted on esitatud allpool.

Loendid:

1. paarid e kaksikud e bigrammid:
sõnavormipaarid kogu Tasakaalus korpuses
lemmapaarid kogu Tasakaalus korpuses
sõnavormipaarid ilukirjanduses
lemmapaarid ilukirjanduses
sõnavormipaarid ajakirjanduses
lemmapaarid ajakirjanduses
sõnavormipaarid teaduses
lemmapaarid teaduses

2. kolmikud e trigrammid:
sõnavormide kolmikud kogu Tasakaalus korpuses
lemmade kolmikud kogu Tasakaalus korpusest
sõnavormide kolmikud ilukirjanduses
lemmade kolmikud ilukirjanduses
sõnavormide kolmikud ajakirjanduses
lemmade kolmikud ajakirjanduses
sõnavormide kolmikud teaduses
lemmade kolmikud teaduses

3. nelikud e tetragrammid:
sõnavormide nelikud kogu Tasakaalus korpuses
lemmade nelikud kogu Tasakaalus korpuses
sõnavormide nelikud ilukirjanduses
lemmade nelikud ilukirjanduses
sõnavormide nelikud ajakirjanduses
lemmade nelikud ajakirjanduses
sõnavormide nelikud teaduses
lemmade nelikud teaduses

Sagedusloendid on koostatud riikliku programmi "Eesti keele keeletehnoloogiline tugi" toel.

Mitmikute all on siinkohal mõeldud üksteisele vahetult järgnevate sõnade paare, kolmikuid või nelikuid. Mitmikud ja kollokatsioonid ei ole sünonüümsed mõisted, kollokatsioonide all mõeldakse kahe või enama sõna koosesinemist mingis kindlalt defineeritud naabruses (näiteks osalauses), kusjuures kollokatsiooni moodustavad sõnad ei pruugi (aga võivad) paikneda tekstis kõrvuti. Nii moodustavad sõnad ajas, pilli ja lõhki kollokatsiooni, aga mitte kolmiku lauses (1) ja nii kollokatsiooni kui ka kolmiku lauses (2).

(1) Siis aga ajas vihane herilane pilli hoopis lõhki.
(2) Vihane herilane ajas pilli lõhki.

Siin avaldatud mitmikute e n-grammide sagedusloendid on koostatud Tasakaalus korpuse põhjal, mis jaguneb kolmeks võrdseks 5 miljoni sõna suurusteks osaks aja-, -ilu ja teaduskirjanduse vahel. Loendid on koostatud nii Tasakaalus korpuse kui terviku kui ka iga allkorpuse kohta eraldi. Koostatud on nii sõnavormidest koosnevate mitmikute kui ka sõnade algvormidest e lemmadest koosnevate mitmikute sagedusloendid. Tekstisõna lemma tuvastatakse morfoloogilise analüüsi ning ühestamise käigus ja nii on sagedusloendite tegemisel kasutatud Tasakaalus korpuse morfoloogiliselt ühestatud versiooni. Kasutatud on nn Filosofti morfoloogiliste kategooriate süsteemi, ühestatud on statistilise, trigrammidel põhineva ühestajaga t3sta.

Sõnavormide mitmikute leidmisel on kõik tekstisõnad teisendatud läbivalt väiketähelisteks, st pärisnimesid ja üldnimesid ei saa eristada. Lemmade mitmikute sagedusloendites on suur- ja väiketähtede erinevus alles, st päris- ja üldnimesid saab eristada.
Mitmikud sisaldavad lisaks tekstisõnadele või lemmadele ka kirjavahemärke, millest sagedasim on koma, st sagedasimate sõnapaaride hulgas on ka , et ja kolmikute hulgas selleks , et. Kui kasutaja ei soovi kasutada kirjavahemärke sisaldavaid mitmikuid (või soovib just ainult kirjavahemärkidega mitmikuid), siis on kirjavahemärkidega töötamise lihtsustamiseks kirjavahemärkidele lisatud lühend #Z# lemmade loetelus ja lühend #z# sõnavormide loetelus. Tänu sellele on soovi korral võimalik kõik kirjavahemärke sisaldavad mitmikud hõlpsasti kustutada või siis vastupidi uurida ainult kirjavahemärke sisaldavaid ridu. Loendid ei sisalda kirjavahemärke '(' ja ')', sulud on mitmikute loenditest eemaldatud.
Mitmikute loendid sisaldavad ka numbriga kirjutatud arvsõnu ja lühendeid.

Siin avaldatud sagedusloenditesse on võetud ainult need mitmikud, mis esinesid vaatluse all olnud korpuses vähemalt 10 korda.
Mitmikute arvu piiramisega muutus sõnavormide ja lemmade mitmikute sagedusvahekord: unikaalseid sõnavormide mitmikuid esines korpuses rohkem kui unikaalseid lemmade mitmikuid, aga kui arvesse võeti ainult 10 ja rohkem kordi esinevad mitmikud, siis nende hulgas oli lemmade mitmikuid rohkem kui sõnavormide mitmikuid (võrdle tabeleid 1, 2, 3 tabelitega 4, 5, 6). Sõnavormide mitmikute loetelust välja jäävad vähem kui 10 korda esinevad sõnavormide kooslused koonduvad kokku lemmade koosluseks, mis esineb kümme või enam korda ja on nii esitatud lemmade mitmikute loendis.

Mitmikute koostamisel pole arvestatud sõnade ühtlast või ebaühtlast jaotumist Tasakaalus korpuse allkorpuste ja tekstide vahel. Võib esineda juhtumeid, kui mingi sõnajärjend on sage, kuid seda järjendit leidub ainult ühes Tasakaalus korpuse tekstis. Mõnevõrra aitab seda ebaühtlast jaotust tasakaalustada see, et loenditesse on sisse võetud vähemalt kümme korda esinevad mitmikud, nii jäävad loenditest välja ainult ühes väikeses tekstis esinevad mitmikud. Samas ei aita see juhtumite vastu, kus ühes tekstis on läbivalt kasutatud korduvat sõnajärjendit, mida teistes korpuse tekstides ei kasutata. Samas joonistub sagedaste mitmikute kaudu välja ka tekstiklassile iseloomulik sõnade järjend, nt teadustekstides esineb mitmik käesolevas töös on, mida teistes tekstiklassides ei kasutata.

Statistikat

Kokku on koostatud kolme erineva suurusega mitmikute loendid (paarid e kaksikud e bigrammid, kolmikud e trigrammid ja nelikud e tetragrammid) kogu Tasakaalus korpuse ja selle kolme allosa põhjal. Seega moodustub 3*4=12 loendit.
Loenditest on eemaldatud korpuse morfoloogiliselt analüüsitud versioonis esinevad lause alguse ja lõpu märgendid <s> ja </s>; sulgusid sisaldavad kollokatsioonide read, näiteks jt (1998) ja read, mis sisaldavad kahte või enamat kirjavahemärki, näiteks kass , koer .. Loendid on sorteeritud ja järjestatud sageduse kahanemise järjekorras. Esitatud loendites on vähemalt 10 korda esinenud mitmikud.
Tabelites 1, 2 ja 3 on esitatud Tasakaalus korpuses vähemalt 10 korda esinenud sõnavormide ja lemmade mitmikute esinemise sagedused jaotatult kogu Tasakaalus korpuse ja selle kolme tekstiklassi vahel.

nelikud

Tabel 1. Vähemalt 10 korda esinenud nelikute hulk Tasakaalus korpuses ja selle allosades

Tasakaalus korpus	sõnavormi mitmikute sagedus	lemma mitmikute sagedus
kõik	9076	16615
aja	1500	2917
ilu	3300	6749
tea	2398	3615

kolmikud

Tabel 2. Vähemalt 10 korda esinenud kolmikute hulk Tasakaalus korpuses ja selle allosades

Tasakaalus korpus	sõnavormi mitmikute sagedus	lemma mitmikute sagedus
kõik	43670	65584
aja	9637	14903
ilu	17256	26853
tea	10375	15173

kaksikud

Tabel 3. Vähemalt 10 korda esinenud kaksikute hulk Tasakaalus korpuses ja selle allosades

Tasakaalus korpus	sõnavormi mitmikute sagedus	lemma mitmikute sagedus
kõik	138544	155864
aja	39497	50051
ilu	50893	54762
tea	41948	55309

Nagu näha, kõige rohkem leidub erinevaid vähemalt kümme korda esinevaid mitmikuid korpuse ilukirjanduse osas ning kõige vähem ajakirjanduse tekstides.

Sõnavarastatistikast on teada seaduspära, et üks kord esinevad sõnad moodustavad selle korpuse /teksti sõnavarast umbes poole. Võrreldes tabelit 1 tabeliga 4, tabelit 2 tabeliga 5 ja tabelit 3 tabeliga 6, näeme, et kõigist Tasakaalus korpuses esinenud sõnavormide nelikutest esinesid vaid 0,08% vähemalt 10 korda ja tervelt 97% ainult ühe korra. Tasakaalus korpuse lemmade nelikutest esines ainult ühe korra 76% ja vähemalt 10 korda 0,33%. Sõnavormide kaksikutest esinesid ainult ühe korra 81% ja 10 või rohkem korda 2%. Lemmade kaksikutest esinesid ainult ühe korra 76% ja 10 või rohkem korda 3%.

Alljärgnevates tabelites 4, 5 ja 6 on näha, kui palju esines korpuses kokku mitmikuid (st siin on esitatud mitmike sagedus arvestades ka korpuses alla kümne korra esinenud mitmikuid) ja kui suure osa neist moodustasid sõnade ühekordsed koosesinemised.

nelikud

Tabel 4. Nelikute hulk Tasakaalus korpuses ja selle allosades

Tasakaalus korpus	sõnavormi mitmikute sagedus	neist 1 kord	lemma mitmikute sagedus	neist 1 kord
kõik	11700325	11340636	11277113	10798089
aja	3952982	3883418	3867422	3768283
ilu	4131481	4025433	3942796	3786123
tea	3719791	3564570	3642931	3458774

kolmikud

Tabel 5. Kolmikute hulk Tasakaalus korpuses ja selle allosades

Tasakaalus korpus	sõnavormi mitmikute sagedus	neist 1 kord	lemma mitmikute sagedus	neist 1 kord
kõik	11352391	10510398	10112500	9077246
aja	3964840	3756338	3661717	3384829
ilu	3982505	3694934	3469303	3114081
tea	3765643	3465735	3490457	3123692

kaksikud

Tabel 6. Kaksikute hulk Tasakaalus korpuses ja selle allosades

Tasakaalus korpus	sõnavormi mitmikutesagedus	neist 1 kord	lemma mitmikute sagedus	neist 1 kord
kõik	7091668	5760968	5000628	3784287
aja	2761718	2326100	2064043	1623931
ilu	2428911	1986740	1687784	1295874
tea	2669528	2154197	1984012	1478192