Kollokatsioonide pingeread Tasakaalus korpuse põhjal

Kollokatsioonide pingeread

Kollokatsioonide pingeread Tasakaalus korpuse põhjal

Loendite kohta lugemiseks kerige palun allapoole.

Loendid:

Mis on kollokatsioon?

Kollokatsioon on sõnaühend, mida moodustavad sõnad esinevad tekstides koos sagedamini, kui võiks eeldada nende eraldi esinemise sagedustest. Kollokatsioonid võivad olla väga erinevad nii neid moodustavate sõnade arvu poolest kui ka nende sõnade süntaktiliste funktsioonide ja omavaheliste seoste poolest. Nendeks võivad olla nii idioomid (nt hambasse puhuma), mida sõnaraamatud esitavad põhjalikult, kuid mida tekstides harva esineb; ühend- ja väljendverbid, mida samuti sõnaraamatutes tüüpiliselt esitatakse (üle saama, õppust võtma); samuti mitmesugused nimisõnafraasid (nt rohelised mehikesed). Lisaks eelpoolnimetatutele on kollokatsioonid näiteks veel kinnistunud ühendid, mida moodustavad sõnad on ühendis oma tavatähenduses (nt puid lõhutakse, mitte ei tehta katki; kõnet peetakse, aga ei esitata, kuid ettekannet nii peetakse kui esitatakse), mis võõrkeeleõppijatele suurt peavalu valmistavad. Kollokatsioone moodustavad sõnad ei pruugi paikneda lauses vahetult üksteise järel, nt Kass ei saanud priske hiire kaotusest kuidagi üle.

Kollokatsioonide leidja

Eesti keele jaoks on olemas https://korpused.keeleressursid.ee/clc/ (liides kollokatsioonide leidmiseks) Tasakaalus korpusest, Koondkorpusest ja viimase allosadest. Selle liidese abil saab kollokatsioone otsida kolmel viisil:

teatud lemma olulisi kollokaate sõnavormidena;

teatud lemma olulisi kollokaate lemmadena;

teatud sõnavormi olulisi kollokaate sõnavormidena.

Nii sisestava lemma või sõnavormi kui ka otsitavate kollokaatide ringi saab piirata nende sõnaliigilise kuuluvusega. Kollokatsioonide tuvastamiseks korpusest kasutatab kollokatsioonide leidja sõnadevahelise seose tugevuse mõõtmiseks kolme statistikut: log-tõepära funktsioon (Log-likelihood LL), vastastikuse informatsiooni väärtus (Mutual Information MI) ja minimaalne tundlikkus (Minimum Sensitivity MS); võrdluseks saab otsida ka lihtsalt esinemissageduse järgi järjestatud sõnapaare ( Sag).

Milleks on head siin esitatavad loendid?

Kollokatsioonide leidja abil saab leida vastavalt päringule üksikuid kollokatsioone, kuid selleks, et teada saada kollokatsioonide pingerida, ongi abiks siin esitatud sagedusloendid kollokatsioonide leidja alusmaterjalist. Tänu pingeridadele on võimalik vaadelda valitud statistiku või lihtsalt kollokatsioonipaari sageduse alusel järjestatud 5000 sagedasemat/olulisemat Tasakaalus korpuses leiduvat kollokatsioonipaari, mis esinesid korpuses kümme või enam korda. Esitatud on sarnaselt kollokatsioonide leidja pakutud võimalustega teatud sõnaliiki kuuluva lemma sagedasemad kollokatsioonid teise lemmaga, teatud sõnaliiki kuuluva sõnavormi sagedasemad kollokatsioonid teise sõnavormiga ja teatud sõnaliiki kuuluva lemma sagedasemad kollokatsioonid sõnavormiga. Sõnaliigipaaridest on järgmised:

omadussõna- nimisõna (AS)

määrsõna- omadussõna (DA)

nimisõna- määrsõna (SD)

nimisõna-nimisõna (SS)

tegusõna- omadussõna (VA)

tegusõna- määrsõna (VD)

tegusõna- nimisõna (VS)

tegusõna tegusõna (VV)

Lemma-lemma ja sõnavorm-sõnavorm paarid on sümmeetrilised, see tähendab, et sama tulemuse annavad nii paar lootma V abi S kui ka paar abi S lootma V. Lemma-sõnavorm paarid aga ei ole sümmeetrilised ja seega on nende puhul esitatud eraldi loenditena ka peegelpildis paarid (vrdl juriidiline A isiku S ja isik S juriidilise A), erandiks on nimisõna - nimisõna ja tegusõna- tegusõna lemma- sõnavormi loendid, milles on esitatud mõlemasuunalised paarid ühes loendis nt paarid ema S isa S ja isa S ema S. Seega lemma ja sõnavormi kollokatsioonide hulka lisanduvad veel järgmised „pöördpaarid“:

omadussõna- määrsõna (AD)

nimisõna- omadussõna (SA)

omadussõna- verb (AV)

määrsõna- nimisõna (DS)

määrsõna- verb (DV)

nimisõna- verb (SV)

Kõigist nimetatud kollokatsioonipaaridest on esitatud loendid 5000 sagedasemast/olulisemast korpuses vähemalt 10 korda esinevast paarist, järjestatuna korpuses esinemise sageduse (Sag) ja kolme erineva statistiku (Log-Likelihood (LL), Mutual Information (MI), Minimum Sensitivity (MS) ) järgi.
Kasutatud sõnaliigimärgendid:
_A_ omadussõna - algvõrre (adjektiiv - positiiv), nii käänduvad kui käändumatud, nt kallis või eht
_D_ määrsõna (adverb), nt kõrvuti
_S_ nimisõna (substantiiv), nt asi
_V_ tegusõna (verb), nt lugema