Mitmesõnalised üksused võivad oma süntaktiliselt struktuurilt olla nii noomenifraasid – Egiptuse nuhtlus, löök allapoole vööd, adverbifraasid – läbi ja lõhki, maani täis, adpositsioonifraasid - (kellegi) käe läbi, metsa poole kui ka verbi ja tema seotud laiendi püsivad ühendid – jalga laskma, läbi saama, kõnet pidama.
Meie uurimisrühmas on põhjalikumalt tegeldud just viimast tüüpi püsiühenditega. Oleme koostanud verbikesksete püsiühendite andmebaasi, mille praegune versioon sisaldab umbes 13 000 ühendit.
Andmebaas sisaldab verbist ja tema laienditest koosnevaid püsiühendeid. Täpsemalt: andmebaasis on
Verbi ja tema subjekti püsivaid ühendeid (nt asi susiseb) selles andmebaasis pole. Samuti on siit välja jäetud püsiühendid verbiga olema (nt arust ära olema).
Andmebaasi saab zip-failina alla laadida siit või kasutada ka lihtsat otsingut.
Andmebaas koondab 5 inimkasutajale mõeldud sõnastiku andmeid, Filosofti tesauruse materjale ja 20 miljonist sõnast koosnevast tekstikorpusest statistiliste meetoditega leitud püsiühendeid (seda eksperimenti on lähemalt kirjeldatud artiklis Heiki-Jaan Kaalep, Kadri Muischnek (2003). Püsiühendite leidmine suurtest tekstikorpustest. Eesti Keele Instituudi toimetised 12. Toimiv keel I Töid rakenduslingvistika alalt. Eesti Keele Sihtasutus Tallinn, lk. 101-118).
Andmebaasis on 11 välja, mis on üksteisest koolonitega eraldatud. Väljad sisaldavad järgmist infot:
1. väli: väljend ise
2.väli: ühendi liik. Andmebaasi praeguses versioonis on eristatud järgmisi verbikeskse püsiühendi alaliike:
3.-9. väli
Kas väljend sisaldub mingis kindlas sõnastikus või kas ta tuli statistiliste meetoditega välja korpusest. x tähendab jah, - tähendab ei.
3. väli: Fraseoloogiasõnaraamat
4. väli: Seletussõnaraamat
5. väli: Filosofti tesaurus
6. väli: Hasselblatti ühendverbide loend
7. väli: Mõistelise sõnaraamatu indeks
8 väli: Sünonüümisõnastik
9 väli: statistiliste meetoditega leitud väljendid
10. väli: kas see püsiühend esines 313 000-sõnalises püsiühendite suhtes märgendatud korpuses, arv sellel väljal näitab korpuses esinemiste arvu.
11. väli: väljendi morfoloogiline analüüs. Väli algab märgendiga <morf> ja lõpeb märgendiga </morf>. Eri sõnade analüüsid on üksteisest eraldatud sümboliga {
Väljendi iga sõna(vormi) kohta on antud järgmine info:
sõnavorm lemma+tunnused/lõpud // morfoloogilised kategooriad //
Morfoloogiliste kategooriate märgendite seletused leiate: https://www.cl.ut.ee/korpused/morfliides/seletus
Näiteks on ühendverb alla võtma esitatud andmebaasis selliselt:
alla võtma:yv:-:x:x:x:-:x:x:1:<morf>{alla alla+0 //_D_ //{võtma võt+ma //_V_ main sup ps ill //{</morf>
Väljendverb ellu viima on esitatud järgmiselt:
ellu viima:nv:x:-:x:-:-:x:-:6:<morf>{ellu elu+0 //_S_ com sg adit //{viima vii+ma //_V_ main sup ps ill //{</morf>
Näites ellu viima on käändsõnalise komponendi morfoloogiline analüüs elu+0 //_S_ com sg adit // st substantiiv elu ainsuse lühikeses sisseütlevas e aditiivis.
Kui püsiühendi käändsõnaline komponent võib tekstis muutuda vastavalt objekti käändevahelduse reeglitele, siis on käändekategooriaks obj
Näiteks võib väljend aega maha võtma esineda tekstis kujul võttis aja maha või võta aeg maha ; see väljend on andmebaasis esitatud järgmiselt:
aega maha võtma:nv:x:x:-:-:-:-:-:0:<morf>{aega aeg+0 //_S_ com sg obj //{maha maha+0 //_D_ //{võtma võt+ma //_V_ main sup ps ill //{</morf>
Tegemist on nö arendatava ressursiga, mistõttu andmebaasis võib olla vigu ja kirjeldusele mittevastavusi. Märgend obj on lisatud 300 000 – sõnalise korpuse andmete ja ühe inimese subjektiivse keeletaju põhjal, st kui väljendit korpuses ei esinenud, siis otsustas inimene.