English

Eesti keele verbikesksete püsiühendite andmebaas

Failide juurde

Sisu

Mitmesõnalised üksused võivad oma süntaktiliselt struktuurilt olla nii noomenifraasid – Egiptuse nuhtlus, löök allapoole vööd, adverbifraasid – läbi ja lõhki, maani täis, adpositsioonifraasid - (kellegi) käe läbi, metsa poole  kui ka verbi ja tema seotud laiendi püsivad ühendid – jalga laskma, läbi saama, kõnet pidama.

Meie uurimisrühmas on põhjalikumalt tegeldud just viimast tüüpi püsiühenditega. Oleme koostanud verbikesksete püsiühendite andmebaasi, mille praegune versioon sisaldab umbes 13 000 ühendit.

Mis siin on?

Andmebaas sisaldab verbist ja tema laienditest koosnevaid püsiühendeid. Täpsemalt: andmebaasis on

Mida siin pole?

Verbi ja tema subjekti püsivaid ühendeid (nt asi susiseb) selles andmebaasis pole. Samuti on siit välja jäetud püsiühendid verbiga olema (nt arust ära olema).

Kasutamine

Andmebaasi saab zip-failina alla laadida siit või kasutada ka lihtsat otsingut.

Kuidas tehtud?

Andmebaas koondab 5 inimkasutajale mõeldud sõnastiku andmeid, Filosofti tesauruse materjale ja 20 miljonist sõnast koosnevast tekstikorpusest statistiliste meetoditega leitud püsiühendeid (seda eksperimenti on lähemalt kirjeldatud artiklis Heiki-Jaan Kaalep, Kadri Muischnek (2003). Püsiühendite leidmine suurtest tekstikorpustest. Eesti Keele Instituudi toimetised 12. Toimiv keel I Töid rakenduslingvistika alalt. Eesti Keele Sihtasutus Tallinn, lk. 101-118).

Andmebaasi aluseks on järgmised sõnaraamatud või sõnastikud:

  1. Õim, A. Sünonüümisõnastik Tallinn 1991
  2. Õim, A. Fraseoloogiasõnaraamat ETA KKI, Tallinn 1993
  3. Filosofti tesaurus (http://www.filosoft.ee)
  4. Partikkelverbide loend teosest Cornelius Hasselblatt "Das Estnische Partikelverb als Lehnübersetzung aus dem Deutschen" Wiesbaden 1990
  5. Saareste, A. Eesti keele mõistelise sõnaraamatu indeks Finsk-ugriska institutsionen, Uppsala, 1979
  6. EKSS Eesti kirjakeele seletussõnaraamat (A - sentimeetririhm) ETA KKI, Tallinn, 1988 - 1999

Andmebaasis on 11 välja, mis on üksteisest koolonitega eraldatud. Väljad sisaldavad järgmist infot:

1. väli: väljend ise
2.väli: ühendi liik. Andmebaasi praeguses versioonis on eristatud järgmisi verbikeskse püsiühendi alaliike:

3.-9. väli
Kas väljend sisaldub mingis kindlas sõnastikus või kas ta tuli statistiliste meetoditega välja korpusest. x tähendab jah, - tähendab ei.

3. väli: Fraseoloogiasõnaraamat
4. väli: Seletussõnaraamat
5. väli: Filosofti tesaurus
6. väli: Hasselblatti ühendverbide loend
7. väli: Mõistelise sõnaraamatu indeks
8 väli: Sünonüümisõnastik
9 väli: statistiliste meetoditega leitud väljendid
10. väli: kas see püsiühend esines 313 000-sõnalises püsiühendite suhtes märgendatud korpuses, arv sellel väljal näitab korpuses esinemiste arvu.
11. väli: väljendi morfoloogiline analüüs. Väli algab märgendiga <morf> ja lõpeb märgendiga </morf>. Eri sõnade analüüsid on üksteisest eraldatud sümboliga {
Väljendi iga sõna(vormi) kohta on antud järgmine info:
sõnavorm        lemma+tunnused/lõpud // morfoloogilised kategooriad //
Morfoloogiliste kategooriate märgendite seletused leiate: http://www.cl.ut.ee/korpused/morfliides/seletus

Näiteks on ühendverb alla võtma esitatud andmebaasis selliselt:
alla võtma:yv:-:x:x:x:-:x:x:1:<morf>{alla    alla+0 //_D_ //{võtma    võt+ma //_V_ main sup ps ill //{</morf>
Väljendverb ellu viima on esitatud järgmiselt:
ellu viima:nv:x:-:x:-:-:x:-:6:<morf>{ellu    elu+0 //_S_ com sg adit //{viima    vii+ma //_V_ main sup ps ill //{</morf>
Näites ellu viima on käändsõnalise komponendi morfoloogiline analüüs elu+0 //_S_ com sg adit // st substantiiv elu ainsuse lühikeses sisseütlevas e aditiivis.
Kui püsiühendi käändsõnaline komponent võib tekstis muutuda vastavalt objekti käändevahelduse reeglitele, siis on käändekategooriaks obj
Näiteks võib väljend aega maha võtma esineda tekstis kujul võttis aja maha või võta aeg maha ; see väljend on andmebaasis esitatud järgmiselt:
aega maha võtma:nv:x:x:-:-:-:-:-:0:<morf>{aega    aeg+0 //_S_ com sg obj //{maha    maha+0 //_D_ //{võtma    võt+ma //_V_ main sup ps ill //{</morf>

Vead ja puudused

Tegemist on nö arendatava ressursiga, mistõttu andmebaasis võib olla vigu ja kirjeldusele mittevastavusi. Märgend obj on lisatud 300 000 – sõnalise korpuse andmete ja ühe inimese subjektiivse keeletaju põhjal, st kui väljendit korpuses ei esinenud, siis otsustas inimene.


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: Sun, 04. May 2008 19:49 EEST.