Eelmine teema Tagasi sisukorda Järgmine teema
3. Arvutileksikonide koostamise probleemid
Kirjandus: [5]
Arvutileksikoni on vaja igas arvutuslingvistilises keelekirjelduses või rakendussüsteemis, kus opereeritakse sõnadega. Nii keelekirjeldusi kui rakendussüsteeme võib aga olla väga erinevaid nii oma otstarbelt kui ehituselt. Arvutileksikonide loomise käigus kerkis 80. - 90. aastate vahetusel niisiis küsimus: kas jätkata nii nagu seni, koostades iga uue rakenduse jaoks oma leksikon, või üritada välja töötada põhimõtted leksikonide loomiseks ja leksikaalse materjali esitamiseks, mis võimaldaksid vältida dubleerimisi ja asjatuid kulutusi. Tänapäeval on teine lähenemine üldaktsepteeritud. Selle taustaks on keeletehnoloogias juurdunud keeleressursside korduvkasutatavuse nõue. Niisugune lähenemine eeldab aga, et leksikonide loomisel juhindutaks teatud üldistest põhimõtetest ja kaalutlustest.
Peatume järgnevas olulisematel nõuetel ja probleemidel, mis sellise lähenemisega seostuvad.
Leksikoni arhitektuuri otsustamisel tuleb silmas pidada tervet rida parameetreid. Nende parameetrite väärtusi fikseerides tuleb iga leksikoniprojekti puhul muidugi silmas pidada konkreetseid eesmärke ja vajadusi.
Üks selliseid parameetreid on leksikoni maht. Leksikoni mahust on eelkõige praktiline küsimus, vastus sellele sõltub loodava leksikoni otstarbest. Kuid see tuleb siiski enne leksikoni loomist otsustada, lähtudes vajalikust, aga ka kättesaadavast materjalist. Üks allküsimusi siin on ka see, mida leksikonis mõistetakse leksikaalse üksuse all, nt kuivõrd võetakse sisse mitmesõnalisi väljendeid. Samuti seostub sellega leksikoni täiendamis- ja teisendamisvõimaluste küsimus. Põhimõtteliselt peab leksikoni arhitektuur olema selline, et uusi üksusi saaks pidevalt lisada või mittevajalikke välja võtta, ilma et leksikoni üldine organisatsioon kannataks.
Teine küsimuste ring seostub info esitusviisiga. Küsimus on eelkõige sõnaartiklis esitatava info eksplitsiitsuses ja detailsuses. Kas info, mis on relevantne mingi üksuse kohta, peab alati vastavas sõnaartiklis sisalduma, või on leksikonis ette nähtud vahendeid, mis võimaldavad teatud tüüpi infot tuletada olemasolevast? Eriti puudutab see semantilist infot.
Esimene põhimõtteline eristus on siin selles, kas leksikoni “tarbijaks” saab olema inimene või on leksikon vaid suurema rakendussüsteemi osa. Kui kasutajaks on inimene, peavad olema ette nähtud ka lisavahendid, mis inimesele sobival viisil võimaldavad leksikonis leiduvat infot hankida (nt kasutajaliidese vahendusel), vajaduse korral vaid selektiivselt (nt kui kirjastus soovib tema käsutuses oleva kompleksse leksikaalse andmebaasi põhjal välja anda eriotstarbelise sõnastiku).
Keeleressursside korduvkasutatavuse nõudest tulenevalt on info esitusviisi standardiseerimine üks olulisemaid ülesandeid. Seetõttu on standardiseerimisele arvutuslingvistikas ja keeletehnoloogias palju tähelepanu pööratud. Euroopa Liidu keeletehnoloogia programmi raames on üks ulatuslikumaid projekte EAGLES, mille eesmärgiks on välja töötada standardid mitte ainult leksikonide, vaid ka korpuste jt keeleressursside jaoks (vt teema 4.3).
Siin võib osutada eelkõige kahele aspektile. Esiteks on vaja enne leksikoni väljatöötamisele asumist välja selgitada, missuguses ulatuses on võimalik kasutada olemasolevaid elektroonilisi materjaliallikaid (sõnastikke, korpusi) ja missugune on prognoositav käsitsitöö maht. Erinevate keelte puhul võib situatsioon olla väga erinev.
Teiseks eeldab arvutileksikoni loomine - nii nagu iga teinegi arvutuslingvistiline või keeletehnoloogiline rakendusülesanne - mitme eriala inimeste koostööd. On vaja inimesi, kes oleksid piisavalt kompetentsed keeleteoorias, leksikoloogias ja leksikograafias, keelekirjelduse formalismides, korpuste kasutamises, arvutuslingvistikas ja arvutiteaduses. Tuleb otsustada, missuguseid oskusi ja vastavalt missuguseid inimesi antud konkreetse projekti jaoks vaja läheb.