Korpuslingvistika kursus: 10

10. Korpuslingvistika tulevik

Nagu nägime, on korpuslingvistika kui suhteliselt noor distsipliin viimastel aastakümnetel teinud läbi tormilise arengu. Korpused on osutunud väärtuslikeks andmete allikaks lingvistilises uurimistöös, tähtsaks andmebaasiks keeletehnoloogias ja leksikograafias. Kuid millised probleemidega kohtub arenev korpuslingvistika?

Suurusega seotud probleemid

Browni ja Browni ja LOB-i korpuste suurus oli 1.000.000 sõna, kuid British National Corpus sisaldab 100 miljonit sõna, Bank of English 200 miljonit ja ilmselt pole seegi veel mingi piir. Tegu ei ole ainult ‘moevooluga’ - teatud uurimistööks läheb vaja suuremat materjali. Ka näiteks leksikograafiliseks tööks läheb vaja suuri korpuseid.

Ka on korpuseid tänapäeval lihtsam koostada, palju tekste kättesaadavad elektroonilisel kujul, nende korpuseks liitmine lihtsam töö kui tekstide käsitsi arvutisse viimine. Samuti on arvutid odavnenud ja võimsamaks muutunud. Kuid on ka eesmärke milleks piisab täiesti 1000-sõnalisest korpusest. Kuid oleks ainult suurusele keskendumine mõneti naiivne ja seda järgmistel põhjustel.

Iga elektrooniliste tekstide kogu ei ole veel korpus. Nn kolmanda põlvkonna korpused ongi pigem elektroonilised tekstiarhiivid kui korpused, selliste tekstiarhiivide tüüpilisemaks näiteks on Oxford Text Archive. Sellised tekstikogud on kokku pandud pigem juhuslikult kui kindlate põhimõtete järgi. The Birmingham Collection on huvitav vahepealne juhtum: kogutud on kõike, mis on olnud kättesaadav ja vajalik parajasti käsiloleva leksikograafilise töö teostamiseks, nii et paralleelselt põhikorpusega eksisteerib nn monitorkorpus.
Väide ‘korpuste mahu tohutust suurenemisest’ kehtib ainult kirjutatud tekstide kogude kohta. Suulise kõne korpuste sama ulatuslik suurenemine seisab praegu mitmete tehniliste probleemide taga. Selles kontekstis peab jälle rõhutama London-Lundi korpuse tähtsust ja jagama kiitust ka eesti keele suulise kõne korpuse projektile.
Üllataval kombel takistab korpuste kogumist ja uurimistööks kättesaadavaks tegemist ka seadusandlus - copyright’ga seotud probleemid on sageli suureks takistuseks.
Arvutimälu ja võimsus suureneb tohutute sammudega, kuid tarkvara, mis lihtsustaks korpustega töötlemist ei arene nii kiiresti kui lingvistid sooviksid. Ükskõik kui suur ja kui esinduslik ja kui suurepäraselt süstematiseeritud korpus ka pole - ikkagi pole temast mingit kasu, kui puudub tarkvara temaga töötamiseks - konkordantsid, jne. Eriti oleks vaja lingvistilise analüüsi programme.

Vajadus on siiski eelkõige lingvistiliselt analüüsitud, lemmatiseeritud jne korpuste järele: muidu ei saa teha kõige lihtsamat statistikatki.

Korpuste sisuga seotud probleemid

CEC on rahastanud projekte, nt Parole, mille eesmärgiks on uurida, milliseid korpusi peaks Euroopas arendatama, et korpuslingvistikast maksimaalne kasu oleks.

Mõned lingvistika harud vajavad hoopis teist tüüpi korpusi, kui need, mida siiani koostatud. Näiteks vajaks tekstilingvistika pigem terviktekstidest kui tekstikatketest koosnevat korpust, samuti stilistika. Seega - kui palju erinevaid korpusi ka ei eksisteeriks, ikka leidub lingviste, kes vajavad oma spetsiifilise uurimistöö jaoks uut tüüpi korpust.

Korpuste märgendussüsteemide areng

Konkordantsiprogrammid otsivad, sorteerivad ja loendavad neid objekte, mida nad suudavad korpusest leida - ja märgendamata korpuses on nendeks sõnad, kirjavahemärgid ja tähed, millest sõnad koosnevad. Seni, kuni korrektset infot pole korpusele lisatud, ei suuda programm teha vahet sõna I (mina) ja arvu I (rooma 1) vahel. Seega : suund on kindlasti märgendatud korpuste poole.

Märgendussüsteemid ise peaksid olema:

täpselt dokumenteeritud,
võimalikult ateoreetilised,
rohkem standardiseeritud,
loodetavasti hakatakse lähemas tulevikus rohkem märgendama ka semantika ja pragmaatika/diskursuse analüüsiga seotud nähtusi.

Arvutitehnoloogia areng ja korpuslingvistika

Arvutitehnoloogia areneb tänapäeval väga kiiresti ja avab uued perspektiivid ka korpuslingvistikale. Näiteks suulise kõne korpustes võiks ära kasutada kaasaegset audiovisuaalset tehnikat ja ühendada mitmel viisil märgendatud teksti ja vestluse videolindistuse vahel.

Ka pole vaja enam korpustest välja jätta tekstiga seotud illustratsioone ja diagramme, nagu seda nt Browni korpuses on tehtud.

Teiselt poolt on kiiresti arenemas korpuste automaatse märgendamise süsteemid.

Lõpetuseks on kasulik lugeda Michael Rundelli ettekannet The Corpus of the future and the future of the corpus.

Tagasi peatüki algusse