Eelmine teema
Tagasi sisukorda
10. Korpuslingvistika tulevik
Nagu nägime, on korpuslingvistika kui suhteliselt noor distsipliin viimastel aastakümnetel teinud läbi tormilise arengu. Korpused on osutunud väärtuslikeks andmete allikaks lingvistilises uurimistöös, tähtsaks andmebaasiks keeletehnoloogias ja leksikograafias. Kuid millised probleemidega kohtub arenev korpuslingvistika?
Suurusega seotud probleemid
Browni ja Browni ja LOB-i korpuste suurus oli 1.000.000 sõna, kuid British National Corpus sisaldab 100 miljonit sõna, Bank of English 200 miljonit ja ilmselt pole seegi veel mingi piir. Tegu ei ole ainult ‘moevooluga’ - teatud uurimistööks läheb vaja suuremat materjali. Ka näiteks leksikograafiliseks tööks läheb vaja suuri korpuseid.
Ka on korpuseid tänapäeval lihtsam koostada, palju tekste kättesaadavad elektroonilisel kujul, nende korpuseks liitmine lihtsam töö kui tekstide käsitsi arvutisse viimine. Samuti on arvutid odavnenud ja võimsamaks muutunud. Kuid on ka eesmärke milleks piisab täiesti 1000-sõnalisest korpusest. Kuid oleks ainult suurusele keskendumine mõneti naiivne ja seda järgmistel põhjustel.
Vajadus on siiski eelkõige lingvistiliselt analüüsitud, lemmatiseeritud jne korpuste järele: muidu ei saa teha kõige lihtsamat statistikatki.
Korpuste sisuga seotud probleemid
CEC on rahastanud projekte, nt Parole, mille eesmärgiks on uurida, milliseid korpusi peaks Euroopas arendatama, et korpuslingvistikast maksimaalne kasu oleks.
Mõned lingvistika harud vajavad hoopis teist tüüpi korpusi, kui need, mida siiani koostatud. Näiteks vajaks tekstilingvistika pigem terviktekstidest kui tekstikatketest koosnevat korpust, samuti stilistika. Seega - kui palju erinevaid korpusi ka ei eksisteeriks, ikka leidub lingviste, kes vajavad oma spetsiifilise uurimistöö jaoks uut tüüpi korpust.
Korpuste märgendussüsteemide areng
Konkordantsiprogrammid otsivad, sorteerivad ja loendavad neid objekte, mida nad suudavad korpusest leida - ja märgendamata korpuses on nendeks sõnad, kirjavahemärgid ja tähed, millest sõnad koosnevad. Seni, kuni korrektset infot pole korpusele lisatud, ei suuda programm teha vahet sõna I (mina) ja arvu I (rooma 1) vahel. Seega : suund on kindlasti märgendatud korpuste poole.
Märgendussüsteemid ise peaksid olema:
Arvutitehnoloogia areng ja korpuslingvistika
Arvutitehnoloogia areneb tänapäeval väga kiiresti ja avab uued perspektiivid ka korpuslingvistikale. Näiteks suulise kõne korpustes võiks ära kasutada kaasaegset audiovisuaalset tehnikat ja ühendada mitmel viisil märgendatud teksti ja vestluse videolindistuse vahel.
Ka pole vaja enam korpustest välja jätta tekstiga seotud illustratsioone ja diagramme, nagu seda nt Browni korpuses on tehtud.
Teiselt poolt on kiiresti arenemas korpuste automaatse märgendamise süsteemid.
Lõpetuseks on kasulik lugeda Michael Rundelli ettekannet The Corpus of the future and the future of the corpus.