Inglise-eesti ja eesti-inglise paralleelkorpus

Sisu

Selles korpuses on:

Eesti seadused ja nende tõlked inglise keelde, 392 tk (et-en.zip)
Euroopa Liidu õigusaktid ja nende eestikeelsed tõlked, 2981 + 1093 tk (en-et_t.zip ja ent-et_u.zip)

Tekstide paralleelistamist on rahastatud riiklikust sihtprogrammist 'Eesti keel ja rahvuskultuur'.

Allikmaterjal

Tekstid on algselt pärit Eesti Õiguskeele Keskuse koduleheküljelt www.legaltext.ee seisuga 30.04.2002. Paralleelistamiseks kasutati nende tekstide lausestatud TEI P3 versioone, mis asusid aadressil www.cl.ut.ee oktoobris 2004. Eestikeelne pool korpusest on koondkorpuse seadusetekstide alamosa. Failide nimed kajastavad lähtefailide nimesid.

Märgendus

Tekstid on paralleelistatud lausete kaupa. Loetelu elemente käsitletakse eraldi lausetena. Eesti- ja ingliskeelsed laused võivad olla omavahel 1-1, 1-2 või 2-1 vastavuses. Muid vastavusi (1-0, 0-1, 2-2 jne) korpuses ei ole: neid kas ei leitud või jäeti nad töö käigus kõrvale kui edaspidises töös raskesti kasutatavad.

Eestikeelsed üksused on märgendite <eesti> ja </eesti> vahel. Ingliskeelsed üksused on märgendite <inglise> ja </inglise> vahel. Üksused on igaüks eraldi real, vaheldumisi, kusjuures lähtekeelsed üksused on ridadel 1, 3, 5 jne; nende tõlked aga vastavalt ridadel 2, 4, 6 jne.

Ala- ja ülaindeksid on märgendatud vastavalt <hi rend="sub"> ja <hi rend="sup"> abil. Seejuures esineb üsna sageli, et ühes keeles on alaindeks märgitud, aga teises mitte.

Muud märgendust ei ole.

Maht

Eesti-inglise paralleeltekstid

153 500 paralleel-üksust (lauset või loendi elementi) 392 failis. Eesti keeles 1,7 miljonit sõna, inglise keeles 2,9 miljonit sõna.

Inglise-eesti paralleeltekstid

Inglise-eesti paralleeltekstid on jagatud kaheks grupiks vastavalt algtekstide jaotusele leheküljel www.legaltext.ee:

224323 + 57836 paralleel-üksust (lauset või loendi elementi) 2981 + 1093 failis. Eesti keeles 2,6 + 0,7 miljonit sõna, inglise keeles 3,9 + 1,0 miljonit sõna.

Sõnade hulka on loetud ka numbrid ja lühendid.

Meetod

Paralleelistamiseks kasutati Vanilla paralleelistajat, mis toetub Gale'i ja Churchi algoritmile (Gale, W. A. and Church, K. W. (1993) Program for aligning sentences in bilingual corpora. Computational Linguistics 19, 75-102.). See algoritm on keelest sõltumatu.

Algoritm eeldab esiteks, et mõlemad paralleelistatavad tekstid koosnevad tingimata võrdsest hulgast mingil kindlal moel eristatud väiksematest osadest, mis on kindlasti juba algselt paralleelsed. Vaeva on tarvis näha ainult nende väiksemate osade sees olevate üksuste paralleelistamisega. Nt. raamat koosneb peatükkidest, peatükid lõikudest, lõigud lausetest. Kui soovime paralleelistada lõike, siis eeldame, et ükski lõik ei lähe üle peatüki (mida on nii originaalis kui tõlkes võrdne arv ja mis on omavahel paralleelsed) piiri; kui lauseid, siis eeldame, et lõikude arv on originaalis ja tõlkes võrdne ning nad on omavahel paralleelsed.

Teiseks eeldab algoritm, et tõlketeksti laused on samas järjestuses mis lähteteksti laused.

Kolmandaks eeldab algoritm, et tõlke pikkus sõltub originaali pikkusest. Pikemate lausete tõlked on pikemad kui lühikeste lausete tõlked. Paralleelistamisel tuleb püüelda selle poole, et originaali ja talle vastava tõlkeüksuse pikkused ei oleks liiga erinevad. Seega tuleb mõnikord eelistada 0-1, 1-2, 2-1 vms vastavust 1-1 vastavusele.

Meie eesmärgiks oli leida paralleelsed laused, seega pidid lõigud olema kindlasti juba varem paralleelistatud.

Töö käigus selgus, et originaalis ja tõlkes on sageli erinev arv lõike. Põhjusi on mitmeid. Näiteks võib ühes tekstis olla üks või mitu lisa, mis paralleelteksti elektroonilises versioonis (kas originaalis või tõlkes) on puudu. Sama lugu on tabelitega ning viidetega teistele dokumentidele. Lõikude hulga erinevuse põhjuseks võib olla ka see, et teksti paigutuse ja kujunduse võtteid on lihtsalt erinevalt kasutatud, nt. ühes tekstis tähistab reavahetus-sümbol ainult teksti ülekandmist järgmisele reale, samas kui teises tähistab ta lõigu piiri.

Seega paralleelistamisel oli esimeseks ülesandeks leida lausest suuremad paralleelsed üksused (olgu need siis lõigud või loendid), lähtudes oletatavasti kindlatest toetuspunktidest tekstis. Seaduste puhul võib sellisteks kindlateks toetuspunktideks pidada paragrahvide, artiklite ja nummerdatud loendite puhul elementide järjekorranumbreid. Nendele toetudes leiti paralleelsed lõigud, kasutades Vanilla paralleelistajat. Järgmises etapis paralleelistati lõikude kaupa juba laused.

Juhul, kui paralleelsetes tekstides paistis olevat erinev arv paragrahve, artikleid või nummerdatud loendite elemente; või kui vastavate järjekorranumbritega elemendid ei olnud kohakuti, siis vastavaid tekste paralleelkorpusesse ei võetud. Põhjuseks oli oletus, et selliste tekstide formaalne struktuur on liiga erinev, et neid antud lihtsa meetodiga töödeldes oleks tulemused usaldusväärsed.

Mõnikord juhtus, et paralleelistatavate üksuste arv paralleelsetes tekstides on liiga erinev (s.t. ühes tekstis on paralleelistatavaid üksusi enam kui kaks korda rohkem kui teises), et tulemus võiks olla mõistlik. Näiteks kui ühes tekstis on ühes artiklis 1 lõik ja teises 5, siis on ilmselt tegemist kas elementide (nt tabelite või viidete) ärajäämisega ühest tekstist või kujundusliku erinevusega (nt ühes tekstis on loetelu esitatud ühel real, teises aga mitmel). Sellisel juhul jäeti antud artikli lõigud paralleeltekstist lihtsalt välja, kuid teksti ülejäänud osad võeti siiski sisse.

Paralleelistamisprobleemide pärast tehtud väljajätmiste tõttu on selles korpuses mõlemas keeles vähem tekste ja sõnu kui oli lähtetekstides.