English

Loendid

Tasakaalus korpuse sagedusloendid:

Sagedusloendid allkorpuste kaupa (iga allkorpus sisaldab 5 miljonit sõna):

Koondloendid:

Sagedusloendite alus

Sagedusloend on koostatud statistilise ühestajaga t3mesta morfoloogiliselt ühestatud ning seejärel reeglipõhise meetodiga järelühestatud Tasakaalus korpuse põhjal. Korpuse koostisosadeks on: 5 miljonit sõna ajalehetekste, 5 miljonit sõna ilukirjandust, 5 miljonit sõna teadustekste. Järelühestamist oli vaja t3mesta-ga mitmeseks jäänud vormide ühestamiseks. Järelühestamise protsessi võib jagada kolme suuremasse ossa:

Statistikat

Kokku esines korpuses sõnu 14438223 (ilma kirjavahemärkideta). Enne järelühestamist oli erinevaid analüüse 16610934, pärast järelühestamist 15000562. Kokku esines korpuses erinevaid sõnavorme 997934, neist 580805 esinesid korpuses vaid ühe korra. Erinevaid sõnavorme, mille analüüs jäi mitmeseks, esines järelühestatud tekstis 18996, nendest enamik said pärisnime märgendi (11940). Ülejäänud (7056) mitmeseks jäänud analüüsiga sõnade seas esines mitmuse ja ainsuse vahelist eristamatust (nt kas sõnavorm on on ainsuse või mitmuse vorm), määrsõna ja sidesõna vahelist eristamatust (nt nagu, kui), kirjavigu, võõrkeelseid sõnu ja muud, mis ei mõjutanud lemmade ja sõnavormide sagedusloendite usaldusväärsust.

Sagedusloendid

Siin on esitatud kolm loendit: lemmade-, sõnavormide- ja nende koondloend. Lemmade sagedusloendis on korpuses 10 või enam korda esinenud lemmad ning sõnavormide sagedusloendis on vähemalt 10 korda esinenud sõnavormid. Koondloendis on ühendatud lemmade ja sõnavormide loendid; on esitatud vähemalt 10 korda esinenud lemma kõik sõnavormid. Lemmade ja sõnavormide sagedusloendid on koostatud ka iga allkorpuse kohta eraldi: ajakirjanduse korpus (5 miljonit sõna), ilukirjanduse korpus (5 miljonit sõna) ja teaduskeele korpus (5 miljonit sõna). Kõigist loenditest on kaks versiooni:

Mis sagedusloendist välja jäid?

Lisaks eelnevalt kirjeldatud vähemalt kümne esinemiskorra piirile on sagedusloenditest välja jäetud kirjavahemärgid, lühendid, numbriga kirjutatud arvsõnad, rooma numbrid, pärisnimed, genitiivatribuudid (märgend G morfoloogilise analüsaatori väljundis) ning märgenditega 'kokkukleepunud' sõnad, st korpuse märgendusvead. Lisaks sellele on saadud loenditest hiljem käsitsi eemaldatud võõrkeelseid sõnu ning ka pärisnimesid, mis olid morfoloogiliselt analüsaatorilt saanud muu st mitte-pärisnime analüüsi.


Valid XHTML 1.0! Valid CSS! Veebisepp   Viimati muudetud: Tue, 14. August 2012 21:34 EEST.