Sõna esinemissagedus on tihedas korrelatsioonis selle sõna tavalisusega. Sagedamad sõnad on tavalisemad, harvemad siis vastavalt ebatavalisemad. Vahetegemine tavalisuse ja sageduse vahel aitab mõista, millist informatsiooni sagedussõnastik annab ja mida mitte. Nt kägu on vaieldamatult tavaline eesti keele sõna, aga sage ainult teatud tüüpi tekstides, mille hulka ei aja- ega ilukirjandus ei kuulu, ning käesolevasse sõnastikku pääsemise künnist ta ei ületanudki. Sagedus mingis tekstis või isegi tekstiklassis ei garanteeri sõna tavalisust. Sagedus nimelt sõltub alliktekstidest, mille alusel ta on arvutatud ja seetõttu tuleb tema tõlgendamisel allikate tüüpi arvestada. Paljud kõrgkooli füüsikaõpikus sageli esinevad sõnad on keele kui terviku seisukohalt ebatavalised; sama lugu on muinasjuttudega. Kuid isegi sama tekstiklassi piires sage sõna ei pruugi olla tavaline. Sõnad ei esine tekstis juhuslikult, vaid vastavalt teksti teemale. See tähendab aga, et mistahes tekstide alusel tehtud sagedus esitab tavalisusest moonutatud pildi. Lisaks sagedusele tuleb arvestada sõna levikut erinevates tekstides. Kui sõna esineb paljudes tekstides, kuigi igaühes vähe kordi, siis on ta tavalisem kui sõna, mis esineb mõnes üksikus tekstis ja seal väga palju.
Omaette küsimus on, kui laia levikut me sõnalt nõuame, et teda sagedussõnastikku lisamiseks kõlblikuks pidada. Käesoleva sõnastiku puhul oli eesmärk esitada tavalisi eesti keele sõnu. Seetõttu ollakse siin leviku suhtes väga ranged: sõna peab esinema nii ilukirjrjanduses kui ka ajakirjanduses. Kui sõna puudub emmas-kummas neist, siis pole ta piisavalt tavaline, et sagedussõnastikku sattuda.
Kui soovime tõlgendada sagedust kui tavalisust, siis peab tekstide hulk, mille alusel sagedus arvutatakse, olema küllalt homogeenne. Kui sinna kuuluvad väga erinevaid tekstiklasse esindavad tekstid (nt. interneti jututubade jutt ja seaduste tekstid), siis mida nende alusel leitud summaarsed sagedused õigupoolest iseloomustavad?
Käesoleva sagedussõnastiku aluseks on üks miljon sõna ajakirjandust ja ilukirjandust. Need on kaks kirjutatud keele mahukat, selgepiirilist ja piisavalt homogeenset tekstiklassi, mis samas ei ole teineteisest liiga erinevad. Ilukirjandus ja üleriikliku levikuga mitte-spetsialiseeritud kvaliteet-ajakirjandus kokku peaksid esindama mõistlikult normeeritud, standardset, laia levikuga, neutraalset eesti keelt.
Mõlema tekstiklassi maht on ümmarguselt pool miljonit sõna. Ilukirjandustekstidena (ilu92_98.zip) on kasutatud tänapäeva eesti keele korpuse 90ndate aastate ilukirjanduse allkorpuse tekste aastatest 1992-1998, kus iga väljavõtte pikkus on 2000 sõna; mõnest tekstist on võetud ka rohkem kui üks väljavõte. Ajalehetekstidena (aja95_99.zip) on osaliselt samuti kasutatud tänapäeva eesti keele korpuse 90ndate aastate ajakirjanduse allkorpuse tekste, aga ka sekka tekste ajalehtede internetiarhiividest, et ajalehetekstid oleksid mitmekesisemad. Kõik kasutatud ajalehed pärinevad ajavahemikust 1995-1999. Ajalehtedest kasutati terviknumbreid, mitte 2000-sõnalisi katkeid.
Mitmete tekstiklasside ja eriti suulise kõne puudumine allikmaterjalide hulgas ning sõnastiku aluseks olevate tekstide maht - 1 miljon sõna - tähendab muidugi seda, et tuleb olla ettevaatlik, kui soovime käesoleva sõnastiku sagedus-andmeid tõlgendada kui eestikeelsete sõnade üldise tavalisuse mõõtu. Võrdluseks: inglaste sagedussõnaraamatu Word Frequencies in Written and Spoken English (Leech jt 2001) aluseks olevas tekstikorpuses British National Corpus on 100 miljonit sõna. Teiselt poolt, seniajani ainsa, tugeva teoreetilise taustaga eesti keele sagedussõnastiku (Kaasik jt 1976; Kaasik jt 1977) alusmaterjal oli 100 000 sõna ja kajastas ainult ühe tekstitüübi - ilukirjanduse autorikõne - sõnavara.
Tabelis 1 (tekstifail) on kõik 10 000 sõna tähestiku järjekorras. Tabeli esimeses veerus on sõna, teises tema sõnaliiki (ka mitut) näitav lühend, kolmandas tema sagedus kogu korpuses, neljandas sagedus ajalehtedes ja viimases, viiendas veerus on sõna sagedus ilukirjanduses.
Tabelis 2 (tekstifail) on 1000 kõige sagedamat sõnavormi tähestiku järjekorras. Esimeses veerus on sõnavorm ise, teises tema esinemissagedus kogu korpuses, kolmandas ajakirjanduses ja neljandas veerus on selle sõnavormi esinemissagedus ilukirjanduskorpuses.
Tabelis 3 (tekstifail) on 100 sõna, mis muidu on sõnastikust välja jäänud: need on kõige sagedasemad ainult ühes tekstiklassis - ainult ajalehtedes või ainult ilukirjanduses - esinenud sõnad. Kriips kolmandas või neljandas veerus näitab selle sõna puudumist vastavalt siis ajalehtedes või ilukirjanduses. Näeme, et ajalehtedes on neile ainuomast sõnavara tunduvalt rohkem, enamikus on nad riigijuhtimise (riigieelarve, välisminister, siseminister), majanduse (investeering, börs, tarbija), aga ka näiteks spordiga (meistrivõistlus, finaal) seotud nimisõnad. Ilukirjandusele ainuomaseid sõnu on selle saja hulgas vaid 11, nendest 7 on tegusõnad (pomisema, kummarduma, silitama, võpatama, seisatama, kuulatama, kohendama).
Sagedussõnastiku aluseks olid eesti ilukirjanduse tekstid (mitte tõlked) aastatest 1992-1998 (ilu92_98.zip). Igast teosest (raamatutena + Loomingus ilmunud ilukirjandus) on korpuses tavaliselt üks 2000-sõnaline katke. Kui teos on ilukirjanduse bibliograafias kaks korda, siis on sealt kaks 2000-sõnalist katket.
Ajalehetekstid pärinevad ajavahemikust 1995-1999 (aja95_99.zip). Ajalehtedest (vt ajakirjanduse bibliograafiat) kasutati terviknumbreid.
Seda sõnastikku lugedes ja kasutades tuleb arvestada, et siin on esitatud sõnade, mitte sõnatähenduste sagedused. Nii esindab tegusõna tulema sagedus tähenduste kohale saabuma (tulin koju) ja pidama, sunnitud olema (tööd tuleb teha) summaarset sagedust. Sellele, et ühe lekseemi all on peidus mitu tähendust, muutmisvarianti või ka sõnaliiki, viitab see, kui lekseemil on sõnastikus mitu sõnaliigi tähist.
Samuti on siin esitatud eraldi nende sõnade sagedused, mida tavaliselt kasutatakse koos ja ka sõnaraamatutes esitatakse koos (nt ühend- ja väljendverbid). Nii läheb ühendist aru saama sõna aru sõnastikku oma sagedusega (kokku nimisõnaga aru, mõistus ja nimisõnaga aru, aruniit) ning saama samuti omaette.
Kui sõna nendes loendites ei ole, ei tähenda see seda, et teda meie kasutada olnud tekstides üldse ei esinenud. Siin raamatus on esitatud ainult need sõnad, mis esinesid mõlemas tekstiklassis, nii ajakirjanduses kui ka ilukirjanduses, ja kokku vähemalt viis korda. Seega, kui mingit sõna kasutati palju ilukirjanduses, aga ajakirjanduses üldse mitte, siis teda siin ka ei ole. Kõige sagedasemad nendest on esitatud tabelis ajakirjandusele ja ilukirjandusele iseloomulike sõnade kohta. Näiteks esines sõna puuraidur 50 korda ilukirjanduses, aga mitte kordagi ajakirjanduses. Ajakirjanduses aga on näiteks 209 korda kasutatud sõna omavalitsus, mida ilukirjandustekstides polnud üldse.
Ka ei maksa tegelikult üksikute sõnade sagedustest teha väga kaugeleulatuvaid järeldusi. Kui uskuda tuntud inglise keeleteadlast ja leksikograafi John Sinclairi, ei ole isegi mitte üksikute sõnade tähendus järeldatav sellest sõnast üksi, vaid tähendus on alati kontekstis, sõnaühendites. Nii et kui meie sagedussõnastikus on üks sagedasemaid nimisõnu aeg, siis pole enamikul juhtudel tegelikult juttu mitte ajast kui ontoloogilisest kategooriast, vaid tegu on selliste lihtsate sõnaühenditega nagu samal ajal, viimasel ajal, kogu aeg, pikka aega. Võrdluseks olgu öeldud, et aeg on kõige sagedasem nimisõna soome keele sagedussõnaraamatus (Saukkonen jt 1979)
Sõnade algvormid e lemmad leiti automaatselt, kasutades eesti keele morfoloogilist analüsaatorit koos statistilise ühestajaga estyhmm; täpsemat kirjeldust vt (Kaalep, Vaino 2000). Siis arvutati nende algvormide esinemissagedused nii kogu korpuses kui ka ilukirjanduses ja ajakirjanduses eraldi. Sagedussõnaraamatust on välja jäetud pärisnimed, samuti lühendid ja numbritega kirjutatud arvud.
Igale lemmale on meie sõnaraamatus lisatud üks või mitu sõnaliigi lühendit, mis viitavad selle lemma kuulumisele nimisõnade e substantiivide (S), omadussõnade e adjektiivide (A), tegusõnade e verbide (V), asesõnade e pronoomenite (P) või muutumatute sõnade (D) klassi. Muutumatute sõnade hulka kuuluvad kaas-, määr-, side- ja hüüdsõnad. Kõige rohkem sõnaliigi tähiseid - neli - on kahel lemmal: oma ja pool. Allpool seletatud põhjustel võib ühel sõnal olla ka mitu sama sõnaliigi lühendit.
Kuna sõna algvormi leidmine toimus automaatselt, tekkis muidugi ka vigu. Esialgne suurim puudus oli see, et automaatselt polnud kuidagi võimalik vahet teha sõnade see ja tema mitmuse vormide vahel omastavast alates (nende, neid, nendes e. neis, ?), aga kuna need vormid ühestati käsitsi, vastavad nende sõnaraamatus esitatud sagedused tegelikkusele. Samuti on käsitsi parandatud programmi väljundit mõnede teiste lemmade puhul.
Suur osa eesti pärsinimedest kattuvad üldnime või mõne selle käändevormiga. Nii on teksti automaatsel morfoloogilisel analüüsil raske vahet teha üld- ja pärisnime vahel (nt eesnimed Laine, Kalju jpt, eriti aga liitsõnalised perekonna- ja kohanimed). Selliseid vigu on püütud parandada sagedusloendeid hiljem käsitsi kontrollides. Nii näiteks on sagedaste sõnade hulgast välja visatud selline liitsõna nagu mustamägi ja käsitsi üle kontrollides vähendatud selliste sõnade nagu liiv, mari jpt sagedusi.
Automaatsel lemmatiseerimisel rakendati sõna algvormi leidmisel järgmisi põhimõtteid.
Kui tekstide analüüs on tehtud automaatselt ja on teada, et programm võib teha vigu, on tähtis teada, kuivõrd selle töö tulemust - sagedussõnastikku - üldse usaldada saab.
Selle kontrollimiseks võrdlesime ühesuguste tekstide kahte versiooni, millest üks sisaldas inimese poolt käsitsi leitud sõnade algvorme, teine aga programmi poolt automaatselt leituid. Nii ilu- kui ajakirjanduse puhul selgus, et kõige sagedasem viga automaatanalüüsil oli pärisnime pidamine üldnimeks. Kõigist tekstisõnedest oli valesti saanud üldnime analüüsi 2% - nt Kõuts, Kalev, Väli jne. Selle vea mõju sõnastikule vähendas esiteks see, et paljud üldnimeks analüüsitud pärisnimed esinevad ainult ühes tekstis või tekstiklassis, mistõttu nad jäid sõnastikust välja kui mitte-tavalised. Teiseks vähendas vigu ka hilisem pisteline kontroll - kui hiljem sagedusloendeid lugedes tundus mõni sõna kummaliselt suure sagedusega olevat, siis kontrolliti ta esinemisjuhtumid tekstides üle ja arvesse võeti ainult esinemised üldnimena.
Kui jätta üld- ja pärisnime vigane eristus kõrvale, siis oli vale algvorm leitud 0,75% juhtudest. Reaalselt on vigu ilmselt veelgi vähem, sest sõnastik sisaldab summaarseid sagedusi, mistõttu valesti leitud üksikjuhtumid summeerudes üksteist kustutavad. Igal juhul on 0,75%-ne viga võrreldav tekstide valikust tuleneva võimaliku esindusveaga.
Sõnastiku suurus on 9700 sõna. Ajakirjanduskorpuse suurus koos numbrite, lühendite ja pärisnimedega on 510 200 sõna, ilukirjanduskorpuse oma 496 800 sõna, kokku seega 1 007 000 sõna. Kogu korpuses on selliseid sõnu, mida sõnastiku tegemisel arvesse võeti, so arvestamata numbreid, pärisnimesid ja lühendeid, 908 400.
Edaspidi kasutame teksti katvuse hindamiseks just viimast arvu, sest ei pärisnimesid, lühendeid ega numbreid sisaldavaid sõnu sõnastiku tegemisel arvesse ei võetud.
Tabel 4 iseloomustab sageduse järgi järjestatud lemmade kumulatiivset osakaalu teksti katmisel. Esimeses kahes veerus olevad numbrid on ümardatud.
Esimesed ... sõna | mitu % tekstist nad katavad | iga sõna vähemalt ... korda |
---|---|---|
10 | 19,3 | 6194 |
20 | 24,6 | 4032 |
50 | 33,1 | 1797 |
100 | 40,7 | 1034 |
250 | 51,3 | 452 |
500 | 60,2 | 229 |
1000 | 69,0 | 115 |
1500 | 74,0 | 72 |
2000 | 77,2 | 52 |
3000 | 81,5 | 30 |
5000 | 86,0 | 15 |
10000 | 90,3 | 5 |
Selgub, et 250 kõige sagedasemat sõna katavad üle poole tekstist ja 10 000 kõige sagedasemat sõna umbes 90% tekstist.
Siin näidatakse tegelikult ainult jäämäe veepealset osa: kokku oli erinevaid lemmasid korpuses 60 000, neist üle poole e. 32 000 esines seal ainult üks kord. Ülejäänud 28 000-st esines mõlemas tekstiklassis, nii ilu- kui ka ajakirjanduses 14 500 lemmat; ja kokku vähemalt viis korda esines neist omakorda 9 700, mis ongi käesoleva sõnastiku, mis katab tekstist 90,3%, maht.
Selliseid lemmasid, mis esinevad ainult ilukirjanduses, oli 22 000; ainult ajakirjanduses esines 23 500. Sagedasemad neist on toodud tabelis 3.
Sõnavormide kumulatiivset võimet teksti katta iseloomustab tabel 5. Näeme, et selleks, et saavutada ligi 90%-line katvus, läheb vaja 33 000 erinevat sõnavormi e kolm korda rohkem kui erinevaid lemmasid.
Esimesed ... sõnavormi | mitu % tekstist nad katavad | iga sõnavorm vähemalt ... korda |
---|---|---|
10 | 13,0 | 5329 |
20 | 17,2 | 2961 |
50 | 23,5 | 1445 |
100 | 29,4 | 863 |
250 | 38,2 | 373 |
500 | 45,3 | 187 |
1000 | 52,4 | 95 |
1500 | 56,7 | 65 |
2000 | 59,7 | 50 |
3000 | 64,2 | 33 |
5000 | 69,7 | 20 |
10000 | 76,9 | 10 |
20000 | 83,8 | 5 |
33000 | 88.8 | 3 |