Eesti keeles

The Mixed Corpus: Various scientific works

Content

This subcorpus contains 1,3 million words of various scientific works, mostly articles or article volumes, but also some textbooks. One can find the concise list of the included material in this table.

NB! Most of the same articles are included in the Balanced Corpus!

The corpus is free for use for non-commercial purposes only.

Texts and annotation

Mark-up and annotation conform to the TEI-guidelines. One file contains one article. The punctuation is separated from the words by spaces.

Every file begins with a header <teiheader> that contains information about the file size, used tags etc.

The rest of the file is structured as follows:

The non-textual material has been omitted from the text and replaced by a tag <gap desc=’description_of_the_omitted_material’>. By non-textual material we mean pictures (photos, drawings, diagrams etc), tables, lists of references etc. Longer non-Estonian passages, usually the English summaries of the articles have also been omitted

In the corpus version one can access via our corpus query, all mark-up except the tags <gap> used for the omitted material have been deleted.

Special symbols

The non-ASCII characters/symbols are presented using the following entities:

Entity Symbol Estonian description
&AElig; Æ AE ligatuur
&Aacute; Á ladina suur A akuudiga
&Aring; Å ladina suur A ülasõõriga
&Auml; Ä  
&Ccaron; Č ladina suur C haagiga
&Eacute; É ladina suur E akuudiga
&Egrave; È ladina suur E graavisega
&Euml; Ë ladina suur E umlautiga
&Iuml; Ï ladina suur I umlautiga
&Oacute; Ó ladina suur O akuudiga
&Ograve; Ò ladina suur O graavisega
&Oslash; Ø ladina suur O läbiva kaldkriipsuga
&Otilde; Õ  
&Ouml; Ö  
&Scaron; Š  
&Ucirc; Û ladina suur U tsirkumfleksiga e. katusega
&Uuml; Ü  
&Zcaron; Ž  
&aacute; á    ladina väike a akuudiga
&acirc; â ladina väike a tsirkumfleksiga e. katusega
&aelig; æ (ae ligatuur )
&agr;   kreeka väike alfa
&agrave; à ladina väike a graavisega
&amacron; ā ladina väike a ülakriipsuga
&amp; & ampersand
&aring; å ladina väike a ülasõõriga
&ast; * asteriks
&atilde; ã ladina väike a tildega
&auml; ä  
&bgr;   kreeka väike beeta
&brvbar; ¦ katkendlik püstjoon
&ccedil; ç ladina väike c sediiga
&commat; @ ätt-märk
&copy; © autoriõiguse märk
&dgr;   kreeka väike delta
&eacute; é ladina väike e akuudiga
&ecirc; ê ladina väike e tsirkumfleksiga e. katusega
&egr;   kreeka väike epsilon
&egrave; è ladina väike e graavisega
&emacron; ē ladina väike e ulakriipsuga
&euml; ë ladina väike e umlautiga
&frac12; ½ murd 1/2
&frac14; ¼    murd 1/4
&frac34; ¾ murd 3/4
&ggr;   kreeka väike gamma
&gt; suurem-kui-märk
&iacute; í ladina väike i akuudiga
&icirc; î ladina väike i tsirkumfleksiga e. katusega
&igr;   kreeka väike ioota
&igrave; ì ladina väike i graavisega
&imacron; ī ladina väike i ülakriipsuga
&iquest; ¿ tagurpidi küsimärk
&iuml; ï ladina väike i umlautiga
&khgr;   kreeka väike hii
&ldquo;   vasak kahekordne jutumärk
&lgr;   kreeka väike lambda
&lstrok;   ladina väike l läbiva kriipsuga
&lt; vaiksem-kui-märk
&mgr;   kreeka väike müü
&middot; · keskmine punkt
&nacute; ń ladina väike n akuudiga
&ntilde; ñ ladina väike n tildega
&oacute; ó ladina väike o akuudiga
&ocirc; ô ladina väike o tsirkumfleksiga e. katusega
&oelig; œ (oe ligatuur)
&ordm; º järgarvu märk (Nº)
&oslash; ø ladina väike o labiva kaldkriipsuga
&otilde; õ  
&ouml; ö  
&plus;   plussmärk
&plusmn; ± pluss-miinus
&quot; " jutumärgid (nn tollimärgid)
&rcaron; ř ladina väike r haagiga
&rdquo;   parempoolne kahekordne jutumärk (“ või »)
&rgr;   kreeka väike roo
&scaron; š  
&sect; § paragrahvi märk
&sgr;   kreeka väike sigma
&shy; - pehme poolitus
&szlig; ß ladina väike sz
&times; × korrutusmärk
&ugr;   kreeka väike u
&ugrave; ù ladina väike u graavisega
&uuml; ü  
&yacute; ý ladina väike y akuudiga
&zcaron; ž  

Valid XHTML 1.0! Valid CSS! Webmaster    Last modified: December 21 2018 19:30:53.