Eesti keeles

The Mixed Corpus: Various scientific works

Contents

This subcorpus contains 1,3 million words of various scientific works, mostly articles or article volumes, but also some textbooks. Oone can find here <link: siit tabelist>he concise list of the of the included material.

NB! Most of the same articles are included in the Balanced Corpus!

How can one use it?

The corpus is free for use for non-commercial purposes only.

Texts and annotation

Mark-up and annotation conform to the TEI-guidelines. One file contains one article. The punctuation is separated from the words by spaces.

Every file begins with a header <teiheader> that contains information about the file size, used tags etc.

The rest of the file is structured as follows:

The non-textual material has been omitted from the text and replaced by a tag <gap desc=’description_of_the_omitted_material’>. By non-textual material we mean pictures (photos, drawings, diagrams etc), tables, lists of references etc. Longer non-Estonian passages, usually the English summaries of the articles have also been omitted

In the corpus version one can access via our corpus query, all mark-up except the tags <gap> used for the omitted material have been deleted.

Special symbols

The non-ASCII characters/symbols are presented using the following entities:

Entity Symbol Estonian description
&AElig; Æ AE ligatuur
&Aacute; Á ladina suur A akuudiga
&Aring; Å ladina suur A ülasõõriga
&Auml; Ä  
&Ccaron; Č ladina suur C haagiga
&Eacute; É ladina suur E akuudiga
&Egrave; È ladina suur E graavisega
&Euml; Ë ladina suur E umlautiga
&Iuml; Ï ladina suur I umlautiga
&Oacute; Ó ladina suur O akuudiga
&Ograve; Ò ladina suur O graavisega
&Oslash; Ø ladina suur O läbiva kaldkriipsuga
&Otilde; Õ  
&Ouml; Ö  
&Scaron; Š  
&Ucirc; Û ladina suur U tsirkumfleksiga e. katusega
&Uuml; Ü  
&Zcaron; Ž  
&aacute; á    ladina väike a akuudiga
&acirc; â ladina väike a tsirkumfleksiga e. katusega
&aelig; æ (ae ligatuur )
&agr;   kreeka väike alfa
&agrave; à ladina väike a graavisega
&amacron; ā ladina väike a ülakriipsuga
&amp; & ampersand
&aring; å ladina väike a ülasõõriga
&ast; * asteriks
&atilde; ã ladina väike a tildega
&auml; ä  
&bgr;   kreeka väike beeta
&brvbar; ¦ katkendlik püstjoon
&ccedil; ç ladina väike c sediiga
&commat; @ ätt-märk
&copy; © autoriõiguse märk
&dgr;   kreeka väike delta
&eacute; é ladina väike e akuudiga
&ecirc; ê ladina väike e tsirkumfleksiga e. katusega
&egr;   kreeka väike epsilon
&egrave; è ladina väike e graavisega
&emacron; ē ladina väike e ulakriipsuga
&euml; ë ladina väike e umlautiga
&frac12; ½ murd 1/2
&frac14; ¼    murd 1/4
&frac34; ¾ murd 3/4
&ggr;   kreeka väike gamma
&gt; suurem-kui-märk
&iacute; í ladina väike i akuudiga
&icirc; î ladina väike i tsirkumfleksiga e. katusega
&igr;   kreeka väike ioota
&igrave; ì ladina väike i graavisega
&imacron; ī ladina väike i ülakriipsuga
&iquest; ¿ tagurpidi küsimärk
&iuml; ï ladina väike i umlautiga
&khgr;   kreeka väike hii
&ldquo;   vasak kahekordne jutumärk
&lgr;   kreeka väike lambda
&lstrok;   ladina väike l läbiva kriipsuga
&lt; vaiksem-kui-märk
&mgr;   kreeka väike müü
&middot; · keskmine punkt
&nacute; ń ladina väike n akuudiga
&ntilde; ñ ladina väike n tildega
&oacute; ó ladina väike o akuudiga
&ocirc; ô ladina väike o tsirkumfleksiga e. katusega
&oelig; œ (oe ligatuur)
&ordm; º järgarvu märk (Nº)
&oslash; ø ladina väike o labiva kaldkriipsuga
&otilde; õ  
&ouml; ö  
&plus;   plussmärk
&plusmn; ± pluss-miinus
&quot; " jutumärgid (nn tollimärgid)
&rcaron; ř ladina väike r haagiga
&rdquo;   parempoolne kahekordne jutumärk (“ või »)
&rgr;   kreeka väike roo
&scaron; š  
&sect; § paragrahvi märk
&sgr;   kreeka väike sigma
&shy; - pehme poolitus
&szlig; ß ladina väike sz
&times; × korrutusmärk
&ugr;   kreeka väike u
&ugrave; ù ladina väike u graavisega
&uuml; ü  
&yacute; ý ladina väike y akuudiga
&zcaron; ž  

Valid XHTML 1.0! Valid CSS! Webmaster    Last modified: March 24 2014 14:39:22.