See korpus on koostatud Jaapanis Tokio Ć¼likoolis prof Kazuto Matsumura juhendamisel.
Erinevalt teistest 1890-1990 allkorpustest, mis sisaldavad ajelehe- ja ilukirjandustekste, sisaldab 1920ndate aastate allkorpus Asutawa Kogu protokolle aastatest 1919-1920. Korpuse maht on u kaks miljonit sõna.
Korpus on vaba kasutamiseks ainult mitteƤrilistel eesmärkidel.
Erinevalt kõigist teistest meie kodulehelt praegu saadaolevatest korpustest on Asutawa Kogu korpus utf-8 kodeeringus, st täpitähed ja „susisevad“ ei ole esitatud html-olemite vaid utf-8 koodidena ning märgendus on esitatud xml-s .
Tekst on jagatud lõikudeks <p>
ja lauseteks <s>
. Laused on nummerdatud.