2012
Towards 100M Morphologically Annotated Corpus of Tajik
DOVUDOV, Gulshan; Vít SUCHOMEL a Pavel ŠMERKZákladní údaje
Originální název
Towards 100M Morphologically Annotated Corpus of Tajik
Autoři
Vydání
Brno, Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2012, od s. 91-94, 4 s. 2012
Nakladatel
Tribun EU
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
60200 6.2 Languages and Literature
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Označené pro přenos do RIV
Ano
Kód RIV
RIV/00216224:14330/12:00064722
Organizační jednotka
Fakulta informatiky
ISBN
978-80-263-0313-8
Klíčová slova anglicky
web corpora; Tajik
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 25. 5. 2021 19:21, RNDr. Vít Suchomel, Ph.D.
Anotace
V originále
The paper presents a work in progress: building morphologically annotated corpus of Tajik language of the size more than 100 million tokens. The corpus is and will be by far the largest available computer corpus of Tajik: even its current size is almost 85 million tokens. Because the available text sources are rather scarce, to achieve the goal also the texts of a lower quality have to be included. This short paper briefly reviews the current state of the corpus and analyzer, discusses problems with either “normalization” or at least categorization of low quality texts and finally also the perspectives for the nearest future.
Návaznosti
| LM2010013, projekt VaV |
|