D 2012

Towards 100M Morphologically Annotated Corpus of Tajik

DOVUDOV, Gulshan; Vít SUCHOMEL a Pavel ŠMERK

Základní údaje

Originální název

Towards 100M Morphologically Annotated Corpus of Tajik

Autoři

DOVUDOV, Gulshan; Vít SUCHOMEL a Pavel ŠMERK ORCID

Vydání

Brno, Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2012, od s. 91-94, 4 s. 2012

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14330/12:00064722

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-0313-8

Klíčová slova anglicky

web corpora; Tajik

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 25. 5. 2021 19:21, RNDr. Vít Suchomel, Ph.D.

Anotace

V originále

The paper presents a work in progress: building morphologically annotated corpus of Tajik language of the size more than 100 million tokens. The corpus is and will be by far the largest available computer corpus of Tajik: even its current size is almost 85 million tokens. Because the available text sources are rather scarce, to achieve the goal also the texts of a lower quality have to be included. This short paper briefly reviews the current state of the corpus and analyzer, discusses problems with either “normalization” or at least categorization of low quality texts and finally also the perspectives for the nearest future.

Návaznosti

LM2010013, projekt VaV
Název: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum