2012
Large Corpora for Turkic Languages and Unsupervised Morphological Analysis
BAISA, Vít a Vít SUCHOMELZákladní údaje
Originální název
Large Corpora for Turkic Languages and Unsupervised Morphological Analysis
Autoři
BAISA, Vít (203 Česká republika, garant, domácí) a Vít SUCHOMEL (203 Česká republika, domácí)
Vydání
Istanbul, Turkey, Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12), od s. 28-32, 5 s. 2012
Nakladatel
European Language Resources Association (ELRA)
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
60200 6.2 Languages and Literature
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
elektronická verze "online"
Odkazy
Kód RIV
RIV/00216224:14330/12:00059944
Organizační jednotka
Fakulta informatiky
ISBN
978-2-9517408-7-7
Klíčová slova anglicky
corpus; turkic languages; unsupervised morphological analysis
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 9. 4. 2013 11:30, RNDr. Vít Suchomel, Ph.D.
Anotace
V originále
In this article we describe six new web corpora for Turkish, Azerbaijani, Kazakh, Turkmen, Kyrgyz and Uzbek languages. The data for these corpora was automatically crawled from the web by SpiderLing. Only minimal knowledge of these languages was required to obtain the data in raw form. Corpora are tokenized only since morphological analyzers and disambiguators for these languages are not available (except for Turkish). Subsequent experiment with unsupervised morphological segmentation was carried out on the Turkish corpus. In this experiment we achieved encouraging results. We used data provided for MorphoChallenge competition for the purpose of evaluation.
Návaznosti
LM2010013, projekt VaV |
|