2016
Annotated Amharic Corpora
RYCHLÝ, Pavel a Vít SUCHOMELZákladní údaje
Originální název
Annotated Amharic Corpora
Autoři
RYCHLÝ, Pavel (203 Česká republika, domácí) a Vít SUCHOMEL (203 Česká republika, garant, domácí)
Vydání
Switzerland, Text, Speech, and Dialogue 19th International Conference, TSD 2016 Brno, Czech Republic, September 12–16, 2016 Proceedings, od s. 295-302, 8 s. 2016
Nakladatel
Springer International Publishing
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
60200 6.2 Languages and Literature
Stát vydavatele
Švýcarsko
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Impakt faktor
Impact factor: 0.402 v roce 2005
Kód RIV
RIV/00216224:14330/16:00088120
Organizační jednotka
Fakulta informatiky
ISBN
978-3-319-45509-9
ISSN
UT WoS
000389707400034
Klíčová slova anglicky
Amharic; text corpus; web corpus; under-resourced language; corpus annotation; morphological tagger
Štítky
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 1. 11. 2017 11:02, RNDr. Vít Suchomel, Ph.D.
Anotace
V originále
Amharic is one of under-resourced languages. The paper presents two text corpora. The first one is a substantially cleaned version of existing morphologically annotated WIC Corpus (210,000 words). The second one is the largest Amharic text corpus (17 million words). It was created from Web pages automatically crawled in 2013, 2015 and 2016. It is part-of-speech annotated by a tagger trained and evaluated on the WIC Corpus.
Návaznosti
GA15-13277S, projekt VaV |
| ||
7F14047, projekt VaV |
|