RYCHLÝ, Pavel a Vít SUCHOMEL. Annotated Amharic Corpora. In Petr Sojka, Aleš Horák, Ivan Kopeček, Karel Pala. Text, Speech, and Dialogue 19th International Conference, TSD 2016 Brno, Czech Republic, September 12–16, 2016 Proceedings. Switzerland: Springer International Publishing, 2016, s. 295-302. ISBN 978-3-319-45509-9. Dostupné z: https://dx.doi.org/10.1007/978-3-319-45510-5_34.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Annotated Amharic Corpora
Autoři RYCHLÝ, Pavel (203 Česká republika, domácí) a Vít SUCHOMEL (203 Česká republika, garant, domácí).
Vydání Switzerland, Text, Speech, and Dialogue 19th International Conference, TSD 2016 Brno, Czech Republic, September 12–16, 2016 Proceedings, od s. 295-302, 8 s. 2016.
Nakladatel Springer International Publishing
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 60200 6.2 Languages and Literature
Stát vydavatele Švýcarsko
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW Plný text výsledku
Impakt faktor Impact factor: 0.402 v roce 2005
Kód RIV RIV/00216224:14330/16:00088120
Organizační jednotka Fakulta informatiky
ISBN 978-3-319-45509-9
ISSN 0302-9743
Doi http://dx.doi.org/10.1007/978-3-319-45510-5_34
UT WoS 000389707400034
Klíčová slova anglicky Amharic; text corpus; web corpus; under-resourced language; corpus annotation; morphological tagger
Štítky firank_B
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Vít Suchomel, Ph.D., učo 139723. Změněno: 1. 11. 2017 11:02.
Anotace
Amharic is one of under-resourced languages. The paper presents two text corpora. The first one is a substantially cleaned version of existing morphologically annotated WIC Corpus (210,000 words). The second one is the largest Amharic text corpus (17 million words). It was created from Web pages automatically crawled in 2013, 2015 and 2016. It is part-of-speech annotated by a tagger trained and evaluated on the WIC Corpus.
Návaznosti
GA15-13277S, projekt VaVNázev: Hyperintensionální logika pro analýzu přirozeného jazyka
Investor: Grantová agentura ČR, Hyperintensionální logika pro analýzu přirozeného jazyka
7F14047, projekt VaVNázev: Harvesting big text data for under-resourced languages (Akronym: HaBiT)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Harvesting big text data for under-resourced languages
VytisknoutZobrazeno: 13. 9. 2024 19:14