Annotated Amharic Corpora

RYCHLÝ, Pavel a Vít SUCHOMEL. Annotated Amharic Corpora. In Petr Sojka, Aleš Horák, Ivan Kopeček, Karel Pala. Text, Speech, and Dialogue 19th International Conference, TSD 2016 Brno, Czech Republic, September 12–16, 2016 Proceedings. Switzerland: Springer International Publishing, 2016, s. 295-302. ISBN 978-3-319-45509-9. Dostupné z: https://dx.doi.org/10.1007/978-3-319-45510-5_34.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Annotated Amharic Corpora
Autoři	RYCHLÝ, Pavel (203 Česká republika, domácí) a Vít SUCHOMEL (203 Česká republika, garant, domácí).
Vydání	Switzerland, Text, Speech, and Dialogue 19th International Conference, TSD 2016 Brno, Czech Republic, September 12–16, 2016 Proceedings, od s. 295-302, 8 s. 2016.
Nakladatel	Springer International Publishing

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	60200 6.2 Languages and Literature
Stát vydavatele	Švýcarsko
Utajení	není předmětem státního či obchodního tajemství
Forma vydání	tištěná verze "print"
WWW	Plný text výsledku
Impakt faktor	Impact factor: 0.402 v roce 2005
Kód RIV	RIV/00216224:14330/16:00088120
Organizační jednotka	Fakulta informatiky
ISBN	978-3-319-45509-9
ISSN	0302-9743
Doi	http://dx.doi.org/10.1007/978-3-319-45510-5_34
UT WoS	000389707400034
Klíčová slova anglicky	Amharic; text corpus; web corpus; under-resourced language; corpus annotation; morphological tagger
Štítky	firank_B
Příznaky	Mezinárodní význam, Recenzováno
Změnil	Změnil: RNDr. Vít Suchomel, Ph.D., učo 139723. Změněno: 1. 11. 2017 11:02.

Anotace

Amharic is one of under-resourced languages. The paper presents two text corpora. The first one is a substantially cleaned version of existing morphologically annotated WIC Corpus (210,000 words). The second one is the largest Amharic text corpus (17 million words). It was created from Web pages automatically crawled in 2013, 2015 and 2016. It is part-of-speech annotated by a tagger trained and evaluated on the WIC Corpus.

Návaznosti
GA15-13277S, projekt VaV	Název: Hyperintensionální logika pro analýzu přirozeného jazyka
GA15-13277S, projekt VaV	Investor: Grantová agentura ČR, Hyperintensionální logika pro analýzu přirozeného jazyka
7F14047, projekt VaV	Název: Harvesting big text data for under-resourced languages (Akronym: HaBiT)
7F14047, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Harvesting big text data for under-resourced languages

VytisknoutZobrazeno: 13. 9. 2024 19:14

Annotated Amharic Corpora

Další aplikace