Informační systém MU
SUCHOMEL, Vít. Discriminating Between Similar Languages Using Large Web Corpora. In Horák, Aleš and Rychlý, Pavel and Rambousek, Adam. Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2019. Brno: Tribun EU, 2019, s. 129-135. ISBN 978-80-263-1530-8.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Discriminating Between Similar Languages Using Large Web Corpora
Autoři SUCHOMEL, Vít (203 Česká republika, garant, domácí).
Vydání Brno, Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2019, od s. 129-135, 7 s. 2019.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10200 1.2 Computer and information sciences
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW URL
Kód RIV RIV/00216224:14330/19:00111666
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-1530-8
ISSN 2336-4289
UT WoS 000604899800015
Klíčová slova anglicky language identification; discriminating similar languages; building web corpora
Změnil Změnil: Mgr. Michal Petr, učo 65024. Změněno: 16. 5. 2022 15:28.
Anotace
This paper presents a method for discriminating similar lan-guages based on wordlists from large web corpora. The main benefits ofthe approach are language independency, a measure of confidence of theclassification and an easy-to-maintain implementation.The method is evaluated on VarDial 2014 workshop data set. The resultaccuracy is comparable to other methods successfully performing at theworkshop.A tool implementing the method in Python can be obtained from web sitehttp://corpus.tools/.
Návaznosti
LM2015071, projekt VaVNázev: Jazyková výzkumná infrastruktura v České republice (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
Zobrazeno: 30. 4. 2024 20:47