HERMAN, Ondřej, Vít SUCHOMEL, Vít BAISA a Pavel RYCHLÝ. DSL Shared task 2016: Perfect Is The Enemy of Good Language Discrimination Through Expectation-Maximization and Chunk-based Language Model. Online. In Preslav Nakov, Marcos Zampieri, Liling Tan, Nikola Ljubešić, Jörg Tiedemann, Shervin Malmasi. Proceedings of the Third Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial3). Osaka: Association for Natural Language Processing (ANLP), Osaka, Japan, 2016, s. 114-118. ISBN 978-4-87974-716-7.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název DSL Shared task 2016: Perfect Is The Enemy of Good Language Discrimination Through Expectation-Maximization and Chunk-based Language Model
Autoři HERMAN, Ondřej (203 Česká republika, garant, domácí), Vít SUCHOMEL (203 Česká republika, domácí), Vít BAISA (203 Česká republika, domácí) a Pavel RYCHLÝ (203 Česká republika, domácí).
Vydání Osaka, Proceedings of the Third Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial3), od s. 114-118, 5 s. 2016.
Nakladatel Association for Natural Language Processing (ANLP), Osaka, Japan
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání elektronická verze "online"
WWW URL
Kód RIV RIV/00216224:14330/16:00092557
Organizační jednotka Fakulta informatiky
ISBN 978-4-87974-716-7
Klíčová slova anglicky language discrimination;expectation maximization;language model
Štítky best
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Vít Suchomel, Ph.D., učo 139723. Změněno: 1. 11. 2017 12:13.
Anotace
In this paper we investigate two approaches to discrimination of similar languages: Expectation--maximization algorithm for estimating conditional probability P(word|language) and byte level language models similar to compression-based language modelling methods. The accuracy of these methods reached respectively 86.6 % and 88.3 % on set A of the DSL Shared task 2016 competition.
Návaznosti
MUNI/A/0945/2015, interní kód MUNázev: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace V.
Investor: Masarykova univerzita, Rozsáhlé výpočetní systémy: modely, aplikace a verifikace V., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
7F14047, projekt VaVNázev: Harvesting big text data for under-resourced languages (Akronym: HaBiT)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Harvesting big text data for under-resourced languages
VytisknoutZobrazeno: 26. 4. 2024 13:57