DSL Shared task 2016: Perfect Is The Enemy of Good Language
Discrimination Through Expectation-Maximization and Chunk-based
Language Model

HERMAN, Ondřej, Vít SUCHOMEL, Vít BAISA a Pavel RYCHLÝ. DSL Shared task 2016: Perfect Is The Enemy of Good Language Discrimination Through Expectation-Maximization and Chunk-based Language Model. Online. In Preslav Nakov, Marcos Zampieri, Liling Tan, Nikola Ljubešić, Jörg Tiedemann, Shervin Malmasi. Proceedings of the Third Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial3). Osaka: Association for Natural Language Processing (ANLP), Osaka, Japan, 2016, s. 114-118. ISBN 978-4-87974-716-7.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	DSL Shared task 2016: Perfect Is The Enemy of Good Language Discrimination Through Expectation-Maximization and Chunk-based Language Model
Autoři	HERMAN, Ondřej (203 Česká republika, garant, domácí), Vít SUCHOMEL (203 Česká republika, domácí), Vít BAISA (203 Česká republika, domácí) a Pavel RYCHLÝ (203 Česká republika, domácí).
Vydání	Osaka, Proceedings of the Third Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial3), od s. 114-118, 5 s. 2016.
Nakladatel	Association for Natural Language Processing (ANLP), Osaka, Japan

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
Forma vydání	elektronická verze "online"
WWW	URL
Kód RIV	RIV/00216224:14330/16:00092557
Organizační jednotka	Fakulta informatiky
ISBN	978-4-87974-716-7
Klíčová slova anglicky	language discrimination;expectation maximization;language model
Štítky	best
Příznaky	Mezinárodní význam, Recenzováno
Změnil	Změnil: RNDr. Vít Suchomel, Ph.D., učo 139723. Změněno: 1. 11. 2017 12:13.

Anotace
In this paper we investigate two approaches to discrimination of similar languages: Expectation--maximization algorithm for estimating conditional probability P(word\|language) and byte level language models similar to compression-based language modelling methods. The accuracy of these methods reached respectively 86.6 % and 88.3 % on set A of the DSL Shared task 2016 competition.

Návaznosti
MUNI/A/0945/2015, interní kód MU	Název: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace V.
MUNI/A/0945/2015, interní kód MU	Investor: Masarykova univerzita, Rozsáhlé výpočetní systémy: modely, aplikace a verifikace V., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
7F14047, projekt VaV	Název: Harvesting big text data for under-resourced languages (Akronym: HaBiT)
7F14047, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Harvesting big text data for under-resourced languages

VytisknoutZobrazeno: 26. 4. 2024 13:57

DSL Shared task 2016: Perfect Is The Enemy of Good Language Discrimination Through ...

Další aplikace