2014
Character-based Language Model
BAISA, VítZákladní údaje
Originální název
Character-based Language Model
Autoři
BAISA, Vít (203 Česká republika, garant, domácí)
Vydání
Brno, Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, od s. 3-10, 8 s. 2014
Nakladatel
Tribun EU
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
60200 6.2 Languages and Literature
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Kód RIV
RIV/00216224:14330/14:00077506
Organizační jednotka
Fakulta informatiky
ISSN
UT WoS
000374560500001
Klíčová slova anglicky
language model; suffix array; LCP; trie; character-based; random text generator; corpus
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 27. 5. 2021 09:10, Mgr. et Mgr. Vít Baisa, Ph.D.
Anotace
V originále
Language modelling and also other natural language processing tasks are usually based on words. I present here a more general yet simpler approach to language modelling using much smaller units of text data: character-based language model (CBLM). In this paper I describe the underlying data structure of the model, evaluate the model using standard measures (entropy, perplexity). As a proof-of-concept and an extrinsic evaluation I present also a random sentence generator based on this model.
Návaznosti
LM2010013, projekt VaV |
|