D 2014

Character-based Language Model

BAISA, Vít

Základní údaje

Originální název

Character-based Language Model

Autoři

BAISA, Vít (203 Česká republika, garant, domácí)

Vydání

Brno, Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, od s. 3-10, 8 s. 2014

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Kód RIV

RIV/00216224:14330/14:00077506

Organizační jednotka

Fakulta informatiky

ISSN

UT WoS

000374560500001

Klíčová slova anglicky

language model; suffix array; LCP; trie; character-based; random text generator; corpus

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 27. 5. 2021 09:10, Mgr. et Mgr. Vít Baisa, Ph.D.

Anotace

V originále

Language modelling and also other natural language processing tasks are usually based on words. I present here a more general yet simpler approach to language modelling using much smaller units of text data: character-based language model (CBLM). In this paper I describe the underlying data structure of the model, evaluate the model using standard measures (entropy, perplexity). As a proof-of-concept and an extrinsic evaluation I present also a random sentence generator based on this model.

Návaznosti

LM2010013, projekt VaV
Název: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum