2016
Czech Grammar Agreement Dataset for Evaluation of Language Models
BAISA, VítZákladní údaje
Originální název
Czech Grammar Agreement Dataset for Evaluation of Language Models
Autoři
Vydání
Brno, RASLAN 2016 Recent Advances in Slavonic Natural Language Processing, od s. 63-67, 5 s. 2016
Nakladatel
Tribun EU
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Kód RIV
RIV/00216224:14330/16:00091975
Organizační jednotka
Fakulta informatiky
ISBN
978-80-263-1095-2
ISSN
UT WoS
000466886400007
EID Scopus
2-s2.0-85013663565
Klíčová slova česky
jazykový model; gramatická shoda; slovesná přípona; čeština; podmět; přísudek; vyhodnocení; perplexita
Klíčová slova anglicky
language model; grammar agreement; verb suffix; Czech language; subject; predicate; dataset; evaluation; perplexity
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 27. 5. 2021 09:10, Mgr. et Mgr. Vít Baisa, Ph.D.
Anotace
V originále
AGREE is a dataset and task for evaluation of language models based on grammar agreement in Czech. The dataset consists of sentences with marked suffixes of past tense verbs. The task is to choose the right verb suffix which depends on gender, number and animacy of subject. It is challenging for language models because 1) Czech is morphologically rich, 2) it has relatively free word order, 3) high out-of-vocabulary (OOV) ratio, 4) predicate and subject can be far from each other, 5) subjects can be unexpressed and 6) various semantic rules may apply. The task provides a straightforward and easily reproducible way of evaluating language models on a morphologically rich language.
Návaznosti
| MUNI/A/0863/2015, interní kód MU |
| ||
| 7F14047, projekt VaV |
|