D 2016

Czech Grammar Agreement Dataset for Evaluation of Language Models

BAISA, Vít

Základní údaje

Originální název

Czech Grammar Agreement Dataset for Evaluation of Language Models

Autoři

Vydání

Brno, RASLAN 2016 Recent Advances in Slavonic Natural Language Processing, od s. 63-67, 5 s. 2016

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Kód RIV

RIV/00216224:14330/16:00091975

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1095-2

ISSN

UT WoS

000466886400007

EID Scopus

2-s2.0-85013663565

Klíčová slova česky

jazykový model; gramatická shoda; slovesná přípona; čeština; podmět; přísudek; vyhodnocení; perplexita

Klíčová slova anglicky

language model; grammar agreement; verb suffix; Czech language; subject; predicate; dataset; evaluation; perplexity

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 27. 5. 2021 09:10, Mgr. et Mgr. Vít Baisa, Ph.D.

Anotace

V originále

AGREE is a dataset and task for evaluation of language models based on grammar agreement in Czech. The dataset consists of sentences with marked suffixes of past tense verbs. The task is to choose the right verb suffix which depends on gender, number and animacy of subject. It is challenging for language models because 1) Czech is morphologically rich, 2) it has relatively free word order, 3) high out-of-vocabulary (OOV) ratio, 4) predicate and subject can be far from each other, 5) subjects can be unexpressed and 6) various semantic rules may apply. The task provides a straightforward and easily reproducible way of evaluating language models on a morphologically rich language.

Návaznosti

MUNI/A/0863/2015, interní kód MU
Název: Čeština v jednotě synchronie a diachronie - 2016
Investor: Masarykova univerzita, Čeština v jednotě synchronie a diachronie - 2016, DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
7F14047, projekt VaV
Název: Harvesting big text data for under-resourced languages (Akronym: HaBiT)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Harvesting big text data for under-resourced languages