2012
Building Evaluation Dataset for Textual Entailment in Czech
NEVĚŘILOVÁ, ZuzanaZákladní údaje
Originální název
Building Evaluation Dataset for Textual Entailment in Czech
Autoři
NEVĚŘILOVÁ, Zuzana (203 Česká republika, garant, domácí)
Vydání
Brno, Sixth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2012, od s. 53-58, 6 s. 2012
Nakladatel
Tribun EU
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Kód RIV
RIV/00216224:14330/12:00057949
Organizační jednotka
Fakulta informatiky
ISBN
978-80-263-0313-8
Klíčová slova česky
textové vyplývání; data pro vyhodnocení; čeština; parafrázování
Klíčová slova anglicky
textual entailment; evaluation data set; Czech language; paraphrasing
Změněno: 27. 5. 2021 09:12, RNDr. Zuzana Nevěřilová, Ph.D.
V originále
Recognizing textual entailment (RTE) is a subfield of natural language processing (NLP). Currently several RTE systems exist in which some of the subtasks are language independent but some are not. Moreover, large datasets for evaluation are prepared almost exclusively for English language. In this paper we describe methods for obtaining test dataset for RTE in Czech. We have used methods for extracting facts from texts based on corpus templates as well as syntactic parser. Moreover, we have used reading comprehension tests for children and students. The main contribution of this article is the classification of “difficulty levels” for particular RTE questions.
Česky
Rozpoznání textového vyplývání je jednou z disciplín zpracování přirozeného jazyka. V současnosti existuje několik systémů pro rozpoznání textového vyplývání, jejichž některé moduly jsou jazykově závislé. Navíc rozsáhlé datové soubory pro vyhodnocení úspěšnosti takových programů jsou témař výhradně připraveny pro zpracování angličtiny. Popisujeme metody, pomocí kterých je možné získat testovací data pro český systém pro rozpoznání textového vyplývání. Použili jsme metody pro automatickou extrakci faktů, založené na extrakci vzorů z korpusu. Navíc jsme zahrnuli testy čtenářské gramotnosti pro děti i studenty středních škol. Hlavní přínos tohoto čllánku spočívá v klasifikaci obtížnosti jednotlivých úloh v rozpoznání textového vyplývání.
Návaznosti
GAP401/10/0792, projekt VaV |
| ||
LM2010013, projekt VaV |
|