Building Evaluation Dataset for Textual Entailment in Czech

D 2012

Building Evaluation Dataset for Textual Entailment in Czech

NEVĚŘILOVÁ, Zuzana

Základní údaje

Originální název

Building Evaluation Dataset for Textual Entailment in Czech

Autoři

NEVĚŘILOVÁ, Zuzana (203 Česká republika, garant, domácí)

Vydání

Brno, Sixth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2012, od s. 53-58, 6 s. 2012

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

URL

Kód RIV

RIV/00216224:14330/12:00057949

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-0313-8

Klíčová slova česky

textové vyplývání; data pro vyhodnocení; čeština; parafrázování

Klíčová slova anglicky

textual entailment; evaluation data set; Czech language; paraphrasing

Změněno: 27. 5. 2021 09:12, RNDr. Zuzana Nevěřilová, Ph.D.

Anotace

ORIG CZ

V originále

Recognizing textual entailment (RTE) is a subfield of natural language processing (NLP). Currently several RTE systems exist in which some of the subtasks are language independent but some are not. Moreover, large datasets for evaluation are prepared almost exclusively for English language. In this paper we describe methods for obtaining test dataset for RTE in Czech. We have used methods for extracting facts from texts based on corpus templates as well as syntactic parser. Moreover, we have used reading comprehension tests for children and students. The main contribution of this article is the classification of “difficulty levels” for particular RTE questions.

Česky

Rozpoznání textového vyplývání je jednou z disciplín zpracování přirozeného jazyka. V současnosti existuje několik systémů pro rozpoznání textového vyplývání, jejichž některé moduly jsou jazykově závislé. Navíc rozsáhlé datové soubory pro vyhodnocení úspěšnosti takových programů jsou témař výhradně připraveny pro zpracování angličtiny. Popisujeme metody, pomocí kterých je možné získat testovací data pro český systém pro rozpoznání textového vyplývání. Použili jsme metody pro automatickou extrakci faktů, založené na extrakci vzorů z korpusu. Navíc jsme zahrnuli testy čtenářské gramotnosti pro děti i studenty středních škol. Hlavní přínos tohoto čllánku spočívá v klasifikaci obtížnosti jednotlivých úloh v rozpoznání textového vyplývání.

Návaznosti

GAP401/10/0792, projekt VaV

Název: Temporální aspekty znalostí a informací

Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací

LM2010013, projekt VaV

Název: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum

Podrobný výpis o publikaci