NEVĚŘILOVÁ, Zuzana. Building Evaluation Dataset for Textual Entailment in Czech. In Aleš Horák, Pavel Rychlý. Sixth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2012. Brno: Tribun EU. s. 53-58. ISBN 978-80-263-0313-8. 2012.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Building Evaluation Dataset for Textual Entailment in Czech
Autoři NEVĚŘILOVÁ, Zuzana (203 Česká republika, garant, domácí).
Vydání Brno, Sixth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2012, od s. 53-58, 6 s. 2012.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW URL
Kód RIV RIV/00216224:14330/12:00057949
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-0313-8
Klíčová slova česky textové vyplývání; data pro vyhodnocení; čeština; parafrázování
Klíčová slova anglicky textual entailment; evaluation data set; Czech language; paraphrasing
Změnil Změnila: RNDr. Zuzana Nevěřilová, Ph.D., učo 3839. Změněno: 27. 5. 2021 09:12.
Anotace
Recognizing textual entailment (RTE) is a subfield of natural language processing (NLP). Currently several RTE systems exist in which some of the subtasks are language independent but some are not. Moreover, large datasets for evaluation are prepared almost exclusively for English language. In this paper we describe methods for obtaining test dataset for RTE in Czech. We have used methods for extracting facts from texts based on corpus templates as well as syntactic parser. Moreover, we have used reading comprehension tests for children and students. The main contribution of this article is the classification of “difficulty levels” for particular RTE questions.
Anotace česky
Rozpoznání textového vyplývání je jednou z disciplín zpracování přirozeného jazyka. V současnosti existuje několik systémů pro rozpoznání textového vyplývání, jejichž některé moduly jsou jazykově závislé. Navíc rozsáhlé datové soubory pro vyhodnocení úspěšnosti takových programů jsou témař výhradně připraveny pro zpracování angličtiny. Popisujeme metody, pomocí kterých je možné získat testovací data pro český systém pro rozpoznání textového vyplývání. Použili jsme metody pro automatickou extrakci faktů, založené na extrakci vzorů z korpusu. Navíc jsme zahrnuli testy čtenářské gramotnosti pro děti i studenty středních škol. Hlavní přínos tohoto čllánku spočívá v klasifikaci obtížnosti jednotlivých úloh v rozpoznání textového vyplývání.
Návaznosti
GAP401/10/0792, projekt VaVNázev: Temporální aspekty znalostí a informací
Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
LM2010013, projekt VaVNázev: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
VytisknoutZobrazeno: 29. 3. 2024 10:53