D 2014

SQAD: Simple Question Answering Database

HORÁK, Aleš a Marek MEDVEĎ

Základní údaje

Originální název

SQAD: Simple Question Answering Database

Autoři

HORÁK, Aleš (203 Česká republika, garant, domácí) a Marek MEDVEĎ (703 Slovensko, domácí)

Vydání

Brno, Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, od s. 121-128, 8 s. 2014

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Kód RIV

RIV/00216224:14330/14:00077519

Organizační jednotka

Fakulta informatiky

ISSN

Klíčová slova anglicky

question answering; Simple Question Answering Database; SQAD; syntax-based question answering; SBQA

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 27. 4. 2015 11:53, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

In this paper, we present a new free resource for comparable Czech question answering evaluation. The Simple Question Answering Database, SQAD, contains 3301 questions and answers extracted and processed from the Czech Wikipedia. The SQAD database was prepared with the aim of a precision evaluation of automatic question answering systems. Such resource was currently not available for the Czech language. We describe the process of SQAD creation, processing of the texts by automatic tokenization (Unitok) and morphological disambiguation (Desamb) and successive semi-automatic cleaning and post-processing. We also show the results of a first version of Czech question answering system named SBQA (syntax-based question answering).

Návaznosti

LM2010013, projekt VaV
Název: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
7F14047, projekt VaV
Název: Harvesting big text data for under-resourced languages (Akronym: HaBiT)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Harvesting big text data for under-resourced languages