D 2020

Efficient Management and Optimization of Very Large Machine Learning Dataset for Question Answering

MEDVEĎ, Marek, Radoslav SABOL a Aleš HORÁK

Základní údaje

Originální název

Efficient Management and Optimization of Very Large Machine Learning Dataset for Question Answering

Autoři

MEDVEĎ, Marek (703 Slovensko, garant, domácí), Radoslav SABOL (703 Slovensko, domácí) a Aleš HORÁK (203 Česká republika, domácí)

Vydání

Brno, Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020, od s. 23-34, 12 s. 2020

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Kód RIV

RIV/00216224:14330/20:00114687

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1600-8

ISSN

UT WoS

000655471300003

Klíčová slova anglicky

question answering; dataset management; machine learning; optimization

Příznaky

Mezinárodní význam
Změněno: 16. 5. 2022 15:07, Mgr. Michal Petr

Anotace

V originále

Question answering strategies lean almost exclusively on deep neural network computations nowadays. Managing a large set of input data (questions, answers, full documents, metadata) in several forms suitable as the first layer of a selected network architecture can be a non-trivial task. In this paper, we present the details and evaluation of preparing a rich dataset of more than 13 thousand question-answer pairs with more than 6,500 full documents. We show, how a Python-optimized database in a network environment was utilized to offer fast responses based on the 26 GiB database of input data. A global hyperparameter optimization process with controlled running of thousands of evaluation experiments to reach a near-optimum setup of the learning process is also explicated.

Návaznosti

GA18-23891S, projekt VaV
Název: Hyperintensionální usuzování nad texty přirozeného jazyka
Investor: Grantová agentura ČR, Hyperintensionální usuzování nad texty přirozeného jazyka