Efficient Management and Optimization of Very Large Machine
Learning Dataset for Question Answering

MEDVEĎ, Marek, Radoslav SABOL a Aleš HORÁK. Efficient Management and Optimization of Very Large Machine Learning Dataset for Question Answering. In Aleš Horák. Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020. Brno: Tribun EU, 2020, s. 23-34. ISBN 978-80-263-1600-8.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Efficient Management and Optimization of Very Large Machine Learning Dataset for Question Answering
Autoři	MEDVEĎ, Marek (703 Slovensko, garant, domácí), Radoslav SABOL (703 Slovensko, domácí) a Aleš HORÁK (203 Česká republika, domácí).
Vydání	Brno, Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020, od s. 23-34, 12 s. 2020.
Nakladatel	Tribun EU

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
Forma vydání	tištěná verze "print"
WWW	PDF ve sborníku Domovská stránka workshopu
Kód RIV	RIV/00216224:14330/20:00114687
Organizační jednotka	Fakulta informatiky
ISBN	978-80-263-1600-8
ISSN	2336-4289
UT WoS	000655471300003
Klíčová slova anglicky	question answering; dataset management; machine learning; optimization
Štítky	dataset management, machine learning, Optimization, question answering
Příznaky	Mezinárodní význam
Změnil	Změnil: Mgr. Michal Petr, učo 65024. Změněno: 16. 5. 2022 15:07.

Anotace

Question answering strategies lean almost exclusively on deep neural network computations nowadays. Managing a large set of input data (questions, answers, full documents, metadata) in several forms suitable as the first layer of a selected network architecture can be a non-trivial task. In this paper, we present the details and evaluation of preparing a rich dataset of more than 13 thousand question-answer pairs with more than 6,500 full documents. We show, how a Python-optimized database in a network environment was utilized to offer fast responses based on the 26 GiB database of input data. A global hyperparameter optimization process with controlled running of thousands of evaluation experiments to reach a near-optimum setup of the learning process is also explicated.

Návaznosti
GA18-23891S, projekt VaV	Název: Hyperintensionální usuzování nad texty přirozeného jazyka
GA18-23891S, projekt VaV	Investor: Grantová agentura ČR, Hyperintensionální usuzování nad texty přirozeného jazyka

VytisknoutZobrazeno: 23. 7. 2024 20:30

Efficient Management and Optimization of Very Large Machine Learning Dataset for Question Answering

Další aplikace