GELETKA, Martin, Vojtěch KALIVODA, Michal ŠTEFÁNIK, Marek TOMA a Petr SOJKA. Diverse Semantics Representation is King. Online. In Guglielmo Faggioli, Nicola Ferro, Allan Hanbury, Martin Potthast. Proceedings of the Working Notes of CLEF 2022 - Conference and Labs of the Evaluation Forum. Bologna: CEUR.org, 2022, s. 28-39. ISSN 1613-0073.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Diverse Semantics Representation is King
Autoři GELETKA, Martin (703 Slovensko, garant, domácí), Vojtěch KALIVODA (203 Česká republika, domácí), Michal ŠTEFÁNIK (703 Slovensko, domácí), Marek TOMA (703 Slovensko, domácí) a Petr SOJKA (203 Česká republika, domácí).
Vydání Bologna, Proceedings of the Working Notes of CLEF 2022 - Conference and Labs of the Evaluation Forum, od s. 28-39, 12 s. 2022.
Nakladatel CEUR.org
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Itálie
Utajení není předmětem státního či obchodního tajemství
Forma vydání elektronická verze "online"
WWW fulltext PDF
Kód RIV RIV/00216224:14330/22:00126314
Organizační jednotka Fakulta informatiky
ISSN 1613-0073
Klíčová slova česky vyhledávání informací; odpovídání otázek; reprezentace matematiky; vyhledávání informací s včetně matematických formulí; reprezentace významu slov; slučování vyhledaných výsledků; hlasování informačních systémů; změna pořadí výsledků hledání; fúze dat; diverzita systémů; transformery
Klíčová slova anglicky information retrieval; question answering; math representations; math-aware information retrieval; word embeddings; ensembling; voting; reranking; data fusion; diversity; transformers
Štítky MIR, natural language processing, neural networks, NLP
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 28. 3. 2023 11:45.
Anotace
We report on the systems that the Math Information Retrieval group at Masaryk University (MIRMU) and the team of Faculty of Informatics students (MSM) prepared for task 1 (find answers) of the ARQMath lab at the CLEF conference. To study the effects of different system settings and hyperparameters, we have prototyped several diverse math-aware information retrieval (MIR) systems: both “old” inverted index-based ones and new neural ones. By ensembling the results of the “weak” individual systems into committees, we report on entailments, benefits, and drawbacks of system ensembling. We evaluated the proposed individual systems and ensembles, considering their diversity, hyperparameters, and representations used, and classified their approaches. Our prototypes have helped to understand the challenging problems of question-answering in the stem domain: the key lies in the proper representation of document semantics. Our reproducible evaluation Python library PV211-utils allows to reproduce and further advance MIR re-search.
Návaznosti
MUNI/A/1195/2021, interní kód MUNázev: Aplikovaný výzkum v oblastech vyhledávání, analýz a vizualizací rozsáhlých dat, zpracování přirozeného jazyka a aplikované umělé inteligence
Investor: Masarykova univerzita, Aplikovaný výzkum v oblastech vyhledávání, analýz a vizualizací rozsáhlých dat, zpracování přirozeného jazyka a aplikované umělé inteligence
VytisknoutZobrazeno: 18. 7. 2024 09:06