SOJKA, Petr. Exploiting Semantic Annotations in Math Information Retrieval. In Jaap Kamps, Jussi Karlgren, Peter Mika, Vanessa Murdock. Proceedings of ESAIR 2012. Maui, USA: ACM, 2012, s. 15-16. ISBN 978-1-4503-1717-7. Dostupné z: https://dx.doi.org/10.1145/2390148.2390157.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Exploiting Semantic Annotations in Math Information Retrieval
Název česky Využití sémantického značkování pro vyhledávání matematiky
Autoři SOJKA, Petr (203 Česká republika, garant, domácí).
Vydání Maui, USA, Proceedings of ESAIR 2012, od s. 15-16, 2 s. 2012.
Nakladatel ACM
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Spojené státy
Utajení není předmětem státního či obchodního tajemství
Forma vydání paměťový nosič (CD, DVD, flash disk)
WWW poster workshop website DOI (ACM DL) preprint PDF
Kód RIV RIV/00216224:14330/12:00067468
Organizační jednotka Fakulta informatiky
ISBN 978-1-4503-1717-7
Doi http://dx.doi.org/10.1145/2390148.2390157
UT WoS 000312604400008
Klíčová slova česky MIaS;MathML;indexování;vyhledávání;kanonické MathML;EuDML;digitální knihovny;informační systémy;indexování hledání matematického obsahu včetně formulí;hodnocení relevance a podobnosti matematických článků;dolování v textech;DML-CZ;digitální matematická knihovna;sémantika
Klíčová slova anglicky MIaS;MathML;indexing;search;canonical MathML;EuDML;digital libraries;information systems;information retrieval;mathematical content search;math indexing and retrieval;document ranking of math papers;text mining;DML-CZ;DML projects;semantics
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 30. 5. 2013 01:11.
Anotace
This paper describes exploitation of semantic annotations in the design and architecture of MIaS (Math Indexer and Searcher) system for mathematics retrieval. Basing on the claim that navigational and research search are `killer' applications for digital library such as the European Digital Mathematics Library, EuDML, we argue for an approach based on Natural Language Processing techniques as used in corpus management systems such as the Sketch Engine, that will reach web scalability and avoid inference problems. The main ideas are 1) to augment surface texts (including math formulae) with additional linked representations (maps) bearing semantic information (expanded formulae as text, canonicalized text and subformulae) for indexing, including support for indexing structural information (expressed as Content MathML or other tree structures) and 2) use semantic user preferences to order found documents. The semantic enhancements of the MIaS system are being implemented as a math-aware search engine based on the state-of-the-art system Apache Lucene, with support for [MathML] tree indexing. Scalability issues have been checked against more than 400,000 arXiv documents.
Návaznosti
LA09016, projekt VaVNázev: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Akronym: ERCIM)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Účast ČR v European Research Consortium for Informatics and Mathematics
250503, interní kód MUNázev: The European Digital Mathematics Library (Akronym: EuDML)
Investor: Evropská unie, The European Digital Mathematics Library
VytisknoutZobrazeno: 27. 4. 2024 04:37