Informační systém MU
SOJKA, Petr and Martin LÍŠKA. The Art of Mathematics Retrieval. In Matthew R. B. Hardy, Frank Wm. Tompa. Proceedings of the 2011 ACM Symposium on Document Engineering. Mountain View, CA, USA: ACM, 2011. p. 57--60. ISBN 978-1-4503-0863-2. doi:10.1145/2034691.2034703.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name The Art of Mathematics Retrieval
Name in Czech Umění indexování a vyhledávání matematiky
Authors SOJKA, Petr (203 Czech Republic, guarantor, belonging to the institution) and Martin LÍŠKA (703 Slovakia, belonging to the institution).
Edition Mountain View, CA, USA, Proceedings of the 2011 ACM Symposium on Document Engineering, p. 57--60, 4 pp. 2011.
Publisher ACM
Other information
Original language English
Type of outcome Proceedings paper
Field of Study 10201 Computer sciences, information science, bioinformatics
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
Publication form electronic version available online
WWW conference web DOI poster preprint
RIV identification code RIV/00216224:14330/11:00053335
Organization unit Faculty of Informatics
ISBN 978-1-4503-0863-2
Doi http://dx.doi.org/10.1145/2034691.2034703
UT WoS 000303789300008
Keywords (in Czech) indexování a vyhledávání matematiky; matematické digitální knihovny; informační systémy; vyhledávání; vyhledávání matematického obsahu; MIaS; WebMIaS
Keywords in English math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS
Tags best
Tags International impact, Reviewed
Changed by Changed by: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Changed: 10. 5. 2013 12:43.
Abstract
The design and architecture of MIaS (Math Indexer and Searcher), a system for mathematics retrieval is presented, and design decisions are discussed. We argue for an approach based on Presentation MathML using a similarity of math subformulae. The system was implemented as a math-aware search engine based on the state-of-the-art system Apache Lucene. Scalability issues were checked against more than 400,000 arXiv documents with 158 million mathematical formulae. Almost three billion MathML subformulae were indexed using a Solr-compatible Lucene.
Abstract (in Czech)
V článku je navržena architektura nového systému, MIaS (Math Indexer and Searcher), a návrh je zdůvodněn. Byl zvolen přístup založený na podobnosti matematických formulí v prezentačním MathML. Systém byl implementován a návrh verifikován na široce používaném indexačním systému Apache Lucene. Škálovatelnost byla ověřena na více než 400,000 odborných matematických článcích z archivu arXiv s 158 miliony matematickými formulemi. To představovalo indexování téměř tří bilionů matematických podformulí v MathML pomocí Solr-kompatibilního rozšíření Lucene.
Links
LC536, research and development projectName: Centrum komputační lingvistiky
Investor: Ministry of Education, Youth and Sports of the CR, Centrum komputační lingvistiky
MUNI/A/0057/2011, interní kód MUName: Posílení zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity (Acronym: SKONF)
Investor: Masaryk University, Category A
250503, interní kód MUName: The European Digital Mathematics Library (Acronym: EuDML)
Investor: European Union
Displayed: 18. 8. 2022 16:13