SOJKA, Petr and Martin LÍŠKA. Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues. In James H. Davenport, William M. Farmer, Josef Urban, Florian Rabe. Intelligent Computer Mathematics Lecture Notes in Computer Science, 2011, Volume 6824/2011. Berlin / Heidelberg: Springer, 2011. p. 228-243, 16 pp. ISBN 978-3-642-22672-4. doi:10.1007/978-3-642-22673-1_16.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues
Name in Czech Indexování a vyhledávání matematiky v digitálních knihovnách -- Architektura, návrh a škálovatelnost
Authors SOJKA, Petr (203 Czech Republic, guarantor, belonging to the institution) and Martin LÍŠKA (703 Slovakia, belonging to the institution).
Edition Berlin / Heidelberg, Intelligent Computer Mathematics Lecture Notes in Computer Science, 2011, Volume 6824/2011, p. 228-243, 16 pp. 2011.
Publisher Springer
Other information
Original language English
Type of outcome Proceedings paper
Field of Study 10201 Computer sciences, information science, bioinformatics
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
Publication form printed version "print"
WWW DOI
Impact factor Impact factor: 0.402 in 2005
RIV identification code RIV/00216224:14330/11:00067289
Organization unit Faculty of Informatics
ISBN 978-3-642-22672-4
ISSN 0302-9743
Doi http://dx.doi.org/10.1007/978-3-642-22673-1_16
UT WoS 000306294200016
Keywords (in Czech) indexování a vyhledávání matematiky; matematické digitální knihovny; informační systémy; vyhledávání; vyhledávání matematického obsahu; MIaS; WebMIaS
Keywords in English math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS
Tags best
Tags International impact, Reviewed
Changed by Changed by: RNDr. Pavel Šmerk, Ph.D., učo 3880. Changed: 30/4/2014 04:01.
Abstract
This paper surveys approaches and systems for searching mathematical formulae in mathematical corpora and on the web. The design and architecture of our MIaS (Math Indexer and Searcher) system is presented, and our design decisions are discussed in detail. An approach based on Presentation MathML using a similarity of math subformulae is suggested and verified by implementing it as a math-aware search engine based on the state-of-the-art system, Apache Lucene. Scalability issues were checked based on 324,000 real scientific documents from arXiv archive with 112 million mathematical formulae. More than two billions MathML subformulae were indexed using our Solr-compatible Lucene extension.
Abstract (in Czech)
Tento článek dává přehled přístupů a systémů pro vyhledávání matematických formulí v matematických korpusech či na webu. Je navržena architektura nového systému, MIaS (Math Indexer and Searcher), a návrh je detailně diskutován. Byl zvolen přístup založený na podobnosti matematických formulí v prezentačním MathML. Systém byl implementován a návrh verifikován na široce používaném indexačním systému Apache Lucene. Škálovatelnost byl ověřena na korpusu 324,000 odborných matematických článků z archivu arXiv s 112 miliony matematickými formulemi. To představovalo indexování více než dvou bilionů podformulí v MathML pomocí Solr-kompatibilního rozšíření Lucene.
Links
LA09016, research and development projectName: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Acronym: ERCIM)
Investor: Ministry of Education, Youth and Sports of the CR, INGO
MUNI/A/0057/2011, internal MU codeName: Posílení zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity (Acronym: SKONF)
Investor: Masaryk University, Grant Agency of Masaryk University, Category A
250503, internal MU codeName: The European Digital Mathematics Library (Acronym: EuDML)
Investor: European Union, Competitiveness and inovation framework programme
PrintDisplayed: 18/2/2020 08:24