Detailed Information on Publication Record
2011
Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues
SOJKA, Petr and Martin LÍŠKABasic information
Original name
Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues
Name in Czech
Indexování a vyhledávání matematiky v digitálních knihovnách -- Architektura, návrh a škálovatelnost
Authors
SOJKA, Petr (203 Czech Republic, guarantor, belonging to the institution) and Martin LÍŠKA (703 Slovakia, belonging to the institution)
Edition
Berlin / Heidelberg, Intelligent Computer Mathematics Lecture Notes in Computer Science, 2011, Volume 6824/2011, p. 228-243, 16 pp. 2011
Publisher
Springer
Other information
Language
English
Type of outcome
Stať ve sborníku
Field of Study
10201 Computer sciences, information science, bioinformatics
Country of publisher
Czech Republic
Confidentiality degree
není předmětem státního či obchodního tajemství
Publication form
printed version "print"
References:
Impact factor
Impact factor: 0.402 in 2005
RIV identification code
RIV/00216224:14330/11:00067289
Organization unit
Faculty of Informatics
ISBN
978-3-642-22672-4
ISSN
UT WoS
000306294200016
Keywords (in Czech)
indexování a vyhledávání matematiky; matematické digitální knihovny; informační systémy; vyhledávání; vyhledávání matematického obsahu; MIaS; WebMIaS
Keywords in English
math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS
Tags
Tags
International impact, Reviewed
Změněno: 30/4/2014 04:01, RNDr. Pavel Šmerk, Ph.D.
V originále
This paper surveys approaches and systems for searching mathematical formulae in mathematical corpora and on the web. The design and architecture of our MIaS (Math Indexer and Searcher) system is presented, and our design decisions are discussed in detail. An approach based on Presentation MathML using a similarity of math subformulae is suggested and verified by implementing it as a math-aware search engine based on the state-of-the-art system, Apache Lucene. Scalability issues were checked based on 324,000 real scientific documents from arXiv archive with 112 million mathematical formulae. More than two billions MathML subformulae were indexed using our Solr-compatible Lucene extension.
In Czech
Tento článek dává přehled přístupů a systémů pro vyhledávání matematických formulí v matematických korpusech či na webu. Je navržena architektura nového systému, MIaS (Math Indexer and Searcher), a návrh je detailně diskutován. Byl zvolen přístup založený na podobnosti matematických formulí v prezentačním MathML. Systém byl implementován a návrh verifikován na široce používaném indexačním systému Apache Lucene. Škálovatelnost byl ověřena na korpusu 324,000 odborných matematických článků z archivu arXiv s 112 miliony matematickými formulemi. To představovalo indexování více než dvou bilionů podformulí v MathML pomocí Solr-kompatibilního rozšíření Lucene.
Links
LA09016, research and development project |
| ||
MUNI/A/0057/2011, interní kód MU |
| ||
250503, interní kód MU |
|