SOJKA, Petr a Martin LÍŠKA. Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues. In James H. Davenport, William M. Farmer, Josef Urban, Florian Rabe. Intelligent Computer Mathematics Lecture Notes in Computer Science, 2011, Volume 6824/2011. Berlin / Heidelberg: Springer, 2011. s. 228-243, 16 s. ISBN 978-3-642-22672-4. doi:10.1007/978-3-642-22673-1_16.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues
Název česky Indexování a vyhledávání matematiky v digitálních knihovnách -- Architektura, návrh a škálovatelnost
Autoři SOJKA, Petr (203 Česká republika, garant, domácí) a Martin LÍŠKA (703 Slovensko, domácí).
Vydání Berlin / Heidelberg, Intelligent Computer Mathematics Lecture Notes in Computer Science, 2011, Volume 6824/2011, od s. 228-243, 16 s. 2011.
Nakladatel Springer
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW DOI
Impakt faktor Impact factor: 0.402 v roce 2005
Kód RIV RIV/00216224:14330/11:00067289
Organizační jednotka Fakulta informatiky
ISBN 978-3-642-22672-4
ISSN 0302-9743
Doi http://dx.doi.org/10.1007/978-3-642-22673-1_16
UT WoS 000306294200016
Klíčová slova česky indexování a vyhledávání matematiky; matematické digitální knihovny; informační systémy; vyhledávání; vyhledávání matematického obsahu; MIaS; WebMIaS
Klíčová slova anglicky math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS
Štítky best
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 30. 4. 2014 04:01.
Anotace
This paper surveys approaches and systems for searching mathematical formulae in mathematical corpora and on the web. The design and architecture of our MIaS (Math Indexer and Searcher) system is presented, and our design decisions are discussed in detail. An approach based on Presentation MathML using a similarity of math subformulae is suggested and verified by implementing it as a math-aware search engine based on the state-of-the-art system, Apache Lucene. Scalability issues were checked based on 324,000 real scientific documents from arXiv archive with 112 million mathematical formulae. More than two billions MathML subformulae were indexed using our Solr-compatible Lucene extension.
Anotace česky
Tento článek dává přehled přístupů a systémů pro vyhledávání matematických formulí v matematických korpusech či na webu. Je navržena architektura nového systému, MIaS (Math Indexer and Searcher), a návrh je detailně diskutován. Byl zvolen přístup založený na podobnosti matematických formulí v prezentačním MathML. Systém byl implementován a návrh verifikován na široce používaném indexačním systému Apache Lucene. Škálovatelnost byl ověřena na korpusu 324,000 odborných matematických článků z archivu arXiv s 112 miliony matematickými formulemi. To představovalo indexování více než dvou bilionů podformulí v MathML pomocí Solr-kompatibilního rozšíření Lucene.
Návaznosti
LA09016, projekt VaVNázev: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Akronym: ERCIM)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, INGO (jen po projekty s počátkem řešení v roce 2010)
MUNI/A/0057/2011, interní kód MUNázev: Posílení zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity (Akronym: SKONF)
Investor: Masarykova univerzita, Grantová agentura MU, Kategorie A - Specifický výzkum - Studentské výzkumné projekty
250503, interní kód MUNázev: The European Digital Mathematics Library (Akronym: EuDML)
Investor: Evropská unie, Rámcový program pro konkurenceschopnost a inovace (CIP)
VytisknoutZobrazeno: 15. 9. 2019 10:03