Informační systém MU
SOJKA, Petr a Martin LÍŠKA. The Art of Mathematics Retrieval. In Matthew R. B. Hardy, Frank Wm. Tompa. Proceedings of the 2011 ACM Symposium on Document Engineering. Mountain View, CA, USA: ACM, 2011. s. 57--60. ISBN 978-1-4503-0863-2. doi:10.1145/2034691.2034703.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název The Art of Mathematics Retrieval
Název česky Umění indexování a vyhledávání matematiky
Autoři SOJKA, Petr (203 Česká republika, garant, domácí) a Martin LÍŠKA (703 Slovensko, domácí).
Vydání Mountain View, CA, USA, Proceedings of the 2011 ACM Symposium on Document Engineering, od s. 57--60, 4 s. 2011.
Nakladatel ACM
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání elektronická verze "online"
WWW conference web DOI poster preprint
Kód RIV RIV/00216224:14330/11:00053335
Organizační jednotka Fakulta informatiky
ISBN 978-1-4503-0863-2
Doi http://dx.doi.org/10.1145/2034691.2034703
UT WoS 000303789300008
Klíčová slova česky indexování a vyhledávání matematiky; matematické digitální knihovny; informační systémy; vyhledávání; vyhledávání matematického obsahu; MIaS; WebMIaS
Klíčová slova anglicky math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS
Štítky best
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 10. 5. 2013 12:43.
Anotace
The design and architecture of MIaS (Math Indexer and Searcher), a system for mathematics retrieval is presented, and design decisions are discussed. We argue for an approach based on Presentation MathML using a similarity of math subformulae. The system was implemented as a math-aware search engine based on the state-of-the-art system Apache Lucene. Scalability issues were checked against more than 400,000 arXiv documents with 158 million mathematical formulae. Almost three billion MathML subformulae were indexed using a Solr-compatible Lucene.
Anotace česky
V článku je navržena architektura nového systému, MIaS (Math Indexer and Searcher), a návrh je zdůvodněn. Byl zvolen přístup založený na podobnosti matematických formulí v prezentačním MathML. Systém byl implementován a návrh verifikován na široce používaném indexačním systému Apache Lucene. Škálovatelnost byla ověřena na více než 400,000 odborných matematických článcích z archivu arXiv s 158 miliony matematickými formulemi. To představovalo indexování téměř tří bilionů matematických podformulí v MathML pomocí Solr-kompatibilního rozšíření Lucene.
Návaznosti
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
MUNI/A/0057/2011, interní kód MUNázev: Posílení zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity (Akronym: SKONF)
Investor: Masarykova univerzita, Posílení zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity, DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
250503, interní kód MUNázev: The European Digital Mathematics Library (Akronym: EuDML)
Investor: Evropská unie, The European Digital Mathematics Library
Zobrazeno: 1. 10. 2022 07:22