D 2011

The Art of Mathematics Retrieval

SOJKA, Petr a Martin LÍŠKA

Základní údaje

Originální název

The Art of Mathematics Retrieval

Název česky

Umění indexování a vyhledávání matematiky

Autoři

SOJKA, Petr (203 Česká republika, garant, domácí) a Martin LÍŠKA (703 Slovensko, domácí)

Vydání

Mountain View, CA, USA, Proceedings of the 2011 ACM Symposium on Document Engineering, od s. 57--60, 4 s. 2011

Nakladatel

ACM

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Kód RIV

RIV/00216224:14330/11:00053335

Organizační jednotka

Fakulta informatiky

ISBN

978-1-4503-0863-2

UT WoS

000303789300008

Klíčová slova česky

indexování a vyhledávání matematiky; matematické digitální knihovny; informační systémy; vyhledávání; vyhledávání matematického obsahu; MIaS; WebMIaS

Klíčová slova anglicky

math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 10. 5. 2013 12:43, doc. RNDr. Petr Sojka, Ph.D.

Anotace

V originále

The design and architecture of MIaS (Math Indexer and Searcher), a system for mathematics retrieval is presented, and design decisions are discussed. We argue for an approach based on Presentation MathML using a similarity of math subformulae. The system was implemented as a math-aware search engine based on the state-of-the-art system Apache Lucene. Scalability issues were checked against more than 400,000 arXiv documents with 158 million mathematical formulae. Almost three billion MathML subformulae were indexed using a Solr-compatible Lucene.

Česky

V článku je navržena architektura nového systému, MIaS (Math Indexer and Searcher), a návrh je zdůvodněn. Byl zvolen přístup založený na podobnosti matematických formulí v prezentačním MathML. Systém byl implementován a návrh verifikován na široce používaném indexačním systému Apache Lucene. Škálovatelnost byla ověřena na více než 400,000 odborných matematických článcích z archivu arXiv s 158 miliony matematickými formulemi. To představovalo indexování téměř tří bilionů matematických podformulí v MathML pomocí Solr-kompatibilního rozšíření Lucene.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
MUNI/A/0057/2011, interní kód MU
Název: Posílení zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity (Akronym: SKONF)
Investor: Masarykova univerzita, Posílení zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity, DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
250503, interní kód MU
Název: The European Digital Mathematics Library (Akronym: EuDML)
Investor: Evropská unie, The European Digital Mathematics Library

Přiložené soubory