D 2011

Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues

SOJKA, Petr a Martin LÍŠKA

Základní údaje

Originální název

Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues

Název česky

Indexování a vyhledávání matematiky v digitálních knihovnách -- Architektura, návrh a škálovatelnost

Autoři

SOJKA, Petr (203 Česká republika, garant, domácí) a Martin LÍŠKA (703 Slovensko, domácí)

Vydání

Berlin / Heidelberg, Intelligent Computer Mathematics Lecture Notes in Computer Science, 2011, Volume 6824/2011, od s. 228-243, 16 s. 2011

Nakladatel

Springer

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Impakt faktor

Impact factor: 0.402 v roce 2005

Kód RIV

RIV/00216224:14330/11:00067289

Organizační jednotka

Fakulta informatiky

ISBN

978-3-642-22672-4

ISSN

UT WoS

000306294200016

Klíčová slova česky

indexování a vyhledávání matematiky; matematické digitální knihovny; informační systémy; vyhledávání; vyhledávání matematického obsahu; MIaS; WebMIaS

Klíčová slova anglicky

math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 30. 4. 2014 04:01, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

This paper surveys approaches and systems for searching mathematical formulae in mathematical corpora and on the web. The design and architecture of our MIaS (Math Indexer and Searcher) system is presented, and our design decisions are discussed in detail. An approach based on Presentation MathML using a similarity of math subformulae is suggested and verified by implementing it as a math-aware search engine based on the state-of-the-art system, Apache Lucene. Scalability issues were checked based on 324,000 real scientific documents from arXiv archive with 112 million mathematical formulae. More than two billions MathML subformulae were indexed using our Solr-compatible Lucene extension.

Česky

Tento článek dává přehled přístupů a systémů pro vyhledávání matematických formulí v matematických korpusech či na webu. Je navržena architektura nového systému, MIaS (Math Indexer and Searcher), a návrh je detailně diskutován. Byl zvolen přístup založený na podobnosti matematických formulí v prezentačním MathML. Systém byl implementován a návrh verifikován na široce používaném indexačním systému Apache Lucene. Škálovatelnost byl ověřena na korpusu 324,000 odborných matematických článků z archivu arXiv s 112 miliony matematickými formulemi. To představovalo indexování více než dvou bilionů podformulí v MathML pomocí Solr-kompatibilního rozšíření Lucene.

Návaznosti

LA09016, projekt VaV
Název: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Akronym: ERCIM)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Účast ČR v European Research Consortium for Informatics and Mathematics
MUNI/A/0057/2011, interní kód MU
Název: Posílení zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity (Akronym: SKONF)
Investor: Masarykova univerzita, Posílení zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity, DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
250503, interní kód MU
Název: The European Digital Mathematics Library (Akronym: EuDML)
Investor: Evropská unie, The European Digital Mathematics Library