2011
Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues
SOJKA, Petr a Martin LÍŠKAZákladní údaje
Originální název
Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues
Název česky
Indexování a vyhledávání matematiky v digitálních knihovnách -- Architektura, návrh a škálovatelnost
Autoři
SOJKA, Petr (203 Česká republika, garant, domácí) a Martin LÍŠKA (703 Slovensko, domácí)
Vydání
Berlin / Heidelberg, Intelligent Computer Mathematics Lecture Notes in Computer Science, 2011, Volume 6824/2011, od s. 228-243, 16 s. 2011
Nakladatel
Springer
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Impakt faktor
Impact factor: 0.402 v roce 2005
Kód RIV
RIV/00216224:14330/11:00067289
Organizační jednotka
Fakulta informatiky
ISBN
978-3-642-22672-4
ISSN
UT WoS
000306294200016
Klíčová slova česky
indexování a vyhledávání matematiky; matematické digitální knihovny; informační systémy; vyhledávání; vyhledávání matematického obsahu; MIaS; WebMIaS
Klíčová slova anglicky
math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS
Štítky
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 30. 4. 2014 04:01, RNDr. Pavel Šmerk, Ph.D.
V originále
This paper surveys approaches and systems for searching mathematical formulae in mathematical corpora and on the web. The design and architecture of our MIaS (Math Indexer and Searcher) system is presented, and our design decisions are discussed in detail. An approach based on Presentation MathML using a similarity of math subformulae is suggested and verified by implementing it as a math-aware search engine based on the state-of-the-art system, Apache Lucene. Scalability issues were checked based on 324,000 real scientific documents from arXiv archive with 112 million mathematical formulae. More than two billions MathML subformulae were indexed using our Solr-compatible Lucene extension.
Česky
Tento článek dává přehled přístupů a systémů pro vyhledávání matematických formulí v matematických korpusech či na webu. Je navržena architektura nového systému, MIaS (Math Indexer and Searcher), a návrh je detailně diskutován. Byl zvolen přístup založený na podobnosti matematických formulí v prezentačním MathML. Systém byl implementován a návrh verifikován na široce používaném indexačním systému Apache Lucene. Škálovatelnost byl ověřena na korpusu 324,000 odborných matematických článků z archivu arXiv s 112 miliony matematickými formulemi. To představovalo indexování více než dvou bilionů podformulí v MathML pomocí Solr-kompatibilního rozšíření Lucene.
Návaznosti
LA09016, projekt VaV |
| ||
MUNI/A/0057/2011, interní kód MU |
| ||
250503, interní kód MU |
|