D 2012

Exploiting Semantic Annotations in Math Information Retrieval

SOJKA, Petr

Základní údaje

Originální název

Exploiting Semantic Annotations in Math Information Retrieval

Název česky

Využití sémantického značkování pro vyhledávání matematiky

Autoři

SOJKA, Petr (203 Česká republika, garant, domácí)

Vydání

Maui, USA, Proceedings of ESAIR 2012, od s. 15-16, 2 s. 2012

Nakladatel

ACM

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Spojené státy

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

paměťový nosič (CD, DVD, flash disk)

Kód RIV

RIV/00216224:14330/12:00067468

Organizační jednotka

Fakulta informatiky

ISBN

978-1-4503-1717-7

UT WoS

000312604400008

Klíčová slova česky

MIaS;MathML;indexování;vyhledávání;kanonické MathML;EuDML;digitální knihovny;informační systémy;indexování hledání matematického obsahu včetně formulí;hodnocení relevance a podobnosti matematických článků;dolování v textech;DML-CZ;digitální matematická knihovna;sémantika

Klíčová slova anglicky

MIaS;MathML;indexing;search;canonical MathML;EuDML;digital libraries;information systems;information retrieval;mathematical content search;math indexing and retrieval;document ranking of math papers;text mining;DML-CZ;DML projects;semantics

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 30. 5. 2013 01:11, doc. RNDr. Petr Sojka, Ph.D.

Anotace

V originále

This paper describes exploitation of semantic annotations in the design and architecture of MIaS (Math Indexer and Searcher) system for mathematics retrieval. Basing on the claim that navigational and research search are `killer' applications for digital library such as the European Digital Mathematics Library, EuDML, we argue for an approach based on Natural Language Processing techniques as used in corpus management systems such as the Sketch Engine, that will reach web scalability and avoid inference problems. The main ideas are 1) to augment surface texts (including math formulae) with additional linked representations (maps) bearing semantic information (expanded formulae as text, canonicalized text and subformulae) for indexing, including support for indexing structural information (expressed as Content MathML or other tree structures) and 2) use semantic user preferences to order found documents. The semantic enhancements of the MIaS system are being implemented as a math-aware search engine based on the state-of-the-art system Apache Lucene, with support for [MathML] tree indexing. Scalability issues have been checked against more than 400,000 arXiv documents.

Návaznosti

LA09016, projekt VaV
Název: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Akronym: ERCIM)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Účast ČR v European Research Consortium for Informatics and Mathematics
250503, interní kód MU
Název: The European Digital Mathematics Library (Akronym: EuDML)
Investor: Evropská unie, The European Digital Mathematics Library

Přiložené soubory