Bakalářská práce

Vyhledávání nad korpusem matematických textů

Search over corpora of mathematical texts

Peter Mravec, učo 256444
Anotace

Práca sa zaoberá vyhľadávaním nad korpusom matematických textov. Najskôr nás oboznamuje ako postupovať pri budovaní korpusu a aké formáty zápisu matematiky sú vhodné pre tento účel. Ďalej popisuje nástroje, ktoré sa využívajú na indexáciu a vyhľadávanie. So samotným budovaním korpusu sa oboznamujeme v nasledujúcej časti. Implementačná časť popisuje finálne riešenie nástrojov pre vybudovanie korpusu …více

Abstract

This bachelor thesis deals with searching in corpus of mathematical texts. At first, it familiarizes us with the ways of building corpus and describes which mathematical formats can be used for this purpose. Furthermore, it describes the tools, which are used for indexing and searching. Building corpus as such is described in the next chapter. Implementing part describes final solution of tools for …více

Zadání práce
Student se seznámí s dosavadními korpusy matematických textů a shromáždí velký korpus textů v XML+MathML pro potřeby vývoje vyhledávání v matematických textech. Vyvořený korpus popíše a zdokumentuje, použije arXMLiv http://arxmliv.kwarc.info/). V druhé části práce vytvořený korpus použije pro indexaci a vyhledávání nástroje vyvinuté a popsané v předchozí práci Martina Líšky (řešení p. Líšky, MathDex, LaTeXtool, EgoMath,...) a vyhodnotí jejich výkon, efektivitu a výhody a nevýhody. Dále je možné konzultovat předchozí prácemi na podobné téma, konkrétně BP Petra Kišše https://is.muni.cz/auth/th/50804/fi_b/, BP Marka Chrenka https://is.muni.cz/auth/th/173261/fi_b_a2/ a DP Víta Dostála https://is.muni.cz/auth/th/72569/fi_m/. Student na základě vyhodnocení možných řešení (dotaz. jazyk, relevance, přesnost, rychlost, velikost indexu, škálovatelnost) navrhne (a dopracuje) finální řešení pro vyhledávání v repozitáři EuDML-CZ http://eudml.eu. Jako praktická část bude oindexována část dat arXiv http://arxiv.org/ (příp. arXMLiv http://arxmliv.kwarc.info/) a provedeno vyhodnocení úspěšnosti vyhledávání (dotaz. jazyk, relevance, škálovatelnost) oproti předchozím řešením. Literatura (kromě výše uvedené): * Mišutka, Jozef - Galamboš, Leo. Extending Full Text Search Engine for Mathematical Content. In DML 2008: Towards Digital Mathematics Library. Brno : Masaryk University, 2008. od s. 55-67, 13 s. ISBN 978-80-210-4658-0. * Mišutka, Jozef. Indexing Mathematical Content Using Full Text Search Engine. In WDS'08 Proceedings of Contributed Papers: Part I - Mathematics and Computer Sciences. Praha : Matfyzpress, 2008. od s. 240-244, 5 s. ISBN 978-80-7378-023-4.
Práce zkontrolována:
24. 5. 2011 17:55, doc. RNDr. Petr Sojka, Ph.D., učo 2378
Jazyk práce
slovenština slovenština
Termín obhajoby
20. 6. 2011
Práce byla úspěšně obhájena

Vedoucí

doc. RNDr. Petr Sojka, Ph.D., učo 2378
KVI FI MU

Oponent

RNDr. Michal Růžička, Ph.D., učo 143424
ADM RE-infra CERIT-SC ÚVT MU

Masarykova univerzita Fakulta informatiky
Studijní program
Informatika
Obor

Práce na příbuzné téma

Seznam prací, které mají shodná klíčová slova.

 
Název
Vložil
Vloženo
Práva
  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.