Bakalářská práce

Fast Similarity Searching of Text Documents using Learned Metric Index

Jakub Žovák
Anotace

Textové dokumenty, ako sú blogy, statusy na sociálnych sieťach, spravodajské články, eseje a textové správy, predstavujú jeden z hlavných zdrojov informácií na internete. Preto je mimoriadne dôležité takéto dáta efektívne indexovať a vyhľadávať. Keďže sú však textové objekty rozsiahle a komplexné, hľadanie presnej zhody je prakticky nemožné. Preto sa tieto objekty musia vyhľadávať na základe podobnosti …více

Abstract

Text documents such as blog posts, tweets, news articles, essays, and text messages, represent one of the primary sources of information on the internet. Therefore, it is paramount to index and search such data efficiently. However, since these objects are large and complex, searching for an exact match is practically impossible. Therefore, text objects must be searched based on the notion of similarity …více

Zadání práce
Searching in texts is still an open challenge. One of the viable approaches to fast and practical text browsing is similarity searching -- we can define a similarity function that determines the similarity between each pair of words, sentences or even whole documents. In 2018, a paper called The Case for Learned Index Structures has been published, arguing for a new paradigm for organizing and searching within complex data using machine learning. The goal of this thesis is to apply such an approach to the problem of similarity searching in text data and evaluate the results. Firstly, the student will have to get familiar with a great variety of approaches to text similarity, both lexical and semantic. Second, he will process these approaches for machine learning. Next, the text data will need to be indexed using an existing framework called Learned Metric Index (LMI) -- since the framework has never been used with this type of data, it will be necessary to identify the distinctive characteristics of text data and modify the setup of LMI to appropriately represent similarity within the text datasets. Finally, the searching efficiency of the resulting index will be evaluated experimentally.
Práce zkontrolována:
24. 5. 2022 09:06, RNDr. Matej Antol, Ph.D., učo 325040
Jazyk práce
angličtina angličtina
Termín obhajoby
29. 6. 2022
Práce byla úspěšně obhájena

Vedoucí

RNDr. Matej Antol, Ph.D., učo 325040
CERIT SC ÚVT MU

Oponent

RNDr. Miriama Jánošová, učo 424615
KSUZD FI MU

Konzultant

RNDr. Terézia Slanináková, Ph.D., učo 445526
KSUZD FI MU

Masarykova univerzita Fakulta informatiky
Studijní program
Plán
Informatika
  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.