Vector Space Representations in Information Retrieval

u 2017

Vector Space Representations in Information Retrieval

NOVOTNÝ, Vít

Základní údaje

Originální název

Vector Space Representations in Information Retrieval

Název česky

Vektorové reprezentace ve vyhledávání znalostí

Autoři

NOVOTNÝ, Vít (203 Česká republika, garant, domácí)

Vydání

Brno, 56 s. 2017

Nakladatel

Fakulta Informatiky Masarykovy Univerzity

Další údaje

Jazyk

angličtina

Typ výsledku

Účelové publikace

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Full text Archiv závěrečné práce Soubory související se závěrečnou prací

Kód RIV

RIV/00216224:14330/17:00094402

Organizační jednotka

Fakulta informatiky

Klíčová slova anglicky

document segmentation; synonymy; question answering; vector space model; text retrieval; information retrieval

Štítky

acl, gensim, scaletext

Příznaky

Mezinárodní význam

Změněno: 1. 11. 2021 09:37, RNDr. Vít Starý Novotný, Ph.D.

Anotace

ORIG CZ

V originále

Modern text retrieval systems employ text segmentation during the indexing of documents. I show that, rather than returning the segments to the user, significant improvements are achieved on the semantic text similarity task by combining all segments from a single document into one result with an aggregate similarity score. Standard text retrieval methods underestimate the semantic similarity between documents that use synonymous terms. Latent semantic indexing tackles the problem by clustering frequently co-occuring terms at the cost of the periodical reindexing of dynamic document collections and the suboptimality of co-occurences as a measure of synonymy. I develop a term similarity model that suffers neither of these flaws.

Česky

Moderní systémy pro hledání textu provádějí během vytváření databáze dokumentů segmentaci. V práci představuji postup, pomocí kterého lze během vyhledávání všechny segmenty jednoho dokumentu spojit a odvodit z nich podobnost dokumentu vůči uživatelovu dotazu. Běžné metody vyhledávání textu podceňují podobnost dokumentů, které používají rozdílnou terminologii. Latentní sémantická analýza tento problém řeší shlukováním slov, která se vyskytují dohromady. Cenou za toto řešení je však nutnost opětovně vytvářet databázi dokumentů u dynamicky se měnících kolekcí a neadekvátnost souvýskytů slov jakožto míry jejich vzájemné podobnosti. V práci představuji model, který netrpí ani jedním zmíněným nedostatkem.

Návaznosti

TD03000295, projekt VaV

Název: Inteligentní software pro sémantické hledání dokumentů (Akronym: ISSHD)

Investor: Technologická agentura ČR, Inteligentní software pro sémantické hledání dokumentů

Přehled o publikaci