D 2017

Flexible Similarity Search of Semantic Vectors Using Fulltext Search Engines

RŮŽIČKA, Michal, Vít NOVOTNÝ, Petr SOJKA, Jan POMIKÁLEK, Radim ŘEHŮŘEK et. al.

Základní údaje

Originální název

Flexible Similarity Search of Semantic Vectors Using Fulltext Search Engines

Autoři

RŮŽIČKA, Michal (203 Česká republika, domácí), Vít NOVOTNÝ (203 Česká republika, domácí), Petr SOJKA (203 Česká republika, garant, domácí), Jan POMIKÁLEK (203 Česká republika) a Radim ŘEHŮŘEK (203 Česká republika)

Vydání

Vienna, Austria, CEUR Workshop Proceedings, Vol. 1923, od s. 1-12, 12 s. 2017

Nakladatel

Neuveden

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Rakousko

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Kód RIV

RIV/00216224:14330/17:00094375

Organizační jednotka

Fakulta informatiky

ISSN

Klíčová slova anglicky

vector space modelling; semantic vectors encodings; inverted-index; systems performance; document representations; Latent Semantic Analysis; doc2vec; GloVe; Elasticsearch; evaluation; performance optimization

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 3. 1. 2023 15:15, RNDr. Vít Starý Novotný, Ph.D.

Anotace

V originále

Vector representations and vector space modeling (VSM) play a central role in modern machine learning. In our recent research we proposed a novel approach to ‘vector similarity searching’ over dense semantic vector representations. This approach can be deployed on top of traditional inverted-index-based fulltext engines, taking advantage of their robustness, stability, scalability and ubiquity. In this paper we validate our method using varied datasets ranging from text representations and embeddings (LSA, doc2vec, GloVe) to SIFT descriptors of image data. We show how our approach handles the indexing and querying in these domains, building a fast and scalable vector database with a tunable trade-off between vector search performance and quality, backed by a standard fulltext engine such as Elasticsearch.

Návaznosti

MUNI/A/0997/2016, interní kód MU
Název: Aplikovaný výzkum na FI: vyhledávacích systémy, bezpečnost, vizualizace dat a virtuální realita.
Investor: Masarykova univerzita, Aplikovaný výzkum na FI: vyhledávacích systémy, bezpečnost, vizualizace dat a virtuální realita., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
TD03000295, projekt VaV
Název: Inteligentní software pro sémantické hledání dokumentů (Akronym: ISSHD)
Investor: Technologická agentura ČR, Inteligentní software pro sémantické hledání dokumentů