2017
Flexible Similarity Search of Semantic Vectors Using Fulltext Search Engines
RŮŽIČKA, Michal, Vít NOVOTNÝ, Petr SOJKA, Jan POMIKÁLEK, Radim ŘEHŮŘEK et. al.Základní údaje
Originální název
Flexible Similarity Search of Semantic Vectors Using Fulltext Search Engines
Autoři
RŮŽIČKA, Michal (203 Česká republika, domácí), Vít NOVOTNÝ (203 Česká republika, domácí), Petr SOJKA (203 Česká republika, garant, domácí), Jan POMIKÁLEK (203 Česká republika) a Radim ŘEHŮŘEK (203 Česká republika)
Vydání
Vienna, Austria, CEUR Workshop Proceedings, Vol. 1923, od s. 1-12, 12 s. 2017
Nakladatel
Neuveden
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Rakousko
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
elektronická verze "online"
Kód RIV
RIV/00216224:14330/17:00094375
Organizační jednotka
Fakulta informatiky
ISSN
Klíčová slova anglicky
vector space modelling; semantic vectors encodings; inverted-index; systems performance; document representations; Latent Semantic Analysis; doc2vec; GloVe; Elasticsearch; evaluation; performance optimization
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 3. 1. 2023 15:15, RNDr. Vít Starý Novotný, Ph.D.
Anotace
V originále
Vector representations and vector space modeling (VSM) play a central role in modern machine learning. In our recent research we proposed a novel approach to ‘vector similarity searching’ over dense semantic vector representations. This approach can be deployed on top of traditional inverted-index-based fulltext engines, taking advantage of their robustness, stability, scalability and ubiquity. In this paper we validate our method using varied datasets ranging from text representations and embeddings (LSA, doc2vec, GloVe) to SIFT descriptors of image data. We show how our approach handles the indexing and querying in these domains, building a fast and scalable vector database with a tunable trade-off between vector search performance and quality, backed by a standard fulltext engine such as Elasticsearch.
Návaznosti
MUNI/A/0997/2016, interní kód MU |
| ||
TD03000295, projekt VaV |
|