RŮŽIČKA, Michal, Vít NOVOTNÝ, Petr SOJKA, Jan POMIKÁLEK a Radim ŘEHŮŘEK. Flexible Similarity Search of Semantic Vectors Using Fulltext Search Engines. In CEUR Workshop Proceedings, Vol. 1923. Vienna, Austria: Neuveden. s. 1-12. ISSN 1613-0073. 2017.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Flexible Similarity Search of Semantic Vectors Using Fulltext Search Engines
Autoři RŮŽIČKA, Michal (203 Česká republika, domácí), Vít NOVOTNÝ (203 Česká republika, domácí), Petr SOJKA (203 Česká republika, garant, domácí), Jan POMIKÁLEK (203 Česká republika) a Radim ŘEHŮŘEK (203 Česká republika).
Vydání Vienna, Austria, CEUR Workshop Proceedings, Vol. 1923, od s. 1-12, 12 s. 2017.
Nakladatel Neuveden
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Rakousko
Utajení není předmětem státního či obchodního tajemství
Forma vydání elektronická verze "online"
WWW Workshop homepage Proceedings volume landing page Conference homepage Full text
Kód RIV RIV/00216224:14330/17:00094375
Organizační jednotka Fakulta informatiky
ISSN 1613-0073
Klíčová slova anglicky vector space modelling; semantic vectors encodings; inverted-index; systems performance; document representations; Latent Semantic Analysis; doc2vec; GloVe; Elasticsearch; evaluation; performance optimization
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Vít Starý Novotný, Ph.D., učo 409729. Změněno: 3. 1. 2023 15:15.
Anotace
Vector representations and vector space modeling (VSM) play a central role in modern machine learning. In our recent research we proposed a novel approach to ‘vector similarity searching’ over dense semantic vector representations. This approach can be deployed on top of traditional inverted-index-based fulltext engines, taking advantage of their robustness, stability, scalability and ubiquity. In this paper we validate our method using varied datasets ranging from text representations and embeddings (LSA, doc2vec, GloVe) to SIFT descriptors of image data. We show how our approach handles the indexing and querying in these domains, building a fast and scalable vector database with a tunable trade-off between vector search performance and quality, backed by a standard fulltext engine such as Elasticsearch.
Návaznosti
MUNI/A/0997/2016, interní kód MUNázev: Aplikovaný výzkum na FI: vyhledávacích systémy, bezpečnost, vizualizace dat a virtuální realita.
Investor: Masarykova univerzita, Aplikovaný výzkum na FI: vyhledávacích systémy, bezpečnost, vizualizace dat a virtuální realita., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
TD03000295, projekt VaVNázev: Inteligentní software pro sémantické hledání dokumentů (Akronym: ISSHD)
Investor: Technologická agentura ČR, Inteligentní software pro sémantické hledání dokumentů
VytisknoutZobrazeno: 19. 4. 2024 20:44