D 2017

Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines

RYGL, Jan, Jan POMIKÁLEK, Radim ŘEHŮŘEK, Michal RŮŽIČKA, Vít NOVOTNÝ et. al.

Základní údaje

Originální název

Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines

Autoři

RYGL, Jan (203 Česká republika), Jan POMIKÁLEK (203 Česká republika), Radim ŘEHŮŘEK (203 Česká republika), Michal RŮŽIČKA (203 Česká republika, domácí), Vít NOVOTNÝ (203 Česká republika, domácí) a Petr SOJKA (203 Česká republika, garant, domácí)

Vydání

Vancouver, Canada, Proceedings of the 2nd Workshop on Representation Learning for NLP, RepL4NLP 2017 c/o ACL 2017, od s. 81-90, 10 s. 2017

Nakladatel

Association for Computational Linguistics, ACL

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

Kód RIV

RIV/00216224:14330/17:00094366

Organizační jednotka

Fakulta informatiky

ISBN

978-1-945626-62-3

Klíčová slova česky

fulltextové vyhledávání; podobnostní hledání; vektorové prostory; vektorové reprezentace

Klíčová slova anglicky

full-text search; similarity search; vector space; embeddings

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 19. 9. 2019 14:14, doc. RNDr. Petr Sojka, Ph.D.

Anotace

V originále

Vector representations and vector space modeling (VSM) play a central role in modern machine learning. We propose a novel approach to ‘vector similarity searching’ over dense semantic representations of words and documents that can be deployed on top of traditional inverted-index-based fulltext engines, taking advantage of their robustness, stability, scalability and ubiquity. We show that this approach allows the indexing and querying of dense vectors in text domains. This opens up exciting avenues for major efficiency gains, along with simpler deployment, scaling and monitoring. The end result is a fast and scalable vector database with a tunable trade-off between vector search performance and quality, backed by a standard fulltext engine such as Elasticsearch. We empirically demonstrate its querying performance and quality by applying this solution to the task of semantic searching over a dense vector representation of the entire English Wikipedia.

Návaznosti

MUNI/A/0997/2016, interní kód MU
Název: Aplikovaný výzkum na FI: vyhledávacích systémy, bezpečnost, vizualizace dat a virtuální realita.
Investor: Masarykova univerzita, Aplikovaný výzkum na FI: vyhledávacích systémy, bezpečnost, vizualizace dat a virtuální realita., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
TD03000295, projekt VaV
Název: Inteligentní software pro sémantické hledání dokumentů (Akronym: ISSHD)
Investor: Technologická agentura ČR, Inteligentní software pro sémantické hledání dokumentů