D 2023

CRANBERRY: Memory-Effective Search in 100M High-Dimensional CLIP Vectors

MÍČ, Vladimír, Jan SEDMIDUBSKÝ a Pavel ZEZULA

Základní údaje

Originální název

CRANBERRY: Memory-Effective Search in 100M High-Dimensional CLIP Vectors

Autoři

MÍČ, Vladimír (203 Česká republika, garant), Jan SEDMIDUBSKÝ (203 Česká republika, domácí) a Pavel ZEZULA (203 Česká republika, domácí)

Vydání

Cham, 16th International Conference on Similarity Search and Applications (SISAP), od s. 300-308, 9 s. 2023

Nakladatel

Springer

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

Impakt faktor

Impact factor: 0.402 v roce 2005

Kód RIV

RIV/00216224:14330/23:00131529

Organizační jednotka

Fakulta informatiky

ISBN

978-3-031-46993-0

ISSN

Klíčová slova anglicky

approximate similarity searching;high-dimensional data;indexing;filtering;LAION dataset

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 5. 3. 2024 11:29, doc. RNDr. Jan Sedmidubský, Ph.D.

Anotace

V originále

Recent advances in cross-modal multimedia data analysis necessarily require efficient similarity search on the scales of hundreds of millions of high-dimensional vectors. We address this task by proposing the CRANBERRY algorithm that specifically combines and tunes several existing similarity search strategies. In particular, the algorithm: (1) employs the Voronoi partitioning to obtain a query-relevant candidate set in constant time, (2) applies filtering techniques to prune the obtained candidates significantly, and (3) re-rank the retained candidate vectors with respect to the query vector. Applied to the dataset of 100 million 768-dimensional vectors, the algorithm evaluates 10NN queries with 90% recall and query latency of 1.2s on average, all with a throughput of 15 queries per second on a server with 56 core-CPU, and 4.7q/sec. on a PC.