2025
Scaling Learned Metric Index to 100M Datasets
PROCHÁZKA, David; Terézia SLANINÁKOVÁ; Jozef ČERŇANSKÝ; Jaroslav OĽHA; Matej ANTOL et. al.Základní údaje
Originální název
Scaling Learned Metric Index to 100M Datasets
Autoři
PROCHÁZKA, David (203 Česká republika, domácí); Terézia SLANINÁKOVÁ (703 Slovensko, domácí); Jozef ČERŇANSKÝ (703 Slovensko, domácí); Jaroslav OĽHA (703 Slovensko, domácí); Matej ANTOL (703 Slovensko, domácí) a Vlastislav DOHNAL (203 Česká republika, garant, domácí)
Vydání
BERLIN, SIMILARITY SEARCH AND APPLICATIONS, SISAP 2024, od s. 266-273, 8 s. 2025
Nakladatel
Springer
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10200 1.2 Computer and information sciences
Stát vydavatele
Německo
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Impakt faktor
Impact factor: 0.402 v roce 2005
Organizační jednotka
Fakulta informatiky
ISBN
978-3-031-75822-5
ISSN
UT WoS
001422992900022
Klíčová slova anglicky
learned metric index;high-dimensional data;memory efficiency;on-disk index;approximate nearest neighbor search;similarity search
Štítky
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 25. 3. 2025 16:12, Mgr. Eva Špillingová
Anotace
V originále
Learned indexing of high-dimensional data is an indexing approach that is still in the process of proving its viability – the Learned Metric Index (LMI) stands as one of the pioneering methods in this regard. Earlier implementation of LMI [Slanináková et al., SISAP 2023] primarily served as experimental prototype, operating under unrealistic assumptions, such as the availability of unlimited main memory or unbounded index construction time. Recently, however, LMI made the leap towards practical applicability on real-world datasets when it was successfully deployed to efficiently index 214 million protein structures for near-instantaneous retrieval [Procházka et al., Nucleic Acids Research 2024]. This paper details the key improvements that enabled this transition, including the introduction of parallel query processing (with the possibility of GPU acceleration), adaptive memory usage, pre-construction of memory buckets for contiguous access, a shift from k-means to spherical k-means clustering, and faster index construction through fewer epochs and the use of smaller training samples. LMI is now capable of handling 100M datasets and supports both in-memory and on-disk indexing, marking several important steps towards practical viability of AI-enhanced indexes for high-dimensional complex data in real-world settings.
Návaznosti
GF23-07040K, projekt VaV |
| ||
MUNI/A/1590/2023, interní kód MU |
| ||
90254, velká výzkumná infrastruktura |
| ||
90255, velká výzkumná infrastruktura |
|