V 2025

On the Costs and Benefits of Learned Indexing for Dynamic High-Dimensional Data: Extended Version

SLANINÁKOVÁ, Terézia; Jaroslav OĽHA; David PROCHÁZKA; Matej ANTOL; Vlastislav DOHNAL et. al.

Základní údaje

Originální název

On the Costs and Benefits of Learned Indexing for Dynamic High-Dimensional Data: Extended Version

Vydání

16 s. N/A, 2025

Nakladatel

arXiv

Další údaje

Jazyk

angličtina

Typ výsledku

Výzkumná zpráva

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Organizační jednotka

Fakulta informatiky

Klíčová slova anglicky

Learned indexing;Dynamization;Dynamic datasets;k-NN search;ANN search

Příznaky

Mezinárodní význam
Změněno: 20. 8. 2025 21:14, Mgr. David Procházka

Anotace

V originále

One of the main challenges within the growing research area of learned indexing is the lack of adaptability to dynamically expanding datasets. This paper explores the dynamization of a static learned index for complex data through operations such as node splitting and broadening, enabling efficient adaptation to new data. Furthermore, we evaluate the trade-offs between static and dynamic approaches by introducing an amortized cost model to assess query performance in tandem with the build costs of the index structure, enabling experimental determination of when a dynamic learned index outperforms its static counterpart. We apply the dynamization method to a static learned index and demonstrate that its superior scaling quickly surpasses the static implementation in terms of overall costs as the database grows. This is an extended version of the paper presented at DAWAK 2025.

Návaznosti

GF23-07040K, projekt VaV
Název: Naučené indexy pro podobností hledání
Investor: Grantová agentura ČR, Naučené indexy pro podobností hledání, Lead agentura
LM2018131, projekt VaV
Název: Česká národní infrastruktura pro biologická data (Akronym: ELIXIR-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Česká národní infrastruktura pro biologická data
LM2018140, projekt VaV
Název: e-Infrastruktura CZ (Akronym: e-INFRA CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, e-Infrastruktura CZ