Reproducible experiments with Learned Metric Index Framework

SLANINÁKOVÁ, Terézia, Matej ANTOL, Jaroslav OĽHA, Vlastislav DOHNAL, Susana LADRA a Miguel A. MARTÍNEZ-PRIETO. Reproducible experiments with Learned Metric Index Framework. Information systems. Elsevier, 2023, roč. 118, č. 1, s. 102255-102270. ISSN 0306-4379. Dostupné z: https://dx.doi.org/10.1016/j.is.2023.102255.

Další formáty: BibTeX LaTeX RIS

TY  - JOUR
ID  - 2301611
AU  - Slanináková, Terézia - Antol, Matej - Oľha, Jaroslav - Dohnal, Vlastislav - Ladra, Susana - Martínez-Prieto, Miguel A.
PY  - 2023
TI  - Reproducible experiments with Learned Metric Index Framework
JF  - Information systems
VL  - 118
IS  - 1
SP  - 102255
EP  - 102255
PB  - Elsevier
SN  - 03064379
KW  - Reproducible paper;Index structures;Learned index;Unstructured data;Content-based search;Metric space
UR  - https://www.sciencedirect.com/science/article/pii/S0306437923000911
N2  - This work is a companion reproducible paper of a previous paper (Antol et al., 2021) in which we presented an alternative to the traditional paradigm of similarity searching in metric spaces called the Learned Metric Index. Inspired by the advance in learned indexing of structured data, we used machine learning models to replace index pivots, thus posing similarity search as a classification problem. This implementation proved to be more than competitive with the conventional methods in terms of speed and recall, proving the concept as viable. The aim of this publication is to make our source code, datasets, and experiments publicly available. For this purpose, we create a collection of Python3 software libraries, YAML reproducible experiment files, and JSON ground-truth files, all bundled in a Docker image – the Learned Metric Index Framework (LMIF) – which can be run using any Docker-compatible operating system on a CPU with Advanced vector extensions (AVX). We introduce a reproducibility protocol for our experiments using LMIF and provide a closer look at the experimental process. We introduce new experimental results by running the reproducibility protocol introduced herein and discussing the differences with the results reported in our primary work (Antol et al., 2021). Finally, we make an argument that these results can be considered weakly reproducible (in both of the performance metrics), since they point to the same conclusions derived in the primary paper.
ER  -

Základní údaje
Originální název	Reproducible experiments with Learned Metric Index Framework
Autoři	SLANINÁKOVÁ, Terézia (703 Slovensko, domácí), Matej ANTOL (703 Slovensko, domácí), Jaroslav OĽHA (703 Slovensko, domácí), Vlastislav DOHNAL (203 Česká republika, garant, domácí), Susana LADRA (724 Španělsko) a Miguel A. MARTÍNEZ-PRIETO (724 Španělsko).
Vydání	Information systems, Elsevier, 2023, 0306-4379.

Další údaje
Originální jazyk	angličtina
Typ výsledku	Článek v odborném periodiku
Obor	20206 Computer hardware and architecture
Stát vydavatele	Nizozemské království
Utajení	není předmětem státního či obchodního tajemství
WWW	URL
Impakt faktor	Impact factor: 3.700 v roce 2022
Kód RIV	RIV/00216224:14330/23:00131386
Organizační jednotka	Fakulta informatiky
Doi	http://dx.doi.org/10.1016/j.is.2023.102255
UT WoS	001050259000001
Klíčová slova česky	Reprodukovatelný výzkum;Indexové struktury;Naučený index;Nestrukturovaná data;Vyhledávání založené na obsahu;Metrický prostor
Klíčová slova anglicky	Reproducible paper;Index structures;Learned index;Unstructured data;Content-based search;Metric space
Štítky	approximate search, content-based retrieval, DISA, index structure, learned index, LMI, performance evaluation
Příznaky	Mezinárodní význam, Recenzováno
Změnil	Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 7. 4. 2024 23:08.

Anotace

This work is a companion reproducible paper of a previous paper (Antol et al., 2021) in which we presented an alternative to the traditional paradigm of similarity searching in metric spaces called the Learned Metric Index. Inspired by the advance in learned indexing of structured data, we used machine learning models to replace index pivots, thus posing similarity search as a classification problem. This implementation proved to be more than competitive with the conventional methods in terms of speed and recall, proving the concept as viable. The aim of this publication is to make our source code, datasets, and experiments publicly available. For this purpose, we create a collection of Python3 software libraries, YAML reproducible experiment files, and JSON ground-truth files, all bundled in a Docker image – the Learned Metric Index Framework (LMIF) – which can be run using any Docker-compatible operating system on a CPU with Advanced vector extensions (AVX). We introduce a reproducibility protocol for our experiments using LMIF and provide a closer look at the experimental process. We introduce new experimental results by running the reproducibility protocol introduced herein and discussing the differences with the results reported in our primary work (Antol et al., 2021). Finally, we make an argument that these results can be considered weakly reproducible (in both of the performance metrics), since they point to the same conclusions derived in the primary paper.

Anotace česky

Tato práce je doprovodným reprodukovatelným článkem předchozího článku (Antol a kol., 2021), ve kterém jsme představili alternativu k tradičnímu paradigmatu vyhledávání podobnosti v metrických prostorech nazvanou Learned Metric Index. Inspirováni pokrokem v naučeném indexování strukturovaných dat jsme použili modely strojového učení, které nahradily rozhodování v podobnostním indexu pomocí pivotů, a postavili tak vyhledávání podle podobnosti jako klasifikační problém. Tato implementace se ukázala být více než konkurenceschopná s konvenčními metodami, pokud jde o rychlost a úplnost odpovědi, což dokazuje, že tento koncept je životaschopný. Cílem této publikace je zveřejnit náš zdrojový kód, datové sady a experimenty. Za tímto účelem vytváříme kolekci softwarových knihoven pro Python3, reprodukovatelných experimentálních souborů YAML a základních souborů JSON, které jsou sdruženy v obrazu Docker - Learned Metric Index Framework (LMIF) - který lze spustit pomocí libovolného operačního systému kompatibilního s Dockerem na procesoru s pokročilými vektorovými rozšířeními (AVX). Představujeme protokol reprodukovatelnosti našich experimentů s využitím LMIF a poskytujeme bližší pohled na experimentální proces. Dále představujeme nové experimentální výsledky spuštěním zde zavedeného protokolu reprodukovatelnosti a diskutujeme rozdíly s výsledky uvedenými v naší primární práci (Antol et al., 2021). Nakonec předkládáme argument, že tyto výsledky lze považovat za slabě reprodukovatelné (v obou metrikách výkonnosti), protože poukazují na stejné závěry odvozené v primární práci. [Překlad s pomocí deepl.com]

Návaznosti
EF16_019/0000822, projekt VaV	Název: Centrum excelence pro kyberkriminalitu, kyberbezpečnost a ochranu kritických informačních infrastruktur
GF23-07040K, projekt VaV	Název: Naučené indexy pro podobností hledání
GF23-07040K, projekt VaV	Investor: Grantová agentura ČR, Naučené indexy pro podobností hledání, Lead agentura
LM2018140, projekt VaV	Název: e-Infrastruktura CZ (Akronym: e-INFRA CZ)
LM2018140, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, e-Infrastruktura CZ
MUNI/A/1339/2022, interní kód MU	Název: Rozvoj technik pro zpracování dat pro podporu vyhledávání, analýz a vizualizací rozsáhlých datových souborů s využitím umělé inteligence
MUNI/A/1339/2022, interní kód MU	Investor: Masarykova univerzita, Rozvoj technik pro zpracování dat pro podporu vyhledávání, analýz a vizualizací rozsáhlých datových souborů s využitím umělé inteligence

VytisknoutZobrazeno: 8. 6. 2024 16:22

Reproducible experiments with Learned Metric Index Framework

Další aplikace