R 2024

Learned Metric Index

SLANINÁKOVÁ, Terézia and David PROCHÁZKA

Basic information

Original name

Learned Metric Index

Authors

SLANINÁKOVÁ, Terézia (703 Slovakia, guarantor, belonging to the institution) and David PROCHÁZKA (203 Czech Republic, belonging to the institution)

Edition

2024

Other information

Language

English

Type of outcome

Software

Field of Study

10201 Computer sciences, information science, bioinformatics

Country of publisher

Czech Republic

Confidentiality degree

is not subject to a state or trade secret

References:

RIV identification code

RIV/00216224:14330/24:00137232

Organization unit

Faculty of Informatics

Keywords in English

learned metric index;learned index

Technical parameters

Programovací jazyk: Implementováno v Pythonu. Systémová architektura: Projekt je rozdělen do několika hlavních komponent: Search Module – zajišťuje hlavní funkci pro aproximované hledání nejbližších sousedů. Tyto závislosti jsou specifikovány v souborech requirements-cpu.txt a requirements-gpu.txt pro CPU a GPU verze. Možnosti instalace: Virtuální prostředí – uživatelé mohou nastavit virtuální prostředí Python a nainstalovat požadované balíčky dle dokumentace. Docker – k dispozici je Dockerfile, který umožňuje vytvořit obraz pro snadné nasazení. Hardwarové požadavky: Pro indexaci datasetu o velikosti 10 milionů záznamů je potřeba přibližně 42 GB RAM a 1 CPU jádro. Odhadovaný čas sestavení indexu je přibližně 6 hodin (v závislosti na použitém hardwaru). Výkonnostní metriky: Při použití jednoho modelu strojového učení dosahuje Learned Metric Index úspěšnosti přibližně 91,42 % recallu. Průměrná doba hledání pro 10 000 dotazů je 220 sekund. Licencování: Projekt je vydán pod MIT licencí, což umožňuje

Tags

International impact
Changed: 31/3/2025 09:43, RNDr. Terézia Slanináková

Abstract

In the original language

Learned Metric Index (LMI) je inovativní datová struktura založená na strojovém učení, určená pro rychlé přibližné hledání nejbližších sousedů v rozsáhlých datových souborech. Využívá principy učených indexů k optimalizaci vyhledávání a minimalizaci výpočetní náročnosti. LMI je implementován v jazyce Python a podporuje použití na CPU i GPU. Díky efektivní správě paměti a vysoké přesnosti (až 91,42 % recallu) je vhodný pro aplikace v oblastech, jako jsou analýza velkých dat, bioinformatika, vyhledávače, doporučovací systémy a finanční modelování. Software je distribuován jako open-source pod licencí MIT, což umožňuje jeho volné použití, úpravy a začlenění do komerčních i nekomerčních projektů.

Links

GF23-07040K, research and development project
Name: Naučené indexy pro podobností hledání
Investor: Czech Science Foundation, Learned Indexing for Similarity Searching, Lead Agency
MUNI/A/1590/2023, interní kód MU
Name: Využití technik umělé inteligence pro zpracování dat, komplexní analýzy a vizualizaci rozsáhlých dat
Investor: Masaryk University, Using artificial intelligence techniques for data processing, complex analysis and visualization of large-scale data