2024
Learned Metric Index
SLANINÁKOVÁ, Terézia and David PROCHÁZKABasic information
Original name
Learned Metric Index
Authors
SLANINÁKOVÁ, Terézia (703 Slovakia, guarantor, belonging to the institution) and David PROCHÁZKA (203 Czech Republic, belonging to the institution)
Edition
2024
Other information
Language
English
Type of outcome
Software
Field of Study
10201 Computer sciences, information science, bioinformatics
Country of publisher
Czech Republic
Confidentiality degree
is not subject to a state or trade secret
References:
RIV identification code
RIV/00216224:14330/24:00137232
Organization unit
Faculty of Informatics
Keywords in English
learned metric index;learned index
Technical parameters
Programovací jazyk: Implementováno v Pythonu.
Systémová architektura: Projekt je rozdělen do několika hlavních komponent:
Search Module – zajišťuje hlavní funkci pro aproximované hledání nejbližších sousedů.
Tyto závislosti jsou specifikovány v souborech requirements-cpu.txt a requirements-gpu.txt pro CPU a GPU verze.
Možnosti instalace:
Virtuální prostředí – uživatelé mohou nastavit virtuální prostředí Python a nainstalovat požadované balíčky dle dokumentace.
Docker – k dispozici je Dockerfile, který umožňuje vytvořit obraz pro snadné nasazení.
Hardwarové požadavky:
Pro indexaci datasetu o velikosti 10 milionů záznamů je potřeba přibližně 42 GB RAM a 1 CPU jádro.
Odhadovaný čas sestavení indexu je přibližně 6 hodin (v závislosti na použitém hardwaru).
Výkonnostní metriky:
Při použití jednoho modelu strojového učení dosahuje Learned Metric Index úspěšnosti přibližně 91,42 % recallu.
Průměrná doba hledání pro 10 000 dotazů je 220 sekund.
Licencování: Projekt je vydán pod MIT licencí, což umožňuje
Tags
International impact
Changed: 31/3/2025 09:43, RNDr. Terézia Slanináková
Abstract
In the original language
Learned Metric Index (LMI) je inovativní datová struktura založená na strojovém učení, určená pro rychlé přibližné hledání nejbližších sousedů v rozsáhlých datových souborech. Využívá principy učených indexů k optimalizaci vyhledávání a minimalizaci výpočetní náročnosti. LMI je implementován v jazyce Python a podporuje použití na CPU i GPU. Díky efektivní správě paměti a vysoké přesnosti (až 91,42 % recallu) je vhodný pro aplikace v oblastech, jako jsou analýza velkých dat, bioinformatika, vyhledávače, doporučovací systémy a finanční modelování. Software je distribuován jako open-source pod licencí MIT, což umožňuje jeho volné použití, úpravy a začlenění do komerčních i nekomerčních projektů.
Links
GF23-07040K, research and development project |
| ||
MUNI/A/1590/2023, interní kód MU |
|