2024
Learned Metric Index
SLANINÁKOVÁ, Terézia a David PROCHÁZKAZákladní údaje
Originální název
Learned Metric Index
Autoři
SLANINÁKOVÁ, Terézia (703 Slovensko, garant, domácí) a David PROCHÁZKA (203 Česká republika, domácí)
Vydání
2024
Další údaje
Jazyk
angličtina
Typ výsledku
Software
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Odkazy
Kód RIV
RIV/00216224:14330/24:00137232
Organizační jednotka
Fakulta informatiky
Klíčová slova anglicky
learned metric index;learned index
Technické parametry
Programovací jazyk: Implementováno v Pythonu.
Systémová architektura: Projekt je rozdělen do několika hlavních komponent:
Search Module – zajišťuje hlavní funkci pro aproximované hledání nejbližších sousedů.
Tyto závislosti jsou specifikovány v souborech requirements-cpu.txt a requirements-gpu.txt pro CPU a GPU verze.
Možnosti instalace:
Virtuální prostředí – uživatelé mohou nastavit virtuální prostředí Python a nainstalovat požadované balíčky dle dokumentace.
Docker – k dispozici je Dockerfile, který umožňuje vytvořit obraz pro snadné nasazení.
Hardwarové požadavky:
Pro indexaci datasetu o velikosti 10 milionů záznamů je potřeba přibližně 42 GB RAM a 1 CPU jádro.
Odhadovaný čas sestavení indexu je přibližně 6 hodin (v závislosti na použitém hardwaru).
Výkonnostní metriky:
Při použití jednoho modelu strojového učení dosahuje Learned Metric Index úspěšnosti přibližně 91,42 % recallu.
Průměrná doba hledání pro 10 000 dotazů je 220 sekund.
Licencování: Projekt je vydán pod MIT licencí, což umožňuje
Štítky
Příznaky
Mezinárodní význam
Změněno: 31. 3. 2025 09:43, RNDr. Terézia Slanináková
Anotace
V originále
Learned Metric Index (LMI) je inovativní datová struktura založená na strojovém učení, určená pro rychlé přibližné hledání nejbližších sousedů v rozsáhlých datových souborech. Využívá principy učených indexů k optimalizaci vyhledávání a minimalizaci výpočetní náročnosti. LMI je implementován v jazyce Python a podporuje použití na CPU i GPU. Díky efektivní správě paměti a vysoké přesnosti (až 91,42 % recallu) je vhodný pro aplikace v oblastech, jako jsou analýza velkých dat, bioinformatika, vyhledávače, doporučovací systémy a finanční modelování. Software je distribuován jako open-source pod licencí MIT, což umožňuje jeho volné použití, úpravy a začlenění do komerčních i nekomerčních projektů.
Návaznosti
GF23-07040K, projekt VaV |
| ||
MUNI/A/1590/2023, interní kód MU |
|