J 2012

Large-scale similarity data management with distributed Metric Index

NOVÁK, David, Michal BATKO a Pavel ZEZULA

Základní údaje

Originální název

Large-scale similarity data management with distributed Metric Index

Název česky

Zpracování rozsáhlých kolekcí podobnostních dat pomocí distribuovaného metrického indexu

Autoři

NOVÁK, David (203 Česká republika, domácí), Michal BATKO (203 Česká republika, garant, domácí) a Pavel ZEZULA (203 Česká republika, domácí)

Vydání

Information Processing and Management, ELSEVIER, 2012, 0306-4573

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Spojené státy

Utajení

není předmětem státního či obchodního tajemství

Impakt faktor

Impact factor: 0.817

Kód RIV

RIV/00216224:14330/12:00057505

Organizační jednotka

Fakulta informatiky

UT WoS

000307682100005

Klíčová slova anglicky

Distributed data structures; Performance tuning; Similarity search; Scalability; Peer-to-peer structured networks; Metric space

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 23. 4. 2013 12:17, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

Metric space is a universal and versatile model of similarity that can be applied in various areas of non-text information retrieval. However, a general, efficient and scalable solution for metric data management is still a resisting research challenge. In this work, we try to make an important step towards such management system that would be able to scale to data collections of billions of objects. We propose a distributed index structure for similarity data management called the Metric Index (M-Index) which can answer queries in precise and approximate manner. This technique can take advantage of any distributed hash table that supports interval queries and utilize it as an underlying index. We have performed numerous experiments to test various settings of the M-Index structure and we have proved its usability by developing a full-featured publicly-available Web application.

Návaznosti

GAP103/10/0886, projekt VaV
Název: Vizuální vyhledávání obrázků na Webu (Akronym: VisualWeb)
Investor: Grantová agentura ČR, Vizuální vyhledávání obrázků na Webu
GPP202/10/P220, projekt VaV
Název: Podobnostní vyhledávání s konstantní škálovatelností (Akronym: SIM-SCALE)
Investor: Grantová agentura ČR, Podobnostní vyhledávání s konstantní škálovatelností
VF20102014004, projekt VaV
Název: Multimediální analýza (Akronym: Multimediální analýza)
Investor: Ministerstvo vnitra ČR, Multimediální analýza