J 2021

Metric hull as similarity-aware operator for representing unstructured data

ANTOL, Matej, Miriama JÁNOŠOVÁ a Vlastislav DOHNAL

Základní údaje

Originální název

Metric hull as similarity-aware operator for representing unstructured data

Autoři

ANTOL, Matej (703 Slovensko, domácí), Miriama JÁNOŠOVÁ (703 Slovensko, domácí) a Vlastislav DOHNAL (203 Česká republika, garant, domácí)

Vydání

Pattern Recognition Letters, Amsterdam, Elsevier, 2021, 0167-8655

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Nizozemské království

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Impakt faktor

Impact factor: 4.757

Kód RIV

RIV/00216224:14330/21:00121873

Organizační jednotka

Fakulta informatiky

UT WoS

000680052800013

Klíčová slova anglicky

Similarity operators; Metric space; Data aggregation

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 19. 4. 2022 12:11, doc. RNDr. Vlastislav Dohnal, Ph.D.

Anotace

V originále

Similarity searching has become widely utilized in many online services processing unstructured and complex data, e.g., Google Images. Metric spaces are often applied to model and organize such data by their mutual similarity. As top-k queries provide only a local view on data, a data analyst must pose multiple requests to observe the entire dataset. Thus, group-by operators for metric data have been proposed. These operators identify groups by respecting a given similarity constraint and produce a set of objects per group. The analyst can then tediously browse these sets directly, but representative members may provide better insight. In this paper, we focus on concise representations of metric datasets. We propose a novel concept of a metric hull which encompasses a given set by selecting a few objects. Testing an object to be part of the set is then made much faster. We verify this concept on synthetic Euclidean data and real-life image and text datasets and show its effectiveness and scalability. The metric hulls provide much faster and more compact representations when compared with commonly used ball representations.

Návaznosti

EF16_019/0000822, projekt VaV
Název: Centrum excelence pro kyberkriminalitu, kyberbezpečnost a ochranu kritických informačních infrastruktur
MUNI/A/1549/2020, interní kód MU
Název: Zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity 21 (Akronym: SKOMU)
Investor: Masarykova univerzita, Zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity 21
MUNI/A/1573/2020, interní kód MU
Název: Aplikovaný výzkum: vyhledávání, analýza a vizualizace rozsáhlých dat, zpracování přirozeného jazyka, umělá inteligence pro analýzu biomedicínských obrazů.
Investor: Masarykova univerzita, Aplikovaný výzkum: vyhledávání, analýza a vizualizace rozsáhlých dat, zpracování přirozeného jazyka, umělá inteligence pro analýzu biomedicínských obrazů.