D 2021

Similarity Search for an Extreme Application: Experience and Implementation

MÍČ, Vladimír, Tomáš RAČEK, Aleš KŘENEK a Pavel ZEZULA

Základní údaje

Originální název

Similarity Search for an Extreme Application: Experience and Implementation

Autoři

MÍČ, Vladimír (203 Česká republika, domácí), Tomáš RAČEK (203 Česká republika, domácí), Aleš KŘENEK (203 Česká republika, domácí) a Pavel ZEZULA (203 Česká republika, garant, domácí)

Vydání

Cham, Similarity Search and Applications: 14th International Conference, SISAP 2021, Dortmund, Germany, September 29 - October 1, 2021, Proceedings, od s. 265-279, 15 s. 2021

Nakladatel

Springer

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Švýcarsko

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Impakt faktor

Impact factor: 0.402 v roce 2005

Kód RIV

RIV/00216224:14330/21:00122667

Organizační jednotka

Fakulta informatiky

ISBN

978-3-030-89656-0

ISSN

UT WoS

000722252200020

Klíčová slova anglicky

Similarity search in metric space;Efficiency;Distance distribution;Dimensionality curse;Extreme distance function

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 23. 11. 2021 14:16, RNDr. Vladimír Míč, Ph.D.

Anotace

V originále

Contemporary challenges for efficient similarity search include complex similarity functions, the curse of dimensionality, and large sizes of descriptive features of data objects. This article reports our experience with a database of protein chains which form (almost) metric space and demonstrate the following extreme properties. Evaluation of the pairwise similarity of protein chains can take even tens of minutes, and has a variance of six orders of magnitude. The minimisation of a number of similarity comparisons is thus crucial, so we propose a generic three stage search engine to solve it. We improve the median searching time 73 times in comparison with the search engine currently employed for the protein database in practice.

Návaznosti

EF16_019/0000822, projekt VaV
Název: Centrum excelence pro kyberkriminalitu, kyberbezpečnost a ochranu kritických informačních infrastruktur