MÍČ, Vladimír, Tomáš RAČEK, Aleš KŘENEK a Pavel ZEZULA. Similarity Search for an Extreme Application: Experience and Implementation. In Nora Reyes, Richard Connor, Nils Kriege, Daniyal Kazempour, Ilaria Bartolini, Erich Schubert, Jian-Jia Chen. Similarity Search and Applications: 14th International Conference, SISAP 2021, Dortmund, Germany, September 29 - October 1, 2021, Proceedings. Cham: Springer. s. 265-279. ISBN 978-3-030-89656-0. doi:10.1007/978-3-030-89657-7_20. 2021.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Similarity Search for an Extreme Application: Experience and Implementation
Autoři MÍČ, Vladimír (203 Česká republika, domácí), Tomáš RAČEK (203 Česká republika, domácí), Aleš KŘENEK (203 Česká republika, domácí) a Pavel ZEZULA (203 Česká republika, garant, domácí).
Vydání Cham, Similarity Search and Applications: 14th International Conference, SISAP 2021, Dortmund, Germany, September 29 - October 1, 2021, Proceedings, od s. 265-279, 15 s. 2021.
Nakladatel Springer
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Švýcarsko
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW URL
Impakt faktor Impact factor: 0.402 v roce 2005
Kód RIV RIV/00216224:14330/21:00122667
Organizační jednotka Fakulta informatiky
ISBN 978-3-030-89656-0
ISSN 0302-9743
Doi http://dx.doi.org/10.1007/978-3-030-89657-7_20
UT WoS 000722252200020
Klíčová slova anglicky Similarity search in metric space;Efficiency;Distance distribution;Dimensionality curse;Extreme distance function
Štítky DISA, firank_B
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Vladimír Míč, Ph.D., učo 359890. Změněno: 23. 11. 2021 14:16.
Anotace
Contemporary challenges for efficient similarity search include complex similarity functions, the curse of dimensionality, and large sizes of descriptive features of data objects. This article reports our experience with a database of protein chains which form (almost) metric space and demonstrate the following extreme properties. Evaluation of the pairwise similarity of protein chains can take even tens of minutes, and has a variance of six orders of magnitude. The minimisation of a number of similarity comparisons is thus crucial, so we propose a generic three stage search engine to solve it. We improve the median searching time 73 times in comparison with the search engine currently employed for the protein database in practice.
Návaznosti
EF16_019/0000822, projekt VaVNázev: Centrum excelence pro kyberkriminalitu, kyberbezpečnost a ochranu kritických informačních infrastruktur
VytisknoutZobrazeno: 19. 4. 2024 03:36