J 2026

AlphaFind v2: similarity search in AlphaFold DB and TED domains across structural contexts

SLANINÁKOVÁ, Terézia; Adrián ROŠINEC; Jakub ČILLÍK; Aleš KŘENEK; Katarína GREŠOVÁ et al.

Základní údaje

Originální název

AlphaFind v2: similarity search in AlphaFold DB and TED domains across structural contexts

Vydání

NUCLEIC ACIDS RESEARCH, Oxford University Press, 2026, 0305-1048

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Stát vydavatele

Velká Británie a Severní Irsko

Utajení

není předmětem státního či obchodního tajemství

Impakt faktor

Impact factor: 13.100 v roce 2024

Označené pro přenos do RIV

Ne

Organizační jednotka

Ústav výpočetní techniky

Klíčová slova anglicky

Protein structure similarity; protein structure search; AlphaFold DB; TED: The Encyclopedia of Domains; vector embeddings; AlphaFind; similarity search

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 27. 5. 2026 12:45, RNDr. Terézia Slanináková, Ph.D.

Anotace

V originále

The availability of large-scale protein structure collections enables structure-based analysis of their function and evolution beyond what is possible from sequence alone. However, applying three-dimensional structure comparison at scale remains computationally demanding and limits practical exploration of large experimental and predicted collections. This creates a need for fast, structure-based search methods that retain biological relevance while enabling large-scale exploration. In this paper, we present AlphaFind v2, an application for finding structurally similar proteins in the AlphaFold Database (https://alphafold.ebi.ac.uk/) of predicted structures. AlphaFind v2 uses fast pre-filtering via state-of-the-art protein embeddings that preserve structural information, followed by refinement with US-align. The application presents multiple complementary search modes, including (i) search over full protein chains, (ii) search aware of the AlphaFold pLDDT metric, restricting similarity computation to the most stable and structurally relevant regions, (iii) search over protein domains from the TED database (https://ted.cathdb.info/), and (iv) a multidomain search mode, combining multiple chain-level domain matches within a single score and alignment. The application accepts protein identifiers and returns similar proteins with metrics, rich metadata, and interactive superpositions. AlphaFind v2 additionally allows searching within an organism or CATH label and matches the proteins with experimental structures. AlphaFind v2 is accessible at https://alphafind.ics.muni.cz/.

Návaznosti

GF23-07040K, projekt VaV
Název: Naučené indexy pro podobností hledání
Investor: Grantová agentura ČR, Naučené indexy pro podobností hledání, Lead agentura
GM22-30571M, projekt VaV
Název: Cell*: webová platforma pro vizualizaci, modelování a dynamiku organelových a buněčných struktur (Akronym: Cell*)
Investor: Grantová agentura ČR, Cell*: a web platform for visualization, modelling and dynamics of organelle- and cell-sized structures
LM2023054, projekt VaV
Název: e-Infrastruktura CZ
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, e-Infrastruktura CZ
LM2023055, projekt VaV
Název: Česká národní infrastruktura pro biologická data
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, ELIXIR-CZ: Česká národní infrastruktura pro biologická data
752/2024, interní kód MU
Název: Nástroj na automatickou anotaci a prohledávání velkých sad proteinů na základě podobnosti jejich struktur
Investor: CESNET, Nástroj na automatickou anotaci a prohledávání velkých sad proteinů na základě podobnosti jejich struktur
776/2025, interní kód MU
Název: Nástroj pro pokročilé sémantické prohledávání v datech molekulové dynamiky
Investor: CESNET, Nástroj pro pokročilé sémantické prohledávání v datech molekulové dynamiky