Výpočetní návrh stabilních proteinů Miloš Musil http://loschmidt.chemi.muni.cz/ Loschmidtovy laboratoře 2/47 Prof. Jiří Damborský Z. Prokop D. Bednář M. Marek S. Mazurenko 1994 Co děláme...?  Experimentální tým  Charakterizace proteinů  Řešení struktur  Mikrofluidika  Teoretický tým  Molekulární dynamiky  Bioinformatika  Strojové učení 3/47 Naše nástroje 4/47 Proteiny 5/47 Léčiva Biosenzory Zemědělství Biodegradace Stabilní proteiny  Stabilní proteiny jsou odolnější  Odolnost proti mutacím  Důležité během evoluce 6/47 Teplota Nepříznivé pH Rozpouštědla Životnost Stabilita proteinů  Silně spojena se strukturou proteinů  Náhodné skládání není možné  Struktura proteinu závisí pouze na sekvenci  Způsobeno interakcemi mezi aminokyselinami  Fyzikálně-chemické interakce  Kovalentní vazby  Nekovalentní interakce 7/47 Molekulární interakce  Kovalentní interakce  Sdílení elektronu  Spojeno s primární strukturou  Nekovaltentní interakce  Elektrostatické interakce  Polární interakce  Nepolární interakce  Spojeno se sekundární a terciální strukturou 8/47 Nekovalentní interakce  Interakce mezi náboji  Polární interakce  Vodíkové můstky  Aromatické interakce  Nepolární interakce  Van der Waalsovy interakce  Hydrofobicita 9/47 Stabilita proteinů  Obecně vzato reprezentováno změnou Gibbsovy volné energie při skládání (ΔG) 10/47 Návrh stabilních mutantů  Měřeno v ΔΔG nebo ΔTm ΔΔ𝐺 = ∆𝐺 𝑚𝑢𝑡𝑎𝑛𝑡 − ∆𝐺 𝑤𝑡  Záporné ΔΔG značí vyšší stabilitu  Jednobodové x vícebodové mutace  Efekt na stabilitu  Synergické, aditivní, antagonické efekty 11/47 Návrh stabilních mutantů  Saturační mutageneze není možná  Průměrný protein o 300 aminokyselinách dává téměř 6000 jednobodových mutací  Nespočet potenciálních kombinací  Nutnost výpočetních nástrojů  Solidní přesnost (~ 70-75 %)  Použitelné pro prioritizaci 12/47 Výpočetní metody 13/47 Strojové učení Silová pole Evoluce Hybridní metody Strojové učení  Nejběžnější přístup  Založeno na statistice a počítačových vědách  Rozpoznání vzorů nad trénovacími daty  S učením x bez učitele  Klasifikace  Shlukování  Rozpoznání vzorů 14/47 Strojové učení 15/47 Silová pole  Výpočet volné energie  Založeno na (zjednodušených) zákonech fyziky  Zvažuje různé fyzikální a biochemické parametry  Fyzické x statistické potenciály  Přesnost vs výpočetní nároky  Statistické jsou založené na datech  (Empirické potenciály) 16/47 Force-fields 17/47 Evoluce  Návrhy založené na evoluci  Využívá vícenásobné zarovnání sekvencí  Analýza konzervovaných regionů  Dva hlavní přístupy  Ancestrální rekonstrukce  Back-to-consensus 18/47 Evoluce 19/47 Hybridní metody  Kombinace několika přístupů  Evoluce použita jako filtr pro silová pole  Použitelné pro návrh vícebodových mutantů  Pouze hrstka dostupných nástrojů:  FireProt  PROSS  FRESCO 20/47 Hybridní metody 21/47 Výpočetní nástroje 22/47 23/47 FireProt  Plně automatizovaný návrh stabilních proteinů  Dva hlavní přístupy  Energetický (silová pole)  Evoluční (BTC a ASR)  Filtrování na základě sekvence  Nástroj poskytuje několik vícebodových mutantů  Uživatelské rozhraní 24/47 Schéma 25/47 Schéma 26/47 Výsledky  Významná stabilizace DhaA, LinB a FGF2  Další v literatuře 27/47 Uživatelské rozhraní 28/47 Uživatelské rozhraní 29/47 Uživatelské rozhraní 30/47 31/47 Ancestrální rekonstrukce  Ancestrální proteiny -> stabilnější  Náročné podmínky na Zemi  Náhodné mutace během evoluce  Bias způsobený konsenzem  Několik kroků výpočtu  Vyhledání homologních sekvencí  MSA a konstrukce stromu  Ancestrální rekonstrukce a mezery  Vyžaduje expertní znalosti 32/47 FireProt-ASR  Plně automatizovaná metoda pro ASR  Výběr počátečního setu homologů  Redukce datasetu  MSA a konstrukce stromu  Zakořenění a ancestrální rekonstrukce  Doplněno interaktivním uživatelským rozhraním  Vizualizace struktury  Návrh nových ancestrálů 33/47 Schéma  Hledání homologních sekvencí  Redukce výchozích dat  Konstrukce MSA a stromu  Zakořenění použitím MAD  Ancestrální rekonstruce s ML  Rekonstrukce mezer 34/47 Výsledky 35/47 Results  Zlepšení stability o 20 – 26 °C  Zachování výtěžků a aktivity 36/47 Protein code Expression (%) Solubility (%) Yield (mg/l) Tm (°C) HLD act. (μmol/mg·s) LUC act. (RLU/mg·s) DhaA wt 17 83.1 91.1 50.56 ± 2.4 0.032 ± 0.006 n.a. DhaA 172Loc 23 85.5 74.9 71.60 ± 0.7 0.038 ± 0.001 1.41 ± 0.26 DhaA 172Glob 21 65.2 88.2 70.04 ± 1.5 0.061 ± 0.005 n.a. DhaA 230Loc 20 n.d. n.d. n.d. n.d. n.d. DhaA 230Glob 23 84.8 108.5 72.14 ± 0.4 0.061 ± 0.012 n.a. DhaA 238Loc 23 63.2 74.9 70.36 ± 0.6 0.014 ± 0.002 353.5 ± 14.58 DhaA 238Glob 19 83.3 94.4 76.19 ± 0.2 0.030 ± 0.002 3.18 ± 0.33 Uživatelské rozhraní 37/47 Uživatelské rozhraní 38/47 Uživatelské rozhraní 39/47 40/47 FireProt-DB  Databáze pro uchování stabilitních dat  Přes 15,000 experimentů  242 proteinů  Sekvenční a strukturní predikce  Interaktivní uživatelské rozhraní  Pokročilé vyhledávání, statistiky, vizualizace, ... 41/47 Uživatelské rozhraní 42/47 43/47 HotSpot Wizard  Identifikace reziduí pro mutagenezi  Čtyři strategie proteinového inženýrství  Funkcionální hotspoty  Analýza flexibility  Back-to-consensus  Analýza korelovaných pozic  Predikce vlivu mutací na funkci proteinu 44/47 Uživatelské rozhraní 45/47 Závěry  Nutnost zlepšení stability proteinů  Nákladné a zdlouhavé laboratorní experimenty  FireProt: návrh stabilních mutantů  FireProt-ASR: ancestrální rekonstrukce  FireProt-DB: uchování stabilitních dat  HotSpot Wizard: identifikace hotspotů 46/47 Poděkování 47/47