L LOSCHMIDT , LABORATORIES Predikce proteinové struktury ■!§< r? m ^T^^ I MINISTERSTVO SKOLSTvi opv«iai*.*hi '.^^^..y EVROPSKÁ UNIE ■ pru LionkurercoscIioiiiioBt l/4rVA«* INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ □ Důležitost proteinové struktury □ Predikce sekundární struktury □ Predikce proteinového foldu □ Predikce terciární struktury □ Predikce molekulárních komplexů □ Hodnocení predikčních metod redikce proteinové struktury http://multimedia.mcb.harvard.edu/ redikce proteinové struktury Důležitost proteinové struktury MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCA GLGRLIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVV HDWGSALGFDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRS QAGEELVLQD funkce Predikce proteinové struktury □ Predikce sekundární struktury □ Predikce proteinového foldu ■ Navlékání - angl. Threading □ Predikce terciární struktury ■ Homologní modelování - angl. Homology modelling ■ Ab initio predikce - angl. Ab initio prediction □ Predikce molekulárních komplexů ■ Molekulární dokování - angl. Molecular docking Predikce sekundární struktury □ Přiřazení jednoho konformačního stavu každému aminokyselinovému zbytku v proteinové sekvenci ■ oc-šroubovice (H, angl. helix) ■ (3-řetězec (E, angl. strand) ■ otočka (C, angl. coil) Predikce sekundární struktury □ Přiřazení jednoho konformačního stavu každému aminokyselinovému zbytku v proteinové sekvenci: ■ Přesnost >80% ■ Klasifikace proteinů ■ Identifikace proteinových domén a funkčních motivů ■ Zlepšení spolehlivosti sekvenčních přiložení ■ Příprava na predikci terciární struktury Predikce sekundární struktury Flavodoxin nnpredict PredictProtein SSPRED GOR Levin DPM SOPMA CNRS Consensus 10FV 1 10 20 30 40 50 60 AKI GLFYGTQTGVT QT I A E S I QQEFGGESI VDLNDI ANADASDLNAYDYLI I GCPTWNVG E E El Beta 1 Alpha 1 Beta 2 Alpha 2 |E • - - - HH - - HT - T E - 4E- - Beta 3 Flavodoxin nnpredict PredictProtein SSPRED GOR Levin DPM SOPMA CNRS Consensus 10FV 70 SO 90 100 ELQSOWEGI YDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDA HHHHHHHHHHH HHHH IH - - - H H H H H - HÜ Mi lUlilH HHTT-E - T - - -EE-TT-HHHTT- Alpha 3 Alpha 4 Beta 4 Alpha 5 110 120 SSLGSOTVGYW ..........H- - mims CTIKin- - - - - - E - - E - -----HHHHHH ijaaaaa TlTTTl- - - E E E E E - i..........H fn ... E E E . . ■ EE.....H H IuJIeE E E - - - E E E E E E - • E E E E • T- HHE I- - T E - TTT - HHlll!l!l!l!IT IIIJIllI T ■ ■ ■ • • EE- E ■ Ie t t f] 1 1 1 \i[ l!l?l!l!l!inE T - • EE- . - -EE.....H H [:i!l!l.'l!lfl l!l!lfIfl- ■ ■ - EE- Flavodoxin nnpredict PredictProtsin SSPRED GOR Levin DPM SOPMA CNRS Consensus 10FV 130 140 150 160 PI EGYDF NESKAVRNNQFVGLAI DEDNQPDLTKNRI K T WV SQL KSEFGL - E..............HH - • ...........EEE-EEEE ...............EEEEE EEE- - - HHHHHHHHHHHHHE TE- EEE- - HHHH- H- T- - EE..... ---T---TH-HHHH---EE-HHHHH ..........TTEETTEE- - ........H-HHHH-T-EE- Betas Alpha 6 Predikce proteinové struktury 8/39 961198 Predikce sekundární struktury □ PSI-PRED Kombinuje evoluční informaci s predikcí neuronovou sítí Pred: Pred: AÄ: > EHHHHKHHHHKHHHHKHHCCCCCCCCCCCCCCCEEEEEEE QQMNQKAVTSFLSVQDGIYNSDLTPKSDIKNPDVWYEFF 130 140 150 160 Legend: n i helix Conf: ],,]]][ confidence of prediction > - + strand Pred: predicted secondary structure = coil AA: target seguence redikce proteinové struktury Predikce sekundární struktury □ Quick2D Přiřazení sekundárních elementů: a-šroubovic, (3-řetězců, otoček, transmembránových šroubovic a neuspořádaných regionů Metody PSI-PRED, JNET, Prof, Coils, MEMSAT2, HMMTOP, ... 50 I I I I I I I I HSL GAKP F G-EKKFIEIKGRPMAYID EGTGDPILF QHGNP T S SYLtJRHIMPHCAGIi GPL IACD LIG-MG-D SDKLD P S GP E PY SS PSIPPED SS JNET SS Prof (Ouali) CC Coils TM HMMTOP TM MEMSAT-SUM TM PHOBIUS DO DISOPPEDZ DO IUPPED SO JHET DD B B EEEEE EEE EEEE EEEEEEEE EEEEEE EEEEEEE EEEEE EEEEEE EEEEE HHHHHHHHHHHHH HHHHHHHHHHH HHHHHHHHHHHH EEEEE EEEEE BBB B B BBBB B BBBEBBBBBBBB BB BB B BBBBBBBBBBBB BB redikce proteinové struktury Predikce sekundární struktury □ GeneSilico MetaServer Meta-server pro predikci struktury proteinů, včetně predikce sekundární elementů = konsensus SECONDARY STRUCTURE PREDICTION Secondary Structure sspro4 cdm psipred fdm jnet porter sable prof gor consensus 1........ 10........ 20........30........40........£0........60..... HTISADISLHHRAVLGSTHAYEETGE.SDAPHU'LFLHGNPTSSYITiJElJIHPLVAPVGHCIAPDLIG1 ---------EEEEE —EEEEEEEE-------EEEE------HHHH---HHHH-----EEEE----- ---------EEEEE —EEEEEEEE-----EEEEEE------HHHH---HHHH----EEEEE----- ------EEEEEEEE —EEEEEEE-------EEEEE------HHHHHHHHHHHH—-EEEEE----- -----HHEEEEEEE —EEEEEEEE-----EEEEEE------HHHH---HHHH----EEEEE----- -------EEEEEEE —EEEEEEEE------EEEEEE----HHHHHHHHHHHH----EEEEEE---- -EEEEEE---EEEEEE-------EEEEE----HHHHHHHHHHHHHH---EEEEE----- ---------EEEEEEE-------EEEEEE-----HHHHHHHHHHHHH—-EEEE----- ----------EEEEE--------EEEEE---------HHHHHHHHH— EEEEE----- --EEEEE —EEEEEEE-------EEEEE------HHHHHHHHHHH----EEEEE----- redikce proteinové struktury Predikce proteinového foldu □ Navlékání ■ Rozpoznávání proteinového foldu ■ Hledá strukturu, která nejlépe odpovídá proteinové sekvenci prohledáváním knihovny známých foldů a hodnocením skóre ■ Používá se pro struktury, pro které není k dispozici vhodný templát pro homologní modelování ■ Neposkytne výsledek, pokud správný fold není v knihovně o redikce proteinové struktury Predikce proteinového foldu □ Navlékání MSLGAKPFGE. modelovaná sekvence redikce proteinové struktury fold n redikce proteinové struktury Predikce proteinového foldu □ Navlékání MSLGAKPFGE. modelovaná sekvence fold 1 fold 2 fold n konstrukce modelu redikce proteinové struktury Predikce proteinového foldu □ Navlékání fold 1 MSLGAKPFGE. modelovaná sekvence fold 2 fold n konstrukce modelu výpočet energie redikce proteinové struktury Predikce proteinového foldu □ Navlékání fold 1 MSLGAKPFGE. modelovaná sekvence fold 2 fold n konstrukce modelu výpočet energie výpočet skóre a klasifikace redikce proteinové struktury Predikce proteinového foldu □ Navlékání ■ PHYRE ■ GenTHREADER phyre Protein Homology/analogY Recognition Engine Version 0.2 The Phyre webserver is for Academic use only E-mail Address Optional Job description Amino Acid Sequence Google groups Subscribe to Phyre Email: r Subscribe | Visitthis group Quick Phyre Search | redikce proteinové struktury Predikce terciární struktury □ Homologní modelování □ Ab initio predikce redikce proteinové struktury Predikce terciární struktury □ Homologní modelování ■ Vytváří atomistický model založený na experimentálně určené struktuře, která je sekvenčně blízce příbuzná ■ Vyžadovaná sekvenční identita >25% o Základní princip = struktura je konzervována déle než sekvence redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE... modelovaná sekvence redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná prohledání databáze sekvence , v., párovým priložením redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná sekvence prohledání databáze párovým přiložením identifikace templátu redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná sekvence prohledání databáze párovým přiložením identifikace templátu MSLGAKPFGE... MGV-AKTYGE... přiloženi sekvencí redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná sekvence prohledání databáze párovým přiložením identifikace templátu MSLGAKPFGE. MGV-AKTYGE. přiložení sekvencí extrakce páteře náhrada vedl. řetězců redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná sekvence prohledání databáze párovým přiložením identifikace templátu doplnění smyček MSLGAKPFGE. MGV-AKTYGE. přiložení sekvencí extrakce páteře náhrada vedl. řetězců redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná sekvence prohledání databáze párovým přiložením optimalizace modelu identifikace templátu doplnění smyček MSLGAKPFGE. MGV-AKTYGE. přiložení sekvencí extrakce páteře náhrada vedl. řetězců redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná sekvence Residue number hodnocení modelu prohledání databáze párovým přiložením optimalizace modelu identifikace templátu doplnění smyček MSLGAKPFGE. MGV-AKTYGE. přiložení sekvencí extrakce páteře náhrada vedl. řetězců redikce proteinové struktury Predikce terciární struktury □ Homologní modelování ■ Swiss-Model ■ Modeller BLŮZE N-rnuM SWISS-MODEL Workspace Modelling Tools [ myWorkspace ] SwissModel Automatic Modelling Mode 1 Repository Document [ loc Email: Project Title: Provide a protein sequence or a UniProt AC Cod 9 Submit Modelling Request) Advanced options: Use a specific template: Ö PDB-ID: ^ or _ Template til e:« I- Chain: fj Procházet... 3redikce proteinové struktury Predikce terciární struktury □ Ab initio predikce ■ Vytváří atomistický model založený na základních fyzikálních principech ■ Hledá geometrii struktury v globálním energetickém minimu o Umožňuje navrhovat struktury neexistující v přírodě ''Svatý Grál" bioinformatiky redikce proteinové struktury Predikce terciární struktury □ Ab initio predikce redikce proteinové struktury Predikce terciární struktury □ Ab initio predikce ■ Rosetta, Robetta Target 77 native Target 56 model 4 «w5 native model 4 Target 74 native Target 79 model 4 native redikce proteinové struktury Predikce terciární struktury □ Meta-servery ■ GeneSilico ■ 3D-Jury TERTIARY STRUCTURE PREDICTION 3dpssm server not updated ld07 ň lbn7 A lekl A2 ls8o A lcr6 A lehy A lb6g ljli A liuo A lbrt score 0,071 0.2 0,42 0,71 0,93 2 2.2 2.7 1........10........10........30........40........SO........60........ 70........80........90..... identity scop EC HTISÍlDISLHHEAULGSTHAYRETGRSDAPHVLFLHGUPTSSYIWEIIIHPLUAPVGHCIAPDLIGYGQSGKPDISYRFFDQADTLDALIDEL&IAS 42% c.69.1.8 3.8.1.5 -GAKPFGEKKFIEIKGRR1IAYIDEG—TGDPILFQHGNPTSSYLWB1IIMEHCAGLGRLIACDLIGMGDSDKPPEBYAYAEHRDYLDALWEALDLDE 49% c.69.1.8 3.8.1.5 IGT&FPFDPHWEVLGERHHYVDVGPI^GTPVLFLHGNPTSSYLWPJIIIPHUAPSHRCIAPDLIGHGKSDKPDLDYFFDDHVRYLDAFIEAL&LEE 21% c. 69.1.1 1 3.3.2.9 LPVPHDVSHGYVTVKGIRLHFVEMGS— GPALCLCHGFPES¥FSWRYQ.IPALAAGFRVLAIDMKGYGDSSSPPEEYAMELLCKEHVTELDKLGIPQ 23% c.69.1 3.3.2.9 HCHPSDMSHGYVTVKRVRLHFVELGS—GP AVC L CHGF P E SUYSWILYQ IP ALAAGYRVL AMDHKGYGE S SAP P EE YCHEVL CKEMVTF LDKL GL S Q 21% c.69.1 3.3.2.9 MPVPtfDVSHGYVTVKGIRLHFVEMGS—GPALCLCHGFPESWFSWEYQIPALAAGFRVLAIDraíGYGDSSSPPEEYAMELLCKEHVTFLDKLGIPQ 20% c.69.1.1 1 3.3.2.9 -AIP ED FKHYEVQ L PDVKIHYVREG—AGP T LL L LHGWP GFUTflEWSKVIGP LAEHYDVIVPDL RGFGD S EKPD SKYS LDKAADD QAAL LDAL GIEK 25% 3.8.1.5 HLDQYPFSP^LDYPGLPJLHYLDEGHSDAEVFLCLHGEPTMSYLYP^IPVFAEGARVIAPDFFGFGKSDKPEEDYTFEFHPJIFLLALIERLDLEH 20% c.69.1.10 3.7.1.8 -----AYVERFVUAGGVETEYLEAG—KGQPVILIHGGAESEGHMPUVIPILAPHYRVIAHDHLGFGKTAKPDIEYTQDPRIEHLHDFIKAHIIFDIÍ 20% c.69.1.10 3.7.1.9 ---IILEIG-KSILAAGVLTHYHDVG—EGQPVILIHGSPGSAYAMRLTIPALSKFYRVIAPDHVGFGFTDRPEYHYSKDSWDHIIGIHDALEIEK 19% 1.11.1.10-------P FITVQ EHS ID LYYEDHG—TGQPTOLIHGFPLSGHSWEEQSAALDAGYRVITYDERGFGQSSQFTTGYDYDTFAADLNTVLETLDLQD 1........10........20........30........40........£0........60........ 70........80........90..... identity scop EC HTISADISLHHRAVLGSTHAYRETGRSDAPHVLFLHGIIPTSSYIME1IIHPLVAPVGHCIAPDLIGYGQSGKPDISYRFFDQADYLDALIDELGIAS 50% c.69.1.8 3.8.1.5 -----PFDPHWEVLGEPJHYVI>VGPPJ>GTPV1FLHGHPTSSYL¥PJIIIPHVAPSHRCIAPD1IGHGKSDKPDLDYFFDI1HVEYLI>AFIEA1GLEE 22% c.69.1.1 1 3.8.1.3 —MFEGFERRLVDVGDVTINCWGG—SGPALLLLHGFPQHLHHKTAEVAPLLANEYTWCADLRGYGGSSKPHAHYSFEAHASDQRELHRTLGFEE 21% C.69.1.1 1 3.3.2.9 IRRP ED FKHYEVQ L PD VKIHYVREG—AGP T LL L LHGWP GFUTflEWSKVIGP LAEHYDVIVPDL RGFGD S EKPD SKYS LDKAADD QAAL LDAL GI EK 40% c.69.1.8 3.8.1.5 HTAF PYGQ PKYL EIAGKPJIAYIE1 EG—KGDAIVFQHGUPTSSYL¥EUIHFHLEGLGRLVACDLIGHGASDKLSDEYSYGEQPJ>FLFALIiJDALDLDH 43% c.69.1.8 3.8.1.5 L GAKP F GEKKFIEIKGRRHAYID E G—TGDPILFQHGHPTSSYLWP1IIHPHCAGLGRLIACDLIGHGDSDKLDERYAYAEHRDYLDAL¥EALDLDE 17% c.69.1.1 2 3.1.1.2 ---------TFVAKDGTQIYFKDWG—SGKPVLFSHGWLLDADIWEYQMEYLSSGYRTIAFDRRGFGRSDQPUTGHDYDTFADDIAQLIEHLDLKE 18% c.69.1.10 3.7.1.8 ----EAYVE RFVNAGGVE T EYL EAG—KGQPVILIHGGGASEGOTEUVIFILAEHYRVIAHDHLGFGKTAKFDIEYTQDERIEHLHDFIKAHIIFDK 16% c.69.1.12 3.1.1.1 —WPVRCKSFYISTREGQTHVIASGPEDAPPLVLLHGALFSSTmrYPHIADraSSKYRIYAVDIIGDKHKSIPEIISGTRTDYAHWLLDVFDHLGIEK 21% c.69.1.10 3.7.1.8 -TFESTSE.FAEVDVDGLKLHYHEAGVGNDQTWLLHGGGPGAASWTNFIAVLAEHFHVLAVDQPGYGHSDKPAEHQFNRYAAHALKGLFDQLGLGE 17% c.69.1.1 2 1.11.1.10--------TTFTTRDGTQIYYKDWG—SGQPIVFSHGWPLHADSMESQHIFLAQGYRVIAHDERGHGESSQPraSGHDHDTYADDLAQLIEHLDLPJ) TERTIARV STRUCTURE PREDICTION phyre lbn7 A ly37 B lehy A 2o2h A lmjS A 1 va4 A ljli A 21-11 A 2vf2 A la8s A score 1.8e-43 5.8e-41 2.7e-40 4.2e-40 8.8e-40 2.6e-39 4.16-39 4.7e-39 5.4e-39 5.6e-39 3redikce proteinové struktury Predikce molekulárních komplex □ Molekulární dokování Umísťování malých organických molekul - ligandů - do vazebných domén receptoru, aktivních center enzymů nebo žlábků DNA ■ Náhodně generované orientace a konformace ligandu v blízkosti biomolekuly jsou hodnoceny energetickým skóre ■ Energetické skóre = interakční energie = van der Waalsova energie + elektrostatická energie + energie vodíkových vazeb + entropie o Predikce molekulárních komplex □ Molekulární dokování ■ DOCK ■ AUTODOCK Hodnocení predikčních metod □ CASP Critical Assessment of Techniques for Protein Structure Prediction ■ Mezinárodní soutěž spolehlivosti predikčních metod = umožňuje kritické a objektivní hodnocení ■ K hodnocení jsou využívány slepé predikce = soutěžící obdrží proteinové sekvence se známou, avšak dosud nepublikovanou strukturou - organizátoři porovnají predikované a experimentální struktury Hodnocení predikčních metod □ CASP ■ Predikce terciární struktury ■ Predikce molekulárních komplexů ■ Predikce kontaktů mezi zbytky ■ Predikce neuspořádaných regionů ■ Predikce domén ■ Predikce funkce proteinů ■ Hodnocení kvality modelů ■ Upřesnění modelů Predikce proteinové struktury 37/39 Hodnocení predikčních metod □ CASP # # ^ GR Name Domains Count Cumulative T Z-score (GDT_TS) 1. 426 i Zhang-Server 164 129.070 2. 433 i RAPTOR 164 103.274 3. 425 i BAKER-ROB ETTA 164 101.546 4. 409 i pro-sp3-TASSER 164 99.062 5. 132 i METATASSER 164 96.045 6. 322 i Phyre_de_noYO 164 91.397 7. 012 i HHpredS 164 39.393 S. 020 i MULTICOM-CLUSTER 164 37.470 9. 122 i HHpred4 164 36.429 10. 256 i SAM-T03-server 164 34.731 11. 013 i M U LTICOM-REFIHE 164 33.332 12. 443 i MUProt 164 31.140 13. 279 i GS-KudlatyPred 161 73.994 14. 154 i HHpred2 164 77.955 redikce proteinové struktury □ Claverie, J-M., & Notredame, C. (2006). Bioinformatics For Dummies (2nd ed.). Wiley Publishing, Hoboken, p. 436. □ Xiong, J. (2006). Essential Bioinformatics. Cambridge University Press, New York, p. 352. □ PSI-PRED: http://bioinf.cs.ucl.ac.uk/psipred/psiform.html □ Quick2D (MPI Toolkit): http://toolkit.tuebingen.mpg.de/quick2 d □ Modeller: http://salilab.org/modeller/ □ Modeller (GeneSilico): https://genesilico.pl/toolkit/unimod?method=Modeller □ Swiss-Model: http://swissmodel.expasv.org/ □ GenTHREADER: http://bioinf.cs.ucl.ac.uk/psipred/psiform.html □ PHYRE: http://www.sbg.bio.ic.ac.uk/~phyre/index.cgi □ GeneSilico MetaServer: https://www.genesilico.pl/meta2/ □ 3D-Jury: http://meta.bioinfo.pl/submit wizard.pl □ Rosetta@home: http://boinc.bakerlab.org/rosetta/ □ CASP: http://predictioncenter.org/index.cgi 39/39