PPT-podklad-modra Analýza proteinových sekvencí PPT-podklad-modra LL_logo_neg_RGB PPT-podklad-modra qPredikce fyzikálně-chemických vlastností qPredikce membránových regionů qPredikce motivů a domén qDatabáze motivů a domén qProhledávání databází motivů a domén q § Osnova 2/42 Analýza proteinových sekvencí PPT-podklad-modra qExPASy (Expert Protein Analysis System) Predikce fyzikálně-chemických vlastností 3/42 Analýza proteinových sekvencí PPT-podklad-modra qExPASy (Expert Protein Analysis System) §Molekulová hmotnost §Izoelektrický bod §Extinkční koeficient §Postranslační modifikace §Místa proteasové digesce §Poločas rozkladu §Nestabilita § Predikce fyzikálně-chemických vlastností 4/42 Analýza proteinových sekvencí PPT-podklad-modra qExPASy (Expert Protein Analysis System) Predikce fyzikálně-chemických vlastností 5/42 Analýza proteinových sekvencí PPT-podklad-modra qHydrofóbní segmenty v membránových proteinech Predikce membránových regionů 6/42 Analýza proteinových sekvencí PPT-podklad-modra qProtScale §Predikce hydrofobicitního profilu ze sekvence q § Predikce membránových regionů 7/42 Analýza proteinových sekvencí PPT-podklad-modra qTMHMM §Predikce pravděpodobnostní metodou Skrytých Markovových Modelů Predikce membránových regionů 8/42 Analýza proteinových sekvencí PPT-podklad-modra qTOPCONS §Konsenzuální predikce topologie membránových proteinů § Predikce membránových regionů 9/42 Analýza proteinových sekvencí PPT-podklad-modra qKonzervované vzorce sekvencí jsou spojené s konkrétní proteinovou rodinou, biologickými vlastnostmi nebo funkcí Predikce motivů a domén 10/42 Analýza proteinových sekvencí PPT-podklad-modra qKonzervované vzorce sekvencí jsou spojené s konkrétní proteinovou rodinou, biologickými vlastnostmi nebo funkcí §Klasifikace proteinových sekvencí §Identifikace strukturních a evolučních vztahů §Funkční anotace nových proteinů §Identifikace vazebných míst pro ligandy §Predikce postranslačních modifikací §Predikce sub-celulární lokalizace Predikce motivů a domén 11/42 Analýza proteinových sekvencí PPT-podklad-modra Predikce motivů a domén C:\Dokumenty\VYUKA\Bioinformatics\SCAN\2_14_kanehisha.bmp 12/42 Analýza proteinových sekvencí PPT-podklad-modra qKonzervované vzorce sekvencí jsou spojené s konkrétní proteinovou rodinou, biologickými vlastnostmi nebo funkcí qMotivy §Zpravidla krátké – 10-20 aminokyselinových zbytků CGDAEEGDACCDGA § Predikce motivů a domén 13/42 Analýza proteinových sekvencí PPT-podklad-modra qKonzervované vzorce sekvencí jsou spojené s konkrétní proteinovou rodinou, biologickými vlastnostmi nebo funkcí qMotivy qDomény §Delší než motivy – 40-700 aminokyselinových zbytků §Nezávislé strukturní a funkční jednotky § 1cqz_cterm_e Predikce motivů a domén 14/42 Analýza proteinových sekvencí PPT-podklad-modra qVytvářeny z multinásobného přiložení příbuzných sekvencí qUloženy v databázích ve formě konsenzuální sekvence § Predikce motivů a domén 15/42 Analýza proteinových sekvencí PPT-podklad-modra qVytvářeny z multinásobného přiložení příbuzných sekvencí qUloženy v databázích ve formě konsenzuální sekvence § Predikce motivů a domén C:\Dokumenty\VYUKA\Bioinformatics\SCAN\3_5_box _attwood.bmp 16/42 Analýza proteinových sekvencí PPT-podklad-modra qVytvářeny z multinásobného přiložení příbuzných sekvencí qUloženy v databázích ve formě konsenzuální sekvence § Predikce motivů a domén C:\Dokumenty\VYUKA\Bioinformatics\SCAN\7_2_attwood.bmp 17/42 Analýza proteinových sekvencí PPT-podklad-modra qVytvářeny z multinásobného přiložení příbuzných sekvencí qUloženy v databázích ve formě konsenzuální sekvence §Regulární výrazy § Predikce motivů a domén 18/42 Analýza proteinových sekvencí PPT-podklad-modra qVytvářeny z multinásobného přiložení příbuzných sekvencí qUloženy v databázích ve formě konsenzuální sekvence §Regulární výrazy E-X(2)-[FHM]-X(4)-{P}-L § Predikce motivů a domén 19/42 Analýza proteinových sekvencí PPT-podklad-modra qVytvářeny z multinásobného přiložení příbuzných sekvencí qUloženy v databázích ve formě konsenzuální sekvence §Regulární výrazy E-X(2)-[FHM]-X(4)-{P}-L zbytek E je následován 2 libovolnými zbytky Predikce motivů a domén 20/42 Analýza proteinových sekvencí PPT-podklad-modra qVytvářeny z multinásobného přiložení příbuzných sekvencí qUloženy v databázích ve formě konsenzuální sekvence §Regulární výrazy E-X(2)-[FHM]-X(4)-{P}-L zbytek E je následován 2 libovolnými zbytky následovanými F nebo H nebo M zbytky Predikce motivů a domén 21/42 Analýza proteinových sekvencí PPT-podklad-modra qVytvářeny z multinásobného přiložení příbuzných sekvencí qUloženy v databázích ve formě konsenzuální sekvence §Regulární výrazy E-X(2)-[FHM]-X(4)-{P}-L zbytek E je následován 2 libovolnými zbytky následovanými F nebo H nebo M zbytky následovanými 4 libovolnými zbytky § Predikce motivů a domén 22/42 Analýza proteinových sekvencí PPT-podklad-modra qVytvářeny z multinásobného přiložení příbuzných sekvencí qUloženy v databázích ve formě konsenzuální sekvence §Regulární výrazy E-X(2)-[FHM]-X(4)-{P}-L zbytek E je následován 2 libovolnými zbytky následovanými F nebo H nebo M zbytky následovanými 4 libovolnými zbytky následovanými jakýmkoliv zbytkem kromě P § Predikce motivů a domén 23/42 Analýza proteinových sekvencí PPT-podklad-modra qVytvářeny z multinásobného přiložení příbuzných sekvencí qUloženy v databázích ve formě konsenzuální sekvence §Regulární výrazy E-X(2)-[FHM]-X(4)-{P}-L zbytek E je následován 2 libovolnými zbytky následovanými F nebo H nebo M zbytky následovanými 4 libovolnými zbytky následovanými jakýmkoliv zbytkem kromě P následovaným zbytkem L § Predikce motivů a domén 24/42 Analýza proteinových sekvencí PPT-podklad-modra qVytvářeny z multinásobného přiložení příbuzných sekvencí qUloženy v databázích ve formě konsenzuální sekvence §Regulární výrazy Počet přesných hitů D-A-V-I-D 71 D-A-V-I-[DENQ] 252 [DENQ]-A-V-I-[DENQ] 925 [DENQ]-A-[VLI]-I-[DENQ] 2739 [DENQ]-[AQ]-[VLI]2-[DENQ] 51506 Predikce motivů a domén 25/42 Analýza proteinových sekvencí PPT-podklad-modra qVytvářeny z multinásobného přiložení příbuzných sekvencí qUloženy v databázích ve formě konsenzuální sekvence §Regulární výrazy §Statistické modely (profily, bloky, Skryté Markovovy Modely) § Predikce motivů a domén 26/42 Analýza proteinových sekvencí Profiles define which residues are allowed at given positions, which positions are highly conserved and which degenerate, which positions can tolerate insertions. PPT-podklad-modra qManuální §Informativní díky kvalitním anotacím §Nízký počet položek qAutomatické §Méně informativní §Vysoký počet položek § Databáze motivů a domén 27/42 Analýza proteinových sekvencí PPT-podklad-modra Databáze motivů a domén 28/42 Analýza proteinových sekvencí PPT-podklad-modra qPROSITE §Motivy navrženy manuálně kvalifikovanými odborníky §Motivy často krátké pro zvýšení specifiy §Shody nutno interpretovat opatrně! q § Databáze motivů a domén 29/42 Analýza proteinových sekvencí PPT-podklad-modra qPROSITE §Hity versus hity s vysokým výskytem §Rozpoznání hitů = délka vzorce, informace o organismu, identifikace podobných vzorců, konzervovanost vzorce v přiložení q § Databáze motivů a domén 30/42 Analýza proteinových sekvencí PPT-podklad-modra Databáze motivů a domén 31/42 Analýza proteinových sekvencí qBLOCKs §Bloky = segmenty multinásobného přiložení bez mezer korespondující s nejkonzervovanějšími regiony v proteinech q § PPT-podklad-modra qBLOCKs §Bloky = segmenty multinásobného přiložení bez mezer korespondující s nejkonzervovanějšími regiony v proteinech q § Databáze motivů a domén 32/42 Analýza proteinových sekvencí PPT-podklad-modra qPfam §Přiložení domén vytvořené ze sekvencí databáze UniProtKB §Každá doména je reprezentována profilem Skrytých Markovových Modelů vytvořeným z mnohonásobného přiložení §Obsahuje dvě části: Pfam-A z manuálního přiložení a Pfam-B z automatického přiložení Databáze motivů a domén 33/42 Analýza proteinových sekvencí PPT-podklad-modra qPfam Databáze motivů a domén 34/42 Analýza proteinových sekvencí PPT-podklad-modra qProDom §Databáze proteinových domén automaticky vytvořenými ze sekvencí databáze UniProtKB §Navržena jako vyčerpávájicí sbírka domén i bez znalosti funkce § Databáze motivů a domén 35/42 Analýza proteinových sekvencí PPT-podklad-modra qInterPro §Řeší problém redundance jednotlivých databází §Zahrnuje téměř všechny dostupné sekundární databáze: PROSITE, Pfam, PRINTS, ProDom, SMART,… q § Databáze motivů a domén 36/42 Analýza proteinových sekvencí PPT-podklad-modra qSimultánní prohledání několika databází §InterProScan §CD Server §Motif-Scan § Prohledávání databází motivů a domén 37/42 Analýza proteinových sekvencí PPT-podklad-modra qSimultánní prohledání několika databází §InterProScan §CD Server §Motif-Scan § qVysoké skóre a vysoká shoda = spolehlivá interpretace §Závěry téměř vždy správné qNízké skóre nebo částečná shoda = problematická interpretace §Závěry vyžadují další podpůrná data § § Prohledávání databází motivů a domén 38/42 Analýza proteinových sekvencí PPT-podklad-modra qInterProScan §Srovnání prohledávané sekvence s InterPro databází §Hity a jejich umístění na sekvenci jsou vypsány přehledně Prohledávání databází motivů a domén C:\Dokumenty\VYUKA\Bioinformatics\SCAN\intepro.jpg 39/42 Analýza proteinových sekvencí PPT-podklad-modra qCD Server §Hity jsou vypsány s E-hodnotou §Prohledává menší počet databází než InterProScan § Prohledávání databází motivů a domén 40/42 Analýza proteinových sekvencí PPT-podklad-modra qMotif-Scan §Hity jsou vypsány s E-hodnotou a normalizovaným skóre §Relevantní hity jsou označeny “!” § § § Prohledávání databází motivů a domén 41/42 Analýza proteinových sekvencí PPT-podklad-modra Reference 42/42 Analýza proteinových sekvencí qClaverie, J-M., & Notredame, C. (2006). Bioinformatics for Dummies (2nd ed.). Wiley Publishing, Hoboken, p. 436. qXiong, J. (2006). Essential Bioinformatics, Cambridge University Press, New York, p. 352. q qExPASy: http://www.expasy.ch/ qProtScale: http://www.expasy.org/cgi-bin/protscale.pl qTMHMM: http://www.cbs.dtu.dk/services/TMHMM-2.0/ qTOPCONS: http://topcons.net/ qPROSITE: http://www.expasy.org/prosite/ qBLOCKs: http://blocks.fhcrc.org qPfam: http://pfam.sanger.ac.uk/ qProDom: http://prodom.prabi.fr/prodom/current/html/home.php qInterPro: http://www.ebi.ac.uk/interpro/ qInterProScan: http://www.ebi.ac.uk/Tools/InterProScan/ qCD Search: http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi qMotif-Scan: http://myhits.isb-sib.ch/cgi-bin/motif_scan q q q q q q q q q q q q q q q q q q q