Analýza proteinových sekvencí  Predikce fyzikálně-chemických vlastností  Predikce membránových regionů  Predikce motivů a domén  Databáze motivů a domén  Prohledávání databází motivů a domén Osnova 2/42Analýza proteinových sekvencí  ExPASy (Expert Protein Analysis System) Predikce fyzikálně-chemických vlastností 3/42Analýza proteinových sekvencí  ExPASy (Expert Protein Analysis System)  Molekulová hmotnost  Izoelektrický bod  Extinkční koeficient  Postranslační modifikace  Místa proteasové digesce  Poločas rozkladu  Nestabilita Predikce fyzikálně-chemických vlastností 4/42Analýza proteinových sekvencí  ExPASy (Expert Protein Analysis System) Predikce fyzikálně-chemických vlastností 5/42Analýza proteinových sekvencí  Hydrofóbní segmenty v membránových proteinech Predikce membránových regionů 6/42Analýza proteinových sekvencí  ProtScale  Predikce hydrofobicitního profilu ze sekvence Predikce membránových regionů 7/42Analýza proteinových sekvencí  TMHMM  Predikce pravděpodobnostní metodou Skrytých Markovových Modelů Predikce membránových regionů 8/42Analýza proteinových sekvencí  TOPCONS  Konsenzuální predikce topologie membránových proteinů Predikce membránových regionů 9/42Analýza proteinových sekvencí  Konzervované vzorce sekvencí jsou spojené s konkrétní proteinovou rodinou, biologickými vlastnostmi nebo funkcí Predikce motivů a domén 10/42Analýza proteinových sekvencí  Konzervované vzorce sekvencí jsou spojené s konkrétní proteinovou rodinou, biologickými vlastnostmi nebo funkcí  Klasifikace proteinových sekvencí  Identifikace strukturních a evolučních vztahů  Funkční anotace nových proteinů  Identifikace vazebných míst pro ligandy  Predikce postranslačních modifikací  Predikce sub-celulární lokalizace Predikce motivů a domén 11/42Analýza proteinových sekvencí Predikce motivů a domén 12/42Analýza proteinových sekvencí  Konzervované vzorce sekvencí jsou spojené s konkrétní proteinovou rodinou, biologickými vlastnostmi nebo funkcí  Motivy  Zpravidla krátké – 10-20 aminokyselinových zbytků CGDAEEGDACCDGA Predikce motivů a domén 13/42Analýza proteinových sekvencí  Konzervované vzorce sekvencí jsou spojené s konkrétní proteinovou rodinou, biologickými vlastnostmi nebo funkcí  Motivy  Domény  Delší než motivy – 40-700 aminokyselinových zbytků  Nezávislé strukturní a funkční jednotky Predikce motivů a domén 14/42Analýza proteinových sekvencí  Vytvářeny z multinásobného přiložení příbuzných sekvencí  Uloženy v databázích ve formě konsenzuální sekvence Predikce motivů a domén 15/42Analýza proteinových sekvencí  Vytvářeny z multinásobného přiložení příbuzných sekvencí  Uloženy v databázích ve formě konsenzuální sekvence Predikce motivů a domén 16/42Analýza proteinových sekvencí  Vytvářeny z multinásobného přiložení příbuzných sekvencí  Uloženy v databázích ve formě konsenzuální sekvence Predikce motivů a domén 17/42Analýza proteinových sekvencí  Vytvářeny z multinásobného přiložení příbuzných sekvencí  Uloženy v databázích ve formě konsenzuální sekvence  Regulární výrazy Predikce motivů a domén 18/42Analýza proteinových sekvencí  Vytvářeny z multinásobného přiložení příbuzných sekvencí  Uloženy v databázích ve formě konsenzuální sekvence  Regulární výrazy E-X(2)-[FHM]-X(4)-{P}-L Predikce motivů a domén 19/42Analýza proteinových sekvencí  Vytvářeny z multinásobného přiložení příbuzných sekvencí  Uloženy v databázích ve formě konsenzuální sekvence  Regulární výrazy E-X(2)-[FHM]-X(4)-{P}-L zbytek E je následován 2 libovolnými zbytky Predikce motivů a domén 20/42Analýza proteinových sekvencí  Vytvářeny z multinásobného přiložení příbuzných sekvencí  Uloženy v databázích ve formě konsenzuální sekvence  Regulární výrazy E-X(2)-[FHM]-X(4)-{P}-L zbytek E je následován 2 libovolnými zbytky následovanými F nebo H nebo M zbytky Predikce motivů a domén 21/42Analýza proteinových sekvencí  Vytvářeny z multinásobného přiložení příbuzných sekvencí  Uloženy v databázích ve formě konsenzuální sekvence  Regulární výrazy E-X(2)-[FHM]-X(4)-{P}-L zbytek E je následován 2 libovolnými zbytky následovanými F nebo H nebo M zbytky následovanými 4 libovolnými zbytky Predikce motivů a domén 22/42Analýza proteinových sekvencí  Vytvářeny z multinásobného přiložení příbuzných sekvencí  Uloženy v databázích ve formě konsenzuální sekvence  Regulární výrazy E-X(2)-[FHM]-X(4)-{P}-L zbytek E je následován 2 libovolnými zbytky následovanými F nebo H nebo M zbytky následovanými 4 libovolnými zbytky následovanými jakýmkoliv zbytkem kromě P Predikce motivů a domén 23/42Analýza proteinových sekvencí  Vytvářeny z multinásobného přiložení příbuzných sekvencí  Uloženy v databázích ve formě konsenzuální sekvence  Regulární výrazy E-X(2)-[FHM]-X(4)-{P}-L zbytek E je následován 2 libovolnými zbytky následovanými F nebo H nebo M zbytky následovanými 4 libovolnými zbytky následovanými jakýmkoliv zbytkem kromě P následovaným zbytkem L Predikce motivů a domén 24/42Analýza proteinových sekvencí  Vytvářeny z multinásobného přiložení příbuzných sekvencí  Uloženy v databázích ve formě konsenzuální sekvence  Regulární výrazy Počet přesných hitů D-A-V-I-D 71 D-A-V-I-[DENQ] 252 [DENQ]-A-V-I-[DENQ] 925 [DENQ]-A-[VLI]-I-[DENQ] 2739 [DENQ]-[AQ]-[VLI]2-[DENQ] 51506 Predikce motivů a domén 25/42Analýza proteinových sekvencí  Vytvářeny z multinásobného přiložení příbuzných sekvencí  Uloženy v databázích ve formě konsenzuální sekvence  Regulární výrazy  Statistické modely (profily, bloky, Skryté Markovovy Modely) Predikce motivů a domén 26/42Analýza proteinových sekvencí  Manuální  Informativní díky kvalitním anotacím  Nízký počet položek  Automatické  Méně informativní  Vysoký počet položek Databáze motivů a domén 27/42Analýza proteinových sekvencí Databáze motivů a domén 28/42Analýza proteinových sekvencí  PROSITE  Motivy navrženy manuálně kvalifikovanými odborníky  Motivy často krátké pro zvýšení specifiy  Shody nutno interpretovat opatrně! Databáze motivů a domén 29/42Analýza proteinových sekvencí  PROSITE  Hity versus hity s vysokým výskytem  Rozpoznání hitů = délka vzorce, informace o organismu, identifikace podobných vzorců, konzervovanost vzorce v přiložení Databáze motivů a domén 30/42Analýza proteinových sekvencí Databáze motivů a domén 31/42Analýza proteinových sekvencí  BLOCKs  Bloky = segmenty multinásobného přiložení bez mezer korespondující s nejkonzervovanějšími regiony v proteinech  BLOCKs  Bloky = segmenty multinásobného přiložení bez mezer korespondující s nejkonzervovanějšími regiony v proteinech Databáze motivů a domén 32/42Analýza proteinových sekvencí  Pfam  Přiložení domén vytvořené ze sekvencí databáze UniProtKB  Každá doména je reprezentována profilem Skrytých Markovových Modelů vytvořeným z mnohonásobného přiložení  Obsahuje dvě části: Pfam-A z manuálního přiložení a Pfam-B z automatického přiložení Databáze motivů a domén 33/42Analýza proteinových sekvencí  Pfam Databáze motivů a domén 34/42Analýza proteinových sekvencí  ProDom  Databáze proteinových domén automaticky vytvořenými ze sekvencí databáze UniProtKB  Navržena jako vyčerpávájicí sbírka domén i bez znalosti funkce Databáze motivů a domén 35/42Analýza proteinových sekvencí  InterPro  Řeší problém redundance jednotlivých databází  Zahrnuje téměř všechny dostupné sekundární databáze: PROSITE, Pfam, PRINTS, ProDom, SMART,… Databáze motivů a domén 36/42Analýza proteinových sekvencí  Simultánní prohledání několika databází  InterProScan  CD Server  Motif-Scan Prohledávání databází motivů a domén 37/42Analýza proteinových sekvencí  Simultánní prohledání několika databází  InterProScan  CD Server  Motif-Scan  Vysoké skóre a vysoká shoda = spolehlivá interpretace  Závěry téměř vždy správné  Nízké skóre nebo částečná shoda = problematická interpretace  Závěry vyžadují další podpůrná data Prohledávání databází motivů a domén 38/42Analýza proteinových sekvencí  InterProScan  Srovnání prohledávané sekvence s InterPro databází  Hity a jejich umístění na sekvenci jsou vypsány přehledně Prohledávání databází motivů a domén 39/42Analýza proteinových sekvencí  CD Server  Hity jsou vypsány s E-hodnotou  prohledává menší počet databází než InterProScan Prohledávání databází motivů a domén 40/42Analýza proteinových sekvencí  Motif-Scan  Hity jsou vypsány s E-hodnotou a normalizovaným skóre  Relevantní hity jsou označeny “!” Prohledávání databází motivů a domén 41/42Analýza proteinových sekvencí Reference 42/42Analýza proteinových sekvencí  Claverie, J-M., & Notredame, C. (2006). Bioinformatics for Dummies (2nd ed.). Wiley Publishing, Hoboken, p. 436.  Xiong, J. (2006). Essential Bioinformatics, Cambridge University Press, New York, p. 352.  ExPASy: http://www.expasy.ch/  ProtScale: http://www.expasy.org/cgi-bin/protscale.pl  TMHMM: http://www.cbs.dtu.dk/services/TMHMM-2.0/  TOPCONS: http://topcons.net/  PROSITE: http://www.expasy.org/prosite/  BLOCKs: http://blocks.fhcrc.org  Pfam: http://pfam.sanger.ac.uk/  ProDom: http://prodom.prabi.fr/prodom/current/html/home.php  InterPro: http://www.ebi.ac.uk/interpro/  InterProScan: http://www.ebi.ac.uk/Tools/InterProScan/  CD Search: http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi  Motif-Scan: http://myhits.isb-sib.ch/cgi-bin/motif_scan