IV107 Bioinformatika I Přednáška 6 Katedra informačních technologií Masarykova Univerzita Brno Jaro 2011 faculty-logo Předchozí týden ► GenBank ► UniProt ► PDB ► Gene Ontology KEGG Pathways ► genomické a proteomické databáze Vizualizace proteinů ► QuickPDB (Java) & Co. ► Povray + pdb2pov (CSG language,C) ► PyMol (Python) PovRay raytracing - pouzfva CSG constructive solid geometry sphere { < 0,0, 0 >, 180 pigment {colorYellow } } cylinder { < 0,0, 0 >, < 150,200,300 >, 60 pigment { colorWhite } } camera{ location < 0.0,0.0,800.0 > direction < 0.0,0.0, -1.0 > } light .source {< 0,0,1000 > colorWhite} faculty-logo □ gi - ■* -lit -oo^ty Analýza proteinové sekvence ► strukturní - predikce domén - predikce sekundární struktury - predikce a modelování 3D ►• homolognf ►• "threadingVfbld recognition" (navlékánf) ►• z fragmentů ►• ab initio ► funkční (anotace) - přenos funkce sekvenční podobností (BLAST + GO) - podle příslušnosti k rodině proteinů - podle obsahu motivů (PRINTS—BLOCKS + GO) faculty-logo □ gi - » -li"* ^Q^O 0 01 masaqsfynqssvlkinvmvvdddhvfldimsrmlqhskyrdpsvmeiaviav 061 stlkiqrdnidliitdyympgmnglqlkkqitqefgnlpvlvmssdtnkeees 121 fipkpihptdltkiyqfalsnkrngkstlsteqnhkdadvsvpqqitlvpeqa 181 kncsfksdsrtvnstngscvstdgsrknrkrkpnggpsddgesmsqpakkkki 2 41 dlflqairhigldkavpkkilafmsvpyltrenvashlqkyriflrrvaeqgl 3 01 gidsmfrqthikepyfnyytpstswydtrlnnrsfyskpvhgfgqskllsttr 361 mpynymnrsstyephrigsgsnltlpiqsnlsfpnqpsqneerrsffeppvma 421 qvlgfgqlgpsaisghnfnnnmtsrygslipsqpgpshfsygmqsflnnenvt 481 nattqpnldelpqlenlnlyndfgntselpynisnfqfddnkhqqgeadptkf 541 stelnheddgdwtfvninqgqsngetsntiaspetntpilninhnqnqgqdvp 601 ldpqelvdddfmnslfnndmn faculty-logo □ Si - ■* -lit -oo^ty Metody predikce domén ► vyskytují se ve mnoha proteinech (BLAST) ► kostra mezi doménami je flexibilní ► vlastnosti aminokyselin se liší podle pozici vůči prostředí ► motivy v rámci jedné domény spolu souvisí Identifikace domén na základě podobnosti (BLAST) Color key for alignment scores Q u e ry <40 40-50 50-eo 30-200 >=200 1 1 0 100 I 200 I 300 I I I 400 500 600 fáculty-logo Identifikace domén na základě podobnosti (BLAST + CDD) http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml fáculty-logo Identifikace domén na základě podobnosti (BLAST + PFAM) fáculty-logo PFAM A a PFAM B pokrývají 86 % známých sekvencí http://pfam.sanger.ac.uk/ faculty-logo Frekvence aminokyselin na rozhraní domén Tahle I. Lin ker >\ All 3-tinkcr 2-linkĽr 3-linkcr Medium HĽlical Non-liĽliĽjl Pro 1.299 1.362 1.266 1.333 1.241 1.314 1.309; 0,8 1.816 Arg 1.143 1.1» 1137 1 0S9 1.131 1.132 1.15í 1.MS l 030 Phe 1.119 1.ÍZ2 1.11 0.931 1,366 1.121 1 056 1.09 1.151 Leu 1.0851 1.11 i 1.133 1.103 1,106 0394 1.276 0 86: Ulu 1.051 1.054 1,139 0.992 0.736 1,0531 1.115 1.199 Ú Gin 1.047 1.092 0.9161 1.111 Q.8S1 1,2 1.124 Mel 1.032 0529 1,077 1,369 1.093 07621 1.171 0576 Thr L.017 1,023 1.018 0.992 D.B22 0.9SS 1.11 t .189 His 1.014 Q.9--.9 1.034 0573 1r05J 0.99? 1íi12 1-05 Tjr I • • 0536 159 0.B66 1575 C 945 Ala o.y&4 0.S74 0.938 1.042 1,065 059 05&2 1592 0.643 Vil 0.955 0.923 0.999 1.001 0.957 05 0508 0509 Scr 0,947 0.932 0.956 0.9B4 1.097 0.9H 0.9B6 dm 1 003 Asn 0.944 0.988 0.902 0,823 0.762 0.673 Í.144 0.627 0.955 Lys 0,944 0.946 0952 0.579 0.476 1-O03 0.944 1,008 0593 Ik 0.922 0.328 0.936 Q.852 1.169 0.95 0.817 0512 0546 Asp 0,91« Q.657 0.97 0636 0515 0525 0519 0 90$ Ire 0.895 0.8'3 0.971 056 1517 0539 0.B41 ů.^si 05B£ Gly 0.835 0546 0.092 0,743 11)32 0517 0598 3.37d CyS 0.778 0,972 0,6656 0.5 1.015 0.644 1,035 0662 0596 Převzato z George and Heringa (2002) fe^-^o DSSP je standardem přirazení sekundární struktury proteinům v PDB ► helix H alpha helix G 3-helix(3/10 helix) I 5 helix (pi helix) ► strand B residue in isolated beta-bridge extended strand, participates in beta ladder ► loop T turn (hydrogen bonded) S bend (curvature only) ► coil C coil □ gi - » -li"* ^Q^O Přirazení sekundární struktury rodině proteinů z PDB HRKVILVGD GAVGSSYAFAMVLQGI AQEIGIVDI GARVVV1GA GFVGASYVFALMNQGI ADEIVLIDA RCKITVVGV GDVGMACA1S1LLKGL ADELALVDA YNKITUUGU GAVGMACA1S1LMKDL ADEVALVDV DNKITVVGV GQVGMACA1SILGKSL TDELALVDV PIRVLVTGAAGaiAYSLLYSlGNGSVFGKDSPlILVLLDI multiple alignment CCCBBBCCC CCBBBBBCC CCBBBBBCC CCBBBBBCC Dii? assignment CCCBBBCCC CHHHHHHHHHHHHHCC CCBBBBBCC CHHHHHHHHHHHCCCC CCBBBBBCC CHHHHHHHHHHHCCCC CCBBBBBCC CHHHHHHHHHHHHCCC CCBBBBBCC CHHHHHHHHHHHCCCC CCBBBBBCC CCCBBBCCC CHHHHHHHHHHHHHCC CCCBBBCCC CCBBBBBCCCCHHHHHHHHHHHCCCCCCCCCCBBBBBBCC CCCBBBCCCCCHHHHHHHHHHHCCCCCCCCCCCBBBBCCC minimum consensus CBBBBBBCCCCHHHHHHHHHHHHHCCCCCCCCBBBBBBCC maximum consensus fáculty-logo □ g - » -51"=! O^O PouZití metody Chou-Fasman, 1978 □ gi - ■* -li* -oo^ty Blízké a vzdálené interakce fáculty-logo Predikce sekundární struktury neuronovými sítěmi Predikce sekundární struktury různými nástroji faculty-logo 11» ^I^O Pokročilá predikce sekundární struktury fáculty-logo Predikce zavisí od existenci homologu homologní Je k dispozici struktura s podobností > 20 - 30% identity "threading" Protein je Členem rodiny se znamymi strukturami fragmentova Protein nese lokální strukturní podobnosti k mnoha proteinem se znamou strukturou ab initio Realisticke pro kratke sekvence faculty-logo □ gi - ■* -li* -o<\(y Princip modelování podle homologů Určité posloupnosti aminokyselin mají vždy stejnou strukturu Ab initio modelovaní - hledaní globalního minima Modelování smyček CATH - Class, Architecture, Topology, Homology Charakterizace sady genů pomocí GO 11» ^0,0 Příště Další týden: Jině analýzy faculty-logo Outline Dodatek faculty-logo For Further Reading x faculty-logo □ gi - ■* -lit -oo^ty