4/22/2009 Predikce genů Pro zajímavost, nebude součástí zkoušky... Důležité, pravděpodobně bude u zkoušky. Molekulárn ě biologická data • Výkonné technologie: Automatické sekvencování MALDi-TCF NMR spektroskopie Proteinová krystalografie Výrazný nárůst množství biologických dat. Rozdělení molekulárně biologických databází • Databáze: Primární Sekundární Strukturní Ciiltjuses Eukaryota Genomové zdroje ™i™ Molekulárně biologická data oscTTrasascrarGcuscrcAr^ ...................................... ........................... .... 1 4/22/2009 Predikce genů kódujících proteiny • Prokaryotické geny • Nepřerušované úseky DNA mezi startovním kodonem (ATG, gtg, ttg, ctg) a stop kodonem (TAA, TGA, TAG). • Eukaryotické geny • Přerušovány introny. Průměrná délka exonu je 50 kodonů, některé jsou mnohem kratší. • Některé introny extrémně dlouhé, geny zabírají mbp v genomové DNA. Predikce eukaryotických genů je mnohem složitější než predikce genů prokaryotických a představuje STÁLE NEVYŘEŠENÝ problém! Prokaryotické geny Prokaryotický gen = nejdelší ORF odpovídající danému úseku DNA. GTATGCTGGTGATTGTGGATGCCGTTACCCTGCTGAGCGCCTATCCGGAAGCCAGCCGTGATCCGGCCGCCCC GACCGTGATTGATGGTCGCCACCTGTATGTTGTTAGCCCGGGCGATGCCGCGCAGCTGGGCCATAACGATAGC CGTCTGTTTACCGGTCTGAGCCCGGGTGATCAGCTGCATCTGCGCGAAACCGCGCTGGCGCTGCGCGCGGAAG TGAGCGTGCTGTTTATTCGCTTTGCCCTGAAAGATGCCGGCATTGTTGCCCCGATCGAACTGGAAGTGCGTGA TGCCGCCACCGCCGTTCCGGATGCGGATGATCTGCTGCATCCGAGCTGTCGTCCGCTGAAAGATCATTATTGG CGCAGCGATGTGCTGGCGGCGGGCGCGACCACCTGTACCGCCGATTTTGCGGTGTGCGATCGTGATGGCACCG TGAGCGGTTATTTTCGTTGGGAAACCAGCATTGAAATTGCGGGCAGCCAGCCGGATACCAAACAGCCGGGCTT TAAACCGAGCAGCGATCGCAATGGCAACTTTAGCCTGCCGCCGAATACCGCCTTTAAAGCGATCTTCTATGCG AACGCGGCGGATCGTCAGGATCTGAAACTGTTTATTGATGATGCGCCGGAACCGGCCGCCACCTTTGTGGGTA ACAGCGAAGATGGTGTGCGTCTGTTTACCCTGAATAGCAAAGGTGGTAAAATTCGTATTGAAGCGAGCGCGAA CGGCCGTCAGAGCGCGACCGATGCCCGTCTGGCGCCGCTGAGCGCGGGCGATACCGTGTGGCTGGGCTGGCTG GGCGCGGAAGATGGTGCCGATGCGGATTATAATGATGGCATTGTTATTCTGCAGTGGCCGATTACCTAATGGG Překlad DNA sekvence Překlad DNA sekvence ExPASy http://www.expasy.org/tools/dna.html ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html ExPASy http://www.expasy.org/tools/dna.html 2 4/22/2009 ExPASy http://www.expasy.org/tools/dna.html ExPASy http://www.expasy.org/tools/dna.html Translate is a tool which allows the translation of a nucleotide (DNA/RNA) sequence to a protein sequence. Please enter a DNA or RNA sequence in the box below (numbers a"d a- 111 AlOChOlMTll AVlMKCGSBKtBllNKaf 911 tl H v Rl[ QRF KG G.IR F3 1 ' K > A I Al AARF n RI [ i 5 M ' P MF tJAGFFTKIT '» ITI AHR Kl G ■*. T "■ ."■ C A R HQMIA AP IIMIF -HI! AR Ml Q Oll I iBfilt Q QITH F 0 F PR GN N * i ■ f Q OK A N K 0 HAUF R AQRQ R 0 F AO IM Ol / * IV IMt AQLRO'ARANMUJVATI - i R QQRIT A IGFRUHQQÖHDIHNHÜH H MapY10 M G RIt IM f 5 L MOP'S A5*F35*F3w*,3HT'«aF*L55 AFI PI A 3 V.A L Hop Rfl *L*)IR ILf PLLfRYNNftt*33LL f I KV M G. 3 G A31 I INirR»Mll«JMr^KI*l».*WllGRLhLPIFISU«UrilCL.S5,UI'tlUIWL-,50RKl»,Hl1,P5qnt.:*l>!il.L,,ir"!ll'JIB I OltapItapSI □GB0u4SfFMTMl .■.D*.Ti.L3»VPE*flR[JF,**F,Ti.iO&RHLVvvaPCC**QL4MNDSRLFr[iLSPa(>0LHLBETiL*LRttvSvLFiBFALKD*'Ji.*P^| |E.E.l|>*ir..PCADOn.-PSCfi»LKDHT.'. BSt.L*'5*TTCriDr*vCORDCrv9CTfK:VjtTSiEi*5SQpOTKüP4fK*SSORN0ri f F jLPPriT AFkAlFTAriAADftgDl.m.FirjDAp I F A * T F V CM S t D CvR L F T L »11R, 5 C P. IR11 Aj * M CR 0 S ^ T D Aflt * F U A40 T V M.0 ft L 5 A E C S * D AO r U D C P v I L 0 ft PIT iHp .-, 3* Fr»m»! PLGNRPLGrrllMA|||iR(GTIFRAQP,AQP,HGIARAQRRQTGIGRALTAVRARFN IVRIErjRFKGGIHRQAKVAIAIAARFKARLFOpRLAARIIF NAQFPTKITAMGA RrrGGGGITHFQFDRGNNA-GIFQOKANKQHAHFRAORQROFA-Q IM 0 LIT R SPftlARQQail&IHNHäH NFTTFilOfiKÖTHTI TIAMRKIGGTO-GRAF .0 T41KOT * IV UK A Q LI T T At EHH 0 0 i ■ I 3 4/22/2009 Prokaryotické geny • Velmi jednoduchý přístup k predikci genů Zjednodušení vede k chybám, ale jejich množství je POMĚRNĚ MALÉ. • Chyby mohou vznikat při SEKVENCOVÁNÍ DNA. Přidání/odstranění startovního a/nebo stop kodonu může vést ke ZKRÁCENÍ, PRODLOUŽENÍ nebo úplnému VYNECHÁNÍ genu. Opravdu ORF kóduje protein? ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí ALIGNMENTU). ORF má typický obsah GC nebo frekvenci kodonů. Srovnání s charakteristickými vlastnostmi známých genů ze stejného organismu. Před ORF se nachází typické RBS (ribosome-binding site) nebo promotor. Translační a transkripční signální sekvence fííŕuljtŕnl nlenál> pra lriLi^krijiii HcKiilifni signal? pni iniciaci m..m-í.il, Promotor TATA box Pribnowův box -*i Shine-Dalgarnova sekvence Prokaryota Translační a transkripční signální sekvence 25 TATA box Hognessův box Promotor RNA-polymerasy II GC box GC box t -: ■ 11 .i.. 11 ■ ■ -.- pro iľ.iu.i. i Ir.iii-L.iLH Eukaryota (gcc)gccRccAUGG Kozak sequence Sekvence Kozakové Opravdu ORF kóduje protein? ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí alignmentu) = nejspolehlivější ověření. Nástroje pro překlad DNA jsou propojeny s prohledáváním databází. ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html Pl.GMRPLQř|í(U*lllifliGTlFfliQP*QPMGl*n*QRRQT<;iGR*i.T*vR**!fU VRIE DRF K-G q iRfll-k.-i-i-.T FK4RLFQtRL * *Rllf N •■;í'I«.iIí -í PIG G G Q ITH F Q F DR G N N * * ' P Q □ K ^ N K Q H 4M F R * O R O R Q F 4-Q IM Q LIT R NFTTF*IQGItQTHTI ■ľ ; ■■-: ■ - ■ ■ Mtt - m TT >ÍUHÚ']i : I 4 4/22/2009 ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html "í" r r* -|lllľlTI|^i?»l^l ť—-n ::::± - -■ 1 r' n t*y» I Vítal 1 G*e** v I Rfdrt» I 1« v | tlrfrwwl ti-w 6™ m t.™*! h> .nm r= -;-1 +3 ■ ÜT2 JTO -J 1 UfJ s r LtodL IJ9 íl 5EHI H™ ■TTTTTT TT* . D . : V I Eukaryotické geny Jednobuněčná eukaryota • Genomy jednobuněčných eukaryot se výrazně liší (frekvence intronů, jak velká část genomu je tvořená geny kódujícími proteiny). • Saccharomyces cerevisiae - 67% genomu je protein-kódující, jen 4% obsahují introny. • Hlenky - průměrný gen obsahuje 3,7 intronu. • Pro některá jednobuněčná eukaryota (kvasinky) je možné použít stejné postupy jako pro prokaryota. .;. -Aggs* "^šw^^i Eukaryotické geny Mnohobuněčná eukaryota • Mnohobuněčná eukaryota Komplexní organizace genomu, geny separovány dlouhými INTERGENOVÝMI úseky, geny obsahují množství INTRONŮ, i velmi DLOUHÝCH. Glyceraldehyd-3-fosfát-dehydrogenasa Candida albicans Eukaryotické geny Mnohobuněčná eukaryota • Mnohobuněčná eukaryota Komplexní organizace genomu, geny separovány dlouhými INTERGENOVÝMI úseky, geny obsahují množství INTRONŮ, i velmi DLOUHÝCH. Glyceraldehyd-3-fosfát-dehydrogenasa Homo sapiens Eukaryotické geny Mnohobuněčná eukaryota • Rozpoznání exonů/intronů Identifikace míst sestřihu: GT na 5'konci, AG na 3'konci. • Chyby při rozpoznávání exonů/intronů Velké množství chyb. Dlouhé introny - určeny jako intergenové úseky. Krátké intergenové useky -určeny jako introny. 5 23 4/22/2009 Splicing Mechanism Used for mRNA Precursors. The upstream (5')exon isshowninblue, the downstream (3') exon in green, and the branch site in yellow. Y stands for a purine nucleotide, R for a pyrimidine nucleotide, and N for any nucleotide. The 5' splice site is attacked by the 2'-OH group of the branch-site adenosine residue. The 3' splice site is attacked by the newly formed 3'-OH group of the upstream exon. The exons are joined, and the intron is released in the form of a lariat. [After P. A. Sharp. Cell 2(1985):3980.] Algoritmy a nástroje pro identifikaci genů • Predikce genů na základě sekvenční homologie - vyhledávání v databázích pomocí algoritmů. • Predikce genů ab initio - predikce na základě statistických parametrů DNA sekvence. • Většina běžně používaných metod kombinuje oba dva přístupy. Prokaryota ATG..................TAA Bez intronů SEKVENČNÍ HOMOLOGIE X IDENTIFIKOVANÉ GENY VYUŽITY PRO „TRÉNOVÁNÍ" STATISTICKÉ METODY ANALÝZA ZBÝVAJÍCÍCH ČÁSTÍ GENOMU Eukaryota Mnoho intronů, dlouhé intergenové úseky Ab initio STATISTICKÉ METODY IDENTIFIKOVANÉ EXONY Ji SEKVENČNÍ HOMOLOGIE Algoritmy a nástroje pro identifikaci gen ů • Každý program má výhody a nevýhody -rozumné použít více predikčních nástrojů. GeneMark GlimmerM GRAIL GenScan Fgenes Algoritmy a nástroje pro identifikaci genů • GeneMark http://exon.gatech.edu/GeneMark Využívá Markovovy modely Vyžaduje parametry specifické pro daný organismus = nutné „natrénování" pomocí známých genů Varianty pro prokaryotické, eukaryotické, virové sekvence 6 4/22/2009 GeneMark http://exon.gatech.edu/GeneMark fmr iiral -a na? phopt uď itoortí při* prutrnon >oj rwi un EMi mUnKiTfl mi Vis HtfKfld raitíhritton *" iSo^řtoilt tmi Algoritmy a nástroje pro identifikaci genů GeneScan http://genes.mit.edu/GENSCAN.html Komplexní probablistický model struktury genu (transkripční, translační, sestřihové signály + statistické vlastnosti kódujících a nekódujících úseků) Primární analýza velkých úseků eukaryotické genomové DNA ■ Shrnutí Predikce prokaryotických genů mnohem jednodušší než u eukaryotických. • Predikce genů ab initio/na základě sekvenční homologie. • Nutné kombinovat oba přístupy. • Rozumné využívat více predikčních programů. 7