Predikce genů C2131 Úvod do bioinformatiky, jaro 2024 Lenka Malinovská Molekulárně biologická data CAGCGGA 1 Mi CG^ 60 i lCAGCTCGGATG 170 tali CA G C AG Al 180 U ľ CAT CC GCATC CGG AACGGCG GTGGCGGCAT 190 200 210 liiiiik CACGCACTTCC 220 ÉÉ AG T T CG ATCGGGG CAA( 230 :aatg( 240 Ü :cg( I tCATCT 250 a CGGTTTC 310 w GCGCAGi á VTG 32 1 CAGCT 0 y GATCACCCGGGCT 330 1*1 CAG í 340 fcj iCCGGTAAACAGACGGCTATCGTTATGGCCCAGCTGCGCGGCATCGCCCGGGCTAACAACATA 350 360 370 380 390 400 4 GATAGCGTAATGATCGGCTGGCTGCCGCATTTCATGCTGGTTTCCCAACGAAAATAACCGCTCACGGTGCCATCACGATCGCACACCGCAAAATCGGCGG TACAGGTGGTCGCGCCCGCCGCCAGCACATCGCTGCGCCAATAATGATCTTTCAGCGGACGACAGCTCGGATGCAGCAGATCATCCGCATCCGGAACGGC GGTGGCGGCATCACGCACTTCCAGTTCGATCGGGGCAACAATGCCGGCATCTTTCAGGGCAAAGCGAATAAACAGCACGCTCACTTCCGCGCGCAGCGCC AGCGCGGTTTCGCGCAGATGCAGCTGATCACCCGGGCTCAGACCGGTAAACAGACGGCTATCGTTATGGCCCAGCTGCGCGGCATCGCCCGGGCTAACAA CATACAGGTGGCGACCATCAATCACGGTCGGGGCGGCCGGATCACGGCTGGCTTCCGGATAGGCGCTCAGCAGGGTAACGGCATCCACAATCACCAGCAT Molekulárně biologická data CAGCGGACG AC AG CT CG G ATGCAGC AG AT CAT CC GCATC CG G AACGGCG GTGGCGGC ATCACGCAC T TCCAG T TCG ATCGGGG CAACAATG CCGGCAT CT' 160 170 180 190 200 210 220 230 240 250 4 GATAGCGTAATGATCGGCTGGCTGCCGCATTTCATGCTGGTTTCCCAACGAAAATAACCGCTCACGGTGCCATCACGATCGCACACCGCAAAATCGGCGG TACAGGTGGTCGCGCCCGCCGCCAGCACATCGCTGCGCCAATAATGATCTTTCAGCGGACGACAGCTCGGATGCAGCAGATCATCCGCATCCGGAACGGC GGTGGCGGCATCACGCACTTCCAGTTCGATCGGGGCAACAATGCCGGCATCTTTCAGGGCAAAGCGAATAAACAGCACGCTCACTTCCGCGCGCAGCGCC AGCGCGGTTTCGCGCAGATGCAGCTGATCACCCGGGCTCAGACCGGTAAACAGACGGCTATCGTTATGGCCCAGCTGCGCGGCATCGCCCGGGCTAACAA CATACAGGTGGCGACCATCAATCACGGTCGGGGCGGCCGGATCACGGCTGGCTTCCGGATAGGCGCTCAGCAGGGTAACGGCATCCACAATCACCAGCAT 1 Identifikace a anotace genů a proteinů Predikce genů Table 1 Soli wait commonly J sed Ibr bacterial genome annotation and comparison D\'A levei annotation GcncMari: htlp://c\on.gatcch.cdu/gcncmari:/ Glimmer h t tp:// ra w.gcnomic s.jh j .cd j/Gli m mcr/ SHOW htlp://gciy>mcjouy. inra.fi/ssb/SHOW7 tRN A scan- SE b tlp://k>wclab. jc sc .cd j/tRN A sc an - SE/ RN Am mcr b tip://™ w.cbs.dtu .dk/serviccs/RNAmmcr/ Rep Seel b[tp://www_abi_snv_jjssicj_rr/%uKpjblic/RcpScelt/ IslundPath http://www.palhogcnomics.sl j.ca/islandpath/ Protein level annotation BLAST http://www.cbUc.jl/blast/ IntcrProScan http://www.cbi.ac. jk/lnterFtoScLin/ COGNITOR b t tp://ww w.ncbi .nlm.nib gov/OOG/old/xogn i tor.b tml PR].\\[ http://bioinfo.geiiopolc-tojlojsc.pid.fi/priam/ C jOA n no b ttp://bips. j- strasbg. IríiOA n no/ PSORTb bttp://www.psort.org^}sor[b/ T M HM M b tip://ww w.cbs.dnj dk/scrviccs/T MHMM/ S ign Lil P b t tp://ww w.cbs.dnj .dk/serviccs/S ignal P/ Comparative genomic tooh Ma jvc http://gcl.ahabs.wisc.cdj/majvc/ MOS AIC b tp:// mig jo jy. inra.li/ m ig/m ig_cng/ prescntationprojee [/mosaic ACT htlp://w^,w.sangcr.ac.uk/Soltw,are/ACT/ C (i. \T h t tp:// mbgd.gcnomcjul.jp/CGAT/ MliC jj http://www.gcnoscopc.tns.rr/agt/inagc/ Patbologic http://biocyc.org/ PU M A2 b t tp://compbio. mt s.an l.gov/pu ma2/ The SEED http://thcsccd.utbicago.edu/FIG/ STRING bttp://sLriEg.cmbl.de/ PyPhy btB7://www.cbs.dBj.dt/sLaN'/lhoma.s4jypby/ HoSeql http://pbil.univ-lyon l.fr/software/HoScql/ Protein gene prediction Protein gene prediction Protein gene prediction tRNA gene prediction rRNA gene picdiction Tč^írčTTTTr^^írmířňaKTCpcats in complete DNA scqjenccs Idcntilication ol genomic islands Predikce genů je prvním krokem v anotaci genů a genomů. Compare a novel sequence witb those contained in njclcotidc and protein dntabuses Scartb lor domains/moliIs in the IntcrPlo dtitubasc Compare a query scq jence to the COG (CI jstcr of Orlhologojs Grojps ol' proteins) database Detection of enzymatic I jnction in a (ully sequenced genome, based on all sequences available in tbc ENZYME database BLAST search on tbc Gene Ontology database Prediction of bacterial protein sjbcclljlar localisation Prediction of transmembrane helices in protein sequences Prediction of signal peptide cleavage sites in protein sequences Multiple genome alignments in tic presence of large-scale evolutionary events Dclinc tbc set of backbones and loops in closely iclatcd bacterial genomes Comparative genome analysis and visualisation hhjIs for multiple genome align men Ls Compjtation of gene older conservation (syntcnics) between available bacterial genomes Metabolic network reconstruction and comparative pathway analysis Metabolic pathway rcton strut [ion Comparative analysis and annotation tools jsing the subsystem approach Search Tool lor the Retrieval ol Interacting Proteins Reconstruction of phylogcnctic relationships of complete microbial genomes Automatically assign sequences to homologous gene families lirom the HOGENOM database Predikce genů Predikce genů je prvním krokem v anotaci genů a genomů Zahrnuje identifikaci ORF - otevřených čtecích rámců. Regulační signály pro transkripci Regulační signály pro iniciaci translace TGTTGACA TATAATG +1 SD -35 -10 TAAGGAG Vedoucí sekvence m RNA ATG STOP T _ protein Predikce genů • Predikce genů je prvním krokem v anotaci genů a genomů. • Zahrnuje identifikaci ORF- otevřených čtecích rámců (Jako predikce „genů" se mnohdy označuje právě pouze predikce ORF). • V případě eukaryot (složené geny) predikce zahrnuje také identifikaci exonů/intronů, tj. míst sestřihu. DNA Introny - DNA-sekvence složeného genu, jejichž přepisy se při posttranskripčnf úpravě sestřihem z primárního transkriptu vystepují a nepřecházejí tedy do výsledné mRNA. Transkripce, sestřih mRNA Exony- DNA-sekvence složeného genu, které se při sestřihu nevyštěpují, ale spojují a přecházejí do výsledné mRNA. Translace Protein Rosypal, 2003 Sekvence v databázi: ATGAAATTGCTTCACTTCGTCCTGTTTTTCCAGGCCTCACTCCTTCCAGTAGGCTCCCTCGCGCAAGAGG GTGGAAACGTCACGGATTCTGAAGTCCAGACTATCCCTGGTTGGTTCTCACTTCTCGTCCTTtCCACCGC CGTTTAGATCATCTTGGCGGGTTGAAGATCGTGGGATGATACAAGAGAGATTGTCTGACTATTATTTCTT TAGGTACCGGGATAGCAGCCGTCAACTCTGTCAATTTGTTGCGGATCTATAGCCAAGACATACTCGGTGG CATCCGCGAGGCCAGATTTGAAGGCTATTGGAGCGGAGGACTTTTGAACGACACGATTGCAAAGGCCAAG ACCAATTCATCAATTGCTGCCGCCTCTGATGATCTAGAACTAGTAAGCAGTACTATATCACTCATGCATC CGGAGTATGCACAAGTATTTACTTCAATCTTAAGATCCGCGTCTACTATCTCTCACCGAATAACACTCTA GGCGAAGCAGCATCTGATTCCCAGGGGGGGTGGTACACTGGCTCCCTCAACCACTATCAGTTTCGGGTTG CATCTCATTCGAGGCTGGCTGCAGTATTTGTTCCCGGAATTCGAAGGCCAAGCTTACGTGTATATGCCCA GCTCCCGGATAACAGTGTACAGGAGTTTGGATATGATGGTAAGCCGCCATGATCTCCAGTCCCGTCCTGC TCCCCATATTTCAGTTAGAACCATTAAAGTTGCTAATCATCCGAAAGTTGGTCGTGGATGGGAACGCCTC GATAATTTTGGCCCTGCTCTACCTGGTACAGCTATAGCAGCGTTAACATATACCACTGGTCTACGAAGAT CAGACATTCGGTAAAACTTATCTCTCCCCCTCCTATCCACCTGAAACTTCTTGAGAACGACTCGGCTTTC CCGCTTCTCTGCTGTATTCACCGAAACTAATGACTCTTTCAATCTTGTTTCCCCCCACAGTGTCTATTTC CAAGCCACAAACCGCCACGTCGTTGAAAGGATTTATGATAGCCGATCGTGGAGTGATGGAGGCATCGTCG TGCGAACCGCCAAGCCACGAACTCCTCTAGCTGCCACCAGCTTCTTGATGGTACCAGGAAATCCTCAGAG TGTCCGAGTGTACTATGGCACCGAAGACAACCGTATCCTTGAAAAGGGGACCGAAGGCGGCCTTTACTGG TACGATGGCGCATTCGAGCATTCAGTCATCCCTGGTTCTCAGGTAGCTACCGTAGATTGGGGAAATGGAG GAGACTTCAATATCAGAGTCTATATTCAAGACGGAG;ATTTAAGAAtúGGATAAGTGAATGGú;TTGGTT CCGCCGCTTATGGCGCCGAGGAGTCATTGCTATCCCTCCTGCATAA Predikce genů 9) Predikce 2D, 3D a 4D struktury proteinů. Souřadnice. Formáty. Vizualizační nástroje. Predikce struktury proteinu Annotation Pipeline :: Eukanyotic Annotation Propagation Pipeline Neúspěch při expresi syntetického genu v hostitelském organismu, protein nebyl produkován i Srovnání s homologním charakterizovaným genem/proteinem na sekvenční a strukturní úrovni, úprava exonů/intronů AÜGAAACTGCT GCAT T TTGT GCTGT T TTTT CAGGCGAGCCT GCTGC CGGT GGGCAGCCTG GCGCAGGAAGGCGGCAACGT GACCGATAGC GAAGT GCAGAC CATT C CGGGC ACCGGCATT GCGGCGCTGAACÄGCGTGiAACCTGCTMGCATTTATAGCCaGGATaTTCTGGGCGGCÄTT CGCGAAGCGCG-CTTT GAAGGC TATT G-GJLGCGGCGGC CTGCT GAACGATACCATTGC GAAA GCGAAAACCaACAGCSlGCAT TGCGGC GGCGAGCGAT GATCT GGAAC TGAT T CGCGT OTAT TATCT GAGCCC GAACAACACC CTGGGCGAAGCGGC GAGCGÄTAGCCAGGGC GGCT GGTAT ACCGGCAGCCT GÄACC ATTAT CAGT T TCGCGTGGCGAGCCATAGCC GCCT GGCGGC GGTG TTTGT GCCGGGCATT C GCCGC CCGAGCCTGC GCGT GTATGC GCAGC TGCCGGATAACAGC OTGCSEXÍAATTTGGCTňTGaTGTGGGCCGCGGCTGGGAň.CGCCTGGňTAaCTTTGGCCCG GCGCT GCCGGG-CACCGCGAT TGCGGC GCTGACCTATACCA.C CGGCC TGCGC CGCAGCGAT ATTGGCOTGTATTTTCAGGGGACCSiACCGGCATGTGGTGGAACGGATTTATGATAGCCGG AGXJTGGAGCGATGGGGGCÄTTOTGGTKGCACCGCGAAACCGCGCAECCCGCTGGCGGCG ACCAGCTTTCT GATGGTGCCGGGCAACCCGC AGAGC GTGCGCGTGT ATTAT GGCAC CGAA GffiTAACCGCaTTCTGGAAAA&GGCaCCGAAGGCGGCCTGTňTTGGTňTGATGGCGCGTTT GAACATAGGGTGIATTCCGGGCAGGGAGGTGGCGAGCGTGGATTGGGGCAACGGCGGCGAT TTTAAC^TECGCGTGTATATTmGGATGGCGCGTTTAAAAACGGCATTAGCGAATGGGCG TGGTT TCGCCGCCTGT GGCGC CGCGGCGTGATTGCGATTCC GCCGGCGTAA Protein úspěšně produkován v prokaryotickém hostitelském organismu Predikce genů • Predikce genů je prvním krokem v anotaci genů a genomů. • Zahrnuje identifikaci ORF - otevřených čtecích rámců (Jako predikce „genů" se mnohdy označuje právě pouze predikce ORF). • V případě eukaryot (složené geny) predikce zahrnuje také identifikaci exonů/intronů, tj. míst sestřihu. Problematická, vzniká velké množství chyb. • Predikce genů se velmi často soustředí na geny kódující proteiny. • Predikce genů u prokaryot funguje výrazně lépe než u eukaryot (souvislost s organizací genomu prokaryot). Metody predikce genů Dva hlavní přístupy: metody ab /wt/o/metody založené na homologii (sekvenční). _ % ncbi mmm > DDBj » DNA U»u Kniilc ní fjpan * National Centerfor BiolechnoIogy Informati.:.n GATAGCGTAATSATCGGCTGGCTGCCGCATTTCATGCTGGTTTCCCAACGAAAATAACCGCTCACGGTGCCATCACGATCGCACACCGCAAAATCGGCGG TACAGGTGGTCGCGCCCGCCGCCAGCACATCGCTGCGCCAATAATGATCTTTCAGCGGACGACAGCTCGGATGCAGCAGATCATCCGCATCCGGAACGGC X GATAGCGTAATGATCGGCTGGCTGCCGCATTTCATGCTGGTTTCCCAACGAAAATAACCGCTCACGGTGCCATCACGATCGCACACCGCAAAATCGGCGG TACAGGTGGTCGCGCCCGCCGCCAGCACATCGCTGCGCCAATAATGATCTTTCAGCGGACGACAGCTCGGATGCAGCAGATCATCCGCATCCGGAACGGC LPPNTAPKAIFYANAADRQDLXLFIDDAPEPAATFVGNS EDGVRL- -FTLNSKGGKIRIE IPPNTDPRAIFFANAAEQQHIKLFIGDSQEPAAYHKLTTRDGPRE--ATLNSGNGKIRFE LPPHIKPGVT ALTHAAND QTID IYIDDDPKPAATFKGAGAQDQHLGTKVLDSGNGRVRVI LP PNIAFGVTALVNSSAPQTIEVFVDDNPKPAATFQGAGTQDAHLNTQIVNSGKGKVRVV lPPn-aFg---lanaad-QtiklfidD-p-PAAtfkgag-----1-t-tlnSgnGkiRve ASANGRQSATDARLAPLSAGD------TVWLGWLGAEDGADADYNDGIVILQWPIT VSVNGKPSATDARLAPINGKKSDGSPFTVNFGIVVSEDGHDSDYNDGIVVLQWPIG VMAHGRPSRLGSRQVDIPKKS--------YPGIIGSEDGADDDYNDGIVFLNWPLG VTANGKPSKIGSRQVDIPKKT-.......YPGLVGSEDGGDGDYNDGIAILNWPLG vsaNGrpSat--R---ifkke......tvyfGivgsEDGaDaDYNDGIviLqWPig 70 Metody predikce genů • Dva hlavní přístupy: metody ob /n/t/o/metody založené na homologii (sekvenční). • Ab initio - predikce genů založená pouze na sekvenci, jejích vlastnostech a statistických parametrech. Regulační a signální sekvence: startovní/stop kodon, sestřihové signály, RBS (vazebné místo pro ribozom), polyadenylační signál. Kodon=triptet (délka genu je v násobcích tří). Nukleotidové složení kódujících a nekódujících oblastí se liší. - > Regulační signály pro Regulační signály pro transkripci iniciaci translace Vedouc! sekvence Metody predikce genů • Dva hlavní přístupy: metody ob /n/t/o/metody založené na homologii (sekvenční). • Ab initio - predikce genů založená pouze na sekvenci, jejích vlastnostech a statistických parametrech. • Metody založené na homologii - sekvenční podobnost se známými geny/proteiny. ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí ALIGNMENTU) = nejspolehlivější predikce. Problém- unikátní geny bez známých homologů (většinou nejzajímavější). • Kombinace obou postupů Predikce genů u prokaryot • Prokaryotické genomy: malé (0,5 až 10 Mbp) a kompaktní, vysoká hustota genů, 90 % genomu je kódující, jeden gen připadá přibližně na 1000 nukleotidů. How small can a genome get and still run a living organism? Researchers now say that a symbiotic bacterium called Table 1 Some prokaryotic genomes Carsonel/a ruddis, which lives off sap- feeding insects, has taken the record for Organism Domain Size (base pairs) Genes Comments smallest genome with just 159,662 Nonoarchaeum equitans Archaea 490 885 552 Smallest known cellular genome 'letters' (or base pairs) of DNA and 182 Mycoplasma genitalium Bacteria 580070 470 Smallest genome among Bacteria; human pathogen protein-coding genes. At one-third the Chlamydia trachomatis Bacteria 1 042 519 894 Intracellular parasite of humans size of previously found 'minimal' A quifex aeolicus Bacteria 1 551335 1544 Hyperthermophile, autotroph organisms, it is smaller than Meth ano thermobacter Archaea I 751377 1855 Methanogen, thermophile researchers thought they would find. tkermoau to tropkicus Halobacterium salinarlum Archaea 2571010 2630 Extreme halophilc https://lurl.cz/MK8Kx Sulfolobus soljataricus Archaea 2992245 2977 Hyperthermophile., acidophile Bacillus sub tHis Bacteria 4214810 4100 Produces endospores Pseudomonas aeruginosa Bacteria 6264403 5570 Metabolically versatile; can be a pathogen Bradyrhizobium juponicum Bacteria 9105 828 8317 Nitrogen-fixing bacterium; forms root nodules on Bacteriology soybean plants Escherichia Coli Bacteria 4639 221 4288 Model organism for molecular biology _ Michael T Madigan, SouthernIllinois University, Carbondale, Illinois, USA Deborah O Jung, Southern Illinois University, Carbondale, Illinois, USA ENCYCLOPEDIA OF UFE SCIENCES ■& 2007, John Wley & Son;, Ud.www.eli.net Predikce genů u prokaryot Prokaryotické genomy: malé (0,5 až 10 Mbp) a kompaktní, vysoká hustota genů, 90 % genomu je kódující, jeden gen připadá přibližně na 1000 nukleotidů. GeneMarkS Gene 5trand LeftEnd RightEnd Predikováno 56 genů (ORF) -3-33 .5777 .EľlG 2'M.Jb 21674 2 3 3 33 24333 2- 655 23334 2 5 5.5 7 25345 2731C 2~557 2*773 5*572 = 1413 5 2 3 i 3 5 3 7:i 3- 114 3 3 75 C 5Í151 3 "712 37 2Í3 5 *-í i 5ÍÍ-33 -*Ě-Ě5 ^lí'lQ -^li35 ^2531 ^3 5í'7 ^5 7*6 ^5525 ^7533 ^7716 ^Š422 5*3 3 i 5 2-7 5 1315 235i ^*25 ^2iľ 517 5 5i*3 ľ?c-ľ 53 í ■:■ lil??" 11-3 í • 1 2 3 r : ■~-3iíi 15 33i .;3 3-.: 17 33 2 l?3 2í : • 237 33 21-i ľ 25251 23i-3 2^5-2 25337 257"- 2 5i 3 3 27311 Z7867 22 3i" 33333 51*32 523-2 337-i 5^21: 3 3 331 35*i7 5£f;-i 373ňl 38456 5? 5Í 7 ^3 53" ^3i5í ^. Š 27 ^2 3 34 43736 ^5 3 2 2332* 3 3 í ^7125 —7 71i 1 65 49709 52-33 •53-67 ^52994^^^1699559^^^9914^^519944759117991 Predikce genů u prokaryot • Prokaryotické genomy: malé (0,5 až 10 Mbp) a kompaktní, vysoká hustota genů, 90 % genomu je kódující, jeden gen připadá přibližně na 1000 nukleotidů. • Prokaryotické geny: ORF je nepřerušovaný úsek DNA mezi startovním kodonem (ATG, gtg^ttg^ctg) a stop kodonem (TAA, TGA, TAG). Prokaryotické geny neobsahují introny ( Dobře, můžou obsahovat introny j. REVIEW_Open Access Bacterial group I introns: mobile RNA catalysts Gsorg HJausner1, Mohamed Hafez^"3 and David R Ed gel f" Abstract Group I introns are intervening sequences that have invaded tRNA, rRNA and protein coding genes in bacteria and theii phages. The at lily of group I introns to self-spl ce from i host transcripts, by acting ,ii i bozymes, potentially renders their insertion into genes phenotypically neutral. Borne group I introns are mobile genetic elements due to encoded homing endonuclease genes that function in DNA-based mobility pathways to promote spread to intronless alleles. Group I introns have a limited distribution among bacteria and the current assumption is that they are benign selfish elements, although some introns and homing endonucleases are a source of" genetic novelty as they have been co-opted by host genomes to provide regulatory functions. Questions regarding the origin and maintenance of group I introns among the bacteria and phages are also addressed. Keywords: Evolution, Group I introns, Intron splicing, Intron mobility. Homing endonuclease genesr IStrons Group II introns in the bacterial world Francisco Martinez-Abarca and Nicolas Toro' Cnjpo ds Eculogia ůenéíica. Estactón Experimental dei Zaidin, Conscfo Superior de Invcsligaciones Cicrtttticjs Profesor ASbarcda 1. 1BOOB úranaoa. Spam. Predikce genů u prokaryot- základní postupy (bez využití specializovaných programů) • Prokaryotické genomy: malý obsah nekódujících úseků umožňuje „manuální" identifikaci ORF. 1) Překlad prokaryotické DNA do proteinové sekvence. 2) Identifikace potenciálních ORF. 3) Ověření spolehlivosti predikce - je identifikovaný ORF skutečně součástí genu? Predikce genů u prokaryot- základní posti (bez využití specializovaných programů) 1) Překlad prokaryotické(DNA)do proteinové sekvence. The table shows the 64 codons and the amino acid for each. The direction of the mRNA is 5' to 3'. 2nd base U C A G U UUU [Phe/F> Phenylalanine UUC (Phe/F) Phenylalanine UCU [Ser/S] Serine UCC [Ser/S} Serine UAU (Tyr/Y) Tyrosine UAC (Tyr/Y) Tyrosine UGU [Cys/C) Cysteine UGC [Cys/C) Cysteine UUA (Leu/L) Leucine UCA (Ser/S; Serine UAA Ochre [Stop) UGA Opal [Stop) UUG [Leu/L) Leucine UCG (Ser/S) Serine UAG Amber (Stop) UGG (Trp/W) Tryptophan C CUU (Leu/L) Leucine CUC (Leu/L) Leucine CCU (Pro/P) Proline CCC [Pro/P) Proline CAU (His/H) Histidine CAC (His/H) Histidine CGU [Arg/R) Arginine CGC [Arg/R) Arginine 1st CUA (Leu/L) Leucine CUG {Leu/L) Leucine CCA (Pro/P) Proline CCG (Pro/P) Proline CAA (Gln/Q) Glutamine CAG [Gln/Q) Glutamine CGA [Arg/R) Arginine CGG [Arg/R) Arginine base A AUU (lle/l) Isoleucine AUG (lle/l) Isoleucine ACU (Thr/T) Threonine ACC [Thr/T) Threonine AAU (Asn/N) Asparagine AAC (Asn/N) Asparagine AGU [Ser/S) Serine AGC [Ser/S) Serine AUA (lle/l) Isoleucine ACA (Thr/T) Threonine AAA (Lys/K) Lysine AGA [Arg/R) Arginine AUG [Met/M) Methionine, Sfarf[A] ACG (Thr/T) Threonine AAG [Lys/K) Lysine AGG [Arg/R) Arginine G GUU (Val/V) Valine GUC (Val/V) Valine GCU (Ala/A) Alanine GCC (Ala/A) Alanine GAU (Asp/D) Aspartic acid GAG (Asp/D) Aspartic acid GGU (Gly/G) Glycine GGC (Gly/G) Glycine GUA [Val/V) Valine GUG (Val/V) Valine GCA (Ala/A) Alanine GCG (Ala/A) Alanine GAA (Glu/E) Glutamic acid GAG (Glu/E) Glutamic acid GGA [Gly/G) Glycine GGG (Gly/G) Glycine Predikce genů u prokaryot- základní postupy (bez využití specializovaných programů) 1) Překlad prokaryotické(DNA)do proteinové sekvence. . 11 ATGTCGCATGCC AT G TCG CAT GCC 1 Met Ser His Ala A TGT CGC AT G CC I Cys Arg Met GTC GCA TGC TT Val Ala Cys Ctem tripletů závisí na tom, u kterého nukleotidu stonovimc počátek čteni 5' ATGCGCAGGAATGCATAG 3' 3' TACGCGTCCTTACGTATC 5' t t t Překlad DNA sekvence - od 5'konce 5' ATGCGCAGGAATGCATAG 3' 5' CTATGCATTCCTGCGCAT 3' t t t Predikce genů u prokaryot- základní postupy (bez využití specializovaných programů) 1) Překlad prokaryotické(bNA)do proteinové sekvence. • Translate (ExPASy) https://web.expasy.org/translate/ DNA or RNA sequence caaatggatgttaaatctgcatttttgaatagtatactagaagaagaagtttatattg aacaacttgaatgatttgttgaagacaagaataaagatcgggtatgtaaattgaa caaagctttatatgatttaaagcaagcacctagagcatggtaggagagactgca ctcttatttgatcaagattggatttataaggacaagtgaaaatagcaatatgtacat caagagtgatgaaaacaatggtatactactttcagccatatttgttgatgatattattt tttgtggtaatgactccttatgcaagaattttggaaatgaaatgtgcaaagaatttga gatgtcattaatcagtgagataaagtattttataggtttgcagatactacaaatgaa aaatgagattttgattactcaatccaagtatataaaggaaatcttgaagaaatttgg aatggaggatcctaaacctgtaagcactcctatgactaccaattgtaaactatca aagagtgatgaatctgcatctgttgatgagacactttaccgatccatgattggaaa Genetic codes - See NCBI's genetic codes Standard Output format O Verbose: Met, Stop, spaces between residues ® Compact: M, -, no spaces O Includes nucleotide sequence O Includes nucleotide sequence, no spaces DNA strands □ forward □ reverse ORF Finder (NCBI) https://www.ncbi.nlm.nih.gov/orffinder/ Translate Translate is a tool which allows the translation of a nucleotide (DNA/RNA) sequence to a protein sequence. DNA or RNA sequence caaatggatgttaaatctgcatttttgaatagtatactagaagaagaagtttatattg aacaacttgaatgatttgttgaagacaagaataaagatcgggtatgtaaattgaa caaagctttatatgatttaaagcaagcacctagagcatggtaggagagactgca ctcttatttgatcaagattggatttataaggacaagtgaaaatagcaatatgtacat caagagtgatgaaaacaatggtatactactttcagccatatttgttgatgatattattt tttgtggtaatgactccttatgcaagaattttggaaatgaaatgtgcaaagaatttga gatgtcattaatcagtgagataaagtattttataggtttgcagatactacaaatgaa aaatgagattttgattactcaatccaagtatataaaggaaatcttgaagaaatttgg aatggaggatcctaaacctgtaagcactcctatgactaccaattgtaaactatca aagagtgatgaatctgcatctgttgatgagacactttaccgatccatgattggaaa Genetic codes - See NCBI's genetic codes Output format O Verbose: Met, Stop, spaces between residues ® Compact: M, -, no spaces O Includes nucleotide sequence O Includes nucleotide sequence, no spaces DNA strands □ forward □ reverse Standard reset TRANSLATE! Standard ,biuto iiiiLUuTiondrial Yeast mitochondrial Mold, protozoan and coelenterate mitochondrial, mycoplasma/spiroplasma Invertebrate mitochondrial Ciliate, dasycladacean and hexamita nuclear Echinoderm and flatworm mitochondrial Euplotid nuclear Alternative yeast nuclear Ascidian mitochondrial Alternative flatworm mitochondrial Blepharisma nuclear Chlorophycean mitochondrial Trematode mitochondrial Scenedesmus obliquus mitochondrial Pterobranchia mitochondrial Standard eset TRANSLATE! Translate - 5'3' Frame 1 - AEMPSVYAR-PERC-RQF-P-KT-KIFRYAIR-GSÄAE'IGGQQPYVDRTERE'LQGIYRG-LPVPaE'CCPEEKYWKRSEIMVFCDGKQÄKRRRKAGYH EHQGTKRSYSENTGKKMGILCQYCKPICGSWKKK5KYRF-PET-LFIR-LCRRRKQ-ICSNCSQIECKKTWSNSI-PIIPIWRLWSWKNTPGTGCW S-SKKSVP—SCTLFII-KVYPAIYLCCQSTQTD-ICEFLSDGRCTDY—YPVLIRKISYAGQLLPYF-SPASERKTDYPYFR-GACRHYGYPRQNC FPFQMGTFCRNQIAGPFYKKTDH-R-TKQRRNCSSGRYAGLPCCRSQNQCKRTDWSN-LSDRLLYSI-ERP-S-IAERHD-QNCCQPEKSHQYSLHP GSGL-LFRN-KRAAAFKNKKKRDRITKTACDVFLKRIHQFHLY-NR-RWGRKRPFYSNVCL-YHQRRIEN—RNQEIRKRSY-KNQTVHNH-ALK-L K-RIWFFIFYLVLSLKVFFINTHMKILMVCLGNICRSPLÄEGIMKTKVPDNFWDSAGTISLHEGEHPDKPJfflSLRSGEYFGETNQMVSLEGLTIT DTE YTHPYVDWHYHEKAYFTFLLQGTM1EGNRKE TYGCSAGTLLYHHWE DPHYN - 5'3' Frame 2- ■ 5'3' Frame 3 J QKCLQFMRDNLNAAEDNSDLKKLEKSFDMLFDKVQPLSLVAHMLTLIVPSDFYKEYIEDNYLSLLSAALKKNIGKGVKLWYSVMENRPKGEEKPVTM KIKGQSVPTPKTQETMPQGFSÄNIVTJPFWPGIRKVHIDSMLKPDYSFDSYVEGESNKFAATVARSIÄKRPGATAFNPLFLYGGYGVGKTHLGQAVG LEVKHQFPDKWLYLSSEKFIQQFISAAKAHKQTEFAHFYQMVDVLIIDDIQFLSGKSATQDSFFHIFDHLHQNGKQIILTSDKAPADIMDIQDRIV SRFKWGLSAEIKSPDLSTRRQIIEDKLSRDGIVLPGDMLDFLAAEAKTNVRELIGVINSVIAYSTVYKRDLSLELLKETINRIAANQKKVINIPYIQ EWCDYFGIKKEQLLSKIPjaffiIALPRQLAHYFSKEFTNSTFlKIGEEMGGKDHSTVMYACDTIKDVSKIDKEIKKYVKDLTERIKQ-IITEL-NH-NEESLYSSFFI-FCR-KSFL-ILI-KY-WFVWEIYAEVRWQKEL-KQKYRTTLW-TQQEPFHCTKENIRIKE-TAFVAANILGKPIKWSIWKD-PSP IRSILILT-TGIIMKMLISLFFYRAP-QKETEKKPTAVLQGHYCIIIGKIRTII RNAFSLCAIT-TLLKTILTLKHLKHLSICYSIRFSRFHWWPTTLR-SYRAIFTRHI-RIITCPCFLLP-RKILEKE-NYGIL-WKTGQKAKKSRLP-TSRDKAFLLRKHRKQCRRDSLPIL-THLWFLE-EK-I-ILT-NLTIHSIVM-KEKAINLQQL-PDRLQKDLEQQHLTHYSYMEVMELEKHTWDRLLV LK-KISSLIKLYFIYHLKSLSSMLSLLPKHTKRLNLRISIRW-MY-LLMISSSYQENQLRRTASSIFLITCIRTENRLSLLQIRRLQTLWISKTELF PVSNGDFLQKSNRR1FLQEDRSLKIN-AETELFFREICWTSLLPKPKPM-EN-LE-LTQ-SLTLQYIFJSTLVLNC-KKRLTELLPTRKKSSIFLTSR KWFVIISELKKSSCFQKQEKERSHYQDSLRCISQKNSPIPPLLK-VKKWEEKTILQ-CMLVIPSKTYRKLIKKSRNT-KILLKESNSK-SLSFKIIK MKMRCILHFLFSFVVKSLFYKYSYENINGLSGKYMQKSAGRRNYENKSTGQLCGRLSRNHFIARRRTSG-KNEQPS-RRIFWGNQSNGQFGRIDHHR YGVYS SLRRLALS-KCLFHFSSTGHHDRRKQKRNLRLFCRD11VS SLGRSAL-S - 3'5' Frame 1J- RL-CGSSp.—YKHVPÄEQP-V5FLFF5VMVPCKRKVK-AF5—CQST-G-WSVSVMVNPSKLTI-LVSPKYSPLRRLFILLSGCSPSCNESKPAES TTKLSGTFVFIIESASGLLHIFPRQTI[TIFI-VriKKTFNDKTK-KMKNTTILHFNYFKÄQ-LFTV-FFQ-DLLRI3-FLYQFSIRL-WYHKHTLL-WGLFLPFLHLF—RMJW-ILLRHTSQAVLVMRSLFFLFLKAAALF-FRN1JHKPLPGCKEY—LFSGHQQFC-SFLSAIQD-GLSYIL-SKRSLS-LL QSVLLHWFWLRQQG5PAYLPEEQFRLCLVYLQ-SVFL-KGPÄI-FLQKVPI-NGKQFCLGYP-CLQAPYLK-G-SVFESDAGDQKYGE3CPA-LIFL IRTGYHQ-SVHLESDRKEQIQSVCVLWQQR-IÄG-TFQMINKVQLYQGTDFLLQDQQPVPGVFFQLHNLHIGIMG-MLLLQVFLQSIWLQLLQIYCF LLLHHYRMHSQVSG-NLYLLFLFQEPQMGLQYWQRIPAALFPVFSE-ERFVP-C3W-PAFLRLLACFPSQNTIISLLFQYF33GQQKAGTGNYPLYI PCKNRSVRST-GCWPPMKAAEPYRIAYRKIFQVF-GQNCLQQRSGYRÄ-TEGIS ■ 3'5' Frame 2 dysadlpnddtqjslq^srrflfcfllswcpveek-nx:-:f:-:dn^ pqscpvllfs-fllpadfciyfpdkplifsyeyl-etrllttklnkk-kiqrffiliilklsdyllfdefskifyvfldffinfryvfdgitsihycr mvfsshfftyfskggigeff-eihrklsw-cdl3fscf-kqllffn3eiitnhfldvrniddfflvgsnsvnrffqqfktkvsliycrvsdh-vwys nqfsyigfgfgskevqhisrkkksvsa-fifndlsscrkvrrfdfcrkspfetgnwsvldihnvcrrli-skdnlfsv1mqviknmeeavlr3-fs- -eldiinnqyiyhlieirkfslfvcfgsrdklldklfr—ikynfirelifyfktnslsqvcfsn3it3i-e-wvkccc3r3fcnrsgyscckfiaf sfyitie-ivrfqvriyiyfsysrkhbchvykigreslrhcflcfrsrnalsldvhgnrlffafwpvfhhrip-fh3f3hiflqgsrkqgqviilyif lvkiarydqrkwghq-krlnlie-hierffkffkvrivfssvqviahklkafl - 3'5' Frame 3- IIVRIFRMMIQ-CPCRTAVGFFSVSFCHGAL-KK3EISIFMIMPVYVRMSILRIGDGQSFQIDHLIGFPKIFAATKAVHSFIRMFSFVQ-NGSC-vy hkwryfcfhnsfcqrtsayisqthh-YFHMSIYKKDF-RQN-ikneeyndssf-LF-S3VIIYCLIL3VR3FTYFLI3L3IFDT3IMVSQAYITVE HSFPPI55PILVKVELVNSFEKYIASCLGNAI5LFLVFE55CEFLIPK-3Q113BM-GILMTFFWLAAILLIV3F3N3RLRSLLYTVE-ÄITELITP ISSLTLVLASAARKSSISPGRTIPSLLSLSSMICLLVERSGDLISAESPHLKRETILSWISIMSAGALSEVRIICFPF-CR-SKIWKKLSCVADFPD KNWISSIISTSTI—KFANS¥CLCALAAEIRCHINF3DDK-STTLSGN-FFTSRPTACPRCVFPTP-PPYRtTNGLNAVAPGLFAIDIATVAANLLLS PST-LSNE-SGFRLESIFTFLIPGTTNGFTILÄENPCGIVSCVFGVGTLCPLMEMVTGF33PFGLF3ITEYHNFTPFPIFFFRÄÄE3RDR-L33IYS L-KSLGTIMVRLLATNESG-TLSHSISKDFSSFLRSELSSAAFRL3RIH-RHFC Predikce genů u prokaryot-základní postupy (bez využití specializovaných programů) 2) Identifikace potenciálních ORF. • Jak dlouhý má být „rozumný" ORF? Stop kodon se v nekódující sekvenci náhodně vyskytuje přibližně každých 20 kodonů. V úvahu se tedy berou ORF delší než třicet kodonů (reálně i delší). • Empirické pravidlo: Správný ORF = nejdelší ORF odpovídající danému úseku DNA. ,-c- s- 5'3' Frame 2-v QKCLQEMRDKLHAflEDN5DLKKLEK3FDř&FDKVQPL5LVR™LTLIVP5DFYKEYIEDWYLSLL5RALKKNIGKGVKLWY5VMENRPKGEEKPVTM NIKGQSVPTPKTQETMPQGFSAHIVHPFWPGIREÍVHrDSKLKPDYSFDSYVEGESNKFAATVARSIAKRPGATAFNPLFLYGGYGVGKTHLGQAVG LEVKKQFPDKVVLYLSSEKFIQQFISAAKAHKQTEFAHFYQMVDVLIIDDIQFL5GK5ATQD5FFHIFDHLHQNGKQIILTSDKaPADIMDIQDRIV SRFKWGLSAEIKSPDLSTI^QIIEDKLSRDGIVLPGDMLDFLAAEAKTKVRELIGVINSVIAYSTVYKRDLSLELLKETINRIAMÍQKKVINIPYIQ EWCDYFGIKKEQLLSKTRKREIALPRQ]y^MYFSKEFTKSTFTKIGEEMGGKDHSTVMYACDTIKDVSKIDKEIKKYVKDLTERIKQ-IITEL-NN-NEESLYSSFFI-FCR-KSFL-ILI-KY-WFVWEIYAEVRWQKEL-KQKYRTTLW-TQQEPFHCTKENIRIKE-TAFVAANILGKPIKW5IWKD-P5P IRSILILT-TGIIMKMLISLFFYRAP-QKETEKKPTAVLQGHYCIIIGKIRTII Predikce genů u prokaryot-základní postupy (bez využití specializovaných programů) 3) Ověření spolehlivosti predikce - je identifikovaný ORF skutečně součástí genu? • Kóduje ORF protein podobnýjiž popsanému proteinu? • Vyskytují se před/za ORF typické signální sekvence? • Statistické parametry sekvence: preference kodonů, obsah GC ^ 5'3' Frame 2 J-v QKCLQFMRDNLNAAEDNSDLKKLEKSFDMLFDKVQP NIKGQSVPT PKTQETMPQGFSANIVNPFWPGIRKVNIDSKLKPDYSFDSYVEGESNKFAATVARSIAKRPGATAFNPLFLYGGYGVGKTHLGQAVG LEVKNQFPDKVVLYLSSEKFIQQFISAAKAHKQTEFAKFYQMVDVLIIDDIQFLBGKSATQDSFFHIFDHLHQNGKQIILTSDKaPADIMDIQDRIV SRFKWGLSAEIKSPDLSTRRQIIEDKLSRDGIVLPGDMLDFLAAEAKTKVRELIGVINSVIAYSTVYKRDLSLELLKETINRIAANQKKV EVVCDYFGIKKEQLL5KTRKREIALPRQLAMYFSKEFTH5TFTKIGEEMGGKDH5TVMYACDTIKDVSKIDKEIKKYVKDLTERIKQ-IITEL-NN- NEESLYSSFFI-FCR-KSFL-ILI-KY-WFVWEIYAEVRWQKEL-KQKYRTTLW-TQQEPFHCTKENIRIKE-TAFVAANILGKPIKW5IWKD-P5P IRSILILT-TGirMKMLISLFFYRAP-QKETEKKPTAVLQGHYCIIIGKIRTII ORF Finder Open Reading Frame Finder ORF finder searches for open reading frames (ORFs) in Ihe DNA sequence you enter. The program returns the range of each ORF, along with its protein translation. Use ORF finder to search newly sequenced DNA for potential protein encoding segments, verify predicted protein using newly developed SMART BLAST or regular BLASTP. Sequence ORFs found: 136 Genetic code: 11 Start codon 'ATGrand alternative codons Choose Search Parameters 0 Minimal ORF length (nt): | 300 t | & Genetic code: 11. Bacterial. Archaeal and Plant Plastid ORF start codon to use: O ' ATG- only ® 'ATG" and alternative initiation codons Any sense codon Ignore nested ORFs: D Hl<=i ■=>I et LLT- q, btg a I Fnd: |_ I |5 K _ |4 K |G K Icjtf^T^y^ j 15 K 114 K |16 K |1S K |2S K |£2 K |24 K |26 K |28 K |39 K |32 K |34 K (U) ORFfindEr_2. ECS 0RF136 0RF22 | 0RF21 f3 I ORF45 I ORF; ■ 0RF46 K3I 0RF2 ■ ■ 0RF117 .15252631 ORF3 I ORFllb ■ i_ I -1 4" 0RF4S I 0R^114 0RF4P I ORF113 |£ K 14 K |6 K |8 X Tools- |0 Tracks- J. Download - $ f • |38 K |4S K |42 K |44 K |4S K j48 K |59 K 53,4 3RF24 _ KS 0RF134 0RF26 W ORF27 ■ ORF30 SSI 0RFE8 KS I ■ 0RF112 0RFE2 ■ 0RFE3 h CI ORF109 EJ 0RF77 CJ ORF 102 ■ 0RF98 I URFl-iU I ORF72 ■ CJ 0RF133 Fl 0RF81 0RF6 ■ ORF54 ■ I 0RF82 ■ ORF79 | URF1U8 □RF28 ■ 0RF31 ES ORF11 ■ ■ ORF132 I ORF100 ORF59 3RF8 " 3 0RF76 ■ ORF74 0RF34 | _ ORF125 ORF15 _ 0RF41 _ 0RF43 3CSK ■ 0RF91 0RF39 ■ 0RF17 ■ K3 ORF6E E 31 0RF71 0RF62 H3I 0RF16 ■ ■ 0RFB7 ORF19 ■ CI M 0RF126 I ORFGG 0RF43 | ORF20 KESI 0RF36 531 ■ ORF89 0RF42 E3i I ORF121 S ORFllt 0RF2E I ■ ORFlll ORF 5 I I ORF80 I IS K 114 K |: 16 K 118 K M ORF78 ■ ORF133 ORF57 ■ 0RF32 ■ ORF60 53 0RF61 ■ 0RF38 I ORFEE ■ 0RF9 _ _ 0RF7E _ 0RF97 ■ 0RF12S El 0RF99 0RF7 ■ ORFEE __ _ 0RF99 ORF1E1 __ n 0RF9E _ ORF 124 ■ ORF105 I ORF101 I 0RF73 | 0RF129 0RF37 E3 I ORF106 0RF29 ■ 0RF12 13 | ORF7S I LIRF107 I ORF104 0RF33 | 0RF13 H fl 0RF69 I 0RF131 I 0RF9G ■ 0RF93 0RF14 ■ ■ 0RF127 ORF35 I ■ 0RF94 ■ 0RF92 20 K |£2 K |24 K |26 K |28 K |33 K |32 K |34 K 136 K |3B K |4B K |42 K |44 K |46 K |48 K |53 K 53,46: _ ORF123 Kl 0RF86 3RFG3 0RF44 km ■ DRFSS ■ ■ 0RF66 |0RF1. ■ 0RF122 I LIRF12M ORF1S I I ■ 0RF87 1: 1..53K nt) ^Jj Tracks shewn: 2/5 Choose Search Parameters Minimal ORF length (ntl 600 Genetic code: 11. Bacteri aeal and Plant Plastid '©i ORF start codon to use: O "ATG" only ® "ATG" and alternative initiation codons ORFs found: 44 Genetic code: 11 Start codon: 'ATG' and alternative codons Nested ORFs removed b I F*d: I_ ^ Tools - | ^ Tracks - ^ Download - $ f (U) ORFfindsr_2.€.153742 ■31 LIRF44 OF 0RF7 E3 ORFS CZ3C ORF20 531 □ 0RF39 |2 K j4 K |G K |8 j 14 K j 16 K |18K |£S K |22 K |24 K |26 K |28 K |30 K |32 K j34 K |36 K |38 K |4S K |42 K |44 K |46 K |43 K |56 K 53-.463J 1 1 1 1 1 1 1 uu1 1 1 1 1 1 ' ' ' ' ' ' ■ v * HRF9 ES ~~ 0RF43 ORFlü SSI CJ ORF31 ORFll HSfl ORF24 KS KCfli 0RF41 KS ORF40 ORF4 E3 0RF18 KKSK 0RF22 rJ 0RF23 U EJ 0RF3S CJ ORF3G K3 0RF33 0RF14 KS 0RF2E KS ORFE ■ Kl 0RF27 ü El ™ ORF33 CJ 0RF42 ■ 0RF37 0RF12 IS K£S| ORF29 0RF16 ■ 0RF26 KS) ORFS BE91 ■ LIRF32 WM LIRF35 UTM 0RF34 0RF17--0RF19 ffJ □RF3 n Kl 0RF28 0RF2 13 ORF15 EX 0RF13 rm |12 K |14 K |16K |1SK |20 K |22 K |24 K |26 K |28 K |3B K |32 K j34 K |3G K |33 K |4S K |42 K |44 K |46 K |48 K |EB K E3,4Gt^ 1: 1..53K (53,46& nt) 0 Tracks shown: 2/6 ORF Finder ORF1 (804 aa) Display ORF as... Marií slclIOíFl >lDMIHPGS5LDKAETJTRVKNVSTDVKHGQEQERKR'JFIYItK:NDDISSíF KLYSSLVKQKNATEDWLIGK.^1ILDEV:!SY:!THN[>RNIVSNSGNUKTSF LCHLftRLLYSIFNGSNrFCSREGENNSSSSTLLTHQPEKQELLQQKSIK HLPTSNNIDGYIKIRKTRůAEDQTTTITQSLIINELLKVDRNTIP=QKIS E LNDIIHSYEPIMQEKNSRKGIEILVKQGELLSSLENVNKGNKQLSDrjASK IIHLLGIEYQSHKVIUEPFIHAVHVÄGÄPPDNTFSriTAFLNTYKDYTYL LHDPHAFGřWKFSGILKMIflMMYftlMRLlRTNHLAEEHNEVILKIQNIllN ETIE-KET^E^LKELENRYKSLTSETKEKFNVFFLESFiliä^QDNY-TYCE SNGISNTDDISiLDFLTNVLKLSPEVQNDFKSTVEK'JKRDIDL LKNTISQ IÍHDR = QLÍDiriTLESFi;iíP(3DY==YQQEMLL:!WNY.™SK3VRirjILi;EY ggiytdtdi lp a y5dkvsqii ne ksddk í f f edl c l r r11s e si _s -1