Počítačové vyhledávání genů a funkčních oblastí na DNA Hodnota genomových sekvencí záleží na kvalitě anotace • Anotace - Charakterizace vlastností genomů - s použitím výpočetních a experimentálních metod • Hledání genů: - Predikce - Kde jsou geny lokalizovány? - Podobnost - Jak geny vypadají? - Domény - Jakou funkci mají kódované proteiny? - Funkce - V jakých metabolických drahách? - Evidence - Experimentální důkaz genu • Transkriptom • Proteom Hledání genů • Geny tvoří obsahovou složku genomu - Jedinečné sekvence odpovědné za funkční produkt • Variabilní délka • Strukturní geny - jednoduché - složené z exonů a intronů - Geny pro funkční RNA • rRNA (ribosomal RNA) • tRNA, tmRNA (transfer RNA) • snRNA (small nuclear) • snoRNA (small nucleolar) • RNAi (interfering RNA) • CRISPR lokusy - Regulační sekvence (ori, promotory, terminátory) Co nás zajímá při hledání genu U necharakterizované sekvence DNA zjišťujeme: - Která oblast kóduje protein - Který DNA řetězec je kódující - Který čtecí rámec je využíván - Jaké jsou koordináty genu - Kde jsou hranice exonů a intronů - Kde se nacházejí regulační sekvence - Jaká je modulární struktura genomů Přístupy pro hledání genů 1. Metody založené na hledání podobností s již popsanými geny 2. Metody srovnávací genomiky • Srovnání více dokončených genomů • Hledání konzervativních oblastí 3. Využití algoritmů a statistických metod pro analýzu sekvence 4. Integrované přístupy, automatické anotace Integrovaný přístup při expertní anotaci genomů EHon_ Regions similarity to Human gene shown in Red l~i DO ÍTI li Several BLASTX □D similarities in this line The three forward/-^ reading \ frames [ MM II I I m d o a a a I I I i "III I Codon Usage gene prediction Potential Start Codons I lllll I Mill III II I II II II O KD O m O KD C I II III II Hl-—-I ŕ— Ml I II I II I I |-*- Stop Codons íl _■ '■ -Features: PolyA signals o o in o o o o D Scale (bp) Total Coding Region Příklady velikostí genomů Druh Velikost Genů Genů na Mb H. sapiens 3 200 Mb 22 000 7 D. melanogaster 137 Mb 13 338 97 C. elegans 85,5 Mb 18 266 214 A. thaliana 115 Mb 25 800 224 S. cerevisiae 15 Mb 6 144 410 E. coli 4,6 Mb 4 300 934 Prokaryoticky versus eukaryoticky gen Prokaryotický versus eukaryotický gen vyžadují odlišné přístupy • Prokaryota - malé genomy 0.5 - 10-106 bp - Vysoká hustota kódujících sekvencí (>90%) - Žádné introny (výjimky Archea, fágy) - Hledání otevřených čtecích rámců - Doplněno napr. hledáním signálů pro vazebná místa ribozómu - Operony: jeden transkript, mnoho genů - Úspěšnost cca 99 % - Problémy: překrývající se ORFs, krátké geny, místa TSS a promotory • E u karyota - Velké genomy 107 - 1010 bp - Nízká hustota kódujících sekvencí (<50%) - UTRs - Struktura intron/exon - Statistické modely frekvencí nukleotidů - Sledování závislostí přítomných ve struktuře kodonů - Obsah GC - Přesnost dosahuje cca 50 % - Problémy: mnoho! • postranskripční modifikace • alternativní sestřih 1. Metody založené na hledání podobností s již popsanými geny • Založené na konzervativním charakteru sekvencí s určitou funkcí • Využívají nástroje pro lokální nebo globální přiložení sekvencí (BLAST, FASTA, LAGAN, AVID, atd.) • Nemohou identifikovat geny, které nejsou v databázi (~50% genů) • Omezení u sekvencí s nízkou podobností Metody založené na hledání podobností • Databáze - Proteiny - cDNA (evidence RNA) - EST, UniGene • Nástroje pro párové přiložení sekvencí umožňující analýzu genů - Hledání genů na základě podobnosti sekvencí proteinů • blastx • tblastn • fastX • genomové prohlížeče • Neumožňuje nalézt geny, které nejsou v databázi Odhalení genů eukaryot s použitím ESTs • Expressed Sequence Tags (ESTs) reprezentují sekvence exprimovaných genů (cDNA). • Jestliže se oblast shoduje s EST s vysokou stringencí, pravděpodobně se jedná o gen - EST podává přesnou predikci hranic exonů. 2. Srovnávací genomika -hledání na základě homologie • Hledání založené na předpokladu, že kódující sekvence jsou více konzervativní než nekódující • Dva přístupy: - intra-genomický (genové rodiny) - inter-genomický (mezi druhy) • Mnohonásobné přiložení homologických oblastí - exony - regulační oblasti • Obtížné stanovení limitů podobnosti a optimální evoluční vzdálenosti Co je srovnáváno? • Lokalizace genů v genomu • Struktura genů - Počet exonů - Délky exonů - Délky intronů - Podobnost sekvencí • Vlastnosti genů - Místa sestřihu - Využití kodonů - Konzervované sekvence Evoluce na úrovni DNA - Problém globálního přiložení Delece Mu J—í Mutace .AC 3T< CAGT ACCA... 1 .AC—CAGTCCACCA... Výsledná sekvence PRESKUPENÍ Inverze Translokace Duplikace - Nalezení nejefektivnější transformace jedné sekvence do druhé vyžaduje využití přístupů pro identifikaci přestaveb Human Mouse Rat Příklad srovnání lokusů a chromozómů Charakterizace rozdílů umožňuje odhalit mechanismy změn II um mi Locus: IIIJMPCNA Alignment Parsi Mouse Locus: M M PCN AG Proč používat přístupy srovnávací genomiky ? Konzervovanost sekvencí v průběhu značných evolučních vzdáleností značí specifickou funkci (geny, funkční-regulační oblasti) Ztráta konzervovanosti během krátkých evolučních vzdáleností značí adaptivní evoluci 1 Vista Browser 2.0 - Netscape Curve View Help + - P Control Panel Reference (Base) genome: Human July 2003 Position (gene name or chrX:start-end): ;hr13:69,595,483-71,312,411 Go] Gene annotation: RefSeq genes 3 more organisms: select/add * R onus: Auto Color Legend Annotations: Repeats: J-Gene *" LINE Exon UTR CNS Contigs: Contig □ verlap LT R . SINE : RNA : DNA Other BROW SERS MENT -1-1— 1IJ _i_i_ -1-1— _i_i_ —i-1— _i_i_ —i— 7D.4M j 1. Nov. 2003 chimpanzee Arachne assembly, NCBI Build 1 Version 1 (UCSC: panTrol) (LAGAN) [TPOWN 2. Oct. 2003 Mouse Genome Assembly (MLAGAN) 3. Feb. 2004 Chicken Genome Assembly (UCSC: galGal2) (LAGAN) 4. FuguAug. 2002 [SLAGAN) Window resized: 1016x503 -1-1— _i_i_ —i-1-1— TIM 71.;w 50^ \CI0X 5ÜU 1ÜQV uď. W\ ň.ltnRRSÍ7R • šimpanz • myš • kuře • Fugu Konzervativní charakter regulačních oblastí a exonů Základní zdroje a přístupy • Databáze - NCBI: Genomy, Geny, Proteiny, SNPs, ESTs, Taxonomie, atd. - databáze genomových center • Analytický software - Databázové dotazy (nalezení podobných sekvencí), algoritmy pro přiložení, shluková analýza, vyhledávání repetic, predikce genů • Algoritmy pro dlouhá globální přiložení - lokální přiložení s rozšířeným vkládáním mezer - citlivé, ale málo specifické pro dlouhé sekvence • BLASTZ • BLAT - globální přiložení • AVI D • LAGAN • S-LAGAN • M AVI D, M LAGAN AVID • Umožňuje srovnání pouze homologních sekvencí bez duplikací, inverzí nebo translokací • Pokud je aplikován na celé genomy, vyžaduje předem přípravu a identifikaci vzájemně si odpovídajících regionů LAGAN (Limited Area Global Alignment) • Umožňuje srovnat mnohem delší sekvence než AVID v důsledku jiného algoritmu pro identifikaci vzájemně odpovídajících si úseků • Používá se společně s následným lokálním přiložením dlouhých sekvencí (BLAT) - rat - mouše - rat - human Multi-LAGAN (MLAGAN) • V porovnání s LAGAN provádí navíc mnohonásobná globální přiložení • Nejprve provede přiřazení více příbuzných genomů a následně přiřazuje genomy více fylogenetický vzdálené • Umožňuje konstrukci fylogenetických stromů na základě globálního přiložení genomů Shuffle-LAGAN (S-LAGAN) • Slouží pro globální přiložení kompletních sekvencí genomů • Detekuje genomová přeskupení a inverze • Poskytuje přiřazení všech kombinací vložených sekvencí S-LAGAN: příklad algoritmu \ \ j \ \ \ \ 1. Nalezení lokálních přiřazení 2. Sestavení hrubé mapy homologií 3. Globální přiřazení dle odpovídajících si časti S-LAGAN: příklad algoritmu 1. Nalezení lokálních přiřazení 2. Sestavení hrubé mapy homologií 3. Globální přiřazení dle odpovídajících si časti S-LAGAN: příklad algoritmu 1. Nalezení lokálních přiřazení 2. Sestavení hrubé mapy homologií 3. Globální přiřazení dle odpovídajících si časti Precomputed alignments • U významných skupin organismů jsou k dispozici rozsáhlá mezidruhová srovnání - UC Santa Cruz/PennState (translated BLAT or BLASTZ) - Berkeley Genome Pipeline (BLAT/AVID) - Ensembl (Phusion/Blastn) - Vista Genome Server (LAGAN/SLAGAN/AVID) - NMPDR (National Microbial Pathogen Data Resource) I —Phusion/blastn —WABA | Genome Browsers ~3 fri H. Sapiens (via NCBI-annotation April 2002) IllkUrpc I lUII-k. I -1 ■■ I- -1 • .11 c h II S-iriiJ H n......C €■ ININC. ÍJGIIť! HJmĚ. louii. Or Ol her IHIKIIIUIL. Thr wilchitrclch^rjcE^r ' r.,i1k>wrd. lYarnph^ ílirřů. Citri Sň,OŮfP..I SO.OOÜ, AU I ,'J1 f.li, Ulii/I l,BRtAř, tycNn. IHeFpl In : .-Ii"!-- (Hl i ■■■ - ■■ ťlitkTht ruler.: -. ■,l„- I i......OUttOlH IC = Ii i.|.--ilk ir i-T- ,11 ní [iiv.ii :i)ii. I <,.!!.■ I Hr. h i.^-n. :>..ol in.i'k I Iii^i link. I jndiru.il: 01 H-píiion r Data 3our« Ihimpy \rartrir% and pthf r OpcralcDm n^T73 l^...-. ■ „.,. n,. ....... r.,.., T] Aht.J J frirňiju:H E Tracks rUirti^ U»rkrj* F.rl'Aft r í Idiil-s fC.vTviTTitt P LaiiiiUňk fUMt rAiicniulv tflinpmicrUi r |Hl Jil Pail im**! IUI mob Ffttfiťq TidiibaipLv riVTtůrUiqv Imme Width Ker [xi mi i.. 11 ram rt4U p^oy r 10^4 i^eptwron re --■ I "i - ■ ;■ ■■ I I.ViIiJh frng- Upload your o Upload a file' ■ r*|w 1 Add icmolc aimotal ran*. [Hclpl I Mei Rf iTiötf Annůtatiún llRI | j Map Viňw&r Search |H*!lmit]ri|iim!ini OtdiMsrinE, http://www,en5embl.org/ el """Ensembl Ensembl Genome Browser g The Wellcomt T > Sanger Insliti el ... .- ; and the to develop a son.v are vyvio!:; which p. ÍTiairiainS SiT!Í=t!C Accessail the :isrí ■-BisefrikJ'presents up-to-date s ^posSfc.-aiitbrriatlc annotation 1 Available now are human, moi Others will be added soon. For an introduction to the Ensembl project, t; t< ur, and tben 30 through a step-by-step wbich introduces Ensembl's main functions. jimsnce d?ta an i the oesf S'.h:?':• stic genomes. , and ■ Nucleic Acids Resesrcli e Ensembl • Ensembl Species 2 Dec 2002 2 Dec 2002 25 Nov 2002 1 S Nov 2002 1 S Nov 2002 2 Dec 2002 Help and documentation ► Species-speciiIt.^uctiraetit'atlCifijs available via the species home pages shove. *■ Takethe ■■■ , go through a step-by-step .^vo example, or read this short . in Nucleic Acids Research. ► For context-sensitve help on any web page ciicn Generic Genome Browser (CSHL) NCBI Map Viewer www.wormbase.org/db/seq/gbrowse www.ncbi.nlm.nih.gov/mapview/ Ensembl Genome Browser www.ensembl.org/ Ease Fosit ion Chromosome Band STS Markers Gap DGS1 ENST00090S5S137 Genscan Genes MUS BC013711 MUS AF037256 Drosoph flV069792 Mouse Blat s, e 5, e 4, e Mouse cons 3.e lastz Best Mouse Random SMFs 160669091 16067000| Chromosome " 22ql 1 ,21 STS Markers on Genetic {blue} and Radiation Hybrid (black> Maps pap LJ-'r^r ^r^-'l RefSeq Genes ,E.nsei ■mbl Gene Fredi Genscan Gene Predictions Monhuman mRNňs from Genbank Mouse Translated Elat Alignments Human/Mouse Evolutionary Conservation Score L ii Elastz Mouse Best in Genome Alignments Single Nucleotide Polymorphisms (SMPs} from Random Re. [»] http://www.bdgp.org/annot/apollo/ Apollo Genome Annotation and Curation Tool ■ H UCSC Genome Browser genome.ucsc.edu/cgi-bin/hgGateway?org=human Apollo Genome Browser www.bdgp.org/annot/apollo/ Vista Tools http://genome.lbl.gov/vista/index.shtml j^*^ Tools for Comparative Genomics ^ 3 About Us cttslfs íQ\ Contact Lil VI-STA Home Custom Alignment Browser Enfiancer DB Downloads Publications Help This web site will be down for maintenance on Tuesday Nov. 11, 2014. Sorry for the inconvenience. VISTA i j a comprehensive suite of programs and databases for comparative analysis of genomic sequences. There are hvo ways of using VISTA - you can submit your own sequences and alignments for analysis r\/l5TA servers) or examine ore-computed whole-genome alignments of different species. Submit Your Sequences m VISTA GACAC I I I I GACAT » mVI STA Align and -compare your sequences from multiple » rVI STA Locate regulatory sequences In your data using comparative sequence analysts, and transcription Factor binding- site search. » qVI STA Compare your sequences agairtst whole-genome assemblies. » wqVI STA Align pair of seguen-ess up to 'Oh^b long {finished or draft} including microbial whole-genome- assemblies. Pre computed Alignments VISTA Browser » VISTA-Foint Access complete data ans visual presentation, of paiwise and ■multiple alignments oi whole geronr.e as semblies. » VI-STA Browser Exam Ire pre-computed pairwtse and rr-u-ltipre align mer-ts of whole gerome assemblies. » Whole Genome rVI-BTA Identify transcription factor binding sites that are conserved between species ar-1 over-rep re sen-ted in upstream regions of ^■■■_c= _~ 2 = r = = » Microbial Genomes Accesa pre-computed full scaffold alignments for microbial genomes through the VISTA component of fMG. Nevv tool fmrri VlSTMamlly! VI-STA Region VieVdSr |R'/is-ve-r: is an interactive on-line tool for corn paring and pnoritbring genomic intervals. April 2014 Mate ktedh Updates i hum, ManVey I i Soy bear :■ new plants: C. i roz^cress. Turnic nrlstars, A. haltari. arc Half = psricjr-ass. IK New whole-genome plant alignments are added to VISTA Browser. August 201J UpiateD rre C <~ = arc C. br^^=ae assemblies-, and added 5 new worms: C. brer reri. C. remarei. C. pacon-ica. C. =□. ''. ar-d C. arcana. » Vista News Archive Enhancer DB JGI Genome Portal » Other Projects Ex peri mentally validated -human noncoding fragments with gene enhancer activ ity as-assessed in. transgenic mice. h-ttp: //enhancer. Ibl.gov.1 Find VISTA alignments for a number of genomes sequenced in the Departmert of Energy Joint Serrjm.e Irstitu-te http:v-:.er:ome.i:ri-psf.ora/' Flivto-VISTA TreeQ-Vtsta FGA VISTA Browser: Alignment Details 3. Predikce kódující oblasti na základě hledání signálů (ab initio) • Využívá pouze sekvenční data a výpočetní přístupy integrující analýzu sekvence a detekci signálů • Pro kary ota - Hledání otevřených čtecích rámců doplněné hledáním konzervativních signálů v transkripčních jednotkách - ORF Finder (Open Reading Frame Finder) http://www.ncbi.nlm.nih.gov/gorf/gorf.html • Eu kary ota - Predikce promotorů - Predikce polyA-signálů - Predikce míst sestřihu a start/stop kodonů Klíčové signály pro odhalení genů • iniciační a terminační kodony • promotory • vazebná místa pro ribozómy (RBS) • místa sestřihu • terminátory transkripce • polyadenylační místa • vazebná místa pro transkripční faktory Struktura prokaryotické transkripční jednotky RBS RBS RBS promotor gen (CDS) \ gen (CDS) \ gen (CDS) terminátor start \ \ stop operon Struktura prokaryotického genu Přepisovaná oblast start kodon stop kodon / X 5' Kódující oblast 3' \ Nepřekládané obíastUJJTE^ Promotor \ ▲ Začátek transkripce Terminátor transkripce *-upstream (proti směru transkripce) downstream (po směru)-► Konzervativní struktury v promotoru pro kary o t mRNA ■PuPuPuPiťiťififu ' 1 AUG -30 -10 +1 Promoter | transcription start site -30 region -10 region TTGACA AACTGT TATAAT ATATTA ■36 -31 TTGACA 82 84 79 64 53 45% mRNA -12 -7 Pribnowbox TATAAT 79 95 44 59 51 96% +1 +10 +20 Ribosomal binding site (RBS) GGAGG consensus sequences Signály v jednoduchém strukturním genu fem gene _ 1 ATATGGTCAGTGCATATAAAATTTGTTATCATTAGAGTAATTAAAGGl'CATTTAATAACTTTTGGAATCA 70 71 ATTGGAGGTTCTCAT^BlTATCTTTTAGTCAAAATAGAAGTCATAGCTTAGAACAATCTTTAAAAGAAG 140 141 GATATTCACAAATGGCTGATTTAAATCTCTCCCTAGCGAACGAAGCTTTTCCGATAGAGTGTGAAGCATG 210 211 CGATTGCAACGAAACATATTTATCTTCTAATTCAACGAATGAATCATTAGACGAGGAGATGTTTATTTAG 280 281 CAGATTTATCACCAGTACAGGGATCTGAACAAGGGGGAGTCAGACCTGTAGTCATAATTCAAAATGATAC 350 351 TGGTAATAAATATAGTCCTACAGTTATTGTTGCGGCAATAACTGGTAGGATTAATAAAGCGAAAATACCG 420 421 ACACATGTAGAGATTGAAAAGAAAAAGTATAAGTTGGATAAAGACTCAGTTATATTATTAGAACAAATTC 490 491 GTACACTTGATAAAAAACGATTGAAAGAAAAACTGACGTACTTATCCGATGATAAAATGAAAGAAGTAGA 560 561 TAATGCACTAATGATTAGTTTAGGGCTGAATGCAGTAGCTCACCAGAAAAATTAGGCGTCTATTATATGT 630 631 AI I I I ICAGAGATAAATAAAATATTGATATAAAAGACAATAACTTTATAATAATTATAACTATTTCTAAA 700 701 TTCTGTACGAAGAATTTTCTTATAAACAAAGATTTTAGCAAATACCAGTTATGATATTCATAI I I I I I AT 770 771 TATAAAAGGATGTCTTAAGI I I I I IAGGCTTTAGGTATTCCATCCTAAAGI I I I I I I IAGCTTAAAAGTA 840 841 TCATCTACAGCAAAATTGCAAACGACAAAATTGATAAGTGCAATTAAATAAATGTTAGTAAGTGAATCAT 910 911 AATTATCCTTGCTTAAGCATTTGCTTTGTAAGGGAAGTGAGGAGGCAACTAATCG 965 rsbU gene putative promotor putative RBS sta r| stop terminator start codon typical protein coding state atypical protein coding state stop codon)- »C RBS ^—^ spacer ^—^ CDS ^ gene J- Model pro hledání jednoduchých genů isolated gene intergenic region overlapping genes series <-i Signály - senzory ve struktuře eukaryotického genu Start codon codons Donor site GTGAG Transcription start Exon Promoter Acceptor site Intron Stop codon GATCCCCATGCCTGAGGGCCCCTC Poiy-A site G G C AG AAACAATAAA WW t Metody pro vyhledávání signálů • hledání konvenční sekvence spolu s možnostmi přípustných odchylek • použití vážených matic - každá pozice vzoru signálu připouští shodu s jakýmkoli zbytkem - různé zbytky mají v každé pozici přiřazenou jinou významnost Příklad konsenzní sekvence signálu • Získána výběrem nejčastěji se vyskytující báze v každé pozici mnohonásobného přiložení příslušné subsekvence našeho zájmu TACGAT TATAAT TATAAT GATACT TATGAT TATGTT konsensus sequence PBHSBn konsensus (IUPAC) TATRNT • Vede ke ztrátě informací a získání mnoha falešně pozitivních i negativních výsledků Příklad poziční vážené matice Vyjadřuje frekvenci každé báze v každé pozici příslušné sekvence TACGAT 12 3 4 5 6 TATAAT A 0 6 0 3 4 0 TATAAT C 0 0 10 10 GATACT G 1 0 0 3 0 0 TATGAT T 5 0 5 0 16 TATGTT Skóre každého předpokládaného místa je vyjádřeno součtem hodnot z matice (převedeno na pravděpodobnosti) Nevýhody: - Je vyžadována hraniční hodnota - Předpokládá nezávislost sousedících bází Príklad signálu RBS (vazebné místo pro ribozóm) Vazebné místo pro ribozóm (RBS) a iniciační kodon ATG u E. coli Predikce míst sestřihu Intron Exon 1 GU' ■A- (Y),AG Exon 2 c ^ph^ 11 '^^^ I I LJ ^^^^ GC GCfAf A Afi CGWbUG 5' splice site Branch site AaaAAG^Ga 3' splice site Pozičně vážená matice pro odvození donorového místa sestřihu Donor site 5' Příklad signálů: místa sestřihu (myš) Statistická analýza sekvence predikovaného genu • Důležité je posouzení charakteru sekvence - délka genu - frekvence využití kodonů - obsah GC (indikace horizontálního přenosu) - GC skew a AT skew • GC skew = (G - C)/(G + C) • AT skew = (A - T)/(A + T) - statistické modely modely frekvencí nukleotidů (využití hexamerů) - periodicita nukleotidů Testovani exonu AA codon /1000 frac Ser TCG 4 .31 0 . 05 Ser TCA 11 .44 0 .14 Ser TCT 15 .70 0 .19 Ser TCC 17 . 92 0 .22 Ser AGT 12 .25 0 .15 Ser AGC 19 .54 0 .24 Pro CCG 6 .33 0 .11 Pro CCA 17 .10 0 .28 Pro CCT 18 .31 0 .30 Pro ccc 18 .42 0 .31 Codon usage database: http://www vyuziti kodonu AA codon /1000 frac Leu CTG 39. 95 0 .40 Leu CTA 7 . 89 0 .08 Leu CTT 12 . 97 0 .13 Leu CTC 20. 04 0 .20 Ala GCG 6. 72 0 .10 Ala GCA 15. 80 0 .23 Ala GCT 20. 12 0 .29 Ala GCC 26. 51 0 .38 Gin CAG 34. 18 0 .75 Gin CAA 11. 51 0 .25 kazusa.or.jp/codon/ Obsah G+C - příklad využití pro identifikaci mobilního elementu GC skew - příklad využití pro identifikaci počátku replikace AT skew - příklad využití pro identifikaci kódujícího vlákna DNA AT skew Frekvence hexamerů - rozlišení mezi kódujícími a nekódujícími oblastmi • Rozdíly v distribuci jiných oligonukleotidů než kodonů (tri-nukleotidů) odráží závislosti mezi sousedními aminokyselinami v proteinech 50 40 :