IV107 Bioinformatika I -Přednáška 4 Anotace sekvence a genů Anotace genomů Identifikace genů Homologie a podobnost Příště Bioinformaticke databazy n [ Před týdnem IV107 Bioinformatika I -Přednáška 4 Anotace sekvence a genů Anotace genomu dentifikace genů Homologie a podobnost Příště Existují techniky pro manipulaci, modifikaci, kopírování a detekci DNA, RNA a proteinů. ► rekombinace a klonování DNA ► PCR ► hybridizace DNA a RNA ► měření aktivity proteinů ► DNA čipy, microarray, proteinové čipy ► zjišíování sekvence Outline IV107 Bioinformatika I -Přednáška 4 Anotace sekvence a genů Anotace genomů Identifikace genů Homologie a podobnost PriSte Bioinformaticke databazy Anotace sekvence a genů Anotace genomů Identifikace genů Homologie a podobnost Bioinformaticke databazy Sekvence DNA IV107 Bioinformatika I -Přednáška 4 >P12345 Yeast chromosomel GATTACAGATTACAGATTACAGATTACAGATTACAG AT TACAGATTACAGATTACAGAT TACAGAT TACAGA TTACAGAT TACAGAT TACAGAT TACAGAT TACAGAT TACAGATTAGAGATTACAGATTACAGATTACAGATT ACAGATTACAGATTACAGATTACAGATTACAGATTA CAGATTACAGATTACAGATTACAGATTACAGATTAC AGATTACAGATTACAGATTACAGATTACAGATTACA GATTACAGATTACAGATTACAGATTACAGATTACAG ATTACAGATTACAGATTACAGATTACAGATTACAGA TTACAGATTACAGATTACAGATTACAGATTACAGAT Anotace sekvence a genů Anotace genomů Identifikace genů Homologie a podobnost Příště Bioinformaticke databazy n [ Anotovaná sekvence DNA IV107 Bioinformatika I -Přednáška 4 >P12345 Gen1 - protein alkoholdehydrogenáza TATA TATAAA CGAT TGACGATGACGAT start ATG exonl TACAGATTACAGATTACAGATTAAGATGT intron1 CAGATTACAGATTACAGATTACACAGATTCA exon2 AGATTACAGATTACAGATTACAGA stop TAA Anotace sekvence a genů Anotace genomů Identifikace genů Homologie a podobnost PriSte Bioinformaticke databazy >P12346 Proteinl MASAQSFYLLDHNQNQNFDDHLAVDIVMILSHERFMN Anotace genomu IV107 Bioinformatika I -Přednáška 4 Anotace genomu IV107 Bioinformatika I -Přednáška 4 Anotace genomů http://www.ensembl.org/ IV107 Bioinformatika I -Přednaška 4 Anotace sekvence a Anotace genomů Homologie a podobnost Příšte Bioinformaticke databazy Způsoby identifikace genů in silico ► Experimentální metody (cDNA, EST) ► Komparativní metody + Selekční tlak + Druh zachovaných mutací ► Strukturní metody (GeneMark, GeneScan.GeneID) ► Detekce charakteristických signálů Identifikace genu podle charakteru mutací IV107 Bioinformatika I -Přednaška 4 Anotace sekvence a Identifikace genu Homologie a podobnost Příšte Bioinformaticke databazy Využití známé struktury genů IV107 Bioinformatika I -Přednáška 4 Anotace sekvence a dentifikace genů Homologie a podobnost Příště ► intergenová DNA ► geny + kódující protein statistika sekvence ► ORF exon/intron (u eukaryotů) promotor ► RNA geny (rRNA, tRNA, jiné) U prokaryotů 95-100% spolehlivost, u složitějších eukaryotů 90% na úrovni bazí, 70% na úrovni exonů/intronů ► existence intronů ► větší genomy ► nízká hustota genů (<30%; 3% u Horno sapiens) ► alternativní splicing (zhruba u poloviny genů) ► velké množství repetitivních sekveních ► občasný překryv genů Struktura genu (prokaryoticka) IV107 Bioinformatika I -Přednaška 4 Anotace sekvence a Identifikace genu Homologie a podobnost Příšte Bioinformaticke databazy n [ Vztah transkripce a translace ů prokaryotů IV107 Bioinformatika I -Přednaška 4 Anotace sekvence a Identifikace genů Homologie a podobnost Příšte Bioinformaticke databazy Struktura genu (eukaryoticka) IV107 Bioinformatika I -Přednaška 4 Anotace sekvence a Identifikace genu Homologie a podobnost Příšte Bioinformaticke databazy Typické sekvence v eukaryotických genech IV107 Bioinformatika I -Přednáška 4 Anotace sekvence a ► Enhancer idonifJUono ► Promotor + vazební místo transkripčního faktoru (aktivátor, represor) »- TATA-box 5'-UTR + Začátek transkripce Kódující oblast + Začátek translace (často ATG) »- exony *■ introny donor (ag/GTaagt) akceptor (cAG/gt) ► lariat (CU[AG]A[CU]) »- terminátor translace (stop kodon = UAG—UAA—UGA) 3'-UTR polyadenylačnísignál (AATAAA) Příště Bioinformatické databázy Sestřih mRNA IV107 Bioinfořmatika I -Predn^Ska 4 □ g - = -š|= -Ot^o Sekvenční logo intronu IV107 Bioinformatika I -Přednáška 4 detaily sestřihu IV107 Bioinformatika I -PřednaSka 4 Identifikace genů podle struktury IV107 Bioinformatika I -PřednaSka 4 Úspěšnost identifikace genů IV107 Bioinformatika I -Přednáška 4 Gůigo et al, Genome Biology (2006) a> - ■» * * ^>q.o Príbuzné geny mají podobnou funkci i sekvenci Rost studoval proteiny s rUznou sekvenCní podobností. Zjistil, Ze kdyZ je víc neZ 30% aminokyselin identických, proteiny mají velmi podobnou strukturu. IV107 Bioinformatika I -Přednaska 4 Anotace sekvence a genu Identifikace genu Homologie a podobnost Příste Bioinformaticke databázy n [ Rost - prostor podobnosti IV107 Bioinformatika I -PřednáSka 4 Anotace sekvence a genů Identifikace genů Homologie a podobnost Příště Bioinformaticke databazy Sít proteinů podle sekvenční podobnosti IV107 Bioinformatika I -Přednaška 4 Anotace sekvence a genů Identifikace genu Homologie a podobnošt Príšte Bioinformaticke databazy Proteiny přepojena podle sekvnenční podobnosti. Každý z 30727 vrcholů reprezentuje protein, kazdá z 1.206.654 hran podobnost. Seed Maaazine, Cerveneč homologie IV1O7 Bioinformatika I -Prednaška 4 Příbuznost a podobnost sekvencí IV107 Bio informatika I -Přednáška 4 ► Homologie bud je nebo není Podobnost lze kvantifikovat a stupňovat Od určitého stupně podobnosti je homologii velmi pravděpodobná. U proteinových sekvencí od cca. 30% identity. Anotace sekvence a genů Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Rost - "twilight zone" IV107 Bioinformatika I -PřednaSka 4 Podobnost sekvencí IV107 Bi o informatika I -Přednáška 4 Anotace sekvence a genů Identifikace genů Homologie a podobnost Příště Bioinformatické databázy ► bez zarovnání (přiložení) + např obsah n-gramů ► se zarovnáním (přiložením) + stejná délka, pozice si odpovídají + libovolná délka, pozice přiřazujeme Rozdíl mezi lokálním a globálním porovnáváním IV107 Bioinformatika I -Přednaška 4 Anotace sekvence a genU Identifikace genU Homologie a podobnost Příšte Bioinformaticke databazy I -1 -2 -1 -3 -1 V -1 -2 0-2 0 F -2 -2 -2 -4 -2 W -2 -3 -2 -4 -3 2 a 2 5 2 0 0 2 5 2 i -1 0 0 8 2 0 2 0 1 0 5 2 0 -1 1 1 -1 2 5 3 -2 -3 -2 0 -2 -1 -1 5 4 -3 -3 -3 -3 -3 -3 -3 1 4 ■4 -3 -4 -3 -2 -3 -2 -2 2 2 4 3 -3 -3 -2 -2 3. -3 -2 1 3 1 '! 3 -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6 3 -2 -3 -2 -1 2 -2 -2 -1 -1 -1 -i 3 7 2 -4 -4 -3 -2 -2 -3 -3 -1 -3 -2 -3 1 2 11 IV107 Bioinformatika I -PřednaSka 4 Anotace sekvence a genů Identifikace genů Homologie a podobnost Přiste Bioinformaticke databazy IV107 Bioinformatika I -Přednáška 4 Anotace sekvence a genů Identifikace genů Homologie a podobnost Příště Bioinformaticke databazy n [ Tabulka pro algoritmus dynamického programování IV107 Bioinformatika I -PřédnaSka 4 Anotace sékvéncé a génU Idéntifikacé génU Homologié a podobnost PříSté Bioinformatické databazy Tabulka pro algoritmus dynamického programování IV107 Bioinformatika I -PřédnaSka 4 Anotace sekvence a genů identifikace genů Homologie a podobnost Příste Bioinformaticke databazy H'■ -4 » -8 »-12*- 16»- 20»- 24»- 28 »- 32»-36 T T -4 -1 * -3 »^ -7»- 11»- 15»- 1 9 »- 23 »- 27 »-31 H -8 -5 -Z -5 -9»--3 ^ 13»- 17»- 18»- 22»-26 í" -12 -4 -6 -3 -5» -9 »- 13»- 17»-21 V "S s -16 -S 0 » -4 -5 -5» -8»- 12»-1ó * * S. N N, L -20 -12 0 -3 -7 » -8 - 11 »-15 I -24 -16 -a -5 1 4 » 0 » -4» -8»-12 1 + t * N -28 -20 - 12 -9 -3 a 4 6 » 2 » -2 E -32 -24 - » 16 -13 7 -4 *** 4 11 » 7 □ e? - Tabulka pro algoritmus dynamického programovaní IV107 Bioinformatika I -Přednaska 4 Anotace sekvence a genů Identifikace genů Homologie a podobnost Příste Bioinformaticke databazy IV107 Bioinformatika I -Přednáška 4 Anotace sekvence a genů Identifikace genů Homologie a podobnost Příště Bioinformaticke databazy □ es - Příště IV107 Bioinformatika I -Přednáška 4 Anotace šěkvěncě a gěnů Anotace gěnomů Iděntifikacě gěnů Homologiě a podobnost Příště Bioinformatickě databazy Bioinformatickě databazy Outline IV107 Bioinformatika I -Přednáška 4 Dodatek For Further Reading Dodatek For Further Reading IV107 Bioinformatika I -Přednáška 4 Dodatek For Further Reading X