IV107 Bioinformatika I -Přednáška 4
Anotace sekvence a genů
Anotace genomů Identifikace genů Homologie a podobnost
Příště
Bioinformaticke databazy
n [
Před týdnem
IV107 Bioinformatika I -Přednáška 4
Anotace sekvence a genů
Anotace genomu dentifikace genů Homologie a podobnost
Příště
Existují techniky pro manipulaci, modifikaci, kopírování a detekci DNA, RNA a proteinů.
► rekombinace a klonování DNA
► PCR
► hybridizace DNA a RNA
► měření aktivity proteinů
► DNA čipy, microarray, proteinové čipy
► zjišíování sekvence
Outline
IV107 Bioinformatika I -Přednáška 4
Anotace sekvence a genů
Anotace genomů Identifikace genů Homologie a podobnost
PriSte
Bioinformaticke databazy
Anotace sekvence a genů Anotace genomů Identifikace genů Homologie a podobnost Bioinformaticke databazy
Sekvence DNA
IV107 Bioinformatika I -Přednáška 4
>P12345 Yeast chromosomel GATTACAGATTACAGATTACAGATTACAGATTACAG AT TACAGATTACAGATTACAGAT TACAGAT TACAGA TTACAGAT TACAGAT TACAGAT TACAGAT TACAGAT TACAGATTAGAGATTACAGATTACAGATTACAGATT ACAGATTACAGATTACAGATTACAGATTACAGATTA
CAGATTACAGATTACAGATTACAGATTACAGATTAC AGATTACAGATTACAGATTACAGATTACAGATTACA GATTACAGATTACAGATTACAGATTACAGATTACAG ATTACAGATTACAGATTACAGATTACAGATTACAGA TTACAGATTACAGATTACAGATTACAGATTACAGAT
Anotace sekvence a genů
Anotace genomů Identifikace genů Homologie a podobnost
Příště
Bioinformaticke databazy
n [
Anotovaná sekvence DNA
IV107 Bioinformatika I -Přednáška 4
>P12345 Gen1 - protein alkoholdehydrogenáza TATA TATAAA
CGAT TGACGATGACGAT start ATG
exonl TACAGATTACAGATTACAGATTAAGATGT
intron1 CAGATTACAGATTACAGATTACACAGATTCA exon2 AGATTACAGATTACAGATTACAGA stop TAA
Anotace sekvence a genů
Anotace genomů Identifikace genů Homologie a podobnost
PriSte
Bioinformaticke databazy
>P12346 Proteinl
MASAQSFYLLDHNQNQNFDDHLAVDIVMILSHERFMN
Anotace genomu
IV107 Bioinformatika I -Přednáška 4
Anotace genomu
IV107 Bioinformatika I -Přednáška 4
Anotace genomů http://www.ensembl.org/
IV107 Bioinformatika I -Přednaška 4
Anotace sekvence a
Anotace genomů Homologie a podobnost
Příšte
Bioinformaticke databazy
Způsoby identifikace genů in silico
► Experimentální metody (cDNA, EST)
► Komparativní metody
+ Selekční tlak
+ Druh zachovaných mutací
► Strukturní metody (GeneMark, GeneScan.GeneID)
► Detekce charakteristických signálů
Identifikace genu podle charakteru mutací
IV107 Bioinformatika I -Přednaška 4
Anotace sekvence a
Identifikace genu Homologie a podobnost
Příšte
Bioinformaticke databazy
Využití známé struktury genů
IV107 Bioinformatika I -Přednáška 4
Anotace sekvence a
dentifikace genů
Homologie a podobnost
Příště
► intergenová DNA
► geny
+ kódující protein
statistika sekvence ► ORF
exon/intron (u eukaryotů) promotor
► RNA geny (rRNA, tRNA, jiné)
U prokaryotů 95-100% spolehlivost, u složitějších eukaryotů 90% na úrovni bazí, 70% na úrovni exonů/intronů
► existence intronů
► větší genomy
► nízká hustota genů (<30%; 3% u Horno sapiens)
► alternativní splicing (zhruba u poloviny genů)
► velké množství repetitivních sekveních
► občasný překryv genů
Struktura genu (prokaryoticka)
IV107 Bioinformatika I -Přednaška 4
Anotace sekvence a
Identifikace genu Homologie a podobnost
Příšte
Bioinformaticke databazy
n [
Vztah transkripce a translace ů prokaryotů
IV107 Bioinformatika I -Přednaška 4
Anotace sekvence a
Identifikace genů Homologie a podobnost
Příšte
Bioinformaticke databazy
Struktura genu (eukaryoticka)
IV107 Bioinformatika I -Přednaška 4
Anotace sekvence a
Identifikace genu Homologie a podobnost
Příšte
Bioinformaticke databazy
Typické sekvence v eukaryotických genech
IV107 Bioinformatika I -Přednáška 4
Anotace sekvence a
► Enhancer idonifJUono
► Promotor
+ vazební místo transkripčního faktoru (aktivátor,
represor) »- TATA-box 5'-UTR
+ Začátek transkripce Kódující oblast + Začátek translace (často ATG) »- exony *■ introny
donor (ag/GTaagt) akceptor (cAG/gt) ► lariat (CU[AG]A[CU]) »- terminátor translace (stop kodon = UAG—UAA—UGA) 3'-UTR
polyadenylačnísignál (AATAAA)
Příště
Bioinformatické databázy
Sestřih mRNA
IV107 Bioinfořmatika I -Predn^Ska 4
□       g        -        =     -š|= -Ot^o
Sekvenční logo intronu
IV107 Bioinformatika I -Přednáška 4
detaily sestřihu
IV107 Bioinformatika I -PřednaSka 4
Identifikace genů podle struktury
IV107 Bioinformatika I -PřednaSka 4
Úspěšnost identifikace genů
IV107 Bioinformatika I -Přednáška 4
Gůigo et al, Genome Biology (2006) a>    -    ■»  * * ^>q.o
Príbuzné geny mají podobnou funkci i sekvenci
Rost studoval proteiny s rUznou sekvenCní podobností. Zjistil, Ze kdyZ je víc neZ 30% aminokyselin identických, proteiny mají velmi podobnou strukturu.
IV107 Bioinformatika I -Přednaska 4
Anotace sekvence a genu
Identifikace genu Homologie a podobnost
Příste
Bioinformaticke databázy
n [
Rost - prostor podobnosti
IV107 Bioinformatika I -PřednáSka 4
Anotace sekvence a genů
Identifikace genů Homologie a podobnost
Příště
Bioinformaticke databazy
Sít proteinů podle sekvenční podobnosti
IV107 Bioinformatika I -Přednaška 4
Anotace sekvence a genů
Identifikace genu Homologie a podobnošt
Príšte
Bioinformaticke databazy
Proteiny přepojena podle sekvnenční podobnosti. Každý z 30727 vrcholů reprezentuje protein, kazdá z 1.206.654 hran podobnost. Seed Maaazine, Cerveneč
homologie
IV1O7 Bioinformatika I -Prednaška 4
Příbuznost a podobnost sekvencí
IV107 Bio informatika I -Přednáška 4
► Homologie bud je nebo není
Podobnost
lze kvantifikovat a stupňovat
Od určitého stupně podobnosti je homologii velmi pravděpodobná. U proteinových sekvencí od cca. 30% identity.
Anotace sekvence a genů
Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
Rost - "twilight zone"
IV107 Bioinformatika I -PřednaSka 4
Podobnost sekvencí
IV107 Bi o informatika I -Přednáška 4
Anotace sekvence a genů
Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
► bez zarovnání (přiložení)
+ např obsah n-gramů
► se zarovnáním (přiložením)
+ stejná délka, pozice si odpovídají + libovolná délka, pozice přiřazujeme
Rozdíl mezi lokálním a globálním porovnáváním
IV107 Bioinformatika I -Přednaška 4
Anotace sekvence a genU
Identifikace genU Homologie a podobnost
Příšte
Bioinformaticke databazy
I -1 -2 -1 -3 -1
V -1 -2 0-2 0 F -2 -2 -2 -4 -2
W -2 -3 -2 -4 -3
2	a	2	5										
2	0	0	2	5									
2	i	-1	0	0	8								
2	0	2	0	1	0	5							
2	0	-1	1	1	-1	2	5						
3	-2	-3	-2	0	-2	-1	-1	5					
4	-3	-3	-3	-3	-3	-3	-3	1	4				
■4	-3	-4	-3	-2	-3	-2	-2	2	2	4			
3	-3	-3	-2	-2	3.	-3	-2	1	3	1	'!		
3	-3	-3	-3	-3	-1	-3	-3	0	0	0	-1	6	
3	-2	-3	-2	-1	2	-2	-2	-1	-1	-1	-i	3	7
2	-4	-4	-3	-2	-2	-3	-3	-1	-3	-2	-3	1	2 11
IV107 Bioinformatika I -PřednaSka 4
Anotace sekvence a genů
Identifikace genů Homologie a podobnost
Přiste
Bioinformaticke databazy
IV107 Bioinformatika I -Přednáška 4
Anotace sekvence a genů
Identifikace genů Homologie a podobnost
Příště
Bioinformaticke databazy
n [
Tabulka pro algoritmus dynamického programování
IV107 Bioinformatika I -PřédnaSka 4
Anotace sékvéncé a génU
Idéntifikacé génU Homologié a podobnost
PříSté
Bioinformatické databazy
Tabulka pro algoritmus dynamického programování
IV107 Bioinformatika I -PřédnaSka 4
Anotace sekvence a genů
identifikace genů Homologie a podobnost
Příste
Bioinformaticke databazy
	H'■ -4 »	-8 »-12*-	16»-	20»-	24»-	28 »-	32»-36
	T						
T	-4 -1 *	-3 »^ -7»-	11»-	15»-	1 9 »-	23 »-	27 »-31
H	-8 -5	-Z -5	-9»--3 ^	13»-	17»-	18»-	22»-26
í"	-12 -4	-6 -3		-5»	-9 »-	13»-	17»-21
	V				"S		
s	-16 -S	0 » -4	-5		-5»	-8»-	12»-1ó
	* *	S. N	N,				
L	-20 -12		0	-3	-7 »	-8 -	11 »-15
I	-24 -16	-a -5	1	4 »	0 »	-4»	-8»-12
	1 +	t	*				
N	-28    -20 -	12 -9	-3	a	4	6 »	2 » -2
E	-32    -24 -	» 16 -13	7	-4	***	4	11 » 7
□      e? -
Tabulka pro algoritmus dynamického programovaní
IV107 Bioinformatika I -Přednaska 4
Anotace sekvence a genů
Identifikace genů Homologie a podobnost
Příste
Bioinformaticke databazy
IV107 Bioinformatika I -Přednáška 4
Anotace sekvence a genů
Identifikace genů Homologie a podobnost
Příště
Bioinformaticke databazy
□      es -
Příště
IV107 Bioinformatika I -Přednáška 4
Anotace šěkvěncě a gěnů
Anotace gěnomů Iděntifikacě gěnů Homologiě a podobnost
Příště
Bioinformatickě databazy
Bioinformatickě databazy
Outline
IV107 Bioinformatika I -Přednáška 4
Dodatek
For Further Reading
Dodatek
For Further Reading
IV107 Bioinformatika I -Přednáška 4
Dodatek
For Further Reading
X