PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 PB051 Výpočetní metody v bioinformatice a systémové biologii Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Katedra informačních technologií Masarykova Univerzita Brno Jaro 2020 Outline PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Informace o kurzu Kontaktní údaje PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče ► Dr. Matej Lexa, C506 (lexa@fi.muni.cz) ► Kurz: Po 12:00-13:50 (B117) ► Konzultace: Út 11:00-12:00 (C506) ► http://www.fi. muni.cz/~lexa/teaching. html Kontaktní údaje PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče ► Dr. David Šafránek, A408 (xsafran1@fi.muni.cz) Klasifikace PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče ► Hodnotí se ► Úkoly 4x5 bodů ► Semestrální úkol 30 bodů ► Zkouška 50 bodů ► Klasifikační stupnice ► A 91 - 100 ► B 81 -90 ► C 71 - 80 ► D 61 - 70 ► E 51 - 60 ► F méně než 51 Osnova PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče ► Genomové anotace ► Výpočty nad sekvencemi, konsenzus, repetice ► Aplikace Markovovských modelů v bioinformatice ► Rekonstrukce sítí, integrace dat ► Statická analýza sítí ► Dynamická analýza sítí Analýza dat v genomovém kontextu PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče ► Prohlížeče genomů (UCSC, Ensembl, GBrowse, IGV) ► Programovatelný přístup ke genomu přes rozhraní Biomart ► Anotace a vizualizace v R/Bioconductor (GenomicRanges, ggbio) ► Bioinformatika genové regulace (JASPAR, TFBSTools) Výpočty nad sekvencemi, konsenzus, repetice PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče ► Mnohočetné zarovnání a konsenzuální sekvence ► Diagram "dot ploť'a tandemové repetice (Tandem Repeat Finder) Aplikace Markovovských modelů v bioinformatice PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče ► M ar kovový řetězce ► Skryté Markovovské modely (HMM) ► Profilové HMM (HMMER) Náplň předmětu - část systémová biologie PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče ► metody a nástroje statické analýzy a integrace dat ► integrace dat ► rekonstrukce sítě genových interakcí z experimentálních dat ► analýza interakční sítě jako obecného grafu Metody a nástroje statické analýzy PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče ► statická analýza sítí a integrace dat ► nástroje: Cytoscape s několika moduly ► rekonstrukce genových regulačních sítí z microarray dat ► nástroje: GeneNetworks, Hugin ► dynamická analýza kvalitativních modelů genových sítí nástroje: GinSim, CelICollective Outline PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Struktura genomu PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Biologie genomu Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 cor« partk-le 30 nm fiber Genome compacting PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Short region of DNA double helix "Beads on a string form of chromatin 30 nm chromatin fibre of packed nudeosomes Section of chromosome in an extended form Condensed section of chromosome Entire mitotic chromosome mm. 3 2 nm 11 nm Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče 30 nm 300 n m 700 nm 1.400 nm Biologie genomu PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Human Gřínan Gettos and Genů Related Sequentŕs 12Q0Mb Genes (Exans) 4$ Mb- Inler^eoie DMA iüüOMb Relaled Setjuences 1152 P-1I) e^ed Repeats 4ÜßMb Clh&rintengůnic regione -vvim:. D Gan* Fraginůnts ^_ r UNEi MiCTosattílItes 90 Mb 3INE5 LTR Elemente ÍSŮMb 90Mt» Biologie genomu PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Exons {regions of g&nes coding lor protein, rflMA, oj- IRNA) (1.5%) Struktura genomu Dynamika genomu Genomové data prohlížeče Simple sequence Urge-segment DNA (3%) duplications Eukaryotic transcription PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 general transcription RNA polymerase II gene regulatory proteins factors i gene X i i J regulatory spacer DNA sequence promoter t the gene control region for gene X Mediator gene X RNA transcript Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Figure 7-44 Molecular Biology of the Cell 5/e (© Garland Science 2008) Biologie genomu E .■coippaiůM*iL* "Ti■ i.ii li Ii ■ iEntf lurtťť^j nucfchJi PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Biologie genomu PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 HCT116-RAD21-mAC - auxin O HCT116-RAD21-mAC Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče c ■ CO 1 Ü > < co o co \ 5 c + auxin, 6hr Chr8 134.6 133.3 134.6 Mb Obrázek: from Rao et al. 2017 Vybrané pohledy na organizaci genomu PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče ► topologický ► modulární ► hierarchický ► discrétní (někdy nejasné hranice) ► molekulární ► DNA (struktura) ► RNA (tRNA, ncRNA, rRNA, siRNA...) ► protein ► komplexy a částice (regulovaný senzor, virová částice) Struktura genomu ► Geny ► proteiny (kódující, exon, intron) ► RNA ► Regulační sekvence ► promotory ► enhancery ► jiné ► Repetitivní sekvence ► mikrosatelity (STR) ► minisatelity (VNTR) ► satelity ► DNA transpozony, helitrony ► retrotranspozony (LINE, SINE, LTR) ► Cizí sekvence ► viry ► endo(retro)viry ► Oblasti (ne)podobnosti ► SNP ► delší strukturní variace ► Genomické ostrovy, teritoria ► TAD (topologically associating domain) PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Outline PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Dynamika genomu Změny genomu (v sekvenci nebo počtu) PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu ► topologie beze změny ► SNP (bodové mutace) Genomové data prohlížeče Dynamika genomu ► změna tandemový opakování ► 1-bodová translokace ► rozpad chromosomů ► fúze chromosomů ► 2-bodová translokace ► delece, konverze a výměny rekombinací ► cut-paste (DNA transposony) ► copy-paste (retrotransposony) ► rolling-circle (helitrony) ► epigenetické modifikace ► DNA metylace ► Metylace/acetylace histonů Změny genomových modulů PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu ► na úrovni DNA Genomové data prohlížeče ► exonizace ► exon shuffling ► migrace genů ► duplikace ► aktivita transposonů ► na úrovni RNA ► alternativní sestřih ► transkripční fuze ► na úrovni proteinů ► translační fuze Mutations PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 DNA (coding strand) T T Transcription I UugPÍa!guuuggíc1u mRNA Translation ^ ^ ^ ^ ^ ^— Amino acid sequence (a) Normal DNA moloculo DNA (coding strand) Lys — Phe-Gly TACTTCAAAQCGATT 0 mRNA Amino acid sequence (b) Missense mutation A U G A A G U U U ^— Lys — Phe — Scr T AC |T CAAACCGATT H M MM mm mm augěaguuuggcuaa (c) Nonsense mutation G A T T T C A A c c G A T T C U A A A U G A AGU U G G C U A A" — Lys — Leu — Ala ■ (d) Friimoshift mutation Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Mutace PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Nátura-P*vitvvj Gířnoii-rí Expanze a kontrakce tandemových opakování Increaae ki repeat len^ith 12 3 4 -»-N-N-*- 1 23456789 10 1. 2.6* ■*—^1—^ ■4-4-4-4-4-f-4-4-4-4- 1 2 U ^ 6 ľ a 0 10 i 2 » P W * * ¥ ¥ t 2i\ 4 6 6 7 8 £> 10 T5V PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Chromosome breakage and repair PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 A. Breakage-and-reunion (i) non-homologous and Joining q or ("} non-homologous end joining radiation makes two breaks simple aberration radiation makes more than two breaks S U complex aberration B, Recombinational misrepair (1-hit) find local homology homologous "repair" radiation makes a break aberration C, Exchange theory reciprocal exchange radiation makes two lesions aberration Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Gene cross-over or conversion Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Gene cross-over or conversion PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 DNA duplexes pair 1111111 ii 111111 ............... 1111111 II 111111 Homologous strands are nicked immiffTTfT ............... 1111111 li 111111 ............... 4 Broken strands exchange between duplexes Crossover point m oves by branch migration ■ i 1111111111111 uaj lllllllllllllll ......... Second nicks made in same strand 4 iiiiiiiiiiiiiii ............... iiiiiiiiiiiiiii iiiiiiiiiiiiiii 4 ■ 11 li li i ■ ■■■iii iiiiiiiiiiiiiii ............... iiiiiiiiiiiiiii ............... Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Second nicks made in other strand iiiiiiiiiiiiiii 4 Nicks are sealed Second strands cross over between duplexes, and nicks are sealed ....... 4 Genomes are not recombinant, but contain heteroduplex region Reciprocal recombinant genomes are generated iiiiiiiiiiiiiii ............... IIIIIIIIIIIIIII Gene conversion in immunoglobulin PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 9» OJ-I V-Region C-Region Pseudogenes Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Exon shuffling PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 F5.31-11 Epidermal growth factor gene with multiple EGF exons (green) —Exon Fibronectin gene with multiple 'finger" exons [orange] shuffling 1 * Exon duplication Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Plasminogen gene with a "kringle" exon (blue) Exon shuffling Portions of ancestral genes TPA gene as it exists today ■ ysT-t mm ***** ****** i*.11 m H * .'i i wi.....jiitiytrtrtwwyt* Alternative splicing PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 DNA RNA Exan 1 Exan 2 Exon 3 Exon 3 E>on4 Exon 5 UJ I I I I I I I I E*on4 Exon 5 iliJxJllLiJtllllilLltlltlllllll,! Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče mRNA A 5 ■Alternative Splicing 2 4 5 Translation 2 Translation Protein A Protein B Protein C Epigenetic regulation of gene activity PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 IVfotJíKSBprí® www.rnedacape.CťHTi A. Transcriptionally active chromatin DNA I Trartscri"ption^> + DNMTs + <^MBPs) V7 Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče DNA [Transcription^^ B. Transcriptionally inactive chromatin Saun>a: Mauíůsuí^ Focus ©-2005 Americ-an Assacia Ua n of hteurakigtcaJ Surgea-ns RNA interference PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 FIGURE 18-6 RNAi silencing. RNAi switches off the expression of a gene when dsRNA moEecuEes that have homology to that gene are introduced, or made, in the cell. This effect invotves processing of the dsRNA to make siRNAs and miRNAs by the enzyme Dicer. Another enzyme involved only in the case of miRNAs—Drosha—is not shown here, but is described later The siRNAs and miRNAs direct acornpEexcaEfed RISC [RNA-induced silencing complex) to repress genes in three ways. It attacks and digests mRNA that has homology with the siRNA; it interferes with translation of those mRNAs; or it directs chromatrn-modifying enzymes to the promoters that direct expression of those mRNAs. (Adapted, with permission, from Hannon G.J. 2002. Nature 418: 244-251, Fig. 5. © Macmiilan.) dsRNA liriiiiiiiriiiriiiniirii iJiiiMiiiiimimimiii ceíí ffierni3fane cytoplasm jf sfRNAs and U miRNAs pre-miRNA Í trans latio nal inhibition amplification degradation Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Transposable Elements □NA fransposons Retrotransposons Transposasc !i I -iiihmirt i [.-i Mm 11 u l*u Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče LTR Retrotransposons RT V \ Gag 1 i Pní fitlV J^^| Prf 1.1 K 1 UKUV kli}, IAI'1-5KbI Autonomous ORF 1 KS ORF 2 3' LT i.i I kwnEH'Mil No n- LTR Retroiransposons Non-autonomous I so isn « A(nj Alu Ekmuit U kh) Transposons PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Class I element RNA Půl I Reverse Transcription Reverse transcriptase -Aft AAA Integrase Q_ Transport to the nucleus Integrase Integration at; new post ion New position Class II element TlR Transposase TIR -4- Excision 11 Transposase Cranspcisase Integration at a new postion Me«v position Helilron Single- --'^-Transposase stranded nick J Target A TC CTRR T U-3 ' I 21.60 Mb i 21.30 Mb ■i i 22.00 M i ) i 22.20 Mb ■i i 22.40 Mb r- i I—*------- P- ■5* 1 "> K III □9S1749 D9S1607 D9S016 I □9S2Ü6Ü D9S2143 □9S2137 D9S974 D9S942 D9S1748 D9S1GÜ4 D8S9S8 CQS160 D9S175Ě MTAP LC9orf53 LCDKN2A LCDKN2 rMeiged Known Proteincoding [Vega Havara Putative Processed trarEcript IVega Havara Krown Protein codirg RNAPseudogene (Nowi) Iest gene I d9s1&14 D9: 1083 Ce;.1iB7Ü D9ES75 I II D9S96S D9S790 □9S97G □mrta1 Havana Known Proteincoding Vega Havara Processed pseudogene Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 GBrowse view of the Pto DC3000 region near PSPTCU375 1111111 1507k 1508k 1509k pseu min 1510k 1511k 1512k 1513k 1514k 1515k 1516k 1517k 1518k. fill Genes uith links to pseudononas.con hopNl hopAňl-1 hrpWl PSPT0_1371 shell hopMl fill proteins uith links to NCBI type III effector HopNl type III helper protein HrpWl H 28868578 type III chaperone ShcM 28868582 type III effector HopMl 28868581 conserved effector locus protein 28868579 type HI effector HopAAl-1 28868580 28868583 Putative orthologs in Pseudomonas aeruginosa PR01 Putative orthologs in Pseudononas aeruginosa PH14 Putative orthologs in Pseudononas fluorescens Pf-5 Putative orthologs in Pseudononas putida Putative orthologs in Pseudononas syringae b728a Psyr_1185 shcE avrEl type III chaperone ShcE 28868584 type III effector protein ftvrEl 28868585 Psyr_1182 Protein of unknown function UPF0187 Psyr_1184 Psyr_1188 Pectate lyase conserved effector locus protein avirulence protein AvrE(Pto) Psyr_1186_ type III effector HopPtoM Psyr_1187 DspFAvrF Putative orthologs in Pseudononas syringae pv. phaseolicola PSPPH_1264 type III helper protein HrpWl PSPPH.1265 PSPPH_1267 type III chaperone protein AvrF PSPPH_1268 type III chaperone protein Shell Putative orthologs in Pseudononas entonophila L4S fill COGs uith links to NCBI COG database C0G3781 Function unknown type III effector flvrEl Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Argo PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 r $ ArfltK Fne Trak Edit Stlect Vlew Zcmm Ruitrs Analýze Uier tooknurts Wlndow Heip JTCArjICATCM.' . UJUU7U£Un^TUnUL HA. II. LATU. JUUL L1A1..UC t iVAJL" A£ í 7C TiW 7 AjU7AciMUTCQZJWXTT\lAO^?GCTTCA7QU7CMAAl^ll3U MJXCT^C^CU.TCCCJUACCCACl.J J JLTGCJUU7JU lt LLATÍJCAJ 1L LUlTCCTGATECAjmi AITCTllCHTCTC1 AXCQClUtCJlEAGC ICICCATTAT'j. I'L I I , CIT CTU7GGTU! UlACATCuMťi TTJUIjl JiJL C JkATfůCTTí^C C WJU7A 1 ^L^i!-:^: ^ UK AAATT&TCGJIA____IJiTT.iirjJJJJJT/Ji.^TCiPJlATLHrjíL-rrejl TAJUT7TT UU. T0-" .' ■nV* TTC iUTU Ubrl + - PnHtin linglh j ] [> j\ 50 ícirch Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče DecodeMe Browser PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 MS UtowAU EfTTl Chr- ■cřir: -eli u-.-I ■■ .: j cíirC ihrr chrl clirS íliD tli Cli Cl 3 CH Cli ďCI T_l C C í. í ehr* ■ 'I-iTít-jnú H Ulil felMiBl Um Hlín titnll .....n|,:uu iFlrillUJIMJI li JIH iLttHJillllilill mi rjHir III uMIthiHK lUIfcliilllUI JH SHPT Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče Golden Helix Genome Browser PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 Ptat af Column Cwr/Trend -teglO P from AsiKlation T«tt (Additiv* Modi>ly ■ Zoom - 1.5x 3x lH**tH TíKiot i ß UouM EnmrU Vkfitn' I ß OTOP 1 ß Uhu RafSaa Dři* ■ ß Un>W IX*»!** S*HÍ* ,' ß Umh LVJtvHKH TrEURi iguMi FU#»trvuriti* B- -*SHl-hnihiii] .■ ® fen í nirV &rc 4. ■ßUi>ji* InMmfr] Y«pti4» igllw EMimjíW* HCfll* ■ßuk^W IflH Gtn, Mp**-5p*iI t» i (ton*. Stf! SSW« r IRS i MOUSE iferfSccjMrtrit Hf .(W JlFVS+o.ont 01051Ů říUnii-flťSPTnEUBl OMOWJ MOUSE FMnnj Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče . i ■ I ' I * ■Einwrrnw [Tünc/n» Ww 0 VHI1 **t I »ANTCM . CAM a VklUM FÍ**ía| F^nrt Vk«tM R*«*m ONA - GenoDive PB051 Výpočetní metody v bioinformatice a systémové biologii - Týden 1 genoDive Pro Informace o kurzu Struktura genomu Dynamika genomu Genomové data prohlížeče highGlowPoints 954 (threshold 0 sogt 0.6 highGlowPoints 199 (threshold 0 Iload r ex:0000030:expression load option data successful highGlowPoints 199 (threshold 0 load r ex0000030:expression load option data successful highGlowPoints 199 (threshold 0 load p photosystem_genes:kazusa load option data successful highGlowPoints 199 (threshold 0 :ang .01 s slrl311 500000) 600000) 600000) 600000) 600000)