IV107 Bioinformatika I Přednáška 1 Katedra informačních technologií Masarykova Univerzita Brno Podzim 2014 Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Kontaktní údaje ► Dr. Matej Lexa, C506 (lexa@fi.muni.cz) ► Přednáška Út 18:00-19:50 (C511) ► Konzultace Út 16:00-17:50 ► http://www.fi.muni.czriexa/teaching.html Studijní literatura 1. Zvelebil and Baum (2007). Understanding bioinformatics, Garland Science, Oxford, 772 s. (ISBN: 0-8153-4024-9) 2. Krane and Raymer (2005). Fundamental concepts in bioinformatics, Benjamin Cummings, London, 320 s. (ISBN 0-8053-4633-3) 3. Claverie (2005). Bioinformatics for dummies, Wiley Publishing, Hoboken, 452 s. (ISBN: 0-7645-1696-5) Vědecké časopisy ► Bioinformatics ► BMC Bioinformatics ► J. of Bioinformatics and Computational Biology ► Briefings in Bioinformatics ► BMC Genome Biology, Nucleic Acids Research ► Theoretical Biology and Medical Modelling ► InSilico Biology ► Biosemiotics ► GenomeWeb Daily News, InSequence Obor bioinformatika a systémová biologie na Fl ► Bakalářská a magisterská úroveň ► Lze zvolit i v průběhu studia ► Základní sada předmětů Aplikované informatiky na Fl a čtyři předměty na LF a PřF ► Povinnost vypracovat bioinformatickou závěrečnou práci ► http://www.f i. muni.cz/~lexa/teaching. html.cz ► https://is.muni.cz/auth/setkavani/kruh.pl?kruh_id=7161 Bioinformatika@FI Muni Navazující předměty Fl ► IV108- Bioinformatika II (Po 12:00 B116) ► IV105/IV106 - Seminář z bioinformatiky Bc/Mgr (Pá 12:00 C511) ► IV110/IV114 - Projekt z bioinformatiky (a systémové biologie (Čt 8:00 C416) ► IV121 - Vybrané aplikace informatiky v biologii (jaro) ► PB051 - Výpočetní metody v bioinformatice a systémové biologii (jaro) Příbuzné předměty Fl ► IV109 - Modelování a simulace ► IV117/8 - Systémová biologie ► PB172 - Seminář ze systémové biologie ► PA183 - Projekt ze systémové biologie Harmonogram kurzu ► Rychlý úvod do molekulární biologie (do poloviny října) ► Semestrální test (říjen/listopad) 1 -o^o Klasifikace ► Hodnotí se ► Semestrální test 20 bodů ► Zkouška 80 bodů ► Klasifikační stupnice ► A 90 -100 ► B 80-89 ► C 70-79 ► D 60-69 ► E 50-59 ► F méně než 50 Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Definice bioinformatiky Bioinformatika Studuje metody shromáždování, sprístupňovaní a analýzy rozsáhlých souborů biologických dat, zejména molekulárně - biologických. Další disciplíny ► Výpočetní nebo matematická biologie matematické přístupy k reprezentaci a zkoumání biologických procesů, často simulace ► Lékařská informatika práce s medicínskými daty, převážně záznamy pacientů Předmětem zájmu nebo používanými metodami se bioinformatika prolíná s 1. molekulární biologií 2. genomikou a proteomikou 3. genetikou 4. výpočetní biologií 5. matematickou či teoretickou biologií 6. systémovou biologií 7. biomedicínskou informatikou 8. biomedicínským inženýrstvím 9. výpočetní chemií 10. informatikou 11. počítačovou lingvistikou Převzato z http://cz.wikipedia.org/wiki/Bioinformatics 16.2.2008 Typické okruhy problémů ► Analýza sekvencí ► Anotace genomů ► Evoluční bioinformatika ► Studium biodiverzity ► Analýza exprese genů ► Analýza genové regulace ► Analýza proteomu ► Odhad struktury proteinů ► Srovnávací genomika ► Modelování biologických systémů Analýza obrazu ► Studium strukturních interakcí proteinů Převzato z http://en.wikipedia.org/wiki/Bioinformatics 16.2.2008 Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Buňka - základní forma organizace živé hmoty Eukaryote Prokaryote ► Molekuly (DNA, proteiny, sacharidy, lipidy) Geny (abstraktní pojem) ► Proteinové komplexy/membrány ► Organely a jiné substruktury ► Buňka ► Tkáň/pletivo ► Organizmus Složitost biologických systémů na molekulární úrovni Člověk: cca 1014 buněk. Buňka: 3 x 109 párů nukleotidů DNA (A:T a C:G). Nukleotidy: vytváří sřetězenými kombinacemi cca 20000 genů (a statisíce funkčních míst) Geny: kódují (a aktivitou vytváří) staticíce molekul (proteinů a RNA) Buňka: aktivuje vdaném momentu určitou podmnožinu této sady Výsledek: obrovské množství možných stavů buněk (220000 je velmi podceňující odhad) Geny: evolucí vybrané sady z cca 41000 možných sekvencí DNA (1000 nukl./gen) Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Bioinformatická data ► Sekvence DNA a RNA ► Sekvence proteinů ► Struktura proteinů ► Údaje o aktivitě genů DNA čip, microarray, RNA-Seq ► Údaje o expresi proteinů 2-D gely + MS ► Mapy interakcí mezi proteiny a DNA - Chip-Seq ► Mapy interakcí mezi proteiny navzájem - Y2H ► Literatura Sekvenční data AU G AC AG U U G ACG AG U G C A ATAGCAGTGCGCATGCAGT MASAQSFYLLMDDHLAVFM Sekvenční data DNA ATAGCAGTGCGCATGCAGT RNA AU G AC AG U U G ACG AG U G C A Protein MASAQSFYLLMDDHLAVFM Strukturní data 1 -O^O Sprístupnení dat uživatelům - NCBI Genome Viewer Zobrazení informací o qenech na chromozomu <€?S> m Sprístupnení dat vývojářům ► Grafika je zbytečná. Prvořadá je rychlost a možnost automatizace manipulace s daty ► BioJava, BioPerl, BioPython, Bioconductor (R) a další knihovny pro většinu jazyků a prostředí ► servery poskytující syrová data (holý text, obrázky, XML jiné struktury přes HTTP, SOAR ODBC) Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny molekuly buňky Bioinformatická data Práce bioinformatika Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Stopy bioinformatiků na webu výraz Google (tis.) 2004 2011 et tu brutus 212 195 in vino Veritas 162 1130 in vivo (biolog) 19100 11400 in vitro (biochemik) 12900 18000 in silico (bionformatik) 349 1790 Práce bioinformatika ► Umí pracovat s velkými datovými soubory ► Moudrými triky ovláda výkonné počítače ► V datech hledá zajímavé subsekvence ► Skládá sekvence a struktury z menších fragmentů ► Srovnává podobné sekvence ► Předpovídá strukturu a funkci genů a proteinů ► Studuje vývoj sekvencí a organizmů ► Data a výsledky analýz zobrazuje graficky Způsob nahlížení na data KLASIK směs biologie, chemie, fyziky atd. MECHANIK živé buňky jsou stroje, které chceme pochopit a ovládat HRA sekvence jsou definiční soubory hráčů SEMIOTIK život je signalizace a interpretace signálů JAZYK sekvence se skládají z modulů (slov) s určitou funkcí vykazujících gramatické uspořádání Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Kořeny a zdroje bioinformatiky 1951 Pauling 1952 Turing 1953 Watson, Crick, Franklin 1956 Gamow et al. 1959 Chomsky 1962 Shannon a Weaver 1966 Martin-Lof 1966 Neumann 1969 Britten a Davidson struktura proteinů chem. základy vývoje struktura DNA genetický kód gramatiky informační teorie náhodné řetězce automata génová regulace Historie bioinformatiky do sformovaní disciplíny 1967 Fitch and Margoliash: sestrojení prvních fylogenetických stromů z bilogocké sekvence 1970 Needleman and Wunsh: zarovnání dvou sekvencí 1974 Chou and Fasman: predikce sekundární struktury proteinů 1978 Dayhoff: první sbírka sekvencí proteinů 1981 Kabsch and Sander: modelování struktury proteinů 1987 Feng and Doolitle: mnohonásobné zarovnání sekvencí 1990 Altschul et al.: efektivní hledání lokálních podobností 1998 The Journal Comp Appl Biosci se přejmenovává „,„„,a na Bioinformatics í^j^ Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny molekuly buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů ► Jim Kent - autor Aegis Animator, Cyber Paint a Autodesk Animator ► po shlédnutí 12-ti CD vývojového prostředí Windows 95 přechází k bioinformatikům s posteskem, že lidský genom se vejde na jedno CD ► autor webové aplikace Genome Browser ► sehrává důležitou roli v honičce o přečtení a skompletování lidského genomu (program GigAssembler) Prevzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. UCSC Genome Browser UCSC Genome Browser on Human May 2004 Assembly move «< | « | < | > | » | »> | zoom in I.5x | 3x | IQx | base | zoom osit 1.5x | 3x | IQx | position |chr7:127,471,156-127,495,720 jump | clear | size 24,525 bp. configure | °~ "-"-Ill LL ill! B ■■■ ■ ■■■■■ lili I j , n i t.-m II IUI III III ■■ 1 1 1 1 111" 1 ■ « pie Nucleotide 111 iS ■■"í ■ ■ 1 1 1 I ■ 1 ■ II Flexibilní nástroj určen k interaktivnímu prohlížení genomů Homo/Homo ► rozdíl každých 1000 nukleotidů ► 90% variace je mezi africkými populacemi ► na Zemi je tolik lidí a četnost mutací je tak vysoká, že každý ze jmenovaných nukleotidů je v dané generaci mutován několik krát ► lidský genom obsahuje stovky nepříjemných mutací. Většina je recesivních, projeví se jenom ojediněle, pokud je mají oba rodiče Převzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. Homo/Pan ► rozdíl každých 100 nukleotidů ► transpozon každých 50000 nukleotidů ► dva chromozomy spojené, jinak podobná struktura Podle Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. Homo/Mus ► 40% nukleotidů byli od dob společného předka změněny ► Ve funkčních oblastech se změnilo jenom 15% nukleotidů ► úseky podobnosti mezi genomy člověka a myši jsou kandidáti na biologické funkce Prevzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. Homo/Caenorhabditis Asi 80% nukleotidů změněno (35% ve funkčních oblastech) Převzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny molekuly buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Objem dat bude nadále narůstat ► Základní výskum ► Medicína a podobné aplikace, "osobní genomika" ► Metagenomika ► Bezpečnost na molekulární úrovni ► Komerční data HT-Seq: objem dat z jednoho mereni a cena za 1 ► Solexa pyrosequencing (lllumina) 18 Gbp $2 ► 454 (Roche) 0.5 Gbp $60 (ale delší sekvence) ► SOUD (Life Technologies) 24 Gbp $2 ► Heliscope (Helicos) 28 Gbp $1 ► Polonator (Danaher Motion) 8 Gbp $1 ► Zero-mode waveguide sequencing (Pacific Biosciences) 10 Gbp? $10? ► Nanoball sequencing (CompleteGenomics) 70 Gbp $1 ► FRET sequencing (Visigen) ? ► Nanopore sequencing (Oxford Nanopore) ? Skládání sekvencí acgaatgcgcgcagtgcagca gttgatgacctttagagagataca tttgacatgacgggataga ccgatgacaccccagttaaa gatacatttgacata tttttatagacgaatgcgcgcag acgttatgcgcgcagtgc Porovnávání sekvencí >P11633 NONHISTONE CHROMOSOMAL PROTEIN 6B. Score =54.8 bits (155), Expect = le-10 Identities = 19/43 (46%), Positives = 24/43 (62%) Query: 2 TKKFKDPNRPPSAFFLFCSEYRKIKGEHPGLSIGDVAKKLGEM 52 : T : KDPNR SA: F :E R I E:P::GV: LGE Sbjct: 5 TTRKKDPNRGLSAYMFFANENRDIRSENPDVTFGQVGRILGER 55 i -OQ.O Analogie biosekvence - jazyk 1. Mam z toho velkou radost. 2. Mam toho kocoura dost. Mamztohovelk ouradost. Mam toho kocouradost. Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma oTľUKTUľcl UINM Transkripce a translace Struktura proteinů Informace v DNA určuje existenci proteinů v buňce 4 □ ► 4 (5? ► 4 Příště struktura DNA a preotinů ► Struktura DNA *■ Struktura proteinů ► Přenos genetické informace Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny molekuly buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů