Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí PB051: Výpočetní metody v bioinformatice a systémové biologii David Šafránek 6.4.2012 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky, EVROPSKÁ unie w^^m ■ I ^^hS ^m^r INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Systémové paradigma - sítě interakcí Obsah Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakci Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakcí Obsah Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakci -L C Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Průběh výzkumu v systémové biologii rekonstrukce sítí databáze biol. znalostí + literatura jiMAZE t validace modelu genové reportéry, DNA microarray, hmotnostní spektrometrie, ... Bacterial DNA biologická sít hypotézy objevené vlastnosti dotazy na model specifikace modelu SBML, diferenciální rovnice, boolovská sít, Petriho sít,... Q NADPH 4.1.2.15 4.6.1.3 4.2.1.10 1.1.1.25 \ erythrose-4- ( \-M -j-H -)-M -►T )-W -►( ) NADP phosphate —— - _ ^^^^phospht? phosphale ( j ( ) «—O*—H H—O*—Tr*—OATP f 2.5.1.19 U.lJlY Q ADP ^ = -*,[£] [S]+ te[£S] d^ = -kl\E]\S]+k2[ES\ + k3[ES] at - (n[E][S] - k2ES] - k3[ES] I analýza modelu statická analýza, numerická simulace, analytické metody, model checking .5 [mmol,mľrriin];g = l p/min] Hť|-P]| [>q| Suoanate C CyBtatľilDnine tneíE g CDdalarnln-Inflepenusril nomocystelnB tranameinylaBe / '' ■O PynJVBle; NH4t Homocys telna matR \ J řís n.,r^-j^-vr|—metu M Cobalamln-dependeni homocystalna tnuianttiylsaa E-Meiryl TU- THF nwtR actlvaJtor I . VI- | L-Mathlonine i ^ —c- ATP P=1 .-idenoByl-L-Můlhlonnw Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Příklad modulu genetické regulace v E. Coli gyrAB l GyrAB i. DNA supercoiling TopA fis FIS tRNA CYA 1 cAMP'CRP |«- Signal (lack of carbon source) CRP t Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Biologická sít jako obecný graf Definition Necht V je konečná množina uzlů a E C V x V relace. Biologickou sítí nazveme graf G reprezentovaný uspořádanou dvojicí G = (V, E). • Pokud V(a, b) G E. (a, b) G E —► (b, a) G E, G nazýváme r?eor/er?ŕo\/ar?ý. • V ostatních případech hovoříme o orientovaném grafu. typ sítě V E G genové geny (resp. proteiny) regulace exprese or. proteinové proteiny proteinové interakce neor. metabolické metabolity, enzymy enzymové reakce or. signální molekuly a kti vace/dea kti vace or. Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Biologické šitě - výpočetní problémy • (re)konstrukce sítí • identifikace interakcí z experimentálních dat integrací dat z databází znalostí • zpracování sítí • vizualizace • integrace atributů uzlů, hran • analýza sítí • analýza statistických vlastností =^> rozložení konektivity, detekce motivů, ... • porovnání sítí Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Ontológie genů a genových produktů • nutnost systematicky uchopit genom, genové produkty a funkce (interaktom) • akumulace biologických dat • decentralizovaný proces • paralelní proces • problém: nejednoznačné popisy téhož objektu, procesu • např. proteolýza vs. (řízená degradace proteinů) • od roku 1998 vývoj Gene Ontology =4> http://geneontology.org Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Gene Ontology • cílem je ucelený systematický popis genových produktů a jejich funkcí • ontológie predstavuje systematický slovník pojmů • hierarchický pohled na data včetně vazeb mezi nimi (DAG) • zachycení synonym • GO obsahuje 3 kategorie (DAGy): • biological process • cellular component • molecular function Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Gene Ontology • respektuje standard OBO a OWL (W3C) pro strukturu a reprezentaci ontológií • http://obofoundry.org/ • http://www.w3.org/TR/owl-features/ • každý uzel představuje jednoznačný pojem (množinu synonym) =4> jednoznačně reprezentován ID (tzv. GO termem) • různé typy relací mezi uzly: • part_of, is_a, locatedJn, derivedJrom, .. . • viz http://obofoundry.org/ro/ Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Gene Ontology Přiklad podgrafu GO GO:0032465 ieg Lil lit i on of cytokines s GO:0032506 cytokine!ic process Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Nástroje pro Gene Ontology • on-line i off-line vyhledávače v GO • statistické testy na overreprezentaci dané množiny genů v pojmech GO • GOstat - http://gostat.wehi.edu.au/cgi-bin/goStat.pl • DAVID - http: //david.abcc .ncif crf .gov/ • BiNGO- http://www.psb.ugent.be/cbd/papers/BiNGO/Home.html • mapování microarray dat na ontologický strom • cGOn—http: //www.gcnctoolo .no/ • High-Throughput GoMiner - http://discover.nci.nih.gov/gominer/htgm.j sp • Meta Gene Profiler (MctaGP)—http i //metagp. iom. ac. jp/ Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí KEGG - Kyoto Encyclopedia of Genes and Genomes • integrative databáze genových produktů • genový prostor GENES, GENOME, ORTHOLOGY, Organisms • chemický prostor COMPOUND, GLYCAN, REACTION, ENZYME, LIGAND • systémový prostor PATHWAY, BRITE, DISEASE, DRUG • každý pojem má jednoznačné ID • zachycena ortologie (podobnost) genů • genový prostor čerpá aktuálně z několika zdrojů Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Cvičeni Uvažujme sekvenci aminokyselin (FASTA formát) SVVEEHGQLSISNGELVNERGEQVQLKGMSSHGLQWYGQ FVNYESMKWLRDDWGINVFRAAMYTSSGGYIDDPS VKEKVKEAVEAAIDLDIYVIIDWHILSDNDPNIYK EEAKDFFDEMSELYGDYPNVIYEIANEPNGSDVTW GNQIKPYAEEVIPIIRNNDPNNIIIVGTGTWSQDV HHAADNQLADPNVMYAFHFYAGTHGQNLRDQVDYA/ pomocí vhodné služby odhadněte, o LDQGAAIFVSEWGTSAATGDGGVFLDEAQVWIDFM^'3^ DERNLSWANWSLTHKDESSAALMPGANPTGGWTEA ELSPSGTFVREKIRES najděte na http://www.ebi.ac.uk/intenz/ prozkumejte relevantní dráhy na http://www.genome.jp/kegg/ Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Reactome Reactome - a curated knowledgebase of biological pathways The data display Escherichia coli ľompanson. tu l'l ■ - >■■« « Reaction-> | Experimentally confirmed reaction-> | Manually inferred reaction-> | Electronically interred reaction > | Linked reactions Apoptosis Axon guidance Biological oxidations Botulinum neurotoxicity Cell junction organization Cell Cycle Checkpoints Cell Cycle, Mitotic Chromosome Maintenance DNA Repair DNA Replication Diabetes pathways Respiratory electron transport, ATP synthesis by chemiosmotic coupling, and heat production by uncoupling proteins. Gene Expression Hemostasis HIV Infection 1 "jg Kitf n ^ tli Piiii n-i 11 n n ri 1 n h 111 i n ttK0^"^ ^""""■""iijjer proteins Influenza Infection Integration of energy metabolism Integhn cell surface interaction^^ >w Metabolism of amino acids and derivatives Metabolism of carbohydrates Metabolism of lipids and lipgr Metabolism of nucleotides Metabolism of porphyrins Metabolism of pro siary iook reaciome; \ v současné verzi používá 1 SBGN standard, j doporučuji proklikat / Metabolism of vitamins and cofactors Muscle contraction mRNA Process Pyruvate metabolism and Citric Acid (TCA) cycle Regulation of beta-cell development Regulatory RNA pat \ Signaling byEGFR Signaling by FGFR Signaling byGPCR\ Signaling in Imnuiie system Signaling by Insulin receptor Signalling by NGFy http://www.reactome.org/ Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Specificky zaměřené zdroje dat EcoCyc — http://ecocyc.org- E. coli K12 SGD — http://www.yeastgenome.org/ WORMBASE http: https://wormbase.org7 / /TTTTTT ft ir> tf S^l I" *~> /— / / WWW* CJ U.±l^j J_ . \JL\^> . U.1l/ ri ^ ^ U CJ / _KJ _L ^ U-±± BJ / VV LJUjI lUi lUJJIf^ FlyBase — http: //f lybase. org/ Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Nástroje pro analýzu biologických sítí • Cytoscape http://www.cytoscape.org • vizualizační layouty • mapper vizuálních prvků na data • filtry • pluginy pro práci s biologickými sítěmi • VisANT http://visant.bu.edu/ • prakticky tatáž funkčnost jako Cytoscape • podpora hierarchického zanořování (MetaNodes) • méně flexibilní prostředí • více biologicky-relevantních funkcí Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Cytoscape • analyzátor komplexních interakčních sítí • původně zaměřený na bioinformatická data • přístup k webovým službám (databáze) • funkce pro integraci dat • platforma pro pluginy • open source politika Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Cytoscape - formát dat • SIF - Simple Interaction Format (interní formát) • GML - Graph Modelling Language (obecný formát pro popis grafu, zahrnuje i vizuální informace) • XGMML - extensible Graph Markup and Modeling Language (možnost anotací uzlů a hran daty) • BioPAX - formát využívající OWL (standard pro popis ontológií) • SBML - standard pro popis dynamických modelů • dále OBO, text format CSV, MS Excel XLS format, ... Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Cytoscape - základni principy • sítě organizovány v tzv. sessions (formát cys) • v rámci session lze spravovat několik sítí • data o uzlech/hranách jsou sdílena v rámci session • session zahrnuje též vizuální data včetně nastavení stylů, vnitřní stavy některých pluginů Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Cytoscape - základní principy • možnost vyhledávání a filtrace dat • datový panel zobrazuje filtrovaná/vyhledaná data • jednoduše lze vytvořit podsít z aktuálně vybraných uzlů • možnost topologických filtrů Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Obsah Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Detekce regulačních interakcí • využití databází promotorových sekvencí • prohledávání promotorových sekvencí na přítomnost známých TFBSs • TRANSFAC, MATCH, PromoterScan, RegulonDB promotér analysis, ... • využití DNA mikročipů • identifikace genů s podobnými profily exprese a jejich agregace do skupin (tzv. klastrů) • analýza promotorů ortologických genů (napříč různými druhy) • tzv. phylogenetic footprinting • VIZ napr. http://bayesweb.wadsworth.org/binding_sites/index.html (E. coli) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Měřeni genové exprese nej používanějším nástrojem je technologie DNA microarray umožňuje tzv. high-throughput analýzu • v daném okamžiku je paralelně nasamplována exprese všech genů v genomu příslušného organismu • postaveno na relativním srovnání minimálně dvou různých vzorků • exprese v přítomnosti vs. nepřítomnosti O2 • exprese při knock-outu určitého genu vs. normální stav »JE)rí;\ ľiohv "Normaľ Tumor RT/PCR La bol -.vilľ Fluoreoctnt Dyw Przniť? AJterouťťuy Hybfidize róbe (o icroarray Technology Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Reverzní transkriptáza a cDNA Isolate and collect m R NA Grow Isolate plasmid and purify DNA -> Reverse transcriptase RNA DNA Insert into bacterial plasmids Insert plasmids into bacteria A j C & j C T G & C T & A C T T T A Sequence C £ j y\ T A & DNA Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Reverzní transkriptáza a cDNA • enzym EC 2.7.7.49 (druh DNA polymerázy) • objevena v retrovirech [Temin, Baltimore, 1970] • přepisuje mRNA na jednořetězcovou (komplementární) DNA (tzv. cDNA) • umožňuje vytvořit knihovnu DNA Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Polymerase Chain Reaction (PCR) • umožňuje replikaci určité části DNA (tzv. amplifikace) • DNA je zahřátím rozdělena • úsek DNA je označen párem oligonukleotidů (15-25 bazí) • při snížení teploty hybridizace oligonukleotidů s řetězcem DNA • doplnění zbývající sekvence DNA prostřednictvím RNA polymerázy • http://www.dnalc.org/resources/animations/pcr.html • lze využít i pro mRNA: RT-PCR (reverse transcription PCR) • reverzní transkripce mRNA do cDNA • amplifikace cDNA (PCR) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Postup při DNA microarray experimentu 1. konstrukce čipu z cDNA knihovny (amplifikace a rozmístění) 2. odběr celkové m RNA z experimentálních vzorků (typicky 2) 3. reverzní transkripce do cDNA asociované s fluorescenčním barvivem 4- hybridizace odebrané cDNA s cDNA na čipu 5. omytí čipu a oskenování výsledku 6. analýza dat 7. komerční čipy používají místo cDNA knihovny skupinu oligonukleotidů pro každý gen =4> pouze jeden vzorek mRNA je analyzován na jednom čipu (porovnání více identicky připravených čipů) http://www.bio.davidson.edu/courses/genomics/chip/chip.html Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Workflow produkce výsledků DNA microarray experimentu intensity signals Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Validace a zpracováni výsledků • validace dat separátním měřením koncentrací mRNA nepřímo (pomocí RT-PCR) • RT-PCR spuštěna pro oba vzorky (shodný počet kroků PCR) • porovnání koncentrací příslušných cDNA • klastrování dat • zjištování podobnosti mezi datovými vektory • agregace do specifických skupin (klastrů) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Databáze microarray dat • Stanford Microarray Database - různé pohledy na data, filtrace http://smd.Stanford.edu/cgi-bin/cluster/drpGetData.pl • ArrayExpress - statisticky zpracovaná data http://www.ebi.ac.uk/gxa/ • Gene Expression Omnibus (GEO) http://www.nebi.nih.gov/geo/ • MUSC DNA Microarray Database http://proteogenomics.musc.edu/ma/ • GenExpDB (E. Coli specifická data) http://genexpdb.ou.edu/ Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Klastrování microarray dat předpokládejme matici se sondami pro n genů uvažujme sadu p experimentů pro každý gen / dostáváme vektor Xj = (x/i, ...,x/p) zachycující posloupnost výsledků (tzv. expresní profil) definujeme míru vzdálenosti d : IRP x ]RP —► IR: pro q — 2 dostáváme Euklidovskou vzdálenost Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Klastrování microarray dat • existují dva hlavní přístupy ke klastrování • partitioning - cílem je najít jedno nejvhodnější rozdělení do klastrů (parametrem je počet požadovaných klastrů) Self-organizing maps, K-means • hierarchické metody - vytvořen celý strom hierarchie kořen - klastr obsahující všechny experimenty, v listech listy - jednoprvkový klastr pro každý experiment • klastry mohou být identifikovány i pro vektory tvaru Xj = (X]j, Xnj) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Algoritmus pro hierarchické klastrování • nejpoužívanější metoda je tzv. aglomerativní (zdola-nahoru) • parametrem je míra podobnosti hodnot d{x-nxj) • postup (ŕ značí aktuální úroveň): 1. t = n inicializuj pro každý gen / < n\ C" = {x,} 2. spoj dva kláštery Cl a Cf s minimální vzdáleností Cf) 3. update D dle nového rozdělení 4. t := t - 1 5. iteruj (2-4) dokud ŕ > 1 Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Algoritmus pro hierarchické klastrování Při aglomeraci se používá míra podobnosti dvou klastrů na téže úrovni t: • D(Cki Cí) = minXieq,xj e, iteruj Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Nástroje pro cluster-based analýzu • klastrování lze využít pro detekci skupin shodně regulovaných genů • kombinace klastrování dle genů a experimentů • odhady regulátorů jednotlivých klastrů • odhady programů regulace • nástroje • Genomica (dříve GeneXPress) http://genomica.weizmann.ac.il/ • FunCluster (balík pro R) http://cran.r-proj ect.org/web/packages/FunCluster/index.html • STEM http://www.cs.cmu.edu/~jernst/stem/ • EisenLab tools http://rana.lbl.gov/EisenSoftware.htm Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Předpověd (reinženýring) regulačních sítí • regulační sítě lze předpovídat z microarray dat ■v • předpověd struktury sítě • detekce podmíněných závislostí proměnných • charakter korelace proměnných ■v • předpověd dynamiky proměnných • fitování naměřených dat na (spojitý) model • pravděpodobnostní rozložení diskrétních hodnot Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Předpověd (reinženýring) regulačních sítí Boolovské vs. Bayesovské sítě tRNA crp(r + 1) = ^crp(ŕ) A ^cya(ŕ) cya(r + 1) = ^cya(ŕ) A ^crp(ŕ) fis(t + 1) = ^crp(t) A ^cya(ŕ) tRNA(t+l) = fis(t) P{Xcrp) P{Xcya) P(Xfjs\Xcrp, Xcya) P{XtRNA\Xfjs) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Předpověd (reinženýring) regulačních sítí Bayesovské sítě P(V\W) = P(W\V) = P(V, W) P(W) P(W, V) P(V) P(V, W) = P(W, V) = P(V\W) ■ P(W) = P(W\V) ■ P{V) Bayesův vzorec: P(V\W) = P(W\V) ■ P(V) pjw) Obecně pro pravděpodobnost současných jevů platí řetězové pravidlo: P(V, W, Y)=P(V\W, Y) ■ P(W, Y) =P(V\W, Y) ■ P(W\Y) ■ P{Y) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Předpověd (reinženýring) regulačních sítí Algoritmy pro bayesovské sítě • strojové učení z experimentálních dat: • algoritmy učení struktury • algoritmy učení pravděpodobnostního rozložení např. Expectation Maximization (EM) - iterativní metoda maximalizující P(data\model) • kombinované algoritmy • pro úspěšný výsledek vyžadována rozsáhlá sada dat • nástroje: • Hugin (http: //www.hugin. com/) • Genomica (http://genomica.weizmann.ac.il/) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí v Předpověd (reinženýring) regulačních sítí Algoritmy pro bayesovské sítě problémem jsou zpětné vazby (cykly v síti) řešením je unfolding v diskrétním čase: t=1 t=2 t=3 t=4 A(t) B(t) P(A(t*1)s1 0 0 0.07 0 1 0.86 1 0 0.84 1 1 0.95 • původní sít s n uzly je nahrazena sítí s 2n uzly • tabulka podmíněných pravděpodobností charakterizuje pravděpodobnost přechodů mezi jednotlivými konfiguracemi