Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí PB051: Výpočetní metody v bioinformatice a systémové biologii David Šafránek 6.4.2012 Tento projekt je spolufinancován Fvmpskym sociálním fondem s státním rozpočtem České republiky. NVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Systémové paradigma - sítě interakcí Obsah Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakcí Obsah Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Průběh výzkumu v systémové biologii rekonstrukce sítí databáze biol. znalostí + literatura biologická sít hypotézy specifikace modelu SBML, diferenciální rovnice, boolovská sít, Petřino sít, ... validace modelu genové reportéry, DNA microarray, hmotnostní spektrometrie, ... objevené vlastnosti dotazy na model analýza modelu statická analýza, numerická simulace, analytické metody, model checking verifikace hypotéz, detekce vlastností vyvození nových hypotéz Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Metody systémového měření Systémové paradigma - sítě intkrakci Rekonstrukce genových interakčních síti Koncept hierarchie Genotype mEu A O 0 Component! I A D a —' a —»c Small-scale A| L I" D. i of •í r'K ...'Is* i I Large-scale modules Phenotype (physiology) paradigma - site interakci Rekonstrukce genových interakčních síti Biochemické procesy v buňce • molekulární komponenty - proteiny, DNA, RNA,... interakce na různých úrovních (transkripce, metabolismus,...) • příjem signálů a živin (nutrientů) na membráně Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Příklad geneticky řízené metabolické dráhy L-ůasfioHyi-L-Meiriioriiriů Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Příklad modulu genetické regulace v E. Coli gyrAB i »GyrAB DNA superceding P1-P4 top/ t TopA IF fis cAMP-CRP ■ Signal (lack of carbon source) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Kompletní transkripční sít E. Coli Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Biologická sít jako obecný graf Definition Necht V je konečná množina uzlů a E C V x V relace. Biologickou sítí nazveme graf G reprezentovaný uspořádanou dvojicí G = (V, E). • Pokud V(a, b) G E. (a, b) G E —> (b, a) G E, G nazýváme neorientovaný. • V ostatních případech hovoříme o orientovaném grafu. typ sítě V E G genové geny (resp. proteiny) regulace exprese or. proteinové proteiny proteinové interakce neor. metabolické metabolity, enzymy enzymové reakce or. signální molekuly aktivace/deaktivace or. Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Biologické sítě - výpočetní problémy • (re)konstrukce sítí • identifikace interakcí => z experimentálních dat => integrací dat z databází znalostí • zpracování sítí • vizualizace • integrace atributů uzlů, hran • analýza sítí analýza statistických vlastností => rozložení konektivity, detekce motivů, • porovnání sítí paradigma - site interakci Rekonstrukce genových interakčních síti Ontológie genů a genových produktů • nutnost systematicky uchopit genom, genové produkty a funkce (interaktom) • akumulace biologických dat • decentralizovaný proces • paralelní proces • problém: nejednoznačné popisy téhož objektu, procesu • např. proteolýza vs. (řízená degradace proteinů) • od roku 1998 vývoj Gene Ontology =>• http://geneontology.org Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Gene Ontology • cílem je ucelený systematický popis genových produktů a jejich funkcí • ontológie představuje systematický slovník pojmů hierarchický pohled na data včetně vazeb mezi nimi (DAG) • zachycení synonym • GO obsahuje 3 kategorie (DAGy): • biological process • cellular component • molecular function Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Gene Ontology • respektuje standard OBO a OWL (W3C) pro strukturu a reprezentaci ontológií • http://obofoundry.org/ • http://www.w3.org/TR/owl-features/ • každý uzel představuje jednoznačný pojem (množinu synonym) =4> jednoznačně reprezentován ID (tzv. GO termem) • různé typy relací mezi uzly: • part_of, is_a, locatedJn, derived_from, .. . • viz http://obofoundry.org/ro/ paradigma - site interakci Rekonstrukce genových interakčních síti Nástroje pro Gene Ontology • on-line i off-line vyhledávače v GO • statistické testy na overreprezentaci dané množiny genů v pojmech GO • GOstat - http://gostat.wehi.edu.au/cgi-bin/goStat.pl • DAVID - http://david.abcc.ncifcrf.gov/ • BiNGO- http://www.psb.ugent.be/cbd/papers/BiNGO/Home.html • mapování microarray dat na ontologický strom • eGOn - http://www.genetools.no/ • High-Throughput GoMiner - http://discover.nci.nih.gov/gominer/htgm.jsp • Meta Gene Profiler (MetaGP) -http://metagp.ism.ac.jp/ Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí KEGG - Kyoto Encyclopedia of Genes and Genomes • integrative databáze genových produktů • genový prostor GENES, GENOME, ORTHOLOGY, Organisms • chemický prostor COMPOUND, GLYCAN, REACTION, ENZYME, LIGAND • systémový prostor PATHWAY, BRITE, DISEASE, DRUG • každý pojem má jednoznačné ID • zachycena ortologie (podobnost) genů • genový prostor čerpá aktuálně z několika zdrojů Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Cvičení Uvažujme sekvenci aminokyselin (FASTA formát): SVVEEHGQLSISNGELVNERGEQVQLKGMSSHGLQWYGQ FVNYESMKWLRDDWGINVFRAAMYTSSGGYIDDPS VKEKVKEAVEAAIDLDIYVIIDWHILSDNDPNIYK EEAKDFFDEMSELYGDYPNVIYEIANEPNGSDVTW GNQIKPYAEEVIPIIRNNDPNNIIIVGTGTWSQDV HHAADNQLADPNVMYAFHFYAGTHGQNLRDQVDYA LDQGAAIFVSEWGTSAATGDGGVFLDEAQVWIDFM DERNLSWANWSLTHKDESSAALMPGANPTGGWTEA ELSPSGTFVREKIRES • najděte na http://www.ebi.ac.uk/intenz/ • prozkumejte relevantní dráhy na http://www.genome.jp/kegg/ Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Reactome Reactome - a curated knowledgebase of biological pathways I Escherichia coli Reaction Etperi-ncnlnlly cnrf rme:J reaction M a-nr. I y niericd icid on Electronical y in:orrcd reaction | Link«i Cell Cycle Checkpoi respiratory electron transport, ATP synthesis by chemiosmotic coupling, and neat production by uncoupling proteins. Metabolism ot vitamins and cotactors pyruvate metabolism and Citric Acid (TCA) _cycle_ Signaling by EGFR Signaling in Immure system Integration of energy metabolism Metabolism ot carbohydrates Metabolism ot porphyrins Muscle contractior regulation o1 beta-cell fleivelopme Signaling by FGFR Signaling by Insulin receptor itegrin cell surface interactions abolism oľ lipids and lipoproteir Metabolism ot proteins mRNA Processing regulatory PI l^ pathways Signaling byGPCR Signalling by I IGF superfamily (IgSF) member pre 'vlembrane Traffickinc ,lyu genesis Signaling By BMF Signaling byPDGF Signaling by Notch http://www.reactome.org/ paradigma - site interakci Rekonstrukce genových interakčních síti Specificky zaměřené zdroje dat > EcoCyc — http://ecocyc.org- E. coli K12 1 SGD —http://www.yeastgenome.org/ i WORMBASE - http: //www.Sanger.ac.uk/Projects/C_elegans/WDRMBASE/ ' FlyBase — http: //flybase. org/ Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Nástroje pro analýzu biologických sítí • Cytoscape http://www.cytoscape.org • vizualizační layouty • mapper vizuálních prvků na data • filtry • pluginy pro práci s biologickými sítěmi • VisANT http://visant.bu.edu/ • prakticky tatáž funkčnost jako Cytoscape • podpora hierarchického zanořování (MetaNodes) • méně flexibilní prostředí • více biologicky-relevantních funkcí paradigma - site interakci Rekonstrukce genových interakčních síti Cytoscape • analyzátor komplexních interakčních sítí • původně zaměřený na bioinformatická data • přístup k webovým službám (databáze) • funkce pro integraci dat • platforma pro pluginy • open source politika paradigma - site interakci Rekonstrukce genových interakčních síti Cytoscape - formát dat • SIF - Simple Interaction Format (interní formát) • GML - Graph Modelling Language (obecný formát pro popis grafu, zahrnuje i vizuální informace) • XGMML - extensible Graph Markup and Modeling Language (možnost anotací uzlů a hran daty) • BioPAX - formát využívající OWL (standard pro popis ontológií) • SBML - standard pro popis dynamických modelů • dále OBO, text format CSV, MS Excel XLS format, ... Rekonstrukce genových interakčních síti paradigma - site interakci Cytoscape - základní principy sítě organizovány v tzv. sessions (formát cys) v rámci session lze spravovat několik sítí data o uzlech/hranách jsou sdílena v rámci session session zahrnuje též vizuální data včetně nastavení stylů, vnitřní stavy některých pluginů Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Cytoscape - základni principy • možnost vyhledávání a filtrace dat • datový panel zobrazuje filtrovaná/vyhledaná data • jednoduše lze vytvořit podsít z aktuálně vybraných uzlů • možnost topologických filtrů Systémové paradigma - sítě interakcí Obsah Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Detekce regulačních interakcí • využití databází promotorových sekvencí • prohledávání promotorových sekvencí na přítomnost známých TFBSs • TRANSFAC, MATCH, PromoterScan, RegulonDB promotér analysis, ... • využití DNA mikročipů • identifikace genů s podobnými profily exprese a jejich agregace do skupin (tzv. klastrů) • analýza promotorů ortologických genů (napříč různými druhy) • tzv. phylogenetic footprinting • VIZ napr. http://bayesweb.wadsworth.org/binding_sites/index.html (E. coli) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Měření genové exprese • nej používanějším nástrojem je technologie DNA microarray • umožňuje tzv. high-throughput analýzu • v daném okamžiku je paralelně nasamplována exprese všech genů v genomu příslušného organismu • postaveno na relativním srovnání minimálně dvou různých vzorků • exprese v přítomnosti vs. nepřítomnosti O2 • exprese při knock-outu určitého genu vs. normální stav • Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Reverzní transkriptáza a cDNA [solate and collet \ mRMA Reverse transcriptase RNA DNA Insert into bacterial p losmi ds ^ inlc bci^ŤĚ : ia C^^rr^—j—— o a ——— . —-- Insert p losmi as \_y Isolate plasmid and purify DNA A _ CGT C T G 6 C T S A C T T T * TCCT A T A & Rekonstrukce genových interakčních síti paradigma - site interakci Reverzní transkriptáza a cDNA • enzym EC 2.7.7.49 (druh DNA polymerázy) • objevena v retrovirech [Temin, Baltimore, 1970] • přepisuje mRNA na jednořetězcovou (komplementární) DNA (tzv. cDNA) • umožňuje vytvořit knihovnu DNA paradigma - site interakci Rekonstrukce genových interakčních síti Polymerase Chain Reaction (PCR) • umožňuje replikaci určité části DNA (tzv. amplifikace) • DNA je zahřátím rozdělena • úsek DNA je označen párem oligonukleotidů (15-25 bazí) • při snížení teploty hybridizace oligonukleotidů s řetězcem DNA • doplnění zbývající sekvence DNA prostřednictvím RNA polymerázy • http://www.dnalc.org/resources/animat ions/pcr.html • lze využít i pro mRNA: RT-PCR (reverse transcription PCR) • reverzní transkripce mRNA do cDNA • amplifikace cDNA (PCR) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Postup při DNA microarray experimentu 1. konstrukce čipu z cDNA knihovny (amplifikace a rozmístění) 2. odběr celkové mRNA z experimentálních vzorků (typicky 2) 3. reverzní transkripce do cDNA asociované s fluorescenčním barvivem 4- hybridizace odebrané cDNA s cDNA na čipu 5. omytí čipu a oskenování výsledku 6. analýza dat 7. komerční čipy používají místo cDNA knihovny skupinu oligonukleotidů pro každý gen => pouze jeden vzorek mRNA je analyzován na jednom čipu (porovnání více identicky připravených čipů) http://www.bio.davidson.edu/courses/genomics/chip/chip.html Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Workflow produkce výsledků DNA microarray experimentu Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Validace a zpracováni výsledků • validace dat separátním měřením koncentrací mRNA nepřímo (pomocí RT-PCR) • RT-PCR spuštěna pro oba vzorky (shodný počet kroků PCR) • porovnání koncentrací příslušných cDNA • klastrování dat • zjištování podobnosti mezi datovými vektory • agregace do specifických skupin (klastrů) paradigma - site interakci Rekonstrukce genových interakčních síti Databáze microarray dat • Stanford Microarray Database - různé pohledy na data, filtrace http://smd.Stanford.edu/cgi-bin/cluster/drpGetData.pl • ArrayExpress - statisticky zpracovaná data http://www.ebi.ac.uk/gxa/ • Gene Expression Omnibus (GEO) http://www.nebi.nih.gov/geo/ • MUSC DNA Microarray Database http://proteogenomics.musc.edu/ma/ • GenExpDB (E. Coli specifická data) http://genexpdb.on.edu/ paradigma - site interakci Rekonstrukce genových interakčních síti Klastrování microarray dat • předpokládejme matici se sondami pro n genů • uvažujme sadu p experimentů • pro každý gen / dostáváme vektor X| = (x/i, ...,x/p) zachycující posloupnost výsledků (tzv. expresní profil) • definujeme míru vzdálenosti d : Mp x Mp —> M: p • pro q = 2 dostáváme Euklidovskou vzdálenost Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Klastrování microarray dat • existují dva hlavní přístupy ke klastrování • partitioning - cílem je najít jedno nejvhodnější rozdělení do klastrů (parametrem je počet požadovaných klastrů) => Self-organizing maps, K-means • hierarchické metody - vytvořen celý strom hierarchie => kořen - klastr obsahující všechny experimenty, v listech => listy - jednoprvkový klastr pro každý experiment • klastry mohou být identifikovány i pro vektory tvaru Xj = (xij,..., Xnj ) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Algoritmus pro hierarchické klastrování • nej používanější metoda je tzv. aglomerativní (zdola-nahoru) • parametrem je míra podobnosti hodnot d{x;,Xj) • postup (ř značí aktuální úroveň): 1. t — n => inicializuj pro každý gen / < n: C" — {x,} 2. spoj dva kláštery Cl a Cf s minimální vzdáleností D(C^, Cf) 3. update D dle nového rozdělení 4. t := t - 1 5. iteruj (2-4) dokud t > 1 Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Algoritmus pro hierarchické klastrování Při aglomeraci se používá míra podobnosti dvou klastrů na téže úrovni t: • D(Cf, Cf) = minXieCtXjeCtd(xi,Xj) (single linkage) • D(Cf, Cf) = maxx.eCtiX.eCtd(xj,Xj) (complete linkage) • Cf) = lľrjjľTj Exíeq,xjec/ d(xhXj) (average linkage) paradigma - site interakci Rekonstrukce genových interakčních síti Algoritmus pro hierarchické klastrování • update míry vzdálenosti (krok (3)): D(Om\ Ck U Cf) = akD(Om, Ck) + a,D{Cm, Cf) +1\D(Ctm,Cf)-D(Ctm,Cl)\ • single linkage: = ot\ = 0.5, 7 = —0.5 • complete linkage: = a\ = 0.5, 7 = 0.5 |Cf| • average linkage: a-, = \A\+Ct\-, ' £ {k, /}, 7 = 0 paradigma - site interakci Rekonstrukce genových interakčních síti Metoda K-means • založeno na optimalizaci odchylky mezi expresními profily vzhledem ke středu (průměrnému profilu) klastru • nejčastěji je tato optimalizace reprezentována minimalizací • pevně dán počet požadovaných klastrů • náhodně se inicializují střední profily • metoda je přesnější při větším počtu pokusů • klastryjsou průběžně modifikovány při minimalizaci odchylek (Euklidovské vzdálenosti) od středových profilů Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Metoda K-means • algoritmus K-means má dvě základní fáze • výpočet vzdáleností jednotlivých vektorů od vektoru středových hodnot • update vzhledem k optimalizační funkci • nej používanější metrikou je Euklidovská vzdálenost • vektor středových hodnot je vypočítán jako aritmetický průměr vektorů aktuálně přiřazených danému klášteru Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Algoritmus K-means • vstup: počet iterací (inicializací), počet klastrů K, práh přesnosti e • náhodně inicializuj rozdělení do klastrů Q1,...^ se středy c\,...,c^ a vypočítej hodnotu optimalizační funkce l/l/1 • v /-tém kroku proveď: • výpočet C[+1,C^1 - přiřaď každý datový vektor x ke klastrů s nejmenší vzdáleností středového vektoru od x • přepočítej středové vektory c[+1,c'^1 a minimalizuj W • dokud 3/c, \c'k — c'k+1\ > e, iteruj Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Nástroje pro cluster-based analýzu • klastrování lze využít pro detekci skupin shodně regulovaných genů • kombinace klastrování dle genů a experimentů • odhady regulátorů jednotlivých klastrů • odhady programů regulace • nástroje • Genomica (dříve GeneXPress) http://genomica.weizmann.ac.il/ • FunCluster (balík pro R) http://cran.r-proj ect.org/web/packages/FunCluster/index.html • STEM http://www.cs.cmu.edu/~jernst/stem/ • EisenLab tools http://rana.lbl.gov/EisenSoftware.htm Rekonstrukce genových interakčních síti paradigma - site interakci Předpověd (reinženýring) regulačních sítí • regulační sítě lze předpovídat z microarray dat • předpověď struktury sítě • detekce podmíněných závislostí proměnných • charakter korelace proměnných • předpověď dynamiky proměnných • fitování naměřených dat na (spojitý) model • pravděpodobnostní rozložení diskrétních hodnot Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí paradigma - site interakci Rekonstrukce genových interakčních síti Předpověd (reinženýring) regulačních sítí Boolovské vs. Bayesovské sítě crp(t + 1) = ~>crp(t) A ->cya(t) cya(t + 1) = -'cya(ŕ) A ->crp{t) fis(t + 1) = -'crp(ŕ) A -icya(ŕ) tRNA(t + 1) = fe(t) P(Xcrp) P(Xcya) P (^V/s I -^crp 5 -^cya ) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Předpověd (reinženýring) regulačních sítí Bayesovské sítě P(V, W) P{V\W) - r^v^v> P(W\V) P(W) P(W, V) P{V) P(V, W) = P(W, V) = P(V\W) ■ P(W) = P(W\V) ■ P(V) Bayesův vzorec: P{vlw) = nwiv)-p(v) K 1 ; P(W) Obecně pro pravděpodobnost současných jevů platí řetězové pravidlo: P(V, W, Y)=P(V\ W, Y) ■ P(W, Y) =P(V\W, Y) ■ P(W\Y) ■ P(Y) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Předpověd (reinženýring) regulačních sítí Algoritmy pro bayesovské sítě • strojové učení z experimentálních dat: • algoritmy učení struktury • algoritmy učení pravděpodobnostního rozložení např. Expectation Maximization (EM) - iterativní metoda maximalizující P(data\model) • kombinované algoritmy • pro úspěšný výsledek vyžadována rozsáhlá sada dat • nástroje: • Hugin (http://www.hugin.com/) • Genomica (http://genomica.weizmann.ac.il/) paradigma - site interakci Rekonstrukce genových interakčních síti Předpověd (reinženýring) regulačních sítí Algoritmy pro bayesovské sítě problémem jsou zpětné vazby (cykly v síti) řešením je unfolding v diskrétním čase: A(t) B(t) P(A(t+1)=1 0 0 0.07 0 1 0.8« 1 0 0.84 1 1 0.9S • původní sít s n uzly je nahrazena sítí s 2n uzly • tabulka podmíněných pravděpodobností charakterizuje pravděpodobnost přechodů mezi jednotlivými konfiguracemi