logo-IBA-prezentace-pruhledny Kapitola VI Analýza génových sád (pathway analýza) Výuka IBA logo-IBA-transparent Společná schéma analýzy dat Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Kontrola kvality Normalizace Sumarizace Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů logo-IBA-transparent Motivácia §Gény a proteíny sú navzájom prepojené vo veľkej spleti rôznych signálnych, metabolických a rôznych iných dráh §Ako odhaliť tieto závislosti? 1.Gény, ktoré nájdeme odlišne exprimované medzi skupinami (porovnanie skupín) môžeme ad-hoc vložiť do databázy a pozrieť sa kam patria (KEGG, MsigDB....) §nevýhoda – nemáme štatistickú významnosť, ktorá z dráh je zastúpená najviac 2.Môžeme priamo porovnávať všetky gény so skupinami génov v jednotlivých dráhach §Predpoklad týchto analýz: operujú s už definovanými skupinami génov jednotlivých dráhach 1. § logo-IBA-transparent Génová sada vs dráha §Génový sada je akákoľvek množina génov, napríklad §všetky gény patriace do jednej dráhy §všetky gény ktoré majú podobnú funkciu §... § §Sada génov nie je dráha – je to všeobecnejší a menej špecifický pojem logo-IBA-transparent Analýza dráh/génových sád §Cieľ je priradiť každej génovej sade, prípadne dráhe jedno číslo - skóre, alebo p-hodnotu, aby sme mohli odpovedať na otázku § §Koľko génov v dráhe je odlišne exprimovaných a je to dostatočne štatisticky významné, aby sme mohli povedať, že táto dráha je špecifická pre naše porovnávané skupiny? § §Osnova: 1.Kde hľadať informácie o dráhach / génových sadách 2.Všeobecné rozdiely medzi nástrojmi pre analýzu génových sád 3.Niektoré z metód popíšeme detailnejšie § § logo-IBA-transparent Databáze génových sád/pathways §Gene Ontology (GO) databáza §http://www.geneontology.org/ §Hierarchická databáza §Rodičovské uzly: obecnejšie termíny §Potomkovia uzly: viac špecifické §Na konci hierarchie sú gény/proteíny §Na vrchole sú 3 rodičovské uzly: 1.Biologické procesy 2.Molekulárna funkcia 3.Bunkové zložky § logo-IBA-transparent Gene Ontology logo-IBA-transparent KEGG pathway databáza §KEGG = Kyoto Encyclopedia of Genes and Genomes §http://www.genome.jp/kegg/pathway.html §Viac informácií než GO, máme tu už vzťahy medzi génmi a génovými produktami §Detailná informácia len pre niektoré organizmy a procesy §Využíva hlavne overené poznatky, nemôže ju meniť ktokoľvek §Preto sa tu nenachádzajú všetky gény (obvykle tak tretina až polovica z hľadaných) §Aktualizovaná databáza nie je voľne pristupná § § § logo-IBA-transparent KEGG § logo-IBA-transparent KEGG § logo-IBA-transparent § logo-IBA-transparent KEGG pathway databáza §Poklikanie na jednotlivé uzly zobrazí viac informácie o jednotlivých génoch: §Všetky ostatné dráhy do ktorých patrí gén §Identifikátory daného génu v rôznych iných databázach §Odkaz na literatúru z ktorej boli informácie čerpané, prípadne ďalšie dôležité články §Informáciu o sekvencii § §Je možné zafarbiť jednotlivé gény podľa rozličných farieb § logo-IBA-transparent Nástroje pre analýzu génových sád §Podľa toho s akou informáciou pracujú na §metódy deliacej hranice – berú do úvahy len informáciu "významný" vs "nevýznamný" gén §metódy celého zoznamu génov – pracujú priamo so všetkými p-hodnotami (i nevýznamnými!) a teda s poradím § §Nové metódy pracujú aj s topológiou dráhy § §Rozdeľujeme podľa skupiny génov ktoré analyzujú na: §uzavreté – analýza len v rámci génov v sade §kompetitívne – porovnanie so všetkými génmi experimentu § § logo-IBA-transparent Uzavreté vs kompetitívne I. §Uzavretá metóda používa len hodnoty génov z danej množiny: §H0 : “Žiadne gény z génovej množiny nie sú odlišne exprimované” § § § §Kompetitívny test porovnáva gény v génovej množine s ostatnými génmi v experimente §H0 : “Gény v génovej množine nie sú viac odlišne exprimované než ostatné gény v experimente” § § logo-IBA-transparent Príklad, metódy deliacej hranice §Dátový súbor 12 639 génov. Z nich p<0.05 má 1272 génov §96 génov v génovej sade, z toho 8 má p-hodnoty < 5% §Koľko odlišne exprimovaných génov očakávame náhodne? §Uzavretá metóda §Náhodne očakávame 96 x 5% = 4.8 významných génov §Pomocou binomického testu vypočítame pravdepodobnosť spozorovania 8 a viac významných génov: p = 0.1079, teda nie významné §binom.test(x=8,n=96,p=0.05, alternative="greater") §Kompetitívny test §1272 z 12639 génov je odlišne exprimovaných v tomto dátovom súbore (to je zhruba 10%) §V množine náhodne vybraných 96 génov očakávame teda 96 x 10% = 9.6 významných génov §p-hodnotu vypočítame z kontingenčnej tabuľky pomocou Fisherovho či Chi-kvadrát testu § V GS Nie je v GS Význ 8 1264 Nevýzn 88 11279 p = 0.73 Fisherovho testu (jednostranného):, teda nevýznamná logo-IBA-transparent Metódy deliacej hranice vs. metódy celého zoznamu §Dve predchádzajúce metódy sú závislé na deliacich hraniciach – cut-offs § §V prípade, že povieme, že gén je pre nás významný už na 10% FDR, výsledok sa zmení § §Ďalej strácame informáciu tým, že redukujeme p-hodnotu na binárne premenné (významné/nevýznamné) § §Je rozdiel vedieť či štatisticky nevýznamné gény v našej množine sú takmer signifikantné na hranici významnosti alebo vôbec nie logo-IBA-transparent Metóda celého zoznamu génov: uzavretá • Môžeme študovať rozloženie p-hodnôt v množine génov • V prípade že žiadne gény nie sú odlišne exprimované, malo by sa jednať o uniformné rozloženie • Pík vľavo indikuje významnosť niektorých génov • Aplikujeme Kolmogorov-Smirnov-Test pre porovnanie rozložení • p = 8.2%, nie veľmi významné • Je to uzavretá metóda, lebo používame len gény z génovej sady logo-IBA-transparent • Alternatívne sa môžeme dívať na rozloženie PORADÍ p-hodnôt • Toto by bola kompetitívna metóda, pretože porovnávame našu génovú sadu s ostatnými génmi v experimente • Zas môžeme aplikovať KS test • p= 85.1%, veľmi nevýznamné Metóda celého zoznamu génov: kompetitívna logo-IBA-transparent Uzavreté vs kompetitívne II. §Výsledky kompetitívnych testov závisia na počte testovaných génov (napr. génov na microarray sklíčku a predchádzajúcom filtrovaní) §Na malom mikročipovom sklíčku, kde sú zmenené všetky gény, kompetitívna metóda nenájde žiadne odlišne exprimované množiny génov. § §Kompetitívne testy dávajú menej významných génov než uzavreté § logo-IBA-transparent Zmiešané metódy §Najznámejšia je GSEA – gene set enrichment analysis (analýza obohatenia génovej sady) §Počíta sa na zoradených p-hodnotách a sleduje sa,či sa gény z génovej sady sú náhodne rozložené v tomto zoradenom liste, alebo sa vyskytujú v horných,významných pozíciách §Postup: 1. Výpočet skóre obohatenia (ES) § 2. Odhad významnosti ES (p hodnota) na základe permutačného testu § 3. Upravenie p-hodnôt na problém mnohonásobného porovnávania logo-IBA-transparent Ďalšie aspekty §Smer zmeny §Ak chceme zistiť smer zmeny, musíme zopakovať analýzu pre jednostranný test §len up-regulované §len down-regulované § §Mnohonásobné testovanie §Takisto ako u testovania hypotéz na génoch medzi skupinami, aj tu ak máme veľký počet génových sád! §FDR je trochu komplikované, pretože génové množiny sa prekrývajú §Bonferroniho korekcia tu vždy funguje § § logo-IBA-transparent Bez topológie S topológiou A G F D B H E C A G F D B H E C Metódy využivajúce topológie Len analýza dráh! logo-IBA-transparent Topológia využívaná rôzne §Cieľ: §zmena priemernej expresie, korelácie, topológie §Jednotka záujmu: §dráha, modul, cesta, gény §Topológia známa vopred alebo odhadovaná z dát §Celková sieť alebo individuálne dráhy § logo-IBA-transparent Topológia využívaná rôzne §Cieľ: §zmena priemernej expresie, korelácie, topológie §Jednotka záujmu: §dráha, modul, cesta, gény §Topológia známa vopred alebo odhadovaná z dát §Celková sieť alebo individuálne dráhy § logo-IBA-transparent Všeobecné princípy I. §Mnohorozmené metódy (TopologyGSA, clipper, DEGraph): §Grafové Gausovské modely (Graphical Gausian Models) §Analýza topológie + mnohorozmený test logo-IBA-transparent Všeobecné princípy II. §Jednorozmerné metódy (SPIA, PRS, PWEA, CePa): 1.Analýza zmeny expresie génov 2.Výber významných génov (voliteľné) 3.Váhy podľa pozície génov v dráhe 4.Sumarizácia 5.Permutačný test logo-IBA-transparent Všeobecné princípy III. §Transformácia (TAPPA, PathOlogist): §Transformácia génového profilu na dráhový §Jednorozmerný test logo-IBA-transparent Group A Group B samples Group A Group B samples Group A Group B samples Multivariable models: Gaussian Graphical Models Multivariate Normal Distribution log fold-change t-statistic p-value Group A Group B samples t-test TopologyGSA, Clipper DEGraph SPIA, PRS PWEA TAPPA Pathway topology logo-IBA-transparent Pozor na korelácie medzi génmi ! §Všetky testy ktoré sme preberali predpokladali, že gény vnútri skupín sú nezávislé §To je ale veľmi nepravdepodobné! § §Ak sú gény korelovené, tak p-hodnoty jednotlivých testov (napr. Fisherov test) budú nesprávne §Vyriešime permutačnými metódami •Poprehadzujeme skupiny vzoriek •Zopakujeme analýzu •Porovnáme hodnoty s pozorovanými dátami § logo-IBA-transparent Pozor na prieniky medzi dráhami PIK3CD PIK3CG PIK3R2 PIK3CA MAPK3 MAPK1 70 70 70 71 78 79 §250 KEGG dráh pre H. Sapiens §najčastejšie zastúpene gény logo-IBA-transparent Študijný materiál a SW §Hana Imrichová: Možnosti propojení výsledku genomických experimentů s gene ontology online databázemi pro tvorbu metabolických sítí, Masarykova Univerzita,2010,Bakalárska práca § §R balíky §source("http://www.bioconductor.org/biocLite.R") §biocLite("PGSEA") §biocLite("GSA") # http://statweb.stanford.edu/~tibs/GSA/ §biocLite("ToPASeq") § §gage, DOSE, phenoTest, limma § §MSigDB - web §http://www.broadinstitute.org/gsea/msigdb/index.jsp § §http://cbl-gorilla.cs.technion.ac.il/ §https://david.ncifcrf.gov/ § logo-IBA-transparent Úloha [1 bod] §Data ALL z balíka ALL (Bioconductor) §Nájsť nasýtene (overrepresented) GO pojmy v sade génov odlišne exprimovaných medzi pacientami s fúziou BCR/ABL a bez tejto fúzie (pData(ALL)[,“mol.biol“]) § §Odlišne exprimované gény: FDR = 5% §balík GOstats §fisher.test() pre GO:0005886 - plasma membrane, bez ohľadu na úroveň dôkazu