Detekce biomarkerů z omics experimentů • Mgr. Eva Budinská, PhD • RECETOX • budinska@recetox.muni.cz • Experimentální onkologie, podzim 2019 Analýza genových sad (pathway analýza) Motivace • Geny, proteiny a další molekuly jsou navzájem propojené ve velké spleti různých signálních, metabolických a různych jiných drah • Jak odhalit tyto závislosti? • Geny, které najdeme odlišně exprimované mezi skupinami (porovnání skupin) můžeme ad-hoc vložit do databáze a podívat se kam patří (KEGG, MsigDB....) • nevýhoda – nemáme statistickou významnost, která z drah je zastoupená nejvíce • Můžeme přímo porovnávat všechny geny se skupinami genů v jednotlivých dráhách • Předpoklad těchto analýz: operují s již definovanými skupinami genů Genová sada vs dráha Sada genů nemusí být dráha – je to všeobecnější a méně specifický pojem Génová sada je jakákoliv množina genů, například všechny geny patřící do jedné dráhy všechny geny které mají podobnou funkci ... Cíl • Cíl je přiřadit každé genové sadě, případně dráze jedno číslo - skóre, a nebo p-hodnotu, abychom mohli odpovědět na otázku: Kolik genů je v sadě(pathway) odlišně exprimovaných a je to dostatečně statisticky významné, abychom mohli říct, že je tato dráha specifická jen pro naše porovnávané skupiny? Databáze genových sad (pathways) Gene Ontology (GO) databáze • http://www.geneontology.org/ • Hierarchická databáze • Rodičovské uzly: obecnější termíny • Potomci uzlů: víc specifické • Na konci hierarchie jsou molekuly (geny/proteiny) • Na vrcholu jsou 3 rodičovské uzly: • Biologické procesy • Molekulární funkce • Buněčné složky GO databáze KEGG pathway databáze • KEGG = Kyoto Encyclopedia of Genes and Genomes • http://www.genome.jp/kegg/pathway.html • Více informací než GO, máme tu již vztahy mezi geny a genovými produkty • Detailní informáce jen pro některé organizmy a procesy • Využívá hlavně ověřené poznatky, nemůže ji kdokoliv změnit • Proto se tu nenachází všechny geny (obvykle tak třetina až polovina z hledaných) • Aktualizovaná databáze není volně přístupná KEGG KEGG KEGG pathway databáze Je možné zabarvit jednotlivé geny podle rozdílných barev Poklikání na jednotlivé uzly zobrazí víc informací o jednotlivých genech: Všechny ostatní dráhy do kterých patří gen Identifikátory daného genu v různých jiných databázích Odkaz na literaturu z které byly informace čerpané, případně další důležité články Informaci o sekvenci Metody analýzy genových sad Rozdělení metod Podle toho s jakou informací pracují na • metody dělící hranice – berou do úvahy jen informaci "významný" vs. "nevýznamný" gen • metody celého seznamu genů – pracují přímo se všemi p-hodnotami (i nevýznamnými!) a teda s pořadím Podle skupiny molekul které analyzují na: • uzavřené – analýza jen v rámci genů v sadě • kompetitivní – porovnání se všemi geny experimentu Nové metody pracují i s topologií dráhy Dělení metod dle skupiny molekul které analyzují Uzavřené vs. kompetitivní I. • H0 : “Žádné geny z genové množiny nejsou odlišně exprimované” Uzavřená metoda používá jen hodnoty genů z dané množiny: • H0 : “Geny v genové množině nejsou víc odlišně exprimované než ostatní geny v experimentu” Kompetitivní test porovnává geny v genové množině s ostatními geny v experimentu Příklad Datový soubor 12 639 genů. Z nich p<0.05 má 1272 genů 96 genů v genové sadě, z toho 8 má p-hodnoty < 5% Kolik odlišně exprimovaných genů očekáváme náhodně? Příklad, uzavřená metoda dělící hranice 1. Náhodně očekáváme 96 x 5% = 4.8 významných genů 2. Pomocí binomického testu vypočteme pravděpodobnost pozorování 8 a více významných genů: p = 0.1079, teda není významné 3. binom.test(x=8,n=96,p=0.05, alternative="greater") Příklad, kompetitivní metoda dělící hranice • 1272 z 12639 genů je odlišně exprimovaných v tomto datovém souboru (to je zhruba 10%) • V množině náhodně vybraných 96 genů očekáváme tedy 96 x 10% = 9.6 významných genů • p-hodnotu vypočítáme z kontingenční tabulky pomocí Fisherova nebo Chikvadrát testu p = 0.73 (Fisherův test – jednostranný) V GS Není v GS Význ 8 1264 Nevýzn 88 11279 Dělení metod podle toho s jakou informací pracují Metody dělící hranice vs. metody celého seznamu • Dvě předchozí metody byly závislé na dělících hranicích – cut-offs a tedy závislé na N • V případě, že řekneme, že gen je pro nás významný již na 10% FDR, výsledek se změní! • Dále ztrácíme informaci tím, že redukujeme p-hodnotu na binární proměnné (významné/nevýznamné) • Je rozdíl vědět jestli statisticky nevýznamné geny v naší množině jsou významné na hranici významnosti a nebo vůbec ne Metoda celého seznamu genů: uzavřená • Můžeme studovat rozložení p-hodnot v genové sadě • V případě, že žádné geny nejsou odlišně exprimované, mělo by se jednat o uniformní rozložení • Pík vlevo indikuje významnost některých genů • Aplikujeme Kolmogorův-Smirnovův test pro porovnání rozložení • p = 8.2%, není velmi významné • Je to uzavřená metoda, protože používáme jen geny z genové sady P-value histogram for inflammation genes pvalue[incl] Frequency 0.0 0.2 0.4 0.6 0.8 1.0 051015 Metoda celého seznamu genů: kompetitivní • Alternativně se můžeme dívat na rozložení pořadí p-hodnot • Toto by byla kompetitivní metoda, protože porovnáváme naši genovou sadu s ostatními geny v experimentu • Opět můžeme aplikovat KS test • p=85.1%, velmi nevýznamné Histogram of the ranks of p-values for inflammation genes p.rank[incl] Frequency 0 2000 4000 6000 8000 10000 12000 14000 051015 Uzavřené vs. kompetitivní II. • Výsledky kompetitivních testů závisí na počtu testovaných genů (např. genů na microarray sklíčku a předcházejícím filtrování) • Na malém mikročipovém sklíčku, kde jsou změněné všechny geny, kompetitivní metoda nenajde žádné odlišně exprimované množiny genů. • Kompetitivní metody dávají méně významných výsledků než metody uzavřené Smíšené metody • Najznámější je GSEA – gene set enrichment analysis (analýza obohacení genové sady) • Počítá se na seřazených p-hodnotách a sleduje se, zda jsou geny z genové sady náhodně rozložené v tomto seřazeném listě, a nebo se vyskytují v horních, významných pozicích • Postup: 1. Výpočet skóre obohacení (ES) • 2. Odhad významnosti ES (phodnota) na základě permutačního testu • 3. Upravení p-hodnot na problém mnohonásobného porovnávání Další aspekty Směr změny • Pokud chceme zjistit směr změny, musíme zopakovat analýzu pro jednostranný test • jen up-regulované • jen down-regulované Mnohonásobné testování • Stejně jako u testování hypotéz na genech mezi skupinami, i pokud máme velký počet genových sad! • FDR je trochu komplikované, protože genové množiny se překrývají • Bonferroniho korekce vždy funguje Bez topologie S topologií A G F D B H E C A G F D B H E C Topologie Topologie využívaná různě • Cíl: • změna průměrné exprese, korelace, topologie • Jednotka zájmu: • dráha, modul, cesta, geny • Topologie známá dopředu a nebo odhadovaná z dat • Celková síť a nebo individuální dráhy Skupina A Skupina B Vzorky gény Skupina A Skupina B Vzorky gény Skupina A Skupina B Vzorky gény Mnohorozměrné modely: Gaussian Graphical Models Multivariate Normal Distribution Změna exprese t-statistika p-hodnota Skupina A Skupina B Vzorky dráhy t-test gény TopologyGSA, Clipper DEGraph SPIA, PRS PWEA TAPPA Topologie dráhy Příklad – uzavřená metoda dělící hranice Příklad – uzavřená metoda dělící hranice § Z 8 odlišně exprimovaných genů: • 2 interagují s 10 geny v dráze • 3 interagují s 5 geny v dráze • 3 interagují s jedním genem v dráze § s = 2*10 + 3*5 + 3*1 = 38 § Opakovaně v dráze náhodně vybíráme 8 genů a získáme rozdělení statistik, které porovnáme s první statistikou. § Z 8 odlišně exprimovaných genů: • 2 interagují s 10 geny v dráze • 3 interagují s 5 geny v dráze • 3 interagují s jedním genem v dráze § s = 2*10 + 3*5 + 3*1 = 38 § Opakovaně v dráze náhodně vybíráme 8 genů a získáme rozdělení statistik, které porovnáme s první statistikou. https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0191154 Pozor na korelace mezi geny! • Všechny testy, které jsme probírali předpokládají, že geny uvnitř skupin jsou nezávislé • To je ale velmi nepravděpodobné! • Pokud jsou geny korelované, tak p-hodnoty jednotlivých testů (např. Fisherův test) budou nesprávné • Vyřešíme permutačními metodami • Popřehazujeme skupiny vzorků • Zopakujeme analýzu • Porovnáme hodnoty s pozorovanými daty Pozor na průniky mezi dráhami • 250 KEGG drah pro H. Sapiens • najčastěji zastoupené geny PIK3CD PIK3CG PIK3R2 PIK3CA MAPK3 MAPK1 70 70 70 71 78 79 Další studijní materiály a SW • Hana Imrichová: Možnosti propojení výsledku genomických experimentů s gene ontology online databázemi pro tvorbu metabolických sítí, Masarykova Univerzita,2010,Bakalárska práca • Ihnatova et al. A critical comparison of topology-based pathway analysis methods, PLoS One, 2018 • R balíky: PGSEA, GSA,ToPASeq, gage, DOSE, phenoTest, limma, GOstats • MSigDB – web http://www.broadinstitute.org/gsea/msigdb/index.jsp • Gorilla: http://cbl-gorilla.cs.technion.ac.il/ • DAVID: https://david.ncifcrf.gov/