logo-IBA-prezentace-pruhledny Kapitola VI Analýza genových sad (pathway analýza) Výuka IBA logo-IBA-transparent Společne schéma analýzy dat Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Kontrola kvality Normalizace Sumarizace Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů logo-IBA-transparent Motivace §Geny a proteiny jsou navzájem propojené ve velké spleti různých signálních, metabolických a různych jiných drah §Jak odhalit tyto závislosti? 1.Geny, které najdeme odlišně exprimované mezi skupinami (porovnání skupin) můžeme ad-hoc vložit do databáze a podívat se kam patří (KEGG, MsigDB....) §nevýhoda – nemáme statistickou významnost, která z drah je zastoupená nejvíce 2.Můžeme přímo porovnávat všechny geny se skupinami genů v jednotlivých dráhách §Předpoklad těchto analýz: operují s už definovanými skupinami genů jednotlivých drah 1. § Geny a proteiny jsou navzájem propojené ve velké spleti různých signálních, metabolických a různých dalších drah. Jak odhalíme, které dráhy jsou významně zasaženy v důsledku změny exprese genů mezi skupinami? Právě tyto dráhy mohou být příčinou vzniku onemocnění, nebo mohou poskytnout klíč k nalezení správné terapie. Máme dvě možnosti, jak na tuto otázku odpovědět. Geny, které najdeme odlišně exprimované mezi skupinami (porovnání skupin) můžeme vložit do databáze a podívat se kam patří (KEGG,MsigDB, ...). Nevýhodou však je to, že nemáme statistickou významnost toho, která z drah je zastoupena nejvíce. Můžeme však také porovnávat všechny geny se skupinami genů v jednotlivých drahách s pomocí statistických přístupů, které se obecně nazývají metody analýzy genových sad. Předpoklad těchto analýz je, že operují již s definovanými skupinami genů jednotlivých drah. logo-IBA-transparent Genová sada vs dráha §Génová sada je jakákoliv množina genů, například §všechny geny patřící do jedné dráhy §všechny geny které mají podobnou funkci §... § §Sada genů není dráha – je to všeobecnější a méně specifický pojem Jaký je rozdíl mezi genovou sadou a genovou dráhou? Genová sada je jakákoliv množina genů, například všechny geny patřící do jedné dráhy či všechny geny, které mají podobnou funkci. Anebo i geny z jednoho chromozomu, regulovaně jedním transkripčním faktorem, se specifickou délkou, motivem aminokyselin Genová sada není genová dráha; je to mnohem všeobecnější a méně specifický pojem. logo-IBA-transparent Analýza drah/genových sad §Cíl je přiřadit každé genové sadě, případně dráze jedno číslo - skóre, a nebo p-hodnotu, abychom mohli odpovědět na otázku § §Kolik genů je v dráze odlišně exprimovaných a je to dostatečně statisticky významné, abychom mohli říct, že je tato dráha specifická jen pro naše porovnávané skupiny? § §Osnova: 1.Kde hledat informace o drahách/genových sadách 2.Všeobecné rozdíly mezi nástroji pro analýzu genových sad 3.Některé z metod popíšeme detailněji § § Této analýze se někdy říká také pathway analýza (angl. pathway analysis). logo-IBA-transparent Databáze genových sad / pathways §Gene Ontology (GO) databáze §http://www.geneontology.org/ §Hierarchická databáze §Rodičovské uzly: obecnější termíny §Potomci uzlů: víc specifické §Na konci hierarchie jsou geny/proteiny §Na vrcholu jsou 3 rodičovské uzly: 1.Biologické procesy 2.Molekulární funkce 3.Buněčné složky § logo-IBA-transparent Gene Ontology logo-IBA-transparent KEGG pathway databáze §KEGG = Kyoto Encyclopedia of Genes and Genomes §http://www.genome.jp/kegg/pathway.html §Více informácí než GO, máme tu už vztahy mezi geny a genovými produkty §Detailní informáce jen pro některé organizmy a procesy §Využívá hlavně ověřené poznatky, nemůže ji kdokoliv změnit §Proto se tu nenachází všechny geny (obvykle tak třetina až polovina z hledaných) §Aktualizovaná databáze není volně přístupná § § § Online KEGG je aktualizovany. Od 2011 roku zpoplatněný přístup na FTP server, na kterém byly závislé napr. Všechny balíky. Zadarmo sa drahy daju postahovat rucne. logo-IBA-transparent KEGG § logo-IBA-transparent KEGG § logo-IBA-transparent § Poklikáním na jednotlivé uzly se zobrazí více informace o jednotlivých genech, jako například všechny ostatní dráhy, do kterých gen patří, identifikace daného genu v dalších databázích, odkaz na literaturu, ze které byly informace čerpány, případně další důležité články a samozřejmě informaci o sekvenci. Také je možné zabarvit jednotlivé geny podle různých barev. logo-IBA-transparent KEGG pathway databáze §Poklikání na jednotlivé uzly zobrazí víc informací o jednotlivých genech: §Všechny ostatní dráhy do kterých patří gen §Identifikátory daného genu v různých jiných databázích §Odkaz na literaturu z které byly informace čerpané, případně další důležité články §Informaci o sekvenci § §Je možné zabarvit jednotlivé geny podle rozdílných barev § 3. MsigDB - databáze Broad Institute - obsahuje různé typy gneových sad. Co je nejzajímavější je, že také genové sady z publikací - genové signatury, odlišně exprimované geny mezi skupinami a podobně. Také obsahuje přímo nástroj pro analýzu genových sad přímo online. Tato databáze také poskytuje R kód a R balík pro analýzu genových sad. 4. DAVID - NIH databáze - podobně jako MsigDB, ale obsahuje genové sady nejen pro člověka, ale pro velké množství druhů. Také poskytuje analýzu genových sad online nebo propojení s R. logo-IBA-transparent Nástroje pro analýzu genových sad §Podle toho s jakou informací pracují na §metody dělící hranice – berou do úvahy jen informáci "významný" vs. "nevýznamný" gen §metody celého seznamu genů – pracují přímo se všemi p-hodnotami (i nevýznamnými!) a teda s pořadím § §Nové metody pracují i s topologií dráhy § §Rozdělujeme podle skupiny genů které analyzují na: §uzavřené – analýza jen v rámci genů v sadě §kompetitivní – porovnání se všemi geny experimentu § § Nástroje pro analýzu genových sad se liší podle toho, s jakou informací pracujeme na: Metody dělící hranice: Berou v úvahu pouze informaci významný versus nevýznamný gen - pracují pouze se seznamem významných genů. (Napr. DAVID) Metody celého seznamu genů: Pracují se všemi geny seřazenými podle p-hodnoty nebo statistiky. (Napr. Gorilla) Podle skupiny genů, kterou analyzujeme, pak rozeznáváme metody: Uzavřené: Analyzujeme jen v rámci genů v sadě. Nulová hypotéza H[0] zní: Žádné geny z množiny genů nejsou odlišně exprimované. Kompetitivní: Porovnání se všemi geny v experimentu. H[0]: Geny v genové množině nejsou více odlišně exprimované než ostatní geny v experimentu. Všechna tato dělení jsou navzájem nezávislé. logo-IBA-transparent Uzavřené vs. kompetitivní I. §Uzavřená metoda používá jen hodnoty genů z dané množiny: §H0 : “Žádné geny z genové množiny nejsou odlišně exprimované” § § § §Kompetitivní test porovnává geny v genové množině s ostatními geny v experimentu §H0 : “Geny v genové množině nejsou víc odlišně exprimované než ostatní geny v experimentu” § § Výsledky kompetitivních testů závisí na počtu testovaných genů (např. genů na mikročipovém sklíčku a předcházejícím filtrování). Na malém mikročipovém sklíčku, kde jsou změněny všechny geny, kompetitivní metoda nenajde žádné odlišně exprimované množiny genů. Kompetitivní testy dávají obecně méně významných genů než metody uzavřené. logo-IBA-transparent Příklad §Datový soubor 12 639 genů. Z nich p<0.05 má 1272 genů §96 genů v genové sadě, z toho 8 má p-hodnoty < 5% §Kolik odlišně exprimovaných genů očekáváme náhodně? logo-IBA-transparent Příklad, uzavřená metoda dělící hranice §Datový soubor 12 639 genů. Z nich p<0.05 má 1272 genů §96 genů v genové sadě, z toho 8 má p-hodnoty < 5% §Kolik odlišně exprimovaných genů očekáváme náhodně? § §Uzavřená metoda §Náhodně očekáváme 96 x 5% = 4.8 významných genů §Pomocí binomického testu vypočítáme pravděpodobnost pozorování 8 a více významných genů: p = 0.1079, teda není významné §binom.test(x=8,n=96,p=0.05, alternative="greater") Uzavřená metoda (pracujeme pouze s geny z genové sady): Náhodně očekáváme 96 x 5% = 4,8 významných genů. Pomocí binomického testu vypočítáme pravděpodobnost pozorování 8 a více významných genů: p = 0.1079, tedy nevýznamný výsledek. logo-IBA-transparent Příklad, kompetitivní metoda dělící hranice §Datový soubor 12 639 genů. Z nich p<0.05 má 1272 genů §96 genů v genové sadě, z toho 8 má p-hodnoty < 5% §Kolik odlišně exprimovaných genů očekáváme náhodně? § §Kompetitivní test §1272 z 12639 genů je odlišně exprimovaných v tomto datovém souboru (to je zhruba 10%) §V množině náhodně vybraných 96 genů očekáváme tedy 96 x 10% = 9.6 významných genů §p-hodnotu vypočítáme z kontingenční tabulky pomocí Fisherova nebo Chi-kvadrát testu § V GS Není v GS Význ 8 1264 Nevýzn 88 11279 p = 0.73 (Fisherův test – jednostranný) Kompetitivní metoda (geny v sadě porovnáváme s geny mimo sady): 1272 z 12639 genů je odlišně exprimovaných v tomto datovém souboru, což je zhruba 10 %. Z množiny náhodně vybraných 96 genů očekáváme tedy 96 x 10 % = 9,6 významných genů. p-hodnotu vypočítáme z kontingenční tabulky pomocí Fisherova testu či Chí-kvadrát testu. p = 0.73 Fisherova testu (jednostranného), je to tedy nevýznamný výsledek. logo-IBA-transparent Metody dělící hranice vs. metody celého seznamu §Dvě předcházející metody jsou závislé na dělících hranicích – cut-offs a tedy závislé na N § §V případě, že povíme, že gen je pro nás významný už na 10% FDR, výsledek se změní § §Dále ztrácíme informaci tím, že redukujeme p-hodnotu na binární proměnné (významné/nevýznamné) § §Je rozdíl vědět jestli statisticky nevýznamné geny v naší množině jsou významné na hranici významnosti a nebo vůbec ne U metod závislých na dělících hranicích je problém ten, že v případě, že povíme, že gen je pro nás významný už na 10% FDR, výsledek se změní. Dále ztrácíme informaci tím, že redukujeme p-hodnotu na binární proměnnou - významný gen/nevýznamný gen. Je rozdíl vědět, zda statisticky nevýznamné geny v naší množině jsou téměř signifikantní na hranici významnosti či vůbec ne. Navíc, p-hodnota je závislá na počtu vzorků a tedy pořadí může být lepší alternativa obzvláště u experimentů s malým počtem vzorků. logo-IBA-transparent Metoda celého seznamu genů: uzavřená • Můžeme studovat rozložení p-hodnot v genové sadě • V případě, že žádné geny nejsou odlišně exprimované, mělo by se jednat o uniformní rozložení • Pík vlevo indikuje významnost některých genů • Aplikujeme Kolmogorův-Smirnovův test pro porovnání rozložení • p = 8.2%, není velmi významné • Je to uzavřená metoda, protože používáme jen geny z genové sady 3. Metoda uzavřená: Můžeme studovat rozložení p-hodnot v sadě genů. V případě, že žádné geny nejsou odlišně exprimované, mělo by se jednat o uniformní rozložení. Podívejte se na histogram p-hodnot. Pík vlevo indikuje významnost některých genů. Jak nejlépe porovnat rozložení? Aplikujeme Kolmogorov-Smirnov-Test. Výsledná p-hodnota je p = 0.082, což není statisticky významné. Je to uzavřená metoda, protože používáme jen geny z genové sady. logo-IBA-transparent • Alternativně se můžeme dívat na rozložení pořadí p-hodnot • Toto by byla kompetitivní metoda, protože porovnáváme naši genovou sadu s ostatními geny v experimentu • Opět můžeme aplikovat KS test • p=85.1%, velmi nevýznamné Metoda celého seznamu genů: kompetitivní Metoda kompetitivní: Alternativou k uzavřené metodě může být pozorování rozložení pořadí p-hodnot. To je tedy kompetitivní metoda, protože porovnáváme naši genovou sadu s ostatními geny v experimentu (pořadí genů v genové sadě závisí i na ostatních genech experimentu, které v sadě nejsou!): Znovu aplikujeme Kolmogorov-Smirnov-Test. V tomto případě je p = 0.85, tedy statisticky nevýznamné. Ani jedna z metod neprokázala statistickou významnost, proto můžeme říct, že tato sada nebyla v našem experimentu významně změněna. logo-IBA-transparent Uzavřené vs. kompetitivní II. §Výsledky kompetitivních testů závisí na počtu testovaných genů (např. genů na microarray sklíčku a předcházejícím filtrování) §Na malém mikročipovém sklíčku, kde jsou změněné všechny geny, kompetitivní metoda nenajde žádné odlišně exprimované množiny genů. § §Kompetitivní metody dávají méně významných výsledků než metody uzavřené § logo-IBA-transparent Smíšené metody §Najznámější je GSEA – gene set enrichment analysis (analýza obohacení genové sady) §Počítá se na seřazených p-hodnotách a sleduje se, zda jsou geny z genové sady náhodně rozložené v tomto seřazeném listě, a nebo se vyskytují v horních, významných pozicích §Postup: 1. Výpočet skóre obohacení (ES) § 2. Odhad významnosti ES (p-hodnota) na základě permutačního testu § 3. Upravení p-hodnot na problém mnohonásobného porovnávání GSEA navržena Subramanian et al. [2005] se stala v posledních letech velmi populárním nástrojem. Vyvinul ji Broad Institute spolu s MSig databází. Je dostupná jako samostatný analytický program, ale také může být zpřístupněna jinými způsoby (např. z prostředí R). Jádro původního GSEA algoritmu je nepatrně pozměněnou verzí kompetitivního Kolmogorova-Smirnovova testu. Odpovídající testová statistika se v GSEA terminologii nazývá „skóre obohacení“. GSEA není založena jen na p-hodnotách, ale také umožňuje k seřazení genů použít jiné hodnoty sumarizující data (t-statistiku, hodnoty fold change, SNR). K výpočtu p-hodnoty nabízí jak převzorkování čipů, tak genů. logo-IBA-transparent Další aspekty §Směr změny §Pokud chceme zjistit směr změny, musíme zopakovat analýzu pro jednostranný test §jen up-regulované §jen down-regulované § §Mnohonásobné testování §Stejně jako u testování hypotéz na genech mezi skupinami, i pokud máme velký počet genových sad! §FDR je trochu komplikované, protože genové množiny se překrývají §Bonferroniho korekce vždy funguje § § Směr testu P-hodnoty z analýzy jednotlivých genů typicky pochází z dvoustranného testu, tj. rozhodneme se, zda je gen odlišně exprimován, ale neděláme rozdíl mezi zvýšenou nebo sníženou regulací. Takže když použijeme tyto p-hodnoty k vykonání analýzy genových sad, pak genová sada se stejným množstvím genů regulovaných směrem nahoru i dolů může být stejně významná jako jiná sada, která obsahuje pouze geny se zvýšenou regulací. Zda jsou změny v obou směrech v rámci genové sady důležité nebo ne, závisí na druhu genové sady a biologické situaci. Pokud nejsou, pak dříve zmíněná metoda může být lehce přizpůsobena k odhalení genových sad se zvýšenou nebo sníženou regulací za použití p-hodnot z odpovídajícího jednostranného testu. Vícenásobné testování Dosud jsme popisovali analýzu pouze jedné genové sady (v našem příkladě šlo o sadu danou jedním GO-termínem). Avšak tento druh analýzy je obvykle prováděn současně na mnoha genových sadách, např. všechny GO-termíny, které náleží uzlu biologický proces nebo všechny lidské dráhy dostupné na KEGG. Při testování samostatných genů se musíme ujmout problému vícenásobného testování a to, že 1 ze 20 genových sadách bude určena významnou jen náhodou, pokud na p-hodnotu pro genovou sadu použijeme obvyklou 5%ní hranici. S analýzou genových sad se stavíme dalšímu problému: i když předpokládáme, že jsou samostatné geny stochasticky nezávislé, to stejné nebude pravda pro genové sady, které se často překrývají. Problém je zvláště závažný, když jde o GO-termíny, protože jsou hierarchicky uspořádány, tj. jistý termín definuje genové sady, které jsou podskupinami jiných sad. logo-IBA-transparent Bez topologie S topologií A G F D B H E C A G F D B H E C S topologickou informací vs. bez Novinkou v analýze změny exprese molekulárních drah je využití topologické informace. Tradiční (do teď zmíněné) metody pracují s molekulární dráhou jako s MNOŽINOU nezávislých genů, ve které má každý gen stejnou váhu. Geny však nejsou nezávisle. Jejich produkty spolu interagují a každý má v dráze jinou ulohu. Pozor, topologickou strukturu mají jen molekularní dráhy a ne genove sady. Nove metody vyuzivají informace o vztazích mezi geny anebo jejich produkty dostupne v databazich a molekularní dráhu modelují jako matematicky GRAF. Způsobů sestavení grafu je několik. My sa dnes budeme zabývat pouze metodami, u kterych geny/jejich produkty představují uzly grafu a hrany reprezentují jejich vzajemmne interakcie (napriklad fosforylaci, regulaci transkripci a podobne). logo-IBA-transparent Skupina A Skupina B Vzorky Skupina A Skupina B Vzorky Skupina A Skupina B Vzorky Mnohorozměrné modely: Gaussian Graphical Models Multivariate Normal Distribution Změna exprese t-statistika p-hodnota Skupina A Skupina B Vzorky t-test TopologyGSA, Clipper DEGraph SPIA, PRS PWEA TAPPA Topologie dráhy Metody se dají rozdělit do tří skupin. První skupinu reprezentují metody TopologyGSA, Clipper a DEGraph. Tyto metody využívají mnohorozměrné statistické modely, ve kterých je zakomponovaná topologická informace. Metody pracují přímo s expresními daty a typicky to jsou uzavřené metody bez dělící hranice. Druhá skupina metod využívá výsledky analýzy změny exprese (porovnání skupin) jako velikost změny (2, 4-nasobná) a nebo testové statistiky či p-hodnoty. Tuto skupinu reprezentují metody SPIA, CePa, PWEA. Výsledky na úrovni genů jsou vázané podle topologie dráhy, následně jsou sumarizované a statistická významnost je určena pomocí permutací. Typicky se jedná o kompetitivní metody s a nebo bez dělící hranice. Poslední skupinu reprezentuje metoda TAPPA. Tato metoda je vyjmečná tím, že expresi genů transformuje do exprese drah. Při transformaci se využívá struktura dráhy. Dráhové expresní profily se potom analyzují pomocí běžných statistických metod jako např. T-test. logo-IBA-transparent Příklad – uzavřená metoda dělící hranice logo-IBA-transparent §Z 8 odlišně exprimovaných genů: •2 interagují s 10 geny v dráze •3 interagují s 5 geny v dráze •3 interagují s jedním genem v dráze §s = 2*10 + 3*5 + 3*1 = 38 §Opakovaně, v dráze náhodně vybíráme 8 genů a získáme rozdělení statistik, které porovnáme s první statistikou. logo-IBA-transparent Všimněte si, že bez využití topologické informace není dráha identifikovaná jako odlišně exprimovaná. Navíc výsledek závisí na počtu odlišně exprimovaných genů v dráze a ne od toho, které geny to jsou. V použití topologické informace je výsledek závislý od změny exprese konkrétních genů. logo-IBA-transparent Pozor na korelace mezi geny! §Všechny testy, které jsme probírali předpokládají, že geny uvnitř skupin jsou nezávislé §To je ale velmi nepravděpodobné! § §Pokud jsou geny korelované, tak p-hodnoty jednotlivých testů (např. Fisherův test) budou nesprávné §Vyřešíme permutačními metodami •Popřehazujeme skupiny vzorků •Zopakujeme analýzu •Porovnáme hodnoty s pozorovanými daty § logo-IBA-transparent Pozor na průniky mezi dráhami PIK3CD PIK3CG PIK3R2 PIK3CA MAPK3 MAPK1 70 70 70 71 78 79 §250 KEGG drah pro H. Sapiens §najčastěji zastoupené geny Databáze KEGG obsahuje asi 250 drah týkajících se člověka. Uvedené geny se vyskytují ve více než 70 drahách. Změna exprese z těchto genů ovlivní výsledky pro desitky drah. Míra vlivu závisí od použité metody. Uzavřené metody jsou více citlivé než kompetitivní. Tyto průniky souvisí také s již zmíněným problémem korekce na mnohonásobné testování hypotéz v analýze genových sad. logo-IBA-transparent Topologie využívaná různě §Cíl: §změna průměrné exprese, korelace, topologie §Jednotka zájmu: §dráha, modul, cesta, geny §Topologie známá dopředu a nebo odhadovaná z dat §Celková síť a nebo individuální dráhy § Mimo identifikace odlišně exprimovaných drah se topologická informace využívá při porovnání korelace mezi geny v dráze a nebo se přímo porovnává topologie odhadnutá s dat. Předmětem analýzy nemusí být jen dráhy, ale jejich části (zvané jako moduly) a nebo cesty v dráze či jednotlivé geny. Topologie je možné odhadnout přímo z dat vycházejících z podobnosti expresních profilů genů (korelace, vzájemná informace) Posledním faktorem při využívání topologických informací v analýze genomických dat je její rozsah. Existují i metody, které pracují s celou genomovou sítí. logo-IBA-transparent Studijní materiál a SW §Hana Imrichová: Možnosti propojení výsledku genomických experimentů s gene ontology online databázemi pro tvorbu metabolických sítí, Masarykova Univerzita,2010,Bakalárska práca § §R balíky §source("http://www.bioconductor.org/biocLite.R") §biocLite("PGSEA") §biocLite("GSA") # http://statweb.stanford.edu/~tibs/GSA/ §biocLite("ToPASeq") § §gage, DOSE, phenoTest, limma, GOstats § §MSigDB - web §http://www.broadinstitute.org/gsea/msigdb/index.jsp § §http://cbl-gorilla.cs.technion.ac.il/ §https://david.ncifcrf.gov/ §