Popis formátu cdf file: http://dept.stat.lsa.umich.edu/~kshedden/Courses/Stat545/Notes/AffxFileFormats/cdf.html Stiahnutie cdf ku konkrétnej platforme (hg-u133-plus) http://www.affymetrix.com/support/technical/byproduct.affx?product=hg-u133-plus BiocInstaller::biocLite("hgu133a2cdf") – instalacia platformy uz existujucej BiocInstaller::biocLite("makecdfenv") – nastroj na vytvorenie prostredia k akejkolvek platforme (nutno mat cdf file) Affymetrix cdf files https://wiki.metacentrum.cz/wiki/How_to_compute/Accessing_machines/Fro m_Window Krátky úvod metacentrum Kapitola III. Společné principy analýzy genomických a proteomických dat Výuka IBA Genová exprese  Gen je exprimovaný, pokud se přepisuje do mRNA  Pokud se gen přepisuje, znamená to, že je aktivní  Aktivitu genu můžeme měřit měřením množství příslušné mRNA v buňce DNADNA mRNAmRNA ProteProteíínn přepis ~ exprese překlad Tradiční schémata analýzy I.  Každý experiment má odlišné cíle, v závislosti od typu dat a zájmů výzkumníků, ale existují tradiční schémata které se opakují:  Učení s učitelem (supervised learning) Známa struktura dat musí byt zevšeobecněná na nové data  Porovnávání skupin (class comparison)  hledáme rozdíly v expresi, v počtě kopií či struktůře genů/proteinů mezi už definovanými skupinami  Předpovídání skupin (class prediction)  na známých skupinách se snažíme vytvořit klasifikátor, který by dokázal zařadit nového pacienta do jedné ze skupin Tradiční schémata analýzy II.  Učení bez učitele (unsupervised learning)  Objevování skupin (class discovery)  Struktura v datach není známa, je potřebné ji vytvořit, objevit!  Na základě informací o genech/proteinech hledáme nové skupiny  Příklady: • Existují nějaké soubory genů které se exprimují stejně ve všech podmínkách? • Onemocnění X je velmi heterogenní. Můžeme identifikovat specifičtější podtypy, které by mohli být cílem cílené terapie? Společná schéma analýzy dat Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Kontrola kvality Normalizace Sumarizace Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Analýza genových sad / genových sítí Kapitola V.1. Porovnávání skupin Výuka IBA Příklady porovnávání skupin  Pokud chceme zjistit  jaké geny jsou aktivní/neaktivní  jaký je rozdíl v přítomných proteinech mezi dvěma nebo více skupinami:  nemocní vs. zdraví pacienti  pacienti před vs. po terapii  pacienti v čase diagnózy a v čase relapsu  bakterie v aerobním vs. anaerobním prostředí  druh 1 vs. druh 2  porovnáváme podtypy onemocnění Základní metody pro porovnávání Můžeme rozdělit do tří hlavních skupin:  Metody studující velikost efektu změny mezi skupinami  Testování hypotéz  Regresní strategie Základní metody pro porovnávání Můžeme rozdělit do tří hlavních skupin:  Metody studující velikost efektu změny mezi skupinami  Testování hypotéz  Regresní strategie Velikost efektu / změny II. 1. Porovnává se poměr průměrů/mediánů jedné a druhé skupiny: mean(X)/mean(Y). 2. Stanoví se fixní dělící hranice, které určují, jaká velikost efektu je pro nás zajímavá  Příklad: genová exprese, mean(X)/mean(Y), kde X a Y jsou genové exprese ve skupinách. Použitá hranice: 2!  Výhody:  jednoduché Velikost efektu / změny III. DNADNA mRNAmRNA DNADNA mRNAmRNA Skupina A. Zdravá tkáň Skupina B. Nádor 9/3 = 3 Gen g1 je 3x více exprimován v nádoru, než ve zdravé tkáni Velikost efektu / změny IV.  Nevýhody:  I menší změny mohou být biologicky významné (malý efekt genu/proteinu může být znásobený kooperací více genů v dráze)  Data jsou ovlyvněné technickou a biologickou variabilitou:  Co pokud máme 1.9?  Poměry mohou být vychýlené směrem k nule (například u nádorů s příměsí normálních buněk ve vzorce)  Neberou do úvahy variabilitu! Testování hypotéz Základní metody pro porovnávání Můžeme rozdělit do tří hlavních skupin:  Metody studující velikost efektu změny mezi skupinami  Testování hypotéz  Regresní strategie Testování hypotéz  Klademe si otázku: Je aktivita/množství proteinu/genu ve skupině A odlišné od průměrné aktivity/množství proteinu/genu ve skupině B?   Na každý protein/gen aplikujeme statistický test, kterým získáme Tg statistiku a příslušné p-hodnoty  Výběr testu Počet skupin pro porovnání Data jsou normální Data jsou normální 2 >2 T-test Mann-Whitney test ANOVA Kruskal-Wallis test ANO NE ANO NE Testování hypotéz II. Testuje se  Nulová hypotéza (H0): Gen / protein není odlišně exprimovaný mezi skupinami versus  Alternativní hypotéza (H1): Gen je odlišně exprimovaný mezi skupinami Na základě našich dat musíme rozhodnout, co je pravda  Nulovou hypotézu zamítneme jen pokud existuje dostatečně silná evidence, že je neplatná  Evidence – statistika a p-hodnota! T-statistika I.  Abychom rozhodli, která hypotéza je pravdivá, sumarizujeme data do jednoho čísla  V testovaní hypotéz se toto číslo nazývá statistika (Tstatistika, Z-statistika, F-statistika...)  T-statistika porovnává signál se šumem  Signál = rozdíl průměrů ve skupinách (u microarray dat se jedná o log(skupina 1)-log(skupina 2) = log(skupina1/skupina2))  Šum = směrodatná odchylka rozdílu (SD)  T = log(skupina 1/skupina 2)/SD  T hodnoty daleko od nuly indikují snížení a nebo zvýšení exprese v jedné ze skupin T-statistika II.  Dvouvýběrový T-test pro porovnání rovnosti dvou průměrů μ1, μ2:  Průměr exprese genu ve skupině 1 vs. průměr ve skupině 2  Pokud data mají normální rozložení a neexistuje rozdíl mezi skupinami, tak T-statistiky pocházejí z T-rozložení.  p-hodnota = pravděpodobnost že dostaneme danou hodnotu Tstatistiky nebo hodnotu větší, v případě, že neexistuje rozdíl mezi skupinami pg = Pr(Tg ≤ T)  Dostatečně malá p-hodnota = významný rozdíl (silná evidence) Tg= μg1−μg2 sg √1 n1 − 1 n2variabilita -4 -2 0 2 4 0.00.10.20.3 Distribution of t-statistic (df =6) t-values y Testování hypotéz III. H0 nezamítneme H0 zamítneme H0 je pravdivá (gen není odlišně exprimovaný) Pravdivá negativita (PN) Falešná pozitivita (FP) Chyba I. druhu H0 není pravdivá (gen je odlišně exprimovaný) Falešná negativita (FN) Chyba II. druhu Pravdivá pozitivita (PP) Testování hypotéz IV.  Typické rozhodovací pravidlo:  Výpočet T-statistiky a p-hodnoty  Pokud p < 5%, gen je označený za odlišně exprimovaný  Důležité: V případě, že platí nulová hypotéza, jsou p-hodnoty rovnoměrně rozložené (vlevo). V případě, že je značná část genů odlišně exprimovaná, rozložení p-hodnot už není uniformní (vpravo). Histogram of p.new p.new Frequency 0.0 0.2 0.4 0.6 0.8 1.0 05001000150020002500 Problém mnohonásobného porovnávání Porovnáváme tisíce genů/proteinů mezi skupinami.  Hypotézu testujeme pro každý gen!  Máme zvýšenou šanci falešně pozitivních výsledků! Příklad: 10 000 genů, žádný odlišně exprimovaný mezi skupinami => 0.05 x 10 000 = 500 s p < 0.05.  p <0.05 už negarantuje významnost výsledku  Musíme tedy udělat korekci p-hodnot na mnohonásobné porovnání Korekce problému mnohonásobného porovnávání # nezamítnuté (NZ) # zamítnuté (Z) #bez rozdílu Pravdivá negativita (PN) Falešná pozitivita (FP) Chyba I. druhu # odlišné geny/proteiny Falešná negativita (FN) Chyba II. druhu Pravdivá pozitivita (PP) Chyby 1. druhu: 1. Family–wise error rate (FWER): Pravděpodobnost alespoň jedné chyby prvního druhu (falešné pozitivity): FWER = Pr(FP > 0) 1. False discovery rate (FDR)(Benjamini & Hochberg,1995): Očakávaný podíl falešně pozitivních výsledků mezi zamítnutými hypotézami FDR= E[FP/Z] Korekce p-hodnot  Kontrolujeme FWER  Bonferroniho korekcia (pro nezávislé testy!) p <  / m (napr. p < 0.05/10 000)  Kontrolujeme FDR  Benjamini/Hochberg procedura FDR = 10% (ze 100 zamítnutých hypotéz očekáváme 10 falešně pozitivních) Který typ korekce použít?  FWER pokud chceme aby VŠECHNY vybrané geny/proteiny byly opravdu významné. Na druhou stranu, nevybereme tak všechny významné geny!  FDR pokud preferujeme vybrat většinu významných genů/proteinů, a nevadí nám nějaké falešně pozitivní  q-hodnota je nejmenší FDR při které daný gen ještě zůstává na listu pozitivních III.1. Porovnávání skupin Moderovaná T-statistika • Problém ve statistickém testovaní mikročipových dat: Příliš malé hodnoty exprese (blízké šumu) vykazují malou variabilitu => vysoké T-statistiky u biologicky nerelevantních genů! Příklad: • Aby se daly statistiky porovnat, je potřeba sjednotit variabilitu: • Moderovaná T-statistika: Konstanta korigující variabilitu dg= μg1−μg2 sg +s0 Tg= μg1−μg2 sg μg1=2,μg2=2.5, sg=0.02 =>Tg=−25 Significance analysis of microarrays (SAM) • Tusher, Tibshirani a Chu (2001) • Založená na moderované t-statistice (dg), počítá FDR • Statistická významnost dg je následně stanovená permutacemi původních dat a kalkulací očekávaného skóre v případě, že platí nulová hypotéza (de) • Gen je statisticky významný, pokud splňuje podmínku |dg - de | > Δ. • Výhody: jednoduché - Nevýhody: výpočtově náročné (permutace) - Výstup: q-hodnoty - biocLite(“samr“) - library(samr) dg= μg1−μg2 sg +s0 SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků dg= μg1−μg2 sg +s0 SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků dg= μg1−μg2 sg +s0 dp Seřaď Zkombinuj permutace de dgp= μg1−μg2 sg +s0 SAM - výpočet očekávaných hodnot • Pro každou permutaci p spočítej dgp • Seřaď statistiky podle velikosti • Definuj g-tou očekávanou hodnotu na základě N permutací SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků dg= μg1−μg2 sg +s0 SAM – určení významných genů I de dg SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků dg= μg1−μg2 sg +s0 SAM – výpočet FDR • t1 a t2 budou použité jako hranice • Vypočítej průměrný počet genů, které v permutacích tyto hranice překročily (byly významné) • Odhadni počet falešně pozitivních genů v případě, že platí nulová hypotéza podělením počtem významných genů v originálním pozorování: SAM – výpočet FDR, příklad dg dp SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků dg= μg1−μg2 sg +s0 SAM – jak vybrat  Parametr Počet falešně pozitivních (z permutací) Počet označených za významné (v orig.) FDR Limma • Smyth, G. K. (2004). Linear models and empirical Bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology, Volume 3, Article 3. http://www.bepress.com/sagmbvol3/iss1/art3 • Lineární modely pro stanovení odlišné exprese z mikročipových dat • Balík se souborem funkcí pro normalizaci dat a porovnání exprese mezi skupinami (včetně časových řad) • Moderovaná statistika: variabilita je vyhlazená pomocí empirických bayesovských metod • biocLite(“limma“) • library(limma) Volcano plots I. - log10(q-value) ~ -log10(0.1)=2.3 Volcano plots II. library(limma) volcanoplot(fit2, highlight=100) Základní metody pro porovnávání Můžeme rozdělit do tří hlavních skupin:  Metody studující velikost efektu změny mezi skupinami  Testování hypotéz  Regresní strategie Regresní strategie  Pokud máme víc jak 1 proměnnou, která může ovlivnit genovou/proteinovou expresi  genová exprese ~ skupina + pohlaví Lineární modelování  Pokud se snažíme zjistit, jak velmi se genová exprese změní, pokud se změní hodnota nějaké spojité proměnné  genová exprese ~ prežití  genová exprese ~ věk Lineární modelování, Coxův model proporcionálních rizik  Chceme najít pravděpodobnost, že vzorek patří do určité skupiny na základě expresní hodnoty daného genu Logistická regrese Porovnání skupin Počet skupin Normální data? Normální data? 2 >2 Počet faktorů Mann-Whitney test, SAM ANOVA, Lineární modely, SAM Kruskal-Wallis test, SAM Lineární modely, Coxův model proporcionálních rizik (časy prežití) spojitá odpovědná proměnná ANO ANO NENE T-test, Lineární modely, SAM Lineární modely 1 >1