Detekce biomarkerů z omics experimentů • Mgr. Eva Budinská, PhD • RECETOX • budinska@recetox.muni.cz Meta-analýza Co je to meta-analýza? • Statistická analýza která kombinuje výsledky s několika vědeckých studií Supertabulka omicsových dat (studie-řádky, omicsové proměnné – sloupce) • „Horizontální“ integrace – stejné vzorky, různé typy dat (proměnné) • „Vertikální“ integrace – stejné proměnné, různé studie (vzorky) Motivace • Nutnost publikovat data umožňuje jejich opětovnou analýzu • Tato reanalýza dat umožňuje: • Kritickou recenzi původních výsledků • Potvrzení / validaci výsledků z jiných studií • Robustnější objevy založené na větší velikosti vzorku • Nové objevy ve větších oblastech / kontextech Jak na to? 1. krok: Správa datových souborů • Připravte si přehled relevantních dostupných datových souborů • Prohledávejte literaturu, veřejné databáze a web • Zajistěte jejich neprůsečnost • Reorganizujte soubory dat tak, aby neobsahovaly redundantní vzorky • Nejednotné názvy a reprezentace proměnných • Přejmenujte a překódujte proměnné tak aby byly stejné napříč datovými soubory • Zajistěte shodnou anotaci molekul • Přemapujte sondy (sady sond) napříč platformami, zarovnat k referenční sekvenci; redukovat na jednu sondu na gen (mikročipy) • Ujistěte se, že jste použili anotaci na stejný referenční genom • Zkontrolujte kvalitu kvantitativních proměnných (např. genová exprese) • Zajistěte stejnou jednotku / transformaci; v případě potřeby přejmenujte a změňte měřítko Jak na to? 2. krok: Analýza • Jak provést kombinovanou analýzu heterogenních datových souborů? • Rozdíly v dizajnech studií, populacích a kritériích pro výběr vzorků • Nesrovnatelné kvantitativní údaje; systematické chyby měření • Jak vytvořit celkové výsledky na základě všech datových sad? • Jak posoudit a začlenit heterogenitu? • Jak vizualizovat a prezentovat výsledky analýzy? • Jak analýzu přizpůsobit omics datům? • Jak přistoupit ke komplexní analýze, jako je například hierarchické shlukování a predikce? Úvod do meta-analýzy: příkladová data • US Berkeley – výsledky přijímacích zkoušek 1973* • Byli při přijímacím řízení favorizováni muži? Muž Žena Celkem Přijat(a) 1198 557 1755 Nepřijat(a) 1493 1278 2771 Celkem 2691 1835 4526 *Bickel, Hammel, O'Connell (1975) Sex bias in graduate admissions: data from berkeley. Science 187:398-403 Poměr šancí nepřijetí: p-hodnota: Stratifikovaná analýza a tzv. forest plot Stratifikovaná analýza a tzv. forest plot Simpsonův paradox: " celek je v rozporu s jeho částmi" nebezpečí shromažďování údajů spočívá v zkreslení v důsledku skrytých faktorů Zkreslení „Measuring bias is harder than is usually assumed, and the evidence is sometimes contrary to expectation.“ Bickel, Hammel, O'Connell (1975) Sex bias in graduate admissions: data from berkeley. Science 187:398-403 Meta-analýza • Samostatná analýza každé studie (nebo její částí) • Průměr počítáme s použitím inverze rozptylu jako váhy: • Je-li nula(nemusí být realistické!) - jedná se o meta analýzu pevných efektů (FEMA) • V opačném případě je odhadnutá z dat, a jedná se o analýzu náhodných efektů (REMA) • I2: podíl variability způsobený heterogenitou mezi studiemi Hierarchické modely vzorkování • Jedna studie: • Inference o 𝛽" (𝛽# + zkreslení studie: technické, designové, populace, ...) • Modely s pevným efektem: • Inference o (průměr konkrétních datových souborů k dispozici) • Interval spolehlivosti není ovlivňován variabilitou mezi studiemi (𝜏%) • Náhodné efekty / hierarchické modely: • Inference o 𝛽# (pravda; očekávání budoucích studií) • Interval spolehlivosti je úzký, je-li variabilita mezi studiemi 𝜏% malá (a naopak) Které metriky porovnávat? • Odds ratio (poměr šancí): regresní koeficient (jeho průměr při použití REMA) • Korelace: míra závislosti nebo vzájemné informace (její průměr u REMA) • Z-statistika: významnost (se znaménkem) => Stouerova metoda akumulace: • p-hodnoty: významnost (bez znaménka) => Fisherova metoda akumulace: • Metoda součtu hlasů: počet zamítnutých hypotéz Jak kombinovat analýzy (data) 1. Kombinovat nezpracovaná data (+) snadno použitelné (-) potenciální zkreslení, žádné posouzení heterogenity 2. Kombinovat koeficienty (změna násobku, riziko a poměry šancí, ...) (+) fyzická interpretovatelnost (-) ovlivněná jednotkou měření 3. Kombinovat korelaci / závislost (R2, tanh-1 (r), ...). (+) bez jednotky (-) ovlivněná vzorkováním / dizajnem 4. Kombinovat významná měření (t-test, Z-test, p-hodnota atd.) (-) silný efekt + nízká síla = slabý efekt + vysoká síla 5. Kombinovat rozhodnutí (odmítnutí / přijetí hypotézy, seznamy genů) (+) snadno použitelné (-) postrádá sílu Příklad – genová exprese Závěrem • Více omicsových datových souborů lze společně analyzovat v rámci „standardních“ statistických metod (např. zobecněné lineární modely, metaanalýzy, hierarchické vzorkovací modely). • Rozšíření na komplexní analýzu (např. predikce, shluková analýza) je možné začleněním REMA pro kombinování sumárních statistik ve vhodné fázi analýzy.