Analýza přežití Výuka IBA Společná schéma analýzy dat Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Kontrola kvality Normalizace Sumarizace Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Design experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Analýza přežití a genomická data •Dva základní cíle s přesně definovanými otázkami: 1.Predikce rizika události u molekulárních podtypů – Mají skupiny pacientů definované pomocí genové exprese rozdílné přežití? 2.Predikce času přežití na základě genové exprese – Má exprese genu vliv na přežití? •Přežití je čas do nějaké námi sledované události •Úmrtí (overall survival) •Relaps (relaps-free survival) •Návrat onemocnění (disease-free survival) •… Data analýzy přežití • Sbírání dat od zadaného času (začátek studie, diagnóza) •Dvě proměnné: •Výsledek – Nastala událost? 1 = událost nastala 0 = událost nenastala •Čas přežití •Časy přežití s výsledkem 0 představují tzv. cenzorované hodnoty – je to čas do konce pozorování, a nebo posledního záznamu Pacient Výsledek Čas prežití (měsíce) 1 1 4 2 1 11 3 0 56* 4 1 8 5 0 44* 6 0 48* 7 0 57* 8 1 3 Metody analýzy prežití • V závislosti od otázky sa používají dvě základní funkce: •Kaplan – Meierův odhad prežití – Mají skupiny definované pomocí genové exprese rozdílné přežití? •Coxův model proporcionálních rizik – Má exprese genu vliv na přežití? Kaplan-Meierův odhad prežití • Definovaný jako pravděpodobnost prežití do času t • Pro každý časový interval t odhadne podíl přežívajících, za použití pravděpodobnosti •Jedná se o neparametrický odhad Kaplan-Meierův odhad prežití - příklad t(i) N # úmrtí # censor. Riziko 0 21 0 0 1 6 21 3 1 1*(18/21) = 0.8571 7 17 1 1 0.8571*(16/17) = 0.8067 10 15 1 2 0.8067*(14/15) = 0.7529 13 12 1 0 0.7529*(11/12) = 0.6902 16 11 1 3 0.6902*(10/11) = 0.6275 22 7 1 0 0.6275*(6/7) = 0.5378 23 6 1 5 0.5378*(5/6) = 0.4482 Porovnání křivek přežití •Dva testy pro zjištění párových rozdílů v analýze přežití: •Gehanův-Breslowův-Wilcoxonův test •Přiřazuje větší váhy úmrtím v dřívějších časových bodech •Může být zavádějící, pokud je velké procento pacientů cenzorováno v dřívějších časových bodech •Mantelův-Haenszův log-rank test •Standardně používaný •Předpokládá nezávislost cenzorování a výskytu jednotlivých událostí •Přiřazuje stejné váhy úmrtím ve všech časových bodech •Silný, pokud je předpoklad proporcionality rizik splněný Log-rank test Oj – počet pozorovaných událostí v čase j Nj – počet subjektů v riziku Coxův model proporcionálních rizik Coxův model proporcionálních rizik II. Coxův model proporcionálních rizik III •Předpoklad: proporcionalita rizik: •Podíl rizikových funkcí libovolných dvou jedinců je proporcionální, nezávislý na čase (třeba otestovat) • •Jinak použít parametrické metody • •Zobrazení (tzv. forestplot) 95% IS HR Príklad Zavolat statistika po vykonání experimentu je asi jako požádat doktora o posmrtné vyšetření: pravděpodobně bude schopný říct, na co experiment zemřel. Ronald Fisher