Stochastické modelování s binárním  endpointem Jiří Jarkovský, Simona Littnerová Binární endpointy klinických dat Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Mortalita a přežití: čím se liší? • Základní endpointy v studiích na klinických datech • Rozdílný význam i metodika analýzy  3 Pacient přijat  k hospitalizaci Pacient propuštěn nebo  zemřel za hospitalizace Úmrtí za hospitalizace Žijící při propuštění Analýza hospitalizační mortality • bez vlivu času • logistická regrese aj. Dlouhodobé sledování po propuštění Úmrtí Žijící Analýza přežití • klíčový je vliv doby sledování • cenzorování pacientů • Kaplan‐Meier, Coxova regrese Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Analýza faktorů ovlivňujících mortalitu a přežití • Identifikace faktorů zvyšujících riziko úmrtí je jedním z hlavních cílů analýzy dat v  medicíně • Podle typu endpointu (hospitalizační mortalita vs. dlouhodobé přežití) se odvíjí  použité metody • Dva obecné přístupy – Identifikace rizikových skupin pacientů a následná stratifikace do podsouborů (např.  samostatná analýza kardiogenního šoku u ASS); modely jsou následně vytvářeny  samostatně v rámci podsouborů – Vývoj modelů = rovnice, rozhodovací pravidla, neuronové sítě apod. kombinující  prediktory (vysvětlující proměnné) za účelem vysvětlení endpointu (zde nejčastěji  mortality) 4 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ROC analýza • Identifikace cutt offs pro kategorizaci spojitých proměnných aby při jejich užití v  modelech byla maximalizována jejich sensitivita a specificita 5 Kde leží optimální hranice mezi skupinami? Identifikace hranice s nejvyšší sensitivitou a specificitou pro odlišení skupin Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Logistická regrese • Standardní metoda pro analýzu binárních charakteristik (zemřelý/žijící) bez vlivu času • Modeluje závislost výskytu úmrtí na binárních, kategoriálních nebo spojitých  proměnných • Výsledkem rovnice je pravděpodobnost, že u daného pacienta nastane hodnocená  endpoint • Alternativou jsou např. rozhodovací stromy, neuronové sítě a další klasifikační  metody 6 y=exp(-28.41096581446+(.29929760633475)*x)/(1+exp(-28.41096581446+ (.29929760633 40 60 80 100 120 140 160 0.0 0.2 0.4 0.6 0.8 1.0 Příklad logistické regrese: predikce binární charakteristiky (osa y) za pomoci spojité proměnné (osa x) Model logistické regrese Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Coxův model proporcionálních rizik • Standardní metoda pro analýzu dlouhodobého přežití (kromě dat o úmrtí musíme  znát i dobu sledování pacientů) • Modeluje závislost výskytu úmrtí na binárních, kategoriálních nebo spojitých  proměnných při započítání doby sledování a cenzorování pacientů • Doba sledování je klíčovou součástí výpočtu, sledovaný efekt musí mít „čas se  projevit“ 7 0 10 20 30 40 50 60 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Pacienti(%) Doba po propuštění (měsíce) S prodlužující se dobou sledování klesá počet pacientů a tedy i spolehlivost křivky v daném čase Počet pacientů v čase klesá díky úmrtím a cenzorování (pacient již není v daném čase dále sledován) Řada testů pro srovnání skupin pacientů (log-rank, Gehan test) i modelovacích technik (Coxův model proporcionálních rizik) Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Odds ratio, relativní riziko a hazard ratio • Různé způsoby vyjádření rizika pacientů  – s danou vlastností (muži vs. ženy, kategorie NYHA,  zestárnutí o 10 let)  – pro výskyt události (mortalita, komplikace atd.) • Většinou vyjádřeny jako OR/RR/HR (95% IS) • ODDS RATIO – Spjato s logistickou regresí nebo kontingenčními  tabulkami – Retrospektivní studie  • RELATIVNÍ RIZIKO – Odvozeno od kontingenčních tabulek – Prospektivní studie • HAZARD RATIO – Spjato s Coxovým modelem proporcionálních rizik – Studie pracující s přežitím a cenzorovanými pacienty 8 Podobný, ale nikoliv identický význam. Matematické vlastnosti výhodné pro různé účely. Vazba na určité statistické metody a typy studií. 10 155 20 25 30 350 odds ratio pro exitus do 30-ti dnů 11 odds ratio 95% IS pro odds ratio odds ratio 95% IS pro odds ratio Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Relative risk vs. Odds ratio ? • Smysl RR a OR • Výpočet • Srovnatelnost • Interpretace  • Výhody a nevýhody • Aplikace v klinickém hodnocení 9 Relative risk (relativní riziko) Odds ratio (poměr šancí) Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Smysl RR a OR • Popis vlivu faktoru (léčba, klinický parametr) na výskyt události (úmrtí, progrese  aj.) 10 Relative risk (relativní riziko) Odds ratio (poměr šancí)  Snadná přirozená interpretace rizik vyjádřených jako procento událostí ALE  Matematická omezení pro některé aplikace  Pouze málo lidí má přirozenou schopnost interpretovat OR ALE  OR v řadě aplikací výhodnější matematické vlastnosti Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Výpočet • Srovnání výskytu události mezi dvěma rameny (A,B) studie 11 Relative risk (relativní riziko) Odds ratio (poměr šancí) event A B RR= 2 10 3 10 6  OR= 5.3 7 3 4 6  bez eventu Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Vztah mezi RR a OR 12 Zhang, J. et al. JAMA 1998;280:1690‐1691. Relative risk (relativní riziko) Odds ratio (poměr šancí) RR a OR je přímo srovnatelné pouze při nízkém bazálním riziku Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Srovnatelnost RR a OR I: maximum 13  RR mění své maximum podle bazálního rizika Relative risk (relativní riziko) Odds ratio (poměr šancí) Bazální riziko MaximálnímožnéRR  Odds ratio má vždy rozsah od 0 do nekonečna  Velikost OR není závislá na velikosti bazálního rizika  OR lze použít pro srovnání studií s různým bazálním rizikem !!!!  Výhodné pro metaanalýzu  RR ve studiích s různým bazálním rizikem jsou nesrovnatelná !!!! Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Srovnatelnost RR a OR II: symetrie 14 • Existuje mezi RR a O rozdíl v případě  výměny definice eventu a non‐eventu? Relative risk (relativní riziko) Odds ratio (poměr šancí) I II vs. RR(II)= 2 10 3 10 6  OR(II)= 5.3 7 3 4 6  RR(I)= 57.0 10 7 10 4  OR(I)= 29.0 3 7 6 4  )( 1 )( IIOR IOR  )( 1 )( IIRR IRR  Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody RR a OR ve studiích s různou mírou bazálního rizika 15 ControlCase Výskyt eventu (%) Výskyt eventu (%) Bazální (control) výskyt eventu (%) Ve skupině „Case“ připadá na jednoho pacienta bez eventu 4x tolik pacientů s eventem než ve skupině „Control“ Odds ratio RR/OR Relative risk Pacient ve skupině „Case“ má x-krát zvýšenou pravděpodobnost výskytu eventu než pacient ve skupině „Control“. X-krát závisí na basálním výskytu eventu. Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody RR a OR v prospektivních a retrospektivních studiích 16  Zpětné sledování příčin eventu  Převážně case-control studie  Výběrem pacientů ovlivňujeme bazální výskyt eventu Retrospektivní studieProspektivní studie  RR nelze použít –ovliněno bazálním výskytem eventu  Využití OR – není ovliněno designem studie  Sledování výskytu eventu a následná analýza jeho příčin  Převážně kohortní studie  Bazální výskyt eventu je dán vlastnostmi kohorty pacientů  Bezproblémové využití RR Relative risk (relativní riziko) Odds ratio (poměr šancí) Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Relative risk vs. Odds ratio: shrnutí 17  Intuitivně snadno interpretovatelné  Pro prospektivní studie  Maximum se liší podle bazální hodnoty výskytu eventu Relative risk (relativní riziko) Odds ratio (poměr šancí)  Retrospektivní studie  Aplikace v metaanalýze  Standardní výstup logistické regrese  Rozsah vždy 0 až nekonečno, není ovlivněno bazálním výskytem eventu  Obtížnější interpretace Hazard ratio  Významově leží mezi RR a OR  Standardní výstup Coxova modelu proporcionálních rizik ROC analýza Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ROC analýza • Nástroj pro identifikaci cut‐off (hranice rozdělení spojitých dat) ve spojitých datech  vzhledem k co nejlepšímu odlišení binárního endpointu  • Výsledkem je binarizace spojité proměnné, která je často lépe interpretovatelná  než výsledky na spojitých datech • Identifikace konkrétního cut‐off souvisí s preferencí buď sensitivity nebo specificity  pro identifikaci endpointu • Upřednostnění sensitivity nebo specificity je do určité míry subjektivní dle  reálného cíle analýzy – Vysoká sensitivita – screeningový test, kdy je třeba zachytit všechny možné nemocné  (např. závažné onemocnění, které je třeba zachytit v počátečním stadiu) – Vysoká specificita – pokud je nezbytné odchytit pouze skutečně nemocné pacienty (např.  nechceme vystavovat pacienty zbytečné léčbě málo závažného onemocnění) 19 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ROC analýza • Identifikace cutt offs pro kategorizaci spojitých proměnných aby při jejich užití v  modelech byla maximalizována jejich sensitivita a specificita 20 Kde leží optimální hranice mezi skupinami? Identifikace hranice s nejvyšší sensitivitou a specificitou pro odlišení skupin Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Sensitivita a specificita • Klíčové pojmy v popisu vztahu dvou binárních proměnných = situace kdy  predikujeme binární endpoint binárním prediktorem 21 1 – nemocný  0 ‐ zdravý 1 – riziková skupina Skutečně pozitivní Falešně pozitivní 0 – neriziková skupina Falešně negativní Skutečně negativní 𝑠𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑎 𝑠𝑘𝑢𝑡𝑒č𝑛ě 𝑝𝑜𝑧𝑖𝑡𝑖𝑣𝑛í 𝑠𝑘𝑢𝑡𝑒č𝑛ě 𝑝𝑜𝑧𝑖𝑡𝑖𝑣𝑛í 𝑓𝑎𝑙𝑒š𝑛ě 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑛í 𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑎 𝑠𝑘𝑢𝑡𝑒č𝑛ě 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑛í 𝑠𝑘𝑢𝑡𝑒č𝑛ě 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑛í 𝑓𝑎𝑙𝑒š𝑛ě 𝑝𝑜𝑧𝑖𝑡𝑖𝑣𝑛í Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Výstupy ROC 22 AUC (plocha pod křivkou) + IS Čím odlišnější od 0.5, tím lepší  identifikace endpointu Testování významnosti AUC Sensitivita a specificita v každém bodě křivky – mohou být doplněny o IS Nejlepší kombinace sensitivity a specificity určuje příslušný dělící bod spojité proměnné Při identifikaci cut‐off je třeba také kontrolovat, aby výsledná riziková skupina  neobsahovala pouze minimum hodnot (cut‐off oddělující jednoho pacinta nemá téměř  smysl) Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ROC – příklad I 23 Odlišení dvou skupin pacientů  (modří=zdraví; červení=nemocní) 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 20 40 60 80 100 120 140 160 sensitivita specificita sensitivita + specificita Analyzovaná spojitá proměnná Optimální cut‐off s  nejvyšší specificitou a  sensitivitou Logistická regrese Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Logistická regrese • Logistická regrese je základním nástrojem pro analýzu závislosti binárního  endpointu (úmrtí, komplikace atd.) na spojitých nebo binárních prediktorech • Cílem analýzy je: – Identifikace vztahů mezi prediktory a endpointem a jejich popis (odds ratio) – Vytvoření predikčního modelu umožňujícího zařazení pacientů do hodnocených skupin • Logistická regrese patří do skupiny zobecněných lineárních modelů (lineární  statistické modely s linkovací funkcí) 25 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Princip logistické regrese I • V logistické regresi modelujeme vliv spojitých nebo binárních prediktorů na  endpoint s binomickým rozdělením ‐ > není možné použít klasickou lineární regresi • Predikujeme pravděpodobnost výskytu jevu pomocí rovnice:  • Kde                                        je tzv. logit, linkovací funkce pro logistickou regresi a  rovnice a+b*x je použitý lineární model • Pojem linkovací funkce je spjat se zobecněnými lineárními modely, kdy linkovací  funkce převádí problém nelineární závislosti y na x na lineární model • Zjednodušeně řečeno „nelineární vztah=linkovací funkce(lineární model)“  • Zobecněný lineární model s linkovací funkcí „identita“ = lineární model 26 𝑃 𝑥 exp 𝑎 𝑏 ∗ 𝑥 1 exp 𝑎 𝑏 ∗ 𝑥 exp 𝑟𝑜𝑣𝑛𝑖𝑐𝑒 1 exp 𝑟𝑜𝑣𝑛𝑜𝑐𝑒 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Princip logistické regrese II • Model logistické regrese lze popsat také jako: tedy, že logaritmus šance na výskyt jevu  lze popsat jeho lineární závislostí na x • S využitím této znalosti můžeme popsat jak se mění šance na výskyt jevu (např.  úmrtí) při změně x, konkrétně poměr šancí pro změnu x o  • Pro =1, tak získáme hodnotu odds ratia pro změnu x o 1 jako  exp(regresní koeficient x)  27 𝑙𝑜𝑔 𝑃 𝑥 1 𝑃 𝑥 𝑎 𝑏 ∗ 𝑥 𝑙𝑜𝑔 𝑃 𝑥 ∆ 1 𝑃 𝑥 ∆ 𝑃 𝑥 1 𝑃𝑥 𝑏 ∗ ∆ 𝑃 𝑥 ∆ 1 𝑃 𝑥 ∆ 𝑃 𝑥 1 𝑃𝑥 exp 𝑏 ∗ ∆ 𝑃 𝑥 1 1 𝑃 𝑥 1 𝑃 𝑥 1 𝑃𝑥 exp 𝑏 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Kategoriální data jako prediktory v logistické regresi • Kategoriální a ordinální data mohou do analýzy vstupovat jako binární proměnné • Kategoriální data (nelze seřadit) ‐> dummies • Ordinální data (lze seřadit)  – Dummies – Definice referenční kategorie (obvykle kategorie s nejnižším rizikem pro hodnocený  endpoint • Příklad: The New York Heart Association (NYHA) Functional Classification 28 Původní Dummies Vzhledem k referenci NYHA NYHA I NYHA II NYHA III NYHA IV NYHA II ref NYHA III ref NYHA IV ref I 1 0 0 0 0 0 0 I 1 0 0 0 0 0 0 I 1 0 0 0 0 0 0 II 0 1 0 0 1 II 0 1 0 0 1 III 0 0 0 0 1 III 0 0 0 0 1 IV 0 0 1 1 1 IV 0 0 1 1 1 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Výstupy logistické regrese • Koeficienty rovnice logistické regrese • Odds ratio jako popis rizikovosti prediktorů pro výskyt endpointu • Popis celkových výsledků a kvality modelu 29 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Odds ratio • Popisuje míru rizika spjatou: – U spojitých proměnných se změnou hodnoty o 1 (z tohoto důvodu se spojité proměnné  často převádí na interpretovatelné jednotky – např. věk po destiletích, koncentrace po  stovkách jednotek)  – U binárních proměnných spjatých s výskytem vlastnosti (kódováno jako 1)  • U klasických dummies jde o riziko vůči všem ostatním pacientům bez dané vlastnosti • U binárních proměnných kódovaných vůči referenční kategorii jde o nárůst oproti pacientům v  referenční kategorii • Odds ratio je exponenciální hodnota koeficientu regresní rovnice 30 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Hodnocení kvality modelu I • Klasifikace objektů na základě vytvořené rovnice logistické regrese, analyzován je  úspěch klasifikace (zcela korektní by pak bylo toto testování na nezávislém  souboru) • Standardně je jako hranice pro klasifikaci využíváno p=0.5 a je možné ji popsat  standardními ukazateli vztahu dvou binárních proměnných jako je sensitivita,  specificita, pozitivní a negativní prediktivní hodnota apod. 31 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Hodnocení kvality modelu II • Hosmer & Lemeshow test • Jde o aplikaci chi‐square testu na výsledky predikce logistické regrese • Jsou srovnávány pozorované počty pacientů v rizikových skupinách vs. počty  očekávané dle výsledků logistického modelu (obvykle na bázi decilů rizikové  funkce) • V případě shody pozorovaných a očekávaných četností je model považován za  dobře kalibrovaný 32 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Hodnocení kvality modelu III • ‐Pseudo R2 – Nejde o přímou obdobu R2 u lineární regrese – Popisuje zlepšení výsledků modelu oproti modelu pouze s interceptem (tedy bez vlivu  prediktoru) – Existuje řada algoritmů pro výpočet pseudo R2 • Cox & Snell – analyzuje zlepšení výsledků modelu oproti samotnému interceptu • Nagelkerke – adjustuje Cox & Snell na maximální možnou hodnotu 33 𝑅 1 𝐿 𝑀 𝐿 𝑀 í 𝑅 1 𝐿 𝑀 𝐿 𝑀 í 1 𝐿 𝑀 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Vícerozměrná logistická regrese • Požadavky na kvalitní predikční model – Maximální predikční síla – Maximální interpretovatelnost  – Minimální složitost • Tvorba modelů – Neobsahuje redundantní proměnné – Je otestován na nezávislých datech • Výběr proměnných  – Algoritmy typu dopředné a zpětné eliminace jsou pouze pomocným ukazatelem při  výběru proměnných finálního modelu – Při výběru proměnných se uplatní jak klasické statistické metody (ANOVA), tak expertní  znalost významu proměnných a jejich zastupitelnosti 34 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Vícerozměrná logistická regrese: příklad I • Identifikace dvou druhů kosatců: VERSICOL vs. ostatní 35 SEPALLEN 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 0 5 10 15 20 25 30 35 40 SEPALWID 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0 4.2 4.4 4.6 4.8 0 5 10 15 20 25 30 35 40 PETALLEN 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 0 5 10 15 20 25 30 35 40 PETALWID -0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 0 5 10 15 20 25 30 35 40 VERSICOL Lze jednoznačně  pozorovat různou  diskriminační  schopnost různých  proměnných v  jednorozměrné  analýze Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Vícerozměrná logistická regrese: příklad II 36 SEPALLEN SEPALWID PETALLEN PETALWID Lze jednoznačně pozorovat korelace prediktorů Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Vícerozměrná logistická regrese: příklad III 37 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Vícerozměrná logistická regrese: příklad IV 38 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Logistická regrese: shrnutí • Základní nástroj pro identifikaci faktorů ovlivňujících výskyt binárních endpointů a  predikci individuální pravděpodobnosti výskytu endpointů • Použitelná jako obdoba diskriminační analýzy pro 2 skupiny • Popisuje míru rizikovosti prediktorů pro binární endpoint ve formě odds ratia • Pro vícerozměrné modely je důležité analyzovat redundanci parametrů a stabilitu  vícerozměrných modelů • Pro praktické nasazení modelů je nezbytná jejich krosvalidace, popřípadě jiné  metody testování nasazení modelů na nezávislých datech • Neumí pracovat s cenzorovanými daty • Standardní metodika analýzy rizikových faktorů pro binární endpointy  (hospitalizační mortalita apod.) 39