logo-IBA ROC analýza Regresní modelování Pokročilé statistické metody 8. cvičení logo-IBA ROC analýza – PROČ? logo-IBA ROC analýza —Vyhodnocení prediktivních schopností parametrů —Identifikace hranice (cut-off) spojitých proměnných, aby při jejich užití v modelech byla maximalizována schopnost klasifikace endpointu na základě nově vytvořené binární proměnné (z původně spojitého parametru). Kde leží optimální hranice mezi skupinami? Odlišení dvou skupin objektů (modří = zdraví; červení = nemocní) Spojitý parametr, který chceme binarizovat logo-IBA Sensitivita a specificita - teoreticky 0 – zdravý 1 – nemocný 0 – neriziková skupina Skutečně negativní (TN) Falešně negativní (FN) 1 – riziková skupina Falešně pozitivní (FP) Skutečně pozitivní (TP) Proměnná predikující skutečný stav – např. výsledek laboratorního testu, věk, BMI Skutečnost = pacient je zdravý/nemocný → Podíl zdravých jedinců, u kterých vyšel test negativně. → Podíl nemocných jedinců, u kterých vyšel test pozitivně. logo-IBA Sensitivita a specificita – příklad Výskyt infarktu (ne) Výskyt infarktu (ano) Věk (do 30 let) 20 1 Věk (nad 30 let) 120 69 Výskyt infarktu (ne) Výskyt infarktu (ano) Věk (do 50 let) 70 5 Věk (nad 50 let) 70 65 Výskyt infarktu (ne) Výskyt infarktu (ano) Věk (do 70 let) 110 10 Věk (nad 70 let) 30 60 —ROC dle každé unikátní hodnoty spojitého parametru vytváří novou binární proměnnou (neriziková vs. riziková skupina = kategorie věku v příkladu). specificita senzitivita Jaká hranice (cut-off) je nejlepší? cut-off logo-IBA Výběr cut-off I 1 2 3 4 5 6 7 8 9 10 11 12 Specificita Senzitivita 1 2 3 4 5 6 7 8 9 10 11 12 1 - Specificita Pravd., že bude zdravý AUC= 0.944 p = 0.001 Optimální „cut-off“ logo-IBA Výběr cut-off II —Na základě vyhodnocení hodnot specificit a senzitivit pro každou z unikátních hodnot spojitého parametru vybíráme hranici (cut-off), na základě které rozdělíme spojitý parametr do nové binární proměnné. —Upřednostnění sensitivity nebo specificity je do určité míry subjektivní dle reálného cíle analýzy: ¡Vysoká senzitivita – screeningový test, kdy je třeba zachytit všechny možné nemocné (např. závažné onemocnění, které je třeba zachytit v počátečním stadiu). ¡Vysoká specificita – pokud je nezbytné odchytit pouze skutečně nemocné pacienty (např. nechceme vystavovat pacienty zbytečné léčbě málo závažného onemocnění). ¡V praxi většinou dobré rozdělení souboru poskytne cut-off, pro který součet specificity a senzitivity dosahuje maximální hodnoty. ¡ —AUC (plocha pod křivkou) s intervalem spolehlivosti oČím odlišnější od 0.5, tím lepší predikce 1 2 3 4 5 6 7 8 9 10 11 12 Specificita Senzitivita 1 2 3 4 5 6 7 8 9 10 11 12 1 - Specificita Pravd., že bude zdravý AUC= 0.944 p = 0.001 Optimální „cut-off“ logo-IBA Regresní modelování – PROČ? logo-IBA Regresní modelování – PROČ? —Cílem je vysvětlit variabilitu závislé proměnné (endpoint, outcome, response, Y) pomocí prediktorů (nezávislá, vysvětlující proměnná, kovariáta, X). — —Regresní model kvantifikuje vliv prediktorů a poskytuje regresní rovnici, čímž umožňuje následnou predikci závisle proměnné na nových datech. logo-IBA Regresní modelování – výběr metody —Kombinace datového typu predikované proměnné určuje použitou metodu analýzy: Typ Y Metoda spojitá Lineární regrese Dvě a více spojitých proměnných Vícenásobná lineární regrese Korelovaná data Smíšené modely binární Logistická regrese ordinální Ordinální logistická regrese nominální Multinomická logistická regrese Časově závislá proměnná (výskyt události v čase) Coxův model proporcionálních rizik Opakované měření v čase Longitudiální modely logo-IBA Jednorozměrné vs. vícerozměrné modelování —Bez ohledu na typ modelu můžeme obecně provádět jednorozměrnou nebo vícerozměrnou analýzu. — —Jednorozměrné hodnocení (univariate): do modelu vstupuje vždy jeden prediktor. ØHodnotíme vliv jednotlivých prediktorů bez ohledu na ostatní proměnné. — —Vícerozměrné hodnocení (multivariate): do modelu vstupuje více proměnných současně. ØHodnotíme vliv prediktorů adjustovaný na ostatní proměnné v modelu (unikátní příspěvek proměnné k vysvětlení závislé proměnné). — → Umožňuje odstranění vlivu zavádějících faktorů. — → Výběr proměnných, které nezávisle na sobě přispívají k vysvětlení závislé proměnné. Ø logo-IBA Lineární regrese – model s jednou proměnnou Závislá proměnná spojitého typu intercept Koeficient pro daný prediktor rezidua prediktor Spojitý prediktor vs. závislá proměnná rezidua Fitované hodnoty intercept Regresní rovnice Regresní přímka logo-IBA Předpoklady —Zaměřují se na rozložení reziduí – rozdíl mezi pozorovanými a odhadnutými (očekávanými) hodnotami závisle proměnné. Variabilita, kterou nevysvětlíme modelem. — —Předpoklad: Normální rozdělení reziduí s nulovou střední hodnotou a konstantním rozptylem. Nezávislost jednotlivých pozorování. 1. —Multikolinearita – vysoká korelace parametrů znemožňuje odhad koeficientů. — rezidua Fitované hodnoty logo-IBA Výstupy a jejich interpretace I —Regresní koeficient – počet koeficientů odpovídá počtu prediktorů + 1 (intercept). Kvantifikuje, jaká je průměrná změna hodnoty závislé proměnné při změně hodnoty prediktoru. ØSpojitý prediktor: Jak se změní hodnota závislé proměnné při jednotkovém navýšení nezávislé proměnné. Ø ØKategoriální prediktor: Jak se změní hodnota závislé proměnné pro objekty v rizikové kategorii prediktoru ve srovnání s kategorií referenční (v softwaru je potřeba nadefinovat, kterou kategorii bereme jako referenční). Ø ØSpojitý prediktor ve vícerozměrném modelu: Jak se změní hodnota závislé proměnné při jednotkovém nárůstu prediktoru, zatímco ostatní prediktory zůstávají konstantní. Pokud se výrazně změní hodnota koeficientu po přidání dalšího prediktoru do modelu, lze očekávat korelaci mezi prediktory. logo-IBA Výstupy a jejich interpretace II —Test významnosti jednotlivých parametrů — — —Test významnosti modelu – F test. — — —Koeficient determinace (R2) – podíl celkové variability závislé proměnné, kterou vysvětlíme modelem = podíl vyčerpané variability (POZOR - můžeme mít významnou asociaci se závislou proměnnou, ale nízké % popsané variability). — —AIC = Akaikeho informační kritérium. Čím je hodnota AIC menší, tím považujeme model za lepší. AIC penalizuje modely s vysokým počtem použitých parametrů a tak zamezuje přeučení statistického modelu. — — logo-IBA Logistická regrese —Závislá proměnná binárního typu (bez zahrnutí časové složky). —Patří mezi zobecněné lineární modely, kde linkovací funkce převádí problém nelineární závislosti y na x na lineární model — — — — — —Cílem analýzy je: ¡Identifikace vztahů mezi prediktory a endpointem a jejich popis. ¡Vytvoření predikčního modelu umožňujícího zařazení pacientů do hodnocených skupin (obdoba diskriminační analýzy pro 2 skupiny). Logit linkovací funkce logo-IBA Odds ratio (OR) — —Koeficient logistické regrese vyjadřuje změnu logaritmu šance výskytu události při jednotkovém nárůstu prediktoru → exponenciální hodnota tohoto koeficientu je interpretována jako poměr šancí = odds ratio (OR), které u: ¡spojitých proměnných interpretujeme jako změnu šance na výskyt události při jednotkovém nárůstu prediktoru. Z tohoto důvodu se spojité proměnné často převádí na interpretovatelné jednotky – např. věk po desetiletích, koncentrace po stovkách jednotek). ¡binárních proměnných interpretujeme jako změnu šance na výskyt události pro rizikovou kategorii ve srovnání s kategorií referenční. — — — OR menší než 1: nárůst hodnoty prediktoru značí pokles šance na výskyt události. OR blízké 1 nárůst hodnoty prediktoru nemění šanci na výskyt události. OR větší než 1 nárůst hodnoty prediktoru značí nárůst šance na výskyt události. —Test významnosti jednotlivých koeficientů: Waldův test testuje H0, že koeficient je roven nule (OR = 1) proti H1, že koeficient je různý od nuly. logo-IBA Kvalita modelu - vyhodnocení deviancí —Vyhodnocení deviancí = odchylek pozorovaných od predikovaných hodnot — http://portal.matematickabiologie.cz/index.php?pg=analyza-a-hodnoceni-biologickych-dat--regresni-mo delovani--logisticky-regresni-model-a-jine-zobecnene-linearni-modely--analyza-deviance Testujeme, zda se od sebe modely ve svých predikčních schopnostech statisticky významně liší. logo-IBA Kvalita modelu - Hosmer-Lemeshow test —test shody pozorovaných a predikovaných frekvencí. Pokud vyjde významně, model fituje špatně. — https://is.muni.cz/www/98951/41610771/43823411/43823458/Analyza_a_hodnoc/46097316/textVJ05_logist.p df Pozorování rozdělíme do skupin dle hodnoty predikované pravděpodobnosti výskytu události (např. decily). Testujeme, zda se liší pozorovaný a očekávaný počet pozorování s událostí v daných kategoriích.