Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky Statistika vychází z pravděpodobnosti Podmíněná pravděpodobnost, Bayesův vzorec Senzitivita, specificita, prediktivní hodnoty Frekventistická a Bayesovská statistika Tomáš Pavlík Biostatistika Opakování – klíčové principy biostatistiky Zkreslení Reprezentativnost SrovnatelnostSpolehlivost Významnost Tomáš Pavlík Biostatistika Opakování – příčina a důsledek Příklad: Farmaceutická společnost se snaží o kategorizaci nového přípravku proti běžné rýmě. Jako důkaz účinnosti přípravku provedla společnost experiment, kdy byl její přípravek podán velkému množství pacientů s rýmou. S potěšením pak firma reportovala Státnímu ústavu pro kontrolu léčiv, že 90 % pacientů se po 10 dnech užívání cítilo lépe. SÚKL přesto přípravek neschválil. Proč? Tomáš Pavlík Biostatistika Statistika, biostatistika a analýza dat Statistika Biostatistika Analýza dat  Primárně je zaměřena na vývoj metod a algoritmů pro řešení teoretických problémů.  Nicméně i statistika je vždy primárně motivována reálnými problémy.  Vychází z teorie pravděpodobnosti.  Propojení znalosti statistických metod a dané problematiky v řešení biologických a klinických úloh.  Na prvním místě není teoretický vývoj, ale aplikace.  Velmi obecná oblast bez jasné definice.  Prostupuje různými odvětvími.  Zahrnuje komplexní postupy hodnocení dat (čištění, kódování).  Nemusí být založena na statistice. Tomáš Pavlík Biostatistika Biostatistika vychází ze statistiky Biostatistika je aplikace statistických metod v řešení biologických a klinických problémů. Snahou je získat z pozorovaných dat užitečnou informaci. V popředí zájmu je pozorovaná variabilita mezi studovanými subjekty, kterou chceme vysvětlit. Tomáš Pavlík Biostatistika Statistický pohled na problém Cílová populace – chceme postihnout konkrétní problém. Získáme experimentální vzorek cílové populace (pozorování), která převedeme na číselné vyjádření (data). Vzorek by měl být reprezentativní a náhodný. Předpokládáme pravděpodobnostní chování (model) tohoto vzorku (tedy i cílové populace). Konkrétní problém vyjádříme ve vybraném modelu jako hypotézu. Zhodnotíme hypotézu na základě vybraného modelu a pozorovaných dat. Tomáš Pavlík Biostatistika Statistika vychází z pravděpodobnosti Teorie pravděpodobnosti se zabývá modelováním náhody. Lze nějak ale vyjádřit, co je to náhoda? Tomáš Pavlík Biostatistika Statistika vychází z pravděpodobnosti Teorie pravděpodobnosti se zabývá modelováním náhody. Lze nějak ale vyjádřit, co je to náhoda? Objektivní nepředvídatelnost? Nedostatek informací? Tomáš Pavlík Biostatistika Statistika vychází z pravděpodobnosti Teorie pravděpodobnosti se zabývá modelováním náhody. Lze nějak ale vyjádřit, co je to náhoda? Objektivní nepředvídatelnost? Nedostatek informací? “Chance is only ignorance of the connections between phenomena.” Pierre Simon de Laplace Tomáš Pavlík Biostatistika Statistika Statistika vs. pravděpodobnost Pravděpodobnost Cílová populace Vzorek Cílová populace Vzorek Tomáš Pavlík Biostatistika Statistika Statistika vs. pravděpodobnost Pravděpodobnost Cílová populace Vzorek Cílová populace Vzorek Cílem statistiky je získání informace o cílové populaci na základě pozorovaného experimentálního vzorku. V teorii pravděpodobnosti se ptáme na pravděpodobnost získání konkrétního výsledku, máme-li danou strukturu cílové populace. Tomáš Pavlík Biostatistika Značení Základní prostor (Ω) – množina všech možných výsledků experimentu Elementární jev (ω) – konkrétní výsledek experimentu Náhodný jev (A) – podmnožina základního prostoru Množina všech jevů (A) – množina (všech) podmnožin základního prostoru Ø představuje jev nemožný, Ω zase jev jistý Množinové operace mají v teorii pravděpodobnosti svůj význam: - jev A nastane, když nastane ω - jev A nenastane, když nastane ω - nastání jevu A implikuje nastání jevu B - nastání jevu A a zároveň jevu B - nastání jevu A nebo jevu B - jevy A a B se navzájem vylučují, jsou disjunktní - nastání jevu opačného k jevu Ac A BA BA BA BA A A .7 0.6 .5 .4 .3 .2 .1 =∩ ∪ ∩ ⊂ ∉ ∈ ω ω Tomáš Pavlík Biostatistika Příklad – hod kostkou Jak vypadá základní prostor Tomáš Pavlík Biostatistika Příklad – hod kostkou Jak vypadá základní prostor: Ω = {1, 2, 3, 4, 5, 6} Jaké jsou elementární jevy příznivé jevu A, padne liché číslo Tomáš Pavlík Biostatistika Příklad – hod kostkou Jak vypadá základní prostor: Ω = {1, 2, 3, 4, 5, 6} Jaké jsou elementární jevy příznivé jevu A, padne liché číslo: A = {1, 3, 5} Uvažujme A = {1, 3, 5}, B = {4, 5, 6}. Jak vypadá A BA BA ∪ ∩ Tomáš Pavlík Biostatistika Příklad – hod kostkou Jak vypadá základní prostor: Ω = {1, 2, 3, 4, 5, 6} Jaké jsou elementární jevy příznivé jevu A, padne liché číslo: A = {1, 3, 5} Uvažujme A = {1, 3, 5}, B = {4, 5, 6}. Jak vypadá = {5} = {1, 3, 4, 5, 6} = {2, 4, 6}A BA BA ∪ ∩ Tomáš Pavlík Biostatistika DeMorganova pravidla Příklad: Uvažujme opět hod kostkou a jevy A = {1, 3, 5} a B = {4, 5, 6}. ccc ccc BABA BABA ∩=∪ ∪=∩ )(.2 )(.1 Tomáš Pavlík Biostatistika Pravděpodobnost Pravděpodobnost lze definovat jako funkci, která přiřazuje náhodnému jevu reálné číslo mezi 0 a 1. Je to tedy funkce P: A → [0,1]. Musí platit následující: )()()(.3 1)(0.2 1)(,0)(.1 BPAPBAPBA APA PP +=∪⇒=∩ ≤≤⇒Ω⊆ =Ω= φ φ Tomáš Pavlík Biostatistika Definice pravděpodobnosti Klasická definice pravděpodobnosti: předpokládáme, že Ω je konečná a všechny ω jsou stejně pravděpodobné. Pak kde |A| je počet prvků množiny A (počet elementárních jevů jevu A). Axiomatická definice pravděpodobnosti: Ω je libovolná množina elementárních jevů, A’ je množina měřitelných jevů (A’ je podmnožina A). Funkce P: A’ → [0,1], která splňuje se nazývá pravděpodobnost. Trojice (Ω, A’, P) se nazývá pravděpodobnostní prostor. || || )( Ω =⇒Ω⊆ A APA ∑== =⇒≠∀=∩Ω∈ =Ω n i ii n iji APAPjiAAAA P 1121 )()(,:,...,.2 1)(.1 φ Tomáš Pavlík Biostatistika Definice pravděpodobnosti – najděte 3 rozdíly Klasická definice pravděpodobnosti: předpokládáme, že Ω je konečná a všechny ω jsou stejně pravděpodobné. Pak kde |A| je počet prvků množiny A (počet elementárních jevů jevu A). Axiomatická definice pravděpodobnosti: Ω je libovolná množina elementárních jevů, A’ je množina měřitelných jevů (A’ je podmnožina A). Funkce P: A’ → [0,1], která splňuje se nazývá pravděpodobnost. Trojice (Ω, A’, P) se nazývá pravděpodobnostní prostor. || || )( Ω =⇒Ω⊆ A APA ∑== =⇒≠∀=∩Ω∈ =Ω n i ii n iji APAPjiAAAA P 1121 )()(,:,...,.2 1)(.1 φ Tomáš Pavlík Biostatistika Co to znamená? Axiomatická definice připouští i nespočetný základní prostor, tedy nespočetnou množinu elementárních jevů. Příklady: hod kostkou × měření výšky lidské postavy Axiomatická definice připouští různou pravděpodobnost různých elementárních jevů. Příklady: hod kostkou × měření výšky lidské postavy Tomáš Pavlík Biostatistika Nezávislost jevů Dva jevy A a B jsou nezávislé právě tehdy, když platí Jsou-li dva jevy A a B nezávislé, pak i Ac je nezávislé na B A je nezávislé na Bc Ac je nezávislé na Bc )()()( BPAPBAP =∩ Tomáš Pavlík Biostatistika Nezávislost jevů Dva jevy A a B jsou nezávislé právě tehdy, když platí Jsou-li dva jevy A a B nezávislé, pak i Ac je nezávislé na B A je nezávislé na Bc Ac je nezávislé na Bc Příklad: Uvažujme opět hod kostkou a jevy A = {1, 3, 5} a B = {4, 5, 6}. Jevy A a B tedy nejsou nezávislé. )()()( BPAPBAP =∩ )()(4/16/1)( BPAPBAP =≠=∩ Tomáš Pavlík Biostatistika Podmíněná pravděpodobnost Máme-li jev B s pravděpodobností P(B) > 0, pak podmíněnou pravděpodobnost jevu A za podmínky nastoupení jevu B definujeme jako Pro nezávislé jevy A a B platí )( )( )|( BP BAP BAP ∩ = )( )( )()( )|( AP BP BPAP BAP == Tomáš Pavlík Biostatistika Podmíněná pravděpodobnost )( )( )|( BP BAP BAP ∩ = BA∩A B Ω Tomáš Pavlík Biostatistika Podmíněná pravděpodobnost Příklad: Osoba X má všechny typické příznaky chřipky. Pravděpodobnost, že se jedná o klasickou chřipku je 0,7 (jev A), prasečí chřipku 0,2 (jev B), ptačí chřipku 0,05 (jev C) a dosud neznámou formu 0,05 (jev D). Diagnostický test prokázal, že klasická chřipka to není. Jaká je nyní pravděpodobnost, že se jedná o novou formu chřipky? Tomáš Pavlík Biostatistika Podmíněná pravděpodobnost Příklad: Osoba X má všechny typické příznaky chřipky. Pravděpodobnost, že se jedná o klasickou chřipku je 0,7 (jev A), prasečí chřipku 0,2 (jev B), ptačí chřipku 0,05 (jev C) a dosud neznámou formu 0,05 (jev D). Diagnostický test prokázal, že klasická chřipka to není. Jaká je nyní pravděpodobnost, že se jedná o novou formu chřipky? Řešení: 167,0 3,0 05,0 )( )( )( )( )|( === ∩ = cc c c AP DP AP ADP ADP Tomáš Pavlík Biostatistika Celková pravděpodobnost a Bayesův vzorec Můžeme-li rozdělit základní prostor na k po dvou disjunktních podmnožin (Hi, i = 1, …, k), pro které zároveň platí, že jejich sjednocení je celý základní prostor (tzv. systém hypotéz), pak pravděpodobnost jevu A lze získat jako Dále platí ∑= = k i ii HPHAPAP 1 )()|()( ∑= = ∩ = k i ii jjj j HPHAP HPHAP AP HAP AHP 1 )()|( )()|( )( )( )|( Bayesův vzorec Vzorec pro celkovou pravděpodobnost Tomáš Pavlík Biostatistika Počasí a celková pravděpodobnost Co má počasí společného s pravděpodobností? Tomáš Pavlík Biostatistika Počasí a celková pravděpodobnost Co má počasí společného s pravděpodobností? U každého jevu (A) se můžeme ptát na jeho pravděpodobnost za slunečného počasí, za deště, za bouřky, atd. Celkovou pravděpodobnost jevu A potom můžeme získat jako součet přes tyto možnosti. Tyto stavy lze chápat jako výchozí hypotézy ovlivňující výsledek, přičemž vždy nastává (platí) pouze jeden z těchto stavů (hypotéz). Pokud pozorujeme jev A, můžeme se zpětně ptát na platnost těchto hypotéz (s použitím Bayesova vzorce). H0 Ω H1 H2 H3 H4 H5 Tomáš Pavlík Biostatistika Celková pravděpodobnost – jiný příklad Populaci můžeme rozdělit dle věku na tři skupiny: děti (H0), dospělé v produktivním věku (H1) a dospělé v postproduktivním věku (H2), přičemž známe rozdělení populace, tedy známe P(H0), P(H1) a P(H2). Označme jev A: stane se úraz. Známe-li pravděpodobnost úrazu u dítěte, P(A|H0), u dospělého v produktivním věku, P(A|H1), a u dospělého v postproduktivním věku, P(A|H2), jsme schopni pomocí vzorce pro celkovou pravděpodobnost spočítat P(A). Ω H0 H1 H2 Tomáš Pavlík Biostatistika Bayesův vzorec Příklad: Uvažujme populaci mužů nekuřáků ve věku 50 – 60 let, u kterých sledujeme výskyt chronického kašle (jev A). Dle stavu plic můžeme muže zjednodušeně rozdělit na zdravé (jev H1), nemocné plicním karcinomem (jev H2) a nemocné sarkoidózou (jev H3). Pravděpodobnosti výskytu jednotlivých plicních onemocnění jsou známé, navíc známe i pravděpodobnosti výskytu chronického kašle dle stavu plic: P(H1) = 0,991, P(H2) = 0,001, P(H3) = 0,008 P(A|H1)=0,002, P(A|H2)=0,900, P(A|H3)=0,950 Zajímá nás, s jakou pravděpodobností bude u pacienta s chronickým kašlem při podrobnějším vyšetření diagnostikován karcinom plic. Tomáš Pavlík Biostatistika Bayesův vzorec Příklad: Uvažujme populaci mužů nekuřáků ve věku 50 – 60 let, u kterých sledujeme výskyt chronického kašle (jev A). Dle stavu plic můžeme muže zjednodušeně rozdělit na zdravé (jev H1), nemocné plicním karcinomem (jev H2) a nemocné sarkoidózou (jev H3). Pravděpodobnosti výskytu jednotlivých plicních onemocnění jsou známé, navíc známe i pravděpodobnosti výskytu chronického kašle dle stavu plic: P(H1) = 0,991, P(H2) = 0,001, P(H3) = 0,008 P(A|H1)=0,002, P(A|H2)=0,900, P(A|H3)=0,950 Zajímá nás, s jakou pravděpodobností bude u pacienta s chronickým kašlem při podrobnějším vyšetření diagnostikován karcinom plic. Řešení: 086,0 008,0950,0001,0900,0991,0002,0 001,0900,0 )|( )()|( )()|( )( )( )|( 2 3 1 222 2 = ×+×+× × = = ∩ = ∑= AHP HPHAP HPHAP AP HAP AHP i ii Tomáš Pavlík Biostatistika Význam podmíněné pravděpodobnosti v biostatistice Princip podmíněné pravděpodobnosti je v biostatistice velmi častý – máme systém hypotéz (nejčastěji dvou) o vlastnostech cílové populace a pozorovaná data. Na jejich základě pak rozhodujeme o platnosti stanovených hypotéz. Přímé použití podmíněné pravděpodobnosti lze demonstrovat na příkladu binárních diagnostických testů: Osoba ve skutečnosti má (jev H) nebo nemá (jev Hc) sledované onemocnění. Diagnostický test u dané osoby indikuje přítomnost (jev A+) nebo nepřítomnost (jev A-) sledovaného onemocnění. Nás zajímají diagnostické schopnosti testu. Tomáš Pavlík Biostatistika Senzitivita, specificita Senzitivita testu: schopnost testu rozpoznat skutečně nemocné osoby, tedy pravděpodobnost, že test bude pozitivní, když je osoba skutečně nemocná. Senzitivita testu = P(A+|H) = T / (T + V). Specificita testu: schopnost testu rozpoznat osoby bez nemoci, tedy pravděpodobnost, že test bude negativní, když osoba není nemocná. Specificita testu = P(A-|Hc) = W / (U + W). Skutečnost – přítomnost nemoci Ano (H) Ne (Hc) Výsledek diagnostického testu Pozitivní (A+) T U Negativní (A-) V W Tomáš Pavlík Biostatistika Pozitivní a negativní prediktivní hodnota Prediktivní hodnota pozitivního testu: pravděpodobnost, že osoba je skutečně nemocná, když je test pozitivní. Prediktivní hodnota pozitivního testu = P(H|A+) = T / (T + U). Prediktivní hodnota negativního testu: pravděpodobnost, že osoba není nemocná, když je test negativní. Prediktivní hodnota negativního testu = P(Hc|A-) = W / (V + W). Skutečnost – přítomnost nemoci Ano (H) Ne (Hc) Výsledek diagnostického testu Pozitivní (A+) T U Negativní (A-) V W Tomáš Pavlík Biostatistika Shrnutí Skutečnost – přítomnost nemoci Ano (H) Ne (Hc) Výsledek diagnostického testu Pozitivní (A+) T U T + U Negativní (A-) V W V + W T + V U + W Senzitivita testu Specificita testu Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu Tomáš Pavlík Biostatistika Senzitivita, specificita Příklad: Zajímá nás přesnost vyšetření jater ultrazvukem, tedy schopnost vyšetření UTZ identifikovat maligní ložisko v pacientových játrech. Přesnost je vztažena k histologickému ověření odebrané tkáně. Výsledky jsou dány tabulkou: Vyšetření UTZ Histologické ověření Maligní Benigní Celkem Maligní 32 2 34 Benigní 3 24 27 Celkem 35 26 61 Senzitivita testu = P(A+|H) = ? Specificita testu = P(A-|Hc) = ? Tomáš Pavlík Biostatistika Senzitivita, specificita Příklad: Zajímá nás přesnost vyšetření jater ultrazvukem, tedy schopnost vyšetření UTZ identifikovat maligní ložisko v pacientových játrech. Přesnost je vztažena k histologickému ověření odebrané tkáně. Výsledky jsou dány tabulkou: Vyšetření UTZ Histologické ověření Maligní Benigní Celkem Maligní 32 2 34 Benigní 3 24 27 Celkem 35 26 61 Senzitivita testu = P(A+|H) = 32 / 35 = 91,4 % (IS = 75,8 – 97,8) Specificita testu = P(A-|Hc) = 24 / 26 = 92,3 % (IS = 73,4 – 98,7) Tomáš Pavlík Biostatistika Bayesův vzorec pro výpočet prediktivních hodnot Obě prediktivní hodnoty testu lze vypočítat s pomocí charakteristik testu, senzitivity a specificity, a celkové prevalence onemocnění v cílové populaci. )()|()()|( )()|( )|( cc HPHAPHPHAP HPHAP AHP ++ + + + = Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu )()|()()|( )()|( )|( HPHAPHPHAP HPHAP AHP cc cc c −− − − + = Senzitivita testu Specificita testu Prevalence)|( HAP + )|( c HAP − )(HP Tomáš Pavlík Biostatistika Pozitivní a negativní prediktivní hodnota Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. 1. Uvažujme jihoafrickou zemi s prevalencí HIV pozitivních cca 20 %: P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,2. Tomáš Pavlík Biostatistika Pozitivní a negativní prediktivní hodnota Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. 1. Uvažujme jihoafrickou zemi s prevalencí HIV pozitivních cca 20 %: P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,2. %1,96 )20,01()99,01(20,098,0 20,098,0 )()|()()|( )()|( )|( = −×−+× × = + = ++ + + cc HPHAPHPHAP HPHAP AHP Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu %5,99 20,0)98,01()20,01(99,0 )20,01(99,0 )()|()()|( )()|( )|( = ×−+−× −× = + = −− − − HPHAPHPHAP HPHAP AHP cc cc c Tomáš Pavlík Biostatistika Pozitivní a negativní prediktivní hodnota Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. 2. Uvažujme evropskou zemi s prevalencí HIV pozitivních cca 0,2 %: P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,002. Tomáš Pavlík Biostatistika Pozitivní a negativní prediktivní hodnota Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. 2. Uvažujme evropskou zemi s prevalencí HIV pozitivních cca 0,2 %: P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,002. %4,16 )002,01()99,01(002,098,0 002,098,0 )()|()()|( )()|( )|( = −×−+× × = + = ++ + + cc HPHAPHPHAP HPHAP AHP Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu %9,99 002,0)98,01()002,01(99,0 )002,01(99,0 )()|()()|( )()|( )|( = ×−+−× −× = + = −− − − HPHAPHPHAP HPHAP AHP cc cc c Tomáš Pavlík Biostatistika Dva směry statistiky Ve statistice existují dva hlavní filozofické směry: frekventistický a Bayesovský. Liší se v pohledu na pravděpodobnostní chování neznámých hodnot, které se snažíme odhadnout. Frekventistická statistika: všechny neznámé hodnoty považujeme za konstantní (parametry). Na základě dat se snažíme tuto hodnotu „lokalizovat“. Bayesovská statistika: všechny neznámé hodnoty mají pravděpodobnostní chování (rozdělení pravděpodobnosti). Na základě dat se snažíme toto pravděpodobnostní chování „upřesnit“. Tomáš Pavlík Biostatistika Frekventistická statistika Neznámou charakteristiku cílové populace (konstantu) se snažíme odhadnout pouze na základě pozorovaných dat. Důležitý je předpoklad reprezentativnosti vzorku – pracujeme pouze s daty jako obrazem neznámé charakteristiky. Bude-li špatný vzorek, bude špatný i odhad (výsledky mohou být velmi odlišné od známých hodnot). Často pracuje s asymptotickým chováním, kdy velikost vzorku jde do nekonečna; řada odhadů a testů je odvozena právě pro tyto situace. ∞→n∞<