Přednáška IV. Náhodná veličina, rozdělení pravděpodobnosti a reálná data * Náhodná veličina 1 - Rozdělení pravděpodobnosti náhodných veličin Normální rozdělení a rozdělení příbuzná " Transformace náhodných veličin investice do rozvoje vzdělávání Opakování - typy dat "*Jaké znáte typy dat? * Uveďte příklady... Tomáš Pavlík Biostatistika Opakování - popis dat •*Co chceme u dat popsat? * Jak to můžeme udělat? Opakování - který histogram je správný a proč? Chceme pomocí histogramu vykreslit počty zraněných při automobilových haváriích na předměstí Londýna v roce 1985. Data máme zadána jako počty v daných věkových kategoriích. 30 - 20 10 - o -i 10 20 Age (years) 30 40 Age (years) —r- 50 BO —f 70 Tomáš Pavlík Biostatistika 1. Náhodná veličina Pojem náhodná veličina ■s Číselné vyjádření výsledku náhodného pokusu. Matematicky je to funkce, kte každému elementárnímu jevu co z Q přiřadí hodnotu X(uô) z nějaké množiny možných hodnot. '; Náhodná veličina se netýká pouze kvantitativních proměnných. Číselné vyjádření výsledku náhodného pokusu může popisovat i pohlaví. * Chování náhodné veličiny lze popsat pomocí rozdělení pravděpodobnosti: Funkce zadaná analyticky 1; Výčet možností a příslušných pravděpodobností Tomáš Pavlík Biostatistika Význam náhodných veličin '; Množina Q často není známa (může být i nekonečná) a nejsme tak schopni ji popsat. Náhodná veličina převádí Q na čísla, se kterými se pracuje lépe. - Neznáme-li Q, nejsme schopni popsat ani X, ale jsme schopni ho pozorovat. Pravděpodobnostní chování náhodné veličiny ,; Pravděpodobnostní chování náhodné veličiny je jednoznačně popsáno tzv. rozdělením pravděpodobnosti náhodné veličiny . Rozdělením náhodné veličiny X definované na prostoru s pravděpodobností P rozumíme předpis, který jednoznačně určuje všechny pravděpodobnosti typu PX(B) = P(X eB) = P(g)1 g Q: X{a)t) g B) pro každou B a R . ■ Distribuční funkce * Hustota - spojité náhodné veličiny Pravděpodobnostní funkce - diskrétní náhodné veličiny Tomáš Pavlík Biostatistika Opět vztah populace x vzorek Rozdělení pravděpodobnosti představuje model cílové populace. A Pomocí vzorku (naměřených pozorování) se ptáme, jestli byl model správný-snažíme se z dat usuzovat na vlastnosti tohoto rozdělení pravděpodobnosti. Ověření hypotézy na Hypotéza základě dat t X Experimentální Model cílové vzorek populace Tomáš Pavlík Biostatistika Popis rozdělení pravděpodobnosti ■* Distribuční funkce popisuje rozdělení pravděpodobnosti kumulativním způsobem. Hustota a pravděpodobnostní funkce popisují rozdělení pravděpodobnosti pro jednotlivé „body" (respektive intervaly) na reálné ose. ■* Distribuční funkce a hustota, respektive pravděpodobnostní funkce, jsou navzájem ekvivalentní, tedy známe-li jednu nepotřebujeme druhou. Tomáš Pavlík Biostatistika Distribuční funkce Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné ose. F(x) = P(X -oo 5. F(x) —» 1 pro x —> oo Tomáš Pavlík Biostatistika Distribuční funkce Distribuční funkce - příklad Uvažujme 5 hodů mincí. Náhodná veličina X představuje počet líců. A Jak vypadá distribuční funkce XI Tomáš Pavlík Biostatistika Distribuční funkce - příklad Uvažujme 5 hodů mincí. Náhodná veličina X představuje počet líců. A Jak vypadá distribuční funkce XI X = {0, 1, 2, 3, 4, 5} P(0) = l/32 P(l) = 5/32 P(2) = 10/32 P(3) = 10/32 P(4) = 5/32 P(5) = l/32 Tomáš Pavlík IBA Biostatistika Výběrová distribuční funkce - Distribuční funkce je teoretická záležitost, která definuje pravděpodobnostní model pro náhodnou veličinu X. Často neznáme její přesné vyjádření. * Výběrová distribuční funkce je charakteristika pozorovaných dat. Je odhadem teoretické distribuční funkce (je-li vzorek reprezentativní). Vyjádření: Fn(x)=--= -2^I(xi zhodnotíme tvar rozdělení a přítomnost odlehlých hodnot. * Testem můžeme ověřit normalitu hodnot. Testem můžeme ověřit rovnost rozptylů. * Rozhodneme o aplikovatelnosti jednotlivých testů. 200 -i 180 - 160 ■ 140 - od 120 - x e 100 ■ E 50 - 60 40 ■ 20 - 0 ■ Pacienti s ACE-I N = 1416 Pacienti s AHA N = 1 394 □ Medián | 25%-75% |^ 5%-95% 12 12 TKs v sedě (mmHg) B ACE-I B AM A p-hodnota A vs. B Čas 0 - medián 155 155 0,929 Čas 12 měsíců - medián 135 135 p-hodnota 0 vs. 12 <0,001 <0,001 Tomáš Pavlík Biostatistika 3. Normální rozdělení pravděpodobnosti a rozdělení z něj odvozená ^ BHS/j. Normální rozdělení pravděpodobnosti ■* Klíčové rozdělení pravděpodobnosti. Jak pro teoretickou statistiku, tak pro biostatistiku. ■* Označení „normální" neznamená, že by bylo normálnější než ostatní rozdělení. ■* Popisuje proměnné, jejichž hodnoty se symetricky shlukují kolem střední hodnoty. Rozptyl kolem střední hodnoty je dán aditivním vlivem mnoha „slabě působících" faktorů. Příklad: výška člověka, krevní tlak Tomáš Pavlík IBA ML Biostatistika Normální rozdělení pravděpodobnosti *Je kompletně popsáno dvěma parametry: ■* |i - střední hodnota, tedy E(X) ■# o2 - rozptyl, tedy D(X) ,; Označení: N(|i, o2) Čím bychom mohli jednotlivé parametry normálního rozdělení odhadnout? ■* Hustota pravděpodobnosti: f(x;ju9 Y = -> Y ~ tf(0,l) Hustota pravděpodobnosti: /(^;0,1)—4=^"x2/2 a/2;t Klíčové rozdělení řady testů. Výhoda je, že všechny hodnoty distribuční i kvantilové funkce jsou tabelovány obsaženy ve všech dostupných softwarech. Tomáš Pavlík Biostatistika Pravidlo ±3 sigma * U normálního rozdělení lze vyčíslit procento hodnot, které by se měly vyskytovat v rozmezí ± x násobku směrodatné odchylky od střední hodnoty. Lze říci, že v rozmezí u. ± 3o by se mělo vyskytovat přes 99,5 % všech hodnot. o CO o CM O O ó M 1a 2a 3a 68,3 % všech hodnot -v- 95.6 % všech hodnot -v- 99.7 % všech hodnot Tomáš Pavlík /BA \^ Pravidlo ±3 sigma - k čemu to je? ' Lze ho použít pro jednoduché (ale pouze orientační) ověření normality rozdělení pozorovaných dat. Příklad 1: Hladina sérového albuminu u 216 pacientů s cirhózou jater. - Sumarizace pozorovaných hodnot: x = 34,46 g/l s = 5,84 g/l x± Ls = 28,62 -40,30 g/l ^ 73,15 % hodnot x± 2s = 22,78 -46,14 g/l «95,83% hodnot x± 3s = 16,94- 51,98 g/l « 99,07 % hodnot Tomáš Pavlík 68,3 % všech hodnot 95,6 % všech hodnot 99,7 % všech hodnot Biostatistika Pravidlo ±3 sigma - k čemu to je? - Příklad 2: Simulovaná data, 50 hodnot z N(0,1) + 1 odlehlá hodnota (200). ,; Sumarizace pozorovaných hodnot: o n t Histogram of x x = 3,87 s = 28,02 K x±ls = -24,15-31,90 = 98,04 % hodnot * 68,3 % hodnot x ±2s = -52,18 -59,92 = 98,04 % hodnot * 95,6 % hodnot x ±3s = -80,21-87,95 = 98,04 % hodnot * 99 J % hodnot -50 5C 100 15C 2ÚU MU ^""'l, Pravidlo ±3 sigma - k čemu to je? Pravidlo 3 sigma můžeme použít pro identifikaci odlehlých hodnot. Pravidlo 3 sigma můžeme použít pro orientační ověření normality dat. Tomáš Pavlík Biostatistika Chí-kvadrát rozdělení Vzniká jako součet druhých mocnin k nezávislých náhodných veličin se standardizovaným normálním rozdělením, N(0,1). Konstanta /c je nazývána počet stupňů volnosti. X, ~ N(0,l) ^Q = fjX?^Q~X2(k) 1=1 Velký význam v teoretické statistice: Výpočet intervalu spolehlivosti pro rozptyl Testování hypotéz o nezávislosti kvalitativních dat i; Testy dobré shody 0 2 4 6 8 Tomáš Pavlík Biostatistika Studentovo ŕ rozdělení Charakterizuje rozdělení průměru jako odhadu střední hodnoty veličiny s normálním rozdělením, v případě, že neznáme rozptyl (což je téměř vždy). Vzniká jako podíl dvou nezávislých veličin, jedné s rozdělením N(0,1) a druhé s rozdělením x2M- Parametrem f rozdělení je opět počet stupňů volnosti k. X~N{0,\\Q~X\k)^T = X Q/k -> T ~ t{k) * Lze ho chápat jako aproximaci normálního rozdělení pro malé vzorky, pro velké velikosti souborů konverguje k normálnímu rozdělení. ■*Teoretický základ f testu. Tomáš Pavlík IBA ML Biostatistika Log-normální rozdělení Náhodná veličina V má log-normální rozdělení, kdyžX=ln(V) má normální rozdělení. A naopak, když X má normální, pak /=exp(X) má log-normální. Hustota: f(x;ju, 0 Normální rozdělení - aditivní efekt faktorů Log-normální rozdělení - multiplikativní efekt faktorů ,; Řada jevů v přírodě se řídí log-normálním rozdělením: délka inkubační doby infekčního onemocnění, abundance druhů, řada krevních parametrů (např. sérový bilirubin u pacientů s cirhózou), počet bakteriálních buněk v daném objemu,... Tomáš Pavlík IBA \^ ML Biostatistika Binomické rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém experimentu je stejná pravděpodobnost výskytu události a je p = 0. Pravděpodobnostní funkce: P(X = k) = Ok{\-0) n-k -Základ binomických testů pro srovnávání výskytu sledovaných událostí v populaci nebo mezi populacemi. Tomáš Pavlík Biostatistika Poissonovo rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (parametr A). ^Jedná se o zobecnění binomického rozdělení pro «^oo a p —> 0 . Äxe~Ä * Pravděpodobnostní funkce: P(X = x) = px(x;Ä) =--,x>0 x\ Střední hodnota, rozptyl: EX = X, DX = Ä * Příklady: průměrný výskyt mutací bakterií na 1 Petriho misku, počet krvinek v poli mikroskopu, počet žížal vyskytujících se na 1 m2, počet pooperačních komplikací během určitého časového intervalu po výkonu. Tomáš Pavlík Biostatistika Poissonovo rozdělení-vliv Ä P(x) = 0,01 4 G B 10 12 14 16 1.0 0.9 -| 0.5 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 1B 20 X P(x) X = 0,1 0 2 4 6 B 10 12 14 16 1B 20 X 1.0 0.9 4 0.B 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 P(x) X = 0,5 0 2 4 6 B 10 12 14 16 1B 20 X P(x) X= 1 L 1.0 0.9 O.B 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 4 6 B 10 12 14 16 1B 20 X P(x) X = 5 .1 4 6 B 10 12 14 16 1B 20 X 1.0 0.9 O.B 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 P(x) A — 10 llllll U.. 4 6 B 10 12 14 16 1B 20 X Tomáš Pavlík IBA Biostatistika Exponenciální rozdělení Spojité rozdělení, které popisuje délky časových intervalů mezi jednotlivými událostmi Poissonova procesu. Popisuje tedy časový interval mezi událostmi, když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (parametr A). - Hustota: fx(x'^) = ,x > 0 * Střední hodnota, rozptyl: EX = l/A,DX = l/A2 ^ Význam v analýze přežití, je to „nejjednodušší" modelové rozdělení pro délku doby do výskytu sledované události - předpokládá totiž konstantní intenzitu (systém nemá paměť). Zobecněním jsou další rozdělení: Weibullovo, Gamma. Tomáš Pavlík Biostatistika Bimodální rozdělení Představuje většinou problém, neboť se zřejmě jedná o směs dvou souborů s unimodálním rozdělením. - Bimodální rozdělení má např. tento tvar: Společná výška mužů a žen Existuje ±3 sigma i u asymetrických rozdělení? - Pro nenormální rozdělení existuje pomůcka v podobě obecného pravidla -Čebyševovy nerovnosti: Máme-li náhodnou veličinu X se střední hodnotou u. a a konečným rozptylem o2, pak pro libovolné reálné číslo k> 0 platí: P(\X-n\>ka)<\ mu Tomáš Pavlík irK ilMJ ^ Biostatistika * BA \í,„a ^ 4. Transformace náhodných veličin Transformace náhodné veličiny Transformací náhodné veličiny X rozumíme aplikaci matematické funkce g tak, že vzniká nová náhodná veličina (tzv. transformovaná) Y= g(X). "*Nová veličina nabývá nových hodnot -> má také jiné rozdělení pravděpodobnosti -> je třeba ho najít (hustotu, pravděpodobnostní funkci). * S transformací se mění škála - mění se i interpretace „vzdáleností" mezi jednotlivými hodnotami. Tomáš Pavlík Biostatistika Transformace náhodné veličiny * Spojitá veličina: chceme najít hustotu f^y). FY{y) = P{Y (y))) = ~fx(g~l 00)^g~l(y), y e R- dy dy dy Pro g(x) jakoukoliv: fY (y) = fx (g~l (y)) ^- g~l (y),ye R. dy - Diskrétní veličina: chceme najít pravděpodobnostní funkci pYM- pr(y) = P(Y = y) = P(g(X) = y) = P(Xeg-l(y))= £px(x), y eR. xeg l(y) Tomáš Pavlík ll^Jj Biostatistika Transformace náhodné veličiny - příklad i-A Máme rozdělení náhodné veličiny X dáno tabulkou a chceme najít rozdělení pravděpodobnosti transformované náhodné veličiny Y = X2- 1. X -2 -1 0 1 2 p(x) 0,1 0,25 0,15 0,3 0,2 I X -2 -1 0 1 2 p(x) 0,1 0,25 0,15 0,3 0,2 y 3 0 -1 0 3 p(y) 0,3 0,55 0,15 - 1 ■ 1 Tomáš Pavlík 4jJa" lIMIl Biostatistika IBA X,, ^ Význam transformací pro zpracování dat ,; Teoretické vlastnosti transformovaných náhodných veličin nám dávají nástroj pro práci s pozorovanými daty. * Transformace můžeme použít pro následující cíle: 1. Normalizaci pozorovaných hodnot 2. Standardizaci normálních hodnot 3. Stabilizaci rozptylu pozorovaných hodnot-teď vynecháme 4. Lepší interpretaci pozorovaných hodnot Tomáš Pavlík Biostatistika 1. Normalizace pozorovaných hodnot ^Normalita pozorovaných hodnot je silný předpoklad řady statistických metod, který musí být splněn, aby výsledky byly interpretovatelné! Hodnocení normality dat - vizuálně, na základě testu. * Nenormální data je nutné transformovat nebo použít test bez předpokladu normality. Logaritmická transformace Y= ln(X) ^Odmocninová transformace K=sqrt(X) Box-Coxova transformace