logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Popis binomického rozložení Testování hypotéz binomicky rozložených dat XII. Binomické rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace —Kromě spojitých dat se setkáváme také s daty kategoriálními, jejichž nejjednodušším případem jsou data binární. Binární data jsou popsána binomickým rozložením, od chování binomického rozložení je odvozena popisná statistika binárních dat (procento výskytu jevu), její interval spolehlivosti a binomické testy pro srovnání procentuálního výskytů jevů v různých skupinách. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek P(x) = p pro x = 1 P(x) = 1 - p pro x = 0 P(x) = 0 jinak 0 1 X p 1-p Alternativní rozložení PRAVDĚPODOBNOSTNÍ FUNKCE DISKRÉTNÍHO ROZDĚLENÍ PRAVDĚPODOBNOST „NEÚSPĚCHU“ PRAVDĚPODOBNOST „ÚSPĚCHU“ PROVEDEME JEDNODUCHÝ „POKUS“ logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X ..... celkový počet nastání jevu v n nezávislých pokusech SOUČET ALTERNATIVNÍCH ROZDĚLENÍ E(X)= n . p D(X)= n . p (1-p) p jediný parametr distribuce určuje tvar distribuce Binomické rozložení logo-IBA p .... odhad parametru π Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek π .. jediný parametr binomického rozložení n ..... počet nezávislých opakování experimentu r ..... znamená celkový počet nastání jevu v n nezávislých experimentech r : 0 …… n Binomické rozložení jako model pro zkoumání výskytu sledovaného jevu X: Binomická proměnná Střed rozložení: Rozptyl: logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jev: narození chlapce п = 0,5 n : rodina s 5 dětmi r: 0,1,2,3,4,5 chlapců r = 0 : r = 1 : r = 2: P(r) = 0,3125 r = 3: P(r) = 0,3125 r = 4: P(r) = 0,15625 r = 5: P(r) = 0,031 Binomické rozložení jako model BINOMICKÁ VĚTA BINOMICKÝ KOEFICIENT počet r-členných kombinací z n objektů logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek q = 1 - p n = 10 p = 0,3 n = 30 p = 0,3 n = 100 p = 0,3 0 0,05 0,1 0,15 0,2 0,25 0,3 0 1 2 3 4 5 6 7 8 9 10 n = 50 p = 0,1 n = 50 p = 0,5 n = 50 p = 0,9 Binomické rozložení jako model logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek B not B B not B B B not B not B 0,0064 0,0736 0,0736 0,8464 2 1 1 0 Number in blood group B Probability Binomial distribution of number of people out of two in blood group B Number: blood group B in 2 cases 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0 1 2 Výskyt krevní skupiny B v určité populaci: p = 0,08 0 0,1 0,2 0,3 0,4 0,5 Binomial distribution showing the number of subjects out of ten in blood group B based on the probability of being in in blood group B of 0,08. Number of subjects Binomial distribution showing the number of subjects out of 100 in blood group B based on the probability of being in in blood group B of 0,08. Number of subjects Aplikace binomického rozložení 0 10 20 30 40 50 60 70 80 90 100 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Aplikace binomického rozložení Populace: 60% jedinců má zvýšenou hladinu cholesterolu Výběr: 5 lidí I.Kolik lidí očekáváme ve výběru s vyšší hladinu cholesterolu ? n. p = 5 . 0,6 = 3 lidé ~ E(x) n . p (1-p) = 1,2 ~ D(x) II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu cholesterolu ? ~ Tzn. Výběr přesně odpovídá dané populaci ? P(3) = ? P(3) = 35% III. Jaká je P, že většina jedinců (tedy minimálně 3) má vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň obecně odpovídá zkoumané populaci ? p(x) P(X > 3) = P(3) + P(4) + P (5) = 0,346 + 0,259 + 0,078 = 68 % X logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Při vícenásobném odhadu se odhad parametru π chová jako normálně rozložen j(x) p n1;p1 n2;p2 n3;p3 0 p1 p2 p3 π 1 p 0 1 j(x) p 0 1 U malých nebo velkých hodnot p (π) je však předpoklad normality omezen j(x) Odhad parametru π binomického rozložení π π logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Odhad parametru π binomického rozložení NORMÁLNÍ APROXIMACE 1) Bodový 2) Intervalový – aproximace logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X: % jedinců s daným znakem n = 100 jedinců r = 60; Interval spolehlivosti : 95 % Z 0,975 = 1,96 Odhad parametru π binomického rozložení: příklad I logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Intervalový odhad bez aproximací na normální rozložení spodní limit intervalu horní limit intervalu Odhad parametru π binomického rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Náhodný vzorek n = 200 jedinců. Zjištěno pouze r = 4 jedinci bez určitého znaku. 95% interval spolehlivosti = ? Spodní hranice Horní hranice Odhad parametru π binomického rozložení: příklad II logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Binomické rozložení v datech: vizualizace Binární podstata původních hodnot jev ANO n opakování jev NE Interval spolehlivosti pro П I. П II. 0 ANO NE logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Liší se odhad p od předpokládané hodnoty P ? Liší se dva nebo více odhadů p ? Je výskyt kategorií dvou jevů nezávislý ? Hodnocení relativního rizika z výskytu určitého jevu v rámci skupiny lidí - závislé odhady - - nezávislé odhady - II. I. III. IV. Statistické testování binomických dat jednovýběrový test dvouvýběrový test logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jednovýběrový binomický test H0 HA Testová statistika Kritický obor p Ł P p > P z z > z 1-a p ł P p < P z z < z a p = P p ą P z |z| > z 1-a/2 H0 HA Testová statistika Interval spolehlivosti p Ł P p > P p = r / n > L1 p ł P p < P p < L2 p = P p ą P L1; L2 (F a/2; F 1-a/2) p < L2 v p > L1 Korekce na kontinuitu logo-IBA ü Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test p ? p: PŘÍKLAD 1 Stromy s pozměněným tvarem koruny n = 9 000 jedinců r = 2 250 změněných jedinců Jak je pravděpodobná změna u až 1/3 jedinců? ? a = 5 %; Z 1-a/2 = 1,96; Z 1-a = 1,645 Z < -Z 1-a/2 ………zamítáme H0: p < 0,01 95 % Interval spolehlivosti … p: (0,241; 0,258) ? Příklad testu s aproximací na normální rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test p ? p: PŘÍKLAD 2 Příklad testu bez aproximace na normální rozložení 12 jedinců bylo zkoumáno pro výskyt určitého znaku, 10 jedinců znak nemělo Jak hodně se tento výsledek liší od výsledku 6 - 6: tedy od situace, kdy polovina jedinců znak má? a) Využití distribuční funkce P (r ³ 10) = 0,01611 + 0,00393 + 0,00024 = 0,01928 H0: p = 0,5 je tedy značně nepravděpodobná b) Pozorované překročilo horní limit 95 % intervalu spolehlivosti pro p: r 0 1 2 3 4 5 6 7 8 9 10 11 12 P(r) 0,00024 0,00293 0,01611 0,05371 0,12085 0,19335 0,22559 0,19336 0,12085 0,05371 0,01611 0,00293 0,00024 Kvantil Fischerova rozdělení F 1-α, 14, 12 = 2,64 H0 HA p = 0,5 p > 0,5 logo-IBA Pravděpodobnost narození chlapce je asi 1/2. Máte zhodnotit výsledky průzkumu populace, která žije v silně poškozeném životním prostředí. Průzkum se týká 1000 náhodně vybraných rodin a zjištěný podíl narozených chlapců je 0.41. Jaké jsou vaše závěry o této populaci? Jak se váš odhad zpřesní, když použijete vzorek n = 10 000 rodin při zachování odhadu p = 0.41? Použijeme jednovýběrový binomický test s nulovou hypotézou H0: p=π, hladina významnosti α=0,05 testová statistika a příslušný kvantil protože NULOVOU HYPOTÉZU ZAMÍTÁME. Chlapci se ve zkoumavé populaci nerodí s pravděpodobností 0,5. interval spolehlivosti pokud použijeme n=10 000, bude int. spolehlivosti užší Test p ? p: PŘÍKLAD 3 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový binomický test (p1 ? p2) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový binomický test (p1 ? p2) Tento příklad je ukázkou testování rozdílů mezi dvěma binomickými populacemi (tedy srovnání dvou odhadů parametru p). Celkem 49 pokusných myší bylo použito k testování léčivého preparátu během dvouměsíční terapie. Následující tabulka obsahuje původní data zároveň s testem nulové hypotézy: Podíl přežívajících jedinců je u léčené populace stejný. Kvantil standardizovaného normálního rozdělení = KRITICKÁ HODNOTA TESTU Z0,05(2) = 1,96 Nezamítáme H0: p = 0,116 S korekcí na spojitost: Nezamítáme H0: p = 0,198 Alive Dead Total Proportion alive Proportion dead Treated 15 9 24 Not Treated 10 15 25 Total 25 24 49 Korekce na spojitost, vhodná u malých vzorků