Testování- typ dat Spojitá čísla - T test, Mann-Whitney test, Wilcoxon test, Znaménkový test atd. Binární data? Kategoriální data? - Výše zmíněné testy nelze použít - Základní přístupy testování lze ovšem použít i na tato data • Nulová a alternativní hypotéza • One sample a two sample testy Analýzy na binomickém rozložení Analýzy na Poissonově rozložení Analýza kontingenčních tabulek ^v VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ rttA Binomické rozložení - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Alternativní rozložení n(x) = n pro x = 1 n(x) = 1 - n pro x = o n(x) = 0 jinak X= 1 .jev n VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Binomické rozložení X..... celkový počet nastání jevu v n nezávislých pokusech E(x)= n . n D(x)= n .n(1-n) n- p jediný parametr distribuce určuje tvar distribuce n = 0,5 n = o,i J_L VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Binomické rozložení - model pro zkoumání výskytu sledovaného jevu n.....počet nezávislých opakování (dotazů) X.....počet lidí s jistým symptomem r znamená celkový počet nastání jevu v n nezávislých experimentech H p ~ TT .. jediný parametr binomického rozložení p .... relativní četnost nastání jevu p..........určuje tvar distribuce r: 0 n n = 0,5 7T = oa h n n n X X as VYUKA: Biostatistika - základní kurz Binomická proměnná X CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA Binomické rozložení jako model Jev: narození chlapce ľl = 0,5 n : rodina s 5 dětmi r: 0,1,2,3,4,5 chlapců P(r) = fn}pV(l-Pr>=^%.p'.q [^rj r!(n-rj! (n-r) r = 0 r= 1 (0! 5!)(0?5)0(0?5)5 = 0'°31 5 ! FTTí) (0,5) (0,5)4 = 0,15625 r = 2: P(r) = 0,3125 r = 3: P(r) = 0,3125 r = 4: P(r) = 0,15625 r = 5: P(r) = 0,031 X: Binomická proměnná Střed rozložení: Rozptyl: ^)=n-p D(x) = n- p- (1 -p) Příklad: n = 100 respondentů r = 20 má symptom E(x) = n- p = 20 je střed rozložení a nejpravděpodobnější hodnota as VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ r*JtA Binomické rozložení jako model P(x = r)= ,/- ,,-pr -q(n-r) r ! (ji - r )\ q= 1 -p 0,3 0,25- 0,2 0,15 0,1 0,05 0 n = 10 ■ P = 0,3 0,3- 0,25- 0,2 - 0,15- 0,1 0,05- ^ I. U^ 0 12 3 4 5 6 7 9 10 n = 50 0,2-0,18 - p = 0,1 0,16 - 0,14 - 0,12 - 0,1 - 0,08 - n 0,06 - 0,04 - 0,02 - o- n III II L. n = 30 p = 0,3 10 15 20 25 30 n = 50 0,12- p = 0,5 01 - 0,08- 0,06- 0,04- I 0,02-n- J II n P 100 0,3 Jl 0 10 20 30 40 50 60 70 80 90 100 n P = 50 = 0,9 0,2 -, 0,18 -0,16 -0,14 -0,12 - 0,1 -0,08 -0,06 -0,04 -0,02 - 0 5 10 15 20 25 30 35 40 45 50 0 5 10 15 20 25 30 35 40 45 50 0 5 10 15 20 25 30 35 40 45 50 ^l Í as VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA Aplikace binomického rozložení Výskyt krevní skupiny B v určité populaci: p = 0,08 Number in blood group B Probability B B 2 not B B 1 B not B 1 not B not B 0 0,0064 0,0736 0,0736 0,8464 -Q CO -Q P 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 I Binomial distribution of number of people out of two in blood group B Number: blood group B in 2 cases as £» (0 P -Q CD -Q O 0,5 0,4 0,3 0,2 0,1 Binomial distribution showing the number of subjects out of ten in blood group B based on the probability of being in in blood group B of 0,08. U U U D 01 23456789 10 0,16 n Number of subjects 0,14-0,12 - 0,1-0,08-0,06-0,04-0,02- 0 í Binomial distribution showing the number of subjects out of 100 in blood group B based on the probability of being in in blood group B of 0,08. htnnmnnmi ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■i 0 10 20 30 40 50 60 70 80 90 100 Number of subjects VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA Aplikace binomického rozložení Populace: 60% jedinců má zvýšenou hladinu cholesterolu Výběr: 5 lidí I. Kolik lidí má ve výběru vyšší hladinu cholesterolu ? II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu cholesterolu ? ~ Tzn. Výběr přesně odpovídá dané populaci ? P(x) / \ P(3) = ? / / f / i \ t \ _L 1 1 \ \ i • i / / / \ / \ / Jaká je P, že většina jedinců (tedy minimálně 3) má *>• _. * vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň obecně odpovídá zkoumané populaci ? SI VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Aplikace binomického rozložení Populace: 60% jedinců má zvýšenou hladinu cholesterolu Výběr: 5 lidí I. Kolik lidí má ve výběru vyšší hladinu cholesterolu ? n. p = 5 . 0,6 = 3 lidé ~ E(x) n . p (1-p) = 1,2 - D(x) II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu cholesterolu ? ~ Tzn. Výběr přesně odpovídá dané populaci ? P(3) = ? P(3) = 5! 3!(5 - 3) ! - • (0,6)3 • (0,4)2 = 0,346 P(3) = 35% Jaká je P, že většina jedinců (tedy minimálně 3) má vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň obecně odpovídá zkoumané populaci ? P(X > 3) = P(3) + P(4) + P (5) = 0,346 + 0,259 + 0,078 = 68 % SI VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ rnA Odhad parametru n binomického rozložení Při vícenásobném odhadu se parametr II chová jako normálně rozložen 1 p U malých nebo velkých hodnot p (II) je však předpoklad normality omezen as VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ rnA Odhad parametru n binomického rozložení ^^^^^^^H /. vztahy ^^^^^^^^H VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Odhad parametru n binomického rozložení //. aproximace X: % jedinců s daným znakem n = 100 jedinců r = 60; p = 0,6 s,p = 0,049 Interval spolehlivosti: 95 % Z 0,975 - 1 >96 0,6 -1.96 • 0,049 < n < 0.6 +1.96 • 0,049 0,504 < 7t < 0,697 P(0,504<^< 0,697) > 0,95 VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Odhad parametru p binomického rozložení Intervalový odhad bez aproximací na normální rozložení -I. Vztahy A = r + {n-r + \)-Ft (n ;^) _i> spodní limit intervalu vx=2(n-r + l); v2=2r (r + l)-F^> L - 2 v[=2(r + l) = v2+2 Á v'2 =2(n-r) = vl-2 L-í> horní limit intervalu P^^TT^L^^l- a VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA Odhad parametru p binomického rozložení Intervalový odhad bez aproximací na normálni rozložení - II. Příklad: Náhodný vzorek n = 200 jedinců. Zjištěno pouze r = 4 jedinci bez určitého znaku. 95% interval spolehlivosti = ? Soodní hranice n i v ! = l(n-r + \)= 2(200 -4 + l)=394 v„ =2r = 2-4 = 8 ^>;8) - 3,67 1 /2 ^^= A = 4+ (200 -4 + 1)-3,67 = 0,0055 lorní hranice n [ = 2(r + l)= 10 ; = 2(«-r)= 2(200 -4)= 392 v v F (10; 392 ) _ \-OÍ, = 2,08 (4 + 1)-2,08 2 200 -4 +(4 + 1)-2,08 = 0,051 as VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA Binomické rozložení v datech - shrnutí n(x) 1 n X Pravděpodobnost výskytu hodnot X n opakování jev ANO jev NE Binární podstata původních hodnot Interval spolehlivosti pro ľl VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ S3 VYUKA: Biostatistika-základní kurz sample binomial tesť' CENTRUM BIOSTATISTIKY A ANALÝZ r*JtA Analýza binárních nebo kategoriálních dat I, Binární proměnná (1/0) I 10 J 0: 90 J n: 100 J I P! = 0,1 I ! Po = 0,9 Kategoriální proměnná 1 io ! i M: 40 ! i jM: 50 ! 1 ül 100 ! ! P|ľ = 0,1 i I Pír = 0,4 j ; Pm= = 0,5| VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Analýza binárních nebo kategoriálních dat IL Liší se odhad j) od předpokládané hodnoty P ? Liší se dva nebo více odhadů £ ? - závislé odhady - - nezávislé odhady -^^M Je výskyt kategorií dvou jevů nezávislý ? O Hodnocení relativního rizika z výskytu určitého jevu v rámci skupiny lidí VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ r*JtA Jednovýběrový binomický test (One sample binomial test) H, H, Testová statistika Interval spolehlivosti pn Z > * 1-a p>n p Zi ■a/2 Z = n- jp-w i n-p — n-n -0 f? Mi - £) '«•Mi-£) Korekce na kontinuitu Ho HA Testová statistika Interval spolehlivosti pn T CC , V j , V 2 p = r / n > L, 1 _ ři - r i (r i 1)F a , v j , v 2 p>n p L, SB VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA Test p ? 7i y/ Stromy s pozměněným tvarem koruny n = 9000 jedinců r = 2 250 zmenených jedinců ? Jak je pravděpodobná změna u až 1/3 jedinců? ? _ n ■ p - n -n _ 2250 - 3000 __ V/K1 - P)' n ~ V0'25 -°'75 -9000 ' a = 5%; Z1HXÖ=1,96; Z ^=1,645 Z > Z ^^.........zamítáme H0: p = 0,3 P «0,1 95 % Interval spolehlivosti ... p: (0,241; 0,258) VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ fgi Test p ? 7i Příklad testu bez aproximace na normální rozložení / 12 jedinců bylo zkoumáno pro výskyt určitého znaku, 0 jedinců znak nemělo a Jak hodně se tento výsledek liší od výsledku 6 - 6: tedy od situace, kdy ■ polovina jedinců znak má? a) Využití distribuční funkce r 0 1 2 3 4 5 6 7 8 9 10 11 12 P(r) 0,00024 0,00293 0,01611 0,05371 0,12085 0,19335 0,22559 0,19336 0,12085 0,05371 0,01611 0,00293 0,00024 P (r > 10) = 0,01611 + 0,00393 + 0,00024 = 0,01928 H0: p = 0,5 je tedy značně nepravděpodobná b) Pozorované p = ^®Xi = 0>833 překročilo horní limit 95 % intervalu (ó + l)-2,64 12 spolehlivosti pro p: p = 0,5 : L2 = 12 -6 + (6 + l)-2,64 = 0,755 as VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ra* Dvouvýběrový binomický test (p 1 ? p2) z = Px - p^ P 0 - P) , P C - Z7 ) 7? 1 77 «j + «2 (JPl-JP2)±Z(1. .a 2) V nx n2 VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ / Dvouvýběrový binomický test (pi ? p2) Tento příklad je původní ukázkou testování rozdílů mezi dvěma binomickými populacemi (tedy srovnání dvou odhadů parametru p). Celkem 49 pokusných myší bylo použito k testování toxického preparátu během dvouměsíční kultivace. Následující tabulka obsahuje původní data zároveň s testem nulové hypotézy: Podíl přežívajících jedinců je u zasažené populace stejný. Alive Dead Total Proportion alive Proportion dead Treated 15 9 24 p, = 0,625 q, = 0,375 Not Treated 10 15 25 p? = 0,400 q2 = 0,600 Total 25 24 49 p = 0,510 q = 0,490 z = 0,625 - 0,400 0,225 (0,510) (0,490) (0,510) (0,490) V0>010413 + °>009996 24 + 25 = 1,573 Nezamítáme H0: 0,10 < P < 0,20 Z0,05(2) = t0,05(2) = 1,96 S korekcí na kontinuitu: Z = 15-0,5 10 + 0,5 24 25 0,604 - 0,420 = 1,287 as Z0,05(2) = t0,05(2) = 1,96 VÝUKA: Biostatistika - základní kurz 0,143 0,143 Nezamítáme H0: 0,10 < P < 0,20 CENTRUM BIOSTATISTIKY A ANALÝZ r»A Analýza kontingenčních tabulek - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Test dobré shody - základní teorie Binomické jevy (1/0) [pozorovaná očekávaná četnost " četnost /Cín — očekávaná četnost 2 pozorovaná očekávaná četnost " četnost očekávaná četnost Příklad —• I. jev 1 II. jev 2 J 10 000 lidí hází mincí ^ rub: 4 000 případů (R) líc: 6 000 případů (L) a Lze výsledek považovat za statisticky významně odlišný ■ (nebo neodlisný) od očekávaného poměru R : L = 1 : 1 ? í> S3 2 _ (4000 - 5000 )2 í (6000 - 5000 )2 _ A (i (i) 5000 5000 Tabulková hodnota: Z5J P(a)> P(B) F u as VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ntá 2x2 kontingenční tabulka - příklad (a = 0,05) gen^\ľ Ano Ne S Ano 20 82 102 Ne 10 54 64 S 30 136 166 FA = FB = Fc = 102*30/166= 18,43 102*136/166 = 83,57 11,57 52,43 (20-1^43)2 +(82-83,57f +(10-U57)2 +(54-5^4f 0,423 <;,->= 3,84 () 1$43 83,57 11,57 5^43 d: 33% as Kontingenční tabulka v obrázku c: 49% % Gen: ANO 80 Gen: NE 20 I-------1 VÝUKA: Biostatistika - základní kurz Zemřelí Žijící Zemřelí Žijící CENTRUM BIOSTATISTIKY A ANALÝZ r*JtA R x C kontingenční tabulka Výběr: N lidí ze sociologického průzkumu (delikventi) Jev A: Původ z rozvrácených rodin Jev B: Stupeň zločinnosti I < II < III < IV >^B 1. II. III. IV. ANO a b c d NE e f g h číslo2 Z číslo 1 Stupně volnosti: (R-1)*(C-1) = 1*3 = 3 Fa = číslo 1 • číslo 2 N Tabulky: Z(i-a) Očekávané četnosti: Pa = a a + e Pb = b b + f Pc = c + g Pd = d d + h VYUKA: Biostatistika-základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ /VA Kontingenční tabulk; Příklad 1 / Ověřte na datech z pokusu se 100 květinkami určitého druhu, že barva květů se geneticky štěpí v poměru žlutá : červená = 3:1. H0: Pozorovaná frekvence pro jednotlivé barvy květů jsou vzorkem populace mající poměr mezi žlutými a červenými květy 3 :1. Součet frekvencí u obou barev květů (fj se rovná 100 a pozorované frekvence u kategorií barvy budou srovnány s očekávanými frekvencemi (uvedeny v závorkách): Kategorie barvy Žlutá Červená n poz. 84 16 100 oček. 75 25 2 =y{fpo, -f*} J84-75)2 | (16-25)2 = x Z. f 75 25 = 4320 St. volnosti = n = k-1 = 1 Zamítáme hypotézu shody srovnávaných četností Při testování H0 jsme použili matematický zápis (0,025 < P < 0,05). Z tabulek %2 rozložení vidíme, že pravděpodobnost překročení hranice 2,706 je 0,1 (10 %), což může být stručně zapsáno jako P (X2> 2,706) = 0,10. Dále lze zjistit pro P {j2 > 3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové statistiky j2 = 4,320. Pro tento případ lze tedy psát 0,025 < P (%2 > 4,320) < 0,05; a jednodušeji 0,025 < P < 0,05. Jde v podstatě o přibližné určení hranic chyby 1. druhu. as VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ra* Kontingenční tabulk; Příklad 2 Tento příklad je rozšířením problému z příkladu 1 na srovnání pozorovaných a očekávaných frekvencí pro více kategorií sledovaného znaku: /Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0. žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité n poz. 152 39 53 6 250 oček. 140,6250 46,8750 46,8750 15,6250 y=k-1=3 2 11,37502 7,87502 6,12502 9,62502 r = —-----+ —-----+ —-----+ —-----= 8,972 140,6250 46,8750 46,8750 15,6250 S3 Zamítáme hypotézu shody pozorovaných četností s očekávanými VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ r»A Testy dobré shody - příklad Příklad 3 Složitější příklady řešené srovnáváním frekvencí je možné rozdělit na testování dílčích hypotéz: /Předpokládejme, že chceme pro data z předchozí úlohy testovat hypotézu existence štěpného poměru 9 : 3 : 3 pro první tři kategorie semen: žluté/hladké žluté/vrásčité zelené/hladké n poz. 152 39 53 244 oček. 146,400 48,800 48,800 n=k-1=2 X 5,600 2 146 ,40 9,800 2 4,200 2 + —-----+ —-----= 2,544 48 ,80 48 ,80 Nezamítáme hypotézu shody pozorovaných četností s očekávanými, / Nyní otestujeme hypotézu štěpného poměru kategorií zelené/vrásčité:ostatní typy = 1:15 zelené/vrásčité ostatní n poz. 6 244 25 oček 15,625 234,375 n=k-1=1 2 9,625 2 X = ------------+ 9,625 15 ,625 234 ,375 = 6,324 Zamítáme hypotézu shody pozorovaných četností s očekávanými. ss VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ r»A Test dobré shody pro více kategorií -využití aditivity testu Příklad / U 193 párů dvojčat byly zjištěny následující poměry pohlaví: 56 Ch - Ch 72 Ch - H 65H-H Za předpokladu, že narození chlapečka má stejnou pravděpodobnost jako narození holčičky, lze očekávat poměry pro výše uvedené skupiny = 0,25: 0,5: 0,25. Ověřte tento předpoklad na uvedeném vzorku populace. S193 párů 1/4 : 1/2 : 1/4 očekávané četnosti = 48,25 : 96,50 : 48,25 J(22)= 13,28 Proč lze v předchozím případě očekávat zamítnutí H0? Testujte následující hypotézy: 1) Jsou relativní počty párů se shodným pohlavím ve shodě s očekávanými četnostmi? (ignorujte Ch -H páry) 2) Je relativní četnost kombinace Ch - Ch a H - H párů oproti párům s rozdílným pohlavím ve shodě s očekávanými četnostmi? Z 121 párů 1 : 1 očekávané četnosti = 60,5 : 60,5 Z193 párů 1 : 1 očekávané četnosti = 96,5 : 96,5 Zm = 0,669 Z^ = 12,44 H - H Ch -Ch as VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA Test dobré shody - příklad Města - zatížení exhalacemi - třídy (A > B > C > D) Svět: A:B:C:D=2 : 3 : 6 : 4 Konkrétní země (n = 184 měst): A : B : C : D = 32 : 151 : 182 : 116 H0: shoda fs a Fj a = 0,05 FA: 64,13 FB: 96,19 Fc: 192,39 FD: 128,27 X(3) - _ (32 - 64 ,13 J 64 A3 + + (116 - 128 ,27 J _ 128 ,27 = 49 ,06 Tabulky y2 <"> = y2 (3) = 7 81 yCl-a /C0,95 7>01 Zamítáme hypotézu shody pozorovaných četností s očekávanými. Příspěvek kategorií A, B, C, D k celkové hodnotě y2 ii (n 0/ /o Kiiuiiiiiiiiít___ummmi ■ m VMMMWA WMMMVA A B D VÝUKA: Biostatistika - základní kurz A B C D CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA / Test homogenity více binomických rozložení Jev: Úmrtnost na leukémii Předpoklad: 11 = 0,6 Absolutní četnost jevu označena r= Sledovalo s autorů z s zemí: Autor "i n Pí 1 2 s S ",= N _ 2>, p = - Test homogenity binomických rozložení Po možném sloučení s výběru S X s-\ _ (Zr? Pí - PY,ri) P (i-p) X (i) IV r - N-U\-- jv-n-(i-n) VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ra* Příklad analýzy homogenity binomických četností Pomocí %2 rozložení lze rovněž posuzovat homogenitu většího množství nezávislých pokusů testujících tutéž hypotézu. _k Bylo provedeno 6 nezávislých výběrů z populace mladých mužů, kteří v dětství _^ onemocněli těžkým zánětem mozkových blan. H0: V této populaci se vyskytují praváci a leváci v poměru 1:1. -A. Nalezněte v literatuře příslušné vztahy pro testování homogenity všech šesti ~v výběrových populací a na základě výsledků tohoto testu rozhodněte o dalším postupu. Následující tabulka obsahuje původní data a výsledek testování (v závorkách jsou uvedeny očekávané četnosti): Vzorek Praváci Leváci n X2 St. volnosti 1 3(7) 11 (7) 14 4,5714 2 4(8) 12(8) 16 4,000 3 15(10) 5(10) 20 5,000 4 14(9) 14(9) 18 5,5556 5 13(8,5) 4 (8,5) 17 4,7647 6 17(11) 5(11) 22 6,5455 Xheterogeni ta ~ ^ ^, Z U 3 O v=s-\=5 P < 0.001 Jednoduchým testováním lze zjistit, že všechny testy pro jednotlivé výběry jsou významné, což znamená, že ani v jednom případě nebyla potvrzena shoda očekávaných a pozorovaných četností. Test homogenity štěpného poměru v zkoumaných populacích rovněž vedl k zamítnutí možnosti sloučit jednotlivé výběry a posuzovat je jako celek (kromě testovaného poměru 1 : 1 neexistuje tedy v datech žádný jiný jednotný štěpný poměr mezi oběma vlastnostmi. V případě, že by tento test neprokázal odchylky mezi jednotlivými výběrovými populacemi, bylo by možné jednotlivé odběry sloučit a posuzovat jako homogenní vzorek. VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ rnA %2 test - příklad složitější kontingenční tabulky I. Caffeine consumption and marital status in antenatal patiens (from Martin and Bracken, 1987) Caffeine consumption (mg/day) Marital status 0 1 -150 151 -300 >300 Total Married 652 1537 598 242 3029 Divorced, separed or widowed 36 46 38 21 141 Single 218 327 106 67 718 Total 906 1910 742 330 3888 Caffeine consumption and marital status data Caffeine consumption (mg/day) Marital status 0 1 -150 151 -300 >300 Total Married 22% 51 % 20% 8% 3029(100%) Divorced, separed or widowed 26% 33% 27% 15% 141 (100%) Single 30% 46% 15% 9% 718(100%) Total 23% 49% 19% 8% 3888(100%) VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA %2 test - příklad složitější kontingenční tabulky II. Expected frequencies Caffeine consumption (mg/day) Marital status 0 1 -150 151 -300 >300 Total Married 705,8 1488 578,1 257,1 3029 Divorced, separed or widowed 32,9 69,3 26,9 12,0 141 Single 167,3 352,7 137 60,9 718 Total 906 1910 742 330 3888 Contributions of each cell Caffeine consumption (mg/day) Marital status 0 1 -150 151 -300 >300 Total Married 4,11 1,61 0,69 0,89 7,30 Divorced, separed or widowed 0,30 7,82 4,57 6,82 19,51 Single 15,36 1,88 7,02 0,60 24,86 Total 19,77 11,31 12,28 8,31 51,66 VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA %2 test - příklad frakcionace složitější kontingenční tabulky I r Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy chorob a krevními skupinami u lidí. Konkrétní data jsou uvedena v tabulce: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola Celkem 0 983 383 2892 4258 A 679 416 2625 3720 B 134 84 570 788 Celkem 1796 883 6087 8766 O Vypočítejte testovou charakteristiku pro tuto kontingenční tabulku a O otestujte nulovou hypotézu nezávislosti jevů (%2 = 40,54; 4 st. volnosti) as VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ r*JtA %2 test - příklad frakcionace složitější kontingenční tabulky II. podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní tabulky do podoby procentického zastoupení kategorií: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola 0 983 383 2892 A 679 416 2625 B 134 84 570 Celkem 1796 883 6087 Z této tabulky je patrné: 1. 2. Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a u skupiny nemocných rakovinou žaludku. Pacienti s vředy mají mnohem častěji krevní skupinu 0. as Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje hypotézu o shodné distribuci krevních skupin pro nemocné rakovinou a pro zdravé lidi. *i Sestavte tuto tabulku a otestujte nulovou hypotézu. ? (x2 = 5,64 (2 st. v.), P je přibližně rovna 0,06) VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ rttA yl test - příklad frakcionace složitější kontingenční tabulky III. • Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou a zdravých lidí neboť se vzhledem k distribuci krevních skupin chovají jako homogenní populace. Dalším logickým krokem v podrobné analýze je testování shody relativních četností výskytu krevních skupin A a B mezi kombinovaným vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí nemocných žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0. Výsledkem tohoto testu je %2 = 0,68 (1 st. vol.); P > 0,7. Vzorky pro krevní skupiny A a B lze tedy sloučit do směsného vzorku A + B. • Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to mezi kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem nemocných vředařů (y2 = 34,29; 1 st. vol.). Lze tedy shrnout, že vysoká hodnota původního %2 se 4 st. volnosti byla způsobena zvýšenou četností lidí s krevní skupinou 0 mezi nemocnými žaludečními vředy. VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ rnA ji test - příklad frakcionace složitější kontingenční tabulky IV. Průběh hodnocení lze shrnout do tabulky: r Srovnání St. volnosti X2 0, A, B skupina u pacientů s rakovinou (r) x kontrola (k) 2 5,64 A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k) 1 0,68 0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k) 1 34,29 Celkem 4 40,61 Celkový součet testových statistik %2 (40,61) odpovídá přibližně původní hodnotě %2 (40,54). Což platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme detailním rozborem vyčerpali informační obsah původní kontingenční tabulky a kromě popsané závislosti (zvýšený výskyt krevní skupiny 0 u lidí s žaludečními vředy) jsou jednotlivé kategorie zkoumaných jevů zcela nezávislé. as VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ rnA Kontingenční tabulka 2x2: Řešení při nedostatečné velikosti vzorku Yates' corection Fisher's exact test / H0: Nezávislost jevů Test analyzuje všechny možné 2x2 tabulky, které dávají stejnou sumu řádků a sloupců jako tabulka zdrojová. Algoritmus každé tabulce přiřazuje pravděpodobnost, že taková situace nastane, je-li H0 pravdivá. Spectacle wearing among juvenile delinquents and non-delinquents who failed a vision test (Weindling et al., 1986) Juvenile delinquents Non- deliquents Total Yes 1 5 6 opeciacie wearers No 8 2 10 Total 9 7 16 as VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA Kontingenční tabulka 2x2: Řešení při nedostatečné velikosti vzorku All tables of frequencies which have the same row and column totals Probability associated with each set of frequencies (V) (VI) (VII) 4 2 5 5 5 1 4 6 6 0 3 7 a b C d P (") 0 6 9 1 0,00087 (N) 1 5 8 2 0,02360 ("I") 2 4 7 3 0,15734 (IV) 3 3 6 4 0,36713 (V) 4 2 5 5 0,33042 (VI) 5 1 4 6 0,11014 (VII) 6 0 3 7 0,01049 Total 0,99999 as VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ 2x2 frekvenční tabulka pro párové uspořádání (Mc Nemaťs test - matched variables^ Příklad: Srovnání 2 metod stanovení antigénu v krvi (antigen vždy přítomen) / hL: metoda 1 = metoda 2 Metoda 1 Metoda 2 Frekvence úspěch úspěch 202 úspěch neúspěch 60 neúspěch úspěch 42 neúspěch neúspěch 10 }S = 102 X (J60 - 42 | - 1) (O 102 = 2,83 2 (v=\) _ Tabulky : zí-a = 3>84 Hn nezamítnuta VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ r*JtA Aplikace analýzy 2x2 tabulky pro hodnocení rizika I. Prospektivní studie - odhad relativního rizika Jedinci jsou sledováni prospektivně, zda se vyskytne nějaká vlastnost. VÝBĚR JE DÁN SLOUPCEM PŘIKLAD OBECNĚ Skupina 1 Skupina 2 Znak ANO a b NE c d Riziko: a (a + c) (b + d) a RR = / _ (a + c ) b (b + d) H0: RR = 1 as VÝUKA: Biostatistika - základní kurz Retardace plodu Symetrická Asymetrická Agar skoré ^NIO 2 33 >1 NE 14 58 RR = 2/16 33 /91 2/16=0,13 = 0,345 33/91=0,36 Riziko u "symetrické skupiny" je asi 35 % rizika u asymetrické skupiny SE (in RR )= /------------ V a a + • + — + c b 1 b + d IS: In RR-Z 1-a/2 SE (In RR) In RR + Z M2 . SE (In RR) CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA Aplikace analýzy 2x2 tabulky pro hodnocení rizika II. Retrospektivní studie - "ODDS RATIO" Zcela zásadně odlišný přístup od retrospektivní studie VÝBĚR JE DÁN VLASTNOSTÍ - ŘÁDKEM Není tedy možné analyzovat relativní riziko, protože přípravou řádků můžeme měnit velikost kontrol. OBECNE PŘIKLAD ANO Znak NE Skupina 1 Skupina 2 odds a/c b/d Odds ratio : ale a b e d Vady chrupu ANO NE Plavání >6h 32 118 týdně >6h 17 127 OR = (32/17)/ (118/127)= 2,026 ln (OR)= 0,706 SE (\n(OR))= 0,326 S3 VÝUKA: Biostatistika-základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ru Srovnání dvou relativních četností u párově uspořádaného pokusu (pair - matched groups) Situace: Skupiny nejsou nezávislé OBECNĚ Výskyt jevu Počet Skupina 1 Skupina 2 párů + + a + - b - + c - - d px =(a + b)l n p2 =(a + c)/ n } + + pary Pi-Pi b-c n n V n Z = (b-c)/ y/b + c as PŘÍKLAD Potíže se spaním Frekvence Drogy Kontrola + + 4 + - 3 - + 9 - - 16 Pd = 7/32 pK = 13/32 pK - Pd = (13 - l)l 32 = 0,1875 SE(pK - pD)= 0,113 3-9 Z = ^=== = -113 V3 + 9 (p = 0,08) VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Poissonovo rozložení - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Poissonovo rozložení Celkový počet jevů v n nezávislých pokusech E(x) = n p i ,_, x ^, x n, ; } E (x) = D (x) D(x) = n p J v ' v ' P(r) = — u, r X r\ jU=A= průměrný počet jevů z n pokusů p(X = 0) = e ■m p (X = 3 ) = — u 3 e M - ju (3X2) p(X = 4)= M (4)(3)(2) VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Poissonovo rozložení jako model i -0,9-0,8- 0,7" 0,6" 0,5" 0,4 0,3" 0,2 0,1 i A, = 0,01 0,7 0,6 0,5 0,4 0,3 0,2 0,1 X = 0,1 0,6 0,5 0,4 0,3 0,2 0,1 0 n ^ = 0,5 0123456789 10 0123456789 10 01 23456789 10 0,4-0,35- 0,3-0,25- 0,2-0,15" 0,1- 0,05- 0- n x= 1 A=10 0123456789 10 01234567 0123456789 10111213141516 17181920 as VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ r*JtA Poissonovo rozložení v přírodě existuje Mutace bakterií na inkubačních miskách ö Výskyt jevu v prostoru (počet žížal na určitou plochu pole) Orientační stanovení jevu (při produkci plynu bakteriemi) A + + LJ kJ + The most probable number technique Výskyt jevu v čase (srdeční arytmie v určitých časových intervalech) 1 111 1 -I---------1----------1---------1- cas VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Poissonovo rozložení jako model pro náhodný ^^^^^^^^| výskyt jevů ^^^^^^^^^y Předpoklad: náhodná distribuce jevu mezi studovanými objekty (příp. v čase, v prostoru). a < ju Uniform a > ju Clustered CT = JU Random Poisson Pokud je X spíše větší (~ 5-10), pak Poisson odpovídá spíše binomickému až normálnímu rozložení. as VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA Formální prezentace Poissonova rozložení Př: pokus......10 000 bakterií na misce n = 10 misek Jev: mutace (r=25) X..........průměrný počet mutantů na jednu misku r=25 x^;i=25/10=2,5 95 % IS: O • • 2,5 - 1,96 • J0,25 < Ä < 2,5 + 1,96 • /0,25 1.52 < Á < 3.48 VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Poissonova náhodná proměnná Při měření počtu krvinek změněných určitou chorobou (relativně vzácné) je pozorován zředěný vzorek krve pod mikroskopem v komůrce rozdělené na stejně velká pole. Sledovaná veličina, udávající počet krvinek v i-tém poli může být považována za rozdělenou podle Poissonova rozložení: n = 169 = počet nezávislých pozorování proměnné r = 10 = počet pozorovaných krvinek Jaká je hodnota parametru X Poissonova rozložení a jaká je jeho interpretace ? Jaký je interval 95% spolehlivosti pro parametr X ? Pokud bychom sledovali celkový počet červených krvinek (opět v n = 169 nezávislých políčkách), bylo by i tuto proměnnou možno považovat za rozloženou podle Poissonova rozložení ? Uvažujte celkový počet pozorovaných krvinek jako 2013. Výpočet intervalu spolehlivosti pro X (bez aproximace na normální rozložení) [ Spodní hranice IS : Horní hranice IS ] as VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ r*JtA Poissonova náhodná proměnná Konstantní zářič: n = 2608 časových intervalů (každý 7,5 s) i: počet částic v intervalu (x) s,: pozorovaná četnost intervalů s i částicemi P(x = /) = X -e -x i\ P, Poissonova proměnná: Výborný model pro experimenty, v nichž je během časového průběhu zjišťován počet výskytu určitého jevu i Počet intervalů s právě i zaznamenanými částicemi st teoretické četnosti nPj (si - npt y "Pí 0 57 54,399 0,1244 1 203 210,523 0,2688 2 383 407,361 1,4568 3 525 525,496 0,0005 4 532 508.418 1,0938 5 408 393,515 0,5332 6 273 253,817 1,4498 7 139 140,325 0,0125 8 45 67,882 7,7132 9 27 29,189 0,1642 10 10 17,075 (=P{Š>10}) 11 4 12 2 0,0677 13 0 n = 2608 2608,00 12,8849 as VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ r»A Aplikace Poissonova rozložení Number of crimes per day in three aeras of India during 1978 to 1982(Thrakur and Sharma, 1984) showing observed frequencies (Obs) and expected frequencies using the Poisson distribution (Exp) Number of Full moon days New moon days crimes Obs Exp Obs Exp 40 64 56 19 1 2 0 0 0 1 183 45,2 63,1 44,3 20,7 7,1 2,0 0,5 0,1 0 0 114 56 11 4 0 0 0 0 0 0 183 186 1,40 1,16 112,8 56,4 14,1 2,4 0,3 0 0 0 0 0 186 0,50 0,75 Comparison of distributions of crimes on the new moon days (Thrakur and Sharma, 1984) and number of deaths in a Montreal hospital in 1971 (Zweig and Csank, 1978) n o 1 2 3 4+ Crimes on new moon Deaths per day in days in India Montreal hospital % Frequency % Frequency 61,3 30,1 5,9 2,2 0,5 114 56 11 4 1 60,3 31,0 6,3 2,2 0,3 220 113 23 8 1 Total 100 186 Mean SD 0,505 0,752 100,0 365 0,512 0,736 Expected distribution Poisson (0,51) 60,0 30,6 7,8 1,3 0,2 99,9% as VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ ŕ-RA Poisson distribution: one - sample test Př: Počet hnízd křepelek na dané ploše i i1) Vz't data jako pocházející z populace: n = 8 000 "pod lokalit" r = 28 >* 0,0035 éT16-1628 P(r = 28) =--------— = 0,00192 28! Nechť je srovnávací soubor (předchozí průzkum) Po = 0^0020 /V 8 000 = 16 = M = A \H0: p< Po ~ jU<Í6 ? 2) P(r> 28) = ? < 0,05 => H0 zamítnuta "i [0,00411 ] ) \ r = 28 je příliš velké pro populaci s pc aby r = 28 bylo P > P0? pravděpodobnější _________________________________J L______________________________ VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ rnA