11. Analýza závislosti dvou veličin 11.1. Motivace Při zpracování dat se velmi často setkáme s úkolem zjistit, zda dvě náhodné veličiny jsou stochasticky nezávislé. Např. nás může zajímat, zda ve sledované populaci je barva očí a barva vlasů nezávislá nebo zda počet dnů absence a věk pracovníka jsou nezávislé.Testování hypotézy o nezávislosti se provádí různými způsoby podle toho, jakého typu jsou dané náhodné veličiny -- zda jsou nominální, ordinální, intervalové či poměrové. Zpravidla chceme také zjistit intenzitu případné závislosti sledovaných dvou veličin. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od -1 do 1). Čím je takový koeficient bližší 1 (resp. -1), tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. 11.2. Testování nezávislosti nominálních veličin 11.2.1. Popis testu Nechť X,Y jsou dvě nominální náhodné veličiny (tj. obsahová interpretace je možná jenom u relace rovnosti). Nechť X nabývá variant x[1], ..., x[r] a Y nabývá variant y[1], ..., y[s]. Pořídíme dvourozměrný náhodný výběr rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní náhodný vektor (X, Y). Zjištěné absolutní četnosti njk dvojice variant (x[j], y[k]) uspořádáme do kontingenční tabulky: y y[ .. y[ nj 1] . s] . x nj k x[1] n1 .. n1 n1 1 . s . .. .. .. .. . . . . x[r] nr .. nr nr 1 . s . n.k n. .. n. n 1 . s Testujeme hypotézu H0: X, Y jsou stochasticky nezávislé náhodné veličiny proti H1: X, Y nejsou stochasticky nezávislé náhodné veličiny. Testová statistika má tvar: . Platí-li H0, pak K se asymptoticky řídí rozložením ÷2((r-1)(s- 1)). Hypotézu o nezávislosti veličin X, Y tedy zamítáme na asymptotické hladině významnosti á, když K ? ÷21-á((r-1)(s-1)). 11.2.2. Podmínky dobré aproximace Výraz se nazývá teoretická četnost. Rozložení statistiky K lze aproximovat rozložením ÷2((r-1)(s-1)), pokud teoretické četnosti aspoň v 80% případů nabývají hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2. Není-li splněna podmínka dobré aproximace, doporučuje se slučování některých variant. 11.2.3. Měření síly závislosti Cramérův koeficient: , kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je 1, tím je těsnější závislost mezi X a Y, čím blíže je 0, tím je tato závislost volnější. 11.2.4. Příklad V sociologickém průzkumu byl z uchazečů o studium na vysokých školách pořízen náhodný výběr rozsahu 360. Mimo jiné se zjišťovala sociální skupina, ze které uchazeč pochází a typ školy, na kterou se hlásí. Výsledky jsou zaznamenány v kontingenční tabulce: Typ školy Sociální skupina nj. I II III IV univerzit 50 30 10 50 140 ní technický 30 50 20 10 110 ekonomick 10 20 30 50 110 ý n.k 90 100 60 110 360 Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti typu školy a sociální skupiny. Vypočtěte Cramérův koeficient. Řešení: , r = 3, s = 4, ÷20,95(6) = 12,6. Protože K ? 12,6, hypotézu o nezávislosti typu školy a sociální skupiny zamítáme na asymptotické hladině významnosti 0,05. Cramérův koeficient: . 11.2.5. Čtyřpolní tabulky Nechť r = s = 2. Pak hovoříme o čtyřpolní kontingenční tabulce a používáme označení: n11 = a, n12 = b, n21 = c, n22 = d. X Y nj. y[1] y[2] x[1] a b a+b x[2] c d c+d n.k a+c b+d n Pro tuto tabulku navrhl R. A. Fisher přesný (exaktní) test nezávislosti známý jako Fisherův faktoriálový test. (Je popsán např. v knize K. Zvára: Biostatistika, Karolinum, Praha 1998.) STATISTICA poskytuje p-hodnotu pro tento test. Jestliže vyjde p ? á, pak hypotézu o nezávislosti zamítáme na hladině významnosti á. Ve čtyřpolních tabulkách používáme charakteristiku , která se nazývá podíl šancí (odds ratio). Můžeme si představit, že pokus se provádí za dvojích různých okolností a může skončit buď úspěchem nebo neúspěchem. Výsledek okolnosti nj. pokusu I II úspěch a b a+b neúspěch c d c+d n.k a+c b+d n Poměr počtu úspěchů k počtu neúspěchů (tzv. šance) za 1. okolností je , za druhých okolností je . Podíl šancí je . Pomocí 100(1-á)% asymptotického intervalu spolehlivosti pro podíl šancí lze na asymptotické hladině významnosti á testovat hypotézu o nezávislosti nominálních veličin X a Y. Asymptotický 100(1-á)% interval spolehlivosti pro přirozený logaritmus skutečného podílu šancí má meze: . Jestliže po odlogaritmování nezahrne interval spolehlivosti 1, pak hypotézu o nezávislosti zamítneme na asymptotické hladině významnosti á. 11.2.6. Příklad U 135 uchazečů o studium na jistou fakultu byl hodnocen dojem, jakým zapůsobili na komisi u ústní přijímací zkoušky. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že přijetí na fakultu nezávisí na dojmu u přijímací zkoušky. přijetí dojem nj. dobrý špatný ano 17 11 28 ne 39 58 97 n.k 56 69 125 Řešení: Protože interval (0,972; 5,433) obsahuje číslo 1, na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti dojmu u přijímací zkoušky a přijetí na fakultu. 11.3. Testování nezávislosti ordinálních veličin 11.3.1. Popis testu Nechť X,Y jsou dvě ordinální náhodné veličiny (tj. obsahová interpretace je možná jenom u relace rovnosti a relace uspořádání). Pořídíme dvourozměrný náhodný výběr (X1, Y1), ..., (Xn, Yn) z rozložení, jímž se řídí náhodný vektor (X, Y). Označíme Ri pořadí náhodné veličiny Xi a Qi pořadí náhodné veličiny Yi, i = 1, ..., n. Testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny (resp. proti levostranné alternativě H1: mezi X a Y existuje nepřímá pořadová závislost resp. proti pravostranné alternativě H1: mezi X a Y existuje přímá pořadová závislost). Testová statistika se nazývá Spearmanův koeficient pořadové korelace a má tvar: . H0 zamítáme na hladině významnosti á a) ve prospěch oboustranné alternativy, když -rS-? rS,1-á(n) b) ve prospěch levostranné alternativy, když rS ? - rS,1-á(n) c) ve prospěch pravostranné alternativy, když rS ? rS,1-á(n), kde rS,1-á(n) je kritická hodnota, kterou pro á = 0,05 nebo 0,01 a n ? 30 najdeme v tabulkách. Pro n > 30 H0 zamítáme na asymptotické hladině významnosti á ve prospěch oboustranné alternativy, když (analogicky pro jednostranné alternativy). Spearmanův koeficient rS současně měří sílu pořadové závislosti náhodných veličin X, Y. Nabývá hodnot z intervalu . Čím je jeho hodnota bližší -1 (resp.1), tím je silnější nepřímá (resp. přímá) pořadová závislost veličin X, Y. Čím je jeho hodnota bližší 0, tím je slabší pořadová závislost veličin X, Y. 11.3.2. Příklad Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší pořadí dostal nejtěžší případ. Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. 4 1 6 5 3 2 7 lékaře Hodnocení 2. 4 2 5 6 1 3 7 lékaře Vypočtěte Spearmanův koeficient rS a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou lékařů jsou pořadově nezávislá. Řešení: . Kritická hodnota: rS,0,95(7) = 0,745. Protože 0,857 ? 0,745, nulovou hypotézu zamítáme na hladině významnosti 0,05. 11.4. Testování nezávislosti intervalových či poměrových veličin 11.4.1. Pearsonův koeficient korelace V teorii pravděpodobnosti byl zaveden Pearsonův koeficient korelace náhodných veličin X, Y (které jsou aspoň intervalového charakteru) vztahem . Připomeneme jeho vlastnosti: a) R(X,X) = 1 b) R(X,Y) = R(Y,X) c) R(a + bX, c + dY) = sgn(bd)R(X,Y) d) -1 ? R(X,Y) ? 1 a rovnosti je dosaženo tehdy a jen tehdy, když existují reálné konstanty a, b, b ? 0 tak, že P(Y = a + bX) = 1, přičemž R(X,Y) = 1 pro b > 0 a R(X,Y) = -1 pro b < 0. Z těchto vlastností plyne, že R(X,Y) je vhodnou mírou těsnosti lineárního vztahu náhodných veličin X, Y. 11.4.2. Výběrový koeficient korelace R(X,Y) většinou nemůžeme počítat přímo, protože to vyžaduje znalost simultánního rozložení náhodného vektoru (X, Y). V praxi jsme většinou odkázáni na náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí Ö(x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit: výběrové průměry , , výběrové rozptyly , , výběrovou kovarianci a s jejich pomocí zavedeme výběrový koeficient korelace (pro S1S2 > 0). Vlastnosti a), b), c), d) koeficientu korelace se přenášejí i na výběrový koeficient korelace. 11.4.3. Koeficient korelace dvourozměrného normálního rozložení Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou , přičemž ě1 = E(X), ě2 = E(Y), ó12 = D(X), ó22 = D(Y), ń = R(X,Y). Marginální hustoty jsou: , . Je-li ń = 0, pak pro , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Je-li ń ? 0, jsou náhodné veličiny X, Y stochasticky závislé. Je-li ń > 0, říkáme, že jsou kladně korelované, je-li ń < 0, říkáme, že jsou záporně korelované. Upozornění: V dalším textu budeme předpokládat, že náhodný výběr (X1, Y1), ..., (Xn, Yn) pochází z dvourozměrného normálního rozložení s parametry ě1, ě2, ó12, ó22, ń 11.4.4. Testování hypotézy o nezávislosti Testujeme H0: ń = 0 proti oboustranné alternativě H1: ń ? 0 (resp. proti levostranné alternativě H1: ń < 0 resp. proti pravostranné alternativě H1: ń > 0). Testová statistika má tvar: . Platí-li nulová hypotéza, pak T ~ t(n-2). Kritický obor pro test H0 proti oboustranné alternativě: , proti levostranné alternativě: a proti pravostranné alternativě: . H0 zamítáme na hladině významnosti á, když . Příklad: Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. 80 50 36 58 42 60 56 68 testu Počet bodů 65 60 35 39 48 44 48 61 ve 2. testu Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně korelované. Řešení: Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového diagramu. Tečky by měly vytvořit elipsovitý obrazec. Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti. Testujeme H0: ń = 0 proti pravostranné alternativě H1: ń > 0. Výpočtem zjistíme: R12 = 0,6668, T = 2,1917. V tabulkách najdeme t0,95(6) = 1,9432. Kritický obor: . Protože , hypotézu o neexistenci kladné korelace výsledků z 1. a 2. testu zamítáme na hladině významnosti 0,05. 11.4.5. Porovnání koeficientu korelace s danou konstantou Nechť c je reálná konstanta. Testujeme H0: ń = c proti H1: ń ? c. (Tento test se provádí např. tehdy, když experimentátor porovnává vlastnosti svých dat s vlastnostmi uváděnými v literatuře.) Test je založen na statistice , která má za platnosti H0 pro n ? 10 asymptoticky rozložení N(0,1), přičemž je tzv. Fisherova Z-transformace. Kritický obor pro test H0 proti oboustranné alternativě tedy je . H0 zamítáme na asymptotické hladině významnosti á, když . Příklad: U 600 vzorků rudy byl stanoven obsah železa dvěma analytickými metodami s výběrovým koeficientem korelace 0,85. V literatuře se uvádí, že koeficient korelace těchto dvou metod má být 0,9. Na asymptotické hladině významnosti 0,05 testujte hypotézu H0: ń = 0,9 proti H1: ń ? 0,9. Řešení: , , u0,975 = 1,96, . Protože , H0 zamítáme na asymptotické hladině významnosti 0,05. 11.4.6. Porovnání dvou korelačních koeficientů Nechť jsou dány dva nezávislé náhodné výběry o rozsazích n a n* z dvourozměrných normálních rozložení s korelačními koeficienty ń a ń*. Testujeme H0: ń = ń* proti H1: ń ? ń*. Označme R12 výběrový korelační koeficient 1. výběru a R12* výběrový korelační koeficient 2. výběru. Položme a . Platí-li H0, pak testová statistika má asymptoticky rozložení N(0,1). Kritický obor pro test H0 proti oboustranné alternativě tedy je . H0 zamítáme na asymptotické hladině významnosti á, když . Příklad: Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů trpících určitou ledvinovou chorobou. U 100 zdravých jedinců činil výběrový korelační koeficient mezi koncentracemi obou látek 0,65 a u 142 osob trpících zmíněnou chorobou byl 0,37. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že korelační koeficienty v obou skupinách se neliší. Řešení: , , u0,975 = 1,96, . Protože , H0 zamítáme na asymptotické hladině významnosti 0,05. 11.4.7. Interval spolehlivosti pro korelační koeficient Jestliže dvourozměrný náhodný výběr rozsahu n pochází z dvourozměrného normálního rozložení, jehož korelační koeficient se příliš neliší od nuly (-ń| < 0,5) a rozsah výběru je dostatečně velký (n ? 100), lze odvodit, že 100(1-á)% interval spolehlivosti pro ń má meze . Nejsou-li uvedené podmínky splněny, pak nelze tento vzorec použít, protože rozložení výběrového korelačního koeficientu je příliš zešikmené. V takovém případě využijeme toho, že náhodná veličina má i při malém rozsahu výběru přibližně normální rozložení se střední hodnotou (2. sčítanec lze při větším n zanedbat) a rozptylem . Standardizací veličiny Z dostaneme veličinu , která má asymptoticky rozložení N(0,1). Tudíž 100(1- á)% asymptotický interval spolehlivosti pro bude mít meze . Interval spolehlivosti pro ń pak dostaneme zpětnou transformací. Poznámka: Jelikož Z = arctgh R12, dostáváme R12 = tgh Z a meze intervalu spolehlivosti pro ń můžeme psát ve tvaru , přičemž . Příklad: Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi počtem dní absence za rok (veličina Y) a věkem pracovníka (veličina X). Proto náhodně vybral údaje o 10 pracovnících. Č.pra 1 2 3 4 5 6 7 8 9 10 c. X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 11 5 8 Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 10 z dvourozměrného normálního rozložení, vypočtěte výběrový korelační koeficient a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný korelační koeficient ń. Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Testujeme H0: ń = 0 proti H1: ń ? 0. Vypočítáme R12 = - 0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Testová statistika: T = -7,3053, kvantil t0,975(8) = 2,306, kritický obor . Jelikož , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y. Vypočítáme . Meze 95% asymptotického intervalu spolehlivosti pro ń jsou , tedy -0,9842 < ń < -0,7336 s pravděpodobností přibližně 0,95. Příklady k 11. kapitole Příklad 1.: Testování nezávislosti nominálních veličin Na hladině významnosti 0,05 testujte hypotézu o nezávislosti pedagogické hodnosti a pohlaví a vypočtěte Cramérův koeficient, jsou-li k dispozici následující údaje: pohlaví pedagogická hodnost odb. docent profesor asistent muž 32 15 8 žena 34 8 3 Řešení: Tabulku doplníme o marginální četnosti. pohlaví pedagogická hodnost nj. odb. docent profesor asistent muž 32 15 8 55 žena 34 8 3 45 n.k 66 23 11 n=100 Vypočteme teoretické četnosti: . Vypočteme testovou statistiku: , r = 2, s = 3, tedy , ÷20,95(2) = 5,991. Protože K < 5,991, hypotézu o nezávislosti pohlaví a pedagogické hodnosti nezamítáme na asymptotické hladině významnosti 0,05. Cramérův koeficient: , kde m = min{r,s}, tedy . Příklad 2.: Testování nezávislosti ordinálních veličin 12 různých softwarových firem nabízí programy pro vedení účetnictví. Programy byly posouzeny odbornou komisí a komisí složenou z profesionálních účetních. Výsledky v 1. a 2. komisi: (6,4), (7,5), (1,2), (8,10), (4,6), (2.5,1), (9,7), (12,11), (10,8), (2.5,3), (5,12), (11,9). Vypočtěte Spearmanův koeficient pořadové korelace a na hladině významnosti 0,05 testujte hypotézu o nezávislosti pořadí v obou komisích. Řešení: , tedy Kritická hodnota: rS,0,95(12) = 0,576. Protože rS ? 0,576, nulovou hypotézu zamítáme na hladině významnosti 0,05. Příklad 3.: Testování nezávislosti intervalových a poměrových veličin V dílně pracuje 15 dělníků, u nichž byl zjištěn počet směn odpracovaných za měsíc (veličina X) a počet zhotovených výrobků (veličina Y). Orientačně ověřte dvourozměrnou normalitu dat, vypočtěte výběrový koeficient korelace mezi X a Y, sestrojte pro něj 99% asymptotický interval spolehlivosti a na hladině 0,01 testujte hypotézu o nezávislosti X a Y. X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81. Řešení: Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu. Vidíme, že předpoklad dvourozměrné normality je oprávněný. Vypočteme výběrové průměry: M1 = = 18,267, M2 = = 83,6, výběrové rozptyly: S12 = = 5,6381, S22 = = 121,4, výběrovou kovarianci: S12 = = 24,2571 a výběrový koeficient korelace: = 0,927. Testová statistika: = 8,597, kvantil t0,995(13) = 3,012, kritický obor . Protože , hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. Stanovení 99% asymptotického intervalu spolehlivosti pro ń: Vypočítáme . Meze 99% asymptotického intervalu spolehlivosti pro ń jsou = , tedy 0,7131 < ń < 0,983 s pravděpodobností přibližně 0,99. Práce se systémem STATISTICA Téma: Analýza závislosti dvou veličin Příklad 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. Barva očí Barva vlasů světlá kaštanová černá rezavá modrá 1768 807 180 47 šedá nebo 946 1387 746 53 zelená hnědá 115 438 288 16 Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti barvy očí a barvy vlasů. Vypočtěte Cramérův koeficient. Simultánní četnosti znázorněte graficky. Návod: Vytvořte nový datový soubor o 12 případech a třech proměnných (OCI, VLASY, CETNOST). Do proměnné OCI napište varianty barvy očí x[1] = 1 (modrá), x[2] = 2 (šedá nebo zelená), x[3] = 3 (hnědá), přičemž každá varianta se objeví čtyřikrát pod sebou. Do proměnné VLASY napište třikrát pod sebe všechny varianty y[1] = 1 (světlá), y[2] = 2 (kaštanová), y[3] = 3 (černá), y[4] = 4 (rezavá). Statistics - Basic Statistics/Tables - Tables and Banners - Specify Tables -- List 1 OCI, List 2 VLASY, OK, Weight - CETNOST Status On, OK -- Statistics for two way tables - zaškrtněte Pearson & M-L Chi - square, Phi & Cramer's V -- Advanced - Detailed two-way tables. Ve výstupní tabulce najdete mj. hodnotu testové stastistiky (Chi-square = 1073,51) s počtem stupňů volnosti (df = 6) a odpovídající p-hodnotou (p = 0,0000) i Cramérův koeficient (V = 0,281). Pro grafické znázornění četností se vraťte do Crosstabulation Table Results -- Advanced -- 3D histograms. Po vytvoření grafu je nutné manuálně zvětšit rozsah zobrazovaných hodnot na osách x a y. Pomocí STATISTIKY je možno lehce ověřit splnění podmínek dobré aproximace (tzn., že teoretické četností mají být aspoň v 80% případů větší než 5 a ve zbylých 20% případů nemají klesnout pod 2. Teoretické četnosti se vypočítají tak, že v Options zaškrtneme Expected frequencies. V našem případě jsou podmínky dobré aproximace splněny. Příklad 2.: Fisherův faktoriálový test 100 náhodně vybraných mužů a žen bylo dotázáno, zda dávají přednost nealkoholickému nápoji A či B. Údaje jsou uvedeny ve čtyřpolní kontingenční tabulce. pohlaví nápoj A B muž 20 30 žena 30 20 Na hladině významnosti 0,05 testujte pomocí Fisherova faktoriálového testu hypotézu, že preferovaný typ nápoje nezáleží na pohlaví respondenta. Návod: Podle návodu z předešlého příkladu vytvořte datový soubor. Proměnné budou mít názvy POHLAVI, NAPOJ a CETNOST. Statistics - Basic Statistics/Tables - Tables and Banners - Specify Tables -- List 1 POHLAVI, List 2 NAPOJ, OK, Weight - CETNOST Status On, OK -- Options - Statistics for two way tables - zaškrtněte Fisher exact, Yates, McNemar (2x2) -- Advanced - Detailed two-way tables. Ve výstupní tabulce je mimo jiné uvedena p-hodnota pro oboustranný (Fisher exact, two tailed) a jednostranný test (Fisher exact, one tailed). V našem případě se jedná o jednostrannou závislost, zajímáme se tedy o Fisher exact, one tailed. Ta je 0,03567. Protože p-hodnota je menší nebo rovna 0,05, zamítáme na hladině významnosti hypotézu, že preferovaný typ nápoje nezáleží na pohlaví respondenta. Příklad 3.: Podíl šancí 18 mužů onemocnělo určitou chorobou. Někteří z nich se léčili, jiní ne. Někteří se uzdravili, jiní zemřeli. Údaje jsou uvedeny ve čtyřpolní kontingenční tabulce. přežití léčení ano ne ano 5 3 ne 6 4 Vypočtěte podíl šancí a sestrojte 95% asymptotický interval spolehlivosti pro podíl šancí. Pomocí tohoto intervalu spolehlivosti testujte na asymptotické hladině významnosti 0,05 hypotézu, že přežití nezávisí na léčení. Návod: Podíl šancí vypočteme ručně. . (Protože podíl šancí je větší než 1, je zřejmě výhodnější se nechat léčit.) Dolní a horní mez intervalu spolehlivosti pro OR zjistíme pomocí STATISTIKY. Vytvoříme datový soubor o dvou proměnných DM a HM a dvou případech. Do Long Name proměnné DM napíšeme vzorec pro dolní mez: =exp(log(10/9)- sqrt((1/5+1/3+1/6+1/4)*VNormal(0,975;0;1)) a analogicky zjistíme horní mez. Výsledek: 0,1645 < OR < 7,506 s pravděpodobností přibližně 0,95. Protože tento interval spolehlivosti obsahuje 1, nelze na asymptotické hladině významnosti 0,05 zamítnout hypotézu, že přežití nezávisí na léčení. Příklad 4.: Testování nezávislosti ordinálních veličin Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku tak, aby nejvyšší pořadí měl nejtěžší případ. č. 1 2 3 4 5 6 7 pacienta 1. lékař 4 1 6 5 3 2 7 2. lékař 4 2 5 6 1 3 7 Vypočtěte Spearmanův koeficient pořadové korelace a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou lékařů jsou nezávislá. Návod: Vytvořte datový soubor o sedmi případech a dvou proměnných X a Y. Statistics -Nonparametrics - Correlations -- First variable list X, Second variable list Y, OK, Spearman R. Ve výstupní tabulce najdete Spearmanův koeficient a p-hodnotu. Nulová hypotéza se zamítá na hladině významnosti 0,05, protože p-hodnota = 0,013697 ? 0,05. Příklad 5.: Testování nezávislosti intervalových a poměrových veličin Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru.Počet bodů z 1. testu: 80 50 36 58 72 60 56 68 Počet bodů z 2. testu: 65 60 35 39 48 44 48 61 Nakreslete dvourozměrný tečkový diagram, vypočtěte výběrový korelační koeficient, sestrojte 95% interval spolehlivosti pro korelační koeficient a na hladině významnosti 0,05 testujte hypotézu o nezávislosti výsledků obou testů. Návod: Vytvořte datový soubor o dvou proměnných X a Y a osmi případech. Obvyklým způsobem zobrazte dvourozměrný tečkový diagram, s jehož pomocí posoudíte dvourozměrnou normalitu dat. Testování hypotézy o nezávislosti: Statistics - Basic Statistics /Tables - Correlation matrices -- OK - One variable list X,Y, OK -- OK - Display r, p-levels and N's - Summary. Ve výstupní tabulce je hodnotu výběrového korelačního koeficientu R12 (r=0,6264, tzn. že mezi X a Y existuje nepříliš silná přímá lineární závislost) a p-hodnotu pro test hypotézy o nezávislosti (p=0,097, H0 tedy nelze zamítnout na hladině významnosti 0,05). Výpočet mezí intervalu spolehlivosti: k datovému souboru přidáte dvě nové proměnné DM a HM. Do Long name proměnné DM zapište příkaz = TanH(0,5*log((1+0,6264)/(1-0,6264))-VNormal(0,975;0;1)/sqrt(8- 3)) a do Long name proměnné HM zapište příkaz = TanH(0,5*log((1+0,6264)/(1-0,6264))+VNormal(0,975;0;1)/sqrt(8- 3)) 95% interval spolehlivosti pro ń má tedy meze --0,14013 a 0,923454, tudíž hypotézu o nezávislosti veličin X, Y nelze zamítnout na hladině významnosti 0,05. Poznámka: Pokud známe výběrový koeficient korelace a rozsah výběru, můžeme test nezávislosti veličin X, Y provést pomocí Probabilty Calculator. Statistics -- Probability Calculator -- Correlation -- zadáme n a r, zaškrtneme Compute ń from r -- Compute. Příklad 6.: Porovnání dvou korelačních koeficientů Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů trpících určitou ledvinovou chorobou. U 100 zdravých osob činil výběrový koeficient korelace mezi koncentracemi obou látek 0,65 a u 142 osob trpících zmíněnou chorobou byl 0,37. Za předpokladu dvourozměrné normality dat testujte na hladině významnosti 0,05 hypotézu, že korelační koeficienty se neliší. Návod: Statistics - Basic Statistics and Tables -- Difference tests: r, %, means -- OK -- Difference between two correlation coefficients a vyplňte hodnoty korelačních koeficientů a rozsahy obou výběrů. Vypočtenou p-hodnotu porovnejte se zvolenou hladinou významnosti.