M5VM05 Statistické modelování 12. Analýza závislosti dvou veličin Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modelování 1/38 Motivace Při zpracování dat se velmi často setkáme s úkolem zjistit, zda dvě náhodné veličiny jsou stochasticky nezávislé. Např. nás může zajímat, zda ve sledované populaci je barva očí a barva vlasů nezávislá nebo zda počet dnů absence a věk pracovníka jsou nezávislé. Testování hypotézy o nezávislosti se provádí různými způsoby podle toho, jakého typu jsou dané náhodné veličiny - zda jsou nominální, ordinální, intervalové či poměrové. Zpravidla chceme také zjistit intenzitu případné závislosti sledovaných dvou veličin. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od -1 do 1). Čím je takový koeficient bližší 1 (resp. -1), tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. Jan Koláček (PřF MU) M5VM05 Statistické modelování 2/38 Testování nezávislosti nominálních veličin Nechť x, y jsou dvě nominální náhodné veličiny. Nechť x nabývá variant ,X[r] a y nabývá variant y^j,...,yjs]. Pořídíme dvourozměrný náhodný výběr rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní náhodný vektor (x, y). Zjištěné absolutní četnosti dvojice variant (x^,y^) uspořádáme do kontingenční tabulky: x y n jk 3/[i] '-¥[5 X [1 X nu ... nls rs n.i... n s n, n Jan Koláček (PřF MU) M5VM05 Statistické modelování 3/38 Testování nezávislosti nominálních veličin Testujeme hypotézu Hq : x, y jsou stochasticky nezávislé náhodné veličiny proti H\ : x, y nejsou stochasticky nezávislé náhodné veličiny. Testová statistika má tvar: r s ( fljk - nj.n.k x ^ n nj.n.k j=l k=l —fT Platí-li Hq, pak K se asymptoticky řídí rozložením x2((r ~ l)(s — !))■ Hypotézu o nezávislosti veličin x, y tedy zamítáme na asymptotické hladině významnosti ol, když K > xi-a((r — l)(s — !))■ Definice 1 Výraz se nazývá teoretická četnost. Poznámka 2 (Podmínka dobré aproximace) Teoretické četnosti aspoň v 80% případů nabývají hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2. Není-li splněna podmínka dobré aproximace, doporučuje se slučování některých variant. Jan Koláček (PřF MU) M5VM05 Statistické modelování 4/38 Měření síly závislosti Definice 3 Cramérův koeficient je tvaru y n[m — 1) kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je 1, tím je těsnější závislost mezi X a Y. Čím blíže je 0, tím je tato závislost volnější. i Jan Koláček (PřF MU) M5VM05 Statistické modelování 5/38 Příklad Příklad 1 V sociologickém průzkumu byl z uchazečů o studium na vysokých školách pořízen náhodný výběr rozsahu 360. Mimo jiné se zjišťovala sociální skupina, ze které uchazeč pochází a typ školy na kterou se hlásí Výsledky jsou zaznamenány v kontingenční tabulce: Typ školy Sociální skupina 1 II III IV univerzitní 50 30 10 50 140 technický 30 50 20 10 110 ekonomický 10 20 30 50 110 n.k 90 100 60 110 360 Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti typu školy a sociální skupiny Vypočtěte Cramérův koeficient. Jan Koláček (PřF MU) M5VM05 Statistické modelování 6/38 Řešení ftlftj _ 140-90 _ oc n1n2 _ 140-100 _ qq q ^.3 _ 140-60 _ 90 o n — 360 — n — 360 — °°' y> n ~ 360 — °' nxn± 140-110 _ jo o ^2^1 110-90 _ 97 c ^2X2 110-100 _ qn A n — 360 — °' n ~ 360 — A/'D' n ~ 360 — ou' °' n2n3 110-60 _ 1 o o n2n4 110-110 _ qq £ n3Xi 110-90 _ 97 r n — 360 — 10w/ n — 360 — °' n — 360 — >°> n3n2 110-100 _ on /i n3n3 110-60 _ 1 q q ^3.^.4 110-110 _ 00 / n — 360 — ou'°' n 360 — ío'°' n — 360 ~~ 00'0 ~ _ (50-35)2 (30-38,9)2 (50-33,6)2 _ ?, ^ j\ — 35 -f 38 9 -f . . . -r 336 — / o, o*, r = 3,s = 4,^q95(6) = 12,6. Protože x > 12,6, hypotézu o nezávislosti typu školy a sociální skupiny zamítáme na asymptotické hladině významnosti 0,05. Cramérův koeficient: V= = 0,3267. V 360 • 2 Ctyřpolní tabulky Speciálním případem kontingenčních tabulek, kdy r = s = 2 jsou ctyřpolní tabulky. Zavádí se pro ně jiné značení. Definice 4 Nechť r = s = 2. Pak hovoříme o ctyřpolní kontingenční tabulce a používáme označení: n\\ = a,fti2 = fc,/?2l = = á. X y V[2] *[1] a b a + b *[2] c d c + d a + c b + d n Jan Koláček (PřF MU) M5VM05 Statistické modelování 8/38 Ctyřpolní tabulky Ve čtyřpolních tabulkách používáme charakteristiku OR = ^, která se nazývá podíl šancí (odds ratio). Můžeme si představit, že pokus se provádí za dvojích různých okolností a může skončit bud' úspěchem nebo neúspěchem. Výsledek pokusu 1 okolnosti 1 II úspěch a b a + b neúspěch c d c + d i.* a + c b + d n Poměr počtu úspěchů k počtu neúspěchů (tzv. šance) za prvních okolností je -, za druhých okolností ie \. Definice 5 Podíl šancí (odds ratio) ve ctyřpolní tabulce je definován jako OR = ^. Jan Koláček (PřF MU) M5VM05 Statistické modelování 9/38 Ctyřpolní tabulky Věta 6 Pomocí 100(1 — oc)% asymptotického intervalu spolehlivosti pro podíl šancí lze na asymptotické hladině významnosti oc testovat hypotézu o nezávislosti nominálních veličin X a Y. Asymptotický 100(1 — oc) % interval spolehlivosti pro přirozený logaritmus skutečného podílu šancí má meze: Jestliže po odlogaritmování nezahrne interval spolehlivosti 1, pak hypotézu o nezávislosti zamítneme na asymptotické hladině významnosti oc. Jan Koláček (PřF MU) M5VM05 Statistické modelování 10 / 38 Příklad Příklad 2 U 135 uchazečů o studium na jistou fakultu byl hodnocen dojem, jakým zapůsobili na komisi u ústní přijímací zkoušky. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že přijetí na fakultu nezávisí na dojmu u přijímací zkoušky. přijetí dojem dobrý špatný ano 17 11 28 ne 39 58 97 n.k 56 69 125 Jan Koláček (PřF MU) M5VM05 Statistické modelování 11 / 38 Příklad Řešení OR = Tc = TT§ = 2>298> lnOR = °'832' 1111 a b c a ln dm = 0,832 - 0,439 • 1,96 = -0,028, ln hm = 0,832 + 0,439 • 1,96 = 1,692 dm = č"0-28 = 0,972, /zrn = č1-692 = 5,433 Protože interval (0,972; 5,433) obsahuje číslo 1, na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti dojmu u přijímací zkoušky přijetí na fakultu. Jan Koláček (PřF MU) M5VM05 Statistické modelování 12 Testování nezávislosti ordinálních veličin Nechť X, Y jsou dvě ordinální náhodné veličiny. Pořídíme dvourozměrný náhodný výběr (Xi, Y\),..., (Xn, Yn) z rozložení, jímž se řídí náhodný vektor (X, Y). Označíme Rj pořadí náhodné veličiny Xj a Qj pořadí náhodné veličiny Yj,i = 1,... ,n. Testujeme hypotézu Hq : X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H\ : X, Y jsou pořadově závislé náhodné veličiny (resp. proti levostranné alternativě H\\ mezi X a Y existuje nepřímá pořadová závislost resp. proti pravostranné alternativě H\\ mezi X a Y existuje přímá pořadová závislost). Testová statistika se nazývá Spearmanův koeficient pořadové korelace a má tvar: n[nl - 1) ~ Jan Koláček (PřF MU) M5VM05 Statistické modelování 13 / 38 Testování nezávislosti ordinálních veličin Hq zamítáme na hladině významnosti oc O ve prospěch oboustranné alternativy, když \r$\ > rs,l-cí(n) O ve prospěch levostranné alternativy, když r$ < —rs,l-2ci(n) O ve prospěch pravostranné alternativy, když r$ > rs,l-2oc(n) rS,l-cí(n) Je kritická hodnota, kterou pro oc = 0,05 nebo 0,01 a n < 30 najdeme v tabulkách. Pro n > 30Hq zamítáme na asymptotické hladině významnosti oc ve prospěch oboustranné alternativy, když > U\-ol/2 Poznámka 7 Spearmanův koeficient r s současně měří sílu pořadové závislosti náhodných veličin X, Y. Nabývá hodnot z intervalu (—1,1). Čím je jeho hodnota bližší —1 (resp. 1), tím je silnější nepřímá (resp. přímá) pořadová závislost veličin X,Y. Čím je jeho hodnota bližší 0, tím je slabší pořadová závislost veličin X,Y. Jan Koláček (PřF MU) M5VM05 Statistické modelování 14 / 38 Příklad Příklad 3 Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší pořadí dostal nejtěžší případ. v Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. lékaře 4 1 6 5 3 2 7 Hodnocení 2. lékaře 4 2 5 6 1 3 7 Vypočtěte Spearmanův koeficient r s a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou lékařů jsou pořadově nezávislá. Jan Koláček (PřF MU) M5VM05 Statistické modelování 15 / 38 Příklad Řešení n = 1 - (4-4)2 + (l-2)2 + (6-5): 7(72-l) L + (3-l)2 + (2-3)2 + (7-7)2 = 0,857 Kritická hodnota: 7^0,95(7) = 0,745. Protože 0,857 > 0,745, nulovou hypotézu zamítáme na hladině významnosti 0,05. Jan Koláček (PřF MU) M5VM05 Statistické modelování 16/ Testování nezávislosti intervalových či poměrových veličin Pearsonův koeficient korelace V teorii pravděpodobnosti byl zaveden Pearsonův koeficient korelace náhodných veličin X, Y (které jsou aspoň intervalového charakteru) vztahem C(X,Y) pro y/D(X), y/D(YJ > 0, R(X,Y) = { Vď(x)Vď(y) 0 jinak. Připomeneme jeho vlastnosti: O R(X,X) = 1 O R(X,Y) =R(Y/X) O R(a + bX,c + dY) = sgn(fed)R(X, Y) O —1 < R(X, Y) < 1 a rovnosti je dosaženo tehdy a jen tehdy, když existují reálné konstanty a,b, kde b ^ 0 tak, že P(Y = a + bX) = 1, přičemž R(X, Y) = 1 pro fe > 0 a R(X, Y) = -1 pro fe < 0. Z těchto vlastností plyne, že R(X, Y) je vhodnou mírou těsnosti lineárního vztahu náhodných veličin X, Y. Jan Koláček (PřF MU) M5VM05 Statistické modelování Výběrový koeficient korelace Definice 8 Z dvourozměrného náhodného výběru (Xi, Y\),..., (Xn, Yn) můžeme stanovit: O výběrové průměry M1 = \ £ Xif M2 = \ E Yz-, z=l z=l O výběrové rozptyly Si = ^ E(Xi - Mi)2, Si = ^ £(Yť - M2)2, O výběrovou kovarianci n S12 — -^(XZ-M1)(YZ-M2) 1 z=l S jejich pomocí zavedeme výběrový koeficient korelace R12 = S 12 SiS2 pro S1S2 > 0. Jan Koláček (PřF MU) M5VM05 Statistické modelování 18 / 38 Koeficient korelace dvourozměrného normálního rozdělení Věta 9 Nechi náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou i(x)q>2(y), tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Jan Koláček (PřF MU) M5VM05 Statistické modelování 19 / 38 Koeficient korelace dvourozměrného normálního rozdělení Věta 11 Testujeme Hq : p = 0 proti oboustranné alternativě H\ : p 7^ 0 (resp. proti levostranné alternativě H\ : p < 0 resp. proti pravostranné alternativě H\ : p > 0). Testová statistika má tvar: _ R12Vn - 2 a/1 " Ru ' Platí-li nulová hypotéza, pak T ~ t(n — 2). Kritický obor pro test Hq proti oboustranné alternativě: W = (-oo, -íi_Ä/2(n - 2)) U <íi_Ä/2(n - 2), oo), proti levostranné alternativě: W = (—oo, —^_a(n — 2)) a proŕ/ pravostranné alternativě: W = (ti_a(n — 2),oo). fíg zamítáme na hladině významnosti oc, když T G W. Příklad Příklad 4 Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. v Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně korelované. Jan Koláček (PřF MU) M5VM05 Statistické modelování 21 Příklad Řešení. Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového diagramu. Tečky by měly vytvořit elipsovitý obrazec. 0 10 20 30 40 50 60 70 80 90 100 110 120 Obrázek : Dvourozměrný tečkový diagram Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti. Testujeme Ho : p = 0 proti pravostranné alternativě H\ : p > 0. Výpočtem zjistíme: R\2 = 0,6668,T = 2,1917. V tabulkách najdeme ío,9s(6) = 1,9432. Kritický obor: W = (l,9432;oo). Protože T G W, hypotézu o neexistenci kladné korelace výsledků z 1. a 2. testu zamítáme na hladině významnosti 0,05. Jan Koláček (PřF MU) M5VM05 Statistické modelování Porovnání koeficientu korelace s danou konstantou Věta 12 Nechi c je reálná konstanta. Testujeme Hq : p = c proti H\ : p ^ c. Test je založen na statistice u=\z-W + c —^j Vn-3, 2 1-c 2(n- která má za platnosti Hq pro n > 10 asymptoticky rozloženín"(0,1), přičemž 2 1 - R12 Je řzv. Fisherova Z-transformace. Kritický obor pro test Hq proti oboustranné alternativě tedy je W = (—oo, —Wi_a/2) U (^i_A:/2/00)-íío zamítáme na asymptotické hladině významnosti oc, když U £ W. Jan Koláček (PřF MU) M5VM05 Statistické modelování 24 / 38 Příklad Příklad 5 U 600 vzorků rudy byl stanoven obsah železa dvěma analytickými metodami s výběrovým koeficientem korelace 0,85. V literatuře se uvádí, že koeficient korelace těchto dvou metod má být 0,9. Na asymptotické hladině významnosti 0,05 testujte hypotézu Hq : p = 0,9 proti H\ : p ^ 0,9. Řešení Z = \ ^ = 1/2562, U = (l,2562 - i ln {±§ - ^piy) ^600^3 = -5,2976, t/0,975 = 1,%, W= (-00,-1,96) U (l,96,oo). Protože U £ W,fío zamítáme na asymptotické hladině významnosti 0,05. Jan Koláček (PřF MU) M5VM05 Statistické modelování 25 / 38 Porovnání dvou koeficientů korelace Věta 13 Nechi jsou dány dva nezávislé náhodné výběry o rozsazích n a n* z dvourozměrných normálních rozložení s korelačními koeficienty p a p*. Testujeme Hq : p = p* proti H\ : p 7^ p*. Označme R\2 výběrový koeficient korelace 1. výběru a R^2 výběrový koeficient korelace 2. výběru. Položme 1,.. 1+R12 . ^ i, 1+RÍ2 Z = - ln---— a Z = - ln „ 2 I-R12 2 1-R* 12 Platí-li Hq, pak testová statistika U = Z-Z * 1 + 1 n—3 1 n*— 3 má asymptoticky rozložení n(0,1). Kritický obor pro test Hq tedy je W= (-00,-1/^/2) U (tti_a/2,«>). Jan Koláček (PřF MU) M5VM05 Statistické modelování 26 / 38 Příklad Příklad 6 Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů trpících určitou ledvinovou chorobou. U 100 zdravých jedinců činil výběrový koeficient korelace mezi koncentracemi obou látek 0,65 a u 142 osob trpících zmíněnou chorobou byl 0,37. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že se koeficienty korelace v obou skupinách neliší. Řešení Z* = ^ln{^§ = 0,3884, u 0 7753-0,3884 2 9 2 42, i i i V 100-3 1 142-3 t/0,975 = 1,96, W = (-00,-1,96) U (l,96,oo). Protože U £ W,Hq zamítáme na asymptotické hladině významnosti 0,05 Jan Koláček (PřF MU) M5VM05 Statistické modelování 27 / 38 Interval spolehlivosti pro koeficient korelace Věta 14 Jestliže dvourozměrný náhodný výběr rozsahu n pochází z dvourozměrného normálního rozložení, jehož koeficient korelace se příliš neliší od nuly (\p\ < 0,5) a rozsah výběru je dostatečně velký {n > 100), lze odvodit, že 100(1 — oc) % interval spolehlivosti pro p má meze R\2 ± U1_OÍ/2 n Nejsou-li uvedené podmínky splněny, pak nelze tento vzorec použít, protože rozložení výběrového korelačního koeficientu je příliš zešikmené. V takovém případě využijeme následujícího tvrzení. Jan Koláček (PřF MU) M5VM05 Statistické modelování 28 / 38 Interval spolehlivosti pro koeficient korelace Věta 15 Náhodná veličina Z=Iln1+R* 2 1 - R12 má i při malém rozsahu výběru přibližně normální rozložení se střední hodnotou (2. sčítanec lze při větším n zanedbat) a rozptylem D (Z) = Standardizací veličiny Z dostaneme veličinu Z-E(Z) která má asymptoticky rozloženín(0,1) 1 14 ií\ spolehlivosti pro ^ ln lnr&r\/3l cnnl^hIi\/ncŕi nm n n 3 Ľ r/ncf-3npmp -znětr \/n—3 1 I Tudíž 100(1 — oc) % asymptotický interval spolehlivosti pro \ ln bude mít meze Z ± Ux70L,'i . Interval spolehlivosti pro p pak dostaneme zpětnou transformací. Jan Koláček (PřF MU) M5VM05 Statistické modelování 29 / 38 Interval spolehlivosti pro koeficient korelace Poznámka 16 Jelikož Z = arctghRi2, dostáváme R\2 = tghZ a meze intervalu spolehlivosti pro p můžeme psát ve tvaru tgh Z ± . , pricemz tgh x = -. Jan Koláček (PřF MU) M5VM05 Statistické modelování 30 / 38 Příklad Příklad 7 Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi počtem dní absence za rok (veličina Y) a věkem pracovníka (veličina X). Proto náhodně vybral údaje o 10 pracovnících. v C.prac. 1 2 3 4 5 6 7 8 9 10 X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 11 5 8 Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 10 z dvourozměrného normálního rozložení, vypočtěte výběrový koeficient korelace a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny Sestrojte 95% asymptotický interval spolehlivosti pro skutečný koeficient korelace p. Jan Koláček (PřF MU) M5VM05 Statistické modelování 31 / 38 Příklad Řešení. Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu, viz. Obr. 2. -20 0 20 40 60 80 100 Obrázek : Dvourozměrný tečkový diagram Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Testujeme Ho : p = O proti H\ : p 7^ 0. Vypočítáme R\2 = —0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Testová statistika: T= —7,3053, kvantil £0,975(8) = 2,306, kritický obor W = (—00,—2,306) U (2,306,00). Jelikož T