12 Jednoduchá korelační analýza Příklad 12.1. Testování nezávislosti ordinálních veličin 12 různých softwarových firem nabízí speciální programové vybavení pro 3D skenování lidského těla. Jednotlivé programy byly posouzeny odbornou komisí složenou z počítačových odborníků a komisí složenou z antropologů. Úkolem bylo doporučit vhodný program na základě stanovení pořadí jednotlivých programů. Výsledky posouzení: Produkt firmy číslo 1 2 3 4 5 6 7 8 9 10 11 12 Pořadí dle programátorů Pořadí dle antropologů 6 7 1 8 4 2.5 9 12 10 2.5 5 11 4 5 2 10 6 1 7 11 8 3 12 9 Vypočtěte Spearmanův koeficient pořadové korelace a na hladině významnosti a = 0.05 testujte hypotézu, že hodnocení obou komisí jsou nezávislá. Data jsou uložena v souboru 3D-sken.txt. Ověření dvourozměrné normality pomocí tečkového diagramu Porovnáni 12 softwaru na 3D sken Tečkový diagram o _' cg -10 -5 0 5 10 15 20 poradi podle počítačových odborníku Testování hypotézy o nezávislosti • //• : .............................................................................. • //. : .............................................................................. ## [1] "Spearmanův koeficient: 0.7145" ## [1] "Asymptotická varianta testu: T0= 3.2298" ## [1] -2.228139 ## [1] 2.228139 ## [1] "Asymptotická varianta testu: p-hodnota= 0.009024" Spearmanův koeficient pořadové korelace nabývá hodnoty r$ =................................., tedy mezi hodnocením obou komisí existuje ........................................stupeň ................................................................................závislosti. 1. Testování kritickým oborem Tento postup používáme přednostně, protože n = 12 < 20. Testovací statistikou je v tomto případě přímo hodnota Spearmanova koeficientu pořadové korelace r s =................................... Kritický obor má tvar W =................................................ Protože r$............W, Hq o pořadové / lineární nezávislosti ............................na hladině významnosti a =............................. 1 2. Testování kritickým oborem - Asymptotické varianta testu Tento postup používáme v případě, že n > 20. To v našem případě není splněno, řešení si tedy uvádíme jen pro příklad. Testovací statistika To =.................................. Kritický obor má tvar W =................................................ Protože To ............ W, Hq o pořadové / lineární nezávislosti ............................ na hladině významnosti a =............................. 3. Testování p-hodnotou - Asymptotická varianta testu Tento postup používáme v případě, že n > 20. To v našem případě není splněno, řešení si tedy uvádíme jen pro příklad. Protože p-hodnota ................................... je .................................. než a = 0.05, Hq o pořadové / lineární nezávislosti ............................... na asymptotické hladině významnosti a =............................... Příklad 12.2. Testování nezávislosti intervalových veličin Zjišťovalo se, kolik mg kyseliny mléčné je ve 100 ml krve matek prvorodiček (veličina X) a u jejich novorozenců (veličina Y) těsně po porodu. Byly získány tyto výsledky: Číslo matky i 2 3 4 5 6 40 64 34 15 57 45 33 46 23 12 56 40 Pomocí tečkového diagramu otestujte dvourozměrnou normalitu dat. Vypočtěte výběrový korelační koeficient, sestrojte 95 % interval spolehlivosti pro korelační koeficient a na hladině významnosti a = 0.05 testujte hypotézu o nezávislosti výsledků obou měření. Data jsou uložena v souboru kyselina_mlecna.txt. Ověření dvourozměrné normality pomocí tečkového diagramu Mnozstvi kyseliny mlecne v krvi Tečkový diagram E o |-1-1-1-1-r-, o °--- o ^ != i -20 0 20 40 60 80 100 mnozstvi v krvi matky (mg/100 ml) Testování hypotézy o nezávislosti • //• : ............................................ • //. : ............................................ 2 ## c or ## 0.9348324 ## [1] "TCN5.2653" ## [1] -2.776445 ## [1] 2.776445 ## [1] "IS= -0.8114 ; 0.8114" ## [1] "p-hodnota= 0.006232" ## [1] "Asymptotický IS= 0.5108 ; 0.993" Výběrový korelační koeficient korelace nabývá hodnoty r 12 =................................., tedy mezi množstvím kyseliny mléčné ve 100 ml krve rodiček a jejich novorozenců existuje........................................stupeň...................................... ........................................ závislosti. 1. Testování kritickým oborem Testovací statistika To nabývá hodnoty............................, kritický obor má potom tvar.................................... Protože To ............ W, Hq o nezávislosti ............................na hladině významnosti a =............................. 2. Testování IS Interval spolehlivosti pro p má tvar .................................................................................... Protože............................, Hq o nezávislosti............................na hladině významnosti a =............................. 3. Testování p-hodnotou Protože p-hodnota............................je..............................než a = 0.05, Hq o nezávislosti............................ na hladině významnosti a =.............................. S rizikem omylu nejvýše 5% jsme tedy prokázali, že mezi oběma koncentracemi ................................. pořadová / lineární závislost. Příklad 12.3. Porovnání dvou korelačních koeficientů V psychologickém výzkumu bylo vyšetřeno 426 hochů a 430 dívek. Ve skupině hochů činil výběrový koeficient korelace mezi verbální a performační složkou IQ 0.6033, ve skupině dívek činil 0.5833. Za předpokladu dvourozměrné normality dat testujte na hladině významnosti a = 0.05 hypotézu, že korelační koeficienty se neliší. Testování hypotézy o dvou korelačních koeficientech • //• : .............................................................................. • if 1 : .............................................................................. Rl <- 0.6033 R2 <- 0.5833 ni <- 426 n2 <- 430 ksi <- 0 Zl <- 1/2 * log((l + Rl)/(1 - Rl)) Z2 <- 1/2 * log((l + R2)/(l - R2)) Zw <- (Zl - Z2 - ksi) / sqrt(l/(nl - 3) + l/(n2 - 3)) (p.val <- 2 * min(pnorm(Zw), 1 - pnorm(Zw))) ## [1] 0.6527169 Testování pomocí p-hodnoty Protože p-hodnota............................je..............................než a = 0.05, tedy Hq o shodě dvou koeficientů korelace ................................................na asymptotické hladině významnosti a =............................... 3 Příklady k samostatnému řešení Příklad 12.4. Načtěte datový soubor IQ.txt. Za předpokladu dvourozměrné normality dat (orientačně ověřte pomocí dvourozměrného tečkového diagramu) testujte na hladině významnosti a = 0.1 hypotézu, že korelační koeficienty mezi verbální a performační složkou IQ jsou stejné u dětí z města a venkova. Grafické ověření normality ## [1] 0.0780111 Výsledek p-hodnota= 0.07801, tedy s rizikem omylu nejvýše 10% jsme prokázali, že korelační koeficienty se liší. 4 Příklad 12.5. V náhodném výběru 10 dvoučlenných domácností byl zjišťován měsíční příjem (veličina X, v tisících Kč) a vydání za potraviny (veličina Y, v tisících Kč). 15 21 34 35 39 42 58 64 75 90 Ví 3 4.5 6.5 6 7 8 9 8 9.5 10.5 Vypočtěte a interpretujte výběrový koeficient korelace. Na hladině významnosti a = 0.05 testujte hypotézu o nezávislosti veličin X, Y. Sestrojte 95% asymptotický interval spolehlivosti pro p. Data jsou uložena v souboru prijem_vydani.txt. Grafické ověření normality Závislost přijmu a vydajú domácnosti Tečkový diagram "1-1-1 0 50 100 prijem domácnosti (v tisícich Kc) Výsledek ri2 = 0.9405, mezi měsíčními příjmy a výdaji tedy existuje velmi vysoký stupeň přímé lineární závislosti, p-hodnota= 5.095 e — 05, tedy Hq zamítáme na hladině významnosti a = 0.05. S pravděpodobností alespoň 0.95 platí: 0.7623 < p < 0.9862. 5 Příklad 12.6. Bylo sledováno 10 žáků. Na základě psychologického vyšetření byli tito žáci seřazeni podle nervové lability (čím byl žák labilnější, tím dostal vyšší pořadí Ri). Kromě toho sledování žáci dostali pořadí Qi na základě svých výsledků v matematice (nejlepší žák v matematice dostal pořadí 1). Výsledky jsou uvedeny v tabulce: Pořadí Ri 1 2 3 4 5 6 7 8 9 10 Pořadí Qi 9 3 8 5 4 2 10 1 7 6 Vypočtěte vhodný korelační koeficient a jeho hodnotu řádně interpretujte. Na hladině významnosti a = 0.05 testujte hypotézu, že nervová labilita a výsledky v matematice jsou nezávislé. Data jsou uložena v souboru nervova_labilita.txt. Grafické ověření normality Závislost mezi labilitou zaka a výsledky v matematice Tečkový diagram ~l-1-1-1-T -5 0 5 10 15 poradi zaka podle nervové lability Výsledek: Spearmanův koeficient pořadové korelace r s = —0.127, tedy mezi nervovou labilitou žáka a jeho výsledky v matematice existuje nízký stupeň nepřímé pořadové závislosti. p-hodnota= 0.7329, a tedy Hq nezamítáme na hladině významnosti a = 0.05. 6