9 Dvouvýběrové parametrické testy Dataset: 01-one-sample-mean-skull-mf.txt Z archivních materiálů (Schmidt, 1888; soubor 01-one-sample-mean-skull-mf.txt) máme k dispozici původní kranio-metrické údaje o délce a šířce mozkovny a ze starověké egyptské populace. Popis proměnných v datasetu: • pop - populace (egant - egyptská starověká); • sex - pohlaví (m - muž, f - žena); • skull.L - největší délka mozkovny (mm), t.j. přímá vzdálenost kraniometrických bodů glabella a opisthocranion; • skull.B - největší šířka mozkovny (mm), t.j. vzdálenost obou kraniometrických bodů euryon. Příklad 9.1. Klasický test o rozdílu středních hodnot /ii — /i2 (o"i a a\ jsou neznámé, ale shodné) Mějme datový soubor 01-one-sample-mean-skull-mf.txt a proměnnou skull.B popisující největší šířku mozkovny. Na hladině významnosti a = 0.05 testujte hypotézu o shodě střední hodnoty největší šířky mozkovny mužů a žen starověké egyptské populace. Řešení příkladu 9.1 1 data <- read.delimC•••) # načteni datového souboru 2 skuli.BM <- data[.......] # vyber nejvetsi sirky mozkovny múzu Cprvni vyber) 3 skull.BF <- data[.......] # vyber nejvetsi sirky mozkovny zen (druhy vyber) 4 skuli.BM <- ... # odstraněni NA hodnot ze skull.BM 5 skuli.BF <- ... # odstraněni NA hodnot ze skull.BF 6 nl <- ... # rozsah prvniho náhodného vyberu 7 n2 <- ... # rozsah druhého náhodného vyberu 8 tab <- data.frame C ...) # rozsah, min a max prvniho, resp. druhého nah. vyberu nl n2 mini maxl min2 max2 1 216 109 124 149 118 146 9 10 V tomto příkladu pracujeme se...........................náhodnými výběry. První náhodný výběr obsahuje údaje o největší šířce mozkovny ................. mužů, druhý náhodný výběr obsahuje údaje o největší šířce mozkovny ................. žen starověké egyptské populace. Naměřené hodnoty u mužů se pohybují v rozmezí................-................mm, naměřené hodnoty u žen se pohybují v rozmezí................-................mm. Ze zadání máme za úkol porovnat střední hodnoty dvou populací (muži a ženy), použijeme tedy test o střední hodnotě / test o rozdílu středních hodnot / test o rozdílu korelačních koeficientů. Primárně bychom chtěli použít parametrický test. Nutným předpokladem parametrického testu je normalita naměřených hodnot (zvlášť v každém výběru). Test normality naměřených hodnot pro muže • Hq : Data...................................... z normálního rozdělení. • Hi : Data...................................... z normálního rozdělení. Hladina významnosti a =................ n =...............je menší / větší než 50 a menší / větší než 100 —> Shapirův- Wilkův / Lillieforsův test. [1] 0.07662229 11 Náhodný výběr největších šířek mozkovny mužů starověké egyptské populace ................................. z normálního rozdělení (p-hodnota = ......................je menší / větší než a = 0.05). Test normality naměřených hodnot pro ženy • Hq : Data...................................... z normálního rozdělení. • Hi : Data...................................... z normálního rozdělení. 1 Hladina významnosti a = Wilkův / Lillieforsův test. je menší / větší než 50 a menší / větší než 100 —> Shapirův- [1] 0.06380994 12 Náhodný výběr nej větších šířek mozkovny žen starověké egyptské populace ................................. z normálního rozdělení (p-hodnota = ......................je menší / větší než a = 0.05). 124.5 136.5 sirka mozkovny - n i i r -3-1 12 3 teoreticky kvantil sirka mozkovny - zeny ~1 I T -2 0 12 teoreticky kvantil Protože oba výběry pochází z normálního rozdělení, použijeme na otestování hypotézy ze zadání parametrický test. Vhodný parametrický test vybereme v závislosti na výsledku testu o podílu rozptylů. Test o podílu rozptylů • //• : ................................. -> .................................. • Hi : ................................. —> ................................. (.................................................. alternativa). • Hladina významnosti a = ................ 13 alpha <- ... # hladina významnosti 14 var.test C skuli.BM, skuli.BF, alternativě = 15 qfC•••) # horni hranice kritického oboru 16 qfC•••) # dolni hranice kritického oboru conf.level = .) # test o podilu rozptylu F test to compare two varianc es data: skull.BM and skull.BF F = 1.0555, num df = 215, denom df = 108, p-value : = 0.761 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.7532968 1.4525763 sample estimates: ratio of variances 1. 055543 ql q2 1 0.7266694 1.401231 a) Test kritickým oborem Hodnota testovací statistiky fw = ..................., kritický obor W má tvar ........................................... Protože .............................., Hq .............................. na hladině významnosti a = .................... b) Test intervalem spolehlivosti Interval spolehlivosti má tvar ........................................... Protože .............................., Hq .............................. na hladině významnosti a = .................... c) Test p-hodnotou P-hodnota = ....................Protože........................, Hq .........................na hladině významnosti a = .............. Mezi rozptylem největší šířky mozkovny u mužů a žen starověké egyptské populace existuje / neexistuje statisticky významný rozdíl. Protože rozptyly obou výběrů jsou shodné, použijeme na otestování hypotézy ze zadání klasický test o rozdílu středních hodnot (rozptyly a\ a a\ jsou neznámé, ale shodné). 2 Klasický test o rozdílu středních hodnot • //• : ................................. -> .................................. • //. : ................................. -> ................................. (........................... • Hladina významnosti a = ................ 30 t.test C sku11.B M, sku11.BF, alternativě = conf.level = 31 var.equal = T) # klasicky test o rozdilu středních hodnot 32 qtC•••) # hôrni hranice kritického oboru 33 qtC•••) # dolni hranice kritického oboru alternativa). 34 Two Sample t-test 35 36 data: skull.BM and skull.BF 37 t = 5.4079, df = 323, p-value = 1.243e-07 38 alternative hypothesis: true difference in means is not equal to 0 39 95 percent confidence interval: 40 1.933070 4.143723 41 sample estimates: 42 mean of x mean of y 43 137.1852 134.1468 44 ql q2 1 -1.967336 1.967336 45 46 a) Test kritickým oborem Hodnota testovací statistiky tw = ..................., kritický obor W má tvar .............................., Hq .............................. na hladině významnosti a = ... Protože b) Test intervalem spolehlivosti Interval spolehlivosti má tvar...........................................Protože . Hq .............................. na hladině významnosti a = .................... c) Test p-hodnotou P-hodnota = ......... Protože........................, Hi o na hladině významnosti a ■■ Interpretace výsledků: Mezi největší šířkou mozkovny u mužů a žen starověké egyptské populace existuje / neexistuje statisticky významný rozdíl. . . ) , medcol = c C.......) )) # krabicový diagram 47 parCmar = ...) # nastaveni okrajů grafu 4, 4, 1, 1 48 boxplot(skull.BM, skull.BF, las = 1, ylim = c(120, 155), col = c(... 49 border = c(.......), xlab = 3 3 , ylab = .. . , names = c(.. . , 50 mtext('pohlavi', line = side = ...) # popisek osy x 51 pointsCc(meanCskull.BM) , mean(skull.BF)) , pch = col = c(.......)) # aritmetické průměry 52 legend('topright', horiz = T, pch = c(NA, ...), lty = c(..., NA), 53 lwd = c(..., NA), legend = c(.......), bty = ...) # legenda o o 155 -150 -145 -140 -135 -130 -125 -120 - median prumer T muzi zeny pohlavi 3 Dataset: 19-more-samples-correlations-skull.txt Datový soubor 19-more-samples-correlations-skull.txt obsahuje údaje o šířce nosu a o interorbitální šířce mužů z německé, malajské, čínské, peruánské a bantuské populace. Data pochází z archivních materiálů (Schmitd, 1888). Popis proměnných v datasetu: • pop ... populace (nem - německá, mal - malajská, cin - čínská, per - peruánská, ban - bantuská); • sex ... pohlaví jedince (m - muž); • nose.B ... šířka nosu (v mm); • intorb.B ... interorbitální šířka (v mm). Příklad 9.2. Welchův test o rozdílu středních hodnot yui — /j-2 (cf a trf jsou neznámé a různé) Mějme datový soubor 19-more-samples-correlations-skull.txt a proměnnou nose.B popisující šířku nosu. Na hladině významnosti a = 0.05 zjistěte, zdaje šířka nosu mužů čínské populace menší než šířka nosu mužů bantuské populace. Řešení příkladu 9.2 54 data <- read.delimC•••) # načteni datového souboru 55 nose . BC <- data [.......] # vyber sirky nosu múzu cinske populace Cprvni vyber) 56 nose . BB <- data [.......] # vyber sirky nosu múzu bantuské populace (druhy vyber) 57 nose . BC <- ... # odstraněni NA hodnot z nose.BC 58 nose . BB <- ... # odstraněni NA hodnot z nose.BB 59 nl < - . .. # rozsah prvniho náhodného vyberu 60 n2 < - . .. # rozsah druhého náhodného vyberu 61 tab <- data.frameC•••) # rozsah, min a max prvniho resp . druhého nah. vyberu nl n2 mini maxl min2 max2 62 1 19 14 23 28 22 31 63 V tomto příkladu pracujeme se ........................... náhodnými výběry. První výběr obsahuje údaje o šířce nosu .................mužů..............................populace, druhý výběr obsahuje údaje o šířce nosu.................mužů................... populace. Hodnoty u mužů čínské populace se pohybují v rozmezí................-................mm, hodnoty u mužů bantuské populace se pohybují v rozmezí................-................mm. Ze zadání máme za úkol porovnat střední hodnoty dvou populací (čínské a bantuské), použijeme tedy párový test / test o rozdílu středních hodnot / test o rozdílu korelačních koeficientů. Primárně bychom chtěli použít parametrický test. Nutným předpokladem parametrického testu je normalita naměřených hodnot (zvlášť v každém výběru). Test normality naměřených hodnot u mužů čínské populace • Hq : Data...................................... z normálního rozdělení. • Hi : Data...................................... z normálního rozdělení. Hladina významnosti a =................ n =...............je menší / větší než 50 a menší / větší než 100 —> Shapirův- Wilkův Lillieforsův test. [1] 0.1173442 64 Náhodný výběr šířek nosu mužů čínské populace.................................z normálního rozdělení (p-hodnota =.............. je menší / větší než a = 0.05). Test normality naměřených hodnot u mužů bantuské populace • Hq : Data...................................... z normálního rozdělení. • Hi : Data...................................... z normálního rozdělení. Hladina významnosti a =................ n =...............je menší / větší než 50 a menší / větší než 100 —> Shapirův- Wilkův Lillieforsův test. 4 [1] 0.1511379 65 Náhodný výběr šířek nosu mužů bantuské populace ................................. z normálního rozdělení (p-hodnota ......................je menší / větší než a = 0.05). n—i—i—i—r 23.5 25.5 27.5 sirka nosu cinske populace (v rr -2-10 1 2 teoreticky kvantil 1—I—I—I—T 22 26 30 sirka nosu bantuské populace (v i 22 -L r -i o i teoreticky kvantil Protože oba výběry pochází z normálního rozdělení, použijeme na otestování hypotézy ze zadání parametrický test. Vhodný parametrický test vybereme v závislosti na výsledku testu o podílu rozptylů. Test o podílu rozptylů • //• : ................................. -> .................................. • //. : ................................. -> ................................. (• • Hladina významnosti a = ................ alternativa). 66 alpha <- ... # hladina významnosti 67 var.test C... , • •• , alternativě = conf.level = 68 qfC•••) # horni hranice kritického oboru 69 qfC•••) # dolni hranice kritického oboru .) # test o podilu rozptylu 70 F test to compare two varianc es 71 72 data: nose.BC and nose.BB 73 F = 0.27537, mil df = 18, denom df = 13, p-value = 0.01258 74 alternative hypothesis: true ratio of variances is not equal to 1 75 95 percent confidence interval: 76 0.09230537 0.75180759 77 sample estimates: 78 ratio of variances 79 0.2753689 80 qi q2 1 0.3662758 2.983239 81 82 a) Test kritickým oborem Hodnota testovací statistiky fw =..................., kritický obor W má tvar . Protože.............................., H0 ..............................na hladině významnosti a = ................... Interval spolehlivosti má tvar ........................................... Protože .............................., Hq ... na hladině významnosti a = .................... b) Test p-hodnotou P-hodnota = ......... Protože ., Hq .........................na hladině významnosti a ■■ Mezi rozptylem šířky nosu mužů čínské a bantuské populace existuje / neexistuje statisticky významný rozdíl. Protože rozptyly obou výběrů nejsou shodné, použijeme na otestování hypotézy ze zadání Welchův test o rozdílu středních hodnot (rozptyly a'f a .................................. • Hi : ................................. —> ................................. (.................................................. alternativa). • Hladina významnosti a = ................ 83 t.testC........ alternativě = conf.level = 84 var.equal = F) # Welchuv test o rozdílu středních hodnot 85 df <- t.testC........ alternativě = conf.level = var.equal = F)$parameter # počet 86 # stupnu volnosti; argumenty funkce jsou stejné jako vyse ; počet stupnu volnosti je uložen 87 # ve výstupu s nazvem 'parameter 1 88 qtC•••) # hôrni hranice kritického oboru Welch Two Sample t-test data: nose.BC and nose.BB t = -1.8611, df = 18.268, p-value = 0.03945 alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf -0.1185797 sample estimates: mean of x mean of y 25.21053 26.92857 89 90 91 92 93 94 95 96 97 98 99 100 101 1 -1.732689 a) Test kritickým oborem Hodnota testovací statistiky tw =..................., kritický obor W má tvar ... Protože.............................., Hq ..............................na hladině významnosti a = .................... b) Test intervalem spolehlivosti Interval spolehlivosti má tvar...........................................Protože . Hq .............................. na hladině významnosti a = .................... c) Test p-hodnotou P-hodnota = ......... Protože........................, Hi o na hladině významnosti a ■■ 108 Interpretace výsledků: Šířka nosu mužů čínské populace je / není statisticky významně menší než šířka nosu mužů bantuské populace. 102 parCmar = ...) # nastaveni okrajů grafu 4, 4, 1, 1 103 boxplot(nose.BC, nose.BB, las = 1, ylim = c(22, 33), col = c(... 104 border = c(.......), xlab = 3 3 , ylab = . . . , names = c ( . 105 mtext('pohlavi', line = side = ...) # popisek osy x 106 points(c(mean(nose.BC), mean(nose.BB)), pch = col = c(..., 107 legend('topright', pch = c(NA, ...), lty = c(..., NA), . . . ) , medcol = c(.......), ...)) # krabicový diagram .)) # aritmetické průměry lwd = c(. — c(. 32 & B 30 >^ 3 28 O C 26 CS M .a itf) 24 22 •), bty = . ) # legenda prumer median -1-1- cinska bantuska populace 6 Dataset: 13-two-samples-correlations-trunk.txt Datový soubor 13-two-samples-correlations-trunk.txt obsahuje údaje o délce trupu a délce dolní končetiny mladých dospělých jedinců, převážně studentů vysokých škol z Brna a Ostravy (Králík, nepublikovaná data). Popis proměnných v datasetu: • sex - pohlaví (m - muž, f - žena); • lowex.L - délka dolní končetiny (v mm); • tru.L - délka trupu (v mm). Příklad 9.3. Test o rozdílu korelačních koeficientů p\ — p2 Mějme datový soubor 13-two-samples-correlations-trunk.txt, proměnnou lowex.L popisující délku dolní končetiny a proměnnou tru.L popisující délku trupu. Na hladině významnosti a = 0.01 zjistěte, zdaje korelační koeficient délky dolní končetiny a délky trupu u mužů menší než u žen. Řešení příkladu 9.3 109 data <- read.delimC...) # načteni datového souboru 110 data.M <- na.omitC data[.......]) # vyber délky d. končetiny a délky trupu múzu Cprvni vyber) 111 data.F <- na.omitC data[.......]) # vyber délky d. končetiny a délky trupu zen C druhy vyber) 112 lowex.LM <- # hodnoty délky dolni končetiny muzu 113 tru.LM <- # hodnoty délky trupu muzu 114 lowex.LF <- # hodnoty délky dolni končetiny zen 115 tru.LF <- # hodnoty délky trupu zen 116 nl <- ... # rozsah prvniho náhodného vyberu 117 n2 <- ... # rozsah druhého náhodného vyberu 118 tab <- data.frameC•••) # rozsah a koeficient korelace prvniho, resp. druhého nah. vyberu nl rho 1 n2 rho2 1 75 0.05975781 100 0.285256 119 120 V tomto příkladu pracujeme se ........................... náhodnými výběry. První výběr obsahuje údaje o délce dolní končetiny a délce trupu u ............... mužů, druhý výběr obsahuje údaje o délce dolní končetiny a délce trupu u ...............žen. Hodnota výběrového korelačního koeficientu pro muže R\ =......................a pro ženy R2 =.................. Nyní ověříme dvourozměrnou normalitu naměřených hodnot (zvlášť v každém výběru). Test dvourozměrné normality naměřených hodnot pro muže • Hq: Data................................z dvourozměrného normálního rozdělení. • H\: Data................................z dvourozměrného normálního rozdělení. Hladina významnosti a =................ Mardiův test. Test Statistic p value Result 1 Mardia Skewness 2.98735817484524 0 559943203738428 YES 2 Mardia Kurtosis -0.789574288194589 0 429776429043593 YES 3 MVN YES 121 122 123 124 Náhodný výběr délek dolní končetiny a délek trupu u mužů ................................. z dvourozměrného normálního rozdělení. (Data vykazují / nevykazují výrazné zešikmení (p-hodnota = ..................je menší / větší než a = 0.05). Data vykazují / nevykazují výrazné zešpičatění či zploštění (p-hodnota =..................je menší / větší než a = 0.05).) Test dvourozměrné normality naměřených hodnot pro ženy • Hq : Data...................................... z dvourozměrného normálního rozdělení. • Hi : Data...................................... z dvourozměrného normálního rozdělení. Hladina významnosti a =................ Mardiův test. Test Statistic p value Result 1 Mardia Skewness 6.31326657225727 0 176942962210473 YES 2 Mardia Kurtosis -0.207066071208097 0 835958259081491 YES 3 MVN YES 125 126 127 128 7 Náhodný výběr délek dolní končetiny a délek trupu u žen ................ rozdělení. (Data vykazují / nevykazují výrazné zešikmení (p-hodnota = Data vykazují / nevykazují výrazné zešpičatění či zploštění (p-hodnota = z dvourozměrného normálního je menší / větší než a = 0.05). . je menší / větší než a = 0.05).) Protože oba náhodné výběry pochází z dvourozměrných normálních rozdělení, použijeme parametrický test. Test o rozdílu korelačních koeficientů pi — p2 • //• : ................................. -> .................................. • //. : ................................. -> ................................. (• • Hladina významnosti a = ................ alternativa). 129 alpha <- ... # hladina významnosti 130 source C 1Sbirka-AS -1-2018 - funkce - II.txt1) # načteni souboru 1Sbirka-AS -1-2 018 - funkce-II.txt 131 corZ.two.test(data. M , data.F, alternative = conf.level = ...) 132 qnormC...) # horni hranice kritického oboru Rl R2 uO dh hh p . val 1 0.05975781 0.285256 -1.501471 -2 0 1276162 0.06661688 1 -2.326348 133 134 135 136 a) Test kritickým oborem Hodnota testovací statistiky zw = ..................., kritický obor W má tvar .............................., Hq .............................. na hladině významnosti a = ... Protože b) Test intervalem spolehlivosti Interval spolehlivosti má tvar ........................................... Protože na hladině významnosti a = .................... c) Test p-hodnotou P-hodnota = ......... Protože........................, Hi o na hladině významnosti a ■■ Interpretace výsledků: Korelační koeficient délky dolní končetiny a délky trupu u mužů je / není statisticky významně menší než u žen. Mezi délkou dolní končetiny a délkou trupu mužů existuje ............................... stupeň ..............................................................závislosti (Ri = 0.0598). Mezi délkou dolní končetiny a délkou trupu žen existuje ............................... stupeň .............................................................. závislosti (R2 = 0.2853). 137 par(mar = ...) # nastaveni okraju 4, 4, 1, 1 138 source ( ' Sbirka - AS -1 - 2018 - funkce - II . R ' ) 139 cor.plot C data.M, data.F, col = cC'blue', 'red1), bg = c C 3cornflowerblue3 , 140 line.col = c('darkblue', 'darkred'), lwd = c(2, 2)) 141 mtext(..., side = 1, line = 2.3) 142 legendi..., pch = pt.bg = c (.......), col = c (.......), legend = c (. salmon 3) , xlab = 3 3 , ......), bty = 'n') "I-1-1-1-1-T 850 900 950 1050 delka d. končetiny (v mm) 8