7 Uvod do testování hypotéz Dataset: ll-two-samples-means-skull.txt Datový soubor ll-two-samples-means-skull.txt obsahuje původní kraniometrické údaje o basion-bregmatické výšce lebky u 215 dospělých mužů a 107 dospělých žen ze starověké egyptské populace. Data pochází z archivních materiálů (Schmitd, 1888). Popis proměnných v datasetu: • id ... pořadové číslo; • pop ... populace (egant - egyptská starověká); • sex ... pohlaví jedince (m - muž, f - žena); • skuli.H ... basion-bregmatická výška lebky (v mm). Příklad 7.1. Test o normalitě dat Načtěte datový soubor ll-two-samples-means-skull.txt. Na hladině významnosti a = 0.05 testujte hypotézu, že náhodný výběr basion-bregmatických výšek lebky (skuli.H) mužů starověké egyptské populace pochází z normálního rozdělení. Řešení příkladu 7.1 • Hq : Data pochází / nepochází z normálního rozdělení. • Hi : Data pochází / nepochází z normálního rozdělení. Hladina významnosti a =................ n min max 1 215 119 146 Náhodný výběr obsahuje údaje o basion-bregmatické výšce lebky ................. mužů starověké egyptské populace. Naměřené hodnoty se pohybují v rozmezí .............-.............mm. Protože rozsah náhodného výběru výšek lebky n < 30 / 30 < n < 100 / n > 100 použijeme na testování hypotézy o normalitě dat Shapirův-Wilkův / Andersonův-Darlingův / Lillieforsův test. [1] 0.1262537 Protože p-hodnota p = ..................... je větší / menší než a = 0.05, Hq zamítáme / nezamítáme na hladině významnosti a = 0.05. Grafická vizualizace rozdělení náhodného výběru ~~I-1-1-1-1-1-1-1-1— 1-1-1-1-1-1-f 120.5 126.5 132.5 138.5 144.5 -3 -2 -1 0 1 2 3 vyska lebky (v mm) teoreticky kvantil Interpretace výsledků: Náhodný výběr basion-bregmatických výšek lebky mužů starověké egyptské populace pochází / nepochází z normálního rozdělení. 1 Dataset: 15-anova-means-skull.txt Datový soubor 15-anova-means-skull.txt obsahuje původní kraniometrické údaje o výšce horní části tváře mužů z německé, malajské, čínské, peruánské a bantuské populace. Data pochází z archivních materiálů (Schmitd, 1888). Popis proměnných v datasetu: • id ... pořadové číslo; • pop ... populace (nem - německá, mal - malajská, cin - čínská, per - peruánská, ban - bantuská); • sex ... pohlaví jedince (m - muž); • upface.H .. .výška horní části tváře, přímá vzdálenost mezi body nasion a prosthion (v mm). Příklad 7.2. Test o normalitě dat Načtěte datový soubor 15-anova-means-skull.txt. Na hladině významnosti a = 0.10 testujte hypotézu, že náhodný výběr výšek horní části tváře (upface.H) mužů německé populace pochází z normálního rozdělení. Řešení příkladu 7.2 • Hq : Data...................................... z normálního rozdělení. • Hi : Data...................................... z normálního rozdělení. Hladina významnosti a =................ n min max 1 19 62 76 Náhodný výběr obsahuje údaje o výšce horní části tváře ................. mužů německé populace. Naměřené hodnoty se pohybují v rozmezí .............-.............mm. Protože rozsah náhodného výběru výšek horní části tváře n < 30 / 30 < n < 100 / n > 100 použijeme na testování hypotézy o normalitě dat Shapirův-Wilkův / Andersonův-Darlingův / Lillieforsův test. [1] 0.04190113 Protože p-hodnota p = .................................je větší / menší než a = 0.10, Hq ................................. na hladině významnosti a = 0.10. Interpretace výsledků: Náhodný výběr výšek horní části tváře mužů německé populace normálního rozdělení. z ★ 999999999999 Dataset: 19-more-samples-correlations-skull.txt Datový soubor 19-more-samples-correlations-skull.txt obsahuje údaje o šířce nosu a o interorbitální šířce mužů z německé, malajské, čínské, peruánské a bantuské populace. Data pochází z archivních materiálů (Schmitd, 1888). Popis proměnných v datasetu: • pop ... populace (nem - německá, mal - malajská, cin - čínská, per - peruánská, ban - bantuská); • sex ... pohlaví jedince (m - muž); • nose.B ... šířka nosu (v mm); • intorb.B ... interorbitální šířka (v mm). Příklad 7.3. Test o dvourozměrné normalitě dat Načtěte datový soubor 19-more-samples-correlations-skull.txt. Nechť náhodná veličina X popisuje šířku nosu a náhodná veličina Y popisuje interorbitální šířku mužů peruánské populace. Na hladině významnosti a = 0.05 testujte hypotézu, že náhodný vektor (X, Y)T pochází z dvourozměrného normálního rozdělení. Řešení příkladu 7.3 • Hq : Data pochází / nepochází z dvourozměrného normálního rozdělení. • Hi : Data pochází / nepochází z dvourozměrného normálního rozdělení. Hladina významnosti a =................ n min_X max_X min_Y max_Y 1 46 19 26 19 28 Náhodný výběr obsahuje údaje o šířce nosu a interorbitální šířce ................. mužů peruánské populace. Hodnoty šířky nosu se pohybují v rozmezí.............-.............mm, hodnoty interorbitální šířky se pohybují v rozmezí.............- .............mm. Dvourozměrnou normalitu otestujeme Mardiovým testem. Ten sestává z dvou částí: (a) z testu šikmosti • Hoa : Data vykazují / nevykazují kladné nebo záporné zešikmení. • Hia : Data vykazují / nevykazují kladné ani záporné zešikmení, (b) z testu špičatosti • Hob : Data vykazují / nevykazují zešpičatění nebo zploštění. • Hu, : Data vykazují / nevykazují zešpičatění ani zploštění. Data pochází z dvourozměrného normálního rozdělení, pokud nevykazují ani zešikmení ani zešpičatění. Test Statistic p value Result 1 Mardia Skewness 4.27819772855481 0 369663150730262 YES 2 Mardia Kurtosis -0.0684871107744411 0 945397880096616 YES 3 MVN YES 9 10 11 12 Protože p-hodnota testu šikmosti p =............................je menší / větší než a = 0.05, H$a zamítáme / nezamítáme na hladině významnosti a = 0.05. Data vykazují / nevykazují výrazné zešikmení. Protože p-hodnota testu špičatosti p =............................je menší / větší než a = 0.05, H^b zamítáme / nezamítáme na hladině významnosti a = 0.05. Data vykazují / nevykazují výrazné zešpičatění nebo zploštění. 3 Grafická vizualizace rozdělení náhodného výběru sirka nosu (v mm) Mimo 95% elipsu spolehlivosti leží ......... z celkového počtu ......... pozorování, tj..........%, tedy více / méně než 5% dat. Interpretace výsledků: Náhodný výběr šířky nosu a interorbitální šířky mužů peruánské populace pochází / nepochází z dvourozměrného normálního rozdělení. Dataset: 16-anova-head.txt Datový soubor 16-anova-head.txt obsahuje antropometrické údaje mladých dospelých lidí, převážně studentů vysokých škol z Brna a Ostravy (Králík, nepublikovaná data). Popis proměnných v datasetu: • sex ... pohlaví jedince (m - muž, f - žena); • sexor ... sexuální orientace (op - výlučně opačné pohlaví, sa - ostatní) • obra ... existence staršího bratra (yes - ano, no - ne) • head.L .. .délka hlavy, vzdálenost mezi body glabella a opisthocranion (v mm); • bizyg.W .. .šířka tváře, vzdálenost obou bodů zygion dakryon (v mm). Příklad 7.4. Test o dvourozměrné normalitě dat Načtěte datový soubor 16-anova-head.txt. Nechť náhodná veličina X popisuje délku hlavy a náhodná veličina Y popisuje šířku tváře žen. Na hladině významnosti a = 0.10 testujte hypotézu, že náhodný vektor (X, Y)T pochází z dvourozměrného normálního rozdělení. Řešení příkladu 7.4 • Hq : Data...................................... z dvourozměrného normálního rozdělení. • Hi : Data...................................... z dvourozměrného normálního rozdělení. Hladina významnosti a =................ n min_X max_X min_Y max_Y 1 100 170 205 120 151 13 14 Náhodný výběr obsahuje údaje o délce hlavy a šířce tváře ................. žen. Naměřené hodnoty délky hlavy se pohybují v rozmezí.............-.............mm, naměřené hodnoty šířky tváře se pohybují v rozmezí.............-.............mm. 4 Dvourozměrnou normalitu otestujeme Mardiovým testem. Ten sestává z dvou částí: (a) z testu šikmosti • Hoa : Data......................................kladné ani záporné zešikmení. • Hia : Data......................................kladní ani záporné zešikmení. (b) z testu špičatosti • Hqi, : Data...................................... zešpičatění nebo zploštění. • Hu, : Data...................................... zešpičatění nebo zploštění. Test Statistic p value Result 1 Mardia Skewness 9.8656660128771 0 042752347786637 NO 2 Mardia Kurtosis 0.604444695534365 0 545548027690992 YES 3 MVN NO 15 16 17 18 Protože p-hodnota testu šikmosti p = ..........................je větší / menší než a = 0.10, H$a zamítáme / nezamítáme na hladině významnosti a = 0.10. Data vykazují / nevykazují výrazné zešikmení. Protože p-hodnota testu špičatosti p = ..........................je větší / menší než a = 0.10, H^b zamítáme / nezamítáme na hladině významnosti a = 0.10. Data vykazují / nevykazují výrazné zešpičatění nebo zploštění. aeiJsa hlavy (v mm)" 150 - 140 130 - 120 ° n ů o S* /° o _o O CK o / fi op 8c, 7 o 8°°»» > cP o ) i °y > C A co (Zó \o < ) oo y 170 180 190 délka hlavy (v mm) 200 Mimo 90% elipsu spolehlivosti leží.........z celkového počtu dat. pozorování, tj..........%, tedy.................než 10 % Interpretace výsledků: Náhodný výběr délek hlavy a šířek tváře žen .................................... z dvourozměrného normálního rozdělení. 5