Téma 7.: Ověřování normality a parametrické úlohy o jednom náhodném výběru z normálního rozložení a dvourozměrného rozložení Grafické ověřování normality Příklad 1.: Při nanášení tenkých kovových vrstev stříbra na polymerní materiál se vyžaduje, aby tloušťka vrstvy byla 0,020 µm. Pomocí atomové absorpční spektroskopie se zjistily hodnoty, jež jsou uvedeny v tabulce a uloženy v souboru vrstva_stribra.sta. Posuďte N-P grafem a Q-Q grafem, zda výsledky měření se řídí normálním rozložením. tloušťka vrstvy 0,0212 0,0186 0,0192 0,0207 0,0200 0,0200 0,0190 0,0188 0,0208 0,0194 0,0188 0,0193 0,0204 0,0185 0,0187 0,0195 0,0191 0,0195 0,0199 0,0205 0,0189 0,0188 0,0199 0,0202 0,0208 Výpočet pomocí systému STATISTICA: Vytvoření N-P plotu: Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnná X – OK - odškrtneme Neurčovat průměrnou pozici svázaných pozorování - OK. Vytvoření Q-Q plotu: Grafy – 2D Grafy – Grafy typu Q-Q– Proměnná X – OK - odškrtneme Neurčovat průměrnou pozici svázaných pozorování - OK. N-P plot Normální p-graf z X vrstva_stribra.sta 1v*25c 0,0182 0,0184 0,0186 0,0188 0,0190 0,0192 0,0194 0,0196 0,0198 0,0200 0,0202 0,0204 0,0206 0,0208 0,0210 0,0212 0,0214 Pozorovaný kvantil -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Oček.normál.hodnoty Q-Q plot Graf kvantil-kvantil z X vrstva_stribra.sta 1v*25c Rozdělení:Normální X = 0,0196+0,0008*x -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Teoretický kvantil 0,01 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,99 0,0182 0,0184 0,0186 0,0188 0,0190 0,0192 0,0194 0,0196 0,0198 0,0200 0,0202 0,0204 0,0206 0,0208 0,0210 0,0212 0,0214 Pozorovanýkvantil Dle vzhledu obou diagramů lze soudit, že data vykazují jen lehké odchylky od normality. Testy normality Příklad 2. : U 48 studentek VŠE v Praze byla zjišťována výška a obor studia (1 – národní hospodářství, 2 – informatika). Hodnoty jsou uloženy v souboru vyska.sta. Pomocí Lilieforsovy modifikace K-S testu, pomocí S-W testu a pomocí A-D testu testujte na hladině významnosti 0,05 hypotézu, že data pocházejí z normálního rozložení. Pomocí N-P grafu posuďte vizuálně předpoklad normality. Návod: Provedení Lilieforsova a S-W testu: Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Proměnné X – OK – Normalita – zaškrtneme Lilieforsův test a S-W test – Testy normality. Testy normality (vyska.sta) Proměnná N max D Lilliefors p W p X: vyska 48 0,155621 p < ,01 0,965996 0,176031 Výstupní tabulka obsahuje počet pozorování, hodnotu testové statistiky Lilieforsovy modifikace K-S testu (max D = 0,155621), p-hodnotu (p < 0,01), testovou statistiku S-W testu (W = 0,965996) a odpovídající p-hodnotu (p = 0,176031). Vidíme, že Lilieforsův test zamítá hypotézu o normalitě na hladině významnosti 0,05, zatímco S-W test nikoli. Provedení A - D testu: Statistiky – Rozdělení & simulace – proložení dat rozděleními – OK – Proměnné Spojité: X – na záložce Spojité proměnné ponecháme zaškrtnuté pouze Normální, na záložce Možnosti vybereme Anderson – Darling – OK – Souhrnné statistiky rozdělení. Souhrn rozdělení for Proměnná: X (vyska.sta) K-S d K-S p-hodn. AD stat. AD p-hodn. Chí-kvadrát Chí-kvadr. p-hodn. Chí-kvadr. SV Posun (práh/poloha) Normální (poloha,měřítko) 0,155621 0,175802 0,660990 0,591425 15,37500 0,017532 6,000000 Vidíme, že Testová statistika A – D testu je 0,661, odpovídající p-hodnota je 0,5914, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Vytvoření N-P grafu: Návod: Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnné X – OK. 150 155 160 165 170 175 180 185 190 Pozorovaný kvantil -3 -2 -1 0 1 2 3 Oček.normál.hodnoty Tečky se řadí podél ideální přímky, normalita je jen lehce porušena. Samostatný úkol: Testy normality a grafické ověření normality proveďte jak pro výšky studentek oboru národní hospodářství, tak pro výšku studentek oboru informatiky. Pro kontrolu: Výsledky pro obor národní hospodářství: Testy normality (vyska.sta) Zhrnout podmínku: z=1 Proměnná N max D Lilliefors p W p X: vyska 28 0,167473 p < ,05 0,970969 0,606793 Vidíme, že Lilieforsova varianta K-S testu zamítá hypotézu o normalitě na hladině významnosti 0,05 (p-hodnota je menší než 0,05), zatímco S-W test hypotézu o normalitě nezamítá (p-hodnota je větší než 0,05). Souhrn rozdělení for Proměnná: X (vyska.sta) Zhrnout podmínku: z=1 K-S d K-S p-hodn. AD stat. AD p-hodn. Chí-kvadrát Chí-kvadr. p-hodn. Chí-kvadr. SV Posun (práh/poloha) Normální (poloha,měřítko) 0,167473 0,370570 0,419238 0,828398 2,000000 0,157299 1,000000 A-D test poskytne hodnotu testové statistiky 0,4192, odpovídající p-hodnota je 0,8284, tedy A-D test nezamítá hypotézu o normalitě na hladině významnosti 0,05. Výsledky pro obor informatika: Testy normality (vyska.sta) Zhrnout podmínku: z=2 Proměnná N max D Lilliefors p W p X: vyska 20 0,172301 p < ,15 0,922747 0,111924 Souhrn rozdělení for Proměnná: X (vyska.sta) Zhrnout podmínku: z=2 K-S d K-S p-hodn. AD stat. AD p-hodn. Chí-kvadrát Chí-kvadr. p-hodn. Chí-kvadr. SV Posun (práh/poloha) Normální (poloha,měřítko) 0,172301 0,536360 0,566019 0,678546 V tomto případě ani jeden z testů hypotézu o normalitě nezamítá na hladině významnosti 0,05. Parametrické úlohy o jednom náhodném výběru z normálního rozložení Upozornění: Pokud to povaha úlohy vyžaduje, proveďte test normality dat: Příklad 3.: Vlastnosti výběrového průměru z normálního rozložení Předpokládejme, že velký ročník na vysoké škole má výsledky ze statistiky normálně rozloženy kolem střední hodnoty 72 bodů se směrodatnou odchylkou 9 bodů. Najděte pravděpodobnost, že průměr výsledků náhodného výběru 10 studentů bude větší než 80 bodů. Návod: X1, ..., X10 je náhodný výběr z N(72, 81). Počítáme P(M > 80), přičemž výběrový průměr M má normální rozložení se střední hodnotou E(M) = µ = 72 a rozptylem D(M) = 10 81 n 2 = σ = 8,1. Tedy P(M > 80) = 1 - P(M ≤ 80) = 1 – Φ(80), kde Φ(80) je hodnota distribuční funkce rozložení N(72; 8,1) v bodě 80. Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor o jedné proměnné a o jednom případu. Do Dlouhého jména této proměnné napíšeme =1 – INormal(80;72;sqrt(8,1)). Zjistíme, že 1 - Φ(80) = 0,00247005. Funkce INormal(x;µ;σ) počítá hodnotu distribuční funkce rozložení N(µ,σ2 ) v bodě x. Příklad 4.: Intervaly spolehlivosti pro parametry µ, σ2 normálního rozložení Z populace stejně starých selat téhož plemene bylo vylosováno šest selat a po dobu půl roku jim byla podávána táž výkrmná dieta. Byly zaznamenávány průměrné denní přírůstky hmotnosti v Dg. Z dřívějších pokusů je známo, že v populaci mívají takové přírůstky normální rozložení, avšak střední hodnota i rozptyl se měnívají. Přírůstky v Dg: 62, 54, 55, 60, 53, 58. a) Najděte 95% empirický levostranný interval spolehlivosti pro neznámou střední hodnotu µ při neznámé směrodatné odchylce σ. b) Najděte 95% empirický interval spolehlivosti pro směrodatnou odchylku σ. Návod: Vytvoříme datový soubor o 1 proměnné a 6 případech. Tuto proměnnou nazveme hmotnost a zapíšeme do ní zjištěné údaje. Výpočet pomocí systému STATISTICA: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnná hmotnost – OK – na záložce Detailní výsledky zaškrtneme Meze spolehl. prům., 95 % změníme na 90 %, dále zaškrtneme Meze sp. směr. odch. a všechny ostatní volby odškrtneme – Výpočet. Popisné statistiky (Tabulka4) Proměnná Int. spolehl. -90,000% Int. spolehl. 90,000 Spolehlivost Sm.Odch. -95,000% Spolehlivost Sm.Odch. +95,000% hmotnost 54,05683 59,94317 2,233234 8,774739 ad a) Protože mez 95% levostranného intervalu spolehlivosti pro střední hodnotu je stejná jako dolní mez 90% oboustranného intervalu spolehlivosti pro střední hodnotu, vidíme, že µ > 54,06 Dg s pravděpodobností 0,95. ad b) Dostáváme výsledek: 2,23 g < σ < 8,77 g s pravděpodobností 0,95. Příklad 5.: Testování hypotézy o střední hodnotě µ Systematická chyba měřicího přístroje se eliminuje nastavením přístroje a měřením etalonu, jehož správná hodnota je µ = 10,00. Nezávislými měřeními za stejných podmínek byly získány hodnoty: 10,24 10,12 9,91 10,19 9,78 10,14 9,86 10,17 10,05, které považujeme za realizace náhodného výběru rozsahu 9 z rozložení N(µ, σ2 ). Je možné při riziku 0,05 vysvětlit odchylky od hodnoty 10,00 působením náhodných vlivů? Návod: Na hladině významnosti 0,05 testujeme hypotézu H0: µ = 10 proti oboustranné alternativě H1: µ ≠ 10. Jde o úlohu na jednovýběrový t-test. Ten je ve STATISTICE implementován. Načteme datový soubor mereni_etalonu.sta. 1. způsob: V Základních statistikách a tabulkách vybereme t-test, samostatný vzorek. Do Referenční hodnoty zapíšeme 10. Ve výstupu se podíváme na hodnotu testového kritéria a na p-hodnotu. Pokud p-hodnota bude menší nebo rovna 0,05, zamítneme hypotézu H0: µ = 10 ve prospěch oboustranné alternativní hypotézy H1: µ ≠ 10 na hladině významnosti 0,05. V opačném případě H0 nezamítáme. V našem případě je Test průměrů vůči referenční konstantě (hodnotě) Proměnná Průměr Sm.odch. N Sm.chyba Referenční konstanta t SV p Prom1 10,05111 0,162669 9 0,054223 10,00000 0,942611 8 0,373470 Protože p-hodnota 0,373470 > 0,05 nulovou hypotézu nezamítáme na hladině významnosti 0,05. Odchylky od hodnoty 10 lze vysvětlit působením náhodných vlivů. Všimněme si ještě hodnoty testového kriteria: 0t = 0,942611. Kritický obor ( )( ( ) ) ( )( ( ) ) ( )∞∪−∞−= =∞∪−∞−=∞−∪−−∞−= α−α− ,306,2306,2, ,8t8t,,1nt1nt,W 975,0975,02/12/1 Protože Wt0 ∉ , nezamítáme na hladině významnosti 0,05 hypotézu 0H . 2. způsob: V Základních statistikách a tabulkách vypočteme průměr a směrodatnou odchylku. Pak použijeme Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma průměry (normální rozdělení) – zaškrtneme Výběrový průměr vs. Střední hodnota – do políčka Pr1 napíšeme 10,05111, do políčka SmOd1 napíšeme 0,162669, do políčka N1 napíšeme 9, do políčka Pr2 napíšeme 10 - Výpočet. Dostaneme p-hodnotu 0,3735, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Příklad 6.: Testování hypotézy o směrodatné odchylce σ U 25 náhodně vybraných dvoulitrových lahví s nealkoholickým nápojem byl zjištěn přesný objem nápoje. Výběrový průměr činil m = 1,99 l a výběrová směrodatná odchylka s = 0,1 l. Předpokládejme, že objem nápoje v láhvi je náhodná veličina s normálním rozložením. Na hladině významnosti 0,05 ověřte tvrzení výrobce, že směrodatná odchylka je 0,08 l. Návod: Na hladině významnosti 0,05 testujeme hypotézu H0: σ = 0,08 proti oboustranné alternativě H1: σ ≠ 0,08 neboli H0: σ2 = 0,0064 proti oboustranné alternativě H1: σ2 ≠ 0,0064. Jde o úlohu na test o rozptylu. Vypočteme realizaci testového kritéria ( ) 5,37 08,0 1,024 c s1n t 2 22 0 = ⋅ = − = . Jelikož hodnota testového kritéria 37,5 neleží v kritickém oboru ( )( ( ) ) ( )∞∪=∞χ∪χ= ;4,394,12;0;2424;0W 975,0 2 025,0 2 , nejsme oprávněni na hladině významnosti 0,05 zamítnout tvrzení výrobce.) V systému STATISTICA otevřeme datový soubor o třech proměnných a jednom případu. Do Dlouhého jména první proměnné napíšeme vzorec pro výpočet testového kritéria: =24*0,1^2/0,08^2 Další dvě proměnné nám poslouží k výpočtu kvantilů Pearsonova χ2 – rozložení. Do Dlouhého jména druhé proměnné napíšeme =VChi2(0,025;24) a do Dlouhého jména třetí proměnné napíšeme =VChi2(0,975;24) Příklad 7.: Interval spolehlivosti pro rozdíl parametrů µ1 - µ2 dvourozměrného rozložení Bylo vylosováno 6 vrhů selat a z nich vždy dva sourozenci. Jeden z nich vždy dostal náhodně dietu č. 1 a druhý dietu č. 2. Přírůstky v Dg jsou následující: (62,52), (54,56), (55,49), (60,50), (53,51), (58,50). Za předpokladu, že uvedené dvojice tvoří náhodný výběr z dvourozměrného rozložení s vektorem středních hodnot (µ1, µ2) a jejich rozdíly se řídí normálním rozložením, sestrojte 95% interval spolehlivosti pro rozdíl středních hodnot. Návod: Vytvoříme datový soubor o třech proměnných a šesti případech. Do proměnných v1 a v2 zapíšeme naměřené přírůstky, do proměnné v3 uložíme rozdíly v1 - v2. Ve STATISTICE je implementován výpočet oboustranného intervalu spolehlivosti pro µ, když 2 σ neznáme. Pomocí Popisných statistik zjistíme meze 95% intervalu spolehlivosti pro střední hodnotu proměnné v3 tak, že zaškrtneme Meze spolehl. prům. Popisné statistiky Proměnná Int. spolehl. -95,000% Int. spolehl. +95,000% Prom3 0,626461 10,70687 Dostaneme výsledek: 0,63 Dg < µ < 10,71 Dg s pravděpodobností 0,95. Příklad 8.: Testování hypotézy o rozdílu parametrů µ1 - µ2 dvourozměrného rozložení Bylo vybráno šest nových vozů téže značky a po určité době bylo zjištěno, o kolik mm se sjely jejich levé a pravé přední pneumatiky. Výsledky: (1,8; 1,5), (1,0; 1,1), (2,2; 2,0), (0,9; 1,1), (1,5; 1,4), (1,6; 1,4). Za předpokladu, že uvedené dvojice tvoří náhodný výběr z dvourozměrného rozložení s vektorem středních hodnot (µ1, µ2) a jejich rozdíly se řídí normálním rozložením, testujte na hladině významnosti 0,05 hypotézu, že obě pneumatiky se sjíždějí stejně rychle. Návod: Označme µ = µ1 - µ2. Na hladině významnosti 0,05 testujeme hypotézu H0: µ = 0 proti oboustranné alternativě H1: µ ≠ 0. Jde o úlohu na párový t-test.Ten je ve STATISTICE implementován.Vytvoříme datový soubor o dvou proměnných a šesti případech. Do proměnných v1 a v2 zapíšeme naměřené přírůstky. V Základních statistikách vybereme t-test, závislé vzorky. Zadáme názvy obou proměnných a ve výstupu se podíváme na hodnotu testového kritéria a na p-hodnotu. t-test pro závislé vzorky (Tabulka1) Označ. rozdíly jsou významné na hlad. p < ,05000 Proměnná Průměr Sm.odch. N Rozdíl Sm.odch. rozdílu t sv p X Y 1,500000 0,489898 1,416667 0,331160 6 0,083333 0,194079 1,051758 5 0,341062 Protože p-hodnota 0,341062 > 0,05, nezamítáme na hladině významnosti 0,05 hypotézu, že obě přední pneumatiky se sjíždějí stejně rychle. Všimněme si ještě hodnoty testového kriteria: 0t = 1,051758. Kritický obor ( )( ( ) ) ( )( ( ) ) ( )∞∪−∞−= =∞∪−∞−=∞−∪−−∞−= α−α− ,5706,25706,2, ,5t5t,,1nt1nt,W 975,0975,02/12/1 Protože Wt0 ∉ , nezamítáme na hladině významnosti 0,05 hypotézu 0H .