Téma 8: Parametrické úlohy o jednom náhodném výběru z normálního rozložení a dvourozměrného rozložení a jednom náhodném výběru z alternativního rozložení Upozornění: Pokud to povaha úlohy vyžaduje, proveďte test normality dat: V menu vybereme Statistika – Základní statistiky/tabulky – Tabulky četností – OK, Proměnné X – OK. Na záložce zvolíme Normalita a zaškrtneme Lilieforsův test a Shapiro – Wilksův W test – Testy normality. Úkol 1.: Vlastnosti výběrového průměru z normálního rozložení Předpokládejme, že velký ročník na vysoké škole má výsledky ze statistiky normálně rozloženy kolem střední hodnoty 72 bodů se směrodatnou odchylkou 9 bodů. Najděte pravděpodobnost, že průměr výsledků náhodného výběru 10 studentů bude větší než 80 bodů. Návod: X[1], ..., X[10] je náhodný výběr z N(72, 81). Počítáme P(M > 80), přičemž výběrový průměr M má normální rozložení se střední hodnotou E(M) = μ = 72 a rozptylem D(M) = = 8,1. Tedy P(M > 80) = 1 - P(M ≤ 80) = 1 – Φ(80), kde Φ(80) je hodnota distribuční funkce rozložení N(72; 8,1) v bodě 80. Vytvoříme datový soubor o jedné proměnné a o jednom případu. Do Dlouhého jména této proměnné napíšeme =1 – INormal(80;72;sqrt(8,1)). Zjistíme, že 1 - Φ(80) = 0,00247005. Funkce INormal(x;μ;σ) počítá hodnotu distribuční funkce rozložení N(μ,σ^2) v bodě x. Úkol k samostatnému řešení: Lze předpokládat, že hmotnost pomerančů dodávaných do obchodní sítě se řídí normálním rozložením se střední hodnotou 170 g a směrodatnou odchylkou 12 g. Jaká je pravděpodobnost, že celková hmotnost devíti náhodně vybraných pomerančů balených do síťky překročí 1,5 kg? Výsledek: Hledaná pravděpodobnost je 0,797. Úkol 3.: Intervaly spolehlivosti pro parametry μ, σ^2 normálního rozložení Z populace stejně starých selat téhož plemene bylo vylosováno šest selat a po dobu půl roku jim byla podávána táž výkrmná dieta. Byly zaznamenávány průměrné denní přírůstky hmotnosti v Dg. Z dřívějších pokusů je známo, že v populaci mívají takové přírůstky normální rozložení, avšak střední hodnota i rozptyl se měnívají. Přírůstky v Dg: 62, 54, 55, 60, 53, 58. a) Najděte 95% empirický levostranný interval spolehlivosti pro neznámou střední hodnotu μ při neznámé směrodatné odchylce σ. b) Najděte 95% empirický interval spolehlivosti pro směrodatnou odchylku σ. Návod: Vytvoříme datový soubor o 1 proměnné a 6 případech. Tuto proměnnou nazveme hmotnost a zapíšeme do ní zjištěné údaje. Statistika – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnná hmotnost – OK – na záložce Detailní výsledky zaškrtneme Meze spolehl. Prům., 95 % změníme na 90 %, dále zaškrtneme Meze sp. směr. odch. a všechny ostatní volby odškrtneme – Výpočet. ad a) Protože mez 95% levostranného intervalu spolehlivosti pro střední hodnotu je stejná jako dolní mez 90% oboustranného intervalu spolehlivosti pro střední hodnotu, vidíme, že μ > 54,06 Dg s pravděpodobností 0,95. ad b) Dostáváme výsledek: 2,23 g < σ < 8,77 g s pravděpodobností 0,95. Úkol k samostatnému řešení: Uměle připravený vzorek minerálu byl 12 krát proměřen na obsah křemene. Výsledky měření (v procentech) byly: 8,7 10,2 10,07 9,75 9,65 10,37 10,14 10,5 9,48 11,22 9,49 9,86. Za předpokladu, že výsledky měření obsahu křemene se řídí rozložením N(μ,σ^2), vypočtěte 95% empirický interval spolehlivosti a) pro střední hodnotu μ b) pro směrodatnou odchylku σ. Výsledek: Lilieforsův test ani S-W test nezamítají na hladině významnosti 0,05 normalitu dat. ad a) 9,55 % < μ < 10,35 % s pravděpodobností 0,95. ad b) 0,44 % < σ < 1,07 % s pravděpodobností 0,95. Úkol 4.: Testování hypotézy o střední hodnotě μ Systematická chyba měřicího přístroje se eliminuje nastavením přístroje a měřením etalonu, jehož správná hodnota je μ = 10,00. Nezávislými měřeními za stejných podmínek byly získány hodnoty: 10,24 10,12 9,91 10,19 9,78 10,14 9,86 10,17 10,05, které považujeme za realizace náhodného výběru rozsahu 9 z rozložení N(μ, σ^2). Je možné při riziku 0,05 vysvětlit odchylky od hodnoty 10,00 působením náhodných vlivů? Návod: Na hladině významnosti 0,05 testujeme hypotézu H[0]: μ = 10 proti oboustranné alternativě H[1]: μ 10. Jde o úlohu na jednovýběrový t-test. Ten je ve STATISTICE implementován. Načteme datový soubor mereni_etalonu.sta. 1. způsob: V Základních statistikách a tabulkách vybereme t-test, samostatný vzorek. Do Referenční hodnoty zapíšeme 10. Ve výstupu se podíváme na hodnotu testového kritéria a na p-hodnotu. Pokud p-hodnota bude menší nebo rovna 0,05, zamítneme hypotézu H[0]: μ = 10 ve prospěch oboustranné alternativní hypotézy H[1]: μ ≠ 10 na hladině významnosti 0,05. V opačném případě H[0] nezamítáme. V našem případě je Protože p-hodnota 0,373470 > 0,05 nulovou hypotézu nezamítáme na hladině významnosti 0,05. S rizikem omylu nejvýše 5% lze tedy odchylky od hodnoty 10 vysvětlit působením náhodných vlivů. Všimněme si ještě hodnoty testového kriteria: = 0,942611. Kritický obor Protože , nezamítáme na hladině významnosti 0,05 hypotézu . 2. způsob: V Základních statistikách a tabulkách vypočteme průměr a směrodatnou odchylku. Pak použijeme Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma průměry (normální rozdělení) – zaškrtneme Výběrový průměr vs. Střední hodnota – do políčka Pr1 napíšeme 10,05111, do políčka SmOd1 napíšeme 0,162669, do políčka N1 napíšeme 9, do políčka Pr2 napíšeme 10 - Výpočet. Dostaneme p-hodnotu 0,3735, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Úkol k samostatnému řešení: Při kontrole balicího automatu, který má plnit cukrem balíčky o hmotnosti 1000 g, byly při přesném převážení 5 balíčků zjištěny tyto odchylky (v gramech) od požadované hodnoty: 3, -2, 2, 0, 1. Na hladině významnosti 0,05 testujte hypotézu, že automat nemá systematickou odchylku od požadované hodnoty. Výsledek: Protože p-hodnota je 0,405023, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Úkol 5.: Testování hypotézy o směrodatné odchylce σ U 25 náhodně vybraných dvoulitrových lahví s nealkoholickým nápojem byl zjištěn přesný objem nápoje. Výběrový průměr činil m = 1,99 l a výběrová směrodatná odchylka s = 0,1 l. Předpokládejme, že objem nápoje v láhvi je náhodná veličina s normálním rozložením. Na hladině významnosti 0,05 ověřte tvrzení výrobce, že směrodatná odchylka je 0,08 l. Návod: Na hladině významnosti 0,05 testujeme hypotézu H[0]: σ = 0,08 proti oboustranné alternativě H[1]: σ ≠ 0,08 neboli H[0]: σ^2 = 0,0064 proti oboustranné alternativě H[1]: σ^2 ≠ 0,0064. Jde o úlohu na test o rozptylu. Vypočteme realizaci testového kritéria . Jelikož hodnota testového kritéria 37,5 neleží v kritickém oboru , nejsme oprávněni na hladině významnosti 0,05 zamítnout tvrzení výrobce.) V systému STATISTICA otevřeme datový soubor o třech proměnných a jednom případu. Do Dlouhého jména první proměnné napíšeme vzorec pro výpočet testového kritéria: =24*0,1^2/0,08^2 Další dvě proměnné nám poslouží k výpočtu kvantilů Pearsonova χ^2 – rozložení. Do Dlouhého jména druhé proměnné napíšeme =VChi2(0,025;24) a do Dlouhého jména třetí proměnné napíšeme =VChi2(0,975;24) Úkol 6.: Interval spolehlivosti pro rozdíl parametrů μ[1 ]- μ[2] dvourozměrného rozložení Bylo vylosováno 6 vrhů selat a z nich vždy dva sourozenci. Jeden z nich vždy dostal náhodně dietu č. 1 a druhý dietu č. 2. Přírůstky v Dg jsou následující: (62,52), (54,56), (55,49), (60,50), (53,51), (58,50). Za předpokladu, že uvedené dvojice tvoří náhodný výběr z dvourozměrného rozložení s vektorem středních hodnot (μ[1], μ[2]) a jejich rozdíly se řídí normálním rozložením, sestrojte 95% interval spolehlivosti pro rozdíl středních hodnot. Návod: Vytvoříme datový soubor o třech proměnných a šesti případech. Do proměnných v1 a v2 zapíšeme naměřené přírůstky, do proměnné v3 uložíme rozdíly v1 - v2. Ve STATISTICE je implementován výpočet oboustranného intervalu spolehlivosti pro μ, když neznáme. Pomocí Popisných statistik zjistíme meze 95% intervalu spolehlivosti pro střední hodnotu proměnné v3 tak, že zaškrtneme Meze spolehl. prům. Dostaneme výsledek: 0,63 Dg < μ < 10,71 Dg s pravděpodobností 0,95. Úkol 7.: Testování hypotézy o rozdílu parametrů μ[1 ]- μ[2] dvourozměrného rozložení Bylo vybráno šest nových vozů téže značky a po určité době bylo zjištěno, o kolik mm se sjely jejich levé a pravé přední pneumatiky. Výsledky: (1,8; 1,5), (1,0; 1,1), (2,2; 2,0), (0,9; 1,1), (1,5; 1,4), (1,6; 1,4). Za předpokladu, že uvedené dvojice tvoří náhodný výběr z dvourozměrného rozložení s vektorem středních hodnot (μ[1], μ[2]) a jejich rozdíly se řídí normálním rozložením, testujte na hladině významnosti 0,05 hypotézu, že obě pneumatiky se sjíždějí stejně rychle. Návod: Označme μ = μ[1 ]- μ[2]. Na hladině významnosti 0,05 testujeme hypotézu H[0]: μ = 0 proti oboustranné alternativě H[1]: μ ≠ 0. Jde o úlohu na párový t-test.Ten je ve STATISTICE implementován.Vytvoříme datový soubor o dvou proměnných a šesti případech. Do proměnných v1 a v2 zapíšeme naměřené přírůstky. V Základních statistikách vybereme t-test, závislé vzorky. Zadáme názvy obou proměnných a ve výstupu se podíváme na hodnotu testového kritéria a na p-hodnotu. Protože p-hodnota 0,341062 > 0,05, nezamítáme na hladině významnosti 0,05 hypotézu, že obě přední pneumatiky se sjíždějí stejně rychle. Všimněme si ještě hodnoty testového kriteria: = 1,051758. Kritický obor Protože , nezamítáme na hladině významnosti 0,05 hypotézu . Úkol k samostatnému řešení: Zkouška ze statistiky se skládá z písemné části, v níž je možno získat maximálně 20 bodů a z ústní části, kde je možno získat maximálně 10 bodů. Výsledky 20 náhodně vybraných studentů (X – počet bodů z písemné části, Y – počet bodů z ústní části): č. st. 1 2 3 4 5 6 7 8 9 10 X 6 11 8 18 6 11 6 3 14 7 Y 4 7 6 8 3 5 6 4 9 8 č. st. 11 12 13 14 15 16 17 18 19 20 X 17 12 8 4 15 20 13 5 10 0 Y 10 9 6 5 7 10 8 6 7 3 Na hladině významnosti 0,05 testujte hypotézu, že rozdíl středních hodnot počtu bodů v písemné a ústní části se liší o 3 body proti oboustranné alternativě. Data jsou uložena v souboru body ze zkousky.sta Výsledek: Lilieforsův test ani S-W test nezamítají na hladině významnosti 0,05 hypotézu o normalitě rozdílů. Testujeme H[0]: proti H[1]: . Hodnota testové statistiky = 0,178431, p-hodnota = 0,806273, na hladině významnosti 0,05 tedy nezamítáme nulovou hypotézu. Úkol 8.: Asymptotický interval spolehlivosti pro parametr alternativního rozložení Může politická strana, pro niž se v předvolebním průzkumu vyslovilo 60 z 1000 dotázaných osob, očekávat se spolehlivostí 0,95, že by v této době ve volbách překročila 5% hranici pro vstup do parlamentu? Návod: Zavedeme náhodné veličiny X[1], ..., X[1000], přičemž X[i] = 1, když i-tá osoba se vysloví pro danou politickou stranu a X[i] = 0 jinak, i = 1, ..., 1000. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A( ). V tomto případě n = 1000, m = 60/1000 = 0,06, α = 0,05, u[1-α] = u[0,95] = 1,645. Ověření podmínky n (1- ) > 9: parametr neznáme, musíme ho nahradit výběrovým průměrem. Pak 1000.0,06.0,94 = 56,4 > 9. 95% levostranný interval spolehlivosti pro je . V našem případě S pravděpodobností přibližně 0,95 tedy > 0,048. Protože tento interval zahrnuje i hodnoty nižší než 0,05, nelze vyloučit, že strana získá méně než 5% hlasů. Postup ve STATISTICE: Asymptotický způsob: Vytvoříme datový soubor o jedné proměnné (nazveme ji d) a o jednom případu. Do Dlouhého jména proměnné d napíšeme =0,06-sqrt(0,06*0,94/1000)*VNormal(0,95;0;1) Vyjde 0,047647. Přibližný způsob: Do nového datového souboru o jedné proměnné X a 1000 případech uložíme 60 jedniček (indikují volbu dané politické strany) a 940 nul (indikují volbu jiné politické strany). Statistika – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – zaškrtneme Meze spolehl. prům. – Interval 90,00 – Výpočet. Dostaneme tabulku: Protože dolní mez oboustranného 90% intervalu spolehlivosti pro střední hodnotu je shodná s dolní mezí 95% levostranného intervalu spolehlivosti, můžeme konstatovat, že voliči budou volit danou politickou stranu s pravděpodobností aspoň 4,76%. Na základě uvedených dat strana tedy nemá zaručeno, že překročí 5% hranici pro vstup do parlamentu. Úkol k samostatnému řešení: Přírůstky cen akcií na burze (v %) u 10 náhodně vybraných společností dosáhly těchto hodnot: 10, 16, 5, 10, 12, 8, 4, 6, 5, 4. Sestrojte 95% asymptotický empirický interval spolehlivosti pro pravděpodobnost, že přírůstek ceny akcie překročí 8,5%. Výsledek: 0,096 < < 0,704 s pravděpodobností aspoň 0,95. Znamená to, že pravděpodobnost, že přírůstek ceny akcie překročí 8,5%, je aspoň 9,6% a nanejvýš 70,4% (při spolehlivosti 95%.) Úkol 9.: Testování hypotézy o parametru alternativního rozložení Určitá cestovní kancelář organizuje zahraniční zájezdy podle individuálních přání zákazníků. Z několika minulých let ví, že 30% všech takto organizovaných zájezdů má za cíl zemi X. Po zhoršení politických podmínek v této zemi se cestovní kancelář obává, že se zájem o tuto zemi mezi zákazníky sníží. Ze 150 náhodně vybraných zákazníků v tomto roce má 38 za cíl právě zemi X. Potvrzují nejnovější data pokles zájmu o tuto zemi? Volte hladinu významnosti 0,05. Návod: Máme náhodný výběr X[1], ..., X[150] z rozložení A(0,3). Testujeme H[0]: = 0,3 proti levostranné alternativě H[1]: < 0,3. V tomto případě je testovým kritériem statistika , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Musíme ověřit splnění podmínky n (1- ) > 9: 150.0,3.0,7 = 31,5 > 9. Vypočteme realizaci testového kritéria: . Kritický obor: = . Protože testové kritérium nepatří do kritického oboru, H[0] nezamítáme na asymptotické hladině významnosti 0,05. Postup ve STATISTICE: Asymptotický způsob: Vytvoříme datový soubor o dvou proměnných (nazveme je t0 a kvantil) a jednom případu. Vypočteme realizaci testového kritéria tak, že do Dlouhého jména proměnné t0 napíšeme =(38/150-0,3)/sqrt(0,3*0,7/150) Do Dlouhého jména proměnné kvantil napíšeme =VNormal(0,95;0;1) Tím získáme kvantil u[0,95]. Jelikož realizace testového kritéria t[0] = -1,24721913 nepatří do kritického oboru , H[0] nezamítáme na asymptotické hladině významnosti 0,05. Přibližný způsob: Do nového datového souboru o jedné proměnné X a 150 případech uložíme 38 jedniček (indikují zájem o danou zemi) a 112 nul (indikují nezájem o danou zemi). Statistika – Základní statistiky a tabulky – t-test, samost. vzorek – OK – Proměnné X – OK, Test všech průměrů vůči 0,3 – Výpočet. Hodnota testové statistiky je při tomto přibližném způsobu -1,30976. Odpovídající p-hodnota je 0,1923, ovšem to je p-hodnota pro oboustranný test. Tuto p-hodnotu tedy musíme dělit dvěma a dostaneme 0,0961. Na asymptotické hladině významnosti 0,05 nelze zamítnout hypotézu, že zájem o danou zemi se nezměnil.