Téma 6.: Základní pojmy matematické statistiky Příklad 1.: Ve 12 náhodně vybraných prodejnách ve městě byly zjištěny následující ceny určitého výrobku (v Kč): 102, 99, 106, 103, 96, 98, 100, 105, 103, 98, 104, 107. Těchto 12 hodnot považujeme za realizace náhodného výběru X1, ..., X12 z rozložení, které má střední hodnotu µ a rozptyl σ2 . a) Určete nestranné bodové odhady neznámé střední hodnoty µ a neznámého rozptylu σ2 . b) Najděte výběrovou distribuční funkci F12(x) a nakreslete její graf. Řešení: Vypočteme realizaci výběrového průměru ( ) 75,10110799102 12 1 m =+++= K Kč Vypočteme realizaci výběrového rozptylu: ( ) ( ) ( )[ ] 39,1275,10110775,1019975,101102 11 1 s 2222 =−++−+−= K Kč2 Pro usnadnění výpočtu hodnot výběrové distribuční funkce F12(x) uspořádáme ceny podle velikosti: 96, 98, 98, 99, 100, 102, 103, 103, 104, 105, 106, 107. Číselnou osu rozdělíme na 11 intervalů a v každém intervalu stanovíme hodnotu výběrové distribuční funkce. 1)x(F:071x 691,0 12 11 )x(F:107x106 38,0 12 10 )x(F:106x105 75,0 12 9 )x(F:105x104 6,0 12 8 )x(F:104x103 5,0 12 6 )x(F:103x102 641,0 12 5 )x(F:102x001 3,0 12 4 )x(F:001x99 25,0 12 3 )x(F:99x89 308,0 12 1 )x(F:98x96 0)x(F:96x 12 12 12 12 12 12 12 12 12 12 12 =≥ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ =< 96 98 99 100 102 103 104 105 106 107 x -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 F12(x) Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné (nazveme ji X) a 12 případech. Do proměnné X napíšeme zjištěné ceny. Výpočet realizace výběrového průměru a výběrového rozptylu: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – vybereme Průměr a Rozptyl – Výpočet. Dostaneme tabulku: Popisné statistiky (Tabulka15) Proměnná Průměr Rozptyl X 101,7500 12,38636 Výpočet hodnot výběrové distribuční funkce: Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Proměnné X – OK – Možnosti – ponecháme zaškrtnuté pouze Kumulativní relativní četnosti – Výpočet. Ke vzniklé tabulce přidáme jeden případ před první případ (do sloupce Kategorie napíšeme 95, do sloupce Kumulativní rel. četnost napíšeme 0 ) a jeden případ za poslední případ (do sloupce Kategorie napíšeme 107, do sloupce Kumulativní rel. četnost napíšeme 100). Proměnnou Kumulativní rel. četnost podělíme 100: do jejího Dlouhého jména napíšeme = v2/100. Kreslení grafu výběrové distribuční funkce: Nastavíme se kurzorem na proměnnou Kumulativní rel. četnost, klikneme pravým tlačítkem – Grafy bloku dat – Spojnicový graf: celé sloupce. Ve vytvořeném grafu odstraníme značky, spojnici změníme na schodovitou a upravíme měřítko na vodorovné ose od 1 do 12. Příklad 2.: Přírůstky cen akcií v % na burze v New Yorku u 10 náhodně vybraných společností dosáhly těchto hodnot: 10, 16, 5, 10, 12, 8, 4, 6, 5, 4. Odhadněte střední hodnotu a směrodatnou odchylku růstu cen akcií a dále odhadněte pravděpodobnost růstu cen akcií aspoň o 8,5 %. Výsledky: Průměrný růst cen akcií odhadujeme na 8 % se směrodatnou odchylkou 3,97 %. Dále, u 40 % akcií vzrostla cena aspoň o 8,5 %. Příklad 3.: Bylo zkoumáno 9 vzorků půdy s různým obsahem fosforu (veličina X). Hodnoty veličiny Y označují obsah fosforu v obilných klíčcích (po 38 dnech), jež vyrostly na těchto vzorcích půdy. číslo vzorku 1 2 3 4 5 6 7 8 9 X 1 4 5 9 11 13 23 23 28 Y 64 71 54 81 76 93 77 95 109 Těchto 9 dvojic hodnot považujeme za realizace náhodného výběru (X1,Y1), ..., (X9,Y9) z dvourozměrného rozložení s kovariancí σ12 a koeficientem korelace ρ. Najděte bodové odhady kovariance σ12 a koeficientu korelace ρ. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných X a Y 9 případech. Do proměnných X a Y zapíšeme zjištěné hodnoty obsafu fosforu v půdě a v obilných klíčcích. Výpočet výběrové kovariance: Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, nezávisle proměnná X – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky – Kovariance. Dostaneme tabulku: Kovariance (Tabulka18) Proměnná X Y X Y 91,7500 130,0000 130,0000 284,2500 Vidíme, že výběrová kovariance veličin X, Y se realizuje hodnotou 130. (Výběrový rozptyl proměnné X resp. Y nabyl hodnoty 91,75 resp. 284,25.) Výpočet výběrového koeficientu korelace: V menu Další statistiky vybereme Korelace. Korelace (Tabulka18) Proměnná X Y X Y 1,000000 0,804989 0,804989 1,000000 Výběrový koeficient korelace veličin X, Y nabyl hodnoty 0,805, tedy mezi veličinami x, Y existuje silná přímá lineární závislost. Upozornění: Výběrový koeficient korelace lze pomocí systému STATISTICA vypočítat i jiným způsobem: Statistika – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměnných – X, Y – OK – Výpočet. Ve výsledné tabulce máme též realizace výběrových průměrů a směrodatných odchylek. Korelace (Tabulka18) Označ. korelace jsou významné na hlad. p < ,05000 N=9 (Celé případy vynechány u ChD) Proměnná Průměry Sm.odch. X Y X Y 13,00000 9,57862 1,000000 0,804989 80,00000 16,85972 0,804989 1,000000 Příklad 4.: Pět mužů zjistilo a zapsalo svou hmotnost (v kg) a výšku (v cm): Číslo muže 1 2 3 4 5 Hmotnost 76 86 73 84 79 Výška 170 177 169 174 175 Najděte nestranný bodový odhad rozptylu hmotnosti, rozptylu výšky a kovariance hmotnosti a výšky. Vypočtěte rovněž realizaci výběrového koeficientu korelace hmotnosti a výšky. Výsledky: Výběrový rozptyl hmotnosti se realizuje hodnotou 29,3, výběrový rozptyl výšky 11,5 a výběrová kovariance hmotnost a výšky se realizuje hodnotou 16,5. Výběrový koeficient korelace hmotnosti a výšky nabývá hodnoty 0,8989. Příklad 5.: Při kontrolních zkouškách životnosti 16 žárovek byl stanoven odhad m = 3000 h střední hodnoty jejich životnosti. Z dřívějších zkoušek je známo, že životnost žárovky se řídí normálním rozložením se směrodatnou odchylkou σ = 20 h. Vypočtěte a) 99% empirický interval spolehlivosti pro střední hodnotu životnosti b) 90% levostranný empirický interval spolehlivosti pro střední hodnotu životnosti c) 95% pravostranný empirický interval spolehlivosti pro střední hodnotu životnosti. Upozornění: Výsledek zaokrouhlete na jedno desetinné místo a vyjádřete v hodinách a minu- tách. Řešení: ad a) 1,298757583,2 16 20 3000u n md 995,0 =−= σ −= , 9,301257583,2 16 20 3000u n mh 995,0 =+= σ += 2987 h a 6 min < µ < 3012 h a 54 min s pravděpodobností 0,99 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných d, h a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,995;0;1) Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,995;0;1) ad b) 6,299328155,1 16 20 3000u n md 9,0 =−= σ −= 2993 h a 36 min < µ s pravděpodobností 0,9 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné d a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,9;0;1) ad c) 8,300995996,1 16 20 3000u n mh 975,0 =+= σ += 3009 h a 48 min > µ s pravděpodobností 0,95 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné h a jednom případu. Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,975;0;1) Užitečný odkaz: na adrese http://www.prevody-jednotek.cz je program, s jehož pomocí lze převádět různé fyzikální jednotky, v našem případě hodiny na minuty. Příklad 6.: Víme, že výška hochů ve věku 9,5 až 10 let má normální rozložení s neznámou střední hodnotou µ a známým rozptylem σ2 = 39,112 cm2 . Dětský lékař náhodně vybral 15 hochů uvedeného věku, změřil je a vypočítal realizaci výběrového průměru m = 139,13 cm. Podle jeho názoru by výška hochů v tomto věku neměla přesáhnout 142 cm s pravděpodobností 0,95. Lze tvrzení lékaře akceptovat? Řešení: Testujeme H0: µ = 142 proti H1: µ < 142 na hladině významnosti 0,05. a) Test provedeme pomocí kritického oboru. Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu používáme pivotovou statistiku U = n M σ µ− ~ N(0, 1). Testová statistika tedy bude T0 = n cM σ − a bude mít rozložení N(0, 1), pokud je nulová hypotéza pravdivá. Vypočítáme realizaci testového kritéria: t0 = 7773,1 15 112,39 14213,139 −= − . Stanovíme kritický obor: W = ( ( ( ( 6449,1,u,u,u, 95,005,0 −∞−=−∞−=∞−=∞− α . Protože -1,7773 ∈ W, H0 zamítáme na hladině významnosti 0,05. Tvrzení lékaře lze tedy akceptovat s rizikem omylu 5 %. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(1-α)% empirického pravostranného intervalu spolehlivosti pro střední hodnotu µ při známém rozptylu σ2 jsou: (-∞, h) = (-∞, m + n σ u1-α). V našem případě dostáváme: h = 139,13 + 15 112,39 u0,95 = 139,13 + 15 112,39 1,645 = 141,79. Protože 142 ∉(-∞; 141,79), H0 zamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty p = P(T0 ≤ t0) = Φ(-1,7773) = 0,0378 Jelikož 0,0378 ≤ 0,05, nulovou hypotézu zamítáme na hladině významnosti 0,05. Při řešení tohoto příkladu použijeme systém STATISTICA pouze jako inteligentní kalkulátor.