Téma 6.: Základní pojmy matematické statistiky Vlastnosti důležitých statistik odvozených z jednorozměrného náhodného výběru: Nechť X[1], ..., X[n ]je náhodný výběr z rozložení se střední hodnotou μ, rozptylem σ^2 a distribuční funkcí Φ(x). Nechť n ≥ 2. Označme výběrový průměr, výběrový rozptyl, pro libovolné, ale pevně dané označme počet těch veličin X[1], …, X[n], které jsou ≤ x hodnotu výběrové distribuční funkce. Pak pro libovolné hodnoty parametrů μ , σ^2 a libovolné, ale pevně dané reálné číslo x platí: E(M) = μ, E(S[n]^2) = σ^2, E(F[n](x)) = Ф(x), Znamená to, že - výběrový průměr M je nestranným odhadem střední hodnoty μ, - výběrový rozptyl S^2 je nestranným odhadem rozptylu σ^2, - pro libovolné, ale pevně dané je výběrová distribuční funkce F[n](x) nestranným odhadem distribuční funkce Φ(x). Příklad 1.: Ve 12 náhodně vybraných prodejnách ve městě byly zjištěny následující ceny určitého výrobku (v Kč): 102, 99, 106, 103, 96, 98, 100, 105, 103, 98, 104, 107. Těchto 12 hodnot považujeme za realizace náhodného výběru X[1], ..., X[12] z rozložení, které má střední hodnotu μ a rozptyl σ^2. a) Určete nestranné bodové odhady neznámé střední hodnoty μ a neznámého rozptylu σ^2. b) Najděte výběrovou distribuční funkci F[12](x) a nakreslete její graf. Řešení: Vypočteme realizaci výběrového průměru Kč Vypočteme realizaci výběrového rozptylu: Kč^2 Pro usnadnění výpočtu hodnot výběrové distribuční funkce F[12](x) uspořádáme ceny podle velikosti: 96, 98, 98, 99, 100, 102, 103, 103, 104, 105, 106, 107. Číselnou osu rozdělíme na 11 intervalů a v každém intervalu stanovíme hodnotu výběrové distribuční funkce. Výpočet pomocí systému STATISTICA: Načteme datový soubor ceny_vyrobku.sta. Výpočet realizace výběrového průměru a výběrového rozptylu: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – vybereme Průměr a Rozptyl – Výpočet. Dostaneme tabulku: Výpočet hodnot výběrové distribuční funkce: Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Proměnné X – OK – Možnosti – ponecháme zaškrtnuté pouze Kumulativní relativní četnosti – Výpočet. Ke vzniklé tabulce přidáme jeden případ před první případ (do sloupce Kategorie napíšeme 95, do sloupce Kumulativní rel. četnost napíšeme 0) a jeden případ za poslední případ (do sloupce Kategorie napíšeme 107, do sloupce Kumulativní rel. četnost napíšeme 100). Proměnnou Kumulativní rel. četnost podělíme 100: do jejího Dlouhého jména napíšeme = v2/100. Kreslení grafu výběrové distribuční funkce: Nastavíme se kurzorem na proměnnou Kumulativní rel. četnost, klikneme pravým tlačítkem – Grafy bloku dat – Spojnicový graf: celé sloupce. Ve vytvořeném grafu odstraníme značky, spojnici změníme na schodovitou a upravíme měřítko na vodorovné ose od 1 do 12. Příklad k samostatnému řešení: Přírůstky cen akcií (v procentech) na burze v New Yorku u 10 náhodně vybraných společností dosáhly těchto hodnot: 10, 16, 5, 10, 12, 8, 4, 6, 5, 4. Uvedená čísla považujeme za realizace náhodného výběru s neznámou střední hodnotou μ a neznámým rozptylem σ^2. Data jsou uložena v souboru akcie_na_burze.sta. a) Najděte bodové odhady střední hodnoty (8), rozptylu (15,78) a směrodatné odchylky (3,97). b) Najděte odhad pravděpodobnosti, že zvýšení cen akcií překročilo 8,5 % (0,4). c) Nakreslete graf výběrové distribuční funkce. Vlastnosti důležitých statistik odvozených z dvourozměrného náhodného výběru: Nechť (X[1],Y[1]), ..., (X[n],Y[n]) je náhodný výběr z dvourozměrného rozložení s kovariancí σ[12] a koeficientem korelace ρ. Označme výběrovou kovarianci, výběrový koeficient korelace. Pak pro libovolné hodnoty parametrů σ[12 ]a ρ platí: E(S[12]) = σ[12], E(R[12]) ≈ ρ (shoda je vyhovující pro n ≥ 30). Znamená to, že výběrová kovariance S[12] je nestranným odhadem kovariance σ[12], avšak výběrový koeficient korelace R[12] je vychýleným odhadem koeficientu korelace ρ. Příklad 2.: Bylo zkoumáno 9 vzorků půdy s různým obsahem fosforu (veličina X). Hodnoty veličiny Y označují obsah fosforu v obilných klíčcích (po 38 dnech), jež vyrostly na těchto vzorcích půdy. číslo vzorku 1 2 3 4 5 6 7 8 9 X 1 4 5 9 11 13 23 23 28 Y 64 71 54 81 76 93 77 95 109 Těchto 9 dvojic hodnot považujeme za realizace náhodného výběru (X[1],Y[1]), ..., (X[9],Y[9]) z dvourozměrného rozložení s kovariancí σ[12] a koeficientem korelace ρ. Najděte bodové odhady kovariance σ[12] a koeficientu korelace ρ. Výpočet pomocí systému STATISTICA: Načteme datový soubor obsah_foforu.sta. Výpočet výběrové kovariance: Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, nezávisle proměnná X – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky – Kovariance. Dostaneme tabulku: Vidíme, že výběrová kovariance veličin X, Y se realizuje hodnotou 130. (Výběrový rozptyl proměnné X resp. Y nabyl hodnoty 91,75 resp. 284,25.) Výpočet výběrového koeficientu korelace: V menu Další statistiky vybereme Korelace. Výběrový koeficient korelace veličin X, Y nabyl hodnoty 0,805, tedy mezi veličinami x, Y existuje silná přímá lineární závislost. Upozornění: Výběrový koeficient korelace lze pomocí systému STATISTICA vypočítat i jiným způsobem: Statistika – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměnných – X, Y – OK – Výpočet. Ve výsledné tabulce máme též realizace výběrových průměrů a směrodatných odchylek. Příklad k samostatnému řešení: U 10 výrobců byly zjišťovány náklady (veličina X – v Kč) a ceny (veličina Y – v Kč) pro stejný výrobek. Výsledky (X,Y): (30,18; 50,26), (30,19; 50,23), (30,21; 50,27), (30,22; 50,25), (30,25; 50,22), (30,26; 50,32), (30,26; 50,33), (30,28; 50,29), (30,30; 50,37), (30,33; 50,42). Data jsou uložena v souboru ceny_vyrobku.sta. Těchto 10 dvojic hodnot považujeme za realizace náhodného výběru (X[1],Y[1]), ..., (X[10],Y[10]) z dvourozměrného rozložení s kovariancí σ[12] a koeficientem korelace ρ. Najděte bodové odhady kovariance σ[12] (0,002547) a koeficientu korelace ρ (0,8248). Upozornění: Povšimněte si, že tyto bodové odhady se nezmění, když od nákladů odečteme 30 a od cen 50. Vzorce pro meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu μ normálního rozložení při známém rozptylu σ^2: Oboustranný: , . Levostranný: . Pravostranný: . Příklad 3.: Při kontrolních zkouškách životnosti 16 žárovek byl stanoven odhad m = 3000 h střední hodnoty jejich životnosti. Z dřívějších zkoušek je známo, že životnost žárovky se řídí normálním rozložením se směrodatnou odchylkou σ = 20 h. Vypočtěte a) 99% empirický interval spolehlivosti pro střední hodnotu životnosti b) 90% levostranný empirický interval spolehlivosti pro střední hodnotu životnosti c) 95% pravostranný empirický interval spolehlivosti pro střední hodnotu životnosti. Upozornění: Výsledek zaokrouhlete na jedno desetinné místo a vyjádřete v hodinách a minutách. Řešení: ad a) , 2987 h a 6 min < μ < 3012 h a 54 min s pravděpodobností 0,99 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných d, h a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,995;0;1) Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,995;0;1) ad b) 2993 h a 36 min < μ s pravděpodobností 0,9 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné d a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,9;0;1) ad c) 3008 h a 12 min > μ s pravděpodobností 0,95 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné h a jednom případu. Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,975;0;1) Užitečný odkaz: na adrese http://www.prevody-jednotek.cz je program, s jehož pomocí lze převádět různé fyzikální jednotky, v našem případě hodiny na minuty. Příklad k samostatnému řešení: Letecká společnost potřebuje odhadnout průměrný počet cestujících na její nově otevřené lince. Podle dosavadních zkušeností jsou údaje za 1. měsíc letů nadhodnocené, ale po tomto období se počet cestujících ustálí. Z tohoto důvodu společnost sledovala počty cestujících v prvních 20 dnech druhého měsíce po otevření linky. Údaje jsou uloženy v souboru cestující.sta a považujeme je za náhodný výběr rozsahu 20 z normálního rozložení s neznámou střední hodnotou μ a známou směrodatnou odchylkou σ = 7. a) Najděte bodový odhad neznámé střední hodnoty (107). b) Najděte 95% empirický interval spolehlivosti pro neznámou střední hodnotu (103,93 < μ < 110,07 s pravděpodobností 0,95) c) Najděte 95% empirický levostranný interval spolehlivosti pro neznámou střední hodnotu (104,43 < μ s pravděpodobností 0,95) Najděte 95% empirický pravostranný interval spolehlivosti pro neznámou střední hodnotu d) (μ < 109,57 s pravděpodobností 0,95)