Parametrické úlohy o jednom náhodném výběru a dvou nezávislých náhodných výběrech z alternativních rozložení Opakování: Alternativní rozložení: Náhodná veličina X udává počet úspěchů v jednom pokusu, přičemž pravděpodobnost úspěchu je . Píšeme X ~ A( ). π(x) = neboli π(x) = Binomické rozložení: Náhodná veličina X udává počet úspěchů v posloupnosti n nezávislých opakovaných pokusů, přičemž pravděpodobnost úspěchu je v každém pokusu . Píšeme X ~ Bi(n, ). π(x) = E(X) = n , D(X) = n (1- ) (Alternativní rozložení je speciálním případem binomického rozložení pro n = 1. Jsou-li X[1], ..., X[n] stochasticky nezávislé náhodné veličiny, X[i] ~ A( ), i = 1, ..., n, pak X = ~ Bi(n, ).) Centrální limitní věta: Jsou-li náhodné veličiny X[1], …, X[n] stochasticky nezávislé a všechny mají stejné rozložení se střední hodnotou μ a rozptylem σ^2, pak pro velká n (n ≥ 30) lze rozložení součtu aproximovat normálním rozložením N(nμ, nσ^2). Zkráceně píšeme . Pokud součet standardizujeme, tj. vytvoříme náhodnou veličinu , pak rozložení této náhodné veličiny lze aproximovat standardizovaným normálním rozložením. Zkráceně píšeme U[n] ≈ N(0,1) Asymptotické rozložení statistiky odvozené z výběrového průměru. Nechť X[1], ..., X[n ]je náhodný výběr z rozložení A( ) a nechť je splněna podmínka . Pak statistika konverguje v distribuci k náhodné veličině se standardizovaným normálním rozložením. (Říkáme, že U má asymptoticky rozložení N(0,1) a píšeme U ≈ N(0,1).) Vysvětlení: Protože X[1], ..., X[n ]je náhodný výběr z rozložení A( ), bude mít statistika Y[n] = (výběrový úhrn) rozložení Bi(n, ). Y[n] má střední hodnotu E(Y[n]) = n a rozptyl D(Y[n]) = . Podle centrální limitní věty se standardizovaná statistika asymptoticky řídí standardizovaným normálním rozložením N(0,1). Pokud čitatele i jmenovatele podělíme n, dostaneme vyjádření: Vzorec pro meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametr : Meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametr jsou: . Vysvětlení: Pokud rozptyl nahradíme odhadem , konvergence náhodné veličiny U k veličině s rozložením N(0,1) se neporuší. Tedy Příklad: Náhodně bylo vybráno 100 osob a zjištěno, že 34 z nich používá zubní kartáček zahraniční výroby. Najděte 95% asymptotický interval spolehlivosti pro pravděpodobnost, že náhodně vybraná osoba používá zubní kartáček zahraniční výroby. Řešení: Zavedeme náhodné veličiny X[1], ..., X[100], přičemž X[i] = 1, když i-tá osoba používá zahraniční zubní kartáček a X[i] = 0 jinak, i = 1, ..., 100. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A( ). n = 100, m = 34/100, α = 0,05, u[1-α/2] = u[0,975] = 1,96. Ověření podmínky n (1- ) > 9: parametr neznáme, musíme ho nahradit výběrovým průměrem. Pak 100.0,34.0,66 = 22,44 > 9. . S pravděpodobností přibližně 0,95 tedy 0,2472 < < 0,4328. Výpočet pomocí systému STATISTICA: a) Přesný způsob Otevřeme nový datový soubor se dvěma proměnnými a jednom případu. První proměnnou nazveme d a do jejího Dlouhého jména napíšeme =0,34-sqrt(0,34*0,66/100)*VNormal(0,975;0;1) Druhou proměnnou nazveme h a do jejího Dlouhého jména napíšeme =0,34+sqrt(0,34*0,66/100)*VNormal(0,975;0;1) Dostaneme výsledek: Vidíme, že s pravděpodobností aspoň 0,95 se pravděpodobnost používání zubního kartáčku zahraniční výroby bude pohybovat v mezích 0,2471 až 0,4328. b) Přibližný způsob, použitelný pro dostatečně velký rozsah výběru Do nového datového souboru o jedné proměnné X a 100 případech uložíme 34 jedniček (indikují používání zubního kartáčku zahraniční výroby) a 66 nul (indikují používání zubního kartáčku domácí výroby). Statistika – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – zaškrtneme Meze spolehl. prům. – ponecháme implicitní hodnotu pro Interval 95,00 – Výpočet. Dostaneme tabulku: Dospěli jsme k výsledku, že s pravděpodobností aspoň 0,95 se pravděpodobnost používání zubního kartáčku zahraniční výroby bude pohybovat v mezích 0,2455 až 0,4345. Příklad: Kolik osob musíme vybrat, abychom podíl modrookých osob v populaci odhadli se spolehlivostí 90% a šířka intervalu spolehlivosti byla nanejvýš a) 0,06, b) 0,01? Řešení: Šířka 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametr : Požadujeme, aby h – d ≤ Δ, tedy . Odtud vyjádříme . Předpokládejme, že nemáme žádné předběžné informace o podílu modrookých osob v populaci. Musíme tedy zvolit takové m, aby šířka intervalu spolehlivosti byla maximální. Maximalizujeme výraz . Derivujeme podle m a položíme rovno 0: .V tomto případě volíme relativní četnost m = 0,5. ad a) Uvedenou podmínku tedy splníme, když vybereme aspoň 752 osob. ad b) Chceme-li dosáhnout podstatně užšího intervalu spolehlivosti, musíme vybrat aspoň 27 061 osob. Modifikace: Předpokládejme, že v populaci je nanejvýš 30% modrookých osob. Pak relativní četnost m = 0,3. ad a) V tomto případě stačí vybrat 632 osob. Ve srovnání s předešlým případem vidíme, že rozsah výběru skutečně klesl. ad b) V tomto případě musíme vybrat aspoň 22 731 osob. Testování hypotézy o parametru Nechť X[1], ..., X[n ]je náhodný výběr z rozložení A( ) a nechť je splněna podmínka . Na asymptotické hladině významnosti α testujeme hypotézu H[0]: = c proti alternativě H[1]: ≠ c (resp. H[1]: < c resp. H[1]: > c). Testovým kritériem je statistika , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Kritický obor má tvar (resp. resp. ). (Testování hypotézy o parametru lze samozřejmě provést i pomocí 100(1-α)% asymptotického intervalu spolehlivosti nebo pomocí p-hodnoty.) Příklad: Podíl zmetků při výrobě určité součástky činí = 0,01. Bylo náhodně vybráno 1000 výrobků a zjistilo se, že mezi nimi je 16 zmetků. Na asymptotické hladině významnosti 0,05 testujte hypotézu H[0]: = 0,01 proti oboustranné alternativě H[1]: ≠ 0,01. Řešení: Zavedeme náhodné veličiny X[1], ..., X[1000], přičemž X[i] = 1, když i-tý výrobek byl zmetek a X[i] = 0 jinak, i = 1, ..., 1000. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A( ). Testujeme hypotézu H[0]: = 0,01 proti alternativě H[1]: ≠ 0,01. Známe: n = 1000, , c = 0,01, α = 0,05, u[1-α/2] = u[0,975] = 1,96 Ověření podmínky : 1000.0,01.0,99 = 9,9 > 9. a) Testování pomocí kritického oboru: Realizace testového kritéria: . Kritický obor: . Protože 1,907 W, H[0] nezamítáme na asymptotické hladině významnosti 0,05. b) Testování pomocí intervalu spolehlivosti Protože číslo c = 0,01 leží v intervalu 0,0082 až 0,0238, H[0] nezamítáme na asymptotické hladině významnosti 0,05. c) Testování pomocí p-hodnoty Protože testujeme nulovou hypotézu proti oboustranné alternativě, vypočteme p-hodnotu podle vzorce: p = 2 min{ Φ(1,907), 1–Φ(1,907) } = 2 min { 0,97104, 1 – 0,97104 } = 0,05792. Protože vypočtená p-hodnota je větší než hladina významnosti 0,05, H[0] nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA (pouze přibližný): Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma poměry – do políčka P 1 napíšeme 0,016, do políčka N1 napíšeme 1000, do políčka P 2 napíšeme 0,01, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme p-hodnotu 0,0626, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Příklad: Nový léčebný postup považujeme za úspěšný, pokud po jeho ukončení bude dosaženo zlepšení zdravotního stavu u alespoň 50% zúčastněných pacientů. Nová terapie byla vyzkoušena u 40 pacientů a ke zlepšení došlo u 24 osob. Je možné na asymptotické hladině významnosti 0,05 zamítnout hypotézu, že tato terapie nedosahuje úspěšnosti aspoň 50%? Řešení: Zavedeme náhodné veličiny X[1], ..., X[40], přičemž X[i] = 1, když terapie u i-tého pacienta byl úspěšná a X[i] = 0 jinak, i = 1, ..., 40. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A( ). Testujeme hypotézu H[0]: ≤ 0,5 proti pravostranné alternativě H[1]: > 0,5. Známe: n = 40, , c = 0,5, α = 0,05, u[1-α] = u[0,95] = 1,645 Ověření podmínky : 40.0,6.0,4 = 9,6 > 9. Realizace testového kritéria: . Kritický obor: . Protože 1,2649 W, H[0] nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Vypočtená p-hodnota jednostranného testu je 0,1031, tedy menší než asymptotická hladina významnosti 0,05. H[0] nezamítáme na asymptotické hladině významnosti 0,05. Asymptotické rozložení statistiky odvozené ze dvou výběrových průměrů Nechť je náhodný výběr z alternativního rozložení A( ) a je na něm nezávislý náhodný výběr alternativního rozložení A( ) a nechť jsou splněny podmínky n[1] (1- ) > 9 a n[2] (1- ) > 9. Označme M[1], M[2] výběrové průměry. Pak statistika . Vysvětlení: Analogicky jako v případě jednoho náhodného výběru z alternativního rozložení. Vzorec pro meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametrickou funkci Meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro jsou: Vysvětlení: Pokud rozptyl nahradíme odhadem , i = 1, 2, konvergence náhodné veličiny U k veličině s rozložením N(0,1) se neporuší. Tedy Příklad: Management supermarketu vyhlásil týden slev a sledoval, zda toto vyhlášení má vliv na podíl větších nákupů (nad 500 Kč). Na základě náhodného výběru 200 zákazníků v týdnu bez slev bylo zjištěno 97 velkých nákupů, zatímco v týdnu se slevou z 300 náhodně vybraných zákazníků učinilo velký nákup 162 zákazníků. Sestrojte 95% asymptotický interval spolehlivosti pro rozdíl pravděpodobností uskutečnění většího nákupu v týdnu bez slevy a v týdnu se slevou. Řešení: Zavedeme náhodnou veličinu X[1i], která bude nabývat hodnoty 1, když v týdnu bez slevy i-tý náhodně vybraný zákazník uskuteční větší nákup a hodnoty 0 jinak, i = 1, …, 200. Náhodné veličiny X[1,1], …, X[1,200] tvoří náhodný výběr z rozložení . Dále zavedeme náhodnou veličinu X[2i], která bude nabývat hodnoty 1, když v týdnu se slevou i-tý náhodně vybraný zákazník uskuteční větší nákup a hodnoty 0 jinak, i = 1, …, 300. Náhodné veličiny X[2,1], …, X[2,300] tvoří náhodný výběr z rozložení . n[1] = 200, n[2] = 300, m[1] = 97/200 = 0,485, m[2] = 162/300 = 0,54. Ověření podmínek n[1] (1- ) > 9 a n[2] (1- ) > 9: Parametry a neznáme, nahradíme je odhady m[1]a m[2]. 97.(1-97/200) = 49,955 > 9, 162.(1-162/300) = 74,52 > 9. Meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametrickou funkci jsou: Zjistili jsme tedy, že s pravděpodobností přibližně 0,95: –0,1443 < < 0,0343. Testování hypotézy o parametrické funkci Nechť je náhodný výběr z alternativního rozložení A( ) a je na něm nezávislý náhodný výběr alternativního rozložení A( ) a nechť jsou splněny podmínky n[1] (1- ) > 9 a n[2] (1- ) > 9. Na asymptotické hladině významnosti α testujeme nulovou hypotézu H[0]: = c proti alternativě H[1]: c (resp. H[1]: < c resp. H[1]: > c). Testovým kritériem je statistika , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Kritický obor má tvar (resp. resp. ). (Testování hypotézy o parametrické funkci lze provést též pomocí 100(1-α)% asymptotického intervalu spolehlivosti nebo pomocí p-hodnoty.) Poznámka: Postup při testování hypotézy Je-li c = 0, pak označme vážený průměr výběrových průměrů. Jako testová statistika slouží , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Kritický obor má tvar (resp. resp. ). Testová statistika T[0] vznikne standardizací statistiky M[1] – M[2], kde neznámé parametry , nahradíme společným odhadem M[*]. Příklad: Pro údaje z příkladu o supermarketu testujte na asymptotické hladině významnosti 0,05 hypotézu, že týden se slevami nezvýší pravděpodobnost uskutečnění většího nákupu. Řešení: Testujeme hypotézu = 0 proti levostranné alternativě H[1]: < 0 na asymptotické hladině významnosti 0,05. n[1] = 200, n[2] = 300, m[1] = 97/200, m[2] = 162/300, m[*] = (97 + 162)/500 = 0,518. Podmínky dobré aproximace byly ověřeny v předešlém příkladu. Testování pomocí intervalu spolehlivosti: Pro levostrannou alternativu používáme pravostranný interval spolehlivosti: Protože číslo c = 0 je obsaženo v intervalu , H[0] nezamítáme na asymptotické hladině významnosti 0,05. Testování pomocí kritického oboru: Realizace testového kritéria: . Kritický obor je . Protože testové kritérium nepatří do kritického oboru, H[0] nezamítáme na asymptotické hladině významnosti 0,05. Testování pomocí p-hodnoty: Pro levostrannou alternativu se p-hodnota počítá podle vzorce p = P(T[0] ≤ t[0]): Protože p-hodnota je větší než 0,05, H[0] nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma poměry – do políčka P 1 napíšeme 0,485, do políčka N1 napíšeme 200, do políčka P 2 napíšeme 0,54, do políčka N2 napíšeme 300 – zaškrtneme Jednostr. - Výpočet. Dostaneme p-hodnotu 0,1142, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05.