Porovnání empirického a teoretického rozložení Osnova: - testy dobré shody pro diskrétní a spojité rozložení při úplně i neúplně specifikovaném problému - jednoduchý test pro exponenciální a Poissonovo rozložení Motivace Možnost použití statistických testů je podmíněna nějakými předpoklady o datech. Velmi často je to předpoklad o typu rozložení, z něhož získaná data pocházejí. Mnoho testů je založeno na předpokladu normality. Opomíjení předpokladů o typu rozložení může v praxi vést i ke zcela zavádějícím výsledkům, proto je nutné věnovat tomuto problému patřičnou pozornost. Testy dobré shody pro diskrétní a spojité rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z rozložení s distribuční funkcí Φ(x). a) Je-li distribuční funkce spojitá, pak data rozdělíme do r třídicích intervalů ( 1jj u,u + , j = 1, ..., r. Zjistíme absolutní četnost nj j-tého třídicího intervalu a vypočteme pravděpodobnost pj, že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat v j-tém třídicím intervalu. Platí-li nulová hypotéza, pak pj = P(uj < X ≤ uj+1) = Φ(uj+1) - Φ(uj). b) Má-li distribuční funkce nejvýše spočetně mnoho bodů nespojitosti, pak místo třídicích intervalů použijeme varianty x[j], j = 1, …, r. Pro variantu x[j] zjistíme absolutní četnost nj a vypočteme pravděpodobnost pj, že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat variantou x[j]. Platí-li nulová hypotéza, pak [ ]( ) ( ) [ ] [ ]( )j xx jj xXPxlimxp j ==Φ−Φ= −→ . Testová statistika: ( ) ∑ = − = r 1j j 2 jj np npn K . Platí-li nulová hypotéza, pak K ≈ χ2 (r-1-p), kde p je počet odhadovaných parametrů daného rozložení. (Např. pro normální rozložení p = 2, protože z dat odhadujeme střední hodnotu a rozptyl.) Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když testová statistika K ≥ χ2 1-α(r-1-p). Aproximace se považuje za vyhovující, když teoretické četnosti npj ≥ 5, j = 1, ..., r. Upozornění: Hodnota testové statistiky K je silně závislá na volbě třídicích intervalů. Navíc při nesplnění podmínky npj ≥ 5, j = 1, ..., r je třeba některé intervaly resp. varianty slučovat, což vede ke ztrátě informace. Příklad: Testování shody empirického a teoretického rozložení při úplně specifikovaném problému Byl zjišťován počet poruch určitého zařízení za 100 hodin provozu ve 150 disjunktních 100 h intervalech. Výsledky měření: Počet poruch za 100 hodin provozu 0 1 2 3 4 a víc Absolutní četnost 52 48 36 10 4 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že náhodný výběr X1, ..., X150 pochází z rozložení Po(1,2). Řešení: Pravděpodobnost, že náhodná veličina s rozložením Po(λ), kde λ = 1,2 bude nabývat hodnot 0, 1, ..., 4 a víc je ( )32104 2,1 jj j pppp1p0,1,2,3,j,e !j 2,1 e !j p +++−=== λ = −λ− . Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. j nj pj npj (nj - npj)2 / npj 0 52 0,301 150.0,301=45,15 1,039 1 48 0,361 150.0,361=54,15 0,698 2 36 0,217 150.0,217=32,55 0,366 3 10 0,087 150.0,087=13,05 0,713 4 4 0,034 150.0,034=5,1 0,237 Podmínky dobré aproximace jsou splněny, všechny teoretické četnosti jsou větší než 5. K = 1,039 + 0,698 + 0,713 + 0,237 = 3,053, r = 5, χ2 0,95(4) = 9,488. Protože 3,053 < 9,488, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Načteme datový soubor poruchy.sta. Proměnná POCET obsahuje počet poruch, proměnná CETNOST pak absolutní četnosti zjištěného počtu poruch. Statistiky – Prokládání rozdělení – Diskrétní rozdělení – Poissonovo – OK – Proměnná POCET – klikneme na ikonu se závažím – Proměnná vah CETNOST – Stav Zapnuto – OK – záložka Parametry - Lambda 1,2 - Výpočet. Proměnná: POCET, Rozdělení:Poissonovo, Lambda = 1,200 (poruchy.sta) Chí-kvadrát = 3,03371, sv = 3, p = 0,38646 Kategorie Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. Pozorované <= 0,00000 1,00000 2,00000 3,00000 < Nekonečno 52 52 34,66667 34,6667 45,17914 45,1791 30,11943 30,1194 48 100 32,00000 66,6667 54,21495 99,3941 36,14330 66,2627 36 136 24,00000 90,6667 32,52897 131,9231 21,68598 87,9487 10 146 6,66667 97,3333 13,01159 144,9347 8,67439 96,6231 4 150 2,66667 100,0000 5,06535 150,0000 3,37690 100,0000 V záhlaví výstupní tabulky je uvedena hodnota testového kritéria (3,03371), počet stupňů volnosti = 3 a p-hodnota (0,38646). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Počet stupňů volnosti 3 však neodpovídá tomu, že známe parametr λ, ve skutečnosti je počet stupňů volnosti 4. Proto pro výpočet p-hodnoty otevřeme nový datový soubor o jedné proměnné a jednom případu. Do Dlouhého jména napíšeme =1-IChi2(3,03371;4). Dostaneme p-hodnotu 0,5522. Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení Proměnná: POCET, Rozdělení:Poissonovo, Lambda = 1,20000 Chí-kvadrát test = 3,03371, sv = 3, p = 0,38646 -1 0 1 2 3 4 5 Kategorie (horní meze) 0 10 20 30 40 50 60 Početpozorování V grafu jsou patrné určité rozdíly mezi hodnotami pravděpodobnostní a četnostní funkce, ale tyto rozdíly nejsou příliš velké. Příklad: Testování shody empirického a teoretického rozložení při neúplně specifikovaném problému V tabulce jsou roztříděny fotbalové zápasy určité soutěže podle počtu vstřelených branek. Počet branek 0 1 2 3 4 a víc Počet zápasů 19 30 17 10 8 Na hladině významnosti 0,05 testujte hypotézu, že jde o výběr z Poissonova rozložení. Výpočet pomocí systému STATISTICA: Načteme datový soubor branky.sta. Proměnná POCET obsahuje počet vstřelených branek, proměnná CETNOST pak počet zápasů, v nichž bylo dosaženo zjištěného počtu branek. Statistiky – Prokládání rozdělení – Diskrétní rozdělení – Poissonovo – OK – Proměnná POCET – klikneme na ikonu se závažím – Proměnná vah CETNOST – Stav Zapnuto – OK – Výpočet. Proměnná: POCET, Rozdělení:Poissonovo, Lambda = 1,500 (branky.sta) Chí-kvadrát = 2,07051, sv = 3, p = 0,55790 Kategorie Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. Pozorované <= 0,00000 1,00000 2,00000 3,00000 < Nekonečno 19 19 22,61905 22,6190 18,74294 18,74294 22,31302 22,3130 30 49 35,71429 58,3333 28,11440 46,85733 33,46952 55,7825 17 66 20,23810 78,5714 21,08580 67,94313 25,10214 80,8847 10 76 11,90476 90,4762 10,54290 78,48603 12,55107 93,4358 8 84 9,52381 100,0000 5,51397 84,00000 6,56424 100,0000 V tomto případě je parametr λ Poissonova rozložení neznámý, je odhadnut pomocí výběrového průměru a odhad činí 1,5. Dále je v záhlaví výstupní tabulky uvedena hodnota testového kritéria (Chí kvadrát = 2,07051), počet stupňů volnosti r – p – 1 = 5 – 1 – 1 = 3 a p-hodnota (0,5578). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. -1 0 1 2 3 4 5 Kategorie (horní meze) 0 5 10 15 20 25 30 35 Početpozorování Poznámka k testu dobré shody: Tento test může být použit i v těch případech, kdy rozložení, z něhož daný náhodný výběr pochází, neodpovídá nějakému známému rozložení (např. exponenciálnímu, normálnímu, Poissonovu, ...), ale je určeno intuitivně nebo na základě zkušenosti. Příklad: Ve svých pokusech pozoroval J.G. Mendel 10 rostlin hrachu a na každé z nich počet žlutých a zelených semen. Výsledky pokusu: číslo rostliny 1 2 3 4 5 6 7 8 9 10 počet žlutých semen 25 32 14 70 24 20 32 44 50 44 počet zelených semen 11 7 5 27 13 6 13 9 14 18 celkem 36 39 19 97 37 26 45 53 64 62 Z genetických modelů vyplývá, že pravděpodobnost výskytu žlutého semene by měla být 0,75 a zeleného 0,25. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že výsledky Mendelových pokusů se shodují s modelem. Řešení: Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. j nj pj npj (nj - npj)2 / npj 1 25 0,75 36.0,75=27 0,148148 2 32 0,75 39.0,75=29,25 0,258547 M M M M M 10 44 0,75 62.0,75=46,5 0,134409 K = 0,148148 + 0,258547 + ... + 0,134409 = 1,797495, r = 10, χ2 0,95(9) = 16,9. Protože 1,797495 < 16,9, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Načteme datový soubor Mendel hrach.sta. Proměnná celkem obsahuje celkový počet semen, X obsahuje pozorovaný počet žlutých semen a Y vypočítané teoretické četnosti žlutých semen (v našem případě celkem*0,75). Statistiky – Neparametrická statistika – Pozorované versus očekávané χ2 – OK - Pozorované četnosti X, Očekávané četnosti Y - OK – Výpočet. Dostaneme tabulku: Pozorované vs. očekávané četnosti (Mendel hrach.sta) Chi-Kvadr. = 1,797495 sv = 9 p = ,994280 POZN.: Nestejné součty pozor. a oček. četností Případ pozorov. X očekáv. Y P - O (P-O)^2 /O C: 1 C: 2 C: 3 C: 4 C: 5 C: 6 C: 7 C: 8 C: 9 C: 10 Sčt 25,0000 27,0000 -2,00000 0,148148 32,0000 29,2500 2,75000 0,258547 14,0000 14,2500 -0,25000 0,004386 70,0000 72,7500 -2,75000 0,103952 24,0000 27,7500 -3,75000 0,506757 20,0000 19,5000 0,50000 0,012821 32,0000 33,7500 -1,75000 0,090741 44,0000 39,7500 4,25000 0,454403 50,0000 48,0000 2,00000 0,083333 44,0000 46,5000 -2,50000 0,134409 355,0000 358,5000 -3,50000 1,797495 Ve výstupní tabulce najdeme hodnotu testové statistiky (Chi-Kvadr = 1,797495), počet stupňů volnosti (sv = 9) a odpovídající p-hodnotu, kterou porovnáme se zvolenou hladinou významnosti. V našem případě je p-hodnota 0,99428, takže nulová hypotéza se nezamítá na asymptotické hladině významnosti 0,05. Příklad: Při 60 hodech kostkou jsme dosáhli těchto výsledků: 9 x jednička, 11 x dvojka, 10 x trojka, 13 x čtyřka, 11 x pětka a 6 x šestka. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že kostka je homogenní. Řešení: n = 60 j nj pj npj (nj - npj)2 (nj - npj)2 / npj 1 9 1/6 10 1 1/10 2 11 1/6 10 1 1/10 3 10 1/6 10 0 0 4 13 1/6 10 9 9/10 5 11 1/6 10 1 1/10 6 6 1/6 10 16 16/10 K = 2,8, r = 6, p = 0, χ2 0,95(5) = 11,07. Protože K < 11,07, H0 nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Načteme datový soubor kostka.sta. Proměnná X obsahuje pozorované četnosti jednotlivých čísel 1, …, 6 a proměnná Y obsahuje teoretické četnosti (v našem případě 10). Statistiky – Neparametrická statistika – Pozorované versus očekávané χ2 – OK - Pozorované četnosti X, Očekávané četnosti Y - OK – Výpočet. Dostaneme tabulku: Pozorované vs. očekávané četnosti (kostka.sta) Chi-Kvadr. = 2,800000 sv = 5 p = ,730786 Případ pozorov. X očekáv. Y P - O (P-O)^2 /O C: 1 C: 2 C: 3 C: 4 C: 5 C: 6 Sčt 9,00000 10,00000 -1,00000 0,100000 11,00000 10,00000 1,00000 0,100000 10,00000 10,00000 0,00000 0,000000 13,00000 10,00000 3,00000 0,900000 11,00000 10,00000 1,00000 0,100000 6,00000 10,00000 -4,00000 1,600000 60,00000 60,00000 0,00000 2,800000 Ve výstupní tabulce najdeme hodnotu testové statistiky (Chi-Kvadr = 2,8), počet stupňů volnosti (sv = 5) a odpovídající phodnotu, kterou porovnáme se zvolenou hladinou významnosti. V našem případě je p-hodnota 0,730786, takže nulová hypotéza se nezamítá na asymptotické hladině významnosti 0,05. Příklad: Ze záznamů autosalónu byl ve 100 náhodně vybraných dnech zjištěn počet prodaných aut. Počet prodaných aut za den 0 1 2 3 4 5 a víc Počet dnů 9 43 29 11 5 3 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že počet prodaných aut za den se řídí Poissonovým rozložením. Řešení: Parametr λ Poissonova rozložení neznáme, odhadneme ho pomocí výběrového průměru. [ ] ( ) λ==⋅+⋅+⋅+⋅+⋅+⋅== ∑ = ) 7,1355411329243190 100 1 xn n 1 m r 1j jj . Pravděpodobnost, že náhodná veličina X ~ Po(1,7) bude nabývat hodnot pj, j = 0,1,2,3,4,5 a víc, je ( )432105 7,1 j j ppppp1p4,0,1,2,3,j,e !j 7,1 p ++++−=== − j nj pj npj (nj - npj)2 (nj - npj)2 / npj 0 9 0,1827 18,27 85,9329 4,7035 1 43 0,3106 31,06 142,5636 4,5899 2 29 0,264 26,4 6,76 0,2561 3 11 0,1496 14,96 15,6816 1,0482 4 5 0,0636 6,36 1,8496 0,2908 5 a víc 3 0,0296 2,96 0,0016 0,0005 Vidíme, že není splněna podmínka dobré aproximace. Sloučíme proto varianty 4 a 5. j nj pj npj (nj - npj)2 (nj - npj)2 / npj 0 9 0,1827 18,27 85,9329 4,7035 1 43 0,3106 31,06 142,5636 4,5899 2 29 0,264 26,4 6,76 0,2561 3 11 0,1496 14,96 15,6816 1,0482 4 a víc 8 0,0932 9,32 1,7424 0,1869 K = 10,7846, r = 5, p = 1, χ2 0,95(3) = 7,815. Protože K ≥ 7,815, H0 zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Načteme datový soubor autosalon.sta. Proměnná POCET obsahuje počet prodaných aut, proměnná CETNOST pak počet dnů, v nichž byl prodán zjištěný počet aut. Statistiky – Prokládání rozdělení – Diskrétní rozdělení – Poissonovo – OK – Proměnná POCET – klikneme na ikonu se závažím – Proměnná vah CETNOST – Stav Zapnuto – OK – Výpočet. Proměnná: POCET, Rozdělení:Poissonovo, Lambda = 1,69000 (autosalon.sta) Chí-kvadrát = 10,73029, sv = 3 (uprav.) , p = 0,01328 Kategorie Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. Pozorované <= 0,00000 1,00000 2,00000 3,00000 4,00000 < Nekonečno 9 9 9,00000 9,0000 18,45196 18,4520 18,45196 18,4520 43 52 43,00000 52,0000 31,18380 49,6358 31,18380 49,6358 29 81 29,00000 81,0000 26,35031 75,9861 26,35031 75,9861 11 92 11,00000 92,0000 14,84401 90,8301 14,84401 90,8301 5 97 5,00000 97,0000 6,27159 97,1017 6,27159 97,1017 3 100 3,00000 100,0000 2,89834 100,0000 2,89834 100,0000 V záhlaví výstupní tabulky uvedena hodnota testového kritéria (10,73029), počet stupňů volnosti 3 a p-hodnota (0,01328). Nulová hypotéza se tedy zamítá na asymptotické hladině významnosti 0,05. Vidíme, že nesouhlasí počet stupňů volnosti, měl by být 4. Proto p-hodnotu vypočteme zvlášť. Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do Dlouhého jména napíšeme =1-IChi2(10,73029;4). Dostaneme p-hodnotu 0,0298. Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. Proměnná: POCET, Rozdělení:Poissonovo, Lambda = 1,69000 Chí-kvadrát test = 10,73029, sv = 3 (uprav.) , p = 0,01328 -1 0 1 2 3 4 5 6 Kategorie (horní meze) 0 5 10 15 20 25 30 35 40 45 50 Početpozorování V tomto případě jsou patrné značné rozdíly mezi pozorovanými a teoretickými četnostmi. Test pomocí modulu Rozdělení & simulace Statistiky - Rozdělení & simulace – Proložení dat rozděleními – OK – zapneme proměnnou vah cetnost – OK – Proměnné – Diskrétní proměnné: počet – OK – na záložce Diskrétní proměnné ponecháme pouze Poissonovo rozložení – OK – Souhrnné statistiky rozdělení Souhrn rozdělení for Proměnná: POCET (autosalon.sta) K-S d K-S p-hodn. Chí-kvadrát Chí-kvadr. p-hodn. Chí-kvadr. SV Param 1 Poissonovo 0,415770 0,000000 10,62205 0,013955 3,000000 1,660000 Hodnota testové statistiky chí-kvadrát testu dobré shody je 10,62205, počet stupňů volnosti je 3 a odpovídající p-hodnota je 0,013955. Na asymptotické hladině významnosti 0,05 tedy zamítáme hypotézu, že daný náhodný výběr pochází z Poissonova rozložení. Stejně jako při předešlém způsobu provedení testu dobré shody zjišťujeme, že počet stupňů volnosti má být 4, nikoliv 3. Výpočet ještě můžeme doplnit kvantil – kvantilovým grafem: Graf Q-Q pro POCET Poissonovo Lambda=1.6600 -1 0 1 2 3 4 5 6 7 Teoretický kvantil 0,01 0,25 0,75 0,9 0,95 0,99 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 Pozorovanáhodnota Jednoduchý test exponenciálního rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z exponenciálního rozložení. Označme M výběrový průměr a S2 výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Ex(λ) je E(X) = 1/λ a rozptyl je D(X) = 1/λ2 . Test založíme na statistice ( ) 2 2 M S1n K − = , která se v případě platnosti H0 asymptoticky řídí rozložením χ2 (n-1). Kritický obor: ( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1 2 2/ 2 . Jestliže WK ∈ , H0 zamítáme na asymptotické hladině významnosti α. Příklad: Byla zkoumána doba životnosti 45 součástek (v hodinách). Zjistili jsme, že průměrná doba životnosti činila m = 99,93 h a rozptyl s2 = 7328,91 h2 . Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z exponenciálního rozložení. Řešení: Testová statistika: ( ) 2924,32 93,99 91,732844 M S1n K 22 2 = ⋅ = − = Kritický obor: ( ) ( ) ) ( ) ( ) ) )∞∪=∞χ∪χ=∞−χ∪−χ= α−α ,202,64575,27,0,4444,0,1n1n,0W 975,0 2 025,0 2 2/1 2 2/ 2 Protože se testová statistika nerealizuje v kritickém oboru, hypotézu o exponenciálním rozložení nezamítáme na asymptotické hladině významnosti 0,05. Jednoduchý test Poissonova rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z Poissonova rozložení. Označme M výběrový průměr a S2 výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Po(λ) je E(X) = λ a rozptyl je D(X) = λ. Test založíme na statistice ( ) M S1n K 2 − = , která se v případě platnosti H0 asymptoticky řídí rozložením χ2 (n-1). Kritický obor: ( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1 2 2/ 2 . Příklad: Studujeme rozložení počtu pacientů, kteří během 75 dnů přijdou na pohotovost. Osmihodinovou pracovní dobu rozdělíme do půlhodinových intervalů a v každém intervalu zjistíme počet příchozích pacientů: Počet pacientů 0 1 2 3 4 5 6 7 8 9 10 Pozorovaná četnost 79 188 282 275 196 114 45 10 7 3 1 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z Poissonova rozložení. Řešení: Nejprve musíme vypočítat realizaci výběrového průměru a výběrového rozptylu: ( ) 380,21101881790 1200 1 m =⋅++⋅+⋅= K ( ) ( ) ( )[ ] 708579,2380,2101380,21188380,2079 1199 1 s 2222 =−⋅++−⋅+−⋅= K ( ) 579,1158 380,2 708579,21199 M S1n K 2 = ⋅ = − = , Kritický obor: ( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1 2 2/ 2 ),;86,129693,1104;0 ∞∪= H0 nezamítáme na asymptotické hladině významnosti 0,05. Provedení jednoduchého testu Poissonova rozložení v systému STATISTICA Vytvoříme datový soubor o dvou proměnných počet a četnost a 11 případech. Do proměnné počet uložíme počty pacientů od 0 do 11 (do Dlouhého jména napíšeme =v0-1) a do proměnné četnost napíšeme pozorované četnosti. Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK- zapneme proměnnou vah četnost – OK – Proměnné počet – OK – na záložce Detailní výsledky vybereme Počet platných – Průměr, Rozptyl – OK. K výstupní tabulce přidáme tři nové proměnné K, kvantil1, kvantil2. Do Dlouhého jména proměnné K napíšeme =(v1-1)*v3/v2, do Dlouhého jména proměnné kvantil1 napíšeme =VChi2(0,025;1999) a Dlouhého jména proměnné kvantil2 napíšeme =VChi2(0,975;1999). Popisné statistiky (pacienti_na_pohotovosti.sta) Proměnná N platných Průměr Rozptyl K kvantil1 kvantil2 pocet 1200 2,803333 2,708579 1158,47325 1876,97703 2124,81131 Vidíme, že testová statistika K = 1158,98 nepatří do kritického oboru )∞∪= ,81,212498,1876,0W , tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu, že počet pacientů na pohotovosti se řídí Poissonovým rozložením. Příklad: V systému hromadné obsluhy byla sledována doba obsluhy 70 zákazníků (v min). Výsledky jsou uvedeny v tabulce rozložení četností: Doba obsluhy Počet zákazníků (0, 3] 14 (3,6] 16 (6,9] 10 (9,12] 9 (12,15] 8 (15,18] 5 (18,21] 3 (21,24] 5 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z exponenciálního rozložení. Použijte: a) test dobré shody, b) jednoduchý test exponenciálního rozložení Řešení: Testujeme H0: náhodný výběr X1, …, X70 pochází z Ex(λ) proti H1: non H0. Ad a) Nejprve odhadneme parametr λ exponenciálního rozložení: [ ] ( ) 1122,0 5,2255,4165,114 70 1 xn n 1 1 m 1ˆ r 0j jj = ⋅++⋅+⋅= ==λ ∑= K Pravděpodobnost, že náhodná veličina s rozložením Ex(λ), kde λ = 0,1122 se bude realizovat v intervalu ( 1jj u,u + je pj = Φ(uj+1) - Φ(uj), j = 1, …, r, kde ( ) x e1x λ− −=Φ . Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. ( 1jj u,u + x[j] nj pj npj (0, 3] 1,5 14 0,2858 20,0033 (3,6] 4,5 16 0,2041 14,2871 (6,9] 7,5 10 0,1458 10,2044 (9,12] 10,5 9 0,1041 7,2884 (12,15] 13,5 8 0,0744 5,2056 (15,18] 16,5 5 0,0531 3,7181 (18,21] 19,5 3 0,0378 2,6556 (21,24] 22,5 5 0,0271 1,8967 Podmínky dobré aproximace nejsou splněny, sloučíme tedy intervaly (15,18], (18,21] a (21,24]. ( 1jj u,u + x[j] nj pj npj (nj - npj)2 / npj (0, 3] 1,5 14 0,2858 20,0033 1,8017 (3,6] 4,5 16 0,2041 14,2871 0,2054 (6,9] 7,5 10 0,1458 10,2044 0,0041 (9,12] 10,5 9 0,1041 7,2884 0,4020 (12,15] 13,5 8 0,0744 5,2056 1,5000 (15,24] 19,5 13 0,1181 8,2704 2,7047 Testová statistika K = 1,8017 + … + 2,7047 = 6,6178, r = 6, p = 1, r – p – 1 = 4, χ2 0,95(4) = 9,4877. Testová statistika se nerealizuje v kritickém oboru )∞= ,4877,9W , na asymptotické hladině významnosti 0,05 nelze zamítnout hypotézu, že doba obsluhy se řídí exponenciálním rozložením. Ad b) Jednoduchý test exponenciálního rozložení je založen na statistice ( ) 2 2 M S1n K − = , která se v případě platnosti H0 asymptoticky řídí rozložením χ2 (n-1). Kritický obor: ( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1 2 2/ 2 . Nejprve musíme vypočítat realizaci výběrového průměru a výběrového rozptylu: ( ) 9143,85,2255,4165,114 70 1 m =⋅++⋅+⋅= K ( ) ( ) ( )[ ] 1447,419143,85,2259143,85,4169143,85,119 69 1 s 2222 =−⋅++−⋅+−⋅= K ( ) 7265,35 9143,8 1447,4169 M S1n K 22 2 = ⋅ = − = . Kritický obor: ( ) ( ) ) )∞∪=∞χ∪χ= ,8565,939242,47;0,6969,0W 975,0 2 025,0 2 . H0 zamítáme na asymptotické hladině významnosti 0,05. Provedení jednoduchého testu exponenciálního rozložení v systému STATISTICA Vytvoříme datový soubor o dvou proměnných X a četnost a 8 případech. Do proměnné X uložíme středy třídicích intervalů, tj. 1,5, 4,5 atd. až 22,5 a do proměnné četnost napíšeme pozorované počty zákazníků v jednotlivých třídicích intervalech. Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK- zapneme proměnnou vah četnost – OK – Proměnné počet – OK – na záložce Detailní výsledky vybereme Počet platných – Průměr, Rozptyl – OK. K výstupní tabulce přidáme tři nové proměnné K, kvantil1, kvantil2. Do Dlouhého jména proměnné K napíšeme =(v1-1)*v3/v2^2, do Dlouhého jména proměnné kvantil1 napíšeme =VChi2(0,025;69) a Dlouhého jména proměnné kvantil2 napíšeme =VChi2(0,975;69). Popisné statistiky (doba_obsluhy.sta) Proměnná N platných Průměr Rozptyl K =(v1-1)*v3/ kvantil1 =VChi2(0,0 kvantil2 =VChi2(0,9X 70 8,914286 41,14472 35,72647 47,924163 93,856471 Vidíme, že testová statistika K = 35,7265 patří do kritického oboru )∞∪= ,86,9392,47,0W , tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu, že doby obsluhy zákazníků se řídí exponenciálním rozložením.