Zadání příkladů — Statistická inference II — 2017 Příklad 1. Směs dvou normálních rozdělení Nechť náhodná veličina X pochází ze směsi dvou normálních rozdělení X ~ \pN(/j,\, a'f) + (1 — p)N(fi2, ^i)]- Potom marginální hustota náhodné veličina X má tvar f(xi,o)= Yl f(xl,bl,e) = f(xl,i,e1) + f(Xl,o,e2), b,e{o,i} kde f(xi, 1, 6»i) = exp V^crx V 2cri je sdružená hustota za podmínky, že data pochází z první skupiny a /(Zi, 0, 02) = r— exp V 2ct22 ^2 je sdružená hustota za podmínky, že data pochází z druhé skupiny. Logaritmická věrohodnostní funkce náhodné veličiny X má tvar L(0ix)=n/(*i,0). i=l Příklad 2. Odhad parametrů směsi dvou normálních rozdělení 1. Načtěte datový soubor faithfuI obsahující údaje o době čekání na erupci (waiting) a o době trvání erupce (eruption), přičemž se zaměřte na proměnnou waiting. 2. Nakreslete histogram doby čekání na erupci a superponujte jej křivkou jádrového odhadu. 3. Pomocí funkce optim() odhadněte parametry p, yui, /i2, o\, o\ smíšeného rozdělení \pN(fii, a'()+(l—p)N({i2, náhodné proměnné waiting. 4. Pomocí funkce optim() nalezněte rozptyly odhadů parametrů p, fí{, a'f, /io (pravostranná); c) 7ío3 : /i > /io oproti .H13 : jj, < jj,q (levostranná). 1. Odvoďte tvary silofunkcí pro všechny tři typy hypotéz (a)-(c), t.j. tvary /^(/i), /3Í2(m) a /3*3(/lí). 2. Nakreslete silofunkce pro všechny tři typy hypotéz (a)-(c), kde jj,q = 0, a a2 = 1. Do jednoho obrázku zakreslete vždy tvary silofunkcí pro n = 10, n = 30, n = 50 a n = 100. Hladinu významnosti a zvolte 0.05. Hodnoty jj, volte rozumně, např. v intervalu ( —1.5; 1.5). -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 11 Příklad 9. Rozdělení testovací statistiky pro test o střední hodnotě /i, když a2 neznáme 1. Nechť náhodný výběr X pochází z normálního rozdělení, t.j. X ~ N(p,a2), kde jj = 600 a a2 = 1002. Rozsah náhodného výběru n = 20. Pomocí simulační studie v CĚt porovnejte rozdělení testovací statistiky pro test 'nepřesně zvolené' nulové hypotézy Hq: jj < 500 (alternativní hypotéza H\: jj > 500), když rozptyl a2 neznáme, s rozdělením testovací statistiky nulové hypotézy Hq: jj < 600 (alternativní hypotéza H\: jj > 600), opět když a2 neznáme. Nasimulujte M pseudonáhodných výběrů, M=l,... ,10 000 a pro každý vypočítejte realizaci testovací statistiky = Xm~fí° ^Jn pro nulovou hypotézu Hq: jj < 500 oproti Hi: \j > 500. Histogram superponujte jednak křivkou hustoty necentrálního í-rozdělení sn-1 stupni volnosti a parametrem necentrality A (A = , kde jji je vzatá z alternativní hypotézy) a jednak křivkou hustoty centrálního studentova rozdělení. Obě křivky potom vzájemně okometricky porovnejte. 2. Nechť nyní X pochází ze směsi dvou normálních rozdělení, t.j. X ~ \pN(p, 1002) + (1 — p)N(/j, 1502)], kde p = 0.9 a jj = 600. Proveďte simulační studii popsanou v bodě (1) pro tento náhodný výběr. Rozděleni testovaci statistiky Tw X~N(600,100A2) □ statistiky Tw ■ centrálni rozd. ■ necentralni rozd. -1-1-1 0 5 10 Centrálni a simulovane necentralni t-rozdeleni n = 20; 1-p12 = 0.9961 =0.9935 Rozděleni testovaci statistiky Tw X~0.9N(600,100A2)+0.1N(600, 150A2) □ statistiky Tw ■ centrálni rozd. ■ necentralni rozd. -1-1-1 0 5 10 Centrálni a simulovane necentralni t-rozdeleni n = 20; 1 - p12 = 0.9961 = 0.9935 12 Příklad 10. empirická a exaktní silofunkce testu; pokračování příkladu č.9 1. Nechť náhodný výběr X pochází z normálního rozdělení, t.j. X ~ N(pi, a2), kde /ii = 470, 480,..., 590, 600 a a2 = 1002. Rozsah náhodného výběru n = 20. Použijte CŠT na simulaci empirické silofunkce pro jednovýběrový Studentův í-test nulové hypotézy Hq: jj, < 500 oproti H\: jj, > 500. Vygenerujte m = 1 000 pseudonáhodných výběrů a pro každý stanovte hodnotu testovací statistiky tm, m = 1,..., 1 000. Dále vypočítejte p-hodnotu korespondující s tm a porovnejte ji s hladinou významnosti a = 0.05. Tak získáte empirickou silofunkci 1 — /3(/ii) pro zvolenou alternativní hypotézu. Do grafu zakreslete 1 — /3(/ii) i její standardizované chyby SE[1 - /3(pi)] = \J0--h^)P(ěA v podobě chybové úsečky 1 - /3(pi) ± SE[1 - ^(pi)]. Do grafu vkreslete také teoretickou silofunkci 1 — /3(/ii), fii G (470; 600) (na její výpočet použijte funkci power.t.test()). 2. Nechť nyní X pochází ze směsi dvou normálních rozdělení, t.j. X ~ \pN(/j,\, 1002) + (1 — p)N(fii, 2002)], kde p = 0.9 a /Líi = 470,..., 600. Proveďte simulační studii popsanou v bodě (1) pro tento náhodný výběr. 13 Příklad 11. Přesná a přibližná silofunkce — Jednovýběrový Z-test o střední hodnotě Uveďte tvary přesné silofunkce /3*2 a přibližné silofunkce /3*2 pro test Hq : /i = /j,q oproti H\ : /i 7^ /j,q když a2 známe. Nakreslete křivky obou silofunkcí do jednoho grafu, kde na ose x budou různé hodnoty parametru jj, na ose y vynesená silofunkce, a porovnejte jejich tvary. Výsledek slovně okomentujte. Hodnotu n zvolte 20, /io = 0 a a2 = 4. Rozsah osy x volte rozumně, pro globální pohled např. (—1.5 ; 1.5), pro lokální zaměření rozdílů zvolte rozsah osy x (—0.8 ; 0.8). 14 Příklad 12. MC experiment pro Waldovy empirické intervaly spolehlivosti Nechť (a) X ~ 7V(20,100); (b) X ~ pN(20,100) + (1 - p)N(20, 400), kde p = 0.9, tedy jde o směs dvou normálních rozdělení X ~ N(20,100) a X ~ 7V(20, 400) v poměru 9 : 1. Pro obě části (a) i (b) Vygenerujte M = 100 náhodných výběrů s rozsahem n = 5, resp. n = 50 a n = 100 a vypočítejte Waldovy empirické 100(1 — a) % IS pro střední hodnotu /i, když a2 neznáme. Vždy spočítejte, kolik IS obsahuje střední hodnotu jj, = 20. Toto číslo podělené hodnotou M představuje aktuální pravděpodobnost pokrytí (simulovanou spolehlivost 1 — a). Porovnejte tuto hodnotu s nominální pravděpodobností pokrytí (spolehlivost 1 - a). a) X ~ N(0,1) n = 5 ## n ## aktuálni pst.pokryti 0.95 ## nominálni pst.pokryti (spolehlivost) 0.95 Simulace 95% spolehlivosti Waldových empirických IS empiricky IS pro ri; X ~ N(20,100) 0 20 40 60 80 100 experiment n = 100 ## n ## aktuálni pst.pokryti 0.95 ## nominálni pst.pokryti (spolehlivost) 0.95 Simulace 95% spolehlivosti Waldových empirických IS empiricky IS pro \i; X ~ N(20,100) "l-1-1-1-1-t~ 0 20 40 60 80 100 experiment 15 X ~ p7V(20,100) + (1 - p) N (20,400) n = 5 ## n ## aktuálni pst.pokryti 0.97 ## nominálni pst.pokryti (spolehlivost) 0.95 Simulace 95% spolehlivosti Waldových empirických IS exaktni IS pro n; X ~ pN(20,100)+(1 -p)N(20,400) 0 20 40 60 80 100 experiment n = 100 ## n ## aktuálni pst.pokryti 0.94 ## nominálni pst.pokryti (spolehlivost) 0.95 Simulace 95% spolehlivosti Waldových empirických IS exaktni IS pro n; X ~ pN(20,100)+(1-p)N(20,400) o Q. (M _ OJ CD 0 20 40 60 80 100 experiment 16 Příklad 13. nezávislost /i a a2; pravděpodobnost pokrytí Nechť X ~ N(fi,a2), kde /i = 20 a a2 = 100. Pomocí simulační studie vypočítejte Pearsonův korelační koeficient rx s- Nakreslete šedou barvou rozptylový graf (im,sm), kde m = 1,2, ...,M, přičemž M = 5 000. Černou barvou vyznačte v grafu takové body (xm,sm), pro které platí tyy,m = ——-\pň < íij_i(qí/2). Dále vykreslete hranice, které jsou definovány body (xm,sm), jež splňují vztah tyy,m = tn-i(a/2). Vypočítejte pravděpodobnost pokrytí 95% DIS pro jj, jako podíl ~^mI{tw,m < í„_i(a/2))/M. Zvolte (a) n = 5, (b) n = 50 a (c) n = 100. Simulaci proveďte také za předpokladu, že data pochází ze smíšeného rozdělení X ~ \pN(p, a2) + (1 —p)N(p, a'^)], kde p = 0.9, n = 20, af = 100 a a\ = 400. ## n ## aktuálni pst.pokryti 0.952 ## nominálni pst.pokryti (spolehlivost) 0.950 ## n ## aktuálni pst.pokryti 0.9435 ## nominálni pst.pokryti (spolehlivost) 0.9500 ## ## aktuálni pst.pokryti ## nominálni pst.pokryti ## ## aktuálni pst.pokryti ## nominálni pst.pokryti n 0.948 (spolehlivost) 0.950 n 0.936 (spolehlivost) 0.950 17 Pravděpodobnost pokryti N=100, r=-0.002 co 17 18 19 20 21 22 Pravděpodobnost pokryti N=100, r=-0.065 n-r-1-n-r 16 18 20 22 24 X 18