Zadání příkladů - cvičení č.l - 15-9-23 Příklad č.l (porovnání dvou typů modelů) (přednáška) Model rozdělení pravděpodobnosti je modelem náhodné proměnné X, např. (1) model rozdělení pravděpodobnosti náhodné proměnné X šířka dolní čelisti, nebo (2) model rozdělení pravděpodobnosti náhodné proměnné X hrubost kožních řas u dospělých zdravých žen. Statistický model je modelem náhodné proměnné Y\X (Y kauzálně závisí na X), např. (1) model závislosti náhodné proměnné Y šířka dolní čelisti na proměnné X pohlaví, nebo (2) model závislosti náhodné proměnné Y hrubost kožních řas u dospělých zdravých žen na proměnné X BMI. Všimněme si, že náhodné proměnné označujeme X anebo Y podle toho, jaký model je charakterizuje. Příklad č.2 (jednoduchý náhodný výběr) V jednoduchém náhodném výběru o rozsahu n z populace s konečným rozsahem ./V má každý prvek stejnou pravděpodobnost vybrání. Pokud vybíráme bez vracení (opakování), mluvíme o jednoduchém náhodném výběru bez vracení (Dalgaard, 2008). Pokud vybíráme s vracením, mluvíme o jednoduchém náhodném výběru s vracením. Mějme množinu M s N = 10 prvky a chceme z ní vybrat n = 3 prvky (a) bez vracení, (b) s vracením. Kolik máme možností? Jak vypadá jedna takováto možnost, pokud M = {1,2,..., 10}? Zopakujte to samé pro ./V = 100, n = 30 a množinu M = {1, 2,..., 100}. Příklad č.3 (jednoduchý náhodný výběr) Mějme skupinu lidí označených identifikačními čísly (ID) od 1 do 30. Vyberte (a) náhodně 5 lidí z 30-ti bez návratu, (b) náhodně 5 lidí ze 30-ti s návratem a nakonec (c) náhodně 5 lidí ze 30-ti bez návratu, přičemž lidé s ID od 28-mi do 30-ti mají pravděpodobnost vybrání 4 x vyšší než lidé s ID od 1 do 27. Příklad č.4 (normální rozdělení) Mějme náhodnou proměnnou X (může to být např. výška postavy desetiletých dívek) a předpokládejme, že tato náhodná proměnná má normální rozdělení s parametry fi (střední hodnota) a a2 (rozptyl), což zapisujeme jako X ~ N(fi,a2), fi = 140.83, a2 = 33.79. Normální rozdělení představuje model rozdělení pravděpodobnosti pro tuto náhodnou proměnnou. Vypočítejte pravděpodobnost Pr(a < X < b) = Pľ(X < b) — PrX < a) = Fx{b) — Fx(a), kde a = /i — ka, b = fi + ka, k = 1,2,3. Nakreslete hustotu rozdělení pravděpodobnosti, vybarvěte oblast mezi body a a b a popište osy x a y tak, jako je uvedeno na obrázku 1. Obrázek 1: Míry normálního rozdělení; křivka hustoty s vybarveným obsahem pod touto křivkou mezi příslušnými kvantily na ose x; obsah je rovný pravděpodobnosti výskytu subjektů s danou výškou v rozpětí těchto kvantilů. Dostaneme pravidlo 68.27 — 95.45 — 99.73 (tzv. míry normálního rozdělení. 1 Příklad č.5 (normální rozdělení) Mějme X ~ N(fi,a2), kde [i = 150, a2 = 6.25. Vypočítejte a = [i — x1_a/2cr a 6 = /i + x1_a/2cr tak, aby Pr(a < X < b) = 1 — a, byla rovná 0.9, 0.95, 0.99. Číslo x1_a/2 je kvantil normovaného normálního rozdělení, t.j. Pr(Z = to < xi—ai Z ~ -ZV(0,1). Nakreslete hustotu rozdělení pravděpodobnosti, vybarvěte oblast mezi body a a b a popište osy x a y tak, jako je uvedeno na obrázku 2. 135 140 145 150 155 160 165 135 140 145 150 155 160 165 135 140 145 150 155 160 165 vyska (cm) vyska (cm) vyska (cm) Pr(145.89 je distribuční funkce normálního normovaného rozdělení a všeobecně {a G (0,1/2); v příkladě a = 0.1, 0.05 a 0.01. Příklad č.6 (normální rozdělení) Předpokládejme model normálního rozdělení A^(132,132) pro systolický krevní tlak. Jaká část populace (v %) bude mít hodnoty vyšší než 160 mm Hg? Příklad č.7 (binomické rozdělení) Předpokládejme, že počet lidí upřednostňujících léčbu A před léčbou B se řídí modelem binomického rozdělení s parametry ./V (rozsah náhodného výběru) a p (pravděpodobnost výskytu), ozn. Bin(N,p), kde ./V = 20, p = 0.5, t.j. lidé preferují oba dva typy léčby stejnou měrou, (a) Jaká je pravděpodobnost, že 16 a více pacientů upřednostní léčbu A před léčbou Bl (b) Jaká je pravděpodobnost, že 16 a více a zároveň 4 a méně pacientů upřednostní léčbu A před léčbou Bl Příklad č.8 (binomické rozdělení) Předpokládejme, že Pľ(vir) = 0.533 = p\ je pravděpodobnost výskytu dermatoglyfického vzoru vír na palci pravé ruky mužů české populace a Pľ(ostatni) = 0.467 = p2 je pravděpodobnost výskytu ostatních vzorů na palci pravé ruky mužů české populace, přičemž X je počet vírů a y je počet ostatních vzorů, kde X ~ Bin(N,Pl) a Y ~ Bin(N,p2). Vypočítejte (1) Pi(X < 120), když N = 300 a (2) Pr(Y < 120), když 2 N = 300. Příklad č.9 (parametry) (přednáška) Příklady parametrů 9 - střední hodnota p, rozptyl a2, korelační koeficient p, pravděpodobnost p výskytu nějaké události, rozdíl dvou středních hodnot p\ — p2, podíl dvou rozptylů af/a^, rozdíl dvou korelačních koeficientů p\ — p2, rozdíl dvou pravděpodobností p\ — p2 apod. Příklad č.10 (binomické rozdělení) (přednáška) Pokud X ~ Bin(N, 6), 6 = p £ (0; 1), potom y q je stejný pro všechny 9 a koinciduje s výběrovým prostorem y = {o,i,..., n}. Příklad č. 11 (počet členů v mnohorozměrném LRM) (z přednášky) Mějme mnohorozměrný lineární regresní model C o 20-ti proměnných, ve kterém jsou obsaženy všechny možné interakce těchto proměnných (dvojné, trojné,...). Kolik členů (jednoduché regresory + všechny interakce) má takový model? Příklad č.ll (aproximace binomického rozdělení normálním) Nechť Pr(muz) = p = 0.515 znamená pravděpodobnost výskytu mužů v populaci a Pr(zena) = q = 0.485 pravděpodobnost výskytu žen. Nechť X je počet mužů a Y počet žen. Za předpokladu modelu Bin(N,p) vypočítejte (a) Pr(X < 3) pokud N = 5, (b) Pr(X < 5), pokud N = 10 a (c) Pr(X < 25), pokud N = 50. Porovnejte vypočítané pravděpodobnosti s pravděpodobnostmi aproximovanými normálním rozdělením N(Np,Npq). Nakreslete hustotu rozdělení pravděpodobnosti normálního rozdělení a superponujte ji pravděpodobnostní funkcí binomického rozdělení tak, jak je uvedeno na obrázku 3. Nakreslete distribuční funkci normálního rozdělení a superponujte ji distribuční funkcí binomického rozdělení tak, jak je uvedeno na obrázku 3. Nakonec zvolte parametr p = 0.1 a vygenerujte analogické grafy hustoty a distribuční funkce pro tento nový parametr. Z obrázků je vidět, že pro p blížící se k 1 nebo k 0 je potřebné mít větší početnosti než pro p blízké hodnotě 0.5. Viz obrázek 4. 3 0 1 2 3 4 5 Bin(5,0.515) 0 2 4 6 8 10 Bin(10,0.515) 0 10 20 30 40 50 Bin(50,0.515) Bin(5,0.515) Bin(10,0.515) Bin(50,0.515) Obrázek 3: Aproximace binomického rozdělení normálním pro p = 0.515 a N = 5,10 a 50; spojnicový graf superponovaný hustotou (první řádek) a distribiční funkcí (druhý řádek). 4 0 1 2 3 4 5 0 2 4 6 8 10 0 10 20 30 40 50 Bin(5,0.1) Bin(10,0.1) Bin(50,0.1) 0 1 2 3 4 5 0 2 4 6 8 10 0 10 20 30 40 50 Bin(5,0.1) Bin(10,0.1) Bin(50,0.1) Obrázek 4: Aproximace binomického rozdělení normálním pro p = 0.515 a N = 5,10 a 50; spojnicový graf superponovaný hustotou (první řádek) a distribiční funkcí (druhý řádek). Příklad č.12 (normální rozdělení) Model pro náhodný výběr X±, X2, • • •, Xn je z -/V(/x, a2) a říkáme, že X±,X2, ■ ■ ■, Xn pochází z normálního rozdělení, t.j. X ~ iV(/x, cr2). Parametr modelu N(fi, cr2) je vektor 0 = (/i, cr2). Hustota tohoto rozdělení má tvar 1 (z-M)2 /(x) = _e "^2_, x G M. V 27to" Příklad č.13 (standardizované normální rozdělení) Model pro náhodný výběr X\,X2, \dots,Xn pochází ze standardizovaného normálního rozdělení, t.j. X ~ N(fi,a2), kde fi = 0, a2 = 1. Parametr modelu N(fi,a2) je vektor 0 = (0,1). Hustota tohoto rozdělení má tvar 1 £_ e 2 t£K. 2tt Příklad č.14 (dvojrozměrné normální rozdělení) Náhodný vektor (X, Y)T má dvojrozměrné normální rozdělení N2(ti, £), kde y. = (W, /x2)T a S = f ^ ^f2 s hustotou f(x,y) = -, 1 exp {--, 1 9N ( Í£^i)I _ 2 (s-mXy-^) + l\ V ^ 27r^2^22 (1 - P2) X 2(l-p2)l "í ^ <™ CT2 i / 5 kde (x,y)T £ M2, Pj G M, crj > O, j = 1,2, p £ ( — 1,1) jsou parametry. Potom O = (pi, p2, crf, a^, p). Výraz v exponentu můžeme zapsat jako _ 1 / x - px \T í a\ poxo2 \ 1 í x - pi \ 2\ y - P2 J V al J XV- ) ' Marginální rozdělení 1 jsou X ~ N (/ii, cr2) a Y ~ N (/i2, o-!), p je koeficient korelace2(Viz obrázek 5) Příklad č.15 (dvojrozměrné normální rozdělení) (1) Nakreslete hustotu dvojrozměrného normálního rozdělení A^/^S) pomocí funkce imageQ a superponujte ho s konturovým grafem hustoty toho stejného rozdělení pomocí funkce contourQ. (2) Nakreslete hustotu dvojrozměrného normálního rozdělení A^/i, S) pomocí funkce perspQ. Hustotu rozsekejte na 12 intervalů, kde hodnoty v těchto intervalech budou odpovídat barvám terrain.colors(12). Použijte následující parametry: • Vi = 0, V2 = 0, Ol = 1,0-2 = 1.

H <-~\— -i n-r 2 3 Obrázek 7: Pravděpodobnostní a distribuční funkce binomického rozdělení Bm(5, 0.5) Příklad č.26 (Poissonovo rozdělení; počet havárií za týden) Pokud každý z 50 milionů lidí řídí v Itálii řídí auto následující týden nezávisle, potom pravděpodobnost smrti při autonehodě bude 0.000002, kde počet úmrtí má binomické rozdělení Bin(50miZ, 0.000002) anebo limitní Poissonovo rozdělení s parametrem A = 50mil x 0.000002 = 100. Příklad č.27 (Poissonovo rozdělení; pruské armádní jednotky) Nechť početnosti úmrtí X jako následek kopnutí koněm v Pruských armádních jednotkách (Bortkiewicz, 1898) mají Poissonovo rozdělení s parametrem A, tj. X ~ Poiss(X). Pravděpodobnost, že někdo bude smrtelně zraněný v daném dni, je extrémně malá. Mějme 10 vojenských jednotek za 20-letou periodu s rozsahem M = 200 (200 = 10 x 20), kde, při početnostech úmrtí n = 1,2, 3,4, 5+ v dané jednotce a v daném roce, zaznamenáváme také početnosti vojenských jednotek mn při daném n, kde M = ^mn (viz tabulka). Vypočítejte očekávané početnosti, za předpokladu X ~ Poiss(X), kde = En nmn n || 0 1 2 3 4 5+ mn 109 65 22 3 1 0 Příklad č.28 (podíl chlapců a dívek v rodinách) Nechť X představuje početnost chlapců mezi dětmi v rodinách. Zde můžeme předpokládat, že X oo Bin(N,p), tj. rodina může mít vychýlený poměr pohlaví dětí ve směru k chlapcům nebo k dívkám. V realitě tedy můžeme mít velmi mnoho rodin jen s chlapci nebo jen s děvčaty a nemáme dostatek rodin s poměrem pohlaví blízkým 51 : 49 (poměr chlapců ku dívkám). Z toho nám vyplývá, že rozptyl početnosti chlapců bude ve skutečnosti větší než rozptyl předpokládaný binomickým rozdělením Bin(n, P). Příklad č.29 (overdispersion v binomickém modelu) V klasické studii poměru pohlaví u lidí z roku 1889 na základě záznamů z nemocnic v Sasku (více informací viz Lindsey a Altham, (1998)) zaznamenal Geissler (1889) rozdělení počtu chlapců v rodinách. Mezi M = 6115 rodinami s N = 12 dětmi pozoroval následující početnosti chlapců {n jsou početnosti chlapců a mn početnosti rodin s n chlapci). n II 0 1 2 3 4 5 6 7 8 9 10 11 12 mn || 3 24 104 286 670 1033 1343 1112 829 478 181 45 7 10 Vypočítejte mn za předpokladu, že početnosti chlapců X v rodinách mají binomické rozdělení s parametry NM y ' & N = 12, ozn. X ~ Bin(N,ir). Příklad č.30 (overdispersion v Poissonově modelu) Mějme početnosti úrazů n mezi dělníky v továrně, kde početnosti dělníků mn při daném n (viz tabulka) (Greenwood a Yule (1920)). n || 0 1 2 3 4 >5 mn || 447 132 42 21 3 2 Vypočítejte očekávané početnosti dělníků za předpokladu, že početnosti úrazů na dělníka X mají Poissonovo rozdělení s parametrem En nm X En mr, 0.47. (4) Ozn. X ~ Poiss(X). Příklad č.31 (binomické rozdělení, simulační studie) Vygenerujte pseudonáhodná čísla X (početnosti úspěchů) opakovaná M-krát (M = 1000) z Bin(N,p), kde A^ = 5ap = 0.5. Vytvořte tabulku vygenerovaných (simulovaných) i teoretických relativních početností (pro n = 0,1,..., 5). Superponujte histogram vygenerovaných pseudonáhodných čísel s teoretickou pravděpodobnostn funkcí (viz obrázek 8). úspechy X Obrázek 8: Histogram vygenerovaných pseudonáhodných čísel superponovaný teoretickou pravděpodobnostní funkcí Bin(N,p). Příklad č.32 (binomické vs normální rozdělení) Nechť Xj\f ~ Bin(N,p), potom můžeme aproximovat binomické rozdělení normálním následovně: Xn ~ N(Np, Np(l - p)), kde také platí ZN= XN~NP ~JV(Q,1). VNp{l-p) 11 Ukažte, že CLV platí pro ./V = 100 a p = 0.5 na tři desetinná místa. Příklad č.33 (normální rozdělení, simulační studie) Na základě simulační studie prověřte, že pokud X ~ iV(150, 6.25), potom [X]n ~ iV(150, 6.25/n). Použijte n = 30. Pro každou simulaci X vypočítejte aritmetické průměry xm, m = 1,2,..., M, kde M = 500 000. Superponujte je histogramem v relativní škále s teoretickou křivkou hustoty pro Xn. Vypočítejte Pr(Xn > 151) ze simulovaných dat a porovnejte tento výsledek s teoretickou (očekávanou) pravděpodobností. Řešení viz obrázek 9. i-1-1-1-1 i-1-1-1 i-1-1-1-1 146 148 150 152 154 148 149 150 151 149.0 149.5 150.0 150.5 151.0 průměry průměry průměry n-5 n-30 n-100 Obrázek 9: Histogram vygenerovaných průměru superponovaný teoretickou křivkou hustoty Xn. Příklad č.34 (normální rozdělení, simulační studie) _ _ 2 2 Nechť X ~ N(fii, af) aľ~ N(fi2, c|). Potom Xni — Yri2 ~ N(fii — fi2, ^ + ^J)- Generujte pseudonáhodná čásla X a Y rozdělení N(fij, cr|), j = 1, 2, kde [i\ = 100, o\ = 10, [12 = 50, 02 = 9 při (a) n\ = 4, ri2 = 5, (b) ri\ = 100, ri2 = 81. Pro každou simulaci X a Y vypočítejte rozdíl xm — ym, m = 1, 2,... M, kde M = 1000. Superponujte histogram těchto rozdílů v relativní škále s teoretickou křivkou hustoty rozdílu Xni — Yn2. Pro případ (a) i (b) vypočítejte Pr(Xni — Yn2 < 52) na základě empirického (vygenerovaného) a teoretického rozdělení X„, — Yno. o co —. o 30 40 50 60 70 46 48 50 52 54 rozdil průměru rozdil průměru ni=4,ri2 = 5 ni = 100,ri2 = 81 Obrázek 10: Histogram vygenerovaných rozdílů průměrů superponovaný teoretickou křivkou hustoty rozdělení rozdílu výběrových aritmetických průměrů 12 Příklad č.35 (statistika) Mějme náhodný výběr {X\,X2,..., Xn)T, kde Xi G M, i = 1, 2,..., n, potom příklady statistik jsou: • íl = Eľ=i Xi G M, • r2 = £ľ=i^2e^+u{0}, • T3 = (Eľ=i^i,E,-=i^i2)GM2. Příklad č.36 (testovací statistika, simulační studie) Na základě simulační studie prověřte, že pokud náhodná proměnná X má asymptoticky binomické rozdělení Bin{N,p), potom testovací statistika X/N-p ZjW = -/ y/P(l ~ p)/N má asymptoticky normální rozdělení N(0,1). Použijte p = 0, 0.1, 0.5, 0.9 a 1, a N = 5, 10, 30, 50 a 100. Okomentujte výsledky ve spojitosti s Haldovou podmínkou Np(l — p) > 9. Pro každou simulaci X vypočítejte zW,m, m = 1,2,..., M, kde M = 1000. Superponujte histogram vygenerovaných testovacích statistik v relativní škále s teoretickou křivkou hustoty Z\y. 0 1 2 3 4 5 realizace statistiky Zw N= 10 , p=0.1 , Hp= 0.9 -3 -2 realizace statistiky Zw N= 10 , p= 0.5 , Hp= 2.5 realizace statistiky Zw N= 10 , p= 0.9 , Hp= 0.9 -3 -2 realizace statistiky Zw N= 100 , p=0.1 , Hp= 9 2 3 N= 100 , p= 0.5 , Hp=25 realizace statistiky Zw N= 100 , p= 0.9 , Hp= 9 Obrázek 11: Histogram vygenerovaných testovacích statistik v relativní škále superponovaný s teoretickými křivkami hustoty. Příklad č.36 mluví o použití jednovýběrové testovací statistiky pro parametr binomického rozdělení (pravděpodob pro různé pravděpodobnosti a různé početnosti. Pokud není Haldova odmínka splněná,není možné testovací 13 statistiku použít. Příklad č.37 (testovací statistika, simulační studie) Na základě simulační studie prověřte, že pokud (a) X ~ N(p:,a2), kde [i = 0, a2 = 1 a (b) X ~ [(1 -p)N(fi,a2) +pN(fi,a2)], kde /i = 0, a2 = 1, p = 0.05, o\ = 2, potom testovací statistika F = má asymptoticky Xn-i rozdělení o n — 1 stupních volnosti. Použijte rozsahy náhodných výběrů n = 15 a n = 100. Pro každou simulaci X vypočítejte FpoZ)m, m = 1,2,..., M, kde M = 1000. Superponujte histogram vygenerovaných testovacích statistik v relativní škále s teoretickou křivkou hustoty F. X~N(0,1) X~N(0,1) —I-1-1-1 10 20 30 40 realizace testovací statistiky F n=15 ~~1-1-1-1-1 80 100 120 140 160 realizace testovací statistiky F n=100 Obrázek 12: Histogram vygenerovaných testovacích statistik v relativní škále superponovaný s teoretickými křivkami hustoty N(0,1). X~(1-p)N(0,1)+p*N(0,2) X~(1-p)N(0,1)+p*N(0,2) ~~l-1-1-1-1-1 10 20 30 40 50 60 realizace testovací statistiky F n=15 r~ 50 100 150 realizace testovací statistiky F n=100 —I 200 Obrázek 13: Histogram vygenerovaných testovacích statistik v relativní škále superponovaný s teoretickými křivkami hustoty (1 - p)N(0,1) + pN(0, 2). Příklad č.38 (postačující statistika binomického rozdělení) Nechť Xi, i = 1, 2,..., N jsou iid Bernoulliho pokusy a X = YliLi -^í- Potom X ~ Bin(N,p). Ukažte, že T(X) = YliLi Xi je postačující statistika pro p. Příklad č.39 (postačující statistika normálního rozdělení) Nechť Xi ~ N(fi, a2), kde « = 1,2,..., AT jsou iid proměnné a a2 poznáme. Ukažte, že T(X) = J2i=i Xi/N 14 X je postačující statistika pro /i. Příklad č.40 (binomické rozdělení; maximálně věrohodný odhad p) Nechť X ~ Bin(N,p) a realizace X jsou x = n. Předpokládejme, že jsme pozorovali (a) x = 2, (b) x = 10 a (c) x = 18 úspěchů v N = 20 pokusech. Pomocí R vypočítejte maximálně věrohodný odhad p. Výsledek zobrazte do grafu spolu s funkcí věrohodnosti (viz graf 14). Obrázek 14: Funkce věrohodnosti pro X ~ Bin(N,p)(p = 0.1; 0.5; 0.9 a N = 20) Příklad č.41 (I(p) a rozptyl pro p; X ~ Bin(N,p) Z funkce věrohodnosti odvoďte pozorovanou Fisherovu míru informace T(p) a rozptyl Far[p]. Příklad č.42 (kvadratická aproximace funkce věrohodnosti) 1. Nakreslete škálovaný logaritmus funkce věrohodnosti binomického rozdělení. Na x-ové ose bude p a na y-ové ose ln£(p) = l(p\x) — max(/(p|x)). Porovnejte ln£(p) s kvadratickou aproximací vypočítanou pomocí Taylorova rozvoje ln£(p) = ln (^j^^^J ~ ~\^{p){p ~ P))2■ 2. Nechť skóre funkce S(p) = ^lnL(pjx). Vezmeme-li derivaci kvadratické aproximace uvedené výše, dostaneme S(p) = —I(p)(p — p)) anebo — I~1/2(p))S(p) ~ X1/2^))^ —p)). Potom zobrazením pravé strany na x-ové ose a levé strany na y-ové ose dostaneme asymptoticky lineární funkci s jednotkovým sklonem. Asymptoticky také platí Z1/2^))^ — p)) ~ -/V(0,1), Je postačující mít rozsah x-ové osy (—2; 2), protože funkce je asymptoticky (lokálně) lineární na tomto intervalu. Rozumně škálujte y-vou osu. Zobrazte pro (a) n = 8, N = 10, (b) n = 80, N = 100 a (c) n = 800, N = 1000 (p G (0.5; 0.99)). Okomentujte rozdíly mezi (a), (b) a (c). Grafické řešení je na obrázku 15. 15 Obrázek 15: Porovnání škálovaného logaritmu funkce věrohodnosi s jeho kvadratickou aproximací a prvním řádku a porovnání škálované skóre funkce a přímky x = y v druhém řádku 16