M5VM05 Statistické modelování 2. Základní pojmy matematické statistiky Jan Koláček (kolacek@math.muni.cz) Ústav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modelování 1/40 Motivace V teorii pravděpodobnosti se předpokládá, že • je známý pravděpodobnostní prostor {Cí,A,P) • a že také známe rozdělení pravděpodobnosti náhodných veličin (resp. náhodných vektorů), které na tomto pravděpodobnostním prostoru uvažujeme. V matematické statistice však • máme k dispozici výsledky n nezávislých pozorování hodnot sledované náhodné veličiny X, které se ve statistice říká statistický znak, tj. máme x\ X(ú^i),. . ., xn X((x^), (jú\, . . ., co n £ 9 a na základě těchto pozorování chceme učinit výpověď o rozdělení zkoumané náhodné veličiny. Jan Koláček (PřF MU) M5VM05 Statistické modelování 2/40 Náhod Definice 1 Náhodný vektor X = (Xi,... ,Xn)f nazývame náhodným výběrem z rozdělení pravděpodobnosti P, pokud (i) Xi,... ,Xn jsou nezávislé náhodné veličiny, (ii) Xi,... ,Xn mají stejné rozdělení pravděpodobnosti P. Číslo n nazýváme rozsah náhodného výběru. Libovolný bod x = [X\,... ,xn) , kde Xj je realizace náhodné veličiny Xj (z = 1,.. .,n), budeme nazývat realizací náhodného výběru X = (Xi,... ,Xn)7. t Nechť náhodný výběr X = (Xi,..., Xn)f je z rozdělení, které je dáno distribuční funkcí F{x, 0), 0 G 0. Zkráceně budeme značit: AL{x1/.../xn}^F(x-/e). Cílem teorie odhadu je na základě náhodného výběru odhadnout • rozdělení pravděpodobnosti, o popřípadě některé parametry tohoto rozdělení, o anebo nalézt odhad nějaké funkce parametrů 6, tj. 7(0). Jan Koláček (PřF MU) M5VM05 Statistické modelování 3/40 Výběrové charakteristiky Definice 2 Libovolnou náhodnou veličinu Tn, která vznikne jako funkce náhodného výběru X = (Xi,...,Xn)ř, budeme nazývat statistikou, tj. Tn = T{X\,...,Xn)ř. Definice 3 Nechť X = (Xi,...,Xn)f je náhodný výběr rozsahu n z rozdělení s distribuční funkcí F(x; 6), 6 £ 0. Potom statistika 1 n Xn = X = j- Xj se nazývá výběrový průměr s2 n—1 1 E (Xt ~ X)2 výběrový rozptyl i=l výběrová směrodatná odchylka výběrová (empirická) distribuční fce i n Fn(x) = n E í(-oo,x)(Xz) i=l Jan Koláček (PřF MU) M5VM05 Statistické modelování 4/40 Bodové odhady Bodovým odhadem parametrické funkce 7(0) budeme rozumět nějakou statistiku tn = t{X\,...,Xn)r, která bude pro různé náhodné výběry kolísat kolem 7(0). Definice 4 Nechť X = (Xi,...,Xn)f je náhodný výběr z rozdělení pravděpodobnosti Pq, kde 6 je vektor neznámých parametrů. Nechť y(0) je daná parametrická funkce. Řekneme, že statistika tn = t(X\,...,Xn)f je odhadem nestranným (nevychýleným) pokud pro Vň G G platí EqTu = j(6). kladně vychýleným EqTh > j(6). záporně vychýleným EqTu < T(^)- asymptoticky nestranným lim EqTu = j(6). (slabě) konzistentním pokud pro Vč > 0 platí lim Pe(\Tn - 7(0)| >e)=0, tj. Tn A 7(0) ft—^oo Jan Koláček (PřF MU) M5VM05 Statistické modelování 5/40 Bodové odhady Poznámka 5 Vlastnost nestrannosti (tj. nevychýlenosti) ještě neposkytuje záruku dobrého odhadu, pouze vylučuje systematickou chybu. Poznámka 6 Používaní konzistentních odhadu zaručuje — malou pravděpodobnost velké chyby v odhadu parametru, pokud rozsah výběru dostatečně roste; — volbou dostatečně velkého počtu pozorování lze učinit chybu odhadu libovolně malou. Jan Koláček (PřF MU) M5VM05 Statistické modelování 6/40 Odhady střední hodnoty a rozptylu Věta 7 Necht X = (Xi,... ,Xn)f je náhodný výběr z rozdělení, které má střední hodnotu pro V0 G 0. Pak výběrový průměr je nestranným odhadem střední hodnoty, tj. EeX = fi(0). j Věta 8 Necht X = (Xi,... ,Xn)f je náhodný výběr z rozdělení, které má rozptyl cr2(6) pro V0 G 0. Pak výběrový rozptyl je nestranným odhadem rozptylu, tj. EqS1 = a2 (6). Jan Koláček (PřF MU) M5VM05 Statistické modelování 7/40 Postačující podmínka konzistence Věta 9 Nechi statistika Tn = T(X\,... ,Xn)f je nestranný nebo asymptoticky nestranný odhad parametrické funkce j(6) a platí lim DqTh = 0. n—^oo Pak je statistika Tn = T(X\,... ,Xn) konzistentním odhadem parametrické funkce 7(0). Jan Koláček (PřF MU) M5VM05 Statistické modelování 8/40 Důsledky Důsledek 10 Necht X = (Xi,..., Xn)f je náhodný výběr z rozdělení, které má pro Vň G G střední hodnotu a rozptyl cr2(0), tj. Potom je-li fi(6) < oo, pak výběrový průměr X je slabě konzistentním odhadem }t(0). Důsledek 11 Necht X = (Xi,..., Xn)f je náhodný výběr z rozdělení, které má pro Vň G G střední hodnotu a rozptyl cr2(Q), tj. AL{x1/.../xn}^Jc(F(e)/a2(e)). Potom je-li cr2 (6) < oo, pak výběrový rozptyl S2 je slabě konzistentním odhadem cr2(0). i Jan Koláček (PřF MU) M5VM05 Statistické modelování 9/40 Více nestranných odhadů Definice 12 Nechť Tn je nestranný odhad parametrické funkce j(0) a pro všechna 6 £ 0 platí kde T* je libovolný nestranný odhad parametru j(0). Potom odhad Tn nazveme (rovnoměrně) nejlepším nestranným odhadem parametrické funkce j(0). Příklad 1 | Nalezněte nej lepší nestranný lineární odhad střední hodnoty ■ I Jan Koláček (PřF MU) M5VM05 Statistické modelování 10 / 40 Intervalové odhady Odhady, jimiž jsme se doposud zabývali, se někdy nazývají bodové odhady parametrické funkce j(0). Je tomu tak proto, že pro danou realizaci náhodného výběru X\,...,xn představuje odhad daný statistikou Tn(x\,... ,xn) jediné číslo (bod), které je v jistém smyslu přiblížením ke skutečné hodnotě parametrické funkce j(6). Úlohu odhadu však lze formulovat i jiným způsobem. Jde o to, sestrojit na základě daného náhodného výběru takový interval, jehož hranice jsou statistiky, a který se s dostatečně velkou přesností pokryje skutečnou hodnotu parametrické funkce 7(0). V tomto případě mluvíme o intervalovém odhadu parametrické funkce 7(0). Jan Koláček (PřF MU) M5VM05 Statistické modelování 11 / 40 Definice Definice 13 Nechť -U-{Xi,... ,Xn} ~F(x',6) je náhodný výběr rozsahu n z rozdělení o distribuční funkci F(x;0), 0 £ 0. Dále mějme parametrickou funkci 7(0), oc G (0,1) a statistiky D = D(X1/.../Xn) a H = H(Xi,... ,Xn). Potom intervaly (D,H) nazveme 100(1 — a) % intervalem spolehlivosti pro parametrickou funkci 7(0) jestliže Pe(D(Xi.....Xn) < 7(0) < H(Xi.....X„)) = 1 - « Jestliže PflCDCX!,...^) <7(fl)) = l-«, pak statistiku D = D(Xi,... ,Xn) nazýváme dolním odhadem parametrické funkce 7(0) se spolehlivostí 1 — oc (nebo s rizikem oc). Jestliže íVt(0) fc0 + Ľ 6iXŕ ~ N ( &0 + E Ľ i=i V 1=1 í=i X~N(^,(72) II = ^ ~ N(0,1) # rozdělení: ■U- {Ui,..., Uv} ~ N(0,1) => K = Ul + --- + Ul~x2(v) ^{Ki~x2(n),---,Kk~x2(vk)} x = x1 + ---+xfc~x2(^i + --- + ^) Studentovo t-rozdělení: L7~N(0,1) ±íC~^;2(v) T = -y= ~ ŕ(v) Fisherovo F-rozdělení: Jan Koláček (PřF MU) M5VM05 Statistické modelování 18 / 40 Důsledek Věta 14 Mějme -U-{Xi,... ,Xn} ~ N(ji,cr2) a výběrový průměr X = \ X; a výběrový i=l rozptyl S2 = -U, £ (Xť - X)2. Pak platí 1=1 (1) Výběrový průměr X (2) Statistika U = ^VH ~ N(0,1) (3) Statistika K = ^S2 ~ X2(n-1) (4) Statistika T = ^^-y/ň ~ t(n — 1) Jan Koláček (PřF MU) M5VM05 Statistické modelování 19 / 40 Pivotové statistiky Z Statistiky \U\, \k\ a [T] se nazývají pivotové statistiky, přičem U= —^-\fn je pivotovou statistikou pro ]i při známém cr neznámý parametr K=^S2 -"- a2 T — ^-J^y/ň - "- ji při neznámém cr Jan Koláček (PřF MU) M5VM05 Statistické modelování Interval spolehlivosti pro střední hodnotu při známém rozptylu Důsledek 15 Mějme -U-{Xi,... , Xn} ~ N(fi,a ), kde }i je neznámý parametr a je známé reálné číslo. Pak (X - u1_0í/2-^/X + Wi_a/2^) Je 100(1 — oc) % interval spolehlivosti pro střední hodnotu }i při známém cr2 je dolní odhad střední hodnoty ]i při známém cr2 se spolehlivostí 1 — oc je horní odhad střední hodnoty ]i při známém cr2 se spolehlivostí 1 — oc Jan Koláček (PřF MU) M5VM05 Statistické modelování 21 / 40 Důkaz Za pivotovou statistiku zvolíme statistiku Počítejme n ~ N(0,1) 1 — OL = P(t/| < U < Ui_ol) = P(~U1_a < z. z. = P(X - Ml-a/2^ < JI < X + Wl-«/2^) Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad 2 Rychlost letadla byla určována v 5 zkouškách a z jejich výsledků byl vypočten odhad x = 870,3 m/s. Najděte 95% interval spolehlivosti pro ]i, je-li známo, že rozptýlení rychlosti letadla se řídí normálním rozdělením se směrodatnou odchylkou cr = 2, Ira/s. Řešení X ± «0 975 —;= = 870' 3 ± 1,959964 = (868,46; 872,14). ' Vn V5 Interval spolehlivosti pro střední hodnotu při neznámém rozptylu Důsledek 16 Mějme -U-{Xi,... ,Xn} ~ N{ji,cr2), kde ji a cr2 jsou neznámé parametry. Pak pro střední hodnotu [jT] (X-ř^/zín-lJ^X + ř^/zín-l)^) - je 100(1 — ol)% interval spolehlivosti pro střední hodnotu y y X + ři_a(n-l) jí pn neznámem cr je dolní odhad střední hodnoty jí při neznámém cr2 se spolehlivostí 1 — ol je horní odhad střední hod- -2 y y noty ji pn neznámem cr se spolehlivostí 1 — ol Jan Koláček (PřF MU) M5VM05 Statistické modelování 24 / 40 Interval spolehlivosti pro rozptyl Důsledek 17 Mějme -U-{Xi,... ,Xn} ~ N(}i,cr2), kde }i a cr2 jsou neznámé parametry. Pak pro rozptyl cr (n-l)S2 (n-l)S: XÍ_a(n-l)' xí(n~l) i 2 2 (n-l)S: !ivosti pro je 100(1 — oí)% interval spolehli rozptyl cr2 je dolní odhad rozptylu cr2 se spolehlivostí 1 — ol (n-l)S2 je horní odhad rozptylu cr2 se spolehlivostí 1 — ol Jan Koláček (PřF MU) M5VM05 Statistické modelování 25 / 40 Příklad Příklad 3 Deset balíčků mouky pocházejících z balícího stroje mělo hmotnosti v gramech: 987, 1 001, 993, 994, 993, 1 005, 1 007, 999, 995, 1 002. Sestrojte 95% interval spolehlivosti pro střední hodnotu a rozptyl hmotnosti (předpokládejte normální rozdělení). Řešení Vypočteme průměr x = 997,6 a směrodatnou odchylku s = 6,2397. IS pro jí: s 6 2397 x ± £0/975 (9) -p= = 997,6 ± 2,26 ' = (993,14; 1002,06). IS pro cr 2. (n-l)S2 (n-l)S2 \ _ ( 9s2 9s: Ů_*(n-1)' xi(n-l) / V^0 975 (9),^0 025(9) (18,42; 129,76). Jan Koláček (PřF MU) M5VM05 Statistické modelování 26 / 40 Dva výběry Věta 18 Nechi -U-{Xi,..., XMl} ~ N(fii, cr2), X výběrový průměr a S2 výběrový rozptyl. Dále nechi -U-{Yi,..., YW2} ~ N(fi2> ^f)' ^ výběrový průměr a S2^ výběrový rozptyl. Předpokládejme X 1 Y. Pak (1) Statistika LLx-? =-1 - ~ N(0,1). 2 ? li _L 12 nl n2 (2) Pokud cr2 = cr^ = cr2f pak statistika _ X-Y-(yi-y2) / ^2 , ^ q2 _ (ni-i)sH(^-ih Tx-ř--^-V^T^ ^i+^2-2),S12- ni+n2_2 - (3) Statistika S2a2 F=Ú^ ~ F(m-l,n2-l) ^2 Jan Koláček (PřF MU) M5VM05 Statistické modelování 27 / 40 IS pro ]i\ — }i2 Důsledek 19 Necht -u-{Xi,... ,Xni} ^ N(/íi,ít2), X výběrový průměr a S\ výběrový rozptyl. Dále necht -u-{Yi,..., Yn2} ~ N(jí2/)' ^ výběrový průměr a S2 výběrový rozptyl. Předpokládejme XI Y. Pak jsou-li s s O2 3 cr2 známe , pak 100(1 — oc) % IS pro ]i\ — ]i2 2 2 2 2 x-y-"i-fV^ + ^x-y+Mi-fV^ + i)- Jestliže ^1 > 0, cr| > 0 a p e (0,1). Z/ — Yj Pro i = 1,..., n označme Z = - Yjí=\ s2z = alt=i(Zí-ž)2. Ž — ř!_« (n — 1)-^L,Ž + t\_*{n — l)-^š= Je intervalový odhad parametrické funkce }i\ — }ii o spolehlivosti 1 — oc. Jan Koláček (PřF MU) M5VM05 Statistické modelování 32 / 40 Příklad Příklad 6 U 6 aut bylo zjištěno ojetí předních pneumatik (v mm) L 1,8 1,0 2,2 0,9 1,5 1,6 P 1,5 1,1 2,0 1,1 1,4 1,4 Určete 95 % interval spolehlivosti pro rozdíl středních hodnot ojetí levé a pravé pneumatiky. Řešení Vypočteme rozdíl ojetí na každém autě z= (0,3;—0,1;0,2;—0,2;0,1;0,2) a průměr ž = 0,083 a směrodatnou odchylku s = 0,194. IS pro ]i\ — ji2- ž±č0,975(6 -l)^ = 0,083 ±2,57- ^ = (-0,120;0,287). Jan Koláček (PřF MU) M5VM05 Statistické modelování 33 / 40 Odhady založené na centrálni limitní větě Často lze najít takovou transformaci \h\, že náhodná veličina h(X,y(6)) pro n —>- oo asymptoticky standardizované normální rozdělení N(0,1) fc(X,7(0)) N(0,1) . tj ma /z(X/7(0)) - N(0,1) Přitom rozdělení, z něhož výběr pochází - nemusí splňovat požadavky spojitosti a ryzí monotonie distribuční funkce, - může být i diskrétní. Věta 22 Mějme JL{Xlf...,Xn} ~ jC(}i(0),cr2(0)) a výběrový průměr X = \ E X{. Necht i=l S2 = S*(X) je (s\abě) konzistentním odhadem rozptylu crz(0)- Pak statistika x-u(e) r a AT/n 1v — ^^-'n ~ N(0,1). Jan Koláček (PřF MU) M5VM05 Statistické modelování 34 / 40 Důsledky Důsledek 23 (Binární náhodné výběry) Nechi -u-{Xi,... ,Xn} ^ A(p) je náhodný výběr s alternativním (binárním) rozdělením. Potom intervalovým odhadem parametru |pj o asymptotické spolehlivosti 1 — oč je interval (X - 7^%^,X + X(l-X) Důsledek 24 (Poissonovské náhodné výběry) Necht -u-{Xi,... ,Xn} ~ Po(A) Je náhodný výběr s Poisonovým rozdělením. Potom intervalovým odhadem parametru [X] (0 < A < oo) o asymptotické spolehlivosti 1 — oč je interval Jan Koláček (PřF MU) M5VM05 Statistické modelování 35 / 40 Příklad Příklad 7 Z 42 náhodně vybraných účastníků sportovního odpoledne bylo 16 dívek a 26 chlapců. Určete 95 % interval spolehlivosti pro podíl dívek mezi účastníky. Řešení Označme Xz-, i = 1,.. .,42 náhodnou veličinu nabývající hodnoty 1, pokud vybraný účastník je dívka a hodnoty 0, pokud vybraný účastník je chlapec. Zřejmě Xj ~ Vypočteme průměr x = || = 0,38 a směrodatnou odchylku s = y/x(l-x) = 0,4856. IS pro p: x ± t/0,975 ^ = 0,38 ± 1,96 • ^ = (0,234; 0,527). Jan Koláček (PřF MU) M5VM05 Statistické modelování 36 / 40 Úlohy k procvičení Příklad 1 Při zjišťování přesnosti nově zaváděné metody pro stanovení obsahu manganu v oceli bylo rozhodnuto provést 4 nezávislá měření Stanovte dolní odhad pro cr s rizikem 0,05, když výsledky měření byly: 0,31%; 0,30%; 0,29%; 0,32%. [0,00799] Příklad 2 Ze základního souboru byl proveden náhodný výběr s naměřenými intervalovými hodnotami a jejich četnostmi sledovaného znaku Xj (15,17) (17,19) (19,21) (21,23) (23,25) (25,27) tli 10 30 50 70 60 30 Určete a) interval ve kterém se nachází střední hodnota ]i s pravděpodobností 0,95 b) interval ve kterém se nachází rozptyl cr2 s pravděpodobností 0,95. Jan Koláček (PřF MU) [a) (21,5094; 22,1706), b) (5,952; 8,464)] M5VM05 Statistické modelování 37 / 40 Úlohy k procvičení Příklad 3 V tabulce jsou uvedeny hodnoty odporu (v ohmech) vzorků drátů A a B. Je známo, že výsledky takových zkoušek mají normální rozdělení s rozptyly ar = 4 • 10 , tff = 9 • 10 . Stanovte dolní odhad pro rozdíl středních hodnot odporu drátů při riziku ol = 0,05. A 0,140 0,138 0,143 0,142 0,144 0,137 B 0,135 ÔTT4Ô ÔTT42 Ô7l36 (U38 [-0,000116] Příklad 4 Bylo vylosováno 6 vrhů selat a z nich vždy dva sourozenci. Jeden z nich vždy dostal náhodně dietu č. 1 a druhý dietu č. 2. Přírůstky (v dkg) jsou následující: (62; 52), (54; 56), (55; 49), (60; 50), (53; 51), (58; 50). Sestrojte 95% interval spolehlivosti pro ]i\ — [(0,626; 10,707)] Jan Koláček (PřF MU) M5VM05 Statistické modelování 38 / 40 Úlohy k procvičení Příklad 5 V tabulce jsou uvedeny výsledky analýz niklu získané dvěma analytickými metodami. Stanovte horní odhad pro podíl směrodatných odchylek obou metod při riziku oc = 0,05, jestliže tyto výsledky považujeme za realizace náhodných výběrů z normálního rozdělení. Metoda I 3,26 3,26 3,27 3,27 Metoda II 3,23 3,27 3,29 3,29 [0,622] Příklad 6 Mezi 160 pracovníky (náhodně vybranými z 8000 pracujících v závodě) 48 cestuje do práce vlakem. Napište bodový odhad a 95% interval spolehlivosti pro podíl a počet zaměstnanců dopravujících se vlakem. [podíl: 0,3; (0,229; 0,371), počet: 2400; (1832;2968)] Jan Koláček (PřF MU) M5VM05 Statistické modelování 39 / 40 Úlohy k procvičení Příklad 7 Naprogramujte funkci ukol.R, která pro jediný vstupní parametr n vygeneruje n-rozměrný datový soubor z normálního rozděleníN(1/2,1) a na základě vygenerovaných dat sestrojí 95% interval spolehlivosti pro střední hodnotu ]i. Sledujte, pro jak velká n tento interval obsahuje nulu a jak se mění šířka intervalu. Dokážete interpretovat pozorované jevy? Jan Koláček (PřF MU) M5VM05 Statistické modelování 40 / 40