Link: OLE-Object-Data Řešení vybraných kontrolních úkolů Kapitola 3. 5. V akciové společnosti je průměrná mzda 13 500 Kč. Přitom 30% pracovníků s nejnižší mzdou má průměrně 9000 Kč. Na začátku roku dostal každý z těchto pracovníků přidáno 500 Kč. O kolik % vzrostla průměrná mzda v celé akciové společnosti? Řešení: Všech pracovníků je n. Celkový objem měsíčně vyplacených peněz je n .13 500 Kč. Označme m[2] průměrnou mzdu zbylých 70% pracovníků. Musí platit: n .13 500 = 0,3n . 9 000 + 0,7n . m[2]. Odtud vypočteme m[2] = 10 800/0,7 Kč. Po přidání je celkový objem měsíčně vyplacených peněz roven (0,3n . 9 500 + 0,7n . 10 800/0,7) Kč. Tedy n . 13 500 je 100% a 0,3n . 9 500 + 0,7n . 10 800/0,7 je x%. Odtud trojčlenkou vypočteme x = 101,1%. Vidíme, že průměrná měsíční mzda v celé akciové společnosti vzrostla o 1,1%. 6. Při statistickém šetření pojištěnců byly získány tyto výše pojistek v Kč: +--------------------------------------------------------------------------------------------------+ |výše pojistky |390 |410 |430 |450 |470 |490 |510 |530 |550 |570 | |-----------------+-------+-------+--------+-------+-------+--------+-------+-------+-------+------| |abs. četnost |7 |10 |14 |22 |25 |12 |3 |3 |2 |2 | +--------------------------------------------------------------------------------------------------+ Určete aritmetický průměr, medián, modus, rozptyl, směrodatnou odchylku a koeficient variace výše pojistky. Řešení: (Ruční výpočet, bez použití software STATISTICA) Použijeme vzorec pro vážený aritmetický průměr. Rozsah souboru n = 7 + 10 + ... + 2 = 100. m = = Datový soubor má sudý rozsah, tedy medián je průměr dvou prostředních hodnot uspořádaného datového souboru, tj. průměr 50. a 51. uspořádané hodnoty, tedy 450. Modus je nejčetnější varianta znaku, tj. 470. Nejprve vypočteme rozptyl podle vzorce pro vážený rozptyl. s^2 = = Směrodatná odchylka s = Koeficient variace = 7. V datovém souboru, z něhož byl vypočten průměr 110 a rozptyl 800, byly zjištěny 2 chyby: místo 85 má být 95 a místo 120 má být 150. Ostatních 18 údajů je správných. Opravte průměr a rozptyl. Řešení: Bez újmy na obecnosti lze předpokládat, že prvních 18 hodnot je správných. Původní průměr: Nový průměr: Původní rozptyl: 800 = Nový rozptyl: 8. Vážený aritmetický průměr činil 1500 a vážený rozptyl 90000. Varianty x[[j]] byly transformovány vztahem: , j = 1, ..., r. Po této transformaci byl vážený aritmetický průměr 5 a vážený rozptyl 9. Určete konstanty a a h. Řešení: Podle věty 3.18. a) je průměr lineární kombinace Y = a + bX roven m[2] = a + bm[1]. V našem případě tedy . Podle věty 3.18. a) je rozptyl lineární kombinace Y = a + bX roven s[2]^2 = b^2s[1]^2. V našem případě tedy . Odtud h = 100. Z první rovnice dostaneme a = 1500 -- 5.100 = 1000. 10. Rozptyl součtů hodnot dvou znaků je 350, rozptyl rozdílů je 700. Vypočtěte koeficient korelace, víte-li, že oba znaky mají stejné rozptyly. Řešení: Podle věty 3.18. b) je rozptyl součtu U = X + Y roven s[3]^2 = s[1]^2 + s[2]^2 + 2s[12] a analogicky rozptyl rozdílu V = X - Y roven s[4]^2 = s[1]^2 + s[2]^2 - 2s[12]. Společnou hodnotu rozptylů znaků X a Y označíme s^2. Dostáváme tedy dvě rovnice pro dvě neznámé: 2s^2 + 2s[12] = 350 2s^2 - 2s[12] = 700 Odtud vypočteme s^2 = 262,5 a s[12] = -87,5. Koeficient korelace se počítá podle vzorce , v našem případě Kapitola 4. 7. Je dána rovnice regresní přímky y = 87 + 0,3(x -- 25) a koeficient korelace r[12] = 0,77. Najděte rovnici sdružené regresní přímky. Řešení: Původní regresní přímka má rovnici y = m[2] + b[1](x -- m[1]), sdružená regresní přímka má rovnici x = m[1] + (y -- m[2]), přičemž = r[12]^2, tedy 0,3 = 0,77^2. Odtud = 1,9763. Dále x = 25 +1,9763(y -- 87). 9. Jak se změní úsek a směrnice regresní přímky, když každou hodnotu závisle proměnného znaku zvětšíme o 10%? Řešení: Původní regresní přímka má rovnici y = b[0] + b[1]x, nová regresní přímka má rovnici 1,1y = 1,1(b[0] + b[1]x), tedy úsek i směrnice se zvýší o 10%. 10. Závislost mezi vnější teplotou a teplotou ve skladišti je popsána regresní přímkou y = 8 + 0,6x. Při jaké vnější teplotě klesne teplota ve skladišti pod bod mrazu? Řešení: 0 = 8 + 0,6x, tedy; Kapitola 5. 6. Z karetní hry o 32 kartách vybereme náhodně bez vracení 4 karty. Jaká je pravděpodobnost, že aspoň jedna z nich je eso? Řešení: Přejdeme k opačnému jevu, který znamená, že ani jedna z vybraných karet není eso. Pak 7. Dva hráči házejí střídavě mincí. Vyhrává ten, komu padne dřív líc. Stanovte pravděpodobnost výhry 1. hráče a pravděpodobnost výhry 2. hráče. Řešení: A[1] ... v 1. hodu padne líc, A[3] ... ve 3. hodu padne líc, A[5] ... v 5. hodu padne líc, atd. A ... vyhraje první hráč, Jevy A[1], A[3], A[5], ... jsou neslučitelné, tedy . Pravděpodobnost výhry druhého hráče je tedy . 8. Chevalier de Méré pozoroval, že při házení třemi kostkami padá součet 11 častěji než součet 12, i když podle jeho názoru (nesprávného) mají oba součty stejnou pravděpodobnost. Stanovte pravděpodobnost obou jevů. Řešení: jev A: padne součet 11 jev B: padne součet 12 příznivé výsledky: příznivé výsledky: 4 4 3 ......... 3 způsoby 4 4 4 ......... 1 možnost 4 5 2 .......... 3! způsoby 4 5 3 .......... 3! způsoby 4 6 1 .......... 3! způsoby 4 6 2 .......... 3! způsoby 5 5 1 .......... 3 způsoby 5 5 2 .......... 3 způsoby 5 3 3 .......... 3 způsoby 5 6 1 .......... 3! způsoby 6 3 2 .......... 3! způsoby 6 3 3 .......... 3 způsoby celkem 27 možností celkem 25 možností m(W*) = 6^3 P(A) = 27/6^3 = 0,125 P(B) = 25/6^3 = 0,1157 9. Student se ke zkoušce připravil na 15 otázek z 20 zadaných. Při zkoušce si vybere náhodně dvě otázky. Jaká je pravděpodobnost, že aspoň na jednu zná odpověď? Řešení: Přejdeme k opačnému jevu, který znamená, že student nezná odpověď ani na jednu ze dvou vybraných otázek. Kapitola 6. 4. Je pravděpodobnější vyhrát se stejně silným soupeřem tři partie ze čtyř nebo pět z osmi, když nerozhodný výsledek je vyloučen a výsledky jsou nezávislé? Řešení: A ... výhra právě ve třech partiích ze čtyř, přičemž pravděpodobnost výhry je 1/2. Podle vzorce pro binomické rozložení pravděpodobností (viz př. 6.3. b)) dostaneme: B ... výhra právě v pěti partiích z osmi, přičemž pravděpodobnost výhry je 1/2. Podle vzorce pro binomické rozložení pravděpodobností (viz př. 6.3. b)) dostaneme: Je tedy pravděpodobnější vyhrát tři partie ze čtyř než pět z osmi. 5. První dělník vyrobí denně 60 výrobků, z toho 10% zmetků. Druhý dělník vyrobí denně 40 výrobků, z toho 5% zmetků. Jaká je pravděpodobnost, že náhodně vybraný výrobek z denní produkce je zmetek a pochází od prvního dělníka? Řešení: A ... výrobek pochází od 1. dělníka, H ... výrobek je zmetek. Přitom 1. dělník vyrobí denně 6 zmetků, druhý dva zmetky. 6. Ze šesti vajec jsou dvě prasklá. Náhodně vybereme dvě vejce. Jaká je pravděpodobnost, že budou a) obě prasklá, b) právě jedno prasklé, c) obě dobrá? Řešení: A[1] ... první vybrané vejce je prasklé, A[2] ... druhé vybrané vejce je prasklé. ad a) ad b) ad c) 10. Pojišťovací společnost rozlišuje při pojišťování tři skupiny řidičů -- A, B a C. Pravděpodobnost toho, že řidič patřící do skupiny A bude mít během roku nehodu, je 0,03, zatímco u řidiče skupiny B je to 0,06 a u řidiče skupiny C 0,1. Podle dlouhodobých záznamů společnosti je 70% pojistných smluv uzavřeno s řidiči skupiny A, 20% s řidiči skupiny B a 10% s řidiči skupiny C. Jestliže došlo k nehodě řidiče pojištěného u této společnosti, jaká je pravděpodobnost, že patřil do skupiny C? Řešení: Označme jevy takto: N je jev: "došlo k nehodě" H[1] je jev: " řidič patří do skupiny A" H[2] je jev: " řidič patří do skupiny B" H[3] je jev: " řidič patří do skupiny C" Pak je P(H[1]) = 0,7, P(H[2]) = 0,2, P(H[3]) = 0,1, P(N/H[1]) = 0,03, P(N/H[2]) = 0,06, P(N/H[3]) = 0,1 P(N) = P(H[1]) P(N/H[1]) + P(H[2]) P(N/H[2]) + P(H[3]) P(N/H[3]) = 0,7.0,03 + 0,2.0,06 + 0,1.0,1 = 0,043 11. U jistého druhu elektrického spotřebiče se s pravděpodobností 0,01 vyskytuje výrobní vada. U spotřebiče s touto výrobní vadou dochází v záruční lhůtě k poruše s pravděpodobností 0,5. Výrobky, které tuto vadu nemají, se v záruční lhůtě porouchají s pravděpodobností 0,01. Jaká je pravděpodobnost, že a) u náhodně vybraného výrobku nastane v záruční lhůtě porucha, b) výrobek, který se v záruční lhůtě porouchá, bude mít dotyčnou výrobní vadu? Řešení: H[1] - výrobek má dotyčnou výrobní vadu H[2] - výrobek nemá tuto výrobní vadu A - výrobek se v záruční době porouchá Pak je: P(H[1]) = 0,01, P(H[2]) = 0,99, P(A/H[1]) = 0,5, P(A/H[2]) = 0,01 ad a) P(A) = P(H[1]).P(A/H[1]) + P(H[2]).P(A/H[2]) = 0,01.0,5 + 0,99.0,01 = 0,0149 ad b) Kapitola 7. 8. Náhodná veličina udává průměrný počet ok při hodu dvěma kostkami. Nakreslete graf její pravděpodobnostní funkce. Řešení: Náhodná veličina X nabývá dvanácti hodnot, a to 1, 1,5, 2, ...., 5,5 , 6. Označme X[1] náhodnou veličinu, která udává počet ok při hodu první kostkou a X[2] náhodnou veličinu, která udává počet ok při hodu druhou kostkou. Analogicky počítáme hodnoty pravděpodobnostní funkce v dalších bodech. Graf: 9. Diskrétní náhodný vektor (X[1], X[2]) má simultánní pravděpodobnostní funkci p(x[1], x[2]) danou hodnotami: p(0,0) = p(0,2) = p(1,1) = p(2,0) = p(2,2) = 0, p(0,1) = p(1,0) = p(1,2) = p(2,1) = 0,25. Jsou náhodné veličiny X[1], X[2] stochasticky nezávislé? Řešení: Sestavíme kontingenční tabulku, v níž budou hodnoty simultánní pravděpodobnostní funkce a obou marginálních pravděpodobnostních funkcí. +-------------------------------------+ | x[1 | x[2 |p[1](x[1]) | | |--------------| | | |]0 |1 |2 | | |----------+----+----+----+-----------| |]0 |0 |0,25|0 |0,25 | |----------+----+----+----+-----------| |1 |0,25|0 |0,25|0,5 | |----------+----+----+----+-----------| |2 |0 |0,25|0 |0,25 | |----------+----+----+----+-----------| |p[2](x[2])|0,25|0,5 |0,25|1 | +-------------------------------------+ Ověříme splnění multiplikativního vztahu (x[1], x[2]) R^2: p(x[1], x[2]) = p[1](x[1]) p[2](x[2]). Již pro x[1] = 0, x[2] = 0 vztah splněn není, protože p(0,0) = 0, avšak p[1](0) = 0,25 a p[2](0) = 0,25. Veličiny X[1], X[2] tedy nejsou stochasticky nezávislé. 10. Nechť spojitý vektor (X[1], X[2]) má simultánní hustotu pravděpodobnosti f(x[1], x[2]) = . Dokažte, že náhodné veličiny X[1], X[2] jsou stochasticky nezávislé. Řešení: Vypočítáme obě marginální hustoty a ověříme platnost multiplikativního vztahu (x[1], ..., x[n]) R^n: f(x[1], ..., x[n]) = f[1](x[1]) ... f[n](x[n]) s případnou výjimkou na množině bodů neovlivňujících integraci. f[1](x[1]) = = 24x[1]^2 (1-x[1]) = 12x[1]^2 (1-x[1]) pro 0 =< x[1] < 1, f[1](x[1]) = 0 jinak. f[2](x[2]) = = 24x[2] = 2x[2] pro 0 =< x[1] < 1, f[2](x[2]) = 0 jinak. Vidíme, že multiplikativní vztah je splněn, tudíž veličiny X[1], X[2] jsou stochasticky nezávislé. Kapitola 8. 2. Pojišťovna zjistila, že 12% pojistných událostí je způsobeno vloupáním. Jaká je pravděpodobnost, že mezi 30 náhodně vybranými pojistnými událostmi bude způsobeno vloupáním nejvýše 6? Řešení: X -- počet vloupání, X ~ Bi(30; 0,12), P(X =< 6) = = 0,939 3. Doba (v hodinách), která uplyne mezi dvěma naléhavými příjmy v jisté nemocnici, se řídí rozložením Ex(0,5). Jaká je pravděpodobnost, že uplyne více než 5 hodin bez naléhavého příjmu? Řešení: X -- doba, která uplyne mezi dvěma naléhavými příjmy, X ~ Ex(0,5), 4. Jaká je pravděpodobnost, že náhodná veličina X ~ N(20, 16) nabude hodnotu menši než 12 nebo větší než 28? Řešení: 5. Nechť X ~ Rs( a, b), přičemž F(x) = . Určete a, b. Řešení: X je spojitá náhodná veličina, tedy její distribuční funkce je spojitá. Proto platí . Odtud dostaneme a = -20, b = 35. 6. Nechť X[1], X[2] jsou stochasticky nezávislé náhodné veličiny, X[i] ~ N(0, 1), i = 1, 2. Jaké rozložení má transformovaná náhodná veličina X = ? Řešení: Náhodná veličina X[i]^2 ~ x^2(1), i = 1, 2 podle 8.6. e). Náhodná veličina má rozložení F(1,1) podle 8.6. g). Kapitola 9. 2. Nechť X ~ N(-1, 4). Najděte K[0,025](X). Řešení: X ~ N(-1, 4) , tedy X = 2U -- 1. Podle 9.5. a) dostáváme K[0,025](X) = 2.u[0,025] -1 = 2.(-u[0,975]) -- 1 = -2.1,95996 -- 1 = 4,9199 3. Nechť X[1], X[2] jsou stochasticky nezávislé náhodné veličiny, X[1] ~ N(2, 4), X[2] ~ N(-1, 9). Vypočtěte 99% kvantil transformované náhodné veličiny Y = 2X[1] -- 3X[2] + 5. Řešení: Protože náhodná veličina Y je lineární kombinací dvou náhodných veličin s normálním rozložením, bude mít podle 9.23. také normální rozložení se střední hodnotou E(Y) = 2E(X[1]) -- 3E(X[2]) + 5 = 2.2 -3.(-1) + 5 = 12 a rozptylem D(Y) = 4D(X[1]) + 9D(X[2]) = 4.4 + 9.9 = 97. Y ~ N(12,97) , tedy Y =U + 12. Podle 9.5. a) dostáváme K[0,99](Y) = SQRT97.u[0,99] + 12 = 34,9119 4. V zásilce 15 výrobků je 5 nekvalitních. Náhodná veličina X udává počet nekvalitních výrobků mezi čtyřmi náhodně vybranými výrobky. Vypočtěte její střední hodnotu a rozptyl, jestliže výběr byl proveden a) s vracením, b) bez vracení. (Návod: v bodě (a) má X binomické rozložení, v bodě (b) hypergeometrické.) Řešení: ad a) Provádíme n = 4 nezávislé opakované pokusy, pravděpodobnost úspěchu v každém z nich je , tedy X ~ . Podle 9.13. c) dostáváme E(X) = , D(X) = . ad b) Celkový počet výrobků je N = 15, mezi nimi je M = 5 nekvalitních, náhodně vybíráme n = 4 výrobky. Tedy X ~ Hg(15, 5, 4). Podle 9.13. e) dostáváme E(X) = , D(X) = 5. Sledovaná železniční trasa vykazuje velké nerovnosti, takže zatížení jednotlivé vozové nápravy náhodně kolísá, teoreticky spojitým způsobem. Prakticky jsou známy jen částečné informace, takže uvažujeme o diskrétní náhodné veličině X (náhodné zatížení v tunách) s pravděpodobnostní funkcí p(x) = 0,15 pro x=6, p(x) = 0,65 pro x=30, p(x) = 0,2 pro x=70, p(x) = 0 jinak. Při kalkulaci nákladů se ekonom zajímá o střední opotřebení náprav dané vzorcem Y = 1,15 X^2. Vypočtěte střední hodnotu opotřebení. Řešení: E(Y) = E(1,15X^2) = 1,15E(X^2) = = 1805,96 6. Počet různých druhů zboží, které zákazník nakoupí při jedné návštěvě obchodu, je náhodná veličina X. Dlouhodobým sledováním bylo zjištěno, že X nabývá hodnot 0, 1, 2, 3, 4 s pravděpodobnostmi 0,25, 0,55, 0,11, 0,07 a 0,02. a) Najděte distribuční funkci náhodné veličiny X a nakreslete její graf. b) Vypočtěte střední hodnotu náhodné veličiny X. c) Vypočtěte rozptyl náhodné veličiny X. Řešení: ad a) Graf: ad b) ad c) 7. Střelec střílí 3× nezávisle na sobě do terče. Při každém výstřelu se trefí s pravděpodobností 3/4. Za zásah získá 2 body, jinak ztratí 2 body. Vypočtěte střední hodnotu a rozptyl počtu získaných bodů. Řešení: X -- počet získaných bodů, X = -6, když střelec 3x nezasáhne. Pak . X = -2, když střelec 2x nezasáhne, 1x zasáhne. Pak . X = 2, když střelec 1x nezasáhne, 2x zasáhne. Pak . X = 6, když střelec 3x zasáhne. Pak . 8. Uvažme rodinu se třemi dětmi. Předpokládáme, že pravděpodobnost narození chlapce i dívky je stejná. Náhodná veličina X udává počet dívek v této rodině (má binomické rozložení), transformovaná náhodná veličina Y = -100X^2 + 300X + 500 udává roční náklady (v dolarech) na ošacení dětí. Vypočtěte střední hodnotu náhodné veličiny Y. Řešení: X ~ Bi(3, 1/2), tedy podle 9.13. c) E(X) = , D(X) = = E(X^2) -- [E(X)]^2, tedy E(X^2) = 3. Podle 9.17 E(Y) = -100. E(X^2) + 300. E(X) + 500 = 650 9. Náhodná veličina X udává příjem manžela (v tisících dolarů) a náhodná veličina Y udává příjem manželky (v tisících dolarů). Je známa simultánní pravděpodobnostní funkce p(x,y) diskrétního náhodného vektoru (X,Y)^`: p(10,10) = 0,2, p(10,20) = 0,04, p(10,30) = 0,01, p(10,40) = 0, p(20,10) = 0,1, p(20,20) = 0,36, p(20,30) = 0,09, p(20,40) = 0, p(30,10) = 0, p(30,20) = 0,05, p(30,30) = 0,1, p(30,40) = 0, p(40,10) = 0, p(40,20) = 0, p(40,30) = 0, p(40,40) = 0,05, p(x,y) = 0 jinak. a) Vypočtěte korelační koeficient náhodných veličin X, Y. b) Vypočtěte střední hodnotu a směrodatnou odchylku náhodné veličiny Z = 0,1X + 0,2Y, která vyjadřuje příspěvek obou manželů na důchod. (Náhodná veličina Z vyjadřuje, že příspěvek na důchod činí 10% manželova platu a 20% manželčina platu.) Řešení: Hodnoty simultánní pravděpodobnostní funkce i obou marginálních pravděpodobnostních funkcí zapíšeme do kontingenční tabulky: +----------------------------------+ | x | y |p[1](x)| | |------------------| | | |10 |20 |30 |40 | | |-------+---+----+----+----+-------| |10 |0,2|0,04|0,01|0 |0,25 | |-------+---+----+----+----+-------| |20 |0,1|0,36|0,09|0 |0,55 | |-------+---+----+----+----+-------| |30 |0 |0,05|0,1 |0 |0,15 | |-------+---+----+----+----+-------| |40 |0 |0 |0 |0,05|0,05 | |-------+---+----+----+----+-------| |p[2](y)|0,3|0,45|0,2 |0,05|1 | +----------------------------------+ ad a) Pro výpočet koeficientu korelace musíme znát kovarianci náhodných veličin X,Y a směrodatné odchylky těchto veličin. Nejprve vypočteme střední hodnoty a rozptyly: Nyní vypočteme kovarianci: Dosadíme do vzorce pro výpočet koeficientu korelace: ad b) 10. Náhodné veličiny X[1], X[2] mají kovarianci 12. Vypočtěte kovarianci náhodných veličin Y[1] = -8 + 11X[1], Y[2] = 6 -- 4X[2]. Řešení: 11. Náhodná veličina X udává výšku v metrech a náhodná veličina Y udává hmotnost v gramech. Jak se změní kovariance a koeficient korelace, jestliže výšku vyjádříme v cm a hmotnost v kg? Řešení: X ... výška v metrech, 100X ... výška v cm Y ... hmotnost v gramech, Y/1000 ... hmotnost v kg Kovariance se 10x zmenší, koeficient korelace se nezmění. 12. Náhodná veličina X má střední hodnotu m a směrodatnou odchylku s. Kolik procent realizací této náhodné veličiny se bude nacházet v intervalu (m - 2 s, m + 2 s)? Řešení: K řešení této úlohy použijeme Čebyševovu nerovnost: neboli . V našem případě t = 2, tedy . Znamená to, že v intervalu (m - 2 s, m + 2 s) se nachází aspoň 75% realizací náhodné veličiny X. 13. Použijte Čebyševovu nerovnost k odhadu pravděpodobnosti, že při 600 hodech kostkou padne šestka aspoň 75 a nejvýše 125. Řešení: X -- počet šestek při 600 hodech kostkou, X ~ , E(X) = 100 = m, D(X) = . Čebyševova nerovnost: neboli . V našem případě: , tudíž 25 = ts. Odtud a . Vidíme tedy, že s pravděpodobností aspoň 0,8667 padne šestka při 600 hodech kostkou aspoň 75 a nejvýše 125. Kapitola 11. 5. Předpokládáme. že velký ročník na vysoké škole má výsledky ze statistiky normálně rozloženy kolem střední hodnoty 72 bodů se směrodatnou odchylkou 9 bodů. Vypočtěte pravděpodobnost, že a) náhodně vybraný student bude mít výsledek nad 80 bodů b) průměr výsledků náhodně vybraných 10 studentů bude nad 80 bodů. Řešení: ad a) X ... výsledek ze statistiky, X ~ N(72, 9^2) ad b) X[1], ..., X[10] ... výsledky ze statistiky 10 náhodně vybraných studentů, tvoří náhodný výběr z rozložení N(72, 9^2). 6. Nechť X[1], ..., X[20] je náhodný výběr z N(m, s^2). Najděte čísla k[1], k[2] tak, aby platilo = 0,05 a = 0,05. Řešení: Využijeme toho, že statistika K = ~ x^2(n-1). . Znamená to, že číslo 19k[1] je kvantil x^2[0,05](19). Ve statistických tabulkách najdeme x^2[0,05](19) = 10,117, tedy . , tedy . Znamená to, že číslo 19k[2] je kvantil x^2[0,95](19). Ve statistických tabulkách najdeme x^2[0,95](19) = 30,144, tedy . Kapitola 12. 3. Nechť X[1], ..., X[n] je náhodný výběr z rozložení Rs(0,b), kde b > 0 je neznámý parametr. Jsou definovány statistiky T[1] = a T[2] = . Ukažte, že T[1], T[2] jsou nestranné odhady parametru b a určete, který odhad je lepší. Řešení: Uvědomíme si, že střední hodnota náhodné veličiny s rozložením Rs(0,b) je (viz 9.13. h). Nyní vypočteme střední hodnoty obou odhadů T[1], T[2]. Statistika T[1] je tedy nestranný odhad parametru b. Statistika T[2] je tedy nestranný odhad parametru b. Abychom posoudili, který z odhadů je lepší, vypočítáme jejich rozptyly. Přitom si uvědomíme, že rozptyl náhodné veličiny s rozložením Rs(0,b) je (viz 9.13. h) Menší rozptyl má statistika T[2], odhad T[2] je tedy lepší než T[1]. 7. Hloubka moře se měří přístrojem, jehož systematická chyba je nulová a náhodné chyby měření mají normální rozložení se směrodatnou odchylkou s = 1 m. Kolik měření je nutno provést, aby se hloubka moře stanovila s chybou nejvýše 0,25 m při riziku 0,05? Řešení: Podle 12.9. (a) dostáváme: 0,5 >= h -- d = m + u[1-a/2] - m + u[1-a/2] = 2 u[1-a/2] n >= = = = 61,47 n >= 62 8. U jistého měřicího zařízení má být posouzena jeho přesnost. Proto na něm byla nezávisle změřena délka téhož výrobku. Výsledky měření v cm byly: 15,15; 15,20; 15,04; 15,14; 15,22. Předpokládáme, že tyto výsledky jsou číselné realizace náhodného výběru rozsahu 5 z rozložení N(m, s^2). Sestrojte 95% empirický interval spolehlivosti pro rozptyl s^2. Řešení: Podle 12.9. (c) máme: (d, h) = . Nejprve spočítáme m = 15,15, s^2 = 0,0049. Ve statistických tabulkách najdeme = 11,143, = 0,484. Po dosazení do vzorců pro dolní a horní mez dostaneme , Tedy 0,0018 cm^2 < s^2 < 0,0405 cm^2 s pravděpodobností aspoň 0,95. 9. Sponzor televizních pořadů pro děti chce vědět, kolik času stráví děti sledováním televize, protože na těchto informacích závisí typy a počty programů. Náhodným výběrem 100 dětí se zjistilo, že sledování televize věnují týdně průměrně 27,5 h se směrodatnou odchylkou 8 h. Za předpokladu, že počet hodin strávený za týden sledováním televize se řídí normálním rozložením, sestrojte 95% empirický interval spolehlivosti pro střední hodnotu počtu hodin strávených týdně sledováním televize. Řešení: X[1], ..., X[100] je náhodný výběr z rozložení N(m, s^2), kde parametry m, s^2 neznáme. Bylo spočteno, že m = 27,5, s = 8. Podle 12.9. (b) máme (d, h) = (m - t[1-a/2](n-1), m + t[1-a/2](n-1)). V tabulkách najdeme t[1-a/2](n-1) = t[0,975](99) = 1,96. Po dosazení do vzorců pro dolní a horní mez dostaneme d = m - t[1-a/2](n-1) = 27,5 - 1,96 = 25,93, h = m + t[1-a/2](n-1) = 27,5 + 1,96 = 29,07 Tedy 25,93 h < m < 29,07 h s pravděpodobností aspoň 0,95. 9. Na jisté velké americké univerzitě bylo v r. 1969 náhodně vybráno 5 profesorů a nezávisle na tom 5 profesorek a byl zjištěn jejich roční příjem (v tisících dolarů). Muži: 16, 19, 12, 11, 22, ženy: 9, 12, 8, 10, 16. Předpokládáme, že uvedené údaje tvoří realizace dvou nezávislých náhodných výběrů z rozložení N(m[1], s[1]^2) a N(m[2], s[2]^2). a) Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů příjmů mužů a žen. b) Pokud bude uvedený interval spolehlivosti obsahovat 1, sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot příjmů mužů a žen. V opačném případě sestrojte aspoň přibližný interval spolehlivosti. Řešení: ad a) Podle 12.13. (d) máme (d, h) = Nejprve vypočítáme m[1] = 16, m[2] = 11, s[1]^2 = 21,5, s[2]^2 = 10. Dále ve statistických tabulkách najdeme F[1-a/2](n[1] - 1, n[2] - 1) = F[0,975](4, 4) = 9,6045, F[a/2](n[1] - 1, n[2] - 1) = F[0,025](4, 4) = = 0,1041. Dosadíme do vzorců pro dolní a horní mez: Vidíme tedy, že 0,22 < < 20,65 s pravděpodobností aspoň 0,95. ad b) Podle 12.13.(b) máme (d, h) = (m[1] -- m[2] -- s[*]t[1-a/2](n[1]+n[2]-2), m[1] -- m[2] +s[*]t[1-a/2](n[1]+n[2]-2)) Vypočteme tedy s[*]^2 = . V tabulkách najdeme t[0,975](8) = 2,306. Dosadíme do vzorců pro dolní a horní mez: d = m[1] -- m[2] -- s[*]t[1-a/2](n[1]+n[2]-2) = 16 -- 11 - = -0,79, h = m[1] -- m[2] + s[*]t[1-a/2](n[1]+n[2]-2) = 16 -- 11 + = 10,79. Zjistili jsme, že -0,79 tisíc dolarů < m[1] - m[2] < 10,79 tisíc dolarů s pravděpodobností aspoň 0,95. 11. Pět mužů se rozhodlo, že budou hubnout. Zjistili svou hmotnost před zahájením diety a po ukončení diety. +--------------------------------------------------------------------------------------------------+ |Číslo osoby |1 |2 |3 |4 |5 | |--------------------------------+--------------+------------+------------+------------+-----------| |Hmotnost před dietou |84 |77,5 |91,5 |84,5 |97,5 | |--------------------------------+--------------+------------+------------+------------+-----------| |Hmotnost po dietě |78,5 |73,5 |88,5 |80 |97 | +--------------------------------------------------------------------------------------------------+ Za předpokladu, že uvedené údaje jsou číselné realizace náhodného výběru rozsahu 5 z dvourozměrného normálního rozložení N[2], sestrojte 95% empirický interval spolehlivosti pro střední hodnotu úbytku hmotnosti. Řešení: Vypočteme realizace rozdílového náhodného výběru: z[1] = 84 -- 78,5 = 5,5, z[2] = 77,5 -- 73,5 = 4, z[3] = 91,5 -- 88,5 = 3, z[4] = 84,5 -- 80 = 4,5, z[5] = 97,5 -- 97 = 0,5. Odtud vypočteme m = 3,5, s^2 = 3,625, s = 1,904. Podle 12.9. (b) máme (d, h) = (m - t[1-a/2](n-1), m + t[1-a/2](n-1)). V tabulkách najdeme t[1-a/2](n-1) = t[0,975](4) = 2,7764. Po dosazení do vzorců pro dolní a horní mez dostaneme d = m - t[1-a/2](n-1) = 3,5 - 2,7764 = 1,14, h = m + t[1-a/2](n-1) = 3,5 + 2,7764 = 5,84 Tedy 1,14 kg < m[1] - m[2] < 5,84 kg s pravděpodobností aspoň 0,95. Kapitola 13. 7. Podle údajů na obalu čokolády by její čistá hmotnost měla být 125 g. Výrobce dostal několik stížností od kupujících, ve kterých tvrdili, že hmotnost čokolád je nižší než deklarovaných 125 g. Z tohoto důvodu oddělení kontroly náhodně vybralo 50 čokolád a zjistilo, že jejich průměrná hmotnost je 122 g a směrodatná odchylka 8,6 g. Za předpokladu, že hmotnost čokolád se řídí normálním rozložením, můžeme na hladině významnosti 0,01 považovat stížnosti kupujících za oprávněné? Řešení: Na hladině významnosti 0,01 testujeme nulovou hypotézu H[0]: m = 125 g proti levostranné alternativě H[1]: m =< 125 g. Je to úloha na jednovýběrový t-test. a) Testování pomocí kritického oboru: Podle 13.9. (b) nulovou hypotézu zamítáme na hladině významnosti a, když realizace testové statistiky t[0] = . V našem případě: , t[1-a](n-1) = t[0,99](49) = 2,3263. Protože -2,4667 =< -2,3263, nulovou hypotézu zamítáme na hladině významnosti 0,01 a stížnosti kupujících považujeme za oprávněné. b) Testování pomocí intervalu spolehlivosti: Podle 13.5. (b) sestrojíme 99% empirický pravostranný interval spolehlivosti pro střední hodnotu m při neznámém rozptylu s^2. Podle 12.9. (b) máme h = m + t[1-a](n-1) = 122 + = 124,83. Protože 125 , nulovou hypotézu zamítáme na hladině významnosti 0,01. c) Testování pomocí p-hodnoty: Podle 13.5. (c) dostáváme p = P(T[0] =< t[0]) = P(T[0] =< -2,4667) = F(-2,4667), kde F(x) je distribuční funkce Studentova rozložení se 49 stupni volnosti. Pomocí statistického software zjistíme, že p = 0,0086. Protože p =< 0,01, nulovou hypotézu zamítáme na hladině významnosti 0,01. 8. V restauraci "U bílého koníčka" měřili ve 20 případech čas obsluhy zákazníka. Výsledky v minutách: 6,8,11,4,7,6,10,6,9,8,5,12,13,10,9,8,7,11,10,5. V restauraci "Zlatý lev" bylo dané pozorování uskutečněno v 15 případech s těmito výsledky: 9,11,10,7,6,4,8,13,5,15,8,5,6,8,7. Na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty doby obsluhy jsou v obou restauracích stejné. Řešení: Na hladině významnosti 0,05 testujeme nulovou hypotézu H[0]: m[1] - m[2] = 0 proti oboustranné alternativě H[1]: m[1] -- m[2] 0. Je to úloha na dvouvýběrový t-test. Před provedením tohoto testu je však nutné pomocí F-testu ověřit platnost hypotézy o shodě rozptylů. Na hladině významnosti 0,05 tedy testujeme H[0]: = 1 proti H[1]: 1. Podle 13.9. (e) nulovou hypotézu zamítáme na hladině významnosti a, jestliže F[a/2](n[1] -- 1, n[2] - 1) nebo F[1-a/2](n[1] -- 1, n[2] - 1). Vypočteme m[1] = 8,25, m[2] = 8,13, s[1]^2 = 6,307, s[2]^2 = 9,41. V našem případě . V tabulkách najdeme F[a/2](n[1] -- 1, n[2] - 1) = F[0,025](19,14) = , F[1-a/2](n[1] -- 1, n[2] - 1) = F[0,975](19,14) = 2,8607. Protože 0,6702 nepatří do kritického oboru , hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05. Nyní se vrátíme k dvouvýběrovému t-testu. a) Testování pomocí kritického oboru: Podle 13.9. (c) nulovou hypotézu zamítáme na hladině významnosti a, když absolutní hodnota realizace testové statistiky = . s[*]^2 = . V tabulkách najdeme t[0,975](33) = 1,96. Dosadíme do vzorce pro výpočet absolutní hodnoty realizace testové statistiky . Protože 0,124 < 1,96, nulovou hypotézu nezamítáme na hladině významnosti 0,05. b) Testování pomocí intervalu spolehlivosti: Podle 12.13. (b) máme (d, h) = (m[1] -- m[2] -- s[*]t[1-a/2](n[1]+n[2]-2), m[1] -- m[2] +[*]t[1-a/2](n[1]+n[2]-2)) d = 8,25 -- 8,13 = -1,73, h = 8,25 -- 8,13 = 1,97. Protože , nulovou hypotézu nezamítáme na hladině významnosti 0,05. c) Testování pomocí p-hodnoty: Podle 13.5 (c) dostáváme p = 2 min{P(T[0] =< t[0]), P(T[0] >= t[0])} = = 2 min{P(T[0] =< 0,124), P(T[0] >= 0,124)} = 2 min{F(0,124), 1 - F(0,124)}, kde F(x) je distribuční funkce Studentova rozložení s počtem stupňů volnosti 33. Pomocí statistického software získáme F(0,124) = 0,549, tedy p = 2.(1 -- 0,549) = 0,902. Protože 0,902 > 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05. 9. Na 10 automobilech stejného typu se testovaly dva druhy benzínu lišící se oktanovým číslem. U každého automobilu se při průměrné rychlosti 90 km/h měřil dojezd (tj. dráha, kterou ujede na dané množství benzínu) při použití každého z obou druhů benzínu. Výsledky: +--------------------------------------------------------------------------------------------------+ |č.auta |1 |2 |3 |4 |5 |6 |7 |8 |9 |10 | |--------------+--------+--------+--------+--------+--------+--------+--------+------+------+------| |benzín A |17,5 |20,0 |18,9 |17,9 |16,4 |18,9 |17,2 |17,5 |18,5 |18,2 | |--------------+--------+--------+--------+--------+--------+--------+--------+------+------+------| |benzín B |17,8 |20,8 |19,5 |18,3 |16,6 |19,5 |17,5 |17,9 |19,1 |18,6 | +--------------------------------------------------------------------------------------------------+ Za předpokladu, že dojezd se řídí normálním rozložením, testujte na hladině významnosti 0,05 hypotézu, že rozdíl středních hodnot dojezdu při dvou druzích benzínu se neliší. Řešení: Na hladině významnosti 0,05 testujeme nulovou hypotézu H[0]: m[1] - m[2] = 0 proti oboustranné alternativě H[1]: m[1] -- m[2] 0. Je to úloha na párový t-test. Přejdeme k rozdílovému náhodnému výběru, jehož realizace jsou: -0,3 -0,8 -0,6 -0,4 -0,2 -0,6 -0,3 -0,4 -0,6 -0,4. Vypočteme m = -0,46, s = 0,1838. a) Testování pomocí kritického oboru: Podle 13.9. (b) nulovou hypotézu zamítáme na hladině významnosti a, když absolutní hodnota realizace testové statistiky = Po dosazení dostaneme: = . V tabulkách najdeme t[1-a/2](n-1) = t[0,975](9) = 2,2622. Protože absolutní hodnota realizace testové statistiky je větší nebo rovna 2,2622, nulovou hypotézu zamítáme na hladině významnosti 0,05. S rizikem omylu nanejvýš 5% jsme tedy prokázali že rozdíl středních hodnot dojezdu při dvou druzích benzínu se liší. b) Testování pomocí intervalu spolehlivosti: Podle 13.5. (b) sestrojíme 95% empirický interval spolehlivosti pro střední hodnotu m = m[1] - m[2] při neznámém rozptylu s^2. Podle 12.9. (b) máme d = m - t[1-a/2](n-1) = -0,46 - = -0,59, h = m + t[1-a/2](n-1) = -0,46 + = -0,33. Protože 0 , nulovou hypotézu zamítáme na hladině významnosti 0,01. c) Testování pomocí p-hodnoty: Podle 13.5 (c) dostáváme p = 2 min{P(T[0] =< t[0])), P(T[0] >= t[0])} = 2 min{P(T[0] =< -7,91), P(T[0] >= -7,91)} = 2 min{F(-7,91), 1 - F(-7,91)}, kde F(x) je distribuční funkce Studentova rozložení s počtem stupňů volnosti 9. Pomocí statistického software získáme F(-7,91) = 0,00001, tedy p = 0,00002. Protože 0,00002 =< 0,05, nulovou hypotézu zamítáme na hladině významnosti 0,05. 10. Pevnost vlákna bavlněné příze lze pokládat za náhodnou veličinu s rozložením N(m,s^2). Je-li s^2 > 0,36 kg^2, vznikají potíže při tkaní. Při zkoušce 11 náhodně vybraných vláken byly zjištěny hodnoty jejich pevnosti a vypočten empirický rozptyl s^2 = 0,92 kg^2. Na hladině významnosti 0,05 je třeba zjistit, zda je příze vyhovující. Řešení: Na hladině významnosti 0,05 testujeme nulovou hypotézu H[0]: s^2 =< 0,36 kg^2 proti pravostranné alternativě H[1]: s^2 > 0,36 kg^2. Jde o test o rozptylu. a) Testování pomocí kritického oboru: Podle 13.9. (f) nulovou hypotézu zamítáme ve prospěch pravostranné alternativy, když realizace testové statistiky x^2[1-a](n-1). V našem případě . V tabulkách najdeme kvantil x^2[0,95](10) = 18,307. Protože 25,556 >= 18,307, nulovou hypotézu zamítáme na hladině významnosti 0,05. b) Testování pomocí intervalu spolehlivosti: Podle 13.5. (b) sestrojíme 95% empirický levostranný interval spolehlivosti pro rozptyl s^2 při neznámé střední hodnotě m. Podle 12.9. (c) máme . Protože , nulovou hypotézu zamítáme na hladině významnosti 0,05. c) Testování pomocí p-hodnoty: Podle 13.5. (c) máme p = P(T[0] >= t[0]) = P(T[0] >= 25,556) = 1 -- P(T[0] =< 25,556) = 1 - F(25,556), kde F(x) je distribuční funkce Pearsonova rozložení x^2(10). Pomocí statistického software najdeme F(25,556) = 0,9956, tedy p = 1 -- 0,9956 = 0,0044. Protože 0,0044 =< 0,05, nulovou hypotézu zamítáme na hladině významnosti 0,05. 11. Normálně rozložené náhodné veličiny představují výsledek měření téže konstanty dvěma různými metodami a jejich neznámé směrodatné odchylky s[1], s[2] charakterizují nespolehlivost těchto metod způsobenou náhodnými chybami. Při realizaci dvou nezávislých náhodných výběrů rozsahu n[1] = 25, n[2] = 31 jsme získali empirické směrodatné odchylky s[1] = 0,523, s[2] = 0,363. Je možno na hladině významnosti 0,05 považovat obě metody za stejně spolehlivé? Řešení: Na hladině významnosti 0,05 testujeme nulovou hypotézu H[0]: = 1 proti oboustranné alternativě H[1]: 1. a) Testování pomocí kritického oboru: Podle 13.9. (e) nulovou hypotézu zamítáme na hladině významnosti a, jestliže realizace testové statistiky F[a/2](n[1] -- 1, n[2] - 1) nebo F[1-a/2](n[1] -- 1, n[2] - 1). V našem případě: . V tabulkách najdeme F[a/2](n[1] -- 1, n[2] - 1) = F[0,025](24,30) = , F[1-a/2](n[1] -- 1, n[2] - 1) = F[0,975](24,30) = 2,1359. Protože realizace testového kritéria 2,076 nepatří do kritického oboru , nulovou hypotézu nezamítáme na hladině významnosti 0,05. S rizikem omylu nanejvýš 5% tedy obě metody můžeme považovat za stejně spolehlivé. b) Testování pomocí intervalu spolehlivosti: Podle 12.13. (d) máme (d, h) = , tedy , Protože , nulovou hypotézu nezamítáme na hladině významnosti 0,05. c) Testování pomocí p-hodnoty: Podle 13.5 (c) dostáváme p = 2 min{P(T[0] =< t[0]), P(T[0] >= t[0])} = 2 min{P(T[0] =< 2,076), P(T[0] >= 2,076)} = 2 min{F(2,076), 1 - F(2,076)}, kde F(x) je distribuční funkce Fischerova - Snedecorova rozložení s počtem stupňů volnosti čitatele 24 a jmenovatele 30. Pomocí statistického software získáme F(2,076) = 0,9705, tedy p = 2.(1-0,9705) = 0,059. Protože 0,059 > 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05.