Masarykova univerzita v Brně Ekonomicko­správní fakulta Statistika distanční studijní opora Marie Budíková Brno 2004 Tento projekt byl realizován za finanční podpory Evropské unie v rámci programu SOCRATES -- Grundtvig. Za obsah produktu odpovídá výlučně autor, produkt nereprezentuje názory Evropské komise a Evropská komise neodpovídá za použití informací, jež jsou obsahem produktu. This project was realized with financial support of European Union in terms of program SOCRA- TES -- Grundtvig. Author is exclusively responsible for content of product, product does not represent opinions of European Union and European Commission is not responsible for any uses of informations, which are content of product Statistika Vydala Masarykova univerzita v Brně Ekonomicko­správní fakulta Vydání pilotní verze Brno, 2004 RNDr. Marie Budíková, Dr. Publikace neprošla jazykovou úpravou Identifikace modulu Znak KMSTAT Název Statistika Garant/autor RNDr. Marie Budíková, Dr. Cíl Vymezení cíle Statistika jako metoda analýzy dat patří k vědním disciplínám, v nichž by měl být vzdělán každý ekonom. Její role v ekonomii je zcela nezastupitelná, nebot' moderní řízení je založeno na nepřetržitém vyhodnocování informací o hospodářství jako celku i jeho subsystémech, a tyto informace poskytuje a následně zpracovává právě statistika. Přiměřená znalost základních statistických pojmů je pro ekonoma důležitá také proto, že mu pomáhá porozumět odborné ekonomické literatuře, jejíž některé části statistiku v hojné míře využívají. Význam statistiky v poslední době neustále roste, což úzce souvisí s rozvojem výpočetní techniky, která je používána jak při sběru a přenosu dat, tak při jejich zpracování a uklá-dání informací. Dovednosti a znalosti získané po studiu textů Předmět " Statistika" vás má především naučit zpracovávat data, která se týkají ekonomických jevů, tj. data třídit, numericky vyhodnocovat a inter- pretovat. Velké množství příkladů, které jsou součástí učebního textu, vám pomůže při formulování vlastních úloh a výběru správné metody. Naučíte se rovněž využívat výpočetní techniku při řešení ekonomických problémů. Časový plán Časová náročnost prezenční část 22% samostudium 78% Celkový studijní čas 14 týdnů Harmonogram přednášky 24 hodin samostudium a práce s počítačem 85 hodin 3 Způsob studia Studijní pomůcky doporučená literatura: [1] Anděl J.: Matematická statistika. SNTL/Alfa Praha 1978. [2] Arltová M., Bílková D., Jarošová E., Pourová Z.: Sbírka příkladů ze statistiky (Statistika A). VŠE Praha 1996. [3] Budíková M., Mikoláš Š., Osecký P.: Popisná statistika. MU Brno 2001. [4] Budíková M., Mikoláš Š., Osecký P.: Teorie pravděpodobnosti a matematická statistika. Sbírka příkladů. MU Brno 2001. [5] Hebák P., Kahounová J.: Počet pravděpodobnosti v příkladech. SNTL Praha 1978. [6] Karpíšek Z.: Pravděpodobnostní metody. VUT Brno 2000. [7] Karpíšek Z., Drdla M.: Statistické metody. VUT Brno 1999. [8] Novovičová J.: Pravděpodobnost a matematická statistika. ČVUT Praha 2002. [9] Stuchlý J.: Statistika I. Cvičení ze statistických metod pro managery. VŠE Praha 1999. Vybavení PC CD-ROM Návod práce se studijními texty Text je rozvržen do 13 kapitol a 2 příloh. 1. až 4. kapitola se zabývají po- pisnou statistikou. Popisná statistika je disciplína, která pomocí různých ta- bulek, grafů, funkcionálních a číselných charakteristik sumarizuje informace obsažené ve velkém množství dat. Používá jen základní matematické operace a lze ji snadno pochopit. Její důležitost spočívá jednak v tom, že se v praxi velmi často používá a jednak motivuje pojmy, které jsou potřeba v počtu pravděpodobnosti. 5. až 10. kapitola vás seznámí s počtem pravděpodobnosti, který se zabývá studiem zákonitostí v náhodných pokusech. Matematickými prostředky mo- deluje situace, v nichž hraje roli náhoda. Pod pojmem náhoda rozumíme působení faktorů, které se živelně mění při různých provedeních téhož po- kusu a nepodléhají naší kontrole. 11. až 13. kapitola obsahují základní poznatky o matematické statistice. Ma- tematická statistika je věda, která analyzuje a interpretuje data především za účelem získání předpovědi a zlepšení rozhodování v různých oblastech lidské činnosti. Při tom se řídí principem statistické indukce: na základě znalostí o náhodném výběru z určitého rozložení pravděpodobností se snaží odvodit vlastnosti tohoto rozložení pravděpodobností. Příloha A je tvořena vybranými statistickými tabulkami, konkrétně obsahuje hodnoty distribuční funkce standardizovaného normálního rozložení, kvantily 4 standardizovaného normálního rozložení, Pearsonova rozložení 2 (n), Stu- dentova rozložení t(n) a Fisherova-Snedecorova rozložení F(n1, n2). Příloha B pak obsahuje informace o programovém systému STATISTICA a podrobné návody na jeho použití. V úvodu 1. až 13. kapitoly je vždy vymezen cíl kapitoly a je uvedena časová zátěž, která je potřebná ke zvládnutí příslušné kapitoly. Kapitoly jsou uzav- řeny stručným shrnutím probrané látky a kontrolními otázkami a úkoly. Ty úkoly, jejichž řešení je nutné či alespoň vhodné provádět pomocí systému STATISTICA, jsou označeny (S). Výsledky úkolů můžete porovnat s výsled- ky, k nimž dospěla autorka učebního textu. 1. až 13. kapitola jsou uspořádány v logickém sledu. Do přílohy A budete nahlížet podle potřeby a příloha B vám poslouží rovněž průběžně. 5 6 Obsah Obsah 1. Základní, výběrový a datový soubor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2. Bodové a intervalové rozložení četností . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3. Číselné charakteristiky znaků . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39 4. Regresní přímka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .49 5. Jev a jeho pravděpodobnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost . . . . . . . . . . . . . . . . . . . . . 65 7. Náhodná veličina a její distribuční funkce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 8. Vybraná rozložení diskrétních a spojitých náhodných veličin .. . . . . . . . . . . . . . . . . . . .85 9. Číselné charakteristiky náhodných veličin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 10. Zákon velkých čísel a centrální limitní věta .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .111 11. Základní pojmy matematické statistiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 12. Bodové a intervalové odhady parametrů a parametrických funkcí .. . . . . . . . . . . . . .123 13. Úvod do testování hypotéz a testy o parametrech normálního rozložení . . . . . . . . 137 Příloha A ­ Statistické tabulky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 Příloha B ­ Základní informace o programu STATISTICA 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 8 Úvod Úvod Proč se zabývat statistikou? Statistika je metoda analýzy dat, která nachází široké uplatnění v celé řadě ekonomických, technických, přírodovědných a humanitních disciplín. Její význam v poslední době neustále roste, což úzce souvisí s rozvojem výpočetní techniky, která je používána jak při sběru a přenosu dat, tak při jejich zpracování a ukládání informací. Role statistiky v ekonomii je zcela nezastupitelná, nebot' moderní řízení je založeno na nepřetržitém vyhodnocování informací o hospodářství jako celku i jeho subsystémech, a tyto informace poskytuje a následně zpracovává právě statistika. Přiměřená znalost základních statistických pojmů je pro ekonoma důležitá také proto, že mu pomáhá porozumět odborné ekonomické literatuře, jejíž některé části statistiku v hojné míře využívají. Aplikovat statistiku znamená shromažd'ovat data o studovaných jevech a zpracovávat je, tj. třídit, numericky vyhodnocovat a interpretovat. Statis- tika se tak pro ekonoma ocitá v těsném sousedství informatiky a výpočetní techniky a je připravena řešit ekonomické problémy pomocí kvantitativní analýzy dat. 10 Způsob studia Způsob studia Co lze očekávat od tohoto textu? V předmětu " Statistika" se budeme zabývat třemi oblastmi statistiky, a to popisnou statistikou, počtem pravděpodobnosti a matematickou statistikou. Popisná statistika je disciplína, která pomocí různých tabulek, grafů, funkcionálních a číselných charakteristik sumarizuje informace obsažené ve velkém množství dat. Používá jen základní matematické operace a lze ji snadno pochopit. Její důležitost spočívá jednak v tom, že se v praxi velmi často používá a jednak motivuje pojmy, které jsou potřeba v počtu pravděpodobnosti. Počet pravděpodobnosti se zabývá studiem zákonitostí v náhodných pokusech. Matematickými prostředky modeluje situace, v nichž hraje roli náhoda. Pod pojmem náhoda rozumíme působení faktorů, které se živelně mění při různých provedeních téhož pokusu a nepodléhají naší kontrole. Matematická statistika je věda, která analyzuje a interpretuje data především za účelem získání předpovědi a zlepšení rozhodování v různých oblastech lidské činnosti. Při tom se řídí principem statistické indukce: na základě znalostí o náhodném výběru z určitého rozložení pravděpodobností se snaží odvodit vlastnosti tohoto rozložení pravděpodobností. K úspěšnému zvládnutí předmětu " Statistika" je zapotřebí ovládat kom- binatoriku, základy diferenciálního a integrálního počtu jedné a dvou proměnných a znát základy práce s osobním počítačem. Velmi účinným prostředkem pro řešení statistických úloh je programový systém STATISTICA, jehož instalační CD je součástí studijních materiálů. Informace o tomto systému a podrobné návody na jeho použití jsou uvedeny v příloze B studijních materiálů. Příklady či úkoly, jejichž řešení je nutné či alespoň vhodné provádět pomocí systému STATISTICA, jsou označeny (S). Příloha A obsahuje vybrané statistické tabulky, konkrétně hodnoty dis- tribuční funkce standardizovaného normálního rozložení, kvantily standar- dizovaného normálního rozložení, Pearsonova rozložení 2 (n), Studentova rozložení t(n) a Fisherova-Snedecorova rozložení F(n1, n2). Všechny tyto tabelované hodnoty (a samozřejmě mnohé další) lze získat pomocí systému STATISTICA. 12 Základní, výběrový a datový soubor 1 1. Základní, výběrový a datový soubor Cíl kapitoly Po prostudování této kapitoly budete umět: vymezit základní soubor a jeho objekty stanovit výběrový soubor spočítat absolutní a relativní četnosti množin ve výběrovém souboru a znát vlastnosti relativní četnosti a podmíněné relativní četnosti ověřit četnostní nezávislost dvou množin ve výběrovém souboru vytvořit datový soubor uspořádat jednorozměrný datový soubor a stanovit vektor variant vypočítat absolutní a relativní četnost jevu ve výběrovém souboru Časová zátěž Pro zvládnutí této kapitoly budete potřebovat 4 ­ 5 hodin studia. Nejprve se seznámíme s definicí základního a výběrového souboru a pojmem absolutní a relativní četnosti množiny v daném výběrovém souboru. Uvedeme příklad, s jehož různými variantami se budeme setkávat ve všech kapitolách věnovaných popisné statistice. Rovněž shrneme vlastnosti relativní četnosti. 1.1. Definice Základním souborem rozumíme libovolnou neprázdnou množinu E. Její prv- ky značíme a nazýváme je objekty. Libovolnou neprázdnou podmnožinu {1, . . . , n} základního souboru E nazýváme výběrový soubor rozsahu n. Je-li G E, pak symbolem N(G) rozumíme absolutní četnost množiny G ve výběrovém souboru, tj. počet těch objektů množiny G, které patří do výběrového souboru. Relativní četnost množiny G ve výběrovém souboru za- vedeme vztahem p(G) = N(G) n . 1.2. Příklad Základním souborem E je množina všech ekonomicky zaměřených studentů 1. ročníku českých vysokých škol. Množina G1 je tvořena těmi studenty, kteří uspěli v prvním zkušebním termínu z matematiky a množina G2 obsahuje ty studenty, kteří uspěli v prvním zkušebním termínu z angličtiny. Ze základního souboru bylo náhodně vybráno 20 studentů, kteří tvoří výběrový soubor {1, . . . , 20}. Z těchto 20 studentů 11 uspělo v matematice, 15 v angličtině a 11 v obou předmětech. Zapište absolutní a relativní četnosti úspěšných matematiků, angličtinářů a oboustranně úspěšných studentů. Řešení: N(G1) = 12, N(G2) = 15, N(G1 G2) = 11, n = 20 p(G1) = 12 20 = 0,6, p(G2) = 0,75, p(G1 G2) = 11 20 = 0,55 14 Vidíme, že úspěšných matematiků je 60%, angličtinářů 75% a oboustranně úspěšných studentů jen 55%. 1.3. Věta Relativní četnost má následujících 12 vlastností, které jsou obdobné vlast- nostem procent. p() = 0 p(G) 0 p(G1 G2) + p(G1 G2) = p(G1) + p(G2) 1 + p(G1 G2) p(G1) + p(G2) p(G1 G2) p(G1) + p(G2) G1 G2 = p(G1 G2) = p(G1) + p(G2) p(G2 - G1) = p(G2) - p(G1 G2) G1 G2 p(G2 - G1) = p(G2) - p(G1) G1 G2 p(G1) p(G2) p(E) = 1 p(G) + p(G) = 1 p(G) 1 Pokud se v daném základním souboru zajímáme o dvě podmnožiny, můžeme zavést pojem podmíněné relativní četnosti jedné podmnožiny v daném vý- běrovém souboru za předpokladu, že objekt pochází z druhé podmnožiny. V následujícím příkladu vypočteme podmíněné relativní četnosti úspěšných matematiků mezi úspěšnými angličtináři a naopak. 1.4. Definice Necht' E je základní soubor, G1, G2 jeho podmnožiny, {1, . . . , n} výběrový soubor. Definujeme podmíněnou relativní četnost množiny G1 ve výběrovém souboru za předpokladu G2: p(G1|G2) = N(G1 G2) N(G2) = p(G1 G2) p(G2) a podmíněnou relativní četnost G2 ve výběrovém souboru za předpokladu G1: p(G2|G1) = N(G1 G2) N(G1) = p(G1 G2) p(G1) . 1.5. Příklad Pro údaje z příkladu 1.2 vypočtěte podmíněnou relativní četnost úspěšných matematiků mezi úspěšnými angličtináři a podmíněnou relativní četnost ú- spěšných angličtinářů mezi úspěšnými matematiky. Řešení: p(G1|G2) = 11 15 = 0,73 (tzn., že 73% těch studentů, kteří byli úspěšní v an- gličtině, uspělo i v matematice) 15 1. Základní, výběrový a datový soubor p(G2|G1) = 11 12 = 0,92 (tzn., že 92% těch studentů, kteří byli úspěšní v ma- tematice, uspělo i v angličtině) Nyní se naučíme, jak ověřovat četnostní nezávislost dvou množin v daném výběrovém souboru. Znamená to, že informace o původu objektu z jedné množiny nijak nemění šance, s nimiž soudíme na jeho původ i z druhé množiny. Ověříme, zda úspěch v matematice a angličtině jsou v daném vý- běrovém souboru četnostně nezávislé. 1.6. Definice Řekneme, že množiny G1, G2 jsou četnostně nezávislé v daném výběrovém souboru, jestliže p(G1 G2) = p(G1) p(G2). (V praxi jen zřídka dojde k tomu, že uvedený vztah platí přesně. Většinou je jen naznačena určitá tendence četnostní nezávislosti.) 1.7. Příklad Pro údaje z příkladu 1.2 zjistěte, zda úspěchy v matematice a angličtině jsou v daném výběrovém souboru četnostně nezávislé. Řešení: p(G1 G2) = 0,55, p(G1) p(G2) = 0,6 0,75 = 0,45, tedy skutečná relativní četnost oboustranně úspěšných studentů je větší než by odpovídalo četnostní nezávislosti množin G1, G2 v daném výběrovém sou- boru. Nyní každý objekt základního souboru ohodnotíme jedním nebo více čísly po- mocí funkce, která se nazývá znak. Čísla, která se vztahují pouze k objektům výběrového souboru sestavíme do matice zvané datový soubor. Vystvětlíme si, co to je uspořádaný datový soubor a vektor variant. Uvedené pojmy ob- jasníme na příkladu. 1.8. Definice Necht' E je základní soubor. Potom funkce X : E R, Y : E R, . . . , Z : E R, které každému objektu přiřazují číslo, se nazývají (skalární) znaky. Uspořádaná p­tice (X, Y, . . . , Z) se nazývá vektorový znak. 1.9. Definice Necht' je dán výběrový soubor {1, . . . , n} E. Hodnoty znaků X, Y, . . . , Z pro i­tý objekt označíme xi = X(i), yi = Y (i), . . ., zi = Z(i), i = 1, . . . , n. Matice x1 y1 . . . z1 x2 y2 . . . z2 ... ... ... ... xn yn . . . zn 16 typu n × p se nazývá datový soubor. Její řádky odpovídají jednotlivým ob- jektům, sloupce znakům. Libovolný sloupec této matice nazýváme jednorozměrným datovým soubo- rem. Jestliže uspořádáme hodnoty některého znaku (např. znaku X) v jed- norozměrném datovém souboru vzestupně podle velikosti, dostaneme uspo- řádaný datový soubor x(1) ... x(n) , kde x(1) x(2) x(n). Vektor x[1] ... x[n] , kde x[1] < < x[r] jsou navzájem různé hodnoty znaku X, se nazývá vektor variant. 1.10. Příklad Pro studenty z výběrového souboru u vedeného v příkladu 1.2 byly zjišt'ovány hodnoty znaků X ­ známka z matematiky v prvním zkušebním termínu, Y ­ známka z angličtiny v prvním zkušebním termínu, Z ­ pohlaví studenta (0 . . .žena, 1 . . .muž). Byl získán datový soubor 2 2 0 1 3 1 4 3 1 1 1 0 1 2 1 4 4 1 3 3 1 3 4 0 1 1 0 1 1 0 4 2 1 4 4 0 2 2 0 4 3 1 2 3 1 4 4 0 1 1 0 4 3 1 4 4 1 1 3 0 Utvořte jednorozměrný uspořádaný i neuspořádaný datový soubor pro znám- ky z matematiky a vektory variant pro známky z matematiky. 17 1. Základní, výběrový a datový soubor Řešení: 2 1 4 1 1 4 3 3 1 1 4 4 2 4 2 4 1 4 4 1 , 1 1 1 1 1 1 1 2 2 2 3 3 4 4 4 4 4 4 4 4 , 1 2 3 4 . V závěrečné partii této kapitoly se seznámíme s pojmem jevu a jeho absolutní a relativní četnosti. V následujícím příkladu vypočítáme konkrétní absolutní a relativní četnosti několika jevů. 1.11. Definice Necht' {1, . . . , n} je výběrový soubor, X, Y, . . . , Z jsou znaky, B, B1, . . ., Bp jsou číselné množiny. Zápis {X B} znamená jev " znak X nabyl hodnoty z množiny B" a zápis {X B1 Y B2 . . . Z Bp} znamená jev " znak X nabyl hodnoty z množiny B1 a současně znak Y nabyl hodnoty z množiny B2 atd. až znak Z nabyl hodnoty z množiny Bp". Symbol N(X B) značí absolutní četnost jevu X B ve výběrovém souboru, tj. počet těch objektů ve výběrovém souboru, pro něž xi B. Symbol p(X B) znamená relativní četnost jevu {X B} ve výběrovém souboru, tj. p(X B) = N(X B) n . Analogicky N(X B1 Y B2 Z Bp) resp. p(X B1 Y B2 Z Bp) znamená absolutní resp. relativní četnost jevu {X B1 Y B2 Z Bp} ve výběrovém souboru. 1.12. Příklad Pro datový soubor z příkladu 1.10 najděte relativní četnost a) matematických jedničkářů, b) úspěšných matematiků, 18 c) oboustranně neúspěšných studentů. Řešení: ad a) p(X = 1) = 7 20 = 0,35; ad b) p(X 3) = 12 20 = 0,60; ad c) p(X = 4 Y = 4) = 4 20 = 0,20. Shrnutí kapitoly Předmětem statistického zájmu není jednotlivý objekt, nýbrž soubor objektů, tzv. základní soubor. Zpravidla není možné vyšetřovat všechny objekty, ale je- nom určitý počet objektů, které tvoří výběrový soubor. Ty prvky základního souboru, které vykazují určitou společnou vlastnost, tvoří množinu. Statis- tik zkoumá absolutní a relativní četnost množiny v daném výběrovém sou- boru. Zajímají-li nás ve výběrovém souboru dvě množiny, můžeme zkou- mat výskyty objektů z jedné množiny mezi objekty pocházejícími z druhé množiny. Tím dospíváme k pojmu podmíněné relativní četnosti. Rovněž lze ověřovat četnostní nezávislost těchto dvou množin v daném výběrovém sou- boru. Četnostní nezávislost vlastně znamená, že informace o původu objektu z jedné množiny nijak nemění šance, s nimiž soudíme na jeho původ z druhé množiny. Každému objektu základního souboru lze pomocí funkce zvané znak přiřadit číslo (nebo i více čísel). Pokud hodnoty znaků pro objekty daného výběrového souboru uspořádáme do matice, dostáváme datový soubor. Libo- volný sloupec této matice tvoří jednorozměrný datový soubor, který můžeme uspořádat podle velikosti a vytvořit tak uspořádaný datový soubor nebo z něj získat vektor variant. Jevem rozumíme skutečnost, že znak nabyl hod- noty z nějaké číselné množiny. Můžeme zkoumat absolutní a relativní četnost jevu v daném výběrovém souboru. Kontrolní otázky a úkoly 1 Uved'te příklad základního souboru z ekonomické praxe. 2 Necht' množiny G1, G2 jsou neslučitelné, p(G1) = 0,27, p(G1 G2) = 0,75. Vypočtěte p(G2). 3 Necht' G1 G2, p(G1) = 0,33, p(G2 - G1) = 0,15. Vypočtěte p(G2). 4 Necht' p(G1 - G2) = 0,36, p(G1 G2) = 0,12. Vypočtěte p(G2). 5 Je dán dvourozměrný datový soubor 2 1 2 0 1 0 4 2 4 2 3 2 3 1 5 3 5 2 2 0 Znak X znamená počet členů domácnosti a znak Y počet dětí do 15 let v této domácnosti. 19 1. Základní, výběrový a datový soubor a) Utvořte uspořádané datové soubory pro znaky X a Y. b) Najděte vektory variant znaků X a Y. c) Vypočtěte relativní četnost tříčlenných domácností. d) Vypočtěte relativní četnost nejvýše tříčlenných domácností. e) Vypočtěte relativní četnost bezdětných domácností. f) Vypočtěte relativní četnost dvoučlenných bezdětných domácností. g) Vypočtěte podmíněnou relativní četnost dvoučlenných domácnos- tí, které jsou bezdětné. 20 Bodové a intervalové rozložení četností 2 2. Bodové a intervalové rozložení četností Cíl kapitoly Po prostudování této kapitoly budete umět: konstruovat diagramy znázorňující rozložení četností vytvářet tabulky četností sestrojit grafy četnostní funkce, empirické distribuční funkce, hustoty četnosti a empirické intervalové distribuční funkce Časová zátěž Pro zvládnutí této kapitoly budete potřebovat 7 ­ 8 hodin studia. Nejprve se seznámíme s bodovým rozložením četností a ukážeme si, jak po- mocí různých diagramů graficky znázornit bodové rozložení četností. Pro da- tový soubor známek z matematiky a angličtiny pak vytvoříme několik typů diagramů. 2.1. Definice Necht' je dán jednorozměrný datový soubor. Jestliže počet variant znaku X není příliš velký, pak přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností. 2.2. Definice Existuje několik způsobů, jak graficky znázornit bodové rozložení četností. Tečkový diagram: na číselné ose vyznačíme jednotlivé varianty znaku X a nad každou variantu nakreslíme tolik teček, jaká je její absolutní četnost. Polygon četnosti: je lomená čára spojující body, jejichž x­ová souřadnice je varianta znaku X a y­ová souřadnice je absolutní četnost této varianty. Sloupkový diagram: je soustava na sebe nenavazujících obdélníků, kde střed základny je varianta znaku X a výška je absolutní četnost této varianty. Výsečový graf : je kruh rozdělený na výseče, jejichž vnější obvod odpovídá absolutním četnostem variant znaku X. Dvourozměrný tečkový diagram: na vodorovnou osu vyneseme varianty znaku X, na svislou varianty znaku Y a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dané dvojice. 2.3. Příklad Pro datový soubor z příkladu 1.10 sestrojte a) jednorozměrné tečkové diagramy pro znak X a znak Y , b) polygony četností pro znak X a znak Y , c) sloupkové diagramy pro znak X a znak Y , d) výsečové diagramy pro znak X a znak Y , e) dvourozměrný tečkový diagram pro vektorový znak (X, Y ), 22 Řešení: ad a) Známka z matematiky 1 2 3 4 Známka z angličtiny 1 2 3 4 ad b) Polygon četnosti pro známky z matematiky 1 2 3 4 1 2 3 4 5 6 7 8 9 Polygon četnosti pro známky z angličtiny 1 2 3 4 1 2 3 4 5 6 7 8 9 ad c) Sloupkový diagram známek z matematiky 1 2 3 4 0 1 2 3 4 5 6 7 8 9 Sloupkový diagram známek z angličtiny 1 2 3 4 0 1 2 3 4 5 6 7 8 9 ad d) Výsečový diagram známek z matematiky 1 23 4 Výsečový diagram známek z angličtiny 1 2 3 4 23 2. Bodové a intervalové rozložení četností Ze všech těchto diagramů je vidět odlišný přístup zkoušejících ke studentům. Matematik nešetří jedničkami, ale místo trojky raději rovnou dává čtyřku. Naproti tomu angličtinář považuje trojku za typickou studentskou známku. ad e) 1 2 3 4 1 2 3 4 X Y Dvourozměrný tečkový diagram svědčí o nepříliš výrazné tendenci k po- dobné klasifikaci v obou předmětech. Můžete si zkusit nakreslit dvourozměrné tečkové diagramy zvlášt' pro muže a zvlášt' pro ženy. Zjistíte, že u žen je ten- dence k podobným známkám daleko silnější než u mužů. Bodové rozložení četností lze znázornit nejenom graficky, ale též tabulkou zvanou variační řada, která obsahuje absolutní a relativní četnosti jednot- livých variant znaku v daném výběrovém souboru a též absolutní a relativní kumulativní četnosti. Pomocí relativních četností se zavádí četnostní funkce, pomocí relativních kumulativních četností empirická distribuční funkce (je pro ni typické, že má schodovitý průběh). Tyto pojmy objasníme na příkladu známek z matematiky a uvedeme rovněž vlastnosti obou výše zmíněných funkcí. 2.4. Definice Necht' je dán jednorozměrný datový soubor, v němž znak X nabývá r variant. Pro j = 1, . . ., r definujeme: absolutní četnost varianty x[j] ve výběrovém souboru nj = N(X = x[j]) relativní četnost varianty x[j] ve výběrovém souboru pj = nj n absolutní kumulativní četnost prvních j variant ve výběrovém souboru Nj = N(X x[j]) = n1 + + nj relativní kumulativní četnost prvních j variant ve výběrovém souboru Fj = Nj n = p1 + + pj 24 Tabulka typu x[j] nj pj Nj Fj x[1] n1 p1 N1 F1 ... ... ... ... ... x[r] nr pr Nr Fr se nazývá variační řada. Funkce p(x) = pj pro x = x[j], j = 1, . . ., r 0 jinak se nazývá četnostní funkce. Funkce F(x) = 0 pro x < x[1] Fj pro x[j] x < x[j+1], j = 1, . . . , r - 1 1 pro x x[r] se nazývá empirická distribuční funkce. 2.5. Příklad Pro datový soubor z příkladu 1.10 sestavte variační řadu pro znak X. Na- kreslete grafy četnostní funkce a empirické distribuční funkce. Řešení: x[j] nj pj Nj Fj 1 7 0,35 7 0,35 2 3 0,15 10 0,50 3 2 0,10 12 0,60 4 8 0,40 20 1,00 ­ 20 1,00 ­ ­ 1 2 3 4 0,0 0,2 0,4 t p(t) x 1 2 3 4 0,0 0,2 0,4 0,6 0,8 1,0 t F(t) x F(x) = tx p(t) 25 2. Bodové a intervalové rozložení četností 2.6. Věta Četnostní funkce je nezáporná (x R : p(x) 0) a normovaná, tj. x=- p(x) = 1. Empirická distribuční funkce je neklesající, tzn. x1, x2 R, x1 < x2 : F(x1) F(x2), zprava spojitá (x0 R libovolné, ale pevně dané: lim xx0 F(x) = F(x0)) a normovaná ( lim x- F(x) = 0, lim x F(x) = 1). Nyní se budeme zabývat dvourozměrných datovým souborem. Zavedeme si- multánní absolutní a relativní četnosti pro dvojice variant znaků X a Y a ukážeme souvislost mezi simultánními a marginálními četnostmi. Budeme de- finovat podmíněné relativní četnosti. Vysvětlíme si, jak se uvedené četnosti zapisují do kontingenčních tabulek. Pomocí simultánních relativních četností zavedeme simultánní četnostní funkci, seznámíme se s jejími vlastnostmi a ukážeme vztah mezi simultánní četnostní funkcí a marginálními četnostními funkcemi. Zavedeme pojem četnostní nezávislosti znaků v daném výběrovém souboru. Se všemi uvedenými pojmy se naučíme pracovat v příkladu se známkami z matematiky a angličtiny. 2.7. Definice Necht' je dán dvourozměrný datový soubor x1 y1 ... ... xn yn , kde znak X má r variant a znak Y má s variant. Pak definujeme: simultánní absolutní četnost dvojice (x[j], y[k]) ve výběrovém souboru njk = N(X = x[j] Y = y[k]), simultánní relativní četnost dvojice (x[j], y[k]) ve výběrovém souboru pjk = njk n , marginální absolutní četnost varianty x[j] nj. = N(X = x[j]) = nj1 + + njs, marginální relativní četnost varianty x[j] pj. = nj. n = pj1 + + pjs, 26 marginální absolutní četnost varianty y[k] n.k = N(Y = y[k]) = n1k + + nrk, marginální relativní četnost varianty y[k] p.k = n.k n = p1k + + prk, sloupcově podmíněná relativní četnost varianty x[j] za předpokladu y[k] pj(k) = njk n.k , řádkově podmíněná relativní četnost varianty y[k] za předpokladu x[j] p(j)k = njk nj. . Kteroukoliv ze simultánních četností či podmíněných relativních četností za- pisujeme do kontingenční tabulky. Kontingenční tabulka simultánních abso- lutních četností má tvar: y y[1] . . . y[s] nj. x njk x[1] n11 . . . n1s n1. ... ... . . . ... ... x[r] nr1 . . . nrs nr. n.k n.1 . . . n.s n Funkce p(x, y) = pjk pro x = x[j], y = y[k], j = 1, . . . , r, k = 1, . . . s 0 jinak se nazývá simultánní četnostní funkce. Četnostní funkce pro znaky X a Y odlišíme indexem takto: p1(x) = pj. pro x = x[j], j = 1, . . . , r 0 jinak p2(y) = p.k pro y = y[k], k = 1, . . . , s 0 jinak Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně ne- závislé, právě když pro všechna j = 1, . . ., r a všechna k = 1, . . ., s platí multiplikativní vztah: pjk = pj. p.k neboli (x, y) R2 : p(x, y) = p1(x) p2(y). 27 2. Bodové a intervalové rozložení četností 2.8. Věta Mezi simultánní četnostní funkcí a marginálními četnostními funkcemi platí vztahy: p1(x) = y=- p(x, y), p2(y) = x=- p(x, y). 2.9. Příklad Pro datový soubor z příkladu 1.10 a) sestavte kontingenční tabulky simultánních absolutních a relativních četností, b) nakreslete graf simultánní četnostní funkce p(x, y), c) sestavte kontingenční tabulky sloupcově a řádkově podmíněných rela- tivních četností, d) kolik procent těch studentů, kteří měli jedničku z angličtiny, mělo dvoj- ku z matematiky, e) kolik procent těch studentů, kteří měli jedničku z matematiky mělo dvojku z angličtiny, f) zjistěte, zda znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé. Řešení: ad a) y 1 2 3 4 nj. x njk 1 4 1 2 0 7 2 0 2 1 0 3 3 0 0 1 1 2 4 0 1 3 4 8 n.k 4 4 7 5 n = 20 y 1 2 3 4 pj. x pjk 1 0,20 0,05 0,10 0,00 0,35 2 0,00 0,10 0,05 0,00 0,15 3 0,00 0,00 0,05 0,05 0,10 4 0,00 0,05 0,15 0,20 0,40 p.k 0,20 0,20 0,35 0,25 1,00 28 ad b) 22 3 3 4 4 0, 00 0, 05 0, 10 0, 15 0, 20 1 xy p(x,y) ad c) y 1 2 3 4 x pj(k) 1 1,00 0,25 0,29 0,00 2 0,00 0,50 0,14 0,00 3 0,00 0,00 0,14 0,20 4 0,00 0,25 0,43 0,80 1,00 1,00 1,00 1,00 y 1 2 3 4 x p(j)k 1 0,57 0,14 0,29 0,00 1,00 2 0,00 0,67 0,33 0,00 1,00 3 0,00 0,00 0,50 0,50 1,00 4 0,00 0,12 0,38 0,50 1,00 ad d) Tento údaj najdeme ve druhém řádku prvního sloupce tabulky sloup- cově podmíněných relativních četností: 0%. ad e) Tento údaj najdeme v prvním řádku druhého sloupce tabulky řádkově podmíněných relativních četností: 14%. ad f) Kdyby v daném výběrovém souboru byly oba znaky četnostně nezávislé, platil by pro všechna j = 1, 2, 3, 4 a všechna k = 1, 2, 3, 4 multiplikativní vztah: pjk = pj.p.k, což splněno není. Tedy známky z matematiky a angličtiny nejsou četnostně nezávislé. V některých datových souborech je počet variant znaku příliš veliký a použití bodového rozložení četností by vedlo k nepřehledným a roztříštěným výsled- 29 2. Bodové a intervalové rozložení četností kům. V takových situacích používáme intervalové rozložení četností. Definu- jeme třídicí interval a jeho absolutní a relativní četnost, absolutní a relativní kumulativní četnost. Nově zavádíme četnostní hustotu třídícího intervalu. Uvedené četnosti zapisujeme do tabulky rozložení četností. Počet třídících intervalů stanovujeme např. podle Sturgesova pravidla. Intervalové rozložení četností požijeme v příkladu s datovým souborem obsahujícím údaje o mezích plasticity a pevnosti 60 vzorků oceli. 2.10. Definice Necht' je dán jednorozměrný datový soubor. Jestliže počet variant znaku X je blízký rozsahu souboru, pak přiřazujeme četnosti nikoliv jednotlivým vari- antám, ale celým intervalům hodnot. Hovoříme pak o intervalovém rozložení četnosti. 2.11. Definice Číselnou osu rozložíme na intervaly typu (-, u1 , (u1, u2 , . . . , (ur, ur+1 , (ur+1, ) tak, aby okrajové intervaly neobsahovaly žádnou pozorovanou hod- notu znaku X. Užíváme označení: j­tý třídicí interval znaku X, j = 1, . . . , r: (uj, uj+1 , délka j­tého třídicího intervalu znaku X: dj = uj+1 - uj, střed j­tého třídicího intervalu znaku X: x[j] = 1 2 (uj + uj+1). Třídicí intervaly volíme nejčastěji stejně dlouhé. Jejich počet určíme např. pomocí Sturgesova pravidla: r 1 + 3,3 log n, kde n je počet variant znaku X. 2.12. Definice Necht' je dán jednorozměrný datový soubor rozsahu n. Hodnoty znaku X roztřídíme do r třídících intervalů. Pro j = 1, . . ., r definujeme: absolutní četnost j­tého třídicího intervalu ve výběrovém souboru nj = N(uj < X uj+1), relativní četnost j­tého třídicího intervalu ve výběrovém souboru pj = nj n , 30 četnostní hustota j­tého třídicího intervalu ve výběrovém souboru fj = pj dj , absolutní kumulativní četnost prvních j třídicích intervalů ve výběrovém sou- boru Nj = N(X uj+1) = n1 + + nj, relativní kumulativní četnost prvních j třídicích intervalů ve výběrovém sou- boru. Fj = Nj n = p1 + + pj. Tabulka typu (uj, uj+1 dj nj pj fj Nj Fj (u1, u2 d1 n1 p1 f1 N1 F1 ... ... ... ... ... ... ... (ur, ur+1 dr nr pr fr Nr Fr n 1 se nazývá tabulka rozložení četností. 2.13. Příklad Z fiktivního základního souboru všech vzorků oceli odpovídajících " všem myslitelným tavbám" bylo do laboratoře dodáno 60 vzorků a zjištěny a hod- noty znaku X ­ mez plasticity a Y ­ mez pevnosti. Datový soubor má tvar: 154 178 133 164 58 75 145 161 94 107 113 141 86 97 121 127 119 138 112 125 85 97 41 72 96 113 45 89 99 109 51 95 101 114 160 169 87 101 88 139 83 98 106 111 92 104 85 103 112 118 98 102 103 108 99 119 104 128 107 118 98 140 97 115 105 101 71 93 39 69 122 147 33 52 78 117 147 137 125 149 73 76 77 85 47 61 68 85 137 142 44 68 92 116 141 157 155 189 136 155 82 81 136 163 72 79 66 81 42 61 113 123 42 85 133 147 153 179 85 91 a) Pro znak X stanovte optimální počet třídicích intervalů dle Sturgesova pravidla. b) Sestavte tabulku rozložení četností. 31 2. Bodové a intervalové rozložení četností Řešení: ad a) Znak X má 50 variant, tedy podle Sturgesova pravidla je optimální počet třídicích intervalů r = 7. Budeme tedy volit 7 intervalů stejné délky tak, aby v nich byly obsaženy všechny pozorované hodnoty znaku X, z nichž nejmenší je 33, největší 160; volba u1 = 30, . . . , u8 = 170 splňuje požadavky. ad b) (uj, uj+1 dj x[j] nj pj Nj Fj fj (30, 50 20 40 8 0,1333 8 0,1333 0,0066 (50, 70 20 60 4 0,0667 12 0,2000 0,0333 (70, 90 20 80 13 0,2166 25 0,4167 0,0108 (90, 110 20 100 15 0,2500 40 0,6667 0,0125 (110, 130 20 120 9 0,1500 49 0,8167 0,0075 (130, 150 20 140 7 0,1167 56 0,9333 0,0058 (150, 170 20 160 4 0,0667 60 1,0000 0,0033 Součet 60 1,0000 Ke grafickému znázornění intervalového rozložení četností slouží histogram. S jeho pomocí lze dobře vysvětlit, co znamená hustota četnosti, což je funkce zavedená pomocí četnostních hustot jednotlivých třídicích intervalů. S hus- totou četnosti úzce souvisí intervalová empirická distribuční funkce (je všude spojitá, protože je funkcí horní meze integrálu z hustoty četnosti). Pro údaje o mezi platicity oceli vytvoříme histogram a graf intervalové empirické dis- tribuční funkce. Seznámíme se rovněž s vlastnostmi obou výše zmíněných funkcí. 2.14. Definice Intervalové rozložení četností graficky znázorňujeme graficky pomocí his- togramu. Je to graf skládající se z r obdélníků, sestrojených nad třídicími intervaly, přičemž obsah j­tého obdélníku je roven relativní četnosti pj j­ tého třídicího intervalu, j = 1, . . ., r. Histogram je shora omezen schodovitou čarou, která je grafem funkce zvané hustota četnosti: f(x) = fj pro uj < x uj+1, j = 1, . . . , r 0 jinak Pomocí funkce hustoty četnosti zavedeme intervalovou empirickou distribuční funkci: F(x) = x - f(t) dt. 2.15. Příklad Pro datový soubor z příkladu 2.13 nakreslete histogram pro znak X a pod histogram nakreslete graf intervalové empirické distribuční funkce. 32 Řešení: 30 50 70 90 110 130 190dj fj pj 0,1 0,2 f(t) t0 30 50 70 90 110 130 150 170 190 0,25 0,50 0,75 1,00 0 F(t) t F(t) = t - f(x) dx x x 2.16. Věta Hustota četnosti je nezáporná (x R : f(x) 0) a normovaná ( - f(x) dx). Intervalová empirická distribuční funkce je neklesající, spojitá a normovaná ( lim x- F(x) = 0, lim x F(x) = 1). V následujícím tématu se budeme věnovat dvourozměrnému intervalovému rozložení četnosti, tj. budeme pracovat s dvourozměrným datovým soubo- rem. Zavedeme podobné pojmy jako u dvourozměrného bodového rozložení četnosti a jejich pochopení si ověříme na příkladě s datovým souborem ob- sahujícím údaje o mezi plasticity a mezi pevnosti oceli. 2.17. Definice Necht' je dán dvourozměrný datový soubor x1 y1 ... ... xn yn , 33 2. Bodové a intervalové rozložení četností kde hodnoty znaku X roztřídíme do r třídicích intervalů (uj, uj+1 , j = 1, . . . , r s délkami d1, . . . , dr a hodnoty znaku Y roztřídíme do s třídicích intervalů (vk, vk+1 , k = 1, . . ., s s délkami h1, . . . , hs. Pak definujeme: simultánní absolutní četnost (j, k)­tého třídicího intervalu: njk = N(uj < X uj+1 vk < Y vk+1), simultánní relativní četnost (j, k)­tého třídicího intervalu: pjk = njk n , marginální absolutní četnost j­tého třídicího intervalu pro znak X: nj. = nj1 + + njs, marginální relativní četnost j­tého třídicího intervalu pro znak X: pj. = nj. n , marginální absolutní četnost k­tého třídicího intervalu pro znak Y : n.k = n1k + + nrk, marginální relativní četnost k­tého třídicího intervalu pro znak Y : p.k = n.k n , simultánní četnostní hustota v (j, k)­tém třídicím intervalu: fjk = pjk djhk , marginální četnostní hustota v j­tém třídicím intervalu pro znak X: fj. = pj. dj , marginální četnostní hustota v k­tém třídicím intervalu pro znak Y : f.k = p.k hk . Kteroukoliv ze simultánních četností zapisujeme do kontingenční tabulky. Uved'me kontingenční tabulku simultánních absolutních četností: (vk, vk+1 (v1, v2 . . . (vs, vs+1 nj. (uj, uj+1 njk (u1, u2 n11 . . . n1s n1. ... ... ... ... (ur, ur+1 nr1 . . . nrs nr. n.k n.1 . . . n.s n 34 Funkce f(x, y) = fjk pro uj < x uj+1, vk < y vk+1, j = 1, . . . , r, k = 1, . . ., s 0 jinak se nazývá simultánní hustota četnosti. Hustoty četnosti pro znaky X a Y odlišíme indexem takto: f1(x) = fj. pro uj < x uj+1, j = 1, . . ., r 0 jinak f2(y) = f.k pro vk < y vk+1, k = 1, . . . , s 0 jinak Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezá- vislé při intervalovém rozložení četností, jestliže pro všechna j = 1, . . ., r a všechna k = 1, . . . , s platí multiplikativní vztah: fjk = fj. f.k neboli pro (x, y) R2 : f(x, y) = f1(x)f2(y). 2.18. Věta Mezi simultánní hustotou četnosti a marginálními hustotami četnosti platí vztahy: f1(x) = - f(x, y) dy, f2(y) = - f(x, y) dx. 2.19. Příklad Pro datový soubor z příkladu 2.13 a) stanovte dle Sturgesova pravidla optimální počet třídicích intervalů pro znak Y b) sestavte kontingenční tabulku simultánních absolutních četností. Řešení: ad a) Počet variant znaku Y je 52. Podle Sturgesova pravidla je tedy optimální počet třídicích intervalů s = 7. Nejmenší hodnota je 52 a největší 189. Volíme v1 = 50, v2 = 70, . . ., v8 = 190. ad b) (vk,vk+1 (50,70 (70,90 (90,110 (110,130 (130,150 (150,170 (170,190 nj. (uj, uj+1 njk (30, 50 5 3 0 0 0 0 0 8 (50, 70 0 3 1 0 0 0 0 4 (70, 90 0 4 7 1 1 0 0 13 (90, 110 0 0 6 8 1 0 0 15 (110, 130 0 0 0 4 5 0 0 9 (130, 150 0 0 0 0 2 5 0 7 (150, 170 0 0 0 0 0 1 3 4 n.k 5 10 14 13 9 6 3 60 35 2. Bodové a intervalové rozložení četností Shrnutí kapitoly Není-li v jednorozměrném souboru počet variant znaku příliš velký, pak přiřazujeme četnosti jednotlivým variantám znaku a hovoříme o bodovém rozložení četnosti. To lze znázornit graficky pomocí různých diagramů (např. tečkový diagram, sloupkový diagram atd.). Pokud zapíšeme četnosti do tabulky, dostaneme variační řadu. Pomocí relativních četností zavedeme četnostní funkci, pomocí kumulativních relativních četností empirickou distribuční funkci, která má schodovitý průběh. Pracujeme-li s dvourozměrným datovým souborem, zavádíme simultánní četnosti a zapisujeme je do kontingenční tabulky. Na okrajích kontin- genční tabulky jsou uvedeny marginální četnosti, které se vztahují jen k jednomu znaku. Pomocí simultánních kumulativních relativních četností zavádíme simultánní četnostní funkci. Simultánní a marginální četnosti či četnostní funkce nám snadno umožní ověřit četnostní nezávislost dvou znaků v daném výběrovém souboru. Je-li počet variant znaku srovnatelný s rozsahem souboru, použijeme raději intervalové rozložení četnosti, při němž přiřazujeme četnosti nikoli jed- notlivým variantám, ale třídicím intervalům. Jejich počet určíme např. po- mocí Sturgesova pravidla. Četnosti třídicích intervalů zapisujeme do ta- bulky rozložení četností. Relativní četnosti třídicích intervalů znázorňu- jeme pomocí histogramu. Schodovitá čára shora omezující histogram je grafem hustoty četnosti. Spojitým protějškem schodovité empirické dis- tribuční funkce je intervalová empirická distribuční funkce zavedená jako funkce horní meze integrálu z hustoty četnosti. Při dvourozměrném intervalovém rozložení četností pracujeme s podobnými pojmy jako u dvourozměrného bodového rozložení četnosti. Místo simultánní a marginální četnostní funkce samozřejmě máme simultánní či marginální hustotu četnosti. Kontrolní otázky a úkoly 1 Jaké grafy znázorňující rozložení četností znáte? Popište způsob jejich konstrukce. 2 Jak vzniká variační řada? 3 Jaké četnosti zapisujeme do kontingenční tabulky? 4 Kdy jsou v daném výběrovém souboru znaky četnostně nezávislé? 5 K čemu slouží Sturgesovo pravidlo? 6 Vyjmenujte funkcionální charakteristiky skalárního znaku a dvouroz- měrného vektorového znaku při bodovém a intervalovém rozložení čet- ností. 7 (S) V rámci marketingového průzkumu trhu bylo dotázáno 25 náhodně vybraných zákazníků jisté pojišt'ovny a byl zjišt'ován jejich zájem o nový druh pojištění (znak X) a současně jejich rodinný stav (znak Y ). Získané odpovědi byly zakódovány pro znak X takto: jednoznačný nezájem = 1, podprůměrný zájem = 2, průměrný zájem = 3, nadprů- 36 měrný zájem = 4, jednoznačný zájem = 5 a pro znak Y takto: svobodný = 1, rozvedený nebo ovdovělý = 2, ženatý = 3. 5 1 3 2 4 2 4 1 5 2 4 3 3 3 1 1 4 3 3 3 5 2 3 2 4 1 5 1 1 3 4 2 5 3 4 3 5 3 3 1 4 1 4 3 4 3 2 3 2 2 a) Pro znak X sestrojte jednorozměrný tečkový diagram, sestavte va- riační řadu, sestrojte graf četnostní funkce a empirické distribuční funkce. b) Pro vektorový znak (X, Y ) sestavte kontingenční tabulku abso- lutních četností, absolutních kumulativních četností, dále kon- tingenční tabulky sloupcově a řádkově podmíněných četností a graf simultánní četnostní funkce. c) Jsou znaky X, Y v daném výběrovém souboru četnostně nezávis- lé?8 (S) U 50 náhodně vybraných posluchačů a posluchaček VŠE v Praze byla zjišt'ována jejich hmotnost v kg (znak X) a jejich výška v cm (znak Y ). 58 178 68 173 56 170 60 170 61 173 71 181 85 184 80 170 52 172 72 182 65 170 57 169 65 169 60 170 54 162 52 169 83 182 60 168 68 173 63 171 72 177 90 192 57 176 51 168 81 190 73 177 75 179 71 180 66 178 67 182 72 191 57 174 57 160 56 170 56 172 52 165 72 185 75 170 52 163 63 184 63 172 58 163 64 174 52 168 55 164 67 173 60 170 55 160 62 172 70 171 a) Pro znak X stanovte optimální počet třídicích intervalů podle Sturgesova pravidla, sestavte tabulku rozložení četnosti, nakres- lete histogram a graf intervalové empirické distribuční funkce. b) Pro znak Y rovněž stanovte optimální počet třídicích intervalů podle Sturgesova pravidla. Pro vektorový znak (X, Y ) sestavte kontingenční tabulku absolutních četností a nakreslete dvouroz- měrný tečkový diagram. c) Jsou znaky X, Y v daném výběrovém souboru četnostně nezávis- lé? 37 2. Bodové a intervalové rozložení četností 38 Číselné charakteristiky znaků 3 3. Číselné charakteristiky znaků Cíl kapitoly Po prostudování této kapitoly budete umět: rozlišovat různé typy znaků vypočítat různé charakteristiky, polohy a variability skalárního znaku vypočítat charakteristiky těsnosti lineární závislosti dvou znaků využít vlastností číselných charakteristik ke zjednodušení výpočtů vypočítat vážené číselné charakteristiky znaků. Časová zátěž Pro zvládnutí této kapitoly budete potřebovat 5 ­ 6 hodin studia. Nejprve se naučíme rozlišovat různé typy znaků podle toho, jaký je jejich stupeň kvantifikace. Pro jednotlivé typy znaků pak zavedeme číselné charak- teristiky popisující polohu hodnot znaku na číselné ose a jejich proměnlivost. Seznámíme se rovněž s důležitými vlastnostmi číselných charakteristik a naučíme se je počítat pro konkrétní datové soubory. 3.1. Motivace Ve druhé kapitole jsme se seznámili s funkcionálními charakteristikami znaků, jako jsou p(x, y), p1(x), p2(y), F(x), f(x, y), f1(x), f2(y), které nesou úplnou informaci o rozložení četností. V této kapitole zavedeme číselné charakteris- tiky, které nás informují o některých rysech tohoto rozložení četností: o poloze (úrovni) hodnot znaku, o jejich variabilitě (rozptýlení), o těsnosti závislosti dvou znaků a pod. Pro různé typy znaků se používají různé číselné charak- teristiky, proto se nejdřív seznámíme s jednotlivými typy znaků. 3.2. Definice Podle stupně kvantifikace znaky třídíme takto: (n) Nominální znaky připouštějí obsahovou interpretaci jedině relace rov- nosti x1 = x2 (popřípadě x1 = x2), tj. hodnoty znaku představují jen číselné kódy kvalitativních pojmenování. Např. městské tramvaje jsou očíslovány, ale např. č. 4 a 12 říkají jen to, že jde o různé tratě: nic jiného se z nich o vztahu obou tratí nedá vyčíst. (o) Ordinální znaky připouštějí obsahovou interpretaci kromě relace rov- nosti i v případě relace uspořádání x1 < x2 (popřípadě x1 > x2), tj. jejich uspořádání vyjadřuje větší nebo menší intenzitu zkoumané vlastnosti. Např. školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených (jedničkář je lepší než dvojkař), ale intervaly mezi známkami nemají obsahové inter- pretace (netvrdíme, že rozdíl ve znalostech mezi jedničkářem a dvojkařem je stejný jako mezi trojkařem a čtyřkařem. Podobný charakter mají různá bodování ve sportovních, uměleckých a jiných soutěžích. (i) Intervalové znaky připouštějí obsahovou interpretaci kromě relace rov- nosti a uspořádání též u operace rozdílu x1-x2 (popřípadě součtu x1+x2), tj. stejný interval mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje 40 i stejný rozdíl v extenzitě zkoumané vlastnosti. Např. teplota měřená ve stupních Celsia představuje intervalový znak. Naměříme-li ve čtyřech dnech polední teploty 0, 2, 4, 6, znamená to, že každým dnem stoupla teplota o 2 stupně Celsia. Bylo by však chybou interpretovat tyto údaje tvrzením, že ze druhého na třetí den vzrostla teplota dvakrát, kdežto ze třetího na čtvrtý pouze jedenapůlkrát. (p) Poměrové znaky umožňují obsahovou interpretaci kromě relace rov- nosti a uspořádání a operace rozdílu ještě u operace podílu x1/x2 (popřípadě součinu x1 x2), tj. stejný poměr mezi jednou dvojicí hodnot a druhou dvojicí hodnot znamená i stejný podíl v extenzitě zkoumané vlastnosti. Např. má-li jedna osoba hmotnost 150 kg a druhá 75 kg, má smysl prohlásit, že první je dvakrát hmotnější než druhá. Zvláštní postavení mají: (a) Alternativní znaky, které nabývají jen dvou hodnot, např. 0, 1, což zna- mená absenci a prezenci nějakého jevu. Například 0 bude znamenat neúspěch, 1 úspěch při řešení určité úlohy. Alternativní znaky mohou být ztotožněny s kterýmkoliv z předcházejících typů. 3.3. Definice Pro nominální znaky používáme jako charakteristiku polohy modus. U bo- dového rozložení četností je to nejčetnější varianta znaku, u intervalového střed nejčetnějšího třídicího intervalu. 3.4. Definice Pro ordinální znaky používáme jako charakteristiku polohy ­kvantil. Je- li (0, 1), pak ­kvantil x je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl všech dat a na horní úsek obsahující aspoň podíl 1 - všech dat. Pro výpočet ­kvantilu slouží algo- ritmus: n = celé číslo c x = x(c) + x(c+1) 2 necelé číslo zaokrouhlíme nahoru na nejbližší celé číslo c x = x(c) Pro speciálně zvolená užíváme názvů: x0,50 ­ medián, x0,25 ­ dolní kvartil, x0,75 ­ horní kvartil, x0,1, . . . , x0,9 ­ decily, x0,01, . . . , x0,99 ­ percentily. Jako charakteristika variability slouží kvartilová odchylka: q = x0,75 - x0,25. 3.5. Příklad Pro datový soubor známek z matematiky (viz příklad 1.10) vypočtěte me- dián, oba kvartily a kvartilovou odchylku. 41 3. Číselné charakteristiky znaků Řešení: n c x 0,25 5 5 (1+1) 2 1 0,50 10 10 (2+3) 2 2,5 0,75 15 15 (4+4) 2 4 q = 4 - 1 = 3 3.6. Definice Pro intervalové a poměrové znaky slouží jako charakteristika polohy aritme- tický průměr m = 1 n n i=1 xi (lze ho interpretovat jako těžiště jednorozměrného tečkového digramu). Cha- rakteristikou variability je rozptyl s2 = 1 n n i=1 (xi - m)2 či směrodatná odchylka s = s2. Pomocí průměru zavedeme centrovanou hodnotu xi -m (podle znaménka poznáme, zda i­tá hodnota je podprůměrná či nadprůměrná a pomocí směrodatné odchylky zavedeme standardizovanou hodnotu xi - m s (vyjadřuje o kolik směrodatných odchylek se i­tá hodnota odchýlila od průměru). 3.7. Věta Rozptyl je nulový, právě když x1 = x2 = = xn. 3.8. Příklad Vypočtěte průměr a rozptyl a) centrovaných hodnot, b) standardizovaných hodnot. Řešení: ad a) Průměr centrovaných hodnot: 1 n n i=1 (xi - m) = m - 1 n n m = 0. Rozptyl centrovaných hodnot: 1 n n i=1 ((xi - m) - 0)2 = s2 . 42 ad b) Průměr standardizovaných hodnot: 1 n n i=1 (xi - m) s = 1 s 0 = 0. Rozptyl standardizovaných hodnot: 1 n n i=1 xi - m s - 0 2 = s2 s2 = 1. 3.9. Poznámka V předešlém příkladě jsme vypočítali, že průměr centrovaných hodnot je 0. Této skutečnosti lze využít k vysvětlení rozptylu: chceme získat číslo, které by charakterizovalo variabilitu jednotlivých hodnot kolem průměru. Průměr centrovaných hodnot nelze použít (vyjde 0), proto místo centrovaných hodnot vezmeme jejich kvadráty. Tím dospějeme ke vzorci pro rozptyl: s2 = 1 n n i=1 (xi- m)2 . Rozptyl však vychází v kvadrátech jednotek, v nichž byl měřen znak X, proto raději používáme směrodatnou odchylku s. Definiční tvar vzorce pro rozptyl není příliš vhodný pro výpočty, v praxi se používá výpočetní tvar vzorce pro rozptyl: s2 = 1 n n i=1 (xi - m)2 = 1 n n i=1 (x2 i - 2mxi + m2 ) = 1 n n i=1 x2 i - - 1 n 2m n i=1 xi + 1 n n i=1 m2 = 1 n n i=1 x2 i - 2m2 + 1 n n m2 = = 1 n n i=1 x2 i - m2 . 3.10. Definice Pro poměrové znaky používáme jako charakteristiku variability koeficient variace s m . Je to bezrozměrné číslo, které se často vyjadřuje v procen- tech. Umožňuje porovnat variabilitu několika znaků. Jsou-li všechny hodnoty poměrového znaku kladné, pak jako charakteristiku polohy lze užít geomet- rický průměr n x1 . . . xn. 3.11. Příklad Vypočtěte koeficient variace meze plasticity a meze pevnosti oceli pro datový soubor z příkladu 2.13. Řešení: s1 m1 = 32,441 95,88 = 0,338, s2 m2 = 32,515 114,40 = 0,284. Zjistili jsme, že koeficient variace meze plasticity je 33,8%, zatímco meze pevnosti jen 28,4%. 43 3. Číselné charakteristiky znaků Nyní se budeme zabývat číselnými charakteristikami dvourozměrného da- tového souboru se znaky intervalového či poměrového typu. Společnou vari- abilitu těchto dvou znaků kolem jejich průměru měříme pomocí kovariance. Jako míra těsnosti lineární závislosti dvou znaků slouží koeficient korelace. Je velmi důležité porozumět vlastnostem koeficientu korelace, proto si pozorně prohlédněte obrázky ilustrující jeho význam. Pro praktické procvičení nám poslouží příklad na číselné charakteristiky mezí plasticity a pevnosti. 3.12. Definice Pro dvourozměrný datový soubor x1 y1 ... ... xn yn , kde znaky X, Y jsou intervalového či poměrového typu, používáme jako cha- rakteristiku společné variability znaků X, Y kolem jejich průměrů kovarianci s12 = 1 n n i=1 (xi - m1)(yi - m2). 3.13. Poznámka Kovariance je průměrem součinů centrovaných hodnot. Pokud se nadprůměr- né (podprůměrné) hodnoty znaku X sdružují s nadprůměrnými (podprůměr- nými) hodnotami znaku Y , budou součiny centrovaných hodnot xi - m1 a yi - m2 vesměs kladné a jejich průměr (tj. kovariance) rovněž. Znamená to, že mezi znaky X, Y existuje určitý stupeň přímé lineární závislosti. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s podprůměrnými (nadprůměrnými) hodnotami znaku Y , budou součiny centrovaných hodnot vesměs záporné a jejich průměr rovněž. Znamená to, že mezi znaky X a Y existuje určitý stupeň nepřímé lineární závislosti. Je-li kovariance nulová, pak řekneme, že znaky X, Y jsou nekorelované a znamená to, že mezi nimi neexistuje žádná lineární závislost. Pro výpočet kovariance používáme vzorec: s12 = 1 n n i=1 xiyi - m1m2. 3.14. Definice Jsou-li směrodatné odchylky s1, s2 nenulové, pak definujeme koeficient kore- lace znaků X, Y vzorcem r12 = 1 n n i=1 xi - m1 s1 yi - m2 s2 . 44 3.15. Věta Pro koeficient korelace platí -1 r12 1 a rovnosti je dosaženo právě když mezi hodnotami x1, . . . , xn a y1, . . ., yn existuje úplná lineární závislost, tj. existují konstanty a, b tak, že yi = a + bxi, i = 1, . . . , n, přičemž znaménko + platí pro b > 0, znaménko - pro b < 0. (Uvedená nerovnost se nazývá Cauchyova ­ Schwarzova ­ Buňakovského nerovnost.) 3.16. Poznámka Koeficient korelace se počítá podle vzorce r12 = s12 s1s2 . Představu o významu hodnot koeficientu korelace podávají následující dvourozměrné tečkové dia- gramy. ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ r = 1,00 ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ r = 0,76 ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ r = 0,00 ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ r = -0,37 ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ r = -1,00 3.17. Příklad Pro datový soubor z příkladu 2.13 vypočtěte a) aritmetické průměry znaků X, Y , b) rozptyly a směrodatné odchylky znaků X, Y , c) kovarianci a koeficient korelace znaků X, Y . Řešení: ad a) m1 = 95,9, m2 = 114,4. ad b) s2 1 = 1052,40, s2 2 = 1057,21, s1 = 32,4, s2 = 32,5. ad c) s12 = 985,76, r12 = 0,936. Koeficient korelace svědčí o tom, že mezi oběma znaky existuje velmi silná přímá lineární závislost ­ čím vyšší je mez plasticity, tím je vyšší mez pevnosti a čím je nižší mez plasticity, tím je nižší mez pevnosti. Při výpočtu číselných charakteristik se v řadě situací uplatní věta shrnující některé jejich vlastnosti. Pro lepší pochopení uvedených vlastností slouží následující příklad. 45 3. Číselné charakteristiky znaků 3.18. Věta Uved'me některé vlastnosti číselných charakteristik. a) Necht' m1 je aritmetický průměr a s2 1 rozptyl znaku X. Pak znak Y = a + bX má aritmetický průměr m2 = a + bm1 a rozptyl s2 2 = b2 s2 1. b) Necht' m1, m2 jsou aritmetické průměry, s2 1, s2 2 rozptyly a s12 kovariance znaků X, Y . Pak znak U = X+Y má aritmetický průměr m3 = m1+m2 a rozptyl s2 3 = s2 1 + s2 2 + 2s12. c) Necht' s12 je kovariance znaků X, Y a m1, m2 jsou aritmetické průměry znaků X, Y . Pak znaky U = a + bX, V = c + dY mají kovarianci s34 = bds12. 3.19. Příklad a) Znak X má aritmetický průměr 2 a rozptyl 3. Najděte aritmetický průměr a rozptyl znaku Y = -1 + 3X. b) Znaky X a Y mají aritmetické průměry 3 a 2, rozptyly 2 a 3, kovarianci 1,5. Vypočtěte aritmetický průměr a rozptyl znaku Z = 5X - 4Y . c) Součet rozptylů dvou znaků je 120, součin 1000 a rozptyl jejich součtů je 100. Vypočtěte koeficient korelace těchto znaků. Řešení: ad a) m2 = -1 + 3m1 = -1 + 3 2 = 5, s2 2 = 32 s2 1 = 9 3 = 27. ad b) m3 = 5m1-4m2 = 53-42 = 7, s2 3 = 52 s2 1+(-4)2 s2 2+25(-4)s12 = 25 2 + 16 9 - 40 1,5 = 134. ad c) s2 1 + s2 2 = 150, s2 1 s2 2 = 1000, s2 1+2 = 100 = s2 1 + s2 2 + 2s12 s12 = s2 1+2-s2 1-s2 2 2 = 100-120 2 = -10, r12 = s12 s1s2 = -10 1000 = -0,316. Pokud nemáme k dispozici původní datový soubor, ale jenom variační řadu nebo tabulku rozložení četností (resp. kontingenční tabulku), můžeme vypo- čítat tzv. vážené číselné charakteristiky. Pro datový soubor obsahující údaje o mezi plasticity a mezi pevnosti oceli je zajímavé porovnat původní číselné charakteristiky a vážené číselné charakteristiky. 3.20. Definice a) Vážené číselné charakteristiky u bodového rozložení četností: Vážený aritmetický průměr m = 1 n n i=1 njx[j]. Vážený rozptyl s2 = 1 n n i=1 nj(x[j] - m)2 . Vážená kovariance s12 = 1 n n j=1 n k=1 njk(x[j] - m1)(y[k] - m2). 46 b) Vážené číselné charakteristiky u intervalového rozložení četnosti: Vzorce jsou formálně shodné s předešlými. Je však zapotřebí uvést, že vý- počty jsou přesné jen tehdy, souhlasí-li průměry v jednotlivých třídicích in- tervalech se středy těchto intervalů, resp. vykompenzují-li se vzájemně chyby vzniklé v důsledku odchylek středů intervalů od průměru v těchto intervalech. Oba tyto případy jsou však vzácné a většinou se dopustíme určité chyby. 3.21. Příklad Pro intervalové rozložení četností uvedené v příkladu 2.13 spočtěte vážené číselné charakteristiky a porovnejte je s číselnými charakteristikami uve- denými v příkladu 3.17. Řešení: bodové rozložení intervalové rozložení m1 95,88 96,67 m2 114,40 113,67 s2 1 1052,40 1148,89 s2 2 1057,21 1019,89 s1 32,441 33,895 s2 32,515 31,936 s12 985,76 998,89 r12 0,939 0,923 Shrnutí kapitoly Podle stupně kvantifikace znaky třídíme na nominální, ordinální, interva- lové, poměrové a alternativní. Jako charakteristika polohy nominálních znaků slouží modus. Charakteristikou polohy ordinálních znaků je kterýkoliv ­kvantil, často se používá medián, dolní a horní kvartil, decily, per- centily. Rozdíl horního a dolního kvartilu je kvartilová odchylka, kterou používáme jako charakteristiku variability. U intervalových znaků slouží jako charakteristika polohy aritmetický průměr a jako charakteristika variabi- lity rozptyl či směrodatná odchylka. Odečteme-li od libovolné hodnoty průměr, dostaneme centrovanou hodnotu, a podělíme-li centrovanou hod- notu směrodatnou odchylkou, získáme standardizovanou hodnotu. Pro poměrové znaky používáme koeficient variace. Mají-li kladné hodnoty, pak jejich polohu charakterizujeme geometrickým průměrem. Máme-li dvourozměrný datový soubor, pak jako charakteristiku společné va- riability zavedeme kovarianci a jako míru těsnosti lineární závislosti koefi- cient korelace. Podle Cauchy ­ Schwarzovy ­ Buňakovského nerov- nosti nabývá koeficient korelace hodnot mezi -1 a 1. 47 3. Číselné charakteristiky znaků Je-li k dispozici variační řada u bodového rozložení četností nebo tabulka rozložení četností u intervalového rozložení četností (resp. kontingenční ta- bulka), můžeme vypočítat vážené číselné charakteristiky: vážený aritme- tický průměr, vážený rozptyl a váženou kovarianci. Kontrolní otázky a úkoly 1 Udejte příklad nominálního, ordinálního, intervalového, poměrového a alternativního znaku. 2 Jaké charakteristiky polohy a variability užíváme pro uvedené typy znaků? 3 Kdy se shodují číselné charakteristiky s váženými číselnými charakte- ristikami? 4 Jaký význam má koeficient korelace? 5 V akciové společnosti je průměrná mzda 13 500 Kč. Přitom 30% pra- covníků s nejnižší mzdou má průměrně 9 000 Kč. Na začátku roku dostal každý z těchto pracovníků přidáno 500 Kč. O kolik % vzrostla průměrná mzda v celé akciové společnosti? 6 (S) Při statistickém šetření pojištěnců byly získány tyto výše pojistek v Kč: výše pojistky 390 410 430 450 470 490 510 530 550 570 abs. četnost 7 10 14 22 25 12 3 3 2 2 Určete aritmetický průměr, medián, modus, rozptyl, směrodatnou od- chylku a koeficient variace výše pojistky. 7 V datovém souboru, z něhož byl vypočten průměr 110 a rozptyl 800, byly zjištěny 2 chyby: místo 85 má být 95 a místo 120 má být 150. Ostatních 18 údajů je správných. Opravte průměr a rozptyl. 8 Vážený aritmetický průměr činil 1500 a vážený rozptyl 90000. Varianty x[j] byly transformovány vztahem: y[j] = x[j] - a h , j = 1, . . . , r. Po této transformaci byl vážený aritmetický průměr 5 a vážený rozptyl 9. Určete konstanty a a h. 9 (S) Pro dvourozměrný datový soubor 2 4 4 5 6 8 10 10 10 10 1 2 3 4 4 4 5 5 5 6 vypočtěte koeficient korelace. 10 Rozptyl součtů hodnot dvou znaků je 350, rozptyl rozdílů je 700. Vy- počtěte koeficient korelace, víte-li, že oba znaky mají stejné rozptyly. 48 Regresní přímka 4 4. Regresní přímka Cíl kapitoly Po prostudování této kapitoly budete umět: stanovit odhady parametrů regresní přímky a znát jejich význam posoudit kvalitu proložení regresní přímky dvourozměrným tečkovým diagramem vypočítat regresní odhady závisle proměnného znaku stanovit odhady parametrů druhé regresní přímky znát vztahy mezi parametry první a druhé regresní přímky. Časová zátěž Pro zvládnutí této kapitoly budete potřebovat 3 ­ 4 hodiny studia. Budeme se zabývat speciálním případem, kdy hodnoty znaku Y závisejí na hodnotách znaku X přibližně lineárně. Ukážeme si, jak tuto závislost popsat regresní přímkou, jak odhadnout její parametry metodou nejmenších čtverců na základě znalosti dvourozměrného datového souboru a jak posoudit kva- litu regresní přímky pomocí indexu determinace. Vysvětlíme si význam re- gresních parametrů a v příkladu se budeme zabývat regresní přímkou meze pevnosti na mez plasticity. 4.1. Motivace Cílem regresní analýzy je vystižení závislosti hodnot znaku Y na hodnotách znaku X. Při tom je nutné vyřešit dva problémy: jaký typ funkce použít k vystižení dané závislosti a jak stanovit konkrétní parametry zvoleného typu funkce? Typ funkce určíme bud' logickým rozborem zkoumané závislosti nebo se snažíme ho odhadnout pomocí dvourozměrného tečkového diagramu. Zde se omezíme na lineární závislost y = 0 + 1x. Odhady b0 a b1 neznámých parametrů 0, 1 získáme na základě dvourozměrného datového souboru x1 y1 ... ... xn yn metodou nejmenších čtverců. Požadujeme, aby průměr součtu čtverců od- chylek skutečných a odhadnutých hodnot byl minimální, tj. aby výraz 1 n n i=1 (yi - 0 - 1xi)2 nabýval svého minima vzhledem k 0 a 1. Tento výraz je minimální, jsou- li jeho první derivace podle 0 a 1 nulové. Stačí tyto derivace spočítat, položit je rovny 0 a řešit systém dvou rovnic o dvou neznámých, tzv. systém normálních rovnic. 50 4.2. Definice Necht' je dán dvourozměrný datový soubor x1 y1 ... ... xn yn a přímka y = 0 + 1x. Výraz q(0, 1) = 1 n n i=1 (yi - 0 - 1xi)2 se nazývá rozptyl hodnot znaku Y kolem přímky y = 0 + 1x. Přímka y = 0 + 1x, jejíž parametry minimalizují rozptyl q(0, 1) v celém dvou- rozměrném prostoru, se nazývá regresní přímka znaku Y na znak X. Regresní odhad i­té hodnoty znaku Y značíme ^yi = b0 + b1xi, i = 1, . . . , n. Kvadrát koeficientu korelace znaků X, Y se nazývá index determinace a značí se ID2 . (Index determinace udává, jakou část variability hodnot znaku Y vystihuje regresní přímka. Nabývá hodnot z intervalu 0, 1 . Čím je bližší 1, tím lépe vystihuje regresní přímka závislost Y na X.) 4.3. Věta Necht' y = b0 + b1x je regresní přímka znaku Y na znak X. Pak použitím metody nejmenších čtverců dostaneme: b1 = s12 s2 1 , b0 = m2 - s12 s2 1 m1, tedy y = m2 + s12 s2 1 (x - m1). Přitom úsek b0 regresní přímky udává velikost jejího posunutí na svislé ose (tj. udává, jaký je regresní odhad hodnoty znaku Y , nabývá-li znak X hodnoty 0) a směrnice b1 udává, o kolik jednotek se změní hodnota znaku Y , změní-li se hodnota znaku X o jednotku. Jestliže je b1 > 0, dochází s růstem X k růstu Y a hovoříme o přímé závislosti hodnot znaku Y na hodnotách znaku X. Je-li b1 < 0, dochází s růstem X k poklesu Y a hovoříme o nepřímé závislosti hodnot znaku Y na hodnotách znaku X. 4.4. Příklad Pro datový soubor z příkladu 2.13 a) určete regresní přímku meze pevnosti na mez plasticity. b) Zakreslete regresní přímku do dvourozměrného tečkového diagramu. c) Jak se změní mez pevnosti, vzroste-li mez plasticity o jednotku? d) Najděte regresní odhad meze pevnosti pro mez plasticity = 60. e) Vypočtěte index determinace a interpretujte ho. Řešení: ad a) Na základě výsledků příkladu 3.17 dostáváme: b1 = s12 s2 1 = 985,76 1052,4 ; b0 = m2 - b1m1 = 114,4 - 0,937 95,9 = 24,5; y = 24,5 + 0,937x. 51 4. Regresní přímka ad b) ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇˇ ˇ ˇ ˇ ˇ ˇ ˇ 30 50 50 70 70 90 90 110 110 130 130 150 150 170 170 190 mez plasticity mezpevnosti Povšimněte si, že koeficient korelace znaků X, Y vypočtený v příkladě 3.17 činil 0,936. Tato hodnota je blízká 1, což svědčí o silné přímé lineární závis- losti mezi znaky X a Y . Tečky v dvourozměrném tečkovém diagramu nejsou příliš rozptýleny kolem regresní přímky. ad c) Mez pevnosti vzroste o 0,937 kp cm-2 . ad d) = 24,5 + 0,937 60 = 80,72. ad e) ID2 = r2 12 = 0,9362 = 0,876. Znamená to, že 87,6% variability hodnot meze pevnosti je vysvětleno regresní přímkou. 4.5. Definice Regresní přímkou znaku X na znak Y nazveme tu přímku x = b0 + b1y, jejíž parametry minimalizují rozptyl q(0, 1) = 1 n n i=1 (xi - 0 - 1yi)2 v celé rovině. Nazývá se též druhá regresní přímka. Regresní přímka znaku Y na znak X a regresní přímka znaku X na znak Y se nazývají sdružené regresní přímky. 4.6. Věta Rovnice regresní přímky znaku X na znak Y má tvar x = m1 + s12 s2 2 (y - m2). Sdružené regresní přímky se protínají v bodě (m1, m2). Pro regresní parametry b1, b1 platí: b1b1 = r2 12. Rovnice sdružených regresních přímek můžeme psát ve tvaru y = m2 + r12 s2 s1 (x - m1), y = m2 + 1 r12 s2 s1 (x - m1), (je-li r12 = 0). 52 Regresní přímky svírají tím menší úhel, čím méně se od sebe liší r12 a 1 r12 . Regresní přímky splynou, je-li r2 12 = 1. K tomu dojde právě tehdy, existuje-li mezi X a Y úplná lineární závislost. Všechny body (xi, yi), i = 1, . . ., n leží na jedné přímce, tedy ze znalosti xi můžeme přesně vypočítat yi, i = 1, . . . , n. Jsou-li znaky X, Y nekorelované, pak mají sdružené regresní přímky rovnice y = m2, x = m1 a jsou na sebe kolmé. Označíme-li úhel, který svírají sdružené regresní přímky, pak platí: cos = 0, právě když mezi X a Y neexistuje žádná lineární závislost, cos = 1, právě když mezi X a Y existuje úplná přímá lineární závislost, cos = -1, právě když mezi X a Y existuje úplná nepřímá lineární závislost. m1 m2 x y 4.7. Příklad Pro datový soubor z příkladu 2.13 a) Určete regresní přímku meze plasticity na mez pevnosti. b) Zakreslete regresní přímku do dvourozměrného tečkového diagramu. Řešení: ad a) S využitím výsledků příkladu 3.17 dostáváme: b1 = s12 s2 2 = 985,76 1057,21 = 0,932, b0 = m1 - b1m2 = 95,9 - 0,932 114,4 = -10,7, tedy x = -10,7 + 0,932y. ad b) Uvědomte si, že součin směrnic sdružených regresních přímek je 0,937 0,932 = 0,87, 53 4. Regresní přímka což je index derminace naboli kvadrát indexu korelace. ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ 50 30 70 50 90 70 110 90 130 110 150 130 170 150 190 170 mez pevnosti mezplasticity Shrnutí kapitoly Pokud vzhled dvourozměrného tečkového diagramu svědčí o existenci urči- tého stupně lineární závislosti znaku Y na znaku X, můžeme diagramem proložit regresní přímku znaku Y na znak X. (Pozor ­ nelze se spoko- jit pouze s výpočtem korelačního koeficientu, je nutné grafické posouzení závislosti.) Její parametry (tj. posunutí a směrnici) odhadujeme metodou nejmenších čtverců. Kvalitu proložení posuzujeme pomocí indexu deter- minace ­ čím je tento index bližší 1, tím je regresní přímka výstižnější a čím je bližsí 0, tím je regresní přímka nevhodnější pro vystižení závislosti Y na X. Dosadíme-li danou hodnotu znaku X do rovnice regresní přímky, získáme regresní odhad příslušné hodnoty znaku Y . Má-li smysl zkoumat též opačný směr závislosti, tj. X na Y , hledáme dru- hou regresní přímku. 1. a 2. regresní přímka se označují jako sdružené regresní přímky. Kontrolní otázky a úkoly 1 V čem spočívá princip metody nejmenších čtverců? 2 Uved'te příklad dvourozměrného datového souboru z ekonomické praxe vhodný pro použití regresní přímky. 3 Co vyjadřuje index determinace a jak se počítá? 4 Jaký je vztah mezi směrnicemi sdružených regresních přímek 5 Jsou-li sdružené regresní přímky kolmé, co lze říct o znacích X a Y ? 6 Rozhodněte, zda přímky y = 13-2x, x = 8-y mohou být sdruženými regresními přímkami. 7 Je dána rovnice regresní přímky y = 87 + 0,3(x - 25) a koeficient korelace r12 = 0,77. Najděte rovnici sdružené regresní přímky. 54 8 (S) U osmi náhodně vybraných studentů byly zjišt'ovány jejich mate- matické a verbální schopnosti. Výsledky matematického testu udává znak X, výsledky verbálního Y . X 80 50 36 58 72 60 56 68 Y 65 60 35 39 48 44 48 61 a) Vypočtěte koeficient korelace a interpretujte ho. b) Najděte rovnice sdružených regresních přímek. c) Zlepší-li se výsledek v matematickém testu o 10 bodů, o kolik bodů se zlepší výsledek ve verbálním testu? d) Zlepší-li se výsledek ve verbálním testu o 10 bodů, o kolik bodů se zlepší výsledek v matematickém testu? 9 Jak se změní úsek a směrnice regresní přímky, když každou hodnotu závisle proměnného znaku zvětšíme o 10%? 10 Závislost mezi vnější teplotou a teplotou ve skladišti je popsána regresní přímkou y = 8+0,6x. Při jaké vnější teplotě klesne teplota ve skladišti pod bod mrazu? 55 4. Regresní přímka 56 Jev a jeho pravděpodobnost 5 5. Jev a jeho pravděpodobnost Cíl kapitoly Po prostudování této kapitoly budete umět rozlišit náhodný a deterministický pokus stanovit základní prostor popsat vztahy mezi jevy pomocí množinových operací vypočítat pravděpodobnost jevu a znát vlastnosti pravděpodobnosti Časová zátěž Na prostudování této kapitoly budete potřebovat asi 6 hodin. Nejprve se seznámíme s pojmem pokusu, a to deterministického a náhodného pokusu. Nadále se budeme zabývat náhodnými pokusy. Množinu možných výsledků pokusu považujeme za základní prostor. Na základním prostoru vybudujeme jevové pole jako systém podmnožin, který je uzavřený vzhle- dem k množinovým operacím. Základní prostor spolu s jevovým polem tvoří tzv. měřitelný prostor. Libovolná podmnožina možných výsledků náhodného pokusu, která patří do jevového pole, je jev. Naučíme se vyjadřovat vztahy mezi jevy pomocí množinových operací a uvedeme vlastnosti těchto operací. 5.1. Definice Pokusem rozumíme jednorázové uskutečnění konstantně vymezeného sou- boru definičních podmínek. Předpokládáme, že pokus můžeme mnohonásob- ně nezávisle opakovat za dodržení definičních podmínek (ostatní podmínky se mohou měnit, proto různá opakování pokusu mohou vést k různým vý- sledkům). Dále předpokládáme, že opakováním pokusu vzniká opět pokus. Deterministickým pokusem nazýváme takový pokus, jehož každé opakování vede k jedinému možnému výsledku. (Např. zahřívání vody na 100 C při atmosférickém tlaku 1015 hPa vede k varu vody.) Náhodným pokusem nazýváme takový pokus, jehož každé opakování vede k právě jednomu z více možných výsledků, které jsou vzájemně neslučitelné. (Např. hod kostkou vede k právě jednomu ze šesti možných výsledků.) 5.2. Definice Neprázdnou množinu možných výsledků náhodného pokusu značíme a nazýváme ji základní prostor. Možné výsledky značíme 1, 2, . . . . Na zá- kladním prostoru vytvoříme jevové pole A jako systém podmnožin, který s každými dvěma množinami obsahuje i jejich rozdíl, obsahuje celý základní prostor a obsahuje-li každou ze spočetné posloupnosti množin, obsahuje i jejich spočetné sjednocení (znamená to, že systém A je uzavřený vzhledem k množinovým operacím). Jestliže A A, pak řekneme, že A je jev. Dvojice (, A) se nazývá měřitelný prostor. se nazývá jistý jev, nemožný jev. 58 5.3. Poznámka Vztahy mezi jevy vyjadřujeme pomocí množinových inkluzí a operace s jevy popisujeme pomocí množinových operací. a) A B znamená, že jev A má za důsledek jev B. b) A B znamená nastoupení aspoň jednoho z jevů A, B. c) A B znamená společné nastoupení jevů A, B. d) A - B znamená nastoupení jevu A za nenastoupení jevu B. e) A = - A znamená jev opačný k jevu A. f) A B = znamená, že jevy A, B jsou neslučitelné. g) A znamená, že možný výsledek je příznivý nastoupení jevu A. 5.4. Věta Uved'me některé vlastnosti, které mají operace s jevy: a) Pro sjednocení a průnik jevů platí komutativní zákon, který pro dva jevy A, B má tvar: A B = B A, A B = B A. b) Pro sjednocení a průnik tří jevů A, B, C platí zákon asociativní: A (B C) = (A B) C, A (B C) = (A B) C, a zákon distributivní: A(B C) = (AB)(AC), A(B C) = (AB)(AC). c) Pro sjednocení a průnik jevů opačných platí de Morganovy zákony, které pro dva jevy A, B zapíšeme takto: A B = A B, A B = A B. 5.5. Příklad Náhodný pokus spočívá v hodu kostkou. Jev A znamená, že padne sudé číslo a jev B znamená, že padne číslo větší než 4. a) Určete základní prostor . b) Vypište možné výsledky příznivé nastoupení jevů A, B. c) Pomocí operací s jevy vyjádřete následující jevy: padne liché číslo; ne- padne číslo 1 ani 3, padne číslo 6; padne číslo 2 nebo 4. Řešení: ad a) = {1, . . ., 6}, kde možný výsledek i znamená, že padne číslo i, i = 1, . . ., 6. ad b) A = {2, 4, 6}, B = {5, 6}. ad c) A = {1, 3, 5}; AB = {2, 4, 5, 6}; AB = {6}; A-B = {2, 4} Na měřitelném prostoru zavedeme pravděpodobnost jako funkci, která spl- ňuje určité axiomy a každému jevu přiřazuje číslo mezi 0 a 1. Měřitelný pro- stor spolu s pravděpodobností tvoří pravděpodobnostní prostor. Seznámíme 59 5. Jev a jeho pravděpodobnost se s vlastnostmi pravděpodobnosti a uvidíme, že téměř všechny jsou ob- dobné vlastnostem relativní četnosti jak jsme je poznali v první kapitole. Zavedeme speciální případ pravděpodobnosti ­ klasickou pravděpodobnost a vypočítáme několik příkladů. 5.6. Definice Necht' (, A) je měřitelný prostor. Pravděpodobností rozumíme reálnou mno- žinovou funkci P : A R, která splňuje následující tři axiómy: každému jevu přiřazuje nezáporné číslo, jistému jevu přiřazuje číslo 1, sjednocení neslučitelných jevů přiřazuje součet pravděpodobností těchto jevů. Trojice (, A, P) se nazývá pravděpodobnostní prostor. (Axiómy pravděpodobnosti jsou zvoleny tak, aby pravděpodobnost byla " zi- dealizovaným" protějškem relativní četnosti zavedené v definici 1.1. Znamená to, že pro velký počet opakování pokusu, v němž sledujeme nastoupení jevu A, se relativní četnost jevu A blíží pravděpodobnosti jevu A. Tento poznatek je znám jako empirický zákon velkých čísel. Zdálo by se přirozené definovat pravděpodobnost jako limitu relativní četnosti pro n . Tento postup by však nebyl korektní, protože počet pokusů n je vždy konečný a nelze se tedy přesvědčit o existenci uvedené limity.) 5.7. Věta Necht' (, A, P) je pravděpodobnostní prostor. Pak pro libovolné jevy A, A1, A2, A platí následujících 14 vlastností: P1: P() = 0 P2: P(A) 0 (nezápornost ­ axióm) P3: P(A1 A2) + P(A1 A2) = P(A1) + P(A2) P4: 1 + P(A1 A2) P(A1) + P(A2) P5: P(A1 A2) P(A1) + P(A2) (subaditivita) P6: A1 A2 = P(A1 A2) = P(A1) + P(A2) (aditivita) P7: P(A2 - A1) = P(A2) - P(A1 A2) P8: A1 A2 P(A2 - A1) = P(A2) - P(A2) (subtraktivita) P9: A1 A2 P(A2) P(A2) (monotonie) P10: P() = 1 (normovanost ­ axióm) P11: P(A) + P(A) = 1 (komplementarita) P12: P(A) 1 P13: Ai Aj = pro i = j P(A1 A2 . . . ) = P(A1) + P(A2) + . . . (spočetná aditivita ­ axióm) P14: P n i=1 Ai = n i=1 P(Ai) - n-1 i=1 n j=i+1 P(Ai Aj)+ + n-2 i=1 n-1 j=i+1 n k=j+1 P(AiAj Ak)- +(-1)n-1 P(A1 A2 An) 60 Pro neslučitelné jevy A1, . . . , An dostáváme P n i=1 Ai = n i=1 P(Ai). (Vlastnosti P1,. . . , P12 odpovídají vlastnostem relativní četnosti z věty 1.3, vlastnost P14 je známa jako věta o sčítání pravděpodobností.) 5.8. Definice Necht' je konečný základní prostor a necht' všechny možné výsledky mají stejnou šanci nastat. Klasická pravděpodobnost je funkce, která jevu A při- řazuje číslo P(A) = m(A) m() , kde m(A) je počet možných výsledků příznivých nastoupení jevu A a m() je počet všech možných výsledků. 5.9. Příklad Vypočítejte pravděpodobnosti jevů A, B, A, AB, AB, A-B z příkladu 5.5. Řešení: m() = 6, P(A) = 3 6 = 1 2 , P(B) = 2 6 = 1 3 , P(A) = 3 6 = 1 2 , P(A B) = 4 6 = 2 3 , P(A B) = 1 6 , P(A - B) = 2 6 = 1 3 . 5.10. Příklad V dodávce 100 kusů výrobků nemá požadovaný průměr 10 kusů, požadovanou délku 20 kusů a současně nemá požadovaný průměr i délku 5 kusů. Jaká je pravděpodobnost, že náhodně vybraný výrobek z této dodávky má požado- vaný průměr i délku? Řešení: Jev A spočívá v tom, že výrobek má požadovaný průměr a jev B v tom, že výrobek má požadovanou délku. Počítáme P(A B) = P(A B) = 1 - P(A B) = = 1 - [P(A) + P(B) - P(A B)] = 1 - 10 100 + 20 100 - 5 100 = 0,75. 5.11. Příklad Mezi N výrobky je M zmetků. Náhodně bez vracení vybereme n výrobků. Jaká je pravděpodobnost, že vybereme právě k zmetků? Řešení: Základní prostor je tvořen všemi neuspořádanými n­ticemi vytvořenými z N prvků. Tedy m() = N n . Jev A spočívá v tom, že vybereme právě k zmetků z M zmetků (ty lze vybrat M k způsoby) a výběr doplníme n - k 61 5. Jev a jeho pravděpodobnost kvalitními výrobky vybranými z N - M kvalitních výrobků (tento výběr lze provést N-M n-k způsoby). Podle kombinatorického pravidla součinu dostává- me m(A) = M k N - M n - k , tedy P(A) = m(A) m() = M k N-M n-k N n . Shrnutí kapitoly Deterministický pokus vede při každém opakování k jedinému možnému výsledku, zatímco náhodný pokus vede při každém opakování právě k jed- nomu z více možných výsledků. Množina možných výsledků náhodného po- kusu tvoří základní prostor. Systém podmnožin základního prostoru, který je uzavřený vzhledem k množinovým operacím, se nazývá jevové pole. Základní prostor spolu s jevovým polem označujeme jako měřitelný pro- stor. Podmnožina, která patří do jevového pole, je jev. Celý základní prostor je jevem jistým, prázdná množina jevem nemožným. Šanci jevu na uskutečnění vyjadřujeme pomocí pravděpodobnosti, což je funkce, která každému jevu přiřazuje číslo mezi 0 a 1 a splňuje určité axiomy, které stanovil ruský matematik A. N. Kolmogorov tak, aby pravděpodobnost byla " zidealizovaným" protějškem relativní četnosti. Při mnohonásobném nezávislém opakování téhož náhodného pokusu totiž platí empirický zákon velkých čísel: relativní četnost jevu se ustaluje kolem nějaké konstanty, kte- rou považujeme za pravděpodobnost tohoto jevu. Měřitelný prostor spolu s pravděpodobností tvoří pravděpodobnostní prostor. V praxi se nej- častěji používá klasická pravděpodobnost zavedená jako podíl počtu těch výsledků, které jsou příznivé nastoupení daného jevu, a počtu všech možných výsledků. Kontrolní otázky a úkoly 1 Uved'te příklad deterministického pokusu a náhodného pokusu. 2 Náhodný pokus spočívá v hodu dvěma kostkami. Určete základní pro- stor. 3 Pro zkoušku provozní spolehlivosti určitého zařízení je předepsán tento postup: zařízení je uvedeno v činnost pětkrát při maximálním zatížení. Jakmile při některém z těchto pěti pokusů zařízení selže, nesplnilo podmínky zkoušky. Označme Ai jev: " při i­tém pokusu zařízení se- lhalo" pro i = 1, . . . , 5. Pomocí jevů Ai vyjádřete jevy: a) Zařízení neprošlo úspěšně zkouškou. b) První tři pokusy byly úspěšné, ve 4. a 5. pokusu zařízení selhalo. c) 1. a 5. pokus byly úspěšné, ale zkouška byla neúspěšná. 4 Formulujte emiprický zákon velkých čísel. 5 Uved'te příklad situace, v níž nelze použít klasickou pravděpodobnost. 6 Z karetní hry o 32 kartách vybereme náhodně bez vracení 4 karty. Jaká je pravděpodobnost, že aspoň jedna z nich je eso? 62 7 Dva hráči házejí střídavě mincí. Vyhrává ten, komu padne dřív líc. Stanovte pravděpodobnost výhry 1. hráče a pravděpodobnost výhry 2. hráče. 8 Chevalier de Méré pozoroval, že při házení třemi kostkami padá součet 11 častěji než součet 12, i když podle jeho názoru (nesprávného) mají oba součty stejnou pravděpodobnost. Stanovte pravděpodobnost obou jevů. 9 Student se ke zkoušce připravil na 15 otázek z 20 zadaných. Při zkoušce si vybere náhodně dvě otázky. Jaká je pravděpodobnost, že aspoň na jednu zná odpověd'? 10 Mezi následujícími tvrzeními vyberte ta, která jsou pravdivá: a) P(A B) P(B), b) P(A B) < P(B), c) P(A B) P(A) + P(B), d) P(A) < 0. 63 5. Jev a jeho pravděpodobnost 64 Stochasticky nezávislé jevy a podmíněná pravděpodobnost 6 6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost Cíl kapitoly Po prostudování této kapitoly budete umět ověřit stochastickou nezávislost posloupnosti jevů řešit příklady využívající stochastickou nezávislost jevů počítat podmíněnou pravděpodobnost použít větu o násobení pravděpodobností, vzorec pro úplnou pravdě- podobnost a Bayesův vzorec Časová zátěž Pro zvládnutí této kapitoly budete potřebovat asi 6 hodin studia. Z předešlé kapitoly víme, že pravděpodobnost je " zidealizovaným" protějškem relativní četnosti. Lze tedy očekávat, že stochasticky nezávislé jevy zavedeme podobně jako četnostně nezávislé množiny: pomocí multiplikativního vztahu. Uvedeme vlastnosti stochasticky nezávislých jevů a s jejich pomocí odvodíme dvě důležitá rozložení pravděpodobnosti ­ geometrické a binomické, která mají, jak uvidíme později, časté využití v praxi. 6.1. Definice Necht' (, A, P) je pravděpodobnostní prostor. Jevy A1, A2 A jsou stochas- ticky nezávislé, jestliže P(A1 A2) = P(A1)P(A2). (Tento vztah znamená, že informace o nastoupení jednoho jevu neovlivní šance, s nimiž očekáváme na- stoupení druhého jevu. Stochastická nezávislost jevů A1, A2 je motivována četnostní nezávislostí množin G1, G2 ve výběrovém souboru ­ viz definice 1.6.) Jevy A1, . . . , An A jsou stochasticky nezávislé, jestliže platí systém multiplikativních vztahů: 1 i < j n : P(Ai Aj) = P(Ai)P(Aj), 1 i < j < k n : P(Ai Aj Ak) = P(Ai)P(Aj)P(Ak), ... P(A1 An) = P(A1) . . .P(An). Jevy A1, A2, A jsou stochasticky nezávislé, jestliže pro všechna přirozená n jsou stochasticky nezávislé jevy A1, . . . , An A. (Upozornění: při ověřování stochastické nezávislosti jevů musíme prozkoumat platnost všech multiplikativních vztahů.) 6.2. Věta a) Nemožný jev je stochasticky nezávislý s každým jevem. b) Jistý jev je stochasticky nezávislý s každým jevem. c) Stochastická nezávislost se neporuší, jestliže některé (nebo i všechny) jevy nahradíme jevy opačnými. d) Neslučitelné jevy nemohou být stochasticky nezávislé (pokud nemají všechny nulovou pravděpodobnost). 66 6.3. Příklad Nezávisle opakujeme týž náhodný pokus. Necht' jev Ai znamená úspěch v i­ tém pokusu, přičemž P(Ai) = , i = 1, 2, . . . Vypočítejte pravděpodobnost, že a) prvnímu úspěchu předchází z neúspěchů, z = 0, 1, 2, . . ., b) v prvních n pokusech nastane právě y úspěchů, y = 0, 1, . . ., n. Řešení: ad a) P(A1 Az Az+1) = P(A1) . . . P(Az)P(Az+1) = (1 - )z (geometrické rozložení pravděpodobností) ad b) P((A1 Ay Ay+1 An) (A1 An-y An-y+1 An)) = = P(A1) . . .P(Ay)P(Ay+1) . . . P(An) + + + P(A1) . . . P(An-y)P(An-y+1) . . . P(An) = = y (1 - )n-y + + (1 - )n-y y = n y y (1 - )n-y (binomické rozložení pravděpodobností) Nyní zavedeme podmíněnou pravděpodobnost na základě analogie s podmí- něnou relativní četností. Shrneme vlastnosti podmíněné pravděpodobnosti a naučíme se používat vzorec pro výpočet úplné pravděpodobnosti a Bayesův vzorec. 6.4. Definice Necht' (, A, P) je pravděpodobnostní prostor a dále H A jev s nenulovou pravděpodobností. Podmíněnou pravděpodobností za podmínky H rozumíme funkci P(.|H) : A R danou vzorcem: A A : P(A|H) = P(A H) P(H) . (Vysvětlení: Opakovaně nezávisle provádíme týž náhodný pokus a sledujeme nastoupení jevu A v těch pokusech, v nichž nastoupil jev H. Podmíněnou relativní četnost A za podmínky H jsme v definici 1.4 zavedli vztahem p(A|H) = p(AH) p(H) . Tato podmíněná relativní četnost se s rostoucím počtem pokusů ustaluje kolem konstanty P(A|H), kterou považujeme za podmíněnou pravděpodobnost jevu A za podmínky H.) 6.5. Věta Pro podmíněnou pravděpodobnost platí: a) P(A1 A2) = P(A1)P(A2|A1) pro P(A1) = 0. b) P(A1 A2) = P(A2)P(A1|A2) pro P(A2) = 0. c) P(A1A2 An) = P(A1)P(A2|A1)P(A3|A1A2) . . . P(An|A1 An-1) pro P(A1 An-1) = 0. (Věta o násobení pravděpodobností) 67 6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost d) Jevy A1, A2 jsou stochasticky nezávislé, právě když P(A1|A2) = P(A1) nebo P(A2) = 0 a právě když P(A2|A1) = P(A2) nebo P(A1) = 0. 6.6. Příklad Ze skupiny 100 výrobků, která obsahuje 10 zmetků, vybereme náhodně bez vracení 3 výrobky. Vypočtěte pravděpodobnost jevu, že první dva výrobky budou kvalitní a třetí bude zmetek. Řešení: Jev Ai znamená, že i­tý vybraný výrobek je kvalitní, i = 1, 2, 3. Počítáme P(A1 A2 A3) = P(A1)P(A2|A1)P(A3|A1 A2) = 90 100 89 99 10 98 = 0,083. 6.7. Věta Necht' (, A, P) je pravděpodobnostní prostor, H1, . . . , Hn A takové jevy, že P(Hi) > 0, n i=1 Hi = , Hi Hj = pro i = j (říkáme, že jevy H1, . . ., Hn tvoří úplný systém hypotéz). a) Pro libovolný jev A A platí vzorec úplné pravděpodobnosti: P(A) = n i=1 P(Hi)P(A|Hi). b) Pro libovolnou hypotézu Hk, k = 1, . . ., n a jev A A s nenulovou pravděpodobností platí Bayesův vzorec: P(Hk|A) = P(Hk)P(A|Hk) P(A) . (P(Hk|A) se nazývá aposteriorní pravděpodobnost hypotézy Hk, P(Hk) je apriorní pravděpodobnost.) 6.8. Příklad Je známo, že 90% výrobků odpovídá standardu. Byla vypracována zjed- nodušená kontrolní zkouška, která u standardního výrobku dá kladný vý- sledek s pravděpodobností 0,95, zatímco u výrobku nestandardního s prav- děpodobností 0,2. Jaká je pravděpodobnost, že a) zkouška u náhodně vybraného výrobku dopadla kladně, b) výrobek, u něhož zkouška dopadla kladně, je standardní? Řešení: Jev A znamená, že zkouška u náhodně vybraného výrobku dopadla kladně, jev H1 znamená, že výrobek je standardní, jev H2 znamená, že výrobek není standardní, P(H1) = 0,9, P(H2) = 0,1, P(A|H1) = 0,95, P(A|H2) = 0,2. ad a) P(A) = P(H1)P(A|H1)+P(H2)P(A|H2) = 0,90,95+0,10,2 = 0,875 ad b) P(H1|A) = P (H1)P (A|H1) P (A) = 0,90,95 0,875 = 0,98. 68 Shrnutí kapitoly Stochasticky nezávislé jevy jsou protipólem deterministicky závislých jevů: informace o nastoupení jednoho jevu nijak nemění šance, s nimiž očeká- váme nastoupení druhého jevu. Formálně zavádíme stochastickou nezávislost jevů pomocí multiplikativních vztahů na základě analogie s četnostní nezá- vislostí množin. Pomocí stochasticky nezávislých jevů lze odvodit geomet- rické a binomické rozložení pravděpodobností. Obě tato rozložení se často používají v praxi. Podmíněná relativní četnost motivuje zavedení podmníněné pravděpo- dobnosti ­ zkoumáme pravděpodobnost nastoupení nějakého jevu za pod- mínky, že nastal jiný jev. Podmíněná pravděpodobnost se vyskytuje v něko- lika důležitých vzorcích, které umožňují řešit řadu příkladů. Jedná se o větu o násobení pravděpodobností, vzorec pro výpočet úplné pravděpo- dobnosti a Bayesův vzorec. Kontrolní otázky a úkoly 1 Uved'te příklad stochasticky nezávislých jevů 2 Necht' P(A) = p, P(B) = q. Pomocí čísel p, q vyjádřete pravděpodob- nost nastoupení aspoň jednoho z jevů A, B, jsou-li tyto jevy a) stochasticky nezávislé, b) neslučitelné. 3 Co lze říci o jevech A, B, které nejsou nemožné a platí pro ně: P(A B) = 1 - [1 - P(A)][1 - P(B)]? 4 Je pravděpodobnější vyhrát se stejně silným soupeřem tři partie ze čtyř nebo pět z osmi, když nerozhodný výsledek je vyloučen a výsledky jsou nezávislé? 5 První dělník vyrobí denně 60 výrobků, z toho 10% zmetků. Druhý dělník vyrobí denně 40 výrobků, z toho 5% zmetků. Jaká je pravděpo- dobnost, že náhodně vybraný výrobek z denní produkce je zmetek a pochází od prvního dělníka? 6 Ze šesti vajec jsou dvě prasklá. Náhodně vybereme dvě vejce. Jaká je pravděpodobnost, že budou a) obě prasklá, b) právě jedno prasklé, c) obě dobrá? 7 Doplňte chybějící člen x v rovnici P(B) = P(B|A)P(A) + xP(A). 8 Pro jaké jevy A, B, B = platí P(A|B) = P(A)? 9 Co lze říci o jevech A1, . . . , An s nenulovými pravděpodobnostmi, které jsou neslučitelné a jejich sjednocením je celý základní prostor? 10 Pojišt'ovací společnost rozlišuje při pojišt'ování tři skupiny řidičů ­ A, B a C. Pravděpodobnost toho, že řidič patřící do skupiny A bude mít během roku nehodu, je 0,03, zatímco u řidiče skupiny B je to 0,06 a u 69 6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost řidiče skupiny C 0,1. Podle dlouhodobých záznamů společnosti je 70% pojistných smluv uzavřeno s řidiči skupiny A, 20% s řidiči skupiny B a 10% s řidiči skupiny C. Jestliže došlo k nehodě řidiče pojištěného u této společnosti, jaká je pravděpodobnost, že patřil do skupiny C? 11 U jistého druhu elektrického spotřebiče se s pravděpodobností 0,01 vyskytuje výrobní vada. U spotřebiče s touto výrobní vadou dochází v záruční lhůtě k poruše s pravděpodobností 0,5. Výrobky, které tuto vadu nemají, se v záruční lhůtě porouchají s pravděpodobností 0,01. Jaká je pravděpodobnost, že a) u náhodně vybraného výrobku nastane v záruční lhůtě porucha, b) výrobek, který se v záruční lhůtě porouchá, bude mít dotyčnou výrobní vadu? 70 Náhodná veličina a její distribuční funkce 7 7. Náhodná veličina a její distribuční funkce Cíl kapitoly Po prostudování této kapitoly budete umět: číselně popsat výsledky náhodného pokusu pomocí náhodných veličina a náhodných vektorů, najít distribuční funkci náhodné veličiny či náhodného vektoru, rozlišit diskrétní a spojité náhodné veličiny a náhodné vektory a najít jejich funkcionální charakteristiky, ověřit stochastickou nezávislost náhodných veličin. Časová zátěž Na prostudování této kapitoly budete potřebovat asi 8 hodin studia. Naučíme se, jak popisovat výsledky náhodného pokusu pomocí náhodné veličiny, tj. zobrazení, které možnému výsledku přiřadí číslo či několik čísel. Existuje zřetelná analogie mezi znakem, který známe z 1. kapitoly, a náhod- nou veličinou. V některých situacích potřebujeme náhodnou veličinu trans- formovat. Získáme složenou funkci zvanou transformovaná náhodná veličina. Statistika často zajímá pravděpodobnost jevu, že hodnota náhodné veličiny nepřesáhne nějakou mez. Pomocí této pravděpodobnosti zavedeme distribuč- ní funkci, která je " zidealizovaným" protějškem empirické distribuční funkce, s níž jsme se setkali ve 2. kapitole. Seznámíme se s vlastnostmi distribuční funkce a vyřešíme několik příkladů. 7.1. Definice Libovolná funkce X : R, která každému možnému výsledku přiřazuje reálné číslo X(), se nazývá náhodná veličina a číslo X() je číselná realizace náhodné veličiny X příslušná možnému výsledku . Uspořádaná po- sloupnost náhodných veličin (X1, . . ., Xn) se nazývá náhodný vektor a značí se X. Je-li g : R R (resp. (g1, . . . , gm) : Rn Rm ) funkce, pak složená funkce Y = g(X) (resp. Y = (Y1, . . . , Ym) = (g1(x1, . . ., xn), . . ., gm(x1, . . . , xn))) se nazývá transformovaná náhodná veličina (resp. transformovaný náhodný vek- tor). Vysvětlení: Náhodná veličina i náhodný vektor popisují výsledky náhodného pokusu pomocí reálných čísel. Musí přitom splňovat podmínku tzv. měřitel- nosti, kterou se zde nebudeme zabývat. Náhodná veličina v počtu pravdě- podobnosti a znak v popisné statistice ­ viz definice 1.8 ­ jsou sice pojmy blízké, nikoli však totožné. Znak lze považovat za náhodnou veličinu, pokud jeho hodnotu zjišt'ujeme na objektu, který byl vybrán ze základního souboru náhodně. Upozornění: V dalším textu se omezíme na dvourozměrné náhodné vektory. Poznatky lze jednoduše zobecnit i na n-rozměrné náhodné vektory. 7.2. Označení Necht' B R. Jev { ; X() B} zkráceně zapisujeme {X B} a čteme: náhodná veličina X se realizovala v množině B. 72 7.3. Definice Pravděpodobnostní chování náhodné veličiny X (resp. náhodného vektoru X = (X1, X2)) popisujeme distribuční funkcí : R R, která je dána vztahem: x R : (x) = P(X x) (resp. simultánní distribuční funkcí : R2 R, která je definována vztahem: (x1, x2) R2 : (x1, x2) = P(X1 x1, X2 x2)). Vysvětlení: Distribuční funkce (x) je zidealizovaným protějškem empirické distribuční funkce F(x) zavedené v definici 2.4 či 2.14: x R : F(x) = N(Xx) n . S rostoucím rozsahem výběrového souboru se budou hodnoty F(x) ustalovat kolem hodnot (x). 7.4. Příklad Najděte distribuční funkci náhodné veličiny X, která udává, jaké číslo padlo při hodu kostkou a nakreslete graf této distribuční funkce. Řešení: Náhodná veličina X může nabývat hodnot 1, 2, 3, 4, 5, 6. Číselnou osu tedy rozdělíme na 7 intervalů. x (-, 1) : (x) = P(X x) = 0 x 1, 2) : (x) = P(X x) = 1 6 x 2, 3) : (x) = P(X x) = 1 6 + 1 6 = 2 6 x 3, 4) : (x) = P(X x) = 1 6 + 1 6 + 1 6 = 3 6 x 4, 5) : (x) = P(X x) = 1 6 + 1 6 + 1 6 + 1 6 = 4 6 x 5, 6) : (x) = P(X x) = 1 6 + 1 6 + 1 6 + 1 6 + 1 6 = 5 6 x 6, ) : (x) = P(X x) = 1 6 + 1 6 + 1 6 + 1 6 + 1 6 + 1 6 = 6 6 = 1 0 1 2 3 4 5 6 7 0,2 0,4 0,6 0,8 1,0 0,0 73 7. Náhodná veličina a její distribuční funkce 7.5. Věta a) Skalární případ: Distribuční funkce (x) skalární náhodné veličiny X má následující vlastnosti: (x) je neklesající, (x) je zprava spojitá, (x) je normovaná v tom smyslu, že lim x- (x) = 0, lim x (x) = 1, a, b R, a < b platí: P(a < x b) = (b) - (a), pro libovolné, ale pevně dané x0 R : P(X = x0) = (x0)- lim xx- 0 (x). b) Vektorový případ: Simultánní distribuční funkce (x1, x2) náhodného vektoru X = (X1, X2) má následující vlastnosti: (x1, x2) je neklesající vzhledem ke každé jednotlivé proměnné, (x1, x2) je zprava spojitá vzhledem ke každé jednotlivé proměnné, (x1, x2) je normovaná v tom smyslu, že lim x1,x2 (x1, x2) = 1, lim x1- (x1, x2) = lim x2- (x1, x2) = 0, (x1, x2) R2 , h1 > 0, h2 > 0 : P(x1 < X1 x1 + h1 x2 < X2 x2 + h2) = (x1+h1, x2+h2)-(x1+h1, x2)-(x1, x2+h2)+(x1, x2) (tato vlastnost vyjadřuje pravděpodobnost, že náhodný vektor se realizuje v obdélníku (x1, x1 + h1 × (x2, x2 + h2 ), lim x2 (x1, x2) = 1(x1), lim x1 (x1, x2) = 2(x2), kde 1(x1), 2(x2) jsou distribuční funkce náhodných veličin X1, X2. Nazývají se mar- ginální distribuční funkce. 7.6. Příklad Náhodný vektor (X1, X2) má distribuční funkci (x1, x2) = 1 2 arctg x1 + 2 arctg x2 + 2 . Vypočtěte pravděpodobnost, že náhodný vektor (X1, X2) se bude realizo- vat v jednotkovém čtverci (0, 1 × (0, 1 . Najděte obě marginální distribuční funkce 1(x1), 2(x2). Řešení: Podle 4. vlastnosti v věty 7.5(b), kde x1 = 0, x2 = 0, h1 = 1, h2 = 0 dostáváme P(0 < X1 1 0 < X2 1) = (1, 1) - (1, 0) - (0, 1) + (0, 0) = = 1 2 4 + 2 4 + 2 - 1 2 4 + 2 0 + 2 - - 1 2 0 + 2 4 + 2 + 1 2 0 + 2 0 + 2 = 1 16 . 1(x1) = lim x2 1 2 arctg x1 + 2 arctg x2 + 2 = 1 arctg x1 + 2 2(x2) = lim x1 1 2 arctg x1 + 2 arctg x2 + 2 = 1 arctg x2 + 2 74 Nyní se budeme zabývat dvěma speciálními typy náhodných veličin, a to diskrétními a spojitými náhodnými veličinami. Diskrétní náhodná veličina nabývá nejvýše spočetně mnoha izolovaných hodnot, zatímco spojitá veličina nabývá všech hodnot z nějakého intervalu. Pravděpodobnostní chování dis- krétní (resp. spojité) náhodné veličiny popíšeme pomocí pravděpodobnost- ní funkce (resp. pomocí hustoty pravděpodobnosti). Uvidíme, že vlastnosti pravděpodobnostní funkce jsou podobné jako vlastnosti četnostní funkce a vlastnosti hustoty pravděpodobnosti jsou analogické vlastnostem hustoty četnosti. 7.7. Definice a) Skalární případ: Náhodná veličina X se nazývá diskrétní, jestliže její distribuční funkci lze vyjádřit pomocí nezáporné funkce (x) v součtovém tvaru: x R : (x) = tx (x). Funkce (x) se nazývá pravděpodobnostní funkce diskrétní náhodné veličiny X. b) Vektorový případ: Náhodný vektor (X1, X2) se nazývá diskrétní, jest- liže jeho simultánní distribuční funkci lze vyjádřit pomocí nezáporné funkce (x1, x2) v součtovém tvaru: (x1, x2)R2 : (x1, x2) = t1x1 t2x2 (t1, t2). Funkce (x1, x2) se nazývá simultánní pravděpodobnostní funkce diskrétního náhodného vektoru (X1, X2). Vysvětlení: Pravděpodobnostní funkce (x) je zidealizovaným protějškem četnostní funkce p(x) zavedené v definici 2.4: x R : p(x) = N(X=x) n . S rostoucím rozsahem výběrového souboru se hodnoty četnostní funkce usta- lují kolem hodnot pravděpodobnostní funkce. Diskrétní náhodná veličina nabývá nejvýše spočetně mnoha hodnot. Její distribuční funkce má scho- dovitý průběh ­ viz graf v příkladu 7.4. Simultánní pravděpodobnostní funkce (x1, x2) je zidealizovaným protějškem simultánní četnostní funkce z definice 2.7: (x1, x2) R2 : p(x1, x2) = N((X1=x1)(X2=x2)) n . S rostoucím rozsahem výběrového souboru se hodnoty si- multánní pravděpodobnostní funkce ustalují kolem hodnot simultánní prav- děpodobnostní funkce. 7.8. Věta a) Skalární případ: Je-li (x) pravděpodobnostní funkce diskrétní náhod- né veličiny X, pak platí: x R : (x) 0 (nezápornost), x=- (x) = 1 (normovanost), 75 7. Náhodná veličina a její distribuční funkce x R : (x) = P(X = x), B R : P(X B) = xB (x). b) Vektorový případ: Je-li (x1, x2) simultánní pravděpodobnostní funkce diskrétního náhodného vektoru (X1, X2), pak platí: (x1, x2) R2 : (x1, x2) 0 (nezápornost), x1=- x2=- (x1, x2) = 1 (normovanost), (x1, x2) R2 : (x1, x2) = P(X1 = x1 X2 = x2), B R2 : P((X1, X2) B) = (x1,x2)B (x1, x2), x2=- (x1, x2) = 1(x1), x1=- (x1, x2) = 2(x2), přičemž 1(x1), 2(x2) jsou marginální pravděpodobnostní funkce náhodných veličin X1, X2. 7.9. Příklad Pravděpodobnost poruchy každé ze tří nezávisle pracujících výrobních linek je 0,5. Náhodná veličina X udává počet výrobních linek, které mají poruchu. Najděte pravděpodobnostní funkci náhodné veličiny X. Řešení: Náhodná veličina X nabývá hodnot 0, 1, 2, 3. (0) = P(X = 0) = 0,53 = 0,125, (1) = P(X = 1) = 3 0,53 = 0,375, (2) = P(X = 2) = 3 0,53 = 0,375, (3) = P(X = 3) = 0,53 = 0,125, (x) = 0 jinak. 7.10. Příklad Je dán systém složený ze dvou bloků. Pravděpodobnost, že i-tý blok správně funguje, je i, i = 1, 2, a pravděpodobnost, že správně fungují oba bloky, je 12. Necht' náhodná veličina Xi je ukazatel fungování i-tého bloku, tj. Xi = 1, pokud i-tý blok funguje, 0, pokud i-tý blok nefunguje, i = 1, 2. Najděte simultánní pravděpodobnostní funkci (x1, x2) náhodného vektoru (X1, X2) a obě marginální pravděpodobnostní funkce 1(x1) a 2(x2). Řešení: Hodnoty pravděpodobnostních funkcí zapíšeme do kontingenční tabulky. xi x2 1(x1) 0 1 x1 0 1 - 1 - 2 + 12 2 - 12 1 - 1 1 1 - 12 12 1 2(x2) 1 - 2 2 1 76 (0, 0) = P(X1 = 0 X2 = 0) = 1 - P(X1 = 1 X2 = 1) = = 1 - (1 + 2 - 12) = 1 - 1 - 2 + 12, (0, 1) = P(X1 = 0 X2 = 1) = P(X2 = 1) - P(X1 = 1 X2 = 1) = = 2 - 12, (1, 0) = P(X1 = 1 X2 = 0) = P(X1 = 1) - P(X1 = 1 X2 = 1) = = 1 - 12, (1, 1) = P(X1 = 1 X2 = 1) = 12, (x1, x2) = 0 jinak. 7.11. Definice a) Skalární případ: Náhodná veličina X se nazývá spojitá, jestliže její distribuční funkci lze vyjádřit pomocí nezáporné funkce (x) v integrálním tvaru : x R : (x) = x - (t) dt. Funkce (x) se nazývá hustota pravděpodobnosti spojité náhodné veličiny X. b) Vektorový případ: Náhodný vektor (X1, X2) se nazývá spojitý, jestliže jeho simultánní distribuční funkci je možné vyjádřit pomocí nezáporné funkce (x1, x2) v integrálním tvaru: (x1, x2) R2 : (x1, x2) = x1 - x2 - (t1, t2) dt1dt2. Funkce (x1, x2) se nazývá simultánní hustota pravděpodobnosti spojitého náhodného vektoru (X1, X2). Vysvětlení: Hustota pravděpodobnosti (x) je zidealizovaným protějškem hustoty četnosti f(x) zavedené v definici 2.14. S rostoucím rozsahem výběro- vého souboru a klesající šířkou třídicích intervalů se hodnoty hustoty četnosti ustalují kolem hodnot hustoty pravděpodobnosti. Spojitá náhodná veličina nabývá všech hodnot z nějakého intervalu. Její distribuční funkce je všude spojitá. Simultánní hustota pravděpodobnosti je zidealizovaným protějškem simul- tánní hustoty četnosti zavedené v definici 2.17. S rostoucím rozsahem vý- běrového souboru a klesající plochou dvourozměrných třídicích intervalů se hodnoty simultánní hustoty pravděpodobnosti a ustalují kolem hodnot si- multánní hustoty četnosti. 7.12. Věta a) Skalární případ: Je-li (x) hustota pravděpodobnosti spojité náhodné veličiny X, pak platí: 77 7. Náhodná veličina a její distribuční funkce x R : (x) 0 (nezápornost) - (x) dx = 1 (normovanost) x R : P(X = x) = 0 B R : P(X B) = xB (x) dx (x) = d(x) dx ve všech bodech spojitosti funkce (x) b) Vektorový případ: Je-li (x1, x2) simultánní hustota pravděpodobnosti spojitého náhodného vektoru (X1, X2), pak platí: (x1, x2) R2 : (x1, x2) 0 (nezápornost) - - (x1, x2) dx1dx2 = 1 (normovanost) (x1, x2) R2 : P((X1 = x1) (X2 = x2)) = 0 B R2 : P((X1, X2) B) = (x1,x2)B (x1, x2) dx1dx2 - (x1, x2) dx2 = 1(x1), - (x1, x2) dx1 = 2(x2), přičemž 1(x1), 2(x2) jsou marginální hustoty pravděpodobnosti náhodných veličin X1, X2. 7.13. Příklad Na automatické lince se plní láhve mlékem. Každá láhev má obsahovat přesně 1000 ml mléka, ale v důsledku působení náhodných vlivů množství mléka kolísá v intervalu (980 ml, 1020 ml). Každé množství mléka v tomto inter- valu považujeme za stejně možné. Náhodná veličina X udává množství mléka v náhodně vybrané lahvi. Najděte její hustotu pravděpodobnosti (x) a dis- tribuční funkci (x). Řešení: (x) = k pro x (980, 1020), 0 jinak. Z normovanosti hustoty plyne: 1 = 1020 980 k dx = 40k, tedy k = 1 40 . Pro dis- tribuční funkci platí: (x) = 0 pro x 980, x 980 1 40 dt = x-980 40 pro 980 < x < 1020, 1 pro x 1020. 7.14. Příklad Spojitý náhodný vektor (X1, X2) má simultánní hustotu pravděpodobnosti (x1, x2) = 1 2(1 + x2 1)(1 + x2)2 . 78 Najděte obě marginální distribuční funkce 1(x1), 2(x2). Řešení: 1(x1) = - 1 2(1 + x2 1)(1 + x2)2 dx2 = 1 2(1 + x2 1) - 1 1 + x2 2 dx2 = = 1 2(1 + x2 1) [arctg x2] - = 1 2(1 + x2 1) 2 - - 2 = 1 (1 + x2 1) . Analogicky dostáváme 2(x2) = 1 (1 + x2 2) . V popisné statistice, konkrétně ve 2. kapitole, jsme se setkali s četnostní nezávislostí znaků v daném výběrovém souboru. V počtu pravděpodobnosti má tento pojem svou analogii ve stochastické nezávislosti náhodných veličin. Spočítáme několik příkladů, v nichž se vyskytují stochasticky nezávislé veliči- ny, a ukážeme si, že transformováním se stochastická nezávislost náhodných veličin neporuší. 7.15. Definice a) Obecný případ: Řekneme, že náhodné veličiny X1, . . . , Xn s margi- nálními distribučními funkcemi 1(x1), . . . , n(xn) a simultánní distribuční funkcí (x1, . . . , xn) jsou stochasticky nezávislé, jestliže pro (x1, . . . , xn) Rn : (x1, . . . , xn) = 1(x1) n(xn). b) Diskrétní případ: Řekneme, že diskrétní náhodné veličiny X1, . . . , Xn s marginálními pravděpodobnostními funkcemi 1(x1), . . . , n(xn) a simul- tánní pravděpodobnostní funkcí (x1, . . ., xn) jsou stochasticky nezávislé, jestliže pro (x1, . . ., xn) Rn : (x1, . . . , xn) = 1(x1) n(xn). c) Spojitý případ: Řekneme, že spojité náhodné veličiny X1, . . . , Xn s mar- ginálními hustotami pravděpodobnosti 1(x1), . . . , n(xn) a simultánní prav- děpodobnostní funkcí (x1, . . . , xn) jsou stochasticky nezávislé, jestliže pro (x1, . . . , xn) Rn : (x1, . . . , xn) = 1(x1) n(xn) s případnou výjimkou na množině bodů neovlivňujících integraci. Řekneme, že posloupnost {Xn} n=1 je posloupností stochasticky nezávislých náhodných veličin, jestliže pro všechna přirozená n jsou stochasticky nezá- vislé náhodné veličiny X1, . . ., Xn. Vysvětlení: Jsou-li náhodné veličiny X1, . . . , Xn stochasticky nezávislé, pak to znamená, že informace o realizaci jedné náhodné veličiny nijak neovlivní šance, s nimiž očekáváme realizace ostatních náhodných veličin. Stochas- tická nezávislost náhodných veličin je zidealizovaným protějškem četnostní nezávislosti znaků v daném výběrovém souboru -- viz definice 2.7 a 2.17. 79 7. Náhodná veličina a její distribuční funkce 7.16. Příklad Na výrobcích měříme délku s přesností 0,5 mm a šířku s přesností 0,2 mm. Náhodná veličina X1 udává chybu při měření délky a náhodná veličina X2 udává chybu při měření šířky. Předpokládáme, že simultánní hustota pravděpodobnosti (x1, x2) je uvnitř mezí chyb konstantní, tj. (x1, x2) = k pro - 0,5 < x1 < 0,5; -0,2 < x2 < 0,2, 0 jinak. Určete konstantu k, najděte marginální hustoty pravděpodobnosti 1(x1), 2(x2), simultánní distribuční funkci (x1, x2), obě marginální distribuční funkce 1(x1), 2(x2), vypočítejte pravděpodobnost P((-0,1 < X1 < 0,1) (-0,1 < X2 < 0,1)) a zjistěte, zda náhodné veličiny X1, X2 jsou stochasticky nezávislé. Řešení: Z normovanosti simultánní hustoty pravděpodobnosti plyne: 1 = 0,5 -0,5 0,2 -0,2 k dx1dx2 = k[x1]0,5 -0,5[x2]0,2 -0,2 = k 1 0,4 k = 2,5. Marginální hustoty pravděpodobnosti pomocí věty 7.12 (b): 1(x1) = 0,2 -0,2 2,5 dx2 = 2,5[x2]0,2 -0,2 = 1 pro - 0,5 < x1 < 0,5, 1(x1) = 0 jinak. Podobně 2(x2) = 0,5 -0,5 2,5 dx1 = 2,5[x1]0,5 -0,5 = 2,5 pro - 0,2 < x2 < 0,2, 2(x2) = 0 jinak. Z definice 7.11 (vektorový případ) plyne: (x1, x2) = x1 -0,5 x2 -0,2 2,5 dt1dt2 = 2,5[t1]x1 -0,5[t2]x2 -0,2 = 2,5(x1 + 0,5)(x2 + 0,2) pro -0,5 < x1 < 0,5, -0,2 < x2 < 0,2, (x1, x2) = 0 pro x1 < -0,5 nebo x2 < -0, 2, (x1, x2) = 1 pro x1 > 0,5 a x2 > 0,2. Z definice 7.11 (skalární případ) dostaneme: 1(x1) = x1 -0,5 1 dt1 = [t1]x1 -0,5 = x1 + 0,5 80 pro -0,5 < x1 < 0,5, 1(x1) = 1 pro x1 0,5, 1(x1) = 0 pro x1 -0,5. Dále 2(x2) = x2 -0,2 1 dt2 = [t2]x2 -0,2 = 2,5(x2 + 0,2) pro -0,2 < x2 < 0,2, 2(x2) = 1 pro x2 0,2, 2(x2) = 0 pro x2 -0,2. Stochastickou nezávislost náhodných veličin X1, X2 ověříme pomocí definice 7.15 (c): (x1, x2) R2 : (x1, x2) = 1(x1)2(x2), tedy náhodné veličiny X1, X2 jsou stochasticky nezávislé. 7.17. Příklad Diskrétní náhodný vektor (X1, X2) má simultánní pravděpodobnostní funkci (x1, x2) danou hodnotami: (-1, 2) = (-1, 3) = (0, 3) = (1, 0) = (1, 1) = 0, (-1, 0) = (0, 1) = (1, 2) = 2c, (-1, 1) = (0, 0) = (0, 2) = (1, 3) = c. Určete konstantu c, hodnotu simultánní distribuční funkce (0, 2), obě marginální pravděpodobnostní funkce 1(x1), 2(x2) a hodnotu marginální distribuční funkce 1(1). Zjistěte, zda náhodné veličiny X1, X2 jsou stochasticky nezávislé. Řešení: Hodnoty simultánní pravděpodobnostní funkce (x1, x2) uspořádáme do kon- tingenční tabulky, kterou ještě doplníme o sloupec s hodnotami 1(x1) a řádek s hodnotami 2(x2). Tyto hodnoty získáme pomocí věty 7.8 (vekto- rový případ). x2 1(x1) 0 1 2 3 -1 2c c 0 0 3c x1 0 c 2c c 0 4c 1 0 0 2c c 3c 2(x2) 3c 3c 3c c 1 Z normovanosti pravděpodobnostní funkce diskrétního náhodného vektoru (viz věta 7.8, vektorový případ) dostáváme 10c = 1, tedy c = 0,1. Z definice diskrétního náhodného vektoru (definice 7.7, vektorový případ) plyne (0, 2) = (-1, 0) + (-1, 1) + (-1, 2) + (-1, 3) + (0, 0)+ + (0, 1) + (0, 2) = 0,2 + 0,1 + 0 + 0,1 + 0,2 + 0,1 = 0,6. Z definice diskrétní náhodné veličiny (definice 7.7, skalární případ) plyne 1(1) = 1(-1) + 1(0) + 1(1) = 0,3 + 0,4 + 0,3 = 1. Pokud by náhodné veličiny X1, X2 byly stochasticky nezávislé, musel by pro všechna (x1, x2) R2 platit multiplikativní vztah: (x1, x2) = 1(x1)2(x2) (viz definice 7.15 (b)). Avšak již pro x1 = -1, x2 = 0 dostáváme (-1, 0) = 0,2, 1(-1) = 0,3, 2(0) = 0,3. Vidíme tedy, že multiplikativní vztah splněn není a náhodné veličiny X1, X2 nejsou stochasticky nezávislé. 81 7. Náhodná veličina a její distribuční funkce 7.18. Věta Jsou-li náhodné veličiny X1, . . . , Xn stochasticky nezávislé, pak jsou sto- chasticky nezávislé také transformované náhodné veličiny Y1 = g1(X1), . . . , Yn = gn(Xn). Shrnutí kapitoly Náhodná veličina se zavádí jako zobrazení, které každému výsledku náhod- ného pokusu přiřazuje číslo (pak se jedná o skalární náhodnou veličinu) nebo více čísel (v tomto případě jde o náhodný vektor). Náhodnou veličinu lze pomocí libovolné funkce transformovat a získat tak transformovanou náhodnou veličinu. Pravděpodobnostní chování náhodné veličiny popisuje distribuční funkce, jejíž zavedení je motivováno empirickou distribuční funkcí známou z popisné statistiky. Vlastnosti těchto dvou funkcí jsou ana- logické. Praktický význam mají dva speciální druhy náhodných veličin. Diskrétní náhodná veličina může nabývat pouze spočetně mnoha hodnot a její prav- děpodobnostní chování je popsáno pravděpodobnostní funkcí, což je " zi- dealizovaný" protějšek četnostní funkce. Diskrétní náhodný vektor je tvořen diskrétními náhodnými veličinami. Zabývali jsme se náhodnými vek- tory se dvěma složkami. V souvislosti s diskrétním náhodným vektorem zavádíme simultánní pravděpodobnostní funkci. Marginální pravdě- podobnostní funkce se vztahují k jednotlivým složkám náhodného vektoru. Spojitá náhodná veličina nabývá všech hodnot z nějakého intervalu. Její pravděpodobnostní chování je popsáno hustotou pravděpodobnosti, což je " zidealizovaný" protějšek hustoty četnosti. Spojitý náhodný vektor je tvořen spojitými náhodnými veličinami. Jeho pravděpodobnostní chování je popsáno simultánní hustotou pravděpodobnosti. Marginální hustoty pravděpodobnosti se vztahují k jednotlivým složkám náhodného vektoru. Pomocí multiplikativního vztahu, v němž vystupují simultánní a marginální distribuční funkce (resp. pravděpodobnostní funkce v diskrétním případě resp. hustoty pravděpodobnosti ve spojitém případě), zavedeme pojem sto- chastické nezávislosti náhodných veličin. Kontrolní otázky a úkoly 1 Uved'te příklad náhodné veličiny a náhodného vektoru z ekonomické praxe. 2 Najděte distribuční funkci náhodné veličiny, která udává počet líců při hodu třemi mince-mi a nakreslete její graf. 3 Rozhodněte, které z uvedených náhodných veličin jsou diskrétní a které jsou spojité: a) počet členů domácnosti b) věk člověka v letech c) náhodně vybrané reálné číslo d) počet zákazníků ve frontě 82 e) cena výrobku f) počet zmetků z celkové denní produkce g) délka určitého předmětu h) životnost televizoru v letech 4 Které funkcionální charakteristiky popisují pravděpodobnostní chování diskrétní náhodné veličiny a které diskrétního náhodného vektoru? 5 Které funkcionální charakteristiky popisují pravděpodobnostní chování spojité náhodné veličiny a které spojitého náhodného vektoru? 6 Je-li X diskrétní náhodná veličina s pravděpodobnostní funkcí (x), může být (x) > 1? 7 Je-li X spojitá náhodná veličina s hustotou pravděpodobnosti (x), může být (x) > 1? 8 Náhodná veličina udává průměrný počet ok při hodu dvěma kostkami. Nakreslete graf její pravděpodobnostní funkce. 9 Diskrétní náhodný vektor (X1, X2) má simultánní pravděpodobnostní funkci (x1, x2) danou hodnotami: (0, 0) = (0, 2) = (1, 1) = (2, 0) = (2, 2) = 0, (0, 1) = (1, 2) = (2, 1) = 0,25. Jsou náhodné veličiny X1, X2 stochasticky nezávislé? 10 Necht' spojitý vektor (X1, X2) má simultánní hustotu pravděpodobnosti (x1, x2) = 24x2 1x2(1 - x1) pro 0 x1 < 1, 0 x2 < 1, 0 jinak. Dokažte, že náhodné veličiny X1, X2 jsou stochasticky nezávislé. 83 7. Náhodná veličina a její distribuční funkce 84 Vybraná rozložení diskrétních a spojitých náhodných veličin 8 8. Vybraná rozložení diskrétních a spojitých náhodných veličin Cíl kapitoly Po prostudování této kapitoly budete umět: rozlišovat důležité typy diskrétních a spojitých rozložení využívat vlastností těchto rozložení při výpočtu pravděpodobností růz- ných jevů hledat v tabulkách hodnot distribuční funkce standardizovaného nor- málního rozložení Časová zátěž Na prostudování této kapitoly budete potřebovat asi 5 hodin studia. Nyní se seznámíme s přehledem důležitých pravděpodobnostních funkcí a hustot pravděpodobnosti. Uvedeme nejenom analytické vyjádření těchto funkcí, ale též grafy. Vysvětlíme rovněž, v jakých situacích se lze s uvedenými rozloženími pravděpodobnosti setkat. Zvláštním pozornost budeme věnovat normálnímu rozložení, které hraje velkou roli v celé řadě praktických aplikací počtu pravděpodobnosti a, jak uvidíme později, i v matematické statistice. 8.1. Označení Známe-li distribuční funkci (x) náhodné veličiny X (resp. pravděpodobnost- ní funkci (x) v diskrétním případě resp. hustotu pravděpodobnosti (x) ve spojitém případě), pak řekneme, že známe rozložení pravděpodobností (zkráceně rozložení) náhodné veličiny X. Toto rozložení závisí na nějakém parametru , což nejčastěji bývá reálné číslo nebo reálný vektor. Zápis X L() čteme: náhodná veličina X má rozložení L s parametrem . 8.2. Definice Nejprve se seznámíme s vybranými rozloženími diskrétních náhodných veli- čin. a) Degenerované rozložení: X Dg() Tato náhodná veličina nabývá pouze konstantní hodnotu . (x) = 1 pro x = , 0 jinak. ˇ 0 0.5 1 1.5 2 -1 0 1 2 Pravděpodobnostní funkce Dg(1). 86 b) Alternativní rozložení: X A() Náhodná veličina X udává počet úspěchů v jednom pokusu, přičemž pravděpodobnost úspěchu je . (x) = 1 - pro x = 0, pro x = 1, 0 jinak. ˇ ˇ -1 0 1 2 -0.5 0 0.5 1 Pravděpodobnostní funkce A(0,75). c) Binomické rozložení: X Bi(n, ) Náhodná veličina X udává počet úspěchů v posloupnosti n nezávislých opakovaných pokusů, přičemž pravděpodobnost úspěchu je v každém pokusu . (x) = n x x (1 - )n-x pro x = 0, 1, . . ., n 0 jinak. ˇ ˇ ˇ ˇ ˇ ˇ -0.2 0 0.2 0.4 0.6 -1 0 1 2 3 4 5 6 Pravděpodobnostní funkce Bi(5; 0,5). (Odvození ­ viz př. 6.3 (b).) Alternativní rozložení je speciálním přípa- dem binomického rozložení pro n = 1. Jsou-li X1, . . . , Xn stochasticky nezávislé náhodné veličiny, Xi A(), i = 1, . . . , n, pak X = n i=1 Xi Bi(n, ). 87 8. Vybraná rozložení diskrétních a spojitých náhodných veličin d) Geometrické rozložení: X Ge() Náhodná veličina X udává počet neúspěchů v posloupnosti opako- vaných nezávislých pokusů předcházejících prvnímu úspěchu, přičemž pravděpodobnost úspěchu je v každém pokusu . (x) = (1 - )x pro x = 0, 1, . . . 0 jinak. ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ -0.1 0 0.1 0.2 0.3 -1 1 3 5 7 9 11 Pravděpodobnostní funkce Ge(0,25). (Odvození ­ viz př. 6.3 (a).) e) Hypergeometrické rozložení: X Hg(N, M, n) V souboru N prvků je M prvků označeno. Náhodně vybereme n prvků bez vracení. Náhodná veličina X udává počet vybraných označených prvků. (x) = (M x )(N-M n-x ) (N n ) pro x = max{0, M - N + n}, . . . min{M, n}, 0 jinak. ˇ ˇ ˇ ˇ ˇ ˇ -0.1 0 0.1 0.2 0.3 0.4 0.5 -1 0 1 2 3 4 5 6 Pravděpodobnostní funkce Hg(10, 7, 5). f) Rovnoměrné diskrétní rozložení: X Rd(G) Necht' G je konečná množina o n prvcích. Náhodná veličina X nabývá se stejnou pravděpodobností každé hodnoty z množiny G. (x) = 1 n pro x G, 0 jinak. 88 (Typickým příkladem je náhodná veličina udávající počet ok při hodu kostkou.) ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ -0.02 0.02 0.06 0.1 0.14 0.18 0 2 4 6 8 10 Pravděpodobnostní funkce Rd({1, 2, . . ., 10}). g) Poissonovo rozložení: X Po() Náhodná veličina X udává počet událostí, které nastanou v jednot- kovém časovém intervalu, přičemž události nastávají náhodně, jednot- livě a vzájemně nezávisle. Parametr > 0 je střední počet těchto událostí. (x) = x x! e- pro x = 0, 1, . . ., 0 jinak. ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ -0.02 0.02 0.06 0.1 0.14 0.18 0.22 0 2 4 6 8 10 12 14 16 Pravděpodobnostní funkce Po(5). 8.3. Příklad V rodině je 10 dětí. Za předpokladu, že chlapci i dívky se rodí s pravděpo- dobností 0,5 a pohlaví se formuje nezávisle na sobě, určete pravděpodobnost, že v této rodině jsou nejméně 3 a nejvýše 8 chlapců. Řešení: X ­ počet chlapců v této rodině, X Bi(10; 0,5), P(3 X 8) = 8 x=3 10 x 1 2 x 1 - 1 2 10-x = 957 1024 = 0,935. 89 8. Vybraná rozložení diskrétních a spojitých náhodných veličin 8.4. Příklad Jaká je pravděpodobnost, že při hře " Člověče, nezlob se!" nasadíme nej- později při třetím hodu? Řešení: X ­ počet neúspěchů před první šestkou, X Ge(1 6 ), P(X 2) = 2 x=0 1 - 1 6 x 1 6 = 0,4213. 8.5. Příklad Při provozu balicího automatu vznikají během směny náhodné poruchy, které se řídí rozložením Po(2). Jaká je pravděpodobnost, že během směny dojde aspoň k jedné poruše? Řešení: X ­ počet poruch během směny, X Po(2), P(X 1) = 1 - P(X < 1) = 1 - P(X = 0) = 1 - 20 0! e-2 = 0,8647. 8.6. Definice Nyní uvedeme vybrané typy spojitých rozložení. a) Rovnoměrné spojité rozložení: X Rs(a, b) Náhodná veličina X nabývá se stejnou pravděpodobností každé hod- noty z intervalu (a, b). (x) = 1 b-a pro x (a, b), 0 jinak. -0.1 0 0.1 0.2 0.3 0.4 -2 -1 0 1 2 3 Hustota Rs(-1, 2). b) Exponenciální rozložení: X Ex() Náhodná veličina X udává dobu čekání na příchod nějaké události, 90 která se může dostavit každým okamžikem se stejnou šancí bez ohledu na dosud pročekanou dobu. Přitom 1 vyjadřuje střední dobu čekání. (x) = e-x pro x > 0, 0 jinak. -0.2 0.2 0.6 1 1.4 1.8 2.2 -1 0 1 2 3 4 5 6 Hustota Ex(2). c) Normální rozložení: X N(, 2 ) Tato náhodná veličina vzniká např. tak, že ke konstantě se přičítá velké množství nezávislých náhodných vlivů mírně kolísajících kolem 0. Proměnlivost těchto vlivů je vyjádřena konstantou > 0. (x) = 1 2 e- (x-)2 22 Pro = 0, 2 = 1 se jedná o standardizované normální rozložení, píšeme U N(0, 1). Hustota pravděpodobnosti má v tomto případě tvar (u) = 1 2 e- u2 2 . Distribuční funkce standardizovaného normálního rozložení (u) = u - 1 2 e- t2 2 dt je tabelována pro u 0, pro u < 0 se používá přepočtový vzorec (-u) = 1 - (u). Má-li X N(, 2 ), pak U = X- N(0, 1). 0 0.1 0.2 0.3 0.4 0.5 -3 -2 -1 0 1 2 3 0 0.2 0.4 0.6 0.8 1 -3 -2 -1 0 1 2 3 Hustota N(0, 1) Distribuční funkce N(0, 1) 91 8. Vybraná rozložení diskrétních a spojitých náhodných veličin 0 0.1 0.2 0.3 0.4 0.5 0.6 -2 -1 0 1 2 3 4 0 0.2 0.4 0.6 0.8 1 -2 -1 0 1 2 3 4 Hustota N(1; 0,5) Distribuční funkce N(1; 0,5) (Normální rozložení hraje ústřední roli v počtu pravděpodobnosti i ma- tematické statistice. Jeho význam spočívá jednak v tom, že normálním rozložením se řídí pravděpodobnostní chování mnoha náhodných veličin a jednak v tom, že za určitých podmínek konverguje k normálnímu rozložení součet nezávislých náhodných veličin s týmž rozložením.) d) Dvourozměrné normální rozložení: X1 X2 N2 1 2 , 2 1 12 12 2 2 Náhodný vektor X1 X2 vzniká ve dvourozměrných situacích podobně jako skalární náhodná veličina v bodě (e). (x1, x2) = 1 12 1 - 2 e- q(x1,x2) 2 , kde q(x1, x2) = 1 1 - 2 x1 - 1 1 2 - 2 x1 - 1 1 x2 - 2 2 + x2 - 2 2 2 . Pro 1 = 0, 2 = 0, 2 1 = 1, 2 2 = 1, = 0 se jedná o standardizované dvourozměrné normální rozložení. Vrstevnice a graf hustoty standardizovaného dvourozměrného normál- ního rozložení: -4 -2 0 2 4 -4 -2 0 2 4 92 Vrstevnice a graf hustoty dvourozměrného normálního rozložení s pa- rametry 1 = 0, 2 = 0, 2 1 = 1, 2 2 = 1, = -0,75 -4 -2 0 2 4 -4 -2 0 2 4 Následující tři rozložení ­ Pearsonovo, Studentovo a Fisherovo-Snedeco- rovo ­ jsou odvozena ze standardizovaného normálního rozložení. Mají velký význam především v matematické statistice při konstrukci inter- valů spolehlivosti a testování hypotéz. Vyjádření hustot těchto rozložení neuvádíme, je příliš složité ­ viz např. [3].) e) Pearsonovo rozložení chí-kvadrát s n stupni volnosti: X 2 (n) Necht' X1, . . . , Xn jsou stochasticky nezávislé náhodné veličiny, Xi N(0, 1), i = 1, . . . , n. Pak náhodná veličina X = X2 1 + +X2 n 2 (n). 0 0.05 0.1 0.15 0.2 0.25 0 2 4 6 8 Hustota 2 (3). f) Studentovo rozložení s n stupni volnosti: X t(n) Necht' X1, X2 jsou stochasticky nezávislé náhodné veličiny a necht' dále X1 N(0, 1), X2 2 (n). Pak náhodná veličina X = X1 X2 n t(n). 93 8. Vybraná rozložení diskrétních a spojitých náhodných veličin -0.2 0 0.2 0.4 0.6 -3 -2 -1 0 1 2 3 Hustota t(3). g) Fisherovo-Snedecorovo rozložení s n1 a n2 stupni volnosti: X F(n1, n2) Necht' X1, . . . , Xn jsou stochasticky nezávislé náhodné veličiny, Xi 2 (ni), i = 1, 2. Pak náhodná veličina X = X1 n1 X2 n2 F(n1, n2). -0.2 0 0.2 0.4 0.6 0.8 -1 0 1 2 3 4 5 6 Hustota F(5, 8). 8.7. Příklad Na automatické lince se plní láhve mlékem. Působením náhodných vlivů množství mléka kolísá v intervalu (980 ml, 1020 ml). Každé množství mléka v tomto intervalu považujeme za stejně možné. Jaká je pravděpodobnost, že v náhodně vybrané láhvi bude aspoň 1000 ml mléka? Řešení: X ­ množství mléka v náhodně vybrané láhvi, X Rs(980, 1020), (x) = 1 40 pro x (980, 1020), 0 jinak. P(X 1000) = 1020 1000 1 40 dx = 1 40 [x]1020 1000 = 0,5. 94 8.8. Příklad Doba (v minutách) potřebná k obsloužení zákazníka v prodejně potravin je náhodná veličina, která se řídí rozložením Ex(1 3 ). Jaká je pravděpodobnost, že doba potřebná k obsloužení náhodně vybraného zákazníka v této prodejně bude v rozmezí od 3 do 6 minut? Řešení: X ­ doba potřebná k obsloužení náhodně vybraného zákazníka, X Ex(1 3 ), (x) = 1 3 e- x 3 pro x > 0, 0 jinak. P(3 X 6) = 6 3 1 3 e- x 3 dx = 1 3 (-3) e- x 3 6 3 = -e-2 + e-1 = 0,233. 8.9. Příklad Výsledky u přijímacích zkoušek na jistou VŠ jsou normálně rozloženy s pa- rametry = 550 bodů, = 100 bodů. S jakou pravděpodobností bude mít náhodně vybraný uchazeč aspoň 600 bodů? Řešení: X ­ výsledek náhodně vybraného uchazeče, X N(550, 1002 ), P(X 600) = 1 - P(X 600) + P(X = 600) = 1 - P(X 600) = = 1 - P X - 600 - = 1 - P U 600 - 550 100 = = 1 - (0,5) = 1 - 0,69146 = 0,31. 8.10. Příklad Necht' X1, X2, X3, X4 jsou stochasticky nezávislé náhodné veličiny, Xi N(0, 1), i = 1, 2, 3, 4. Jaké rozložení má transformovaná náhodná veličina X = X 3 X2 2 + X2 3 + X2 4 ? Řešení: X t(3), protože X1 N(0, 1) a X2 2 + X2 3 + X2 4 2 (3). Shrnutí kapitoly Degenerované rozložení popisuje pravděpodobnostní chování konstanty, což je nepochybně patologický případ. Zajímavější je alternativní, geo- metrické a zvláště binomické rozložení. Všechna tato rozložení souvisejí 95 8. Vybraná rozložení diskrétních a spojitých náhodných veličin s počty úspěchů či neúspěchů v posloupnosti opakovaných nezávislých po- kusů. Hypergeometrické rozložení se vyskytuje v situacích, kdy prová- díme výběr bez vracení ze souboru, který obsahuje označené prvky. Rov- noměrné rozložení na dané množině je charakteristické tím, že náhodná veličina, která se jím řídí, nabývá každé hodnoty z této množiny se stejnou pravděpodobností. Podle Poissonova rozložení se chová např. náhodná veličina udávající počet událostí, které nastanou v jednotkovém čase. Za spojitých rozložení je nejjednodušší rovnoměrné spojité rozložení. Jeho hustota je na daném intervalu konstantní a jinde nulová. Náhodná veličina s exponenciálním rozložením udává dobu čekání na příchod něja- ké události, přičemž toto čekání probíhá " bez paměti". Vůběc nejdůležitějším rozložením je normální rozložení, které vzniká např. tak, že k nějaké konstantě se přičítá velké množství nezávislých náhodných vlivů mírně ko- lísajících kolem nuly. Tím se z konstanty stane náhodná veličina. Grafem normální hustoty pravděpodobnosti je známá Gaussova křivka. Pomocí stan- dardizovaného rozložení lze zavést další tři typy speciálních rozložení, a to Pearsonovo, Studentovo a Fisherovo-Snedecorovo. Nacházejí uplatnění především v matematické statistice. Kontrolní otázky a úkoly 1 (S) Pomocí systému STATISTICA nakreslete grafy hustot a distribuč- ních funkcí uvedených spojitých rozložení. Sledujte vliv parametrů na tvar hustot a distribučních funkcí. Návod: viz příloha B. 2 (S) Pojišt'ovna zjistila, že 12% pojistných událostí je způsobeno vlou- páním. Jaká je pravděpodobnost, že mezi 30 náhodně vybranými po- jistnými událostmi bude způsobeno vloupáním nejvýše 6? 3 Doba (v hodinách), která uplyne mezi dvěma naléhavými příjmy v jisté nemocnici, se řídí rozložením Ex(0,5). Jaká je pravděpodobnost, že uplyne více než 5 hodin bez naléhavého příjmu? 4 Jaká je pravděpodobnost, že náhodná veličina X N(20, 16) nabude hodnotu menši než 12 nebo větší než 28? 5 Necht' X Rs(a, b), přičemž (x) = 0 pro x a x+20 55 pro a < x < b 1 pro x b Určete a, b. 6 Necht' X1, X2 jsou stochasticky nezávislé náhodné veličiny takové, že Xi N(0, 1), i = 1, 2. Jaké rozložení má transformovaná náhodná veličina X = X2 1 X2 2 ? 96 Číselné charakteristiky náhodných veličin 9 9. Číselné charakteristiky náhodných veličin Cíl kapitoly Po prostudování této kapitoly budete umět: spočítat kvantily spojitých náhodných veličin hledat kvantily některých spojitých náhodných veličin ve statistických tabulkách určit střední hodnotu a rozptyl náhodné veličiny spočítat kovarianci a koeficient korelace dvou náhodných veličin využívat vlastností číselných charakteristik náhodných veličin při kon- krétních výpočtech Časová zátěž Na prostudování této kapitoly budete potřebovat asi 10 hodin studia. 9.1. Motivace V 7. kapitole jsme se seznámili s funkcionálními charakteristikami náhodných veličin (např. distribuční funkce, pravděpodobnostní funkce, hustota pravdě- podobnosti), které plně popisují pravděpodobnostní chování náhodné veliči- ny. Číselné charakteristiky vystihují pouze některé rysy tohoto chování, např. popisují polohu realizací náhodné veličiny na číselné ose či jejich proměnlivost (variabilitu). Jsou jednodušší než číselné charakteristiky, ale nesou jen čás- tečnou informaci. 9.2. Definice Necht' X je spojitá náhodná veličina aspoň ordinálního charakteru (viz de- finici 3.2) s distribuční funkcí (x) a necht' (0, 1). Číslo K(X), které splňuje podmínku = (K(X)) = K(X) - (x) dx, se nazývá -kvantil náhodné veličiny X. Kvantil K0,50(X) se nazývá medián, K0,25(X) dolní kvartil, K0,75(X) horní kvartil, K0,10(X), . . ., K0,90(X) jsou decily, K0,01(X), . . ., K0,99(X) jsou percentily. Kterýkoliv -kvantil je cha- rakteristikou polohy číselných realizací náhodné veličiny na číselné ose. Jako charakteristika variability slouží kvartilová odchylka q = K0,75(X)-K0,25(X). (Lze samozřejmě definovat i kvantily diskrétních náhodných veličin, ale zde se zabýváme jenom kvantily spojitých náhodných veličin, které se v praxi nejčastěji používají.) 98 Význam -kvantilu spojité náhodné veličiny ilustruje následující obrázek. K(X) (x) 1 - x 9.3. Označení X N(0, 1) K(X) = u, X 2 (n) K(X) = 2 (n), X t(n) K(X) = t(n), X F(n1, n2) K(X) = F(n1, n2). Tyto kvantily najdeme ve statistických tabulkách. Používáme vztahy: u = -u1-, t(n) = -t1-(n), F(n1, n2) = 1 F1-(n2, n1) . 9.4. Příklad a) Necht' U N(0, 1). Najděte medián a horní a dolní kvartil. b) Určete 2 0,025(25). c) Určete t0,99(30) a t0,05(24). d) Určete F0,975(5, 20) a F0,05(2, 10). Řešení: ad a) u0,50 = 0, u0,25 = -0,67449, u0,75 = 0,67449 ad b) 2 0,025(25) = 13,12 ad c) t0,99(30) = 2,4573, t0,05(24) = -1,7109 ad d) F0,975(5, 20) = 3,2891, F0,05(2, 10) = 0,05156 9.5. Věta Necht' X je spojitá náhodná veličina, Y = g(X) transformovaná náhodná veličina, (0, 1). a) Je-li g všude rostoucí funkce, pak K(Y ) = g(K(X)). b) Je-li g všude klesající funkce, pak K(Y ) = g(K1-(X)). 9.6. Příklad Necht' U N(0, 1). Najděte devátý decil transformované náhodné veličiny Y = 3 + 2U. Řešení: Funkce y = 3 + 2u je všude rostoucí funkce, tedy K0,90(Y ) = 3 + 2u0,90 = 3 + 2 1,28155 = 5,5631. 99 9. Číselné charakteristiky náhodných veličin Nyní budeme věnovat pozornost číselným charakteristikám polohy a variabi- lity náhodné veličiny intervalového či poměrového charakteru. Jak uvidíme, teoretickým protějškem aritmetického průměru m je střední hodnota E(X) a empirického rozptylu s2 teoretický rozptyl D(X). Empirický rozptyl s2 jsme zavedli jako aritmetický průměr kvadrátů centrovaných hodnot. Není tedy překvapivé, že teoretický rozptyl D(X) je střední hodnotou kvadrátů cent- rovaných hodnot. Naučíme se počítat střední hodnotu a rozptyl transformo- vaných náhodných veličin a náhodných vektorů. Uvedeme střední hodnoty a rozptyly vybraných typů diskrétních a spojitých rozložení, která jsme poznali v 8. kapitole. 9.7. Definice Necht' X je náhodná veličina aspoň intervalového charakteru (viz definici 3.2). Její střední hodnotou nazýváme číslo E(X), které je v diskrétním případě zavedeno vztahem E(X) = x=- x(x) a ve spojitém případě vztahem E(X) = x=- x(x) dx za předpokladu, že případná nekonečná suma či integrál vpravo absolutně konverguje. Není-li tato podmínka splněna, pak řekneme, že střední hodnota neexistuje. Transformovaná náhodná veličina X-E(X) se nazývá centrovaná náhodná veličina. (Střední hodnota je číslo, které charakterizuje polohu realizací náhodné veli- činy na číselné ose s přihlédnutím k jejich pravděpodobnostem. V diskrétním případě představuje střední hodnota těžiště soustavy hmotných bodů, jejichž hmotnost je popsána pravděpodobnostní funkcí (x) a ve spojitém případě je střední hodnota těžištěm hmotné přímky, na níž je rozprostření hmoty popsáno hustotou pravděpodobnosti (x). Střední hodnota je teoretickým protějškem váženého aritmetického průměru z definice 3.20.) 9.8. Příklad Náhodná veličina X udává počet ok při hodu kostkou. Vypočtěte její střední hodnotu. Řešení: (x) = 1 6 pro x = 1, 2, . . ., 6 0 jinak, E(X) = 6 x=1 x(x) = 1 6 (1 + 2 + 3 + 4 + 5 + 6) = 7 2 = 3,5. 100 9.9. Věta a) Skalární případ: ˇ Necht' X je diskrétní náhodná veličina s pravděpodobnostní funkcí (x) a Y = g(X) je transformovaná náhodná veličina. Pak E(Y ) = x=- g(x)(x), pokud suma vpravo absolutně konverguje. ˇ Necht' X je spojitá náhodná veličina s hustotou pravděpodobnosti (x) a Y = g(X) je transformovaná náhodná veličina. Pak E(Y ) = - g(x)(x) dx, pokud integrál vpravo absolutně konverguje. b) Vektorový případ: ˇ Necht' (X1, X2) je diskrétní náhodný vektor se simultánní pravdě- podobnostní funkcí (x1, x2) a Y = g(X1, X2) je transformovaná náhodná veličina. Pak E(Y ) = x1=- x2=- g(x1, x2)(x1, x2), pokud suma vpravo absolutně konverguje. ˇ Necht' (X1, X2) je spojitý náhodný vektor se simultánní hustotou pravděpodobnosti (x1, x2) a Y = g(X1, X2) je transformovaná náhodná veličina. Pak E(Y ) = - - g(x1, x2)(x1, x2) dx1dx2, pokud integrál vpravo absolutně konverguje. 9.10. Příklad Necht' X Ex(), Y = e-X , kde > 0 je konstanta. Vypočtěte E(Y ). Řešení: (x) = e-x pro x > 0, 0 jinak, E(Y ) = 0 e-x e-x dx = + . 9.11. Definice Rozptylem náhodné veličiny X, která má střední hodnotu E(X), rozumíme číslo D(X) = E([X -E(X)]2 ), pokud střední hodnota vpravo existuje. Číslo 101 9. Číselné charakteristiky náhodných veličin D(X) se nazývá směrodatná odchylka. Transformovaná náhodná veličina X-E(X) D(X) se nazývá standardizovaná náhodná veličina. Z věty 9.9 (a) plyne, že v diskrétním případě je rozptyl dán vzorcem D(X) = x=- [x - E(X)]2 (x) a ve spojitém případě vzorcem D(X) = x=- [x - E(X)]2 (x) dx (pokud suma či integrál vpravo absolutně konvergují). (Rozptyl je číslo, které charakterizuje proměnlivost realizací náhodné veličiny kolem její střední hodnoty s přihlédnutím k jejich pravděpodobnostem. Je teoretickým protějškem váženého rozptylu zavedeného v definici 3.20.) 9.12. Příklad Náhodná veličina X udává počet ok při hodu kostkou. Vypočtěte její rozptyl. Řešení: (x) = 1 6 pro x = 1, 2, . . ., 6, 0 jinak, E(X) = 3,5 (viz př. 9.8), D(X) = 6 x=1 (x - 3,5)2 1 6 = = 35 12 = 2,92. 9.13. Věta Uved'me střední hodnoty a rozptyly vybraných typů diskrétních a spojitých rozložení. a) X Dg() E(X) = , D(X) = 0, b) X A() E(X) = , D(X) = (1 - ), c) X Bi(n, ) E(X) = n, D(X) = n(1 - ), d) X Ge() E(X) = 1- , D(X) = 1- 2 , e) X Hg(N, M, n) E(X) = M N n, D(X) = MN N (1 - M N )N-n N-1 , f) X Rd(G) E(X) = n-1 2 , D(X) = n2-1 12 , g) X Po() E(X) = , D(X) = 2 , h) X Rs(a, b) E(X) = a+b 2 , D(X) = (b-a)2 12 , i) X Ex() E(X) = 1 , D(X) = 1 2 , 102 j) X N(, 2 ) E(X) = , D(X) = 2 , k) X 2 (n) E(X) = n, D(X) = 2n, l) X t(n) E(X) = 0 pro n 2, pro n = 1 E(X) neexistuje, D(X) = n n-2 pro n 3, pro n = 1, 2 D(X) neexistuje, m) X F(n1, n2) E(X) = n2 n2-2 pro n2 3, pro n2 = 1, 2 E(X) neexistuje, D(X) = 2n2 2(n1+n2-2) n1(n2-2)(n2-4) pro n2 5, pro n2 = 1, 2, 3, 4 D(X) neexistuje. Věnujme se nyní dvěma náhodným veličinám. Budou nás zajímat charakte- ristiky jejich společné variability a síly těsnosti lineárního vztahu mezi nimi. Jako motivace pro zavedení těchto charakteristik nám poslouží empirická ko- variance s12 a empirický koeficient korelace r12. Empirická kovariance s12 byla definována jako aritmetický průměr součinů centrovaných hodnot a empirický koeficient korelace r12 jako aritmetický průměr součinů standar- dizovaných hodnot. Lze tedy očekávat, že teoretická kovariance C(X1, X2) bude střední hodnotou součinů centrovaných hodnot a teoretický rozptyl R(X1, X2) bude střední hodnotou součinů standardizovaných veličin. Podrobně se seznámíme s řadou vlastností všech výše uvedených číselných charakteristik a využijeme jich při řešení několika příkladů. Pokud neznáme rozložení pravděpodobnosti náhodné veličiny, ale jenom její střední hodnotu a rozptyl, pak můžeme pomocí tzv. Čebyševovy nerovnosti aspoň odhadnout pravděpodobnost, že tato náhodná veličina se od své střed- ní hodnoty odchýlí o více než t-násobek své směrodatné odchylky. V závěru kapitoly se soustředíme na vlastnosti střední hodnoty a rozptylu náhodné veličiny s normálním rozložením. 9.14. Definice Kovariancí náhodných veličin X1, X2, které mají střední hodnoty E(X1), E(X2), rozumíme číslo C(X1, X2) = E([X1 - E(X1)][X2 - E(X2)]) (pokud střední hodnoty vpravo existují). Z věty 9.9 (b) plyne, že v diskrétním případě je kovariance dána vzorcem C(X1, X2) = x1=- x2=- [x1 - E(X1)][x2 - E(X2)](x1, x2) a ve spojitém případě vzorcem C(X1, X2) = - - [x1 - E(X1)][x2 - E(X2)](x1, x2) dx1dx2 (pokud dvojná suma či dvojný integrál vpravo absolutně konvergují). 103 9. Číselné charakteristiky náhodných veličin (Kovariance je číslo, které charakterizuje proměnlivost realizací náhodných veličin X1, X2 kolem jejich středních hodnot s přihlédnutím k jejich prav- děpodobnostem. Je-li kovariance kladná (záporná), pak to svědčí o existenci jistého stupně přímé (nepřímé) lineární závislosti mezi realizacemi náhodných veličin X1, X2. Je-li kovariance nulová, pak říkáme, že náhodné veličiny X1, X2 jsou nekorelované a znamená to, že mezi jejich realizacemi není žádný lineární vztah. Pozor ­ z nekorelovanosti nevyplývá stochastická nezávislost, zatímco ze stochastické nezávislosti plyne nekorelovanost. Kovariance je te- oretickým protějškem vážené kovariance z definice 3.20.) 9.15. Příklad Diskrétní náhodný vektor (X1, X2) má simultánní pravděpodobnostní funkci s hodnotami: (0, -1) = c, (0, 0) = (0, 1) = (1, -1) = (2, -1) = 0, (1, 0) = (0, 1) = (2, 1) = 2c, (2, 0) = 3c, (x1, x2) = 0 jinak. Určete konstantu c a vypočtěte C(X1, X2). Řešení: Hodnoty simultánní pravděpodobnostní funkce a obou marginálních pravdě- podobnostních funkcí uspořádáme do kontingenční tabulky. x2 1(x1) -1 0 1 0 c 0 0 c x1 1 0 2c 2c 4c 2 0 3c 2c 5c 2(x2) c 5c 4c 1 Z normovanosti pravděpodobnostní funkce diskrétního náhodného vektoru (viz věta 7.8, vektorový případ) dostáváme 10c = 1, tedy c = 0,1. E(X1) = 2 x1=0 x11(x1) = 0 0,1 + 1 0,4 + 2 0,5 = 1,4 E(X2) = 1 x2=-1 x22(x2) = -1 0,1 + 0 0,5 + 1 0,4 = 0,3 C(X1, X2) = 2 x1=0 1 x2=-1 [x1 - E(X1)][x2 - E(X2)](x1, x2) = = (0 - 1,4) (-1 - 0,3) 0,1 + + (2 - 1,4) (1 - 0,3) 0,2 = 0,18. 9.16. Definice Koeficientem korelace náhodných veličin X1, X2 rozumíme číslo R(X1, X2) = E X1-E(X1) D(X1) X2-E(X2) D(X2) pro D(X1) D(X2) > 0, 0 jinak. 104 (Koeficient korelace je číslo, které charakterizuje těsnost lineární závislosti realizací náhodných veličin X1, X2. Čím bližší je 1, tím těsnější je přímá lineární závislost, čím bližší je -1, tím těsnější je nepřímá lineární závislost.) 9.17. Věta Necht' a, a1, a2, b, b1, b2 jsou reálná čísla, X, X1,. . . , Xn, Y1,. . . , Ym jsou náhodné veličiny definované na témž pravděpodobnostním prostoru. V ná- sledujících vzorcích vždy z existence číselných charakteristik na pravé straně vyplývá existence výrazu na levé straně. Vlastnosti střední hodnoty a) E(a) = a, b) E(a + bX) = a + bE(X), c) E(X - E(X)) = 0, d) E n i=1 Xi = n i=1 E(Xi), e) Jsou-li náhodné veličiny X1,. . . , Xn stochasticky nezávislé, pak platí E n i=1 Xi = n i=1 E(Xi). Vlastnosti kovariance a) C(a1, X2) = C(X1, a2) = C(a1, a2) = 0, b) C(a1 + b1X1, a2 + b2X2) = b1b2C(X1, X2), c) C(X, X) = D(X), d) C(X1, X2) = C(X2, X1), e) C(X1, X2) = E(X1X2) - E(X1)E(X2), f) C n i=1 Xi, m j=1 Yj = n i=1 m j=1 C(Xi, Yj). Vlastnosti rozptylu a) D(a) = 0, b) D(a + bX) = b2 D(X), c) D(X) = E(X2 ) - [E(X)]2 , d) D n i=1 Xi = n i=1 D(Xi) + 2 n-1 i=1 n j=i+1 C(Xi, Xj) (Jsou-li náhodné veli- činy X1, . . . , Xn nekorelované, pak D n i=1 Xi = n i=1 D(Xi) .) Vlastnosti koeficientu korelace a) R(a1, X2) = R(X1, a2) = R(a1, a2) = 0, b) R(a1 + b1X1, a2 + b2X2) = sgn(b1b2)R(X1, X2), c) R(X, X) = 1 pro D(X) = 0, R(X, X) = 0 jinak, d) R(X1, X2) = R(X2, X1) 105 9. Číselné charakteristiky náhodných veličin e) R(X1, X2) = E C(X1,X2) D(X1) D(X2) pro D(X1) D(X2) > 0, 0 jinak, f) |R(X1, X2)| 1 a rovnost nastane tehdy a jen tehdy, když mezi veli- činami X1, X2 existuje s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a1, a2 tak, že P(X2 = a1 + a2X1) = 1. (Uvedená nerovnost se nazývá Cauchyova-Schwarzova-Buňakovského nerovnost.) 9.18. Příklad Vypočtěte koeficient korelace náhodných veličin X1, X2 z příkladu 9.15. Řešení: V příkladu 9.15 byla vypočtena kovariance C(X1, X2) = 0,18. Stačí tedy vypočítat směrodatné odchylky veličin X1, X2. D(X1) = 2 x1=0 [x1 - E(X1)]2 1(x1) = = (0 - 1,4)2 0,1 + (1 - 1,4)2 0,4 + (2 - 1,4)2 0,5 = 0,44 D(X2) = 2 x2=0 [x2 - E(X2)]2 1(x2) = = (-1 - 0,3)2 0,1 + (0 - 0,3)2 0,5 + (1 - 0,3)2 0,4 = 0,41 R(X1, X2) = C(X1, X2) D(X1) D(X2) = 0,18 0,44 0,41 = 0,42. 9.19. Příklad Náhodná veličina X má střední hodnotu a rozptyl 2 . Vypočtěte střední hodnotu a rozptyl centrované náhodné veličiny Y = X - a střední hodnotu a rozptyl standardizované náhodné veličiny U = X- . Řešení: E(Y ) = E(X - ) = E(X) - E() = - = 0, D(Y ) = D(X - ) = D(X) = 2 , E(U) = E X - = 1 E(X - ) = 1 0 = 0, D(U) = D X - = 1 2 D(X - ) = 1 2 2 = 1. 9.20. Příklad Náhodné veličiny X, Y jsou náhodné chyby, které vznikají na vstupním zařízení. Mají střední hodnoty E(X) = -2, E(Y ) = 4 a rozptyly D(X) = 4, 106 D(Y ) = 9. Koeficient korelace těchto chyb je R(X, Y ) = -0,5. Chyba na výstupu zařízení souvisí s chybami na vstupu funkční závislostí Z = 3X2 - 2XY + Y 2 - 3. Najděte střední hodnotu chyby na výstupu. Řešení: E(Z) = E(3X2 - 2XY + Y 2 - 3) = 3E(X2 ) - 2E(XY ) + E(Y 2 ) - E(3) = = 3 D(X) + [E(X)]2 - 2 [C(X, Y ) + E(X)E(Y )] + D(Y ) + [E(Y )]2 - 3 = = 3[D(X) + [E(X)]2 ] - 2[R(X, Y ) D(X) D(Y ) + E(X)E(Y )] + D(Y )+ + [E(Y )]2 - 3 = 3(4 + 4) - 2[-0,5 2 3 + (-2) 4] + 9 + 16 - 3 = = 24 + 22 + 25 - 3 = 68. 9.21. Věta Necht' náhodná veličina X má střední hodnotu a rozptyl 2 . Pak platí Čebyševova nerovnost > 0 : P(|X - | > ) 2 2 . Označíme-li = t, pak pro t > 0 : P(|X - | > t) 1 t2 . (Význam Čebyševovy nerovnosti spočívá v tom, že pokud neznáme rozložení náhodné veličiny, ale známe její střední hodnotu a rozptyl, pak můžeme od- hadnout pravděpodobnost, s jakou se od své střední hodnoty odchýlí o více než t-násobek své směrodatné odchylky.) E(X) - t D(X) E(X) E(X) + t D(X) 1/t2 (x) =? 9.22. Příklad Necht' E(X) = , D(X) = 2 . a) Odhadněte P(|X - > 3). b) Jestliže X N(, 2 ), vypočtěte P(|X - | > 3). Řešení: ad a) P(|X - | > 3) 1 32 = 1 9 = 0,1. (Tento výsledek je znám jako pravidlo 3 a říká, že nejvýše 11,1% realizací 107 9. Číselné charakteristiky náhodných veličin náhodné veličiny leží vně intervalu ( - 3, + 3).) ad b) P(|X -| > 3) = 1-P(-3 X - 3) = 1-P -3 X- 3 = 1 - (3) + (-3) = 2[1 - (3)] = 2(1 - 0,99865) = 0,0027. (Má-li náhodná veličina normální rozdělení, pak pouze 0,27% realizací leží vně intervalu ( - 3, + 3).) 9.23. Věta a) Jestliže X N(, 2 ), pak E(X) = , D(X) = 2 . b) Jestliže X N(, 2 ) a Y = a + bX, pak Y N(a + b, b2 2 ). c) Jestliže X1, . . ., Xn jsou stochasticky nezávislé náhodné veličiny a necht' Xi N(i, 2 i ), i = 1, . . . , n, Y = n i=1 Xi, pak Y N n i=1 i, n i=1 2 i . 9.24. Příklad Necht' X1, X2 jsou stochasticky nezávislé náhodné veličiny, Xi N(0, 1), i = 1, 2. Zjistěte, jaké rozložení má transformovaná náhodná veličina Y = 3 + X1 - 2X2, určete jeho parametry a najděte dolní kvartil náhodné veličiny Y . Řešení: Y N(E(Y ), D(Y )), přičemž E(Y ) = E(3 + X1 - 2X2) = 3 + E(X1) - 2E(X2) = 3 + 0 - 2 0 = 3, D(Y ) = D(3 + X1 - 2X2) = D(X1) + (-2)2 D(X2) = 1 + 4 1 = 5, tedy Y N(3, 5). Nyní vypočítáme dolní kvartil. Využijeme toho, že U = Y -2 5 N(0, 1), tedy K0,25(Y ) = 3+ 5u0,25 = 3- 50,67449 = 1,4918. Shrnutí kapitoly Při zavádění číselných charakteristik náhodných veličin nás motivují číselné charakteristiky znaků, jak jsme je poznali ve 3. kapitole. Jako charakteristika polohy číselných realizací spojité náhodné veličiny aspoň ordinálního typu slouží -kvantil a jeho speciální případy: medián, dolní a horní kvartil. Variabilitu charakterizujeme kvartilovou odchylkou. Vý- počet kvantilů není příliš jednoduchá záležitost, proto jsou kvantily několika typů rozložení tabelovány nebo je lze získat pomocí speciálního statistického software. Pro náhodné veličiny intervalového a poměrového typu používáme jako cha- rakteristiku polohy střední hodnotu ­ teoretický protějšek aritmetického průměru. Pomocí střední hodnoty pak definujeme další číselné charaketris- tiky: rozptyl a jeho druhou odmocninu ­ směrodatnou odchylku, kova- rianci a koeficient korelace. 108 Řešení konkrétních příkladů velmi usnadňují vzorce, které popisují vlast- nosti číselných charakteristik. Kontrolní otázky a úkoly 1 Pomocí statistických tabulek vypočtěte následující kvantily: u0,95, u0,10, 2 0,975(10), 2 0,025(9), t0,90(8), t0,05(6), F0,975(5, 7), F0,055(8, 6). 2 Necht' X N(-1, 4). Najděte K0,025(X). 3 Necht' X1, X2 jsou stochasticky nezávislé náhodné veličiny takové, že X1 N(2, 4), X2 N(-1, 9). Vypočtěte 99% kvantil transformované náhodné veličiny Y = 2X1 - 3X2 + 5. 4 V zásilce 15 výrobků je 5 nekvalitních. Náhodná veličina X udává počet nekvalitních výrobků mezi čtyřmi náhodně vybranými výrobky. Vypočtěte její střední hodnotu a rozptyl, jestliže výběr byl proveden a) s vracením, b) bez vracení. (Návod: v bodě (a) má X binomické rozložení, v bodě (b) hypergeometrické.) 5 Sledovaná železniční trasa vykazuje velké nerovnosti, takže zatížení jed- notlivé vozové nápravy náhodně kolísá, teoreticky spojitým způsobem. Prakticky jsou známy jen částečné informace, takže uvažujeme o dis- krétní náhodné veličině X (náhodné zatížení v tunách) s pravděpo- dobnostní funkcí (x) = 0,15 pro x = 6, (x) = 0,65 pro x = 30, (x) = 0,2 pro x = 70, (x) = 0 jinak. Při kalkulaci nákladů se eko- nom zajímá o střední opotřebení náprav dané vzorcem Y = 1,15X2 . Vypočtěte střední hodnotu opotřebení. 6 Počet různých druhů zboží, které zákazník nakoupí při jedné návštěvě obchodu, je náhodná veličina X. Dlouhodobým sledováním bylo zjiš- těno, že X nabývá hodnot 0, 1, 2, 3, 4 s pravděpodobnostmi 0,25, 0,55, 0,11, 0,07 a 0,02. a) Najděte distribuční funkci náhodné veličiny X a nakreslete její graf. b) Vypočtěte střední hodnotu náhodné veličiny X. c) Vypočtěte rozptyl náhodné veličiny X. 7 Střelec střílí 3× nezávisle na sobě do terče. Při každém výstřelu se trefí s pravděpodobností 3 4 . Za zásah získá 2 body, jinak ztratí 2 body. Vypočtěte střední hodnotu a rozptyl počtu získaných bodů. 8 Uvažme rodinu se třemi dětmi. Předpokládáme, že pravděpodobnost narození chlapce i dívky je stejná. Náhodná veličina X udává počet dívek v této rodině (má binomické rozložení) , transformovaná náhodná veličina Y = -100X2 + 300X + 500 udává roční náklady (v dolarech) na ošacení dětí. Vypočtěte střední hodnotu náhodné veličiny Y . 9 Náhodná veličina X udává příjem manžela (v tisících dolarů) a náhodná veličina Y udává příjem manželky (v tisících dolarů). Je známa si- multánní pravděpodobnostní funkce (x, y) diskrétního náhodného vektoru (X, Y ): (10, 10) = 0,2, (10, 20) = 0,04, (10, 30) = 0,01, (10, 40) = 0, (20, 10) = 0,1, (20, 20) = 0,36, (20, 30) = 0,09, (20, 40) = 0, (30, 10) = 0, (30, 20) = 0,05, (30, 30) = 0,1, 109 9. Číselné charakteristiky náhodných veličin (30, 40) = 0, (40, 10) = 0, (40, 20) = 0, (40, 30) = 0, (40, 40) = 0,05, (x, y) = 0 jinak. a) Vypočtěte korelační koeficient náhodných veličin X, Y . b) Vypočtěte střední hodnotu a směrodatnou odchylku náhodné veli- činy Z = 0,1X +0,2Y , která vyjadřuje příspěvek obou manželů na důchod. (Náhodná veličina Z vyjadřuje, že příspěvek na důchod činí 10% manželova platu a 20% manželčina platu.) 10 Náhodné veličiny X1, X2 mají kovarianci 12. Vypočtěte kovarianci ná- hodných veličin Y1 = -8 + 11X1, Y2 = 6 - 4X2. 11 Náhodná veličina X udává výšku v metrech a náhodná veličina Y udává hmotnost v gramech. Jak se změní kovariance a koeficient kore- lace, jestliže výšku vyjádříme v cm a hmotnost v kg? 12 Náhodná veličina X má střední hodnotu a směrodatnou odchylku . Kolik procent realizací této náhodné veličiny se bude nacházet v inter- valu ( - 2, + 2)? 13 Použijte Čebyševovu nerovnost k odhadu pravděpodobnosti, že při 600 hodech kostkou padne šestka aspoň 75× a nejvýše 125×. 110 Zákon velkých čísel a centrální limitní věta 10 10. Zákon velkých čísel a centrální limitní věta Cíl kapitoly Po prostudování této kapitoly budete umět: odhadnout pravděpodobnost, s níž se náhodná veličina realizuje v určité vzdálenosti od své střední hodnoty odhadnout pravděpodobnost úspěchu v posloupnosti opakovaných ne- závislých pokusů relativní četností tohoto úspěchu aproximovat distribuční funkci binomického rozložení distribuční funkcí standardizovaného normálního rozložení Časová zátěž Na prostudování této kapitoly budete potřebovat asi 5 hodin studia. V 5. kapitole, konkrétně v definici 5.6, jsme se seznámili s empirickým záko- nem velkých čísel, který tvrdil, že při mnohonásobném nezávislém opakování téhož náhodného pokusu se relativní četnost jevu blíží pravděpodobnosti to- hoto jevu. Jak uvidíme, je empirický zákon velkých čísel speciálním případem obecnějšího zákona velkých čísel. Tento důsledek uvedeme jako Bernoulliovu větu. 10.1. Motivace Zákon velkých čísel vyjadřuje skutečnost, že s rostoucím počtem nezávislých opakování náhodného pokusu se empirické charakteristiky, které popisují výsledky těchto pokusů, blíží teoretickým charakteristikám, např. relativní četnost úspěchu se blíží pravděpodobnosti úspěchu, četnostní funkce se blíží pravděpodobnostní funkci, hustota četnosti se blíží hustotě pravděpodobnosti apod. Centrální limitní věta tvrdí, že za jistých podmínek má součet nezávislých náhodných veličin s týmž rozložením přibližně normální rozložení. Normální rozložení je tedy rozložením limitním, k němuž se blíží všechna rozložení, proto hraje velmi důležitou roli v počtu pravděpodobnosti a matematické statistice. 10.2. Věta Necht' {Xn} n=1 je posloupnost stochasticky nezávislých náhodných veličin, které mají střední hodnoty a rozptyly 2 . Pak pro posloupnost aritme- tických průměrů {1 n n i=1 Xi} i=1 platí: > 0 : P 1 n n i=1 Xi - < 1 - 2 n2 , neboli > 0 : lim n P 1 n n i=1 Xi - > = 0. 112 (Uvedená věta se nazývá zákon velkých čísel nebo též Čebyševova věta. Její tvrzení říká, že posloupnost aritmetických průměrů konverguje podle pravděpodobnosti ke střední hodnotě . Tedy při dostatečně velkém počtu pokusů lze střední hodnotu odhadnout průměrem výsledků jednotlivých po- kusů.) 10.3. Důsledek Necht' náhodná veličina Yn udává počet úspěchů v posloupnosti n opako- vaných nezávislých pokusů, přičemž v každém pokusu nastává úspěch s prav- děpodobností . (Podle definice 8.2 (c) Yn Bi(n, )). Pak pro posloupnost relativních četností {Yn n } n=1 platí: > 0 : P Yn n - < 1 - (1 - ) n2 > 1 - 1 4n2 , neboli > 0 : lim n P Yn n - > = 0. (Tento důsledek Čebyševovy věty se nazývá Bernoulliova věta. Vyjadřuje skutečnost, že posloupnost relativních četností konverguje podle pravděpo- dobnosti k pravděpodobnosti úspěchu . Tedy při dostatečně velkém počtu pokusů lze pravděpodobnost úspěchu odhadnout relativní četností úspěchu.) 10.4. Příklad Při výstupní kontrole bylo zjištěno, že mezi 3000 kontrolovanými výrobky je 12 zmetků. Jaká je pravděpodobnost, že relativní četnost výskytu zmetku se od pravděpodobnosti výskytu zmetku neliší o více než 0, 01? Řešení: Y3000 ­ počet zmetků mezi kontrolovanými výrobky, Y3000 Bi(3000, ), 12 3000 . Podle Bernoulliovy věty dostáváme: > 0 : P Yn n - < 1 - (1 - ) n2 > 1 - 1 4n2 . V našem případě = 0,01, n = 3000, 12 3000 , tedy P Y3000 3000 - < 0,01 1 - 12 3000 2988 3000 3000 0,0001 = 0,872. Již několikrát jsme se zmínili o tom, že normální rozložení je vůbec nejdůle- žitější typ rozložení. Centrální limitní věta nám dá odpověd' na otázku, proč tomu tak je. Při praktických výpočtech se často používá důsledek centrální limitní věty, a to Moivreova-Laplaceova věta, která za určitých podmínek umožní nahra- dit složitý výpočet distribuční funkce binomického rozložení jednoduchým 113 10. Zákon velkých čísel a centrální limitní věta hledáním v tabulkách hodnot distribuční funkce standardizovaného normál- ního rozložení. Pokud však máme k dispozici statistický software, dáme přednost přesnému výpočtu před aproximativním. 10.5. Věta Necht' {Xn} n=1 je posloupnost stochasticky nezávislých náhodných veličin, které mají všechny totéž rozložení se střední hodnotou a rozptylem 2 . Pak pro posloupnost standardizovaných součtů Un = n i=1 Xi - n n , n = 1, 2, . . . platí: x R : lim x P(Un x) = (x), kde (x) je distribuční funkce rozložení N(0, 1). (Lindebergova-Lévyova centrální limitní věta říká, že pro dostatečně velká n (praktickz stačí n 30) lze rozložení součtu stochasticky nezávislých a stejně rozložených náhodných veličin aproximovat normálním rozložením N(n, n2 ).) 10.6. Důsledek Necht' {Yn} n=1 je posloupnost stochasticky nezávislých náhodných veličin, Yn Bi(n, ), n = 1, 2, . . . Pak platí: y R : lim n P(Yn y) = lim n P Yn - n n(1 - ) y - n n(1 - ) y - n n(1 - ) , kde (x) je distribuční funkce rozložení N(0, 1). (Moivreova-Laplaceova věta tvrdí, že za určitých podmínek lze binomické rozložení aproximovat standardizovaným normálním rozložením. Aproximace se považuje za vyhovující, když jsou splněny podmínky 1 n+1 < < n n+1 a n(1 - ) > 9.) 10.7. Příklad V určité skupině zaměstnanců je 10% s příjmem, který překračuje celostátní průměr. Kolik zaměstnanců z této skupiny je třeba vybrat, aby s pravděpo- dobností aspoň 0,95 bylo mezi nimi 8% až 12% zaměstnanců s nadprůměrným příjmem? Řešení: X ­ počet zaměstnanců s nadprůměrným příjmem, Yn Bi(n; 0,1), E(X) = 114 0,1n, D(X) = 0,09n, 0,95 P 0,08 X n 0,12 = P(0,08n X 0,12n) = = P 0,08 - 0,1n 0,09n X - 0,1n 0,09n 0,12 - 0,1n 0,09n = = P - n 15 X - 0,1n 0,09n n 15 n 15 - - n 15 = = 2 n 15 - 1 n 15 0,975 tedy n 15 u0,975 = 1,96 n 29,4 n 865. Pro splnění podmínek je zapotřebí vybrat aspoň 865 zaměstnanců. Shrnutí kapitoly V této kapitole jsme ukázali, že již dříve vyslovený empirický zákon velkých čísel je speciálním případem obecnějšího zákona velkých čísel, který po- pisuje pravděpodobnostní chování posloupností aritmetických průměrů sto- chasticky nezávislých náhodných veličin s touž střední hodnotou a rozptylem. Důsledek tohoto zákona (zvaného též Čebyševova věta) jsme uvedli jako Bernoulliovu větu. Seznámili jsme se též s Lindebergovou-Lévyovou centrální větou, která tvrdí, že za určitých podmínek lze rozložení součtu náhodných věličin s ja- kýmkoliv rozložením aproximovat normálním rozložením. Toto tvrzení tedy vysvětluje důležitost normálního rozložení. Historicky starší než tato věta je její důsledek uváděný jako Moivreova-Laplaceova věta, která umožňuje aproximovat binomické rozložení normálním rozložením. Kontrolní otázky a úkoly 1 Pravděpodobnost, že výrobek má 1. jakost, je = 0,9. Kolik výrobků je třeba zkontrolovat, aby s pravděpodobností aspoň 0,99 bylo zaručeno, že rozdíl relativní četnosti počtu výrobků 1. jakosti a pravděpodobnosti = 0,9 byl v absolutní hodnotě menší než 0,03? K výpočtu použijte jak Bernoulliovu větu, tak Moivreovu-Laplaceovu větu a výsledky po- rovnejte. 2 Pravděpodobnost narození chlapce je 0,515. Jaká je pravděpodobnost, že mezi 10 000 novorozenci bude a) více děvčat než chlapců, b) chlapců od 5 000 do 5 300, c) relativní četnost chlapců v mezích od 0,515 do 0,517? 3 Pravděpodobnost zásahu terče jedním výstřelem je 0,4. Kolikrát je třeba vystřelit, aby absolutní hodnota odchylky relativní četnosti zása- hů od uvedené pravděpodobnosti byla menší než 0,02 s pravděpodob- ností aspoň 0,95? 115 10. Zákon velkých čísel a centrální limitní věta 116 Základní pojmy matematické statistiky 11 11. Základní pojmy matematické statistiky Cíl kapitoly Po prostudování této kapitoly budete umět: definovat náhodné výběry z jednorozměrného i vícerozměrného rozlo- žení pravděpodobností stanovit důležité statistiky pro náhodný výběr z jednorozměrného a dvourozměrného rozložení pravděpodobností popsat vlastnosti těchto statistik využít vlastností statistik odvozených z náhodného výběru z normální- ho rozložení při výpočtu konkrétních pravděpodobností Časová zátěž Pro zvládnutí této kapitoly budete potřebovat asi 7 hodin studia. Nejprve zavedeme pojem náhodného výběru a vysvětlíme jeho souvislost s da- tovým souborem. Musíme si však uvědomit následující skutečnost: datový soubor obsahuje konstantní hodnoty znaků, zatímco složkami náhodného výběru jsou náhodné veličiny spojené s nějakým náhodným pokusem. 11.1. Definice a) Necht' X1, . . . , Xn jsou stochasticky nezávislé náhodné veličiny, které mají všechny stejné rozložení L(). Řekneme, že X1, . . ., Xn je náhodný výběr rozsahu n z rozložení L(). (Číselné realizace x1, . . ., xn náhodné- ho výběru X1, . . ., Xn uspořádané do sloupcového vektoru představují datový soubor zavedený v popisné statistice v definici 1.9) b) Necht' (X1, Y1), . . . , (Xn, Yn) jsou stochasticky nezávislé dvourozměrné náhodné vektory, které mají všechny stejné dvourozměrné rozložení L2(). Řekneme, že (X1, Y1), . . ., (Xn, Yn) je dvourozměrný náhodný výběr rozsahu n z dvourozměrného rozložení L2(). (Číselné realizace (x1, y1), . . . , (xn, yn) náhodného výběru (X1, Y1), . . . , (Xn, Yn) uspořá- dané do matice typu 2 × n představují dvourozměrný datový soubor zavedený v popisné statistice.) (Analogicky lze definovat p-rozměrný náhodný výběr rozsahu n z p-rozměr- ného rozložení Lp().) V matematické statistice velmi často pracujeme s transformacemi náhodného výběru. Těmto transformovaným náhodným veličinám říkáme statistiky. Za- vedeme několik důležitých statistik a upozorníme na jejich souvislost s čí- selnými charakteristikami znaků, které jsme poznali ve 3. kapitole v popisné statistice. Protože statistiky jsou náhodnými veličinami, lze počítat jejich střední hod- notu a rozptyl. Ukážeme, jak se chovají tyto číselné charakteristiky některých statistik. 118 11.2. Definice Libovolná funkce T = T(X1, . . . , Xn) náhodného výběru X1, . . . , Xn (resp. T = T(X1, Y1, . . ., Xn, Yn) náhodného výběru (X1, Y1), . . . , (Xn, Yn)) se na- zývá (výběrová) statistika. Statistika M = 1 n n i=1 Xi se nazývá výběrový průměr, S2 = 1 n - 1 n i=1 (Xi - M)2 výběrový rozptyl, S = S2 výběrová směrodatná odchylka, S12 = 1 n - 1 n i=1 (Xi - M1)(Yi - M2) výběrová kovariance (přitom M1 = 1 n n i=1 Xi, M2 = 1 n n i=1 Yi) a R12 = 1 n-1 n i=1 Xi-M1 S1 Yi-M2 S2 pro S1, S2 = 0, 0 jinak, se nazývá výběrový koeficient korelace. (Číselné realizace m, s2 , s, s12, r12 statistik M, S2 , S, S12, R12 odpovídají číselným charakteristikám znaků v popisné statistice zavedeným definicích 3.6, 3.10 a 3.12, ale u rozptylu, směrodatné odchylky, kovariance a koeficientu korelace je multiplikativní konstanta 1 n-1 , nikoli 1 n , jak tomu bylo v popisné statistice.) 11.3. Věta a) Necht' X1, . . ., Xn je náhodný výběr z rozložení se střední hodnotou a rozptylem 2 . Pak E(M) = , D(M) = 2 n , E(S2 ) = 2 , at' jsou hodnoty parametrů , 2 jakékoli. b) Necht' (X1, Y1), . . . , (Xn, Yn) je náhodný výběr z dvourozměrného roz- ložení s kovariancí 12 a koeficientem korelace . Pak E(S12) = 12, at' je hodnota parametru 12 jakákoli, avšak E(R12) je rovno pouze přibližně (shoda je vyhovující pro n 30), at' je hodnota parametru jakákoli. Nyní se budeme zabývat náhodným váběrem z normálního rozložení. Zave- deme několik statistik vzniklých transformací výběrového průměru a výběro- vého rozptylu (jsou to tzv. pivotové statistiky) a ukážeme, jakým způsobem 119 11. Základní pojmy matematické statistiky se tyto statistiky řídí. V příští kapitole využijeme těchto pivotových statis- tik při konstrukci intervalů spolehlivosti pro parametry normálních rozložení. V této kapitole nám uvedené vlastnosti poslouží při výpočtu různých prav- děpodobností. 11.4. Věta Necht' X1, . . . , Xn je náhodný výběr z rozložení N(, 2 ). Pak platí a) Výběrový průměr M a výběrový rozptyl S2 jsou stochasticky nezávislé. b) M N(, 2 n ), tedy U = M- n N(0, 1). (Statistika U slouží ke kon- strukci intervalu spolehlivosti pro , když 2 známe.) c) K = (n - 1)S2 2 2 (n - 1). (Statistika K slouží ke konstrukci inter- valu spolehlivosti pro 2 , když neznáme.) d) n i=1 (Xi-)2 2 2 (n). (Tato statistika, která nemá speciální označení, slouží ke konstrukci intervalu spolehlivosti pro 2 , když známe.) e) T = M- S n t(n - 1). (Statistika T slouží ke konstrukci intervalu spo- lehlivosti pro , když 2 neznáme.) 11.5. Příklad Hmotnost jedné porce kávy považujeme za náhodnou veličinu s normálním rozložením X N(7 g, 0,25 g2 ). Jaká je pravděpodobnost, že k přípravě 28 porcí kávy postačí dva 100 g balíčky? Řešení: X1, . . . , X28 je náhodný výběr z N(7, 0,25). Počítáme P 28 i=1 Xi 200 = P 1 28 28 i=1 Xi 200 28 = P M 200 28 = = P M - 7 0,5 28 200 28 - 1 0,5 28 = P(U 1,51) = (1,51) = 0,9345. S pravděpodobností 93,45% můžeme předpokládat, že k přípravě 28 porcí kávy postačí dva 100 g balíčky. 11.6. Příklad Odběratel provede kontrolu stejnorodosti dodávky výrobků tak, že změří sle- dovaný rozměr u 25 náhodně vybraných výrobků. Dodávku přijme, jestliže výběrová směrodatná odchylka se bude realizovat hodnotou menší nebo rov- nou 0,2 mm. Je známo, že sledovaný rozměr výrobku má normální rozložení N(50 mm, 0,2632 mm2 ). Jaká je pravděpodobnost přijetí dodávky? 120 Řešení: X1, . . . , X25 je náhodný výběr z N(50, 0,2632). Počítáme P(S 0,2) = P(S2 0,04) = P (n - 1)S2 2 (n - 1)0,04 2 = = P K 24 0,04 0,2632 = P(K 13,879), tedy číslo 13,879 je -kvantil Pearsonova rozložení 2 (24). V tabulkách kvan- tilů Pearsonova rozložení najdeme, že = 0,05. S pravděpodobností pouhých 5% lze očekávat, že odběratel přijme dodávku. Přejdeme nyní ke dvěma nezávislým náhodným výběrům z normálního ro- zložení. I v této situaci nás zajímá rozložení pivotových statistik vzniklých transformací výběrových průměrů a výběrových rozptylů. 11.7. Věta Necht' X11, . . . , Xn11 je náhodný výběr z rozložení N(1, 2 1) a X12, . . ., Xn22 je na něm nezávislý náhodný výběr rozložení N(2, 2 2), přičemž n1 2 a n2 2. Označme M1, M2 výběrové průměry a S2 1 , S2 2 výběrové rozptyly. Pak platí: a) Statistiky M1 - M2 (rozdíl výběrových průměrů) a S2 = (n1 - 1)S2 1 + (n2 - 1)S2 2 n1 + n2 - 2 (vážený průměr výběrových rozptylů) jsou stochasticky nezávislé. b) M1 -M2 N 1 - 2, 2 1 n1 + 2 2 n2 , tedy U = (M1-M2)-(1-2) 2 1 n1 + 2 2 n2 N(0, 1). (Statistika U slouží ke konstrukci intervalu spolehlivosti pro rozdíl středních hodnot 1 - 2, když rozptyly 2 1, 2 2 známe.) c) Jestliže 2 1 = 2 2 = 2 , pak K = (n1+n2-2)S2 2 2 (n1+n2-2). (Statistika K slouží ke konstrukci intervalu spolehlivosti pro společný rozptyl 2 , když střední hodnoty 1 - 2 neznáme.) d) Jestliže 2 1 = 2 2 = 2 , pak T = (M1-M2)-(1-2) S 1 n1 + 1 n2 t(n1 + n2 - 2). e) F = S2 1 S2 2 2 1 2 2 F(n1 - 1, n2 - 1). (Statistika F slouží ke konstrukci inter- valu spolehlivosti pro podíl rozptylů 2 1 2 2 , když střední hodnoty 1, 2 neznáme.) 11.8. Příklad Necht' jsou dány dva nezávislé náhodné výběry, první pochází z rozložení N(2; 1,5) a má rozsah 10, druhý pochází z rozložení N(3, 4) a má rozsah 5. Jaká je pravděpodobnost, že výběrový průměr 1. výběru bude menší než výběrový průměr 2. výběru? 121 11. Základní pojmy matematické statistiky Řešení: P(M1 < M2) = P(M1 - M2 < 0) = = P (M1 - M2) - (1 - 2) 2 1 n1 + 2 2 n2 < 0 - (1 - 2) 2 1 n1 + 2 2 n2 = = P U < -2 + 3 1,5 10 + 4 5 = P(U < 1,05) = (1,05) = 0,85314. S pravděpodobností 85,3% je výběrový průměr 1. výběru menší než výběrový průměr 2. výběru. Shrnutí kapitoly Ústředním pojmem matematické statistiky je pojem náhodného výběru, a to jednorozměrného i vícerozměrného. Transformací jednoho nebo více náhodných výběrů vzniká náhodná veličina zvaná (výběrová) statistika. K nejdůležitějším statistikám patří výběrový průměr, výběrový rozptyl, výběrová směrodatná odchylka, výběrová kovariance, výběrový ko- eficient korelace. Jelikož statistika je náhodná veličina, má smysl počítat její střední hod- notu a rozptyl. Ukázali jsme si vlastnosti střední hodnoty a rozptylu výběrového průměru a střední hodnoty výběrového rozptylu, vý- běrové kovariance a výběrového koeficientu korelace. Zabývali jsme se rovněž rozložením výběrových statistik pro náhodné výběry z normálních rozložení, tzv. pivotových statistik. Jak uvidíme v dalších kapitolách, lze pomocí těchto pivotových statistik konstruovat in- tervaly spolehlivosti pro parametry normálních rozložení a testovat hypotézy o těchto rozloženích. Kontrolní otázky a úkoly 1 Kdy lze posloupnost náhodných veličin X1, . . ., Xn považovat za ná- hodný výběr? 2 Uved'te nejdůležitější statistiky odvozené z náhodného výběru, který pochází a) z jednorozměrného rozložení, b) z dvourozměrného rozložení. 3 Jaký je vztah mezi výběrovým rozptylem a rozptylem v popisné statis- tice? 4 Necht' X1, . . . , X10 je náhodný výběr z N(100, 100). Jaké rozložení má výběrový průměr? 5 Předpokládáme. že velký ročník na vysoké škole má výsledky ze statis- tiky normálně rozloženy kolem střední hodnoty 72 bodů se směrodatnou odchylkou 9 bodů. Vypočtěte pravděpodobnost, že a) náhodně vybraný student bude mít výsledek nad 80 bodů b) průměr výsledků náhodně vybraných 10 studentů bude nad 80 bodů. 6 Necht' X1, . . . , X20 je náhodný výběr z N(, 2 ). Najděte čísla k1, k2 tak, aby platilo P(S2 2 < k1) = 0,05 a P(S2 2 > k2) = 0,05. 122 Bodové a intervalové odhady parametrů a parametrických funkcí 12 12. Bodové a intervalové odhady parametrů a parametrických funkcí Cíl kapitoly Po prostudování této kapitoly budete umět: posoudit nestrannost a asymptotickou nestrannost bodových odhadů parametrické funkce a pomocí rozptylu ohodnotit jejich kvalitu sestrojit intervaly spolehlivosti pro parametry jednoho a dvou normál- ních rozložení stanovit rozsah náhodného výběru tak, aby šířka intervalu spolehlivosti nepřesáhla dané číslo Časová zátěž Pro zvládnutí této kapitoly budete potřebovat asi 8 hodin studia. Jak jsme poznali v předešlé kapitole, náhodný výběr je posloupnost stochas- ticky nezávislých náhodných veličin se stejným rozložením. Každé rozložení závisí na nějakém parametru nebo i více parametrech. Např. alternativní rozložení závisí na parametru , exponenciální rozložení na parametru , normální rozložení na parametrech a 2 apod. Tyto parametry neznáme, známe jenom náhodný výběr. Ukážeme si, jak lze na základě znalosti náhod- ného výběru odhadnout neznámý parametr či jeho funkci, tzv. parametrickou funkci. Je-li odhadem statistika, hovoříme o bodovém odhadu parametrické funkce. Existují různé typy bodových odhadů, nás budou zajímat odhady nestranné, asymptoticky nestranné a konzistentní. Je-li odhadem interval, jehož meze jsou statistiky a který s dostatečně velkou pravděpodobností pokrývá neznámou hodnotu parametrické funkce, jedná se o interval spolehlivosti. 12.1. Motivace Vycházíme z náhodného výběru X1, . . . , Xn z rozložení L(), které závisí na parametru . Množinu všech přípustných hodnot tohoto parametru označíme . Parametr neznáme a chceme ho odhadnout pomocí daného náhodného výběru (případně chceme odhadnout nějakou parametrickou funkci h()). Bodovým odhadem parametrické funkce h() budeme rozumět statistiku Tn = T(X1, . . . , Xn), která nabývá hodnot blízkých h(), at' je hodnota pa- rametru jakákoliv. Existují různé metody, jak konstruovat bodové odhady (např. metoda momentů či metoda maximální věrohodnosti, ale těmi se zde zabývat nebudeme) a také různé typy bodových odhadů. Omezíme se na odhady nestranné a asymptoticky nestranné. Intervalovým odhadem parametrické funkce h() rozumíme interval (D, H), jehož meze jsou statistiky D = D(X1, . . . , Xn), H = H(X1, . . ., Xn) a který s dostatečně velkou pravděpodobností pokrývá h(), at' je hodnota parametru jakákoliv. Zaměříme se na intervalové odhady parametrů a parametrických funkcí normálního rozložení. 124 Bodový odhad parametrické funkce by měl mít určité vhodné vlastnosti. Takovou vlastností může být pro jeden odhad nestrannost a pro posloup- nost odhadů asymptotická nestrannost či konzistence. Kvalitu nestranného bodového odhadu lze posoudit pomocí rozptylu tohoto odhadu: čím menší rozptyl, tím kvalitnější odhad. 12.2. Definice Necht' X1, . . . , Xn je náhodný výběr z rozložení L(), h() je parametrická funkce, T, T1, T2, . . . jsou statistiky. a) Řekneme, že statistika T je nestranným odhadem parametrické funkce h(), jestliže : E(T) = h(). (Význam nestrannosti spočívá v tom, že odhad T nesmí parametrickou funkci h() systematicky nadhodnocovat ani podhodnocovat. Není-li tato podmínka splněna, jde o vychýlený odhad.) b) Jsou-li T1, T2 nestranné odhady téže parametrické funkce h(), pak řekneme, že T1 je lepší odhad než T2, jestliže : D(T1) < D(T2). c) Posloupnost se nazývá posloupnost asymptoticky nestranných odhadů parametrické funkce h(), jestliže : lim n E(Tn) = h(). (Význam asymptotické nestrannosti spočívá v tom, že s rostoucím roz- sahem výběru klesá vychýlení odhadu. Je zřejmé, že z nestrannosti okamžitě vyplývá asymptotická nestrannost.) c) Posloupnost se nazývá posloupnost konzistentních odhadů paramet- rické funkce h(), jestliže , > 0 : lim n P(|Tn - h()| > ) = 0. (Význam konzistence spočívá v tom, že s rostoucím rozsahem výběru klesá pravděpodobnost, že se odhad bude realizovat " daleko" od sku- tečné hodnoty parametrické funkce. Lze ukázat, že z asymptotické ne- strannosti vyplývá konzistence, pokud posloupnost rozptylů konverguje k 0.) 12.3. Příklad Nezávisle opakovaná měření určité konstanty jsou charakterizována ná- hodným výběrem X1, . . . , Xn z rozložení se střední hodnotou E(Xi) = a rozptylem D(Xi) = 2 , i = 1, . . ., n. Uvažme statistiky M = 1 n n i=1 Xi a L = X1+Xn 2 . a) Dokažte, že M a L jsou nestranné odhady střední hodnoty . b) Zjistěte, který z těchto dvou odhadů je lepší. Řešení: ad a) E(M) = E 1 n n i=1 Xi = 1 n n i=1 E(Xi) = 1 n n i=1 = 1 n n = E(L) = X1 + Xn 2 = 1 2 E(X1 + Xn) = 1 2 [E(X1) + E(Xn)] = = 1 2 ( + ) = 125 12. Bodové a intervalové odhady parametrů a parametrických funkcí ad b) D(M) = D 1 n n i=1 Xi = 1 n2 n i=1 D(Xi) = 1 n2 n i=1 2 = 1 2 n2 = 2 n D(L) = D X1 + Xn 2 = 1 4 D(X1 + Xn) = 1 4 [D(X1) + D(Xn)] = = 2 + 2 4 = 2 2 Vidíme tedy, že M je lepší odhad než L pro n 3. 12.4. Poznámka Ve větě 11.3, tvrzení (a), bylo uvedeno, že E(S2 ) = 2 , tedy výběrový rozptyl S2 je nestranným odhadem rozptylu 2 . (Odtud je také vidět, že ve vzorci pro výběrový rozptyl musí být konstanta 1 n-1 , nikoli 1 n , aby pla- tilo E(S2 ) = 2 .) Výběrová směrodatná odchylka S však není nestranným odhadem směrodatné odchylky . Pak by totiž platilo E(S) = , ovšem E(S2 ) = 2 , tedy D(S) = E(S2 ) - [E(S)]2 = 2 - 2 = 0, což je možné jen tak, že S by byla konstanta. Nyní budeme definovat interval spolehlivosti pro parametrickou funkci, a to jak oboustranný, tak levostranný či pravostranný. Uvedeme doporučený postup při konstrukci intervalu spolehlivosti a ukážeme si, jaký vliv na šířku intervalu spolehlivosti má riziko a rozsah výběru. 12.5. Definice Necht' X1, . . . , Xn je náhodný výběr z rozložení L(), h() je parametrická funkce, (0, 1), D = D(X1, . . ., Xn), H = H(X1, . . . , Xn) jsou statistiky. a) Interval (D, H) se nazývá 100(1 - )% (oboustranný) interval spoleh- livosti pro parametrickou funkci h(), jestliže: : P(D < h() < H) 1 - . b) Interval (D, ) se nazývá 100(1-)% levostranný interval spolehlivosti pro parametrickou funkci h(), jestliže: : P(D < h()) 1 - . c) Interval (-, H) se nazývá 100(1-)% pravostranný interval spoleh- livosti pro parametrickou funkci h(), jestliže: : P(h() < H) 1 - . d) Číslo se nazývá riziko (zpravidla = 0,05, méně často 0,1 či 0,01), číslo 1 - se nazývá spolehlivost. 126 12.6. Poznámka Doporučený postup při konstrukci intervalu spolehlivosti: a) Vyjdeme ze statistiky V , která je nestranným bodovým odhadem pa- rametrické funkce h(). b) Najdeme tzv. pivotovou statistiku W, která vznikne transformací sta- tistiky V , je monotónní funkcí h() a přitom její rozložení je známé a na h() nezávisí. (Při konstrukci intervalů spolehlivosti pro parametry jednoho a dvou normálních rozložení používáme jako pivotové statis- tiky statistiky M, K, T, F z vět 11.4 a 11.7.) c) Pomocí známého rozložení pivotové statistiky W najdeme kvantily w/2, w1-/2, takže platí: : P(w/2 < W < w1-/2) 1 - . d) Nerovnost w/2 < W < w1-/2 převedeme ekvivalentními úpravami na nerovnost D < h() < H. e) Statistiky D, H nahradíme jejich číselnými realizacemi d, h a získáme tak 100(1 - )% empirický interval spolehlivosti, o němž prohlásíme, že pokrývá h() s pravděpodobností aspoň 1 - . (Tvrzení, že (d, h) pokrývá h() s pravděpodobností aspoň 1 - je třeba chápat takto: jestliže mnohonásobně nezávisle získáme realizace x1, . . . , xn náhodné- ho výběru X1, . . ., Xn z rozložení L() a pomocí každé této realizace sestrojíme 100(1 - )% empirický interval spolehlivosti pro h(), pak podíl počtu těch intervalů, které pokrývají h() k počtu všech sestro- jených intervalů bude přibližně 1 - .) 12.7. Věta Necht' (d, h) je 100(1-)% empirický interval spolehlivosti pro h() zkonstru- ovaný pomocí číselných realizací x1, . . . , xn náhodného výběru X1, . . . , Xn z rozložení L(). a) Při konstantním riziku klesá šířka h - d s rostoucím rozsahem náhod- ného výběru. b) Při konstantním rozsahu náhodného výběru klesá šířka h-d s rostoucím rizikem. Nadále se budeme zabývat konstrukcí intervalů spolehlivosti pro parametry normálních rozložení. Vždy pro jednu konkrétní situaci podrobně odvodíme meze intervalu spolehlivosti a pro ostatní situace jen uvedeme přehled vzorců. Těm z vás, kteří mají hlubší zájem o statistiku, lze doporučit, abyste se po- kusili uvedené vzorce odvodit a s využitím vlastností příslušných pivotových statistik, jak byly uvedeny ve větách 11.4 a 11.7. 12.8. Příklad Necht' X1, . . ., Xn je náhodný výběr z rozložení N(, 2 ), přičemž n 2 a parametry , 2 neznáme. Sestrojte 100(1 - )% interval spolehlivosti pro střední hodnotu a to a) oboustranný, 127 12. Bodové a intervalové odhady parametrů a parametrických funkcí b) levostranný, c) pravostranný. Řešení: h() = , V = M = 1 n n i=1 Xi, W = T = M- S n t(n - 1) (viz věta 11.4, tvrzení (e)), w/2 = t/2(n - 1) = -t1-/2(n - 1), w1-/2 = t1-/2(n - 1) ad a) : 1 - P(-t1-/2(n - 1) < T < t1-/2(n - 1)) = = P -t1-/2(n - 1) < M - S n < t1-/2(n - 1) = = P M - S n t1-/2(n - 1) < < M + S n t1-/2(n - 1) ad b) : 1 - P(T < t1-(n - 1)) = = P M - S n < t1-(n - 1) = P M - S n t1-(n - 1) < ad c) : 1 - P(t(n - 1) < T) = P t(n - 1) < M - S n = = P < M - S n t(n - 1) = P < M + S n t1-(n - 1) Konkrétní aplikace: 10 krát nezávisle na sobě byla změřena jistá kon- stanta . Výsledky měření byly: 2; 1,8; 2,1; 2,4; 1,9; 2,1; 2; 1,8; 2,3; 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X1, . . . , X10 z rozložení N(, 2 ), kde parametry , 2 neznáme. Najděte 95% empirický interval spolehlivosti pro , a to a) oboustranný, b) levostranný, c) pravostranný. Řešení: m = 2,06, s2 = 0,0404, s = 0,2011, = 0,05, t0,975(9) = 2,2622, t0,95(9) = 1,8331. ad a) d = m - s n t1-/2(n - 1) = 2,06 - 0,2011 10 2,2622 = 1,92 h = m + s n t1-/2(n - 1) = 2,06 + 0,2011 10 2,2622 = 2,20 1,92 < < 2,20 s pravděpodobností aspoň 0,95. ad b) d = m - s n t1-(n - 1) = 2,06 - 0,2011 10 1,8331 = 1,94 1,94 < s pravděpodobností aspoň 0,95. ad c) h = m + s n t1-(n - 1) = 2,06 + 0,2011 10 1,8331 = 2,18 < 2,18 s pravděpodobností aspoň 0,95. 128 12.9. Věta Přehled vzorců pro meze 100(1 - )% empirických intervalů spolehlivosti pro parametry jednoho normálního rozložení. Necht' X1, . . . , Xn je náhodný výběr z rozložení N(, 2 ), přičemž n 2. a) Interval spolehlivosti pro , když 2 známe Oboustranný: (d, h) = m - n u1-/2, m + n u1-/2 Levostranný: (d, ) = m - n u1-, Pravostranný: (-, h) = -, m + n u1- b) Interval spolehlivosti pro , když 2 neznáme Oboustranný: (d, h) = m - s n t1-/2(n - 1), m + s n t1-/2(n - 1) Levostranný: (d, ) = m - s n t1-(n - 1), Pravostranný: (-, h) = -, m + s n t1-(n - 1) c) Interval spolehlivosti pro 2 , když neznáme Oboustranný: (d, h) = (n-1)s2 2 1-/2 (n-1) , (n-1)s2 2 /2 (n-1) Levostranný: (d, ) = (n-1)s2 2 1-(n-1) , Pravostranný: (-, h) = -, (n-1)s2 2 (n-1) d) Interval spolehlivosti pro 2 , když známe Oboustranný: (d, h) = n i=1 (xi-)2 2 1-/2 (n) , n i=1 (xi-)2 2 /2 (n) Levostranný: (d, ) = n i=1 (xi-)2 2 1-(n) , Pravostranný: (-, h) = -, n i=1 (xi-)2 2 (n) 12.10. Příklad Necht' X1, . . . , Xn je náhodný výběr z rozložení N(, 0,04). Jaký musí být mi- nimální rozsah výběru, aby šířka 95% intervalu spolehlivosti pro nepřesáhla číslo 0,16? Řešení: Podle 12.9 (a) dostáváme: 0,16 h - d = m + n u1-/2 - m + n u1-/2 = 2 n u1-/2 n 42 u2 1-/2 0,162 = 4 0,04 1,962 0,162 = 24,01 n 25. 129 12. Bodové a intervalové odhady parametrů a parametrických funkcí 12.11. Příklad Jsou dány dva nezávislé náhodné výběry o rozsazích n1 2, n2 2, první pochází z rozložení N(1, 2 ), druhý z rozložení N(2, 2 ), kde parametry 1, 2, 2 neznáme. Sestrojte 100(1 - )% interval spolehlivosti pro rozdíl středních hodnot 1 - 2. Řešení: h() = , V = M1 - M2, W = T = (M1 - M2) - (2 - 2) S 1 n1 + 1 n2 t(n1 + n2 - 2) (viz věta 11.7, tvrzení (d)), w/2 = t/2(n1 + n2 - 2) = -t1-/2(n1 + n2 - 2), w1-/2 = t1-/2(n1 + n2 - 2). : 1 - P(-t1-/2(n1 + n2 - 2) < T < t1-/2(n1 + n2 - 2)) = = P -t1-/2(n1 + n2 - 2) < (M1 - M2) - (1 - 2) S 1 n1 + 1 n2 < t1-/2(n1 + n2 - 2) = = P M1 - M2 - S 1 n1 + 1 n2 t1-/2(n1 + n2 - 2) < 1 - 2 < < M1 - M2 + S 1 n1 + 1 n2 t1-/2(n1 + n2 - 2) Konkrétní aplikace: Ve dvou nádržích se zkoumal obsah chlóru (v g/l). Z první nádrže bylo odebráno 25 vzorků, z druhé nádrže 10 vzorků. Byly vypočteny realizace výběrových průměrů a rozptylů: m1 = 34,48, m2 = 35,59, s2 1 = 1,7482, s2 2 = 1,7121. Hodnoty zjištěné z odebraných vzorků považujeme za realizace dvou nezávislých náhodných výběrů z rozložení N(1, 2 ) a N(2, 2 ). Sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot 1 - 2. Řešení: s2 = (n1-1)s2 1+(n2-1)s2 2 n1+n2-2 = 241,7482+91,7121 33 = 1,7384, t0,975(33) = 2,035 d = m1 - m2 - s 1 n1 + 1 n2 t1-/2(n1 + n2 - 2) = = 34,46 - 35,59 - 1,7384 1 25 + 1 10 2,035 = -2,114 h = m1 - m2 + s 1 n1 + 1 n2 t1-/2(n1 + n2 - 2) = = 34,46 - 35,59 + 1,7384 1 25 + 1 10 2,035 = -0,106 -2,114 g/l < 1 - 2 < -0,106 g/l s pravděpodobností aspoň 0,95. 130 12.12. Příklad Jsou dány dva nezávislé náhodné výběry o rozsazích n1 2, n2 2, první pochází z rozložení N(1, 2 1), druhý z rozložení N(2, 2 2), kde parametry 1, 2, 2 1, 2 2 neznáme. Sestrojte 100(1-)% interval spolehlivosti pro podíl rozptylů 2 1 2 2 . Řešení: h() = 2 1 2 2 , V = S2 1 S2 2 , W = F = S2 1 S2 2 2 1 2 2 F(n1 - 1, n2 - 1) (viz věta 11.7, tvrzení (e)), w/2 = F/2(n1 - 1, n2 - 1), w1-/2 = F1-/2(n1 - 1, n2 - 1). : 1 - P(F/2(n1 - 1, n2 - 1) < F < F1-/2(n1 - 1, n2 - 1)) = = P F/2(n1 - 1, n2 - 1) < S2 1 S2 2 2 1 2 2 < F1-/2(n1 - 1, n2 - 1) = = P S2 1 S2 2 F1-/2(n1 - 1, n2 - 1) < 2 1 2 2 < S2 1 S2 2 F/2(n1 - 1, n2 - 1) Konkrétní aplikace: V předešlém příkladě nyní předpokládáme, že dané dva náhodné výběry pocházejí z rozložení N(1, 2 1) a N(2, 2 2). Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů. Řešení: d = S2 1 S2 2 F1-/2(n1 - 1, n2 - 1) = 1,7482 1,7121 F0,975(24, 9) = 1,7482 1,7121 3,6142 = 0,28 h = S2 1 S2 2 F/2(n1 - 1, n2 - 1) = 1,7482 1,7121 F0,025(24, 9) = 1,7482 1,7121 1 F0,975(9,24) = = 1,7482 1,7121 1 2,7027 = 2,76 0,28 < 2 1 2 2 < 2,76 s pravděpodobností aspoň 0,95. 12.13. Věta Přehled vzorců pro meze 100(1 - )% empirických intervalů spolehlivosti pro parametry dvou normálních rozložení. Necht' X11, . . ., Xn11 je náhodný výběr z rozložení N(1, 2 1) a X12, . . . , Xn22 je na něm nezávislý náhodný výběr rozložení N(2, 2 2), přičemž n1 2 a n2 2. a) Interval spolehlivosti pro 1 - 2, když 2 1, 2 2 známe Oboustranný: (d, h) = m1 - m2 - 2 1 n1 + 2 2 n2 u1-/2, m1 - m2 - 2 1 n1 + 2 2 n2 u1-/2 Levostranný: (d, ) = m1 - m2 - 2 1 n1 + 2 2 n2 u1-, 131 12. Bodové a intervalové odhady parametrů a parametrických funkcí Pravostranný: (-, h) = -, m1 - m2 - 2 1 n1 + 2 2 n2 u1- b) Interval spolehlivosti pro 1 -2, když 2 1, 2 2 neznáme, ale víme, že jsou shodné Oboustranný: m1 - m2 - s 1 n1 + 1 n2 t1-/2(n1 + n2 - 2), m1 - m2 + s 1 n1 + 1 n2 t1-/2(n1 + n2 - 2) Levostranný: (d, ) = m1 - m2 - s 1 n1 + 1 n2 t1-/2(n1 + n2 - 2), Pravostranný: (-, h) = -, m1 - m2 + s 1 n1 + 1 n2 t1-/2(n1 + n2 - 2) c) Interval spolehlivosti pro společný neznámý rozptyl 2 Oboustranný: (d, h) = (n1+n2-2)s2 2 1-/2 (n1+n2-2) , (n1+n2-2)s2 2 /2 (n1+n2-2) Levostranný: (d, ) = (n1+n2-2)s2 2 1-(n1+n2-2) , Pravostranný: (-, h) = -, (n1+n2-2)s2 2 (n1+n2-2) d) Interval spolehlivosti pro podíl rozptylů 2 1 2 2 Oboustranný: (d, h) = s2 1 s2 2 F1-/2(n1-1,n2-1) , s2 1 s2 2 F/2(n1-1,n2-1) Levostranný: (d, ) = s2 1 s2 2 F1-(n1-1,n2-1) , Pravostranný: (-, h) = -, s2 1 s2 2 F(n1-1,n2-1) 12.14. Poznámka Není-li v bodě (b) věty 12.13 splněn předpoklad o shodě rozptylů, lze sestrojit aspoň přibližný 100(1 - )% interval spolehlivosti pro 1 - 2. V tomto případě má statistika T přibližně rozložení t(), kde počet stupňů volnosti = s2 1 n1 + s2 2 n2 2 (s2 1/n1)2 n1-1 + (s2 2/n2)2 n2-1 . Není-li celé číslo, použijeme v tabulkách kvantilů Studentova rozložení lineární interpolaci. Předpoklad o shodě rozptylů lze ověřit tak, že sestrojíme 100(1-)% interval spolehlivosti pro 2 1 2 2 . Pokud tento interval bude obsahovat 1, lze s pravděpo- dobností 1 - považovat rozptyly za shodné. 132 12.15. Věta Necht' X1 Y1 , . . . , Xn Yn je náhodný výběr z rozložení N2 1 2 , 2 1 12 12 2 2 , přičemž n 2. Označíme = 1 - 2 a zavedeme rozdílový náhodný výběr Z1 = X1 - Y1, . . ., Zn = Xn - Yn. Necht' M = 1 n n i=1 Zi, S2 = 1 n - 1 n i=1 (Zi - M)2 . Pak statistika T = M- S n t(n - 1), tudíž meze 100(1 - )% intervalu spo- lehlivosti pro jsou M S n t1-/2(n - 1). 12.16. Příklad Bylo vybráno šest nových automobilů téže značky a po určité době bylo zjištěno, o kolik mm se sjely jejich pravé a levé přední pneumatiky. číslo automobilu 1 2 3 4 5 6 pravá pneumatika se sjela o: 1,8 1,0 2,2 0,9 1,5 1,6 levá pneumatika se sjela o: 1,5 1,1 2,0 1,1 1,4 1,4 Za předpokladu, že naměřené dvojice hodnot představují číselné realizace náhodného výběru rozsahu 6 z dvourozměrného normálního rozložení N2 1 2 , 2 1 12 12 2 2 , sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot 1 - 2. Řešení: z1 = 0,3, z2 = -0,1, z3 = 0,2, z4 = -0,2, z5 = 0,1, z6 = 0,2, m = 0,0833, s = 0,1941, = 0,05. d = m - s n t1-/2(n - 1) = 0,0833 - 0,1941 6 t0,975(5) = = 0,0833 - 0,1941 6 2,5706 = -0,12 h = m + s n t1-/2(n - 1) = 0,0833 + 0,1941 6 t0,975(5) = = 0,0833 + 0,1941 6 2,5706 = 0,29. -0,12 mm < 1 - 2 < 0,29 mm s pravděpodobností aspoň 0,95. 133 12. Bodové a intervalové odhady parametrů a parametrických funkcí Shrnutí kapitoly Na základě znalosti náhodného výběru aproximujeme neznámou hodnotu parametru či parametrické funkce bodovým odhadem parametrické funkce. Zpravidla požadujeme, aby tento odhad měl jisté žádoucí vlastnosti. K těm patří nestrannost, resp. asymptotická nestrannost či konzistence, pokud pra- cujeme s posloupností bodových odhadů téže parametrické funkce. Bodové odhady však mají jednu značnou nevýhodu ­ nevíme, s jakou pravdě- podobností odhadují hodnotu neznámé parametrické funkce. Tuto nevýhodu odtraňují intervalové odhady parametrické funkce: jsou to intervaly, jejichž meze jsou statistiky a které s předem danou dostatečně velkou pravděpodob- ností pokrývají hodnotu neznámé parametrické funkce. Pokud do vzorců pro meze 100(1 - )% intervalu spolehlivosti pro danou parametrickou funkci dosadíme číselné realizace náhodného výběru, dostaneme 100(1 - )% empi- rický interval spolehlivosti. V praxi se nejčastěji používají intervaly spolehlivosti pro parametry normál- ních rozložení. Proto jsme si uvedly předhled vzorců pro meze 100(1 - )% empirických intervalů spolehlivosti pro parametry jednoho a dvou normálních rozložení. Kontrolní otázky a úkoly 1 Definujte nestranný odhad a asymptoticky nestranný odhad paramet- rické funkce. V čem spočívá význam nestrannosti a asymptotické ne- strannosti? 2 (S) Přírůstky cen akcií na burze v New Yorku u 10 náhodně vybraných společností dosáhly těchto hodnot: 10, 16, 5, 10, 12, 8, 4, 6, 5, 4. Najděte nestranné bodové odhady střední hodnoty a rozptylu přírůstků cen akcií. 3 Necht' X1, . . . , Xn je náhodný výběr z rozložení Rs(0, b), kde b > 0 je neznámý parametr. Jsou definovány statistiky T1 = X1 + 1 2 X2 + 1 3 X3 + 1 6 X4 a T2 = 1 2 (X1 + X2 + X3 + X4). Ukažte, že T1, T2 jsou nestranné odhady parametru b a určete, který odhad je lepší. 4 Definujte 100(1 - )% interval spolehlivosti pro parametrickou funkci, a to jak oboustranný, tak jednostranné intervaly spolehlivosti. 5 Jaký vliv na šířku intervalu spolehlivosti má zvýšení rizika při kon- stantním rozsahu výběru? 6 Jaký vliv na šířku intervalu spolehlivosti má zvětšení rozsahu výběru při konstantním riziku? 7 Hloubka moře se měří přístrojem, jehož systematická chyba je nulová a náhodné chyby měření mají normální rozložení se směrodatnou od- chylkou = 1 m. Kolik měření je nutno provést, aby se hloubka moře stanovila s chybou nejvýše 0,25 m při riziku 0,05? 8 U jistého měřicího zařízení má být posouzena jeho přesnost. Proto na něm byla nezávisle změřena délka téhož výrobku. Výsledky měření v cm 134 byly: 15,15; 15,20; 15,04; 15,14; 15,22. Předpokládáme, že tyto výsledky jsou číselné realizace náhodného výběru rozsahu 5 z rozložení N(, 2 ). Sestrojte 95% empirický interval spolehlivosti pro rozptyl 2 . 9 Sponzor televizních pořadů pro děti chce vědět, kolik času stráví děti sledováním televize, protože na těchto informacích závisí typy a počty programů. Náhodným výběrem 100 dětí se zjistilo, že sledování tele- vize věnují týdně průměrně 27,5 h se směrodatnou odchylkou 8 h. Za předpokladu, že počet hodin strávený za týden sledováním televize se řídí normálním rozložením, sestrojte 95% empirický interval spolehli- vosti pro střední hodnotu počtu hodin strávených týdně sledováním televize. 10 (S) Na jisté velké americké univerzitě bylo v r. 1969 náhodně vybráno 5 profesorů a nezávisle na tom 5 profesorek a byl zjištěn jejich roční příjem (v tisících dolarů). Muži: 16, 19, 12, 11, 22, ženy: 9, 12, 8, 10, 16. Předpokládáme, že uvedené údaje tvoří realizace dvou nezávislých náhodných výběrů z rozložení N(1, 2 1) a N(2, 2 2). a) Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů příjmů mužů a žen. b) Pokud bude uvedený interval spolehlivosti obsahovat 1, sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot příjmů mužů a žen. V opačném případě sestrojte aspoň přibližný interval spolehlivosti. 11 (S) Pět mužů se rozhodlo, že budou hubnout. Zjistili svou hmotnost před zahájením diety a po ukončení diety. Číslo osoby 1 2 3 4 5 Hmotnost před dietou 84 77,5 91,5 84,5 97,5 Hmotnost po dietě 78,5 73,5 88,5 80 97 Za předpokladu, že uvedené údaje jsou číselné realizace náhodného výběru rozsahu 5 z dvourozměrného normálního rozložení N2 1 2 , 2 1 12 12 2 2 sestrojte 95% empirický interval spolehlivosti pro středních hodnotu úbytku hmotnosti. 135 12. Bodové a intervalové odhady parametrů a parametrických funkcí 136 Úvod do testování hypotéz a testy o parametrech normálního rozložení 13 13. Úvod do testování hypotéz a testy o parametrech normálního rozložení Cíl kapitola Po prostudování této kapitoly budete umět: formulovat nulovou a alternativní hypotézu stanovit testové kritérium a kritický obor pro test nulové hypotézy proti oboustranné alternativě i proti jednostranným alternativám posoudit sílu testu pomocí grafu silofunkce provádět testy hypotéz o parametrech normálního rozložení třemi růz- nými způsoby Časová zátěž Pro zvládnutí této kapitoly budete potřebovat asi 8 hodin studia. V této kapitole se budeme zabývat problémem, jak pomocí statistiky vzniklé transformací daného náhodného výběru rozhodnout, zda naše domněnka o parametru rozložení, z něhož náhodný výběr pochází, je správná. Například známe průměrnou hmotnost automaticky balených potravinářských výrobků určitého druhu zjištěnou před a po seřízení balícího automatu. S pravdě- podobností 95% máme prokázat, že střední hodnota hmotnosti balíčků se seřízením automatu změnila. Statistické postupy, které řeší podobné problé- my, se nazývají testy hypotéz. Nejprve objasníme pojmy nulová hypotéza a alternativní hypotéza a vysvět- líme, kdy dojde k chybě 1. druhu či 2. druhu. 13.1. Motivace Testování hypotéz patří k nejdůležitějším metodám matematické statistiky. Na základě znalosti náhodného výběru umožní s předem danou pravděpo- dobností ověřovat domněnky o parametrech rozložení, z něhož daný náhodný výběr pochází. 13.2. Definice Necht' X1, . . . , Xn je náhodný výběr z rozložení L(), kde parametr neznáme. Necht' h() je parametrická funkce a c daná reálná konstanta. Tvr- zení H0 : h() = c se nazývá nulová hypotéza, tvrzení H1 : h() = c se nazývá oboustranná alternativní hypotéza, tvrzení H1 : h() < c se nazývá levostranná alternativní hypotéza, tvrzení H1 : h() > c se nazývá pra- vostranná alternativní hypotéza. Testováním H0 proti H1 rozumíme rozho- dovací postup založený na náhodném výběru X1, . . . , Xn, s jehož pomocí zamítneme či nezamítneme platnost nulové hypotézy. 13.3. Poznámka Volba alternativní hypotézy není libovolná, ale vyplývá z konkrétní situace. Např. při současné technologii je pravděpodobnost vyrobení zmetku = 0,01. a) Po rekonstrukci výrobní linky byla obnovena výroba, přičemž techno- logie zůstala stejná. Chceme ověřit, zda se změnila kvalita výrobků. Testujeme H0 : = 0,01 proti H1 : = 0,01. 138 b) Byly provedeny změny v technologii výroby s cílem zvýšit kvalitu. V tomto případě tedy testujeme H0 : = 0,01 proti H1 : < 0,01. c) Byly provedeny změny v technologii výroby s cílem snížit náklady. V této situaci testujeme H0 : = 0,01 proti H1 : > 0,01. 13.4. Definice Při testování H0 proti H1 se můžeme dopustit jedné ze dvou chyb: chyba 1. druhu spočívá v tom, že H0 zamítneme, ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí. Situaci přehledně znázorňuje tabulka: rozhodnutí skutečnost H0 nezamítáme H0 zamítáme H0 platí správné rozhodnutí chyba 1. druhu H0 neplatí chyba 2. druhu správné rozhodnutí Pravděpodobnost chyby 1. druhu se značí a nazývá se hladina významnosti (většinou bývá = 0,05, méně často 0,1 či 0,01). Pravděpodobnost chyby 2. druhu se značí . Číslo 1 - se nazývá síla testu a vyjadřuje pravděpo- dobnost, s jakou test vypoví, že H0 neplatí. Při daném rozsahu výběru vede snižování ke růstu a obráceně. Nyní si ukážeme tři způsoby, jimiž lze provést test nulové hypotézy proti alternativní hypotéze. Klasický způsob spočívá v nalezení kritického oboru. Testování pomocí intervalu spolehlivosti navazuje na poznatky získané ve 12. kapitole. Moderní způsob založenýý na p-hodnotě je vhodný především tehdy, máme-li k dispozici statistický software. Všechny tři způsoby použijeme při řešení konkrétnho příkladu. 13.5. Poznámka Testování H0 proti H1 na hladině významnosti je možno provádět třemi různými způsoby: a) pomocí kritického oboru b) pomocí intervalu spolehlivosti c) pomocí p-hodnoty. ad a) Najdeme statistiku T0 = T0(X1, . . . , Xn), kterou nazveme testovým kritériem. Množina hodnot, jichž může testové kritérium nabýt, se rozpadá na dva neslučitelné obory: obor nezamítnutí nulové hypotézy (značí se V ) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). Tyto dva obory jsou odděleny krytickými hodnotami (pro danou hladinu významnosti je lze najít ve statistických tabulkách). Jestliže číselná realizace t0 testového krytéria T0 padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti a znamená to skutečné vyvrácení testované hypotézy. Jestliže t0 padne do oboru ne- zamítnutí V , pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští. 139 13. Úvod do testování hypotéz a testy o parametrech normálního rozložení Pravděpodobnosti chyb 1. a 2. druhu nyní zapíšeme takto: P(t0 W|H0 platí) = , P(t0 V |H1 platí) = . Stanovení kritického oboru pro danou hladinu významnosti : Označme tmin (resp. tmax) nejmenší (resp. největší) hodnotu testového krité- ria. Kritický obor v případě oboustranné alternativy má tvar W = (tmin, K/2(T) K1-/2(T), tmax), kde K/2(T) a K1-/2(T) jsou kvantily rozložení, jímž se řídí testové kritéri- um T0, je-li testová hypotéza pravdivá. Kritický obor v případě levostranné alternativy má tvar: W = (tmin, K/2(T) , v případě pravdostranné alternativy má kritický obor tvar W = K1-/2(T), tmax). ad b) Sestrojíme 100(1 - )% empirický interval spolehlivosti pro parame- trickou funkci h(). Pokryje-li tento interval hodnotu c, pak H0 nezamítáme na hladině významnosti , v opačném případě H0 zamítáme na hladině významnosti . Pro test H0 proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti. Pro test H0 proti levostranné alternativě sestrojíme pravo- stranný interval spolehlivosti. Pro test H0 proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti. ad c) p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy. Je-li p-hodnota , pak H0 zamítáme na hladině význam- nosti , je-li p-hodnota > , pak H0 nezamítáme na hladině významnosti . Způsob výpočtu p-hodnoty: Pro oboustrannou alternativu: p = 2 min{P(T0 t0), P(T0 t0)}. Pro levostrannou alternativu: p = P(T0 t0), pro pravostrannou alternativu: p = P(T0 t0). p-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace x1, . . . , xn náhodného výběru X1, . . . , Xn podporují H0, je-li pravdivá. Statistické pro- gramové systémy poskytují ve svých výstupech p-hodnotu. Její výpočet vy- žaduje znalost distribuční funkce rozložení, kterým se řídí testové kritérium T0, je-li H0 pravdivá. Vzhledem k tomu, že v běžných statistických tabulkách jsou uvedeny pouze hodnoty distribuční funkce standardizovaného normálního rozložení, bez po- užití speciálního software jsme schopni vypočítat p-hodnotu pouze pro test hypotézy o střední hodnotě normálního rozložení při známém rozptylu. 140 Ilustrace významu p-hodnoty pro test nulové hypotéza proti oboustranné, levostranné a pravostranné alternativě: 0 -t0 t0 p-hodnota 0 t0 p-hodnota 0 t0 p-hodnota (Zvonovitá křivka reprezentuje hustotu rozložení, kterým se řídí testové kri- térium, je-li nulová hypotéza pravdivá.) 13.6. Poznámka Provádíme-li test nulové hypotézy proti alternativní hypotéze pomocí kri- tického oboru, doporučuje se dodržet následující postup: 1. Stanovíme nulovou hypotézu a alternativní hypotézu. Přitom je vhodné zvolit jako alternativní hypotézu ten předpoklad, jehož přijetí znamená závažné opatření a mělo by k němu dojít jen s malým rizikem omylu. 2. Zvolíme hladinu významnosti . Zpravidla volíme = 0,05, méně často 0,1 nebo 0,01. 3. Najdeme vhodné testové kritérium a na základě zjištěných dat vypočí- táme jeho realizaci. 4. Stanovíme kritický obor. 5. Jestliže realizace testového kritéria padla do kritického oboru, nulovou hypotézu zamítáme na hladině významnosti . V opačném případě nulovou hypotézu nezamítáme na hladině významnosti . 13.7. Příklad 10× nezávisle na sobě byla změřena jistá konstanta . Výsledky měření byly: 2; 1,8; 2,1; 2,4; 1,9; 2,1; 2; 1,8; 2,3; 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X1, . . . , X10 z rozložení N(, 0,04). Nějaká teorie tvrdí, že = 1,95. Proti nulové hypotéze H0 : = 1,95 postavíme obou- strannou alternativu H1 : = 1,95. Na hladině významnosti 0,05 testujte H0 proti H1. Řešení: m = 1 10 (2 + + 2,2) = 2,06, 2 = 0,04, n = 10, = 0,05, c = 1,95 a) Test provedeme pomocí kritického oboru. Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu pou- žíváme pivotovou statistiku U = M- n N(0, 1) (viz věta 11.4 (a)). Testové kritérium tedy bude T0 = M-c n a bude mít rozložení N(0, 1), pokud je H0 pravdivá. Vypočítáme realizaci testového kritéria: t0 = 2,06-1,95 0,2 10 = 1,74. Sta- novíme kritický obor: W = (tmin, K/2(T) K1-/2(T), tmax) = (-, u/2 u1-/2, ) = = (-, -u1-/2 u1-/2, ) = (-, -u0,975 u0,975, ) = = (-, -1,96 1,96, ) 141 13. Úvod do testování hypotéz a testy o parametrech normálního rozložení Protože 1,74 / W, H0 nezamítáme na hladině významnosti 0,05. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(1 - )% intervalu spolehlivosti pro střední hodnotu při známém rozptylu 2 jsou (viz věta 12.9 (a)): (d, h) = m - n u1-/2, m + n u1-/2 . V našem případě d = 2,06 - 0,2 10 u0,975 = 2,06 - 0,2 10 1,96 = 1,936, h = 2,184. Protože 1,95 (1,936; 2,184), H0 nezamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty. Protože proti nulové hypotéze stavíme oboustrannou alternativu, použijeme vzorec p = 2 min{P(T0 t0), P(T0 t0)} = 2 min{P(T0 1,74), P(T0 1,74)} = = 2 min{(1,74), 1 - (1,74)} = 2 min{0,95907, 1 - 0,95907} = 0,08186 Jelikož 0,08186 > 0,05, H0 nezamítáme na hladině významnosti 0,05. Nadále se budeme zabývat tastováním hypotéz o parametrech normálního rozložení. Ukážeme si různé typy testů a naučíme se je provádět pomocí kritického oboru. 13.8. Definice a) Necht' X1, . . . , Xn je náhodný výběr N(, 2 ), kde 2 známe. Necht' n 2 a c je konstanta. Test H0 : = c proti H1 : = c se nazývá z-test. b) Necht' X1, . . . , Xn je náhodný výběr N(, 2 ), kde 2 neznáme. Necht' n 2 a c je konstanta. Test H0 : = c proti H1 : = c se nazývá jednovýběrový t-test. c) Necht' X11, . . . , Xn11 je náhodný výběr z rozložení N(1, 2 ) a X12, . . . , Xn22 je na něm nezávislý náhodný výběr rozložení N(2, 2 ), přičemž n1 2 a n2 2 a 2 neznáme. Necht' c je konstanta. Test H0 : 1-2 = c proti H1 : 1 - 2 = c se nazývá dvouvýběrový t-test. d) Necht' X1 Y1 , . . . , Xn Yn je náhodný výběr z rozložení N2 1 2 , 2 1 12 12 2 2 , přičemž n 2 a žádný parametr neznáme. Necht' c je konstanta. Test H0 : 1 - 2 = c proti H1 : 1 - 2 = c se nazývá párový t-test. e) Necht' X11, . . . , Xn11 je náhodný výběr z rozložení N(1, 2 1) a X12, . . . , Xn22 je na něm nezávislý náhodný výběr rozložení N(2, 2 2), přičemž n1 2 a n2 2. Test H0 : 2 1 2 2 = 1 proti H1 : 2 1 2 2 = 1 se nazývá F-test. f) Necht' X1, . . . , Xn je náhodný výběr N(, 2 ), kde neznáme. Necht' n 2 a c je konstanta. Test H0 : 2 = c proti H1 : 2 = c se nazývá test o rozptylu. 142 13.9. Věta Návody na provedení výše popsaných šesti typů testů pomocí kritického oboru. a) Provedení z-testu Hypotézu H0 : = c proti H1 : = c (resp. H1 : < c resp. H1 : > c) zamítáme na hladině významnosti , jestliže m-c n u1-/2 (resp. m-c n u1- resp. m-c n u1-). b) Provedení jednovýběrového t-testu Hypotézu H0 : = c proti H1 : = c (resp. H1 : < c resp. H1 : > c) zamítáme na hladině významnosti , jestliže m-c s n t1-/2(n - 1) (resp. m-c s n t1-(n - 1) resp. m-c s n t1-(n - 1)). c) Provedení dvouvýběrového t-testu Hypotézu H0 : 1 -2 = c proti H1 : 1 -2 = c (resp. H1 : 1 -2 < c resp. H1 : 1 - 2 > c) zamítáme na hladině významnosti , jestliže m1 - m2 - c s 1 n1 + 1 n2 t1-/2(n1 + n2 - 2) (resp. m1-m2-c s 1 n1 + 1 n2 t1-(n1 +n2 -2) resp. m1-m2-c s 1 n1 + 1 n2 t1-(n1 +n2 -2)). d) Provedení párového t-testu Od náhodného výběru X1 Y1 , . . . , Xn Yn z dvourozměrného normální- ho rozložení přejdeme k rozdílovému náhodnému výběru Z1 = X1 - Y1, . . . , Zn = Xn - Yn. Označíme = 1 - 2. Pak jde o test hypotézy H0 : = c proti H1 : = c a úloha je převedna na jednováběrový t-test. e) Provedení F-testu Hypotézu H0 : 2 1 2 2 = 1 proti H1 : 2 1 2 2 = 1 (resp. H1 : 2 1 2 2 < 1 resp. H1 : 2 1 2 2 > 1) zamítáme na hladině významnosti , jestliže s2 1 s2 2 F/2(n1 + n2 - 2) nebo s2 1 s2 2 F1-/2(n1 + n2 - 2) (resp. s2 1 s2 2 F(n1 + n2 - 2) resp. s2 1 s2 2 F1-(n1 + n2 - 2)). f) Provedení testu o rozptylu Hypotézu H0 : 2 = c proti H1 : 2 = c (resp. H1 : 2 < c resp. H1 : 2 > c) zamítáme na hladině významnosti , jestliže (n - 1)s2 c 2 /2(n - 1) nebo (n - 1)s2 c 2 1-/2(n - 1) (resp. (n-1)s2 c 2 (n - 1) resp. (n-1)s2 c 2 1-(n - 1)). 143 13. Úvod do testování hypotéz a testy o parametrech normálního rozložení 13.10. Příklad Je-li u automatického obráběcího stroje rozptyl délky obráběných součístek větší než 380 m2 , je třeba stroj znova nastavit. Náhodně jsme vybrali 15 součástek a změřili jejich délku. Výběrový rozptyl zjištěných 15-ti délek činil 680 m2 . Za předpokladu, že délky se řídí normálním rozložením testujte na hladině významnosti 0,05 hypotézu, že stroj je třeba znova nastavit. Řešení: X1, . . . , X15 je náhodný výběr z rozložení N(, 2 ), přičemž s2 = 680 m2 . Testujeme H0 : 2 = 380 m2 proti pravostranné alternativě, která má tvar H1 : 2 > 380 m2 , na hladině významnosti 0,05. Podle bodu (f) věty 13.9 dostáváme: realizace testového kritéria (n - 1)s2 c = 14 680 380 = 25,05. Přitom 2 1-(n - 1) = 2 0,95(14) = 23,685. Protože 25,05 23,685, H0 zamítáme na hladině významnosti 0,05. Zjištěná data nás tedy opravňují k tomu, abycho stroj znovu seřídili (s rizikem 5%, že budeme provádět zbytečnou práci). Shrnutí kapitoly Tvrzení o parametrech rozložení, z něhož pochází daný náhodný výběr, na- zýváme nulovou hypotézou. Proti nulové hypotéze stavíme alternativní hypotézu, která říká, co platí, když neplatí nulová hypotéza. Při testování nulové hypotézy proti alternativní hypotéze se můžeme dopustit bud' chyby 1. druhu (nulovou hypotézu zamítneme, ač ve skutečnosti platí) nebo chyby 2. druhu (nulovou hypotézu nezamítneme, ač ve skutečnosti neplatí). Prav- děpodobnost chyby 1. druhu se značí a nazývá se hladina významnosti testu. Klasický přístup k testování hypotéz spočívá v nalezení vhodného testového kritéria. Množina hodnot, jichž může testové kritérium nabýt, se rozpadá na obor nezamítnutí nulové hypotézy a na kritický obor. Tyto dva neslučitelné obory jsou odděleny kritickými hodnotami. Pokud se testové kritérium realizuje v kritickém oboru, nulovou hypotézu zamítáme na hla- dině významnosti a přijímáme alternativní hypotézu. V opačném případě nulovou hypotézu nezamítáme na hladině významnosti . Tím jsme ovšem neprokázali její pravdivost, můžeme pouze říci, že naše data nejsou natolik průkazná, abychom mohli nulovou hypotézu zamítnout. Test nulové hypotézy proti alternativní hypotéze lze též provést pomocí in- tervalu spolehlivosti a s využitím metod popsaných ve 12. kapitole. Máme-li k dispozici statistický software, můžeme vypočítat p-hodnotu jako nejmenší možnou hladinu významnosti pro zamítnutí nulové hypotézy. V praxi se nejčastěji setkáváme s testy hypotéz o parametrech nor- málního rozložení. K těmto testům patří například z-test, jednovýběrový, párový či dvouvýběrový t-test apod. 144 Kontrolní otázky a úkoly 1 Vysvětlete pojem " nulová hypotéza" a " alternativní hypotéza". 2 V čem spočívá testování nulové hypotézy proti alternativní hypotéze? 3 Kdy se dopustíme chyby 1. druhu (2. druhu)? 4 Co rozumíme testovým kritériem a kritickým oborem? 5 Popište tři způsoby testování hypotéz. 6 Jaké znáte testy o parametrech normálního rozložení? 7 Podle údajů na obalu čokolády by její čistá hmotnost měla být 125 g. Výrobce dostal několik stížností od kupujících, ve kterých tvrdili, že hmotnost čokolád je nižší než deklarovaných 125 g. Z tohoto důvodu oddělení kontroly náhodně vybralo 50 čokolád a zjistilo, že jejich prů- měrná hmotnost je 122 g a směrodatná odchylka 8,6 g. Za předpokladu, že hmotnost čokolád se řídí normálním rozložením, můžeme na hladině významnosti 0,01 považovat stížnosti kupujících za oprávněné? 8 (S) V restauraci " U bílého koníčka" měřili ve 20 případech čas obsluhy zákazníka. Výsledky v minutách: 6, 8, 11, 4, 7, 6, 10, 6, 9, 8, 5, 12, 13, 10, 9, 8, 7, 11, 10, 5. V restauraci " Zlatý lev" bylo dané pozorování uskutečněno v 15 případech s těmito výsledky: 9, 11, 10, 7, 6, 4, 8, 13, 5, 15, 8, 5, 6, 8, 7. Na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty doby obsluhy jsou v obou restauracích stejné. 9 (S) Na 10 automobilech stejného typu se testovaly dva druhy benzínu lišící se oktanovým číslem. U každého automobilu se při průměrné rych- losti 90 km/h měřil dojezd (tj. dráha, kterou ujede na dané množství benzínu) při použití každého z obou druhů benzínu. Výsledky: č.auta 1 2 3 4 5 6 7 8 9 10 benzín A 17,5 20,0 18,9 17,9 16,4 18,9 17,2 17,5 18,5 18,2 benzín B 17,8 20,8 19,5 18,3 16,6 19,5 17,5 17,9 19,1 18,6 Za předpokladu, že dojezd se řídí normálním rozložením, testujte na hladině významnosti 0,05 hypotézu, že rozdíl středních hodnot dojezdu při dvou druzích benzínu se neliší. 10 Pevnost vlákna bavlněné příze lze pokládat za náhodnou veličinu s roz- ložením N(, 2 ). Je-li 2 > 0,36 kg2 , vznikají potíže při tkaní. Při zkoušce 11 náhodně vybraných vláken byly zjištěny hodnoty jejich pev- nosti a vypočten empirický rozptyl s2 = 0,92 kg2 . Na hladině význam- nosti 0,05 je třeba zjistit, zda je příze vyhovující. 11 Normálně rozložená náhodné veličiny představují výsledek měření téže konstanty dvěma různými metodami a jejich neznámé směrodatné od- chylky 1, 2 charakterizují nespolehlivost těchto metod způsobenou náhodnými chybami. Při realizaci dvou nezávislých náhodných výběrů rozsahu n1 = 25, n2 = 31 jsme získali empirické směrodatné od- chylky s1 = 0,523, s2 = 0,363. Je možno na hladině významnosti 0,05 považovat obě metody za stejně spolehlivé? 145 13. Úvod do testování hypotéz a testy o parametrech normálního rozložení 146 Příloha A ­ Statistické tabulky Příloha A ­ Statistické tabulky Distribuční funkce standardizovaného normálního rozložení u (u) u (u) u (u) u (u) 0,00 0,50000 0,50 0,69146 1,00 0,84134 1,50 0,93319 0,01 0,50399 0,51 0,69497 1,01 0,84375 1,51 0,93448 0,02 0,50798 0,52 0,69847 1,02 0,84614 1,52 0,93574 0,03 0,51197 0,53 0,70194 1,03 0,84850 1,53 0,93699 0,04 0,51595 0,54 0,70540 1,04 0,85083 1,54 0,93822 0,05 0,51994 0,55 0,70884 1,05 0,85314 1,55 0,93943 0,06 0,52392 0,56 0,71226 1,06 0,85543 1,56 0,94062 0,07 0,52790 0,57 0,71566 1,07 0,85769 1,57 0,94179 0,08 0,53188 0,58 0,71904 1,08 0,85993 1,58 0,94295 0,09 0,53586 0,59 0,72240 1,09 0,86214 1,59 0,94408 0,10 0,53983 0,60 0,72575 1,10 0,86433 1,60 0,94520 0,11 0,54380 0,61 0,72907 1,11 0,86650 1,61 0,94630 0,12 0,54776 0,62 0,73237 1,12 0,86864 1,62 0,94738 0,13 0,55172 0,63 0,73565 1,13 0,87076 1,63 0,94845 0,14 0,55567 0,64 0,73891 1,14 0,87286 1,64 0,94950 0,15 0,55962 0,65 0,74215 1,15 0,87493 1,65 0,95053 0,16 0,56356 0,66 0,74537 1,16 0,87698 1,66 0,95154 0,17 0,56749 0,67 0,74857 1,17 0,87900 1,67 0,95254 0,18 0,57142 0,68 0,75175 1,18 0,88100 1,68 0,95352 0,19 0,57535 0,69 0,75490 1,19 0,88298 1,69 0,95449 0,20 0,57926 0,70 0,75804 1,20 0,88493 1,70 0,95543 0,21 0,58317 0,71 0,76115 1,21 0,88686 1,71 0,95637 0,22 0,58706 0,72 0,76424 1,22 0,88877 1,72 0,95728 0,23 0,59095 0,73 0,76730 1,23 0,89065 1,73 0,95818 0,24 0,59483 0,74 0,77035 1,24 0,89251 1,74 0,95907 0,25 0,59871 0,75 0,77337 1,25 0,89435 1,75 0,95994 0,26 0,60257 0,76 0,77637 1,26 0,89617 1,76 0,96080 0,27 0,60642 0,77 0,77935 1,27 0,89796 1,77 0,96164 0,28 0,61026 0,78 0,78230 1,28 0,89973 1,78 0,96246 0,29 0,61409 0,79 0,78524 1,29 0,90147 1,79 0,96327 0,30 0,61791 0,80 0,78814 1,30 0,90320 1,80 0,96407 0,31 0,62172 0,81 0,79103 1,31 0,90490 1,81 0,96485 0,32 0,62552 0,82 0,79389 1,32 0,90658 1,82 0,96562 0,33 0,62930 0,83 0,79673 1,33 0,90824 1,83 0,96638 0,34 0,63307 0,84 0,79955 1,34 0,90988 1,84 0,96712 0,35 0,63683 0,85 0,80234 1,35 0,91149 1,85 0,96784 0,36 0,64058 0,86 0,80511 1,36 0,91309 1,86 0,96856 0,37 0,64431 0,87 0,80785 1,37 0,91466 1,87 0,96926 0,38 0,64803 0,88 0,81057 1,38 0,91621 1,88 0,96995 0,39 0,65173 0,89 0,81327 1,39 0,91774 1,89 0,97062 0,40 0,65542 0,90 0,81594 1,40 0,91924 1,90 0,97128 0,41 0,65910 0,91 0,81859 1,41 0,92073 1,91 0,97193 0,42 0,66276 0,92 0,82121 1,42 0,92220 1,92 0,97257 0,43 0,66640 0,93 0,82381 1,43 0,92364 1,93 0,97320 0,44 0,67003 0,94 0,82639 1,44 0,92507 1,94 0,97381 0,45 0,67364 0,95 0,82894 1,45 0,92647 1,95 0,97441 0,46 0,67724 0,96 0,83147 1,46 0,92785 1,96 0,97500 0,47 0,68082 0,97 0,83398 1,47 0,92922 1,97 0,97558 0,48 0,68439 0,98 0,83646 1,48 0,93056 1,98 0,97615 0,49 0,68793 0,99 0,83891 1,49 0,93189 1,99 0,97670 (-u) = 1 - (u) 148 Distribuční funkce standardizovaného normálního rozložení u (u) u (u) u (u) u (u) 2,00 0,97725 2,50 0,99379 3,00 0,99865 3,50 0,99977 2,01 0,97778 2,51 0,99396 3,01 0,99869 3,51 0,99978 2,02 0,97831 2,52 0,99413 3,02 0,99874 3,52 0,99978 2,03 0,97882 2,53 0,99430 3,03 0,99878 3,53 0,99979 2,04 0,97932 2,54 0,99446 3,04 0,99882 3,54 0,99980 2,05 0,97982 2,55 0,99461 3,05 0,99886 3,55 0,99981 2,06 0,98030 2,56 0,99477 3,06 0,99889 3,56 0,99981 2,07 0,98077 2,57 0,99492 3,07 0,99893 3,57 0,99982 2,08 0,98124 2,58 0,99506 3,08 0,99897 3,58 0,99983 2,09 0,98169 2,59 0,99520 3,09 0,99900 3,59 0,99983 2,10 0,98214 2,60 0,99534 3,10 0,99903 3,60 0,99984 2,11 0,98257 2,61 0,99547 3,11 0,99906 3,61 0,99985 2,12 0,98300 2,62 0,99560 3,12 0,99910 3,62 0,99985 2,13 0,98341 2,63 0,99573 3,13 0,99913 3,63 0,99986 2,14 0,98382 2,64 0,99585 3,14 0,99916 3,64 0,99986 2,15 0,98422 2,65 0,99598 3,15 0,99918 3,65 0,99987 2,16 0,98461 2,66 0,99609 3,16 0,99921 3,66 0,99987 2,17 0,98500 2,67 0,99621 3,17 0,99924 3,67 0,99988 2,18 0,98537 2,68 0,99632 3,18 0,99926 3,68 0,99988 2,19 0,98574 2,69 0,99643 3,19 0,99929 3,69 0,99989 2,20 0,98610 2,70 0,99653 3,20 0,99931 3,70 0,99989 2,21 0,98645 2,71 0,99664 3,21 0,99934 3,71 0,99990 2,22 0,98679 2,72 0,99674 3,22 0,99936 3,72 0,99990 2,23 0,98713 2,73 0,99683 3,23 0,99938 3,73 0,99990 2,24 0,98745 2,74 0,99693 3,24 0,99940 3,74 0,99991 2,25 0,98778 2,75 0,99702 3,25 0,99942 3,75 0,99991 2,26 0,98809 2,76 0,99711 3,26 0,99944 3,76 0,99992 2,27 0,98840 2,77 0,99720 3,27 0,99946 3,77 0,99992 2,28 0,98870 2,78 0,99728 3,28 0,99948 3,78 0,99992 2,29 0,98899 2,79 0,99736 3,29 0,99950 3,79 0,99992 2,30 0,98928 2,80 0,99744 3,30 0,99952 3,80 0,99993 2,31 0,98956 2,81 0,99752 3,31 0,99953 3,81 0,99993 2,32 0,98983 2,82 0,99760 3,32 0,99955 3,82 0,99993 2,33 0,99010 2,83 0,99767 3,33 0,99957 3,83 0,99994 2,34 0,99036 2,84 0,99774 3,34 0,99958 3,84 0,99994 2,35 0,99061 2,85 0,99781 3,35 0,99960 3,85 0,99994 2,36 0,99086 2,86 0,99788 3,36 0,99961 3,86 0,99994 2,37 0,99111 2,87 0,99795 3,37 0,99962 3,87 0,99995 2,38 0,99134 2,88 0,99801 3,38 0,99964 3,88 0,99995 2,39 0,99158 2,89 0,99807 3,39 0,99965 3,89 0,99995 2,40 0,99180 2,90 0,99813 3,40 0,99966 3,90 0,99995 2,41 0,99202 2,91 0,99819 3,41 0,99968 3,91 0,99995 2,42 0,99224 2,92 0,99825 3,42 0,99969 3,92 0,99996 2,43 0,99245 2,93 0,99831 3,43 0,99970 3,93 0,99996 2,44 0,99266 2,94 0,99836 3,44 0,99971 3,94 0,99996 2,45 0,99286 2,95 0,99841 3,45 0,99972 3,95 0,99996 2,46 0,99305 2,96 0,99846 3,46 0,99973 3,96 0,99996 2,47 0,99324 2,97 0,99851 3,47 0,99974 3,97 0,99996 2,48 0,99343 2,98 0,99856 3,48 0,99975 3,98 0,99997 2,49 0,99361 2,99 0,99861 3,49 0,99976 3,99 0,99997 (-u) = 1 - (u) 149 Příloha A ­ Statistické tabulky Kvantily standardizovaného normálního rozložení u u u u 0,500 0,00000 0,850 1,03643 0,930 1,47579 0,965 1,81191 0,510 0,02507 0,860 1,08032 0,931 1,48328 0,966 1,82501 0,520 0,05015 0,870 1,12639 0,932 1,49085 0,967 1,83842 0,530 0,07527 0,880 1,17499 0,933 1,49851 0,968 1,85218 0,540 0,10043 0,890 1,22653 0,934 1,50626 0,969 1,86630 0,550 0,12566 0,900 1,28155 0,935 1,51410 0,970 1,88079 0,560 0,15097 0,901 1,28727 0,936 1,52204 0,971 1,89570 0,570 0,17637 0,902 1,29303 0,937 1,53007 0,972 1,91104 0,580 0,20189 0,903 1,29884 0,938 1,53820 0,973 1,92684 0,590 0,22754 0,904 1,30469 0,939 1,54643 0,974 1,94313 0,600 0,25335 0,905 1,31058 0,940 1,55477 0,975 1,95996 0,610 0,27932 0,906 1,31652 0,941 1,56322 0,976 1,97737 0,620 0,30548 0,907 1,32251 0,942 1,57179 0,977 1,99539 0,630 0,33185 0,908 1,32854 0,943 1,58047 0,978 2,01409 0,640 0,35846 0,909 1,33462 0,944 1,58927 0,979 2,03352 0,650 0,38532 0,910 1,34076 0,945 1,59819 0,980 2,05375 0,660 0,41246 0,911 1,34694 0,946 1,60725 0,981 2,07485 0,670 0,43991 0,912 1,35317 0,947 1,61644 0,982 2,09693 0,680 0,46770 0,913 1,35946 0,948 1,62576 0,983 2,12007 0,690 0,49585 0,914 1,36581 0,949 1,63523 0,984 2,14441 0,700 0,52440 0,915 1,37220 0,950 1,64485 0,985 2,17009 0,710 0,55338 0,916 1,37866 0,951 1,65463 0,986 2,19729 0,720 0,58284 0,917 1,38517 0,952 1,66456 0,987 2,22621 0,730 0,61281 0,918 1,39174 0,953 1,67466 0,988 2,25713 0,740 0,64335 0,919 1,39838 0,954 1,68494 0,989 2,29037 0,750 0,67449 0,920 1,40507 0,955 1,69540 0,990 2,32635 0,760 0,70630 0,921 1,41183 0,956 1,70604 0,991 2,36562 0,770 0,73885 0,922 1,41865 0,957 1,71689 0,992 2,40892 0,780 0,77219 0,923 1,42554 0,958 1,72793 0,993 2,45726 0,790 0,80642 0,924 1,43250 0,959 1,73920 0,994 2,51214 0,800 0,84162 0,925 1,43953 0,960 1,75069 0,995 2,57583 0,810 0,87790 0,926 1,44663 0,961 1,76241 0,996 2,65207 0,820 0,91537 0,927 1,45381 0,962 1,77438 0,997 2,74778 0,830 0,95417 0,928 1,46106 0,963 1,78661 0,998 2,87816 0,840 0,99446 0,929 1,46838 0,964 1,79912 0,999 3,09023 150 Kvantily Pearsonova rozložení n 0,001 0,005 0,010 0,025 0,050 0,001 0,005 0,010 0,025 0,050 1 0,000 0,000 0,000 0,001 0,004 2 0,002 0,010 0,020 0,051 0,103 3 0,024 0,072 0,115 0,216 0,352 4 0,091 0,207 0,297 0,484 0,711 5 0,210 0,412 0,554 0,831 1,145 6 0,381 0,676 0,872 1,237 1,635 7 0,598 0,989 1,239 1,690 2,167 8 0,857 1,344 1,646 2,180 2,733 9 1,152 1,735 2,088 2,700 3,325 10 1,479 2,156 2,558 3,247 3,940 11 1,834 2,603 3,053 3,816 4,575 12 2,214 3,074 3,571 4,404 5,226 13 2,617 3,565 4,107 5,009 5,892 14 3,041 4,075 4,660 5,629 6,571 15 3,483 4,601 5,229 6,262 7,261 16 3,942 5,142 5,812 6,908 7,962 17 4,416 5,697 6,408 7,564 8,672 18 4,905 6,265 7,015 8,231 9,390 19 5,407 6,844 7,633 8,907 10,117 20 5,921 7,434 8,260 9,591 10,851 21 6,447 8,034 8,897 10,283 11,591 22 6,983 8,643 9,542 10,982 12,338 23 7,529 9,260 10,196 11,689 13,091 24 8,085 9,886 10,856 12,401 13,848 25 8,649 10,520 11,524 13,120 14,611 26 9,222 11,160 12,198 13,844 15,379 27 9,803 11,808 12,879 14,573 16,151 28 10,391 12,461 13,565 15,308 16,928 29 10,986 13,121 14,256 16,047 17,708 30 11,588 13,787 14,953 16,791 18,493 35 14,688 17,192 18,509 20,569 22,465 40 17,916 20,707 22,164 24,433 26,509 45 21,251 24,311 25,901 28,366 30,612 50 24,674 27,991 29,707 32,357 34,764 55 28,173 31,735 33,570 36,398 38,958 60 31,738 35,534 37,485 40,482 43,188 65 35,362 39,383 41,444 44,603 47,450 70 39,036 43,275 45,442 48,758 51,739 75 42,757 47,206 49,475 52,942 56,054 80 46,520 51,172 53,540 57,153 60,391 85 50,320 55,170 57,634 61,389 64,749 90 54,155 59,196 61,754 65,647 69,126 95 58,022 63,250 65,898 69,925 73,520 100 61,918 67,328 70,065 74,222 77,929 151 Příloha A ­ Statistické tabulky Kvantily Pearsonova rozložení n 0,950 0,975 0,990 0,995 0,999 1 3,841 5,024 6,635 7,879 10,828 2 5,991 7,378 9,210 10,597 13,816 3 7,815 9,348 11,345 12,838 16,266 4 9,488 11,143 13,277 14,860 18,467 5 11,070 12,833 15,086 16,750 20,515 6 12,592 14,449 16,812 18,548 22,458 7 14,067 16,013 18,475 20,278 24,322 8 15,507 17,535 20,090 21,955 26,124 9 16,919 19,023 21,666 23,589 27,877 10 18,307 20,483 23,209 25,188 29,588 11 19,675 21,920 24,725 26,757 31,264 12 21,026 23,337 26,217 28,300 32,909 13 22,362 24,736 27,688 29,819 34,528 14 23,685 26,119 29,141 31,319 36,123 15 24,996 27,488 30,578 32,801 37,697 16 26,296 28,845 32,000 34,267 39,252 17 27,587 30,191 33,409 35,718 40,790 18 28,869 31,526 34,805 37,156 42,312 19 30,144 32,852 36,191 38,582 43,820 20 31,410 34,170 37,566 39,997 45,315 21 32,671 35,479 38,932 41,401 46,797 22 33,924 36,781 40,289 42,796 48,268 23 35,172 38,076 41,638 44,181 49,728 24 36,415 39,364 42,980 45,559 51,179 25 37,652 40,646 44,314 46,928 52,620 26 38,885 41,923 45,642 48,290 54,052 27 40,113 43,195 46,963 49,645 55,476 28 41,337 44,461 48,278 50,993 56,892 29 42,557 45,722 49,588 52,336 58,301 30 43,773 46,979 50,892 53,672 59,703 35 49,802 53,203 57,342 60,275 66,619 40 55,758 59,342 63,691 66,766 73,402 45 61,656 65,410 69,957 73,166 80,077 50 67,505 71,420 76,154 79,490 86,661 55 73,311 77,380 82,292 85,749 93,168 60 79,082 83,298 88,379 91,952 99,607 65 84,821 89,177 94,422 98,105 105,988 70 90,531 95,023 100,425 104,215 112,317 75 96,217 100,839 106,393 110,286 118,599 80 101,879 106,629 112,329 116,321 124,839 85 107,522 112,393 118,236 122,325 131,041 90 113,145 118,136 124,116 128,299 137,208 95 118,752 123,858 129,973 134,247 143,344 100 124,342 129,561 135,807 140,169 149,449 152 Kvantily Studentova rozložení n 0,900 0,950 0,975 0,990 0,995 0,999 1 3,0777 6,3138 12,7062 31,8205 63,6567 318,3088 2 1,8856 2,9200 4,3027 6,9646 9,9248 22,3271 3 1,6377 2,3534 3,1824 4,5407 5,8409 10,2145 4 1,5332 2,1318 2,7764 3,7469 4,6041 7,1732 5 1,4759 2,0150 2,5706 3,3649 4,0321 5,8934 6 1,4398 1,9432 2,4469 3,1427 3,7074 5,2076 7 1,4149 1,8946 2,3646 2,9980 3,4995 4,7853 8 1,3968 1,8595 2,3060 2,8965 3,3554 4,5008 9 1,3830 1,8331 2,2622 2,8214 3,2498 4,2968 10 1,3722 1,8125 2,2281 2,7638 3,1693 4,1437 11 1,3634 1,7959 2,2010 2,7181 3,1058 4,0247 12 1,3562 1,7823 2,1788 2,6810 3,0545 3,9296 13 1,3502 1,7709 2,1604 2,6503 3,0123 3,8520 14 1,3450 1,7613 2,1448 2,6245 2,9768 3,7874 15 1,3406 1,7531 2,1314 2,6025 2,9467 3,7328 16 1,3368 1,7459 2,1199 2,5835 2,9208 3,6862 17 1,3334 1,7396 2,1098 2,5669 2,8982 3,6458 18 1,3304 1,7341 2,1009 2,5524 2,8784 3,6105 19 1,3277 1,7291 2,0930 2,5395 2,8609 3,5794 20 1,3253 1,7247 2,0860 2,5280 2,8453 3,5518 21 1,3232 1,7207 2,0796 2,5176 2,8314 3,5272 22 1,3212 1,7171 2,0739 2,5083 2,8188 3,5050 23 1,3195 1,7139 2,0687 2,4999 2,8073 3,4850 24 1,3178 1,7109 2,0639 2,4922 2,7969 3,4668 25 1,3163 1,7081 2,0595 2,4851 2,7874 3,4502 26 1,3150 1,7056 2,0555 2,4786 2,7787 3,4350 27 1,3137 1,7033 2,0518 2,4727 2,7707 3,4210 28 1,3125 1,7011 2,0484 2,4671 2,7633 3,4082 29 1,3114 1,6991 2,0452 2,4620 2,7564 3,3962 30 1,3104 1,6973 2,0423 2,4573 2,7500 3,3852 1,2816 1,6449 1,9600 2,3263 2,5758 3,0000 153 Příloha A ­ Statistické tabulky Kvantily Fischerova-Snedecorova rozložení pro = 0,95 n1 n2 1 2 3 4 5 6 7 1 161,4500 199,5000 215,7074 224,5832 230,1619 233,9860 236,7684 2 18,5128 19,0000 19,1643 19,2468 19,2964 19,3295 19,3532 3 10,1280 9,5521 9,2766 9,1172 9,0135 8,9406 8,8867 4 7,7086 6,9443 6,5914 6,3882 6,2561 6,1631 6,0942 5 6,6079 5,7861 5,4095 5,1922 5,0503 4,9503 4,8759 6 5,9874 5,1433 4,7571 4,5337 4,3874 4,2839 4,2067 7 5,5914 4,7374 4,3468 4,1203 3,9715 3,8660 3,7870 8 5,3177 4,4590 4,0662 3,8379 3,6875 3,5806 3,5005 9 5,1174 4,2565 3,8625 3,6331 3,4817 3,3738 3,2927 10 4,9646 4,1028 3,7083 3,4780 3,3258 3,2172 3,1355 11 4,8443 3,9823 3,5874 3,3567 3,2039 3,0946 3,0123 12 4,7472 3,8853 3,4903 3,2592 3,1059 2,9961 2,9134 13 4,6672 3,8056 3,4105 3,1791 3,0254 2,9153 2,8321 14 4,6001 3,7389 3,3439 3,1122 2,9582 2,8477 2,7642 15 4,5431 3,6823 3,2874 3,0556 2,9013 2,7905 2,7066 16 4,4940 3,6337 3,2389 3,0069 2,8524 2,7413 2,6572 17 4,4513 3,5915 3,1968 2,9647 2,8100 2,6987 2,6143 18 4,4139 3,5546 3,1599 2,9277 2,7729 2,6613 2,5767 19 4,3807 3,5219 3,1274 2,8951 2,7401 2,6283 2,5435 20 4,3512 3,4928 3,0984 2,8661 2,7109 2,5990 2,5140 21 4,3248 3,4668 3,0725 2,8401 2,6848 2,5727 2,4876 22 4,3009 3,4434 3,0491 2,8167 2,6613 2,5491 2,4638 23 4,2793 3,4221 3,0280 2,7955 2,6400 2,5277 2,4422 24 4,2597 3,4028 3,0088 2,7763 2,6207 2,5082 2,4226 25 4,2417 3,3852 2,9912 2,7587 2,6030 2,4904 2,4047 26 4,2252 3,3690 2,9752 2,7426 2,5868 2,4741 2,3883 27 4,2100 3,3541 2,9604 2,7278 2,5719 2,4591 2,3732 28 4,1960 3,3404 2,9467 2,7141 2,5581 2,4453 2,3593 29 4,1830 3,3277 2,9340 2,7014 2,5454 2,4324 2,3463 30 4,1709 3,3158 2,9223 2,6896 2,5336 2,4205 2,3343 40 4,0847 3,2317 2,8387 2,6060 2,4495 2,3359 2,2490 60 4,0012 3,1504 2,7581 2,5252 2,3683 2,2541 2,1665 80 3,9604 3,1108 2,7188 2,4859 2,3287 2,2142 2,1263 120 3,9201 3,0718 2,6802 2,4472 2,2899 2,1750 2,0868 3,8415 2,9957 2,6049 2,3719 2,2141 2,0986 2,0096 154 Kvantily Fischerova-Snedecorova rozložení pro = 0,95 n1 n2 8 9 10 11 12 13 14 1 238,8827 240,5433 241,8818 242,9835 243,9060 244,6899 245,3640 2 19,3710 19,3848 19,3959 19,4050 19,4125 19,4189 19,4244 3 8,8452 8,8123 8,7855 8,7633 8,7446 8,7287 8,7149 4 6,0410 5,9988 5,9644 5,9358 5,9117 5,8911 5,8733 5 4,8183 4,7725 4,7351 4,7040 4,6777 4,6552 4,6358 6 4,1468 4,0990 4,0600 4,0274 3,9999 3,9764 3,9559 7 3,7257 3,6767 3,6365 3,6030 3,5747 3,5503 3,5292 8 3,4381 3,3881 3,3472 3,3130 3,2839 3,2590 3,2374 9 3,2296 3,1789 3,1373 3,1025 3,0729 3,0475 3,0255 10 3,0717 3,0204 2,9782 2,9430 2,9130 2,8872 2,8647 11 2,9480 2,8962 2,8536 2,8179 2,7876 2,7614 2,7386 12 2,8486 2,7964 2,7534 2,7173 2,6866 2,6602 2,6371 13 2,7669 2,7144 2,6710 2,6347 2,6037 2,5769 2,5536 14 2,6987 2,6458 2,6022 2,5655 2,5342 2,5073 2,4837 15 2,6408 2,5876 2,5437 2,5068 2,4753 2,4481 2,4244 16 2,5911 2,5377 2,4935 2,4564 2,4247 2,3973 2,3733 17 2,5480 2,4943 2,4499 2,4126 2,3807 2,3531 2,3290 18 2,5102 2,4563 2,4117 2,3742 2,3421 2,3143 2,2900 19 2,4768 2,4227 2,3779 2,3402 2,3080 2,2800 2,2556 20 2,4471 2,3928 2,3479 2,3100 2,2776 2,2495 2,2250 21 2,4205 2,3660 2,3210 2,2829 2,2504 2,2222 2,1975 22 2,3965 2,3419 2,2967 2,2585 2,2258 2,1975 2,1727 23 2,3748 2,3201 2,2747 2,2364 2,2036 2,1752 2,1502 24 2,3551 2,3002 2,2547 2,2163 2,1834 2,1548 2,1298 25 2,3371 2,2821 2,2365 2,1979 2,1649 2,1362 2,1111 26 2,3205 2,2655 2,2197 2,1811 2,1479 2,1192 2,0939 27 2,3053 2,2501 2,2043 2,1655 2,1323 2,1035 2,0781 28 2,2913 2,2360 2,1900 2,1512 2,1179 2,0889 2,0635 29 2,2783 2,2229 2,1768 2,1379 2,1045 2,0755 2,0500 30 2,2662 2,2107 2,1646 2,1256 2,0921 2,0630 2,0374 40 2,1802 2,1240 2,0772 2,0376 2,0035 1,9738 1,9476 60 2,0970 2,0401 1,9926 1,9522 1,9174 1,8870 1,8602 80 2,0564 1,9991 1,9512 1,9105 1,8753 1,8445 1,8174 120 2,0164 1,9588 1,9105 1,8693 1,8337 1,8026 1,7750 1,9384 1,8799 1,8307 1,7886 1,7522 1,7202 1,6918 155 Příloha A ­ Statistické tabulky Kvantily Fischerova-Snedecorova rozložení pro = 0,95 n1 n2 15 16 17 18 19 20 25 1 245,9499 246,4639 246,9184 247,3232 247,6861 248,0131 249,2601 2 19,4291 19,4333 19,4370 19,4402 19,4431 19,4458 19,4558 3 8,7029 8,6923 8,6829 8,6745 8,6670 8,6602 8,6341 4 5,8578 5,8441 5,8320 5,8211 5,8114 5,8025 5,7687 5 4,6188 4,6038 4,5904 4,5785 4,5678 4,5581 4,5209 6 3,9381 3,9223 3,9083 3,8957 3,8844 3,8742 3,8348 7 3,5107 3,4944 3,4799 3,4669 3,4551 3,4445 3,4036 8 3,2184 3,2016 3,1867 3,1733 3,1613 3,1503 3,1081 9 3,0061 2,9890 2,9737 2,9600 2,9477 2,9365 2,8932 10 2,8450 2,8276 2,8120 2,7980 2,7854 2,7740 2,7298 11 2,7186 2,7009 2,6851 2,6709 2,6581 2,6464 2,6014 12 2,6169 2,5989 2,5828 2,5684 2,5554 2,5436 2,4977 13 2,5331 2,5149 2,4987 2,4841 2,4709 2,4589 2,4123 14 2,4630 2,4446 2,4282 2,4134 2,4000 2,3879 2,3407 15 2,4034 2,3849 2,3683 2,3533 2,3398 2,3275 2,2797 16 2,3522 2,3335 2,3167 2,3016 2,2880 2,2756 2,2272 17 2,3077 2,2888 2,2719 2,2567 2,2429 2,2304 2,1815 18 2,2686 2,2496 2,2325 2,2172 2,2033 2,1906 2,1413 19 2,2341 2,2149 2,1977 2,1823 2,1683 2,1555 2,1057 20 2,2033 2,1840 2,1667 2,1511 2,1370 2,1242 2,0739 21 2,1757 2,1563 2,1389 2,1232 2,1090 2,0960 2,0454 22 2,1508 2,1313 2,1138 2,0980 2,0837 2,0707 2,0196 23 2,1282 2,1086 2,0910 2,0751 2,0608 2,0476 1,9963 24 2,1077 2,0880 2,0703 2,0543 2,0399 2,0267 1,9750 25 2,0889 2,0691 2,0513 2,0353 2,0207 2,0075 1,9554 26 2,0716 2,0518 2,0339 2,0178 2,0032 1,9898 1,9375 27 2,0558 2,0358 2,0179 2,0017 1,9870 1,9736 1,9210 28 2,0411 2,0210 2,0030 1,9868 1,9720 1,9586 1,9057 29 2,0275 2,0073 1,9893 1,9730 1,9581 1,9446 1,8915 30 2,0148 1,9946 1,9765 1,9601 1,9452 1,9317 1,8782 40 1,9245 1,9037 1,8851 1,8682 1,8529 1,8389 1,7835 60 1,8364 1,8151 1,7959 1,7784 1,7625 1,7480 1,6902 80 1,7932 1,7716 1,7520 1,7342 1,7180 1,7032 1,6440 120 1,7505 1,7285 1,7085 1,6904 1,6739 1,6587 1,5980 1,6640 1,6435 1,6228 1,6038 1,5865 1,5705 1,5061 156 Kvantily Fischerova-Snedecorova rozložení pro = 0,95 n1 n2 30 40 60 80 120 1 250,0952 251,1432 252,1957 252,7237 253,2529 254,3100 2 19,4624 19,4707 19,4791 19,4832 19,4874 19,4960 3 8,6166 8,5944 8,5720 8,5607 8,5494 8,5264 4 5,7459 5,7170 5,6877 5,6730 5,6581 5,6281 5 4,4957 4,4638 4,4314 4,4150 4,3985 4,3650 6 3,8082 3,7743 3,7398 3,7223 3,7047 3,6689 7 3,3758 3,3404 3,3043 3,2860 3,2674 3,2298 8 3,0794 3,0428 3,0053 2,9862 2,9669 2,9276 9 2,8637 2,8259 2,7872 2,7675 2,7475 2,7067 10 2,6996 2,6609 2,6211 2,6008 2,5801 2,5379 11 2,5705 2,5309 2,4901 2,4692 2,4480 2,4045 12 2,4663 2,4259 2,3842 2,3628 2,3410 2,2962 13 2,3803 2,3392 2,2966 2,2747 2,2524 2,2064 14 2,3082 2,2664 2,2229 2,2006 2,1778 2,1307 15 2,2468 2,2043 2,1601 2,1373 2,1141 2,0658 16 2,1938 2,1507 2,1058 2,0826 2,0589 2,0096 17 2,1477 2,1040 2,0584 2,0348 2,0107 1,9604 18 2,1071 2,0629 2,0166 1,9927 1,9681 1,9168 19 2,0712 2,0264 1,9795 1,9552 1,9302 1,8780 20 2,0391 1,9938 1,9464 1,9217 1,8963 1,8432 21 2,0102 1,9645 1,9165 1,8915 1,8657 1,8117 22 1,9842 1,9380 1,8894 1,8641 1,8380 1,7831 23 1,9605 1,9139 1,8648 1,8392 1,8128 1,7570 24 1,9390 1,8920 1,8424 1,8164 1,7896 1,7330 25 1,9192 1,8718 1,8217 1,7955 1,7684 1,7110 26 1,9010 1,8533 1,8027 1,7762 1,7488 1,6906 27 1,8842 1,8361 1,7851 1,7584 1,7306 1,6717 28 1,8687 1,8203 1,7689 1,7418 1,7138 1,6541 29 1,8543 1,8055 1,7537 1,7264 1,6981 1,6376 30 1,8409 1,7918 1,7396 1,7121 1,6835 1,6223 40 1,7444 1,6928 1,6373 1,6077 1,5766 1,5089 60 1,6491 1,5943 1,5343 1,5019 1,4673 1,3893 80 1,6017 1,5449 1,4821 1,4477 1,4107 1,3247 120 1,5543 1,4952 1,4290 1,3922 1,3519 1,2539 1,4591 1,3940 1,3180 1,2735 1,2214 1,0000 157 Příloha A ­ Statistické tabulky Kvantily Fischerova-Snedecorova rozložení pro = 0,975 n1 n2 1 2 3 4 5 6 7 1 647,7890 799,5000 864,1630 899,5833 921,8479 937,1111 948,2169 2 38,5063 39,0000 39,1655 39,2484 39,2982 39,3315 39,3552 3 17,4434 16,0441 15,4392 15,1010 14,8848 14,7347 14,6244 4 12,2179 10,6491 9,9792 9,6045 9,3645 9,1973 9,0741 5 10,0070 8,4336 7,7636 7,3879 7,1464 6,9777 6,8531 6 8,8131 7,2599 6,5988 6,2272 5,9876 5,8198 5,6955 7 8,0727 6,5415 5,8898 5,5226 5,2852 5,1186 4,9949 8 7,5709 6,0595 5,4160 5,0526 4,8173 4,6517 4,5286 9 7,2093 5,7147 5,0781 4,7181 4,4844 4,3197 4,1970 10 6,9367 5,4564 4,8256 4,4683 4,2361 4,0721 3,9498 11 6,7241 5,2559 4,6300 4,2751 4,0440 3,8807 3,7586 12 6,5538 5,0959 4,4742 4,1212 3,8911 3,7283 3,6065 13 6,4143 4,9653 4,3472 3,9959 3,7667 3,6043 3,4827 14 6,2979 4,8567 4,2417 3,8919 3,6634 3,5014 3,3799 15 6,1995 4,7650 4,1528 3,8043 3,5764 3,4147 3,2934 16 6,1151 4,6867 4,0768 3,7294 3,5021 3,3406 3,2194 17 6,0420 4,6189 4,0112 3,6648 3,4379 3,2767 3,1556 18 5,9781 4,5597 3,9539 3,6083 3,3820 3,2209 3,0999 19 5,9216 4,5075 3,9034 3,5587 3,3327 3,1718 3,0509 20 5,8715 4,4613 3,8587 3,5147 3,2891 3,1283 3,0074 21 5,8266 4,4199 3,8188 3,4754 3,2501 3,0895 2,9686 22 5,7863 4,3828 3,7829 3,4401 3,2151 3,0546 2,9338 23 5,7498 4,3492 3,7505 3,4083 3,1835 3,0232 2,9023 24 5,7166 4,3187 3,7211 3,3794 3,1548 2,9946 2,8738 25 5,6864 4,2909 3,6943 3,3530 3,1287 2,9685 2,8478 26 5,6586 4,2655 3,6697 3,3289 3,1048 2,9447 2,8240 27 5,6331 4,2421 3,6472 3,3067 3,0828 2,9228 2,8021 28 5,6096 4,2205 3,6264 3,2863 3,0626 2,9027 2,7820 29 5,5878 4,2006 3,6072 3,2674 3,0438 2,8840 2,7633 30 5,5675 4,1821 3,5894 3,2499 3,0265 2,8667 2,7460 40 5,4239 4,0510 3,4633 3,1261 2,9037 2,7444 2,6238 60 5,2856 3,9253 3,3425 3,0077 2,7863 2,6274 2,5068 80 5,2184 3,8643 3,2841 2,9504 2,7295 2,5708 2,4502 120 5,1523 3,8046 3,2269 2,8943 2,6740 2,5154 2,3948 5,0239 3,6889 3,1161 2,7858 2,5665 2,4082 2,2875 158 Kvantily Fischerova-Snedecorova rozložení pro = 0,975 n1 n2 8 9 10 11 12 13 14 1 956,6562 963,2846 968,6274 973,0252 976,7080 979,8368 982,5278 2 39,3730 39,3869 39,3980 39,4071 39,4146 39,4210 39,4265 3 14,5399 14,4731 14,4189 14,3742 14,3366 14,3045 14,2768 4 8,9796 8,9047 8,8439 8,7935 8,7512 8,7150 8,6838 5 6,7572 6,6811 6,6192 6,5678 6,5245 6,4876 6,4556 6 5,5996 5,5234 5,4613 5,4098 5,3662 5,3290 5,2968 7 4,8993 4,8232 4,7611 4,7095 4,6658 4,6285 4,5961 8 4,4333 4,3572 4,2951 4,2434 4,1997 4,1622 4,1297 9 4,1020 4,0260 3,9639 3,9121 3,8682 3,8306 3,7980 10 3,8549 3,7790 3,7168 3,6649 3,6209 3,5832 3,5504 11 3,6638 3,5879 3,5257 3,4737 3,4296 3,3917 3,3588 12 3,5118 3,4358 3,3736 3,3215 3,2773 3,2393 3,2062 13 3,3880 3,3120 3,2497 3,1975 3,1532 3,1150 3,0819 14 3,2853 3,2093 3,1469 3,0946 3,0502 3,0119 2,9786 15 3,1987 3,1227 3,0602 3,0078 2,9633 2,9249 2,8915 16 3,1248 3,0488 2,9862 2,9337 2,8890 2,8506 2,8170 17 3,0610 2,9849 2,9222 2,8696 2,8249 2,7863 2,7526 18 3,0053 2,9291 2,8664 2,8137 2,7689 2,7302 2,6964 19 2,9563 2,8801 2,8172 2,7645 2,7196 2,6808 2,6469 20 2,9128 2,8365 2,7737 2,7209 2,6758 2,6369 2,6030 21 2,8740 2,7977 2,7348 2,6819 2,6368 2,5978 2,5638 22 2,8392 2,7628 2,6998 2,6469 2,6017 2,5626 2,5285 23 2,8077 2,7313 2,6682 2,6152 2,5699 2,5308 2,4966 24 2,7791 2,7027 2,6396 2,5865 2,5411 2,5019 2,4677 25 2,7531 2,6766 2,6135 2,5603 2,5149 2,4756 2,4413 26 2,7293 2,6528 2,5896 2,5363 2,4908 2,4515 2,4171 27 2,7074 2,6309 2,5676 2,5143 2,4688 2,4293 2,3949 28 2,6872 2,6106 2,5473 2,4940 2,4484 2,4089 2,3743 29 2,6686 2,5919 2,5286 2,4752 2,4295 2,3900 2,3554 30 2,6513 2,5746 2,5112 2,4577 2,4120 2,3724 2,3378 40 2,5289 2,4519 2,3882 2,3343 2,2882 2,2481 2,2130 60 2,4117 2,3344 2,2702 2,2159 2,1692 2,1286 2,0929 80 2,3549 2,2775 2,2130 2,1584 2,1115 2,0706 2,0346 120 2,2994 2,2217 2,1570 2,1021 2,0548 2,0136 1,9773 2,1918 2,1136 2,0483 1,9927 1,9447 1,9027 1,8656 159 Příloha A ­ Statistické tabulky Kvantily Fischerova-Snedecorova rozložení pro = 0,975 n1 n2 15 16 17 18 19 20 25 1 984,8668 986,9187 988,7331 990,3490 991,7973 993,1028 998,0808 2 39,4313 39,4354 39,4391 39,4424 39,4453 39,4479 39,4579 3 14,2527 14,2315 14,2127 14,1960 14,1810 14,1674 14,1155 4 8,6565 8,6326 8,6113 8,5924 8,5753 8,5599 8,5010 5 6,4277 6,4032 6,3814 6,3619 6,3444 6,3286 6,2679 6 5,2687 5,2439 5,2218 5,2021 5,1844 5,1684 5,1069 7 4,5678 4,5428 4,5206 4,5008 4,4829 4,4667 4,4045 8 4,1012 4,0761 4,0538 4,0338 4,0158 3,9995 3,9367 9 3,7694 3,7441 3,7216 3,7015 3,6833 3,6669 3,6035 10 3,5217 3,4963 3,4737 3,4534 3,4351 3,4185 3,3546 11 3,3299 3,3044 3,2816 3,2612 3,2428 3,2261 3,1616 12 3,1772 3,1515 3,1286 3,1081 3,0896 3,0728 3,0077 13 3,0527 3,0269 3,0039 2,9832 2,9646 2,9477 2,8821 14 2,9493 2,9234 2,9003 2,8795 2,8607 2,8437 2,7777 15 2,8621 2,8360 2,8128 2,7919 2,7730 2,7559 2,6894 16 2,7875 2,7614 2,7380 2,7170 2,6980 2,6808 2,6138 17 2,7230 2,6968 2,6733 2,6522 2,6331 2,6158 2,5484 18 2,6667 2,6404 2,6168 2,5956 2,5764 2,5590 2,4912 19 2,6171 2,5907 2,5670 2,5457 2,5265 2,5089 2,4408 20 2,5731 2,5465 2,5228 2,5014 2,4821 2,4645 2,3959 21 2,5338 2,5071 2,4833 2,4618 2,4424 2,4247 2,3558 22 2,4984 2,4717 2,4478 2,4262 2,4067 2,3890 2,3198 23 2,4665 2,4396 2,4157 2,3940 2,3745 2,3567 2,2871 24 2,4374 2,4105 2,3865 2,3648 2,3452 2,3273 2,2574 25 2,4110 2,3840 2,3599 2,3381 2,3184 2,3005 2,2303 26 2,3867 2,3597 2,3355 2,3137 2,2939 2,2759 2,2054 27 2,3644 2,3373 2,3131 2,2912 2,2713 2,2533 2,1826 28 2,3438 2,3167 2,2924 2,2704 2,2505 2,2324 2,1615 29 2,3248 2,2976 2,2732 2,2512 2,2313 2,2131 2,1419 30 2,3072 2,2799 2,2554 2,2334 2,2134 2,1952 2,1237 40 2,1819 2,1542 2,1293 2,1068 2,0864 2,0677 1,9943 60 2,0613 2,0330 2,0076 1,9846 1,9636 1,9445 1,8687 80 2,0026 1,9741 1,9483 1,9250 1,9037 1,8843 1,8071 120 1,9450 1,9161 1,8900 1,8663 1,8447 1,8249 1,7462 1,8326 1,8028 1,7759 1,7515 1,7291 1,7085 1,6259 160 Kvantily Fischerova-Snedecorova rozložení pro = 0,975 n1 n2 30 40 60 80 120 1 1001,4140 1005,5980 1009,8000 1011,9080 1014,0200 1018,3000 2 39,4646 39,4729 39,4812 39,4854 39,4896 39,4980 3 14,0805 14,0365 13,9921 13,9697 13,9473 13,9020 4 8,4613 8,4111 8,3604 8,3349 8,3092 8,2573 5 6,2269 6,1750 6,1225 6,0960 6,0693 6,0153 6 5,0652 5,0125 4,9589 4,9318 4,9044 4,8491 7 4,3624 4,3089 4,2544 4,2268 4,1989 4,1423 8 3,8940 3,8398 3,7844 3,7563 3,7279 3,6702 9 3,5604 3,5055 3,4493 3,4207 3,3918 3,3329 10 3,3110 3,2554 3,1984 3,1694 3,1399 3,0798 11 3,1176 3,0613 3,0035 2,9740 2,9441 2,8828 12 2,9633 2,9063 2,8478 2,8178 2,7874 2,7249 13 2,8372 2,7797 2,7204 2,6900 2,6590 2,5955 14 2,7324 2,6742 2,6142 2,5833 2,5519 2,4872 15 2,6437 2,5850 2,5242 2,4930 2,4611 2,3953 16 2,5678 2,5085 2,4471 2,4154 2,3831 2,3163 17 2,5020 2,4422 2,3801 2,3481 2,3153 2,2474 18 2,4445 2,3842 2,3214 2,2890 2,2558 2,1869 19 2,3937 2,3329 2,2696 2,2368 2,2032 2,1333 20 2,3486 2,2873 2,2234 2,1902 2,1562 2,0853 21 2,3082 2,2465 2,1819 2,1485 2,1141 2,0422 22 2,2718 2,2097 2,1446 2,1108 2,0760 2,0032 23 2,2389 2,1763 2,1107 2,0766 2,0415 1,9677 24 2,2090 2,1460 2,0799 2,0454 2,0099 1,9353 25 2,1816 2,1183 2,0516 2,0169 1,9811 1,9055 26 2,1565 2,0928 2,0257 1,9907 1,9545 1,8781 27 2,1334 2,0693 2,0018 1,9665 1,9299 1,8527 28 2,1121 2,0477 1,9797 1,9441 1,9072 1,8291 29 2,0923 2,0276 1,9591 1,9232 1,8861 1,8072 30 2,0739 2,0089 1,9400 1,9039 1,8664 1,7867 40 1,9429 1,8752 1,8028 1,7644 1,7242 1,6371 60 1,8152 1,7440 1,6668 1,6252 1,5810 1,4821 80 1,7523 1,6790 1,5987 1,5549 1,5079 1,3997 120 1,6899 1,6141 1,5299 1,4834 1,4327 1,3104 1,5660 1,4835 1,3883 1,3329 1,2684 1,0000 161 Příloha A ­ Statistické tabulky 162 Příloha B ­ Základní informace o programu STATISTICA 6 Příloha B ­ Základní informace o programu STATISTICA 6 Systém má modulární stavbu. V multilicenci pro Masarykovu univerzitu jsou k dis- pozici moduly: Basic Statistics/Tables, Multiple Regression, ANOVA, Nonpara- metrics, Distribution Fitting, Advanced Linear / Nonlinear Models, Multivariate Explorartory Techniques, Industrial Statistics & Six Sigma. Velké množství informací o systému STATISTICA lze najít na webové stránce společnosti StatSoft, která je jejím distributorem v České republice (internetová adresa je www.statsoft.cz). Z této stránky vede rovněž odkaz na elektronickou učebnici statistiky. STATISTICA 6 má několik typů oken: spreadsheet (datové okno, má příponu sta, jeho obsah však lze exporto- vat i v jiných formátech). Do datového okna lze načítat datové soubory nejrůznějších typů (např. z tabulkových procesorů, databázové soubory, AS- CII soubory). workbook (má příponu stw). Do workbooku ukládají výstupy, tj. tabulky a grafy. Skládá se ze dvou oken, v levém okně je znázorněna stromová struk- tura výstupů, v pravém jsou samotné výstupy. V levém okně se lze pohybo- vat myší nebo kurzorem, mazat, přesouvat, editovat apod. Výstupy mohou sloužit jako vstupy pro další analýzy a grafy. report (má příponu str, lze ho uložit i ve formátu rtf, txt či htm). Pokud požadujeme, aby se výstupy ukládaly nejen do workbooku, ale i do reportu, postupujeme takto: Tools - Options - Output Manager - zaškrtneme Also send to Report Window - OK. Report se podobně jako workbook skládá ze dvou oken. Do reportu můžeme vkládat vlastní text, vysvětlující komentáře, poznámky apod. Tabulky a grafy lze v reportu i workbooku dále upravovat. okno grafů (přípona stg, lze ho uložit i jako bmp, jpg, png a wmf). Získá se tak, že ve workbooku klikneme pravým tlačítkem na graf a vybereme Clone Graph. programovací okno (přípona svb). Slouží pro zápis programů v jazyku STATISTICA Visual Basic. Mezi jednotlivými typy oken se přepínáme po- mocí položky Window v hlavním menu. 164 B.1. Bodové zpracování četností 1. Zapište do datového okna programu STATISTICA datový soubor, který bude obsahovat známky z matematiky, angličtiny a údaje o pohlaví dvaceti studentů (viz příklad 1.10). Návod: File ­ New ­ Number of variables 3, Number of cases 20, OK. 2. Znaky nazvěte X, Y, Z, vytvořte jim návěští (X ­ známka z matematiky, Y ­ známka z angličtiny, Z ­ pohlaví studenta) a popište, co znamenají jed- notlivé varianty (u znaků X a Y: 1 ­ výborně, 2 ­ velmi dobře, 3 ­ dobře, 4 - neprospěl, u znaku Z: 0 ­ žena, 1 ­ muž). Soubor uložte pod názvem znamky.sta. Návod: Kurzor nastavíme na Var1 ­ 2× klikneme myší ­ Name X ­ Long Name známka z matematiky, Text label ­ 1 výborně, 2 velmi dobře, 3 dobře, 4 neprospěl, OK. U proměnné Y lze text label okopírovat z proměnné X ­ v Text Labels Editor zvolíme Copy from variable X. Přepínání mezi číselnými hodnotami a jejich textovým popisem se děje po- mocí tlačítka s obrázkem štítku. 3. U znaků X a Y vypočtěte absolutní četnosti, relativní četnosti a relativní kumulativní četnosti. Návod: Statistics - Basic Statistics/Tables - Frequency tables - OK - Variables X, Y, OK - Summary. Všechny tři tabulky se uloží do workbooku a listovat v nich můžeme pomocí stromové struktury v levém okně. 4. Vytvořte sloupkový diagram absolutních četností znaků X a Y. Návod: Graphs ­ Histograms ­ Variables X, Y ­ OK ­ vypneme Normal fit ­ Advanced ­ zaškrtneme Breaks between Columns, OK. Vytvořte výsečový diagram absolutních četností znaků X a Y. Návod: Graphs ­ 2D Graphs ­ Pie Charts ­ Variables X, Y ­ OK ­ Advanced ­ Pie legend Text and Percent (nebo Text and Value) ­ OK. Vytvořte polygon absolutních četností znaků X a Y. Návod: ve workbooku vstoupíme do tabulky rozložení četností proměnné X. Pomocí Edit ­ Delete ­ Cases vymažeme řádek označený Missing. Nastavíme se kurzorem na Count ­ Graphs ­ Graphs of Block Data ­ Line Plot:Entire Columns. Vykreslí se polygon četností. 5. Vytvořte graf empirické distribuční funkce znaku X. Návod: Při tvorbě histogramu zadáme v Advanced volbu Showing Type Cumulative, Y axis % ­ 2× klikneme myší na pozadí grafu ­ otevře se okno All Options ­ vybereme Plot: Bars ­ Type Rectangles. V tomto grafu jsou však svislé čáry až k vodorovné ose. Lze použít i jiný typ grafu: vytvoříme nový datový soubor, který bude mít dvě proměnné a případů o dva víc než je počet variant znaku X. Do 1. proměnné zapíšeme do 1. řádku hodnotu o 1 menší než je 1. varianta znaku X, pak varianty znaku X a nakonec hodnotu o 1 větší než je poslední varianta znaku X. Do 2. proměnné zapíšeme 0, pak relativní kumulativní četnosti znaku X (v procentech) a nakonec 100. Graphs ­ Scatterplots ­Variables V1, V2 ­ OK ­ vypneme Linear fit ­ OK ­ 2× klikneme na pozadí grafu ­ Plot:General ­ vypneme Markers, zaškrtneme Line ­ Line Type: Step ­ OK. 165 Příloha B ­ Základní informace o programu STATISTICA 6 Vytvořte graf četnostní funkce znaku X. Návod: Při tvorbě histogramu zadáme v Advanced Y axis % ­ 2× klikneme myší na pozadí grafu ­ vybereme Plot General ­ zaškrtneme Markers ­ vybereme Plot:Bars ­ Type Lines. 6. Z datového souboru vyberte pouze ženy (pouze muže) a úkol 3 proved'te pro ženy (pro muže). Návod: Statistics - Basic Statistics/Tables - Frequency tables - OK - Variables X, Y, OK - Select Cases - zaškrtneme Selection Conditions - Include cases - zaškrtneme Specific, selected by Z = 0, OK. 7. Nadále pracujte s celým datovým souborem. Vytvořte kontingenční tabulku absolutních četností znaků X a Y a graf simultánní četností funkce. Návod: Statistics ­ Basic Statistics/Tables ­ Tables and banners ­ OK ­ Select cases ­ All ­ OK ­ Specify tables ­ List 1 X, List 2 Y, OK, Summary. Vytvoření grafu simultánní četnostní funkce: Návrat do Crosstabulation Tables Result ­ 3D histograms ­ vybereme Axis Scaling ­ Mode Manual ­ Minimum 0 (a totéž provedeme pro Axis Y) ­ dále vybereme Graph Lay- out ­ Type ­ Spikes ­ OK. Graf lze natáčet pomocí Point of View. Vytvořte kontingenční tabulku sloupcově a řádkově podmíněných relativních četností znaků X a Y. Návod: Návrat do Crosstabulation Tables Result ­ Options ­ zaškrtneme ve sloupci Compute tables volbu Percentages of column counts (resp. Percen- tages of row counts). 166 B.2. Intervalové zpracování četností 1. Zapište do datového okna programu STATISTICA datový soubor, který bude obsahovat údaje o mezi plasticity oceli a mezi pevnosti (viz příklad 2.13). Proměnným X a Y vytvořte návěští " mez plasticity" a " mez pevnosti". Soubor pak uložte pod názvem ocel.sta. Návod: viz 1. cvičení, bod 1. 2. Pro X a Y použijeme intervalové zpracování četností. Pro aplikaci Sturger- sova pravidla potřebujeme znát počet variant proměnné X a Y. Návod: Zjištění absolutních četností ­ viz 1. cvičení, bod 3. Zjištění počtu va- riant: ve workbooku se nastavíme kurzorem na sloupec Count ­ 2× klikneme myší ­ vybereme Values/Stats ­ ve výstupní tabulce se objeví mj. N. Počet variant je N-1. (X má 50 variant, Y má 52 variant, v obou případech volíme 7 třídicích intervalů.) Dále musíme zjistit minimum a maximum, abychom vhodně stanovili třídicí intervaly. Návod: Statistics ­ Basic Statistics/Tables ­ Descriptive statistics ­ Varia- bles X, Y ­ zaškrtneme Minimum & maximum ­ Summary. (Pro X je mini- mum 33 a maximum 160, tedy vhodná volba třídicích intervalů je (30, 50 , 50, 70 ,. . . , (150, 170 ­ viz příklad 2.13, pro Y je minimum 52 a maximum 189, tedy třídicí intervaly zvolíme (50, 70 , 70, 90, . . . 170, 190 ­ viz příklad 2.19.) 3. Vytvořte histogram pro X a pro Y. Návod: Graphs ­ Histograms ­ Variables X ­ vypneme Normal fit ­ Advan- ced ­ zaškrtneme Boundaries ­ Specify Boundaries ­ 50 70 90 110 130 150 170 OK ­ Y Axis %. 2× klikneme na pozadí grafu a ve volbě All Options můžeme měnit různé vlastnosti grafu. Upozornění: STATISTICA v histogramu znázorňuje relativní četnost výškou obdélníku, nikoliv jeho plochou, což není v souladu s definicí 2.14. 4. Proved'te zakódování hodnot proměnných X a Y do příslušných třídicích intervalů. Návod: Insert ­ Add Variables ­ 2 ­ After Y ­ OK ­ přejmenujeme je na RX a RY. Nastavíme se kurzorem na RX ­ Data ­ Recode ­ vyplníme podmínky pro všech 7 kategorií. (Pozor ­ podmínky se musí psát ve tvaru X>30 and X<=50 atd.). Pak klepneme na OK. Analogicky pro Y. 5. Vytvořte graf intervalové empirické distribuční funkce pro X. Návod: Vytvoříme Frequency table pro RX. Před 1. případ vložíme řádek, kde do Category napíšeme 0 a do Cumulative Count také 0. Nastavíme se kurzorem na Cumulative Percent ­ Graphs ­ Graphs of Block Data ­ Custom Graph from Block by Column ­ Line Plots (Variables) ­ OK. 2× klikneme na pozadí grafu ­ Plot: General ­ vypneme Markers ­ Axis: Scaling ­ Mode Manual ­ Minimum 1, Maximum 9 ­ Axis: Custom Units ­ Position 1, Text 30 atd až Position 9, Text 190 ­ OK. 6. Sestavte kontingenční tabulky absolutních četností (relativních četností, sloupcově a řádkově podmíněných relativních četností) dvourozměrných tří- dících intervalů pro (X,Y). Návod: Viz úkol č. 6 ve cvičení 1, kde budeme pracovat s proměnnými RX a RY. 167 Příloha B ­ Základní informace o programu STATISTICA 6 B.3. Výpočet číselných charakteristik jednorozměrného a dvourozměrného souboru, regresní přímka 1. Načtěte soubor znamky.sta. Pro známky z matematiky a angličtiny vypočtě- te medián, dolní a horní kvartil a kvartilovou odchylku. Výsledky porovnejte s příkladem 3.5. Návod: Stastistics ­ Basic Statistics/Tables ­ Descriptive Statistics ­ OK ­ Variables X, Y, OK ­ zaškrtneme Median, Lower & upper quartiles, Quartile range ­ Summary. 2. Načtěte soubor ocel.sta. Pro mez plasticity a mez pevnosti vypočtěte aritme- tické průměry, směrodatné odchylky a rozptyly. Výsledky porovnejte s přík- ladem 3.17. Návod: Návod: Stastistics ­ Basic Statistics/Tables ­ Descriptive Statistics ­ OK ­ Variables X, Y, OK ­ zaškrtneme Mean, Standard Deviation, Vari- ance ­ Summary. Vysvětlení: Rozptyl a směrodatná odchylka vyjdou ve STATISTICE jinak než v příklad 3.17, protože STATISTICA ve vzorci pro výpočet rozptylu nepoužívá 1/n, ale 1/(n - 1) ­ bude objasněno později v matematické sta- tistice. 3. Nakreslete dvourozměrný tečkový diagram pro (X,Y). Návod: Graphs ­ Scatterplots ­ Variables X,Y ­ OK ­ vypneme Linear fit ­ OK. 4. Vypočtěte kovarianci a koeficient korelace meze plasticity a meze pevnosti. Výsledky porovnejte s příkladem 3.17. Návod: Statistics ­ Multiple Regression ­ Variables Independent X, Depen- dent Y ­ OK ­ OK ­ Residuals/assumption-prediction ­ Descriptive statis- tics ­ Covariances. Pro získání korelačního koeficientu zvolíme Correlation místo Covariances. Vysvětlení: Kovariance vyjde ve STATISTICE jinak než v příkladu 3.17, protože ve STATISTICE se ve vzorci pro výpočet kovariance nepoužívá 1/n, ale 1/(n - 1) ­ bude objasněno později. 5. Určete koeficienty regresní přímky meze pevnosti na mez plasticity a sta- novte index determinace. Určete regresní odhad meze pevnosti, je-li mez plasticity 110. Nakreslete regresní přímku do dvourozměrného tečkového di- agramu. Návod: V tabulce Multiple Regression zvolíme Variables Independent X, Dependent Y ­ OK ­ Summary:Regression results. Ve výstupní tabulce na- jdeme koeficient b0 ve sloupci B na řádku označeném Intercept, koeficient b1 ve sloupci B na řádku označeném X, index determinace pod označením R2. Pro výpočet predikované hodnoty zvolíme Residuals/assumption/prediction Predict dependent variable X:110 ­ OK. Ve výstupní tabulce je hledaná hod- nota označena jako Predictd. Nakreslení regresní přímky: Návrat do Multiple Regression ­ Residuals / as- sumption / prediction ­ Perform residuals analysis ­ Scatterplots ­ Bivariate correlation ­ X, Y ­ OK. Jiný způsob: Do dvourozměrného tečkového dia- gramu nakreslíme regresní přímku tak, že v tabulce 2D Scatterplots zvolíme Fit Linear, OK. 168 B.4. Výpočty pravděpodobností s využitím distribuční funkce binomického rozložení Označme X náhodnou veličinu. Její distribuční funkci zavedeme vztahem (x) = P(X x). Pokud náhodná veličina X nabývá pouze konečně nebo spočetně mnoha hodnot, lze pomocí (x) vyjádřit následující pravděpodobnosti: a) P(X = x) = P(X x) - P(X x - 1) = (x) - (x - 1); b) P(X x) = 1 - P(X < x) = 1 - P(X x - 1) = 1 - (x - 1); c) P(x1 X x2) = P(x1 - 1 < X x2) = (x2) - (x1 - 1). STATISTICA poskytuje hodnoty distribučních funkcí mnoha rozložení. Omezíme se na binomické rozložení (funkce IBinom(x, p, n), kde x . . . počet úspěchů, p . . . pravděpodobnost úspěchu v jednom pokusu, n . . . celkový počet pokusů). Vzorový příklad na binomické rozložení: Pojišt'ovna zjistila, že 12% po- jistných událostí je způsobeno vloupáním. Jaká je pravděpodobnost, že mezi 30 náhodně vybranými pojistnými událostmi bude způsobeno vloupáním a) nejvýše 6, b) aspoň 6, c) právě 6, d) od dvou do pěti? Řešení: X . . . počet pojistných událostí způsobených vloupáním , n = 30, p = 0,12. ad a) P(X 6) = (6) = 0,9393, ad b) P(X > 6) = 1 - P(X 5) = 1 - (5) = 0,1431, ad c) P(X = 6) = (6) - (5) = 0,0825, ad d) P(2 X 5) = (5) - (1) = 0,7469. Postup ve STATISTICE: Otevřeme nový datový soubor se čtyřmi proměnnými a o jednom případu. Řešení: Do Long Name 1. proměnné napíšeme =IBinom(6;0,12;30). Do Long Name 2. proměnné napíšeme =1-IBinom(5;0,12;30). Do Long Name 3. proměnné napíšeme =IBinom(6;0,12;30)-IBinom(5;0,12;30). Do Long Name 4. proměnné napíšeme =IBinom(5;0,12;30)-IBinom(1;0,12;30). (Do Lange Name proměnné vstoupíme tak, že v datovém okně 2× klikneme myší na název proměnné.) Kreslení grafů distribuční funkce a pravděpodobnostní funkce bino- mického rozložení Vzorový příklad: Nakreslete graf distribuční funkce a pravděpodobnostní funkce náhodné veličiny X Bi(12; 0,3). Postup ve STATISTICE: Vytvoříme nový datový soubor o 3 proměnných a 13 případech. První proměnnou nazveme X a uložíme do ní hodnoty 0, 1,. . . , 12 (do Long Name napíšeme =v0-1). Druhou proměnnou nazveme DF a uložíme do ní hodnoty distribuční funkce (do Long Name napíšeme příkaz =IBinom(x;0,3;12)). Třetí proměnnou nazveme PF a uložíme do ní hodnoty pravděpodobnostní funkce (do Long Name napíšeme příkaz =Binom(x;0,3;12)). Graf distribuční funkce: Graphs ­ Scatterplots ­ Variables X, DF ­ OK ­ vy- pneme Linear fit ­ OK ­ 2× klikneme na pozadí grafu ­ Plot: General ­ zaškrtneme Line ­ Line Type: Step ­ OK. 169 Příloha B ­ Základní informace o programu STATISTICA 6 Graf pravděpodobnostní funkce: Graphs ­ Scatterplots ­ Variables X, PF ­ OK ­ vypneme Linear fit ­ OK. Podle tohoto návodu nakreslete grafy distribučních a pravděpodobnostních funkcí binomického rozložení pro různá n a p, např. n = 5, p = 0,5 (resp. 0,75) apod. Sledujte vliv parametrů na vzhled grafů. 170 B.5. Grafy hustot a distribučních funkcí, výpočet kvan- tilů STATISTICA umí kreslit grafy hustot a distribučních funkcí mnoha spojitých rozložení a počítat kvantily těchto rozložení. Slouží k tomu Probability Calculator v menu Statistics. Zaměříme se na rozložení uvedená definici 8.6. 1. Rovnoměrné spojité rozložení Rs(0, 1) Statistics ­ Probability Calculator ­ Distributions ­ Beta ­ shape 1 ­ napíše- me 1, shape 2 ­ napíšeme 1. STATISTICA vykreslí graf hustoty a distribuční funkce. Hodnotu -kvantilu zjistíme tak, že do okénka označeného p napí- šeme dané a po kliknutí na Compute se v okénku Beta objeví hodnota tohoto kvantilu. 2. Exponenciální rozložení Ex() Ve volbě Distributions vybereme Exponential a do okénka lambda napíšeme patřičnou hodnotu. Hodnotu -kvantilu zjistíme tak, že do okénka označe- ného p napíšeme dané a po kliknutí na Compute se v okénku exp objeví hodnota tohoto kvantilu. 3. Normální rozložení N(, 2) Ve volbě Distributions vybereme Z (Normal), do okénka mean napíšeme hodnotu a do okénka st. dev. napíšeme hodnotu . Hodnotu -kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a po kliknutí na Compute se v okénku X objeví hodnota tohoto kvantilu. 4. Pearsonovo rozložení chí-kvadrát s n stupni volnosti 2(n) Ve volbě Distributions vybereme Chi 2 a do okénka df napíšeme patřičný počet stupňů volnosti. Hodnotu -kvantilu zjistíme tak, že do okénka ozna- čeného p napíšeme dané a po kliknutí na Compute se v okénku Chi 2 objeví hodnota tohoto kvantilu. 5. Studentovo rozložení s n stupni volnosti t(n) Ve volbě Distributions vybe- reme t (Student) a do okénka df napíšeme patřičný počet stupňů volnosti. Hodnotu -kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a po kliknutí na Compute se v okénku t objeví hodnota tohoto kvantilu. 6. Fisherovo-Snedecorovo rozložení s n1 a n2 stupni volnosti F(n1, n2) Ve volbě Distributions vybereme F (Fisher) a do okének df1 a df2 napíšeme počet stupňů volnosti čitatele a jmenovatele. Hodnotu -kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a po kliknutí na Compute se v okénku F objeví hodnota tohoto kvantilu. 171 Příloha B ­ Základní informace o programu STATISTICA 6 B.6. Intervaly spolehlivosti pro parametry normálního rozložení 1. Interval spolehlivosti pro střední hodnotu, když neznáme rozptyl: pro tuto situaci umí STATISTICA vypočítat meze intervalu spolehlivosti sama. Příklad: Při kontrole pěti balíčků cukru o deklarované hmotnosti 1000 g byly zjištěny tyto odchylky: -3, 2, -2, 0, 1. Odchylky považujeme za realizace náhodného výběru rozsahu 5 z rozložení N(, 2). Sestrojte 90% interval spolehlivosti pro . Návod: Vytvoříme nový datový soubor o jedné proměnné a pěti případech. Zapíšeme do něj uvedené odchylky. Statistics ­ Basic Statistics/Tables ­ Descriptive statistics ­ OK ­ Advanced - Variables v1, OK, zaškrtněte Conf. limits for mean ­ Interval 90%, Summary. 2. Ve všech ostatních případech postupujeme podle vzorců uvedených ve větách 12.9 a 12.13. Uved'me postup pro situaci, kdy hledáme interval spolehli- vosti pro rozdíl středních hodnot dvou nezávislých normálně rozložených náhodných výběrů, když neznáme rozptyly, ale víme, že jsou shodné. Příklad: Na jisté velké americké univerzitě bylo v r. 1969 náhodně vybráno 5 profesorek a nezávisle na tom 5 profesorů a byl zjištěn jejich roční příjem v tisících dolarů. Ženy: 9 12 8 10 16, muži: 16 19 12 11 22. Předpokládáme, že uvedené hodnoty jsou realizace dvou nezávislých náhodných výběrů, první z rozložení N(1, 2), druhý z rozložení N(2, 2). Sestrojte 95% interval spolehlivosti pro rozdíl středních hodnot. Návod: Vytvoříme nový datový soubor o čtyřech proměnných (Plat, Sex, HorniMez, DolniMez) a 10 případech. Do proměnné Plat napíšeme příjmy žen, pak příjmy mužů. Do proměnné Sex napíšeme 5× jedničku a 5× dvojku (1=žena, 2=muž). Pomocí Descriptive statistics zjistíme průměry a rozptyly platů žen a mužů. (Výběr žen či mužů: viz cvičení 1, úkol 5.). Výsledky: m1 = 11, s2 1 = 10, n1 = 5, m2 = 16, s2 2 = 21,5, n2 = 5. Do Long Name proměnné DolniMez napíšeme vzorec pro dolní mez (viz věta 12.13 (b)): =11-16-sqrt((4*10+4*21,5)/8)*sqrt(1/5+1/5)*VStudent(0,975;8) Do proměnné DolniMez se 10× uloží hodnota -10,79. Do Long Name pro- měnné HorniMez napíšeme vzorec pro horní mez (viz věta 12.13 (b)): =11-16+sqrt((4*10+4*21,5)/8)*sqrt(1/5+1/5)*VStudent(0,975;8) Do proměnné HorniMez se 10× uloží hodnota 0,79. Znamená to, že s prav- děpodobností aspoň 0,95 leží rozdíl středních hodnot platů žen a mužů v in- tervalu (-10,79; 0,79). Tento výsledek však nemá praktický význam, protože rozsahy obou výběrů byly příliš malé. Příklad: Vyřešte pomocí STATISTIKY příklad 12.16. Návod: Vytvoříme nový datový soubor o třech proměnných (Leva, Prava, Rozdil) a šesti případech. Do prvních dvou proměnných zapíšeme zjištěné hodnoty. Do LongName proměnné Rozdil napíšeme =Leva - Prava a nyní postupujeme stejně jako v úkolu 1. 172 B.7. Testování hypotéz o parametrech normálního rozlo- žení Jednovýběrový t-test Příklad: Při kontrole balicího automatu, který má plnit cukrem balíčky o hmot- nosti 1000 g, byly při přesném převážení pěti balíčků zjištěny tyto odchylky (v gra- mech) od požadované hodnoty: 3, -2, 2, 0, 1. Na hladině významnosti 0,05 testujte hypotézu, že automat nemá systematickou odchylku od požadované hodnoty. Návod pro provedení t-testu: Vytvořte soubor o jedné proměnné X a pěti případech. Do X zapište naměřené hodnoty. V menu Basic Statistics/Tables vy- berte volbu t-test, single sample, OK, Variables X, zaškrtněte Test all means agains 0, Summary. Ve výstupní tabulce najdete hodnotu testového kritéria a p-hodnotu. Pokud p-hodnota nabude hodnoty , pak se nulovou hypotézu zamítá na hladině významnosti . Dvouvýběrový t-test Příklad: Na jisté velké americké univerzitě bylo v r. 1969 náhodně vybráno 5 profesorů a nezávisle na tom 5 profesorek a byl zjištěn jejich roční příjem v tisících dolarů. Ženy: 9 12 8 10 16 Muži: 16 19 12 11 22 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota příjmu žen je stejná jako střední hodnota příjmu mužů. Návod: Vytvořte soubor o dvou proměnných (Plat a Sex) a 10 případech. Do proměnné Plat napište příjmy žen a mužů a do proměnné Sex dejte 5× jedničku a 5× dvojku. V menu Basic Statistics/Tables vyberte volbu t-test, independent, by groups, OK, Variables ­ Grouping Sex, Dependent Plat, OK, Summary T-tests. Ve výstupní tabulce se nejprve podívejte na p-hodnotu pro test homogenity rozptylů. Je-li větší než zvolená hladinu významnosti, zjistěte hodnotu testového kritéria a p- hodnotu pro test shody středních hodnot. V opačném případě zaškrtněte v Options volbu t-test with separate variance estimates. Párový t-test Příklad: Na hladině významnosti 0,05 rozhodněte, zda se u osobního vozu určité značky při správném seřízení geometrie vozu sjíždějí obě přední pneumatiky stejně rychle. Bylo vybráno šest nových vozů a po určité době bylo zjištěno, o kolik mm se sjely jejich levé a pravé přední pneumatiky. číslo automobilu 1 2 3 4 5 6 pravá pneumatika 1,8 1,0 2,2 0,9 1,5 1,6 levá pneumatika 1,5 1,1 2,0 1,1 1,4 1,4 Návod: Vytvořte soubor o dvou proměnných (Leva a Prava) a šesti případech. V menu Basic Statistics/Tables vyberte volbu t-test, dependent samples, OK, Va- riables Leva, Prava ­ Summary. 173 Příloha B ­ Základní informace o programu STATISTICA 6 174 Závěr Závěr Učební text, který jste právě dočetli, byl určen k prvnímu seznámení s matematickou disciplinou nazývanou statistika. Autorským záměrem bylo ukázat vám, že statistika ve své popisné formě dokáže pomoci několika výstižných charakteristik zpřehlednit informace obsažené ve velkých datových souborech, zatímco ve své induktivní formě založené na počtu pravděpodobnosti slouží především jako nástroj rozhodování v situacích ovlivněných náhodou, kdy na základě znalosti náhodného výběru z určitého rozložení pravděpodobnosti usuzuje na vlastnosti tohoto rozložení. V současnosti je statistika velice rozvinutá a důležitá věda, která se neustále doplňuje a rozšiřuje o nové poznatky. Z tohoto důvodu může být tento učební text jen značně omezeným úvodem, který však má dostatečnou oporu v obecných statistických principech. V seznamu literatury samozřejmě najdete knihy, které vám poslouží při prohlubování a rozšiřování vašich statistických znalosti, bez nichž se dnes neobejde žádný absolvent ekonomicky zaměřené vysoké školy. Od ekonoma se totiž očekává, že bude rozhodovat nejenom na základě svých zkušenosti, ale především na základě matematických a statistických analýz. Proto musí být schopen sám provést jednodušší analýzy a u těch složitějších najít společnou řeč se statistiky, aby jim mohl zadávat úkoly a správně interpretovat výsledky těchto analýz. Jak jste již zjistili, použiti statistického programového systému STATlSTICA osvobozuje uživatele od namáhavých úkonů, jako je vyhledávání v datech, jejich třídění, sumarizace a grafické znázornění. Dbejte však na to, aby data byla do počítače vkládána pečlivě a vždy byla podrobena kontrole. Např. je užitečné pro každou proměnnou vypočítat minimum, ma- ximum, medián, kvartilovou odchylku, vykreslit sloupkový diagram, dvourozměrný tečkový diagram apod. Při zpracování dat rozhodně používejte jen ty metody, kterým dobře rozumíte a jejichž výsledky umíte interpretovat. Systém STATlSTICA obsahuje velké množství metod, jejichž neadekvátní aplikace může vést k zavádějícím či dokonce chybným závěrům. Po úspěšném zvládnuti předmětu " Statistika" se před vámi otevírají značné možnosti, jak efektivně získávat informace obsažené v datech a využívat je ve své každodenní práci.