Masarykova univerzita Ekonomicko-správní fakulta Statistika 1 distanční studijní opora Marie Budíková David Hampel Brno 2011 Identifikace modulu Znak ■ BKMSTAl Určení ■ Kombinované bakalářské studium Název ■ Statistika 1 Garant/autor ■ RNDr. Marie Budíková, Dr., Mgr. David Hampel, Ph.D. Cíl Vymezení cíle Statistika jako metoda analýzy dat patří k vědním disciplínám, v nichž by měl být vzdělán každý ekonom. Její role v ekonomii je zcela nezastupitelná, neboť moderní řízení je založeno na nepřetržitém vyhodnocování informací o hospodářství jako celku i jeho subsystémech, a tyto informace poskytuje a následně zpracovává právě statistika. Přiměřená znalost základních statistických pojmů je pro ekonoma důležitá také proto, že mu pomáhá porozumět odborné ekonomické literatuře, jejíž některé části statistiku v hojné míře využívají. Význam statistiky v poslední době neustále roste, což úzce souvisí s rozvojem výpočetní techniky, která je používána jak při sběru a přenosu dat, tak při jejich zpracování a ukládání informací. Dovednosti a znalosti získané po studiu textů Předmět „Statistika 1" vás má především naučit zpracovávat data, která se týkají ekonomických jevů, tj. data třídit, numericky vyhodnocovat a interpretovat. Velké množství příkladů, které jsou součástí učebního textu, vám pomůže při formulování vlastních úloh a výběru správné metody. Naučíte se rovněž využívat výpočetní techniku při řešení ekonomických problémů. Časový plán Rozsah předmětu je dán akreditací a je rozdělen do tří bloků konzultací po čtyřech hodinách. První blok je zaměřen na vysvětlení pojmů popisné statistiky a regresní analýzu, druhý a třetí blok na počet pravděpodobnosti. V každém bloku konzultací jsou prezentována řešení typických příkladů. Časová náročnost ■ prezenční část ■ samostudium ■ POT 12 hodin 87 hodin 1 hodina Celkový studijní ■ 100 hodin Harmonogram Říjen: 1. a 2. týden 3. týden 4. týden Listopad: 1. týden 2. týden 3. a 4. týden Prosinec: 1. týden 2. týden 3. a 4. týden Leden: zkouška cas první blok konzultací, seznámení s kursem a požadavky, zadání POT - 4 hodiny samostudium a práce s PC - 16 hodin samostudium - 4 hodiny vypracování prvních čtyř příkladů z POT - 2 hodiny druhý blok konzultací - 4 hodiny samostudium a práce s PC - 20 hodin třetí blok konzultací - 4 hodiny samostudium - 7 hodin vypracování dalších čtyř příkladů z POT - 2 hodiny samostudium a práce s PC - 10 hodin samostudium - 6 hodin vypracování POT - 1 hodina samostudium - 24 hodin Způsob studia Studijní pomůcky Doporučená literatura: ■ Anděl J.: Matematická statistika. SNTL/Alfa Praha 1978. ■ Arltová m., Bílková D., Jarošová E., Pourová z.: Sbírka příkladů ze statistiky (Statistika A). VŠE Praha 1996. 1. vydání. ISBN 80-7079-727-4 ■ Budíková m., Králová m., Maroš b.: Průvodce základními statistickými metodami. Grada 2010. ISBN 978-80-247-3243-5 ■ Budíková m., Mikoláš Š., Osecký P: Popisná statistika. MU Brno 2001. ■ budíková m., mikoláš Š., osecký P: Teorie pravděpodobnosti a matematická statistika. Sbírka příkladů. MU Brno 2001. ■ Hebák R, Kahounová J.: Počet pravděpodobnosti v příkladech. SNTL Praha 1978. ■ Karpíšek Z.: Pravděpodobnostní metody. VUT Brno 2000. ISBN 80-214-1832-X ■ Karpíšek Z., Drdla M.: Statistické metody. VUT Brno 1999. ISBN 80-214-1678-5 ■ novovičová J.: Pravděpodobnost a matematická statistika. ČVUT Praha 2002. Dotisk 1. vydání. ISBN 80-01-01980-2 ■ stuchlý J.: Statistika I. Cvičení ze statistických metod pro managery. VŠE Praha 1999. 1. vydání. ISBN 80-7079-754-1 Vybavení ■ PC ■ CD-ROM Návod práce se studijními texty Text je rozvržen do 11 kapitol a 3 příloh. 1. až 4. kapitola se zabývají popisnou statistikou. Popisná statistika je disciplína, která pomocí různých tabulek, grafů, funkcionálních a číselných charakteristik sumarizuje informace obsažené ve velkém množství dat. Používá jen základní matematické operace a lze ji snadno pochopit. Její důležitost spočívá jednak v tom, že se v praxi velmi často používá a jednak motivuje pojmy, které jsou potřeba v počtu pravděpodobnosti. 5. až 11. kapitola vás seznámí s počtem pravděpodobnosti, který se zabývá studiem zákonitostí v náhodných pokusech. Matematickými prostředky modeluje situace, v nichž hraje roli náhoda. Pod pojmem náhoda rozumíme působení faktorů, které se živelně mění při různých provedeních téhož pokusu a nepodléhají naší kontrole. Příloha A je tvořena vybranými statistickými tabulkami, konkrétně obsahuje hodnoty distribuční funkce standardizovaného normálního rozložení, kvantily standardizovaného normálního rozložení, Pearsonova rozloženíx2(n)> Studentova rozložení t(n) a Fisherova-Snedecorova rozložení F(ni, n2). Příloha B pak obsahuje informace o programovém systému STATISTICA a podrobné návody na jeho použití. V úvodu 1. až 11. kapitoly je vždy vymezen cíl kapitoly a je uvedena časová zátěž, která je potřebná ke zvládnutí příslušné kapitoly. Kapitoly jsou uzavřeny stručným shrnutím probrané látky a kontrolními otázkami a úkoly. Ty úkoly, jejichž řešení je nutné či alespoň vhodné provádět pomocí systému STATISTICA, jsou označeny (S). Výsledky úkolů můžete porovnat s výsledky, k nimž dospěli autoři učebního textu. 1. až 11. kapitola jsou uspořádány v logickém sledu. Do přílohy A budete nahlížet podle potřeby a příloha B vám poslouží rovněž průběžně. Obsah Obsah Stručný obsah Kapitola 1 Základní, výběrový a datový soubor Zavádí pojem objektu, základního a výběrového souboru, absolutní, relativní a podmíněné relativní četnosti množiny, zabývá se vlastnostmi relativní četnosti, definuje četnostní nezávislost dvou množin, vysvětluje pojem znaku, datového souboru a jevu. Kapitola 2 Bodové a intervalové rozložení četností Zabývá se tabulkovým a grafickým zpracováním četností, a to jak pro bodové, tak pro intervalové rozložení četností jednorozměrného a dvourozměrného znaku včetně zavedení funkcionálních charakteristik rozložení četností znaků. Kapitola 3 Číselné charakteristiky znaků Probírá číselné charakteristiky různých typů znaků, a to charakteristiky polohy, proměnlivosti, společné proměnlivosti dvou znaků a jejich lineární závislosti. Podává rovněž přehled vlastností číselných charakteristik. Kapitola 4 Regresní přímka Věnuje se speciálnímu případu regresní funkce, a to regresní přímce. Vysvětluje princip metody ne-jmenších čtverců, uvádí vzorce pro výpočet parametrů regresní přímky, vysvětluje význam těchto parametrů, posuzuje kvalitu regresní přímky pomocí indexu determinace. Zabývá se též vlastnostmi sdružených regresních přímek. Kapitola 5 Jev a jeho pravděpodobnost Vysvětluje pojem pokusu, základního prostoru a jevového pole, uvádí operace s jevy. Axiomaticky definuje pravděpodobnost, věnuje se vlastnostem pravděpodobnosti a zavádí klasickou pravděpodobnost. Kapitola 6 Stochasticky nezávislé jevy a podmíněná pravděpodobnost Zabývá se stochasticky nezávislými jevy, uvádí jejich vlastnosti a odvozuje geometrické a binomické rozložení pravděpodobností. Definuje podmíněnou pravděpodobnost, uvádí větu o násobení pravděpodobností, vzorec pro výpočet úplné pravděpodobnosti a Bayesův vzorec. Kapitola 7 Náhodná veličina a její distribuční funkce Číselně popisuje výsledky náhodných pokusů pomocí náhodných veličin a náhodných vektorů diskrétního a spojitého typu. Pravděpodobnostní chování náhodných veličin popisuje pomocí distribuční funkce, pravděpodobnostní funkce či pomocí hustoty pravděpodobnosti. Věnuje se též stochastické nezávislosti náhodných veličin. Kapitola 8 Podmíněná rozložení náhodných veličin V této kapitole je ukázáno, jak se chová rozložení jedné náhodné veličiny při pevně daných hodnotách druhé náhodné veličiny, a to jak v diskrétním, tak ve spojitém případě. Kapitola 9 Vybraná rozložení diskrétních a spojitých náhodných veličin Uvádí několik vybraných typů důležitých diskrétních a spojitých rozložení pravděpodobnosti. Popisuje situace, v nichž se tato rozložení vyskytují a zdůrazňuje význam normálního rozložení. Na základě standardizovaného normálního rozložení odvozuje speciální rozložení, která jsou pak používána v matematické statistice. Kapitola 10 Číselné charakteristiky náhodných veličin Probírá číselné charakteristiky náhodných veličin, které jsou teoretickými protějšky empirických číselných charakteristik zavedených v kapitole 3. Zabývá se též hledáním kvantilů některých spojitých rozložení ve statistických tabulkách a podává přehled středních hodnot a rozptylů důležitých typů rozložení. Kapitola 11 Zákon velkých čísel a centrální limitní věta Uvádí zákon velkých čísel a jeho důsledek - Bernoulliovu větu, která při velkém počtu pokusů umožní odhadnout pravděpodobnost úspěchu pomocí relativní četnosti tohoto úspěchu.Vysvětluje význam centrální limitní věty a jejího důsledku - Moivre-Laplaceovy věty. Obsah Úplný obsah Obsah.....................................................................................5 Úvod.....................................................................................11 Způsob studia...........................................................................13 1. Základní, výběrový a datový soubor...............................................15 2. Bodové a intervalové rozložení četností...........................................23 3. Číselné charakteristiky znaků......................................................45 4. Regresní přímka....................................................................55 5. Jev a jeho pravděpodobnost.......................................................63 6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost.....................71 7. Náhodná veličina a její distribuční funkce.........................................77 8. Podmíněná rozložení náhodných veličin..........................................91 9. Vybraná rozložení diskrétních a spojitých náhodných veličin...................103 10. Číselné charakteristiky náhodných veličin.......................................115 11. Zákon velkých čísel a centrální limitní věta.......................................133 Příloha A - Statistické tabulky.........................................................139 Příloha B - Základní informace o programu STATISTICA..............................155 Závěr....................................................................................165 Úvod Úvod Proč se zabývat statistikou? Statistika je metoda analýzy dat, která nachází široké uplatnění v celé řadě ekonomických, technických, přírodovědných a humanitních disciplín. Její význam v poslední době neustále roste, což úzce souvisí s rozvojem výpočetní techniky, která je používána jak při sběru a přenosu dat, tak při jejich zpracování a ukládání informací. Role statistiky v ekonomii je zcela nezastupitelná, neboť moderní řízení je založeno na nepřetržitém vyhodnocování informací o hospodářství jako celku i jeho subsystémech, a tyto informace poskytuje a následně zpracovává právě statistika. Přiměřená znalost základních statistických pojmů je pro ekonoma důležitá také proto, že mu pomáhá porozumět odborné ekonomické literatuře, jejíž některé části statistiku v hojné míře využívají. Aplikovat statistiku znamená shromažďovat data o studovaných jevech a zpracovávat je, tj. třídit, numericky vyhodnocovat a interpretovat. Statistika se tak pro ekonoma ocitá v těsném sousedství informatiky a výpočetní techniky a je připravena řešit ekonomické problémy pomocí kvantitativní analýzy dat. Způsob studia Způsob studia Co lze očekávat od tohoto textu? V předmětu „Statistika 1" se budeme zabývat dvěma oblastmi statistiky, a to popisnou statistikou a počtem pravděpodobno sti. Popisná statistika je disciplína, která pomocí různých tabulek, grafů, funkcionálních a číselných charakteristik sumarizuje informace obsažené ve velkém množství dat. Používá jen základní matematické operace a lze ji snadno pochopit. Její důležitost spočívá jednak v tom, že se v praxi velmi často používá a jednak motivuje pojmy, které jsou potřeba v počtu pravděpodobnosti. Počet pravděpodobnosti se zabývá studiem zákonitostí v náhodných pokusech. Matematickými prostředky modeluje situace, v nichž hraje roli náhoda. Pod pojmem náhoda rozumíme působení faktorů, které se živelně mění při různých provedeních téhož pokusu a nepodléhají naší kontrole. K úspěšnému zvládnutí předmětu „Statistika 1" je zapotřebí ovládat kombinatoriku, základy diferenciálního a integrálního počtu jedné a dvou proměnných a znát základy práce s osobním počítačem. Velmi účinným prostředkem pro řešení statistických úloh je programový systém STATISTICA. Masarykova univerzita je vlastníkem multilicence, tedy každý student může systém STATISTICA legálně používat. Informace o tomto systému a podrobné návody na jeho použití jsou uvedeny v příloze B studijních materiálů. Příklady či úkoly, jejichž řešení je nutné či alespoň vhodné provádět pomocí systému STATISTICA, jsou označeny (S). Příloha A obsahuje vybrané statistické tabulky, konkrétně hodnoty distribuční funkce standardizovaného normálního rozložení, kvantily standardizovaného normálního rozložení, Pearsonova rozložení x2(n)> Studentova rozložení t(ri) a Fisherova-Snedecorova rozložení F{ti\, n2). Všechny tyto tabelované hodnoty (a samozřejmě mnohé další) lze získat pomocí systému STATISTICA. Základní, výběrový a datový soubor 1. Základní, výběrový a datový soubor Cíl kapitoly Po prostudování této kapitoly budete umět: ■ vymezit základní soubor a jeho objekty ■ stanovit výběrový soubor ■ spočítat absolutní a relativní četnosti množin ve výběrovém souboru a znát vlastnosti relativní četnosti a podmíněné relativní četnosti ■ ověřit četnostní nezávislost dvou množin ve výběrovém souboru ■ vytvořit datový soubor ■ uspořádat jednorozměrný datový soubor a stanovit vektor variant ■ vypočítat absolutní a relativní četnost jevu ve výběrovém souboru Časová zátěž Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia. Nejprve se seznámíme s definicí základního a výběrového souboru a pojmem absolutní a relativní četnosti množiny v daném výběrovém souboru. Uvedeme příklad, s jehož různými variantami se budeme setkávat ve všech kapitolách věnovaných popisné statistice. Rovněž shrneme vlastnosti relativní četnosti. 1.1. Definice Základním souborem rozumíme libovolnou neprázdnou množinu E. Její prvky značíme s a nazýváme je objekty. Libovolnou neprázdnou podmnožinu {s\,... ,s„] základního souboru E nazýváme výběrový soubor rozsahu n. Je-li G c E, pak symbolem N{G) rozumíme absolutní četnost množiny G ve výběrovém souboru, tj. počet těch objektů množiny G, které patří do výběrového souboru. Relativní četnost množiny G ve výběrovém souboru zavedeme vztahem p{G) = N{G) 1.2. Příklad Základním souborem E je množina všech ekonomicky zaměřených studentů 1. ročníku českých vysokých škol. Množina G\ je tvořena těmi studenty, kteří uspěli v prvním zkušebním termínu z matematiky a množina G2 obsahuje ty studenty, kteří uspěli v prvním zkušebním termínu z angličtiny. Ze základního souboru bylo náhodně vybráno 20 studentů, kteří tvoří výběrový soubor {s\,..., s2o}. Z těchto 20 studentů 12 uspělo v matematice, 15 v angličtině a 11 v obou předmětech. Zapište absolutní a relativní četnosti úspěšných matematiků, angličtinám a oboustranně úspěšných studentů. Řešení: ÍV(G0 = 12, N(G2) = 15, N(Gi n G2) = 11, n = 20 p(Gi) = = 0,6, p(G2) = = 0,75, p(Gi nG2) = ^= 0,55 16 Vidíme, že úspěšných matematiků je 60 %, angličtinám 75 % a oboustranně úspěšných studentů jen 55 %. 1.3. Věta Relativní četnost má následujících 12 vlastností, které jsou obdobné vlastnostem procent. M®) = 0 p{G) > 0 p(d U G2) + p(d n G2) = p(d) + p(G2) 1 + p(d n G2) > Md) + p(G2) p(GlUG2) Md U G2) = Md) + p(G2) p(G2-G1)=p(G2)-p(G1nG2) d c G2 =^> /?(G2 - Gi) = /?(G2) - /?(Gi) Gi c G2 => /7(Gi) < /?(G2) P(E) = 1 _ MG) + p(G) = 1 MG) < 1 Pokud se v daném základním souboru zajímáme o dvě podmnožiny, můžeme zavést pojem podmíněné relativní četnosti jedné podmnožiny v daném výběrovém souboru za předpokladu, že objekt pochází z druhé podmnožiny. V následujícím příkladu vypočteme podmíněné relativní četnosti úspěšných matematiků mezi úspěšnými angličtinári a naopak. 1.4. Definice Nechť E je základní soubor, G\, G2 jeho podmnožiny, {s\,..., sn] výběrový soubor. Definujeme podmíněnou relativní četnost množiny G\ ve výběrovém souboru za předpokladu G2: MGi|G2) = ———— =-—— N(G2) p(G2) a podmíněnou relativní četnost G2 ve výběrovém souboru za předpokladu G\. N(d n G2) p(d n G2) p(G2\d) N(Gi) p(d) 1.5. Příklad Pro údaje z příkladu 1.2 vypočtěte podmíněnou relativní četnost úspěšných matematiků mezi úspěšnými angličtinári a podmíněnou relativní četnost úspěšných angličtinám mezi úspěšnými matematiky. Řešení: p{G\\G2) = = 0,73 (tzn., že 73 % těch studentů, kteří byli úspěšní v angličtině, uspělo i v matematice) 1. Základní, výběrový a datový soubor /?(G2|Gi) = || = 0,92 (tzn., že 92 % těch studentů, kteří byli úspěšní v matematice, uspělo i v angličtině) Nyní se naučíme, jak ověřovat četnostní nezávislost dvou množin v daném výběrovém souboru. Znamená to, že informace o původu objektu z jedné množiny nijak nemění šance, s nimiž soudíme na jeho původ i z druhé množiny. Ověříme, zda úspěch v matematice a angličtině jsou v daném výběrovém souboru četnostně nezávislé. 1.6. Definice Řekneme, že množiny G\, G2 jsou četnostně nezávislé v daném výběrovém souboru, jestliže p(G1 n G2) = p{Gx) ■ p{G2). (V praxi jen zřídka dojde k tomu, že uvedený vztah platí přesně. Většinou je jen naznačena určitá tendence četnostní nezávislosti.) 1.7. Příklad Pro údaje z příkladu 1.2 zjistěte, zda úspěchy v matematice a angličtině jsou v daném výběrovém souboru četnostně nezávislé. Řešení: p{d n G2) = 0,55, p{Gi) ■ p{G2) = 0,6 • 0,75 = 0,45, tedy skutečná relativní četnost oboustranně úspěšných studentů je větší než by odpovídalo četnostní nezávislosti množin Gi, G2 v daném výběrovém souboru. Nyní každý objekt základního souboru ohodnotíme jedním nebo více čísly pomocí funkce, která se nazývá znak. Čísla, která se vztahují pouze k objektům výběrového souboru sestavíme do matice zvané datový soubor. Vysvětlíme si, co to je uspořádaný datový soubor a vektor variant. Uvedené pojmy objasníme na příkladu. 1.8. Definice Nechť E je základní soubor. Potom funkce X : E —> R, Y : E —> R, ..., Z : E —> R, které každému objektu přiřazují číslo, se nazývají (skalární) znaky. Uspořádaná p-tice (X, Y,..., Z) se nazývá vektorový znak. 1.9. Definice Nechť je dán výběrový soubor {s\,..., sn] c E. Hodnoty znaků X, Y,..., Z pro z'-tý objekt označíme Xj = X(ei), y i = Y(sj), ... ,zí = Z(sj), i = l,...,n. Matice X n y n Z2 Zn typu n x p se nazývá datový soubor. Její řádky odpovídají jednotlivým objektům, sloupce znakům. 18 Libovolný sloupec této matice nazýváme jednorozměrným datovým souborem. Jestliže uspořádáme hodnoty některého znaku (např. znaku X) v jednorozměrném datovém souboru vzestupně podle velikosti, dostaneme uspořádaný datový soubor X(\) kde jC(i) < X(2) < ••• < x(n). Vektor kdejC[i] < ••• < X[r] j sou navzájem různé hodnoty znaku X, se nazývá vektor variant. 1.10. Příklad Pro studenty z výběrového souboru uvedeného v příkladu 1.2 byly zjišťovány hodnoty znaků X - známka z matematiky v prvním zkušebním termínu, Y - známka z angličtiny v prvním zkušebním termínu, Z-pohlaví studenta (0 ... žena, 1... muž). Byl získán datový soubor 2 2 0 1 3 1 4 3 1 1 1 0 1 2 1 4 4 1 3 3 1 3 4 0 1 1 0 1 1 0 4 2 1 4 4 0 2 2 0 4 3 1 2 3 1 4 4 0 1 1 0 4 3 1 4 4 1 1 3 0 Utvořte jednorozměrný neuspořádaný i uspořádaný datový soubor pro známky z matematiky a vektory variant pro známky z matematiky. 1. Základní, výběrový a datový soubor Řešení: 2 1 1 1 4 1 1 1 1 1 4 1 3 1 3 2 1 2 1 2 4 3 4 3 2 4 4 4 2 4 4 4 1 4 4 4 4 4 1 4. V závěrečné partii této kapitoly se seznámíme s pojmem jevu a jeho absolutní a relativní četnosti. V následujícím příkladu vypočítáme konkrétní absolutní a relativní četnosti několika jevů. 1.11. Definice Nechť {s\,..., £„} je výběrový soubor, X,Y,...,Z jsou znaky, B, Bi,..., Bp jsou číselné množiny. Zápis {X e B] znamená jev ,jnak X nabyl hodnoty z množiny 6" a zápis {X e B\ A Y e B2 a ... Z e 6^} znamená jev X nabyl hodnoty z množiny B\ a současně znak Y nabyl hodnoty z množiny B2 atd. až znak Z nabyl hodnoty z množiny Bp". Symbol N(X e B) značí absolutní četnost jevu {X e B} ve výběrovém souboru, tj. počet těch objektů ve výběrovém souboru, pro něž jc, e B. Symbol p(X e B) znamená relativní četnost jevu {X e B] ve výběrovém souboru, tj. N(X e B) n AnalogickyN(X e BXAY e B2A---AZ e Bp)vesp.p(X e BXAY e B2A---AZ e Bp) znamená absolutní resp. relativní četnost jevu {X e Bi A Y e B2 A ■ ■ ■ A Z e Bp] ve výběrovém souboru. 1.12. Příklad Pro datový soubor z příkladu 1.10 najděte relativní četnost a) matematických j edničkářů, b) úspěšných matematiků, c) oboustranně neúspěšných studentů. 20 Řešení: ad a) p(X=l) = l = 0,35; ad b) p(X < 3) = ^ = 0,60; ad c) p(X = 4Aľ = 4) = ^ = 0,20. Shrnutí kapitoly Předmětem statistického zájmu není jednotlivý objekt, nýbrž soubor objektů, tzv. základní soubor. Zpravidla není možné vyšetřovat všechny objekty, ale jenom určitý počet objektů, které tvoří výběrový soubor. Ty prvky základního souboru, které vykazují určitou společnou vlastnost, tvoří množinu. Statistik zkoumá absolutní a relativní četnost množiny v daném výběrovém souboru. Zajímají-li nás ve výběrovém souboru dvě množiny, můžeme zkoumat výskyty objektů z jedné množiny mezi objekty pocházejícími z druhé množiny. Tím dospíváme k pojmu podmíněné relativní četnosti. Rovněž lze ověřovat četnostní nezávislost těchto dvou množin v daném výběrovém souboru. Četnostní nezávislost vlastně znamená, že informace o původu objektu z jedné množiny nijak nemění šance, s nimiž soudíme na jeho původ z druhé množiny. Každému objektu základního souboru lze pomocí funkce zvané znak přiřadit číslo (nebo i více čísel). Pokud hodnoty znaků pro objekty daného výběrového souboru uspořádáme do matice, dostáváme datový soubor. Libovolný sloupec této matice tvoří jednorozměrný datový soubor, který můžeme uspořádat podle velikosti a vytvořit tak uspořádaný datový soubor nebo z něj získat vektor variant. Jevem rozumíme skutečnost, že znak nabyl hodnoty z nějaké číselné množiny. Můžeme zkoumat absolutní a relativní četnost jevu v daném výběrovém souboru. Kontrolní otázky a úkoly 1. Uveďte příklad základního souboru z ekonomické praxe. 2. Nechť množiny G\, G2 jsou neslučitelné a nechť dále p{G\) = 0,27, p{G\ U G2) = 0,75. Vypočtěte p(G2). [p(G2) = p{Gx U G2) - p{Gx) = 0,75 - 0,27 = 0,48] 3. Nechť Gi c G2, p(Gi) = 0,33, p(G2 - Gx) = 0,15. Vypočtěte p(G2). [p(G2) = p(G2 - Gi) + p{Gi) = 0,15 + 0,33 = 0,48] 4. Nechť/?(Gi - G2) = 0,36, p{Gx n G2) = 0,12. Vypočtěte p{Gi). [/?(Gi) = p{Gx - G2) + p{Gx n G2) = 0,36 + 0,12 = 0,48] 5. Je dán dvourozměrný datový soubor "2 1" 2 0 1 0 4 2 4 2 3 2 3 1 5 3 5 2 2 0 1. Základní, výběrový a datový soubor Znak X znamená počet členů domácnosti a znak Y počet dětí do 15 let v této domácnosti. a) Utvořte uspořádané datové soubory pro znaky X a Y. b) Najděte vektory variant znaků X a Y. c) Vypočtěte relativní četnost tříčlenných domácností. d) Vypočtěte relativní četnost nejvýše tříčlenných domácností. e) Vypočtěte relativní četnost bezdětných domácností. f) Vypočtěte relativní četnost dvoučlenných bezdětných domácností. g) Vypočtěte podmíněnou relativní četnost dvoučlenných domácností, které jsou bezdětné. [a) uspořádaný datový soubor pro znak X: (122233445 5)r, uspořádaný datový soubor pro znak Y: (0 0 0 1 1 2 2 2 2 3)T, b) vektor variant pro znak X: (1 2 3 4 5)r, vektor variant pro znak Y: (0 1 2 3)T, c) relativní četnost tříčlenných domácností: 0,2, d) relativní četnost nejvýše tříčlenných domácností: 0,6, e) relativní četnost bezdětných domácností: 0,3, f) relativní četnost dvoučlenných domácností: 0,2, g) podmíněná relativní četnost těch dvoučlenných domácností, které jsou bezdětné: 0,6.] 22 Bodové a intervalové rozložení četností 2. Bodové a intervalové rozložení četností Cíl kapitoly Po prostudování této kapitoly budete umět: ■ konstruovat diagramy znázorňující rozložení četností ■ vytvářet tabulky četností ■ sestrojit grafy četnostní funkce, empirické distribuční funkce, hustoty četnosti a empirické intervalové distribuční funkce Časová zátěž Pro zvládnutí této kapitoly budete potřebovat 7-8 hodin studia. Nejprve se seznámíme s bodovým rozložením četností a ukážeme si, jak pomocí různých diagramů graficky znázornit bodové rozložení četností. Pro datový soubor známek z matematiky a angličtiny pak vytvoříme několik typů diagramů. 2.1. Definice Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X není příliš velký, pak přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností. 2.2. Definice Existuje několik způsobů, jak graficky znázornit bodové rozložení četností. Tečkový diagram: na číselné ose vyznačíme jednotlivé varianty znaku X a nad každou variantu nakreslíme tolik teček, jaký je její počet výskytů. Polygon četnosti: je lomená čára spojující body, jejichž jc-ová souřadnice je varianta znaku X a y-owá souřadnice je počet výskytů této varianty. Sloupkový diagram: je soustava na sebe nenavazujících obdélníků, kde střed základny je varianta znaku X a výška je počet výskytů této varianty. Výsečový graf: je kruh rozdělený na výseče, jejichž vnější obvod odpovídá počtu výskytů variant znaku X. Dvourozměrný tečkový diagram: na vodorovnou osu vyneseme varianty znaku X, na svislou varianty znaku F a do příslušných průsečíků nakreslíme tolik teček, jaký je počet výskytů dané dvojice. 2.3. Příklad Pro datový soubor z příkladu 1.10 sestrojte a) jednorozměrné tečkové diagramy pro znak X a znak F, b) polygony četností pro znak X a znak F, c) sloupkové diagramy pro znak X a znak F, d) výsečové diagramy pro znak X a znak F, e) dvourozměrný tečkový diagram pro vektorový znak (X, F), 24 Řešení: ad a) Známka z matematiky Známka z angličtiny H-h H-1-1-h adb) Polygon četnosti pro známky z matematiky ad c) Sloupkový diagram známek z matematiky 10.- 12 3 4 add) Výsečový diagram známek z matematiky Polygon četnosti pro známky z angličtiny 10 Sloupkový diagram známek z angličtiny Výsečový diagram známek z angličtiny 2. Bodové a intervalové rozložení četností Ze všech těchto diagramů je vidět odlišný přístup zkoušejících ke studentům. Matematik nešetří jedničkami, ale místo trojky raději rovnou dává čtyřku. Naproti tomu angličtinár považuje trojku za typickou studentskou známku. ad e) 1 2 3 4 ^ Dvourozměrný tečkový diagram svědčí o nepříliš výrazné tendenci k podobné klasifikaci v obou předmětech. Můžete si zkusit nakreslit dvourozměrné tečkové diagramy zvlášť pro muže a zvlášť pro ženy. Zjistíte, že u žen je tendence k podobným známkám daleko silnější než u mužů. Bodové rozložení četností lze znázornit nejenom graficky, ale též tabulkou zvanou variační řada, která obsahuje absolutní a relativní četnosti jednotlivých variant znaku v daném výběrovém souboru a též absolutní a relativní kumulativní četnosti. Pomocí relativních četností se zavádí četnostní funkce, pomocí relativních kumulativních četností empirická distribuční funkce (je pro ni typické, že má schodovitý průběh). Tyto pojmy objasníme na příkladu známek z matematiky a uvedeme rovněž vlastnosti obou výše zmíněných funkcí. 2.4. Definice Nechť je dán jednorozměrný datový soubor, v němž znak X nabývá r variant. Pro j = 1,..., r definujeme: absolutní četnost varianty X[j] ve výběrovém souboru n j = N (X = x[n) relativní četnost varianty x^ ve výběrovém souboru nJ P i = — n absolutní kumulativní četnost prvních j variant ve výběrovém souboru Nj = N(X < xvn) = «! + •••+«,- relativní kumulativní četnost prvních j variant ve výběrovém souboru Fj = — = Pl + ---+Pj n 26 Tabulka typu x[j] nJ Pj Fj nx Pi Ni x[r] nr Pr Nr Fr se nazývá variační řada. Funkce p(x) = se nazývá četnostnífunkce. Funkce F{x) = O 1 p j pro x = x[n, j= 1, 0 jinak pro x < x[\] pro x[n x[r] r-l se nazývá empirická distribuční funkce. 2.5. Příklad Pro datový soubor z příkladu 1.10 sestavte variační řadu pro znak X. Nakreslete grafy četnostní funkce a empirické distribuční funkce. Řešení: XU1 Pj Nj Fj 1 7 0,35 7 0,35 2 3 0,15 10 0,50 3 2 0,10 12 0,60 4 8 0,40 20 1,00 - 20 1,00 - - Viz obrázek na následující straně. 2.6. Věta Četnostní funkce je nezáporná (Vjc e R : p(x) > 0) a normovaná, tj. 2 = L Empirická distribuční funkce je neklesající, tzn. Vjci,jc2 e R, jci < x2 : F(jci) < F(jc2), zprava spojitá (Vjco e R libovolné, ale pevně dané: lim F(x) = F(xq)) a normovaná (lim F(x) = 0, lim F(x) = 1). 2. Bodové a intervalové rozložení četností Nyní se budeme zabývat dvourozměrným datovým souborem. Zavedeme simultánní absolutní a relativní četnosti pro dvojice variant znaků X a Y a ukážeme souvislost mezi simultánními a marginálními četnostmi. Budeme definovat podmíněné relativní četnosti. Vysvětlíme si, jak se uvedené četnosti zapisují do kontingenčních tabulek. Pomocí simultánních relativních četností zavedeme simultánní četnostní funkci, seznámíme se s jejími vlastnostmi a ukážeme vztah mezi simultánní četnostní funkcí a marginálními četnostními funkcemi. Zavedeme pojem četnostní nezávislosti znaků v daném výběrovém souboru. Se všemi uvedenými pojmy se naučíme pracovat v příkladu se známkami z matematiky a angličtiny. 2.7. Definice Nechť je dán dvourozměrný datový soubor kde znak X má r variant a znak Y má s variant. Pak definujeme: simultánní absolutní četnost dvojice (.%], )>[&]) ve výběrovém souboru njk = N(X = x[n a Y = ym), simultánní relativní četnost dvojice (.%], )>[&]) ve výběrovém souboru nJk Pjk = —, n 28 marginální absolutní četnost varianty X[j] rij. = N(X = xU]) = «_,•! + ••• + njs, marginální relativní četnost varianty X[j] Pj. = — =Pji + ---+pjs, n marginální absolutní četnost varianty y^] n.k = N(Y = ym) = % + ■•■ + nrk, marginální relativní četnost varianty y^ P.k = - = Plk + ■ ■ ■ + Prk, n sloupcově podmíněná relativní četnost varianty x^ za předpokladu y^] P m - řádkově podmíněná relativní četnost varianty y^] za předpokladu x^ Kteroukoliv ze simultánních četností či podmíněných relativních četností zapisujeme do kontingenční tabulky. Kontingenční tabulka simultánních absolutních četností má tvar: y X X[l] nn nls n\. X[r] nr\ nrs nr. n.k n.\ n.s n Funkce p^y) = í Pik Pro x = y = y^ í = h ■ ■ ■,r, k = 1,..., s \ 0 jinak se nazývá simultánní četnostní funkce. Četnostní funkce pro znaky X a Y (tzv. marginání četnostní funkce) odlišíme indexem takto: n(^_ÍPj- prox = xU], j=l,...,r PÁX) ~ \ 0 jinak Piiy) p.k proy = ym, k=l,...,s 0 jinak 2. Bodové a intervalové rozložení četností Funkce pi\2 (x\y) zavedená vztahem Vjc e R: Pm (x\y) = pro p2 (y) > 0 jinak se nazývá sloupcově podmíněná četnostní funkce. Funkce p2\i (y\x) zavedená vztahem Vy e R: Pm (y\x) = pro /?! (x) > 0 jinak se nazývá řádkově podmíněná četnostní funkce. Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé, právě když pro všechna j = 1,..., r a všechna k = 1,..., s platí multiplikativní vztah: p^ = p j ■ p ^ neboli V(ij)eť: p(x,y) = Pl(x) ■ p2(y). Definici četnostní nezávislosti lze vyslovit i takto: znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé, jestliže platí: Vy e R,p2(y) > 0: p\\2 (x \y) = Pi (x) resp. Vjc e R, /?i (jc) > 0: p2\\ (y \x) = p2 (y). (Znamená to, že podmíněná četnostní funkce znaku X za podmínky Y = y je rovna marginální četnostní funkci znaku X resp. podmíněná četnostní funkce znaku Y za podmínky X = x je rovna marginální četnostní funkci znaku Y). 2.8. Věta Mezi simultánní četnostní funkcí a marginálními četnostními funkcemi platí vztahy: co co Pi(x) = ^ p(x,y), p2(y) = ^ p(x,y). 2.9. Příklad Pro datový soubor z příkladu 1.10 a) sestavte kontingenční tabulky simultánních absolutních a relativních četností, b) nakreslete graf simultánní četnostní funkce p(x, y), c) sestavte kontingenční tabulky sloupcově a řádkově podmíněných relativních četností, d) kolik procent těch studentů, kteří měli jedničku z angličtiny, mělo dvojku z matematiky, e) kolik procent těch studentů, kteří měli jedničku z matematiky, mělo dvojku z angličtiny, f) zjistěte, zda znaky X, F jsou v daném výběrovém souboru četnostně nezávislé. 30 Řešení: ad a) y i 2 3 4 nj X 1 4 1 2 0 7 2 0 2 1 0 3 3 0 0 1 1 2 4 0 1 3 4 8 n.k 4 4 7 5 n = 20 1 2 3 4 Pj. Pjk 1 0,20 0,05 0,10 0,00 0,35 2 0,00 0,10 0,05 0,00 0,15 3 0,00 0,00 0,05 0,05 0,10 4 0,00 0,05 0,15 0,20 0,40 0,20 0,20 0,35 0,25 1,00 adb) o 0,20n 1 2. Bodové a intervalové rozložení četností ad c) l 2 3 4 x Pm 1 1,00 0,25 0,29 0,00 2 0,00 0,50 0,14 0,00 3 0,00 0,00 0,14 0,20 4 0,00 0,25 0,43 0,80 Z 1,00 1,00 1,00 1,00 y 1 2 3 4 Z x P(j)k 1 0,57 0,14 0,29 0,00 1,00 2 0,00 0,67 0,33 0,00 1,00 3 0,00 0,00 0,50 0,50 1,00 4 0,00 0,12 0,38 0,50 1,00 ad d) Tento údaj najdeme ve druhém řádku prvního sloupce tabulky sloupcově podmíněných relativních četností: 0 %. ad e) Tento údaj najdeme v prvním řádku druhého sloupce tabulky řádkově podmíněných relativních četností: 14%. ad f) Kdyby v daném výběrovém souboru byly oba znaky četnostně nezávislé, platil by pro všechna j = 1,2,3,4 a všechna k = 1,2,3,4 multiplikativní vztah: pjk = p j ■ p k, což splněno není. Tedy známky z matematiky a angličtiny nejsou četnostně nezávislé. V některých datových souborech je počet variant znaku příliš veliký a použití bodového rozložení četností by vedlo k nepřehledným a roztříštěným výsledkům. V takových situacích používáme intervalové rozložení četností. Definujeme třídicí interval a jeho absolutní a relativní četnost, absolutní a relativní kumulativní četnost. Nově zavádíme četnostní hustotu třídicího intervalu. Uvedené četnosti zapisujeme do tabulky rozložení četností. Počet třídicích intervalů stanovujeme např. podle Sturgesova pravidla. Intervalové rozložení četností požijeme v příkladu s datovým souborem obsahujícím údaje o mezích plasticity a pevnosti 60 vzorků oceli. 2.10. Definice Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X je blízký rozsahu souboru, pak přiřazujeme četnosti nikoliv jednotlivým variantám, ale celým intervalům hodnot. Hovoříme pak o intervalovém rozložení četností. 2.11. Definice Číselnou osu rozložíme na intervaly typu (-00, m), («1, u2), ■ ■ ■, (ur, ur+\), (ur+\, 00) tak, aby okrajové intervaly neobsahovaly žádnou pozorovanou hodnotu znaku X. 32 Užíváme označení: j-tý třídicí interval znaku X, j = 1,..., r. (Uj,Uj+i), délka j-tého třídicího intervalu znaku X: d j = Uj+\ — u j, střed j-tého třídicího intervalu znaku X: _ 1 Třídicí intervaly volíme nejčastěji stejně dlouhé. Jejich počet určíme např. pomocí Sturgesova pravidla: r « 1 + 3,3 • log n, kde n je rozsah datového souboru. 2.12. Definice Nechťje dán jednorozměrný datový soubor rozsahu n. Hodnoty znaku X roztřídíme do r třídicích intervalů. Pro j = 1,..., r definujeme: absolutní četnost j-tého třídicího intervalu ve výběrovém souboru n j = N (u j < X < Uj+i), relativní četnost j-tého třídicího intervalu ve výběrovém souboru nJ Pj = —» n četnostní hustota j-tého třídicího intervalu ve výběrovém souboru f. = El absolutní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru Nj = N(X < uj+i) = «! + ••• + «_,-, relativní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru NJ F j = — =/?! + .•• + p j. 2. Bodové a intervalové rozložení četností Tabulka typu (Uj,Uj+i) dj XU] Pi fj («1,«2> di *[i] «1 Pi fl Ni Fl (ur,ur+i) dr X[r] nr Pr fr Fr z n 1 se nazývá tabulka rozložení četností. 2.13. Příklad Z fiktivního základního souboru všech vzorků oceli odpovídajících „všem myslitelným tavbám" bylo do laboratoře dodáno 60 vzorků a zjištěny hodnoty znaku X -mez plasticity a Y - mez pevnosti (v kpcirr2). Datový soubor má tvar: 154 133 58 145 94 113 86 121 119 112 85 41 96 45 99 178 164 75 161 107 141 97 127 138 125 97 72 113 89 109 51 101 160 87 88 83 106 92 85 112 98 103 99 104 107 95 114 169 101 139 98 111 104 103 118 102 108 119 128 118 98 97 33 78 73 77 47 68 140 115 105 101 71 93 39 69 122 147 52 117 147 137 125 149 76 85 61 85 137 142 44 92 66 42 68 116 141 157 155 189 136 155 82 81 136 163 72 79 81 61 113 123 42 85 123 147 153 179 85 91 a) Pro znak X stanovte optimální počet třídicích intervalů dle Sturgesova pravidla. b) Sestavte tabulku rozložení četností. Řešení: ad a) Rozsah datového souboru je 60, tedy podle Sturgesova pravidla je optimální počet třídicích intervalů r = 7. Budeme tedy volit 7 intervalů stejné délky tak, aby v nich byly obsaženy všechny pozorované hodnoty znaku X, z nichž nejmenší je 33, největší 160; volba u\ = 30, ..., «8 = 170 splňuje požadavky. 34 ad b) (Uj,Uj+l) dj XU1 ni Pj Nj Fj fj (30,50> 20 40 8 0,1333 8 0,1333 0,0066 (50,70) 20 60 4 0,0667 12 0,2000 0,0033 (70,90> 20 80 13 0,2166 25 0,4167 0,0108 (90,110) 20 100 15 0,2500 40 0,6667 0,0125 (110,130) 20 120 9 0,1500 49 0,8167 0,0075 (130,150) 20 140 7 0,1167 56 0,9333 0,0058 (150,170) 20 160 4 0,0667 60 1,0000 0,0033 Součet 60 1,0000 Ke grafickému znázornění intervalového rozložení četností slouží histogram. S jeho pomocí lze dobře vysvětlit, co znamená hustota četnosti, což je funkce zavedená pomocí četnostních hustot jednotlivých třídicích intervalů. S hustotou četnosti úzce souvisí intervalová empirická distribuční funkce (je všude spojitá, protože je funkcí horní meze integrálu z hustoty četnosti). Pro údaje o mezi platicity oceli vytvoříme histogram a graf intervalové empirické distribuční funkce. Seznámíme se rovněž s vlastnostmi obou výše zmíněných funkcí. 2.14. Definice Intervalové rozložení četností znázorňujeme pomocí histogramu. Je to graf skládající se z r obdélníků, sestrojených nad třídicími intervaly, přičemž obsah j-tého obdélníku je roven relativní četnosti pj j-tého třídicího intervalu, j = 1,..., r. Histogram je shora omezen schodovitou čarou, která je grafem funkce zvané hustota četnosti: y(jc) = ( fí Pr° Uj 0) a normovaná (J f (x) dx = —oo 1). Intervalová empirická distribuční funkce je neklesající, spojitá a normovaná (lim F (x) = 0, lim F (x) = 1). x—>-oo x—>oo V následujícím tématu se budeme věnovat dvourozměrnému intervalovému rozložení četnosti, tj. budeme pracovat s dvourozměrným datovým souborem. Zavedeme podobné pojmy jako u dvourozměrného bodového rozložení četnosti a jejich pochopení si ověříme na příkladě s datovým souborem obsahujícím údaje o mezi plasticity a mezi pevnosti oceli. 2.17. Definice Nechť je dán dvourozměrný datový soubor 36 kde hodnoty znaku X roztřídíme do r třídicích intervalů («,-, «,•+!>, j = l,...,r s délkami d\,..., dr a hodnoty znaku Y roztřídíme do s třídicích intervalů (v*, v^+i), k = 1,..., s s délkami hi,...,hs. Pak definujeme: simultánní absolutní četnost (j,k)-tého třídicího intervalu: njk = N(Uj < X < Uj+i a vk < Y < vk+i), simultánní relativní četnost (j,k)-tého třídicího intervalu: njk Pjk = —, n marginální absolutní četnost j-tého třídicího intervalu pro znakX: tij. =«,-! + ••• + njs, marginální relativní četnost j-tého třídicího intervalu pro znakX: nJ- P i- = —' n marginální absolutní četnost k-tého třídicího intervalu pro znak Y: n k = nu + ■ ■ ■ + nrk, marginální relativní četnost k-tého třídicího intervalu pro znak Y: n.k P.k = —, n simultánní četnostní hustota v (j,k)-tém třídicím intervalu: Pjk jk djhk marginální četnostní hustota v j-tém třídicím intervalu pro znak X: f.=PJ- marginální četnostní hustota v k-tém třídicím intervalu pro znak Y: , P.k jjc - ~r- Kteroukoliv ze simultánních četností zapisujeme do kontingenční tabulky. Uveďme kontingenční tabulku simultánních absolutních četností: (vk,vk+i) (Vl,V2> (vs,vs+i) (Uj,Uj+i) njk («1,«2> «11 nu ni. (ur, Ur+i) nrX ■ ■ nrs nr n.k n.i n s n 2. Bodové a intervalové rozložení četností Funkce ý(x y) = { hk pro uivk 0 0 jinak se nazývá sloupcově podmíněná hustota četnosti. Funkce /2|i (y\x) zavedená vztahem Vy e R: , , , , / Pro/1W>0 /211 (yW= X ■• 1 ^ 0 jinak se nazývá řádkově podmíněná hustota četnosti. Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé při intervalovém rozložení četností, jestliže pro všechna j = 1,... ,r a všechna k = 1,..., s platí multiplikativní vztah: = fj. ■ f k neboli pro V(x,y)eR2:f(x,y) = Mx)f2(y). Definici četnostní nezávislosti lze vyslovit i takto: znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé při intervalovém rozložení četností, jestliže platí: Vy e R, f2 (y) > 0: fm (x \y) = f, (x) resp. V* e R, /i (x) > 0: (y \x) = f2 (y). (Znamená to, že podmíněná hustota četnosti znaku X za podmínky Y = y je rovna marginální hustotě četnosti znaku X resp. podmíněná hustota četnosti znaku Y za podmínky X = x je rovna marginální hustotě četnosti znaku Y). 2.18. Věta Mezi simultánní hustotou četnosti a marginálními hustotami četnosti platí vztahy: co y)dy, /2OO = f(x,y)dx. co 2.19. Příklad Pro datový soubor z příkladu 2.13 a) stanovte dle Sturgesova pravidla optimální počet třídicích intervalů pro znak Y b) sestavte kontingenční tabulku simultánních absolutních četností. 38 Řešení: ad a) Rozsah datového souboru je 60. Podle Sturgesova pravidla je tedy optimální počet třídicích intervalů s = 7. Nejmenší hodnota je 52 a největší 189. Volíme Vl = 50, v2 = 70,..., v8 = 190. 8" ď o" cr -\£ {Uj,Uj+i) (30,50> 5 3 0 0 0 0 0 8 (50,70) 0 3 1 0 0 0 0 4 (70,90) 0 4 7 1 1 0 0 13 (90,110) 0 0 6 8 1 0 0 15 (110,130) 0 0 0 4 5 0 0 9 (130,150) 0 0 0 0 2 5 0 7 (150,170) 0 0 0 0 0 1 3 4 n.k 5 10 14 13 9 6 3 60 Shrnutí kapitoly Není-li v jednorozměrném souboru počet variant znaku příliš velký, pak přiřazujeme četnosti jednotlivým variantám znaku a hovoříme o serisebodovém rozložení četnosti. To lze znázornit graficky pomocí různých diagramů (např. tečkový diagram, sloupkový diagram atd.). Pokud zapíšeme četnosti do tabulky, dostaneme variační řadu. Pomocí relativních četností zavedeme četnostní funkci, pomocí kumulativních relativních četností empirickou distribuční funkci, která má schodovitý průběh. Pracujeme-li s dvourozměrným datovým souborem, zavádíme simultánní četnosti a zapisujeme je do kontingenční tabulky. Na okrajích kontingenční tabulky jsou uvedeny marginální četnosti, které se vztahují jen k jednomu znaku. Pomocí simultánních kumulativních relativních četností zavádíme simultánní četnostní funkci. Simultánní a marginální četnosti či četnostní funkce nám snadno umožní ověřit četnostní nezávislost dvou znaků v daném výběrovém souboru. Je-li počet variant znaku srovnatelný s rozsahem souboru, použijeme raději intervalové rozložení četnosti, při němž přiřazujeme četnosti nikoli jednotlivým variantám, ale třídicím intervalům. Jejich počet určíme např. pomocí Sturgesova pravidla. Četnosti třídicích intervalů zapisujeme do tabulky rozložení četností. Relativní četnosti třídicích intervalů znázorňujeme pomocí histogramu. Schodovitá čára shora omezující histogram je grafem hustoty četnosti. Spojitým protějškem schodovité empirické distribuční funkce je intervalová empirická distribuční funkce zavedená jako funkce horní meze integrálu z hustoty četnosti. Při dvourozměrném intervalovém rozložení četností pracujeme s podobnými pojmy jako u dvourozměrného bodového rozložení četnosti. Místo simultánní a marginální četnostní funkce samozřejmě máme simultánní či marginální hustotu četnosti. 2. Bodové a intervalové rozložení četností Kontrolní otázky a úkoly 1. Jaké grafy znázorňující rozložení četností znáte? Popište způsob jejich konstrukce. 2. Jak vzniká variační řada? 3. Jaké četnosti zapisujeme do kontingenční tabulky? 4. Kdy jsou v daném výběrovém souboru znaky četnostně nezávislé? 5. K čemu slouží Sturgesovo pravidlo? 6. Vyjmenujte funkcionální charakteristiky skalárního znaku a dvourozměrného vektorového znaku při bodovém a intervalovém rozložení četností. 7. (S) V rámci marketingového průzkumu trhu bylo dotázáno 25 náhodně vybraných zákazníků jisté pojišťovny a byl zjišťován jejich zájem o nový druh pojištění (znak X) a současně jejich rodinný stav (znak Y). Získané odpovědi byly zakódovány pro znak X takto: jednoznačný nezájem = 1, podprůměrný zájem = 2, průměrný zájem = 3, nadprůměrný zájem = 4, jednoznačný zájem = 5 a pro znak Y takto: svobodný = 1, rozvedený nebo ovdovělý = 2, ženatý = 3. 5 1 3 2 4 2 4 1 5 2 4 3 3 3 1 1 4 3 3 3 5 2 3 2 4 1 5 1 1 3 4 2 5 3 4 3 5 3 3 1 4 1 4 3 4 3 2 3 2 2 a) Pro znak X sestrojte jednorozměrný tečkový diagram, sestavte variační řadu, sestrojte graf četnostní funkce a empirické distribuční funkce. b) Pro vektorový znak (X, Y) sestavte kontingenční tabulku absolutních četností, absolutních kumulativních četností, dále kontingenční tabulky sloupcově a řádkově podmíněných četností a graf simultánní četnostní funkce. c) Jsou znaky X, Y v daném výběrovém souboru četnostně nezávislé? 40 [a) Jednorozměrný tečkový diagram Variační řada XU1 ni Pi Nj Fj • • • • • • « 1 2 0,08 2 0,08 2 2 0,08 4 0,16 3 5 0,20 9 0,36 4 10 0,40 19 0,79 -1-1-1-1-1-=*-1 2 3 4 5 5 6 0,24 25 1,00 Graf empirické distribuční funkce F(j) I-*• Graf četnostní funkce 1,0 + 0,8 0,6 0,4-0,2-0,0 pU) 0,4 + 0,3 0,2 0,1 + 0,0 b) Kontingenční tabulka absolutních četností y i 2 3 H X 1 i 0 1 2 2 0 1 1 2 3 i 2 2 5 4 3 2 5 10 5 2 2 2 6 n.k 7 7 11 25 Kontingenční tabulka sloupcově podmíněných relativních četností y 1 2 3 X 1 1/7 0 1/11 2 0 1/7 1/11 3 1/7 2/7 2/11 4 3/7 2/7 5/11 5 2/7 2/7 2/11 Z 1 1 1 Kontingenční tabulka absolutních Kontingenční tabulka řádkově kumulativních četností y 1 2 3 Nj. X 1 1 1 2 2 2 1 2 4 4 3 2 5 9 9 4 5 10 19 19 5 7 14 25 25 Nk 7 14 25 podmíněných relativních četností y i 2 3 Z X 1 1/2 0 1/2 1 2 0 1/2 1/2 1 3 1/5 2/5 2/5 1 4 3/10 2/10 5/10 1 5 2/6 2/6 2/6 1 2. Bodové a intervalové rozložení četností Graf simultánní četnostní funkce c) Znaky nejsou četnostně nezávislé, protože již pro j = 1, k = 1 neplatí multiplikativní vztah pn = px ■ p,\.W našem případě totiž 25 ^ 2% ' 25 •] 8. (S) U 50 náhodně vybraných posluchačů a posluchaček VŠE v Praze byla zjišťována jejich hmotnost v kg (znak X) a jejich výška v cm (znak Y). 58 178 68 173 56 170 60 170 61 173 71 181 85 184 80 170 52 172 72 182 65 170 57 169 65 169 60 170 54 162 52 169 83 182 60 168 68 173 63 171 72 177 90 192 57 176 51 168 81 190 73 177 75 179 71 180 66 178 67 182 72 191 57 174 57 160 56 170 56 172 52 165 72 185 75 170 52 163 63 184 63 172 58 163 64 174 52 168 55 164 67 173 60 170 55 160 62 172 70 171 a) Pro znak X stanovte optimální počet třídicích intervalů podle Stur-gesova pravidla, sestavte tabulku rozložení četnosti, nakreslete histogram a graf intervalové empirické distribuční funkce. b) Pro znak Y rovněž stanovte optimální počet třídicích intervalů podle Sturgesova pravidla. Pro vektorový znak (X, Y) sestavte kontingen-ční tabulku absolutních četností a nakreslete dvourozměrný tečkový diagram. c) Jsou znaky X, Y v daném výběrovém souboru četnostně nezávislé? 42 [a) Optimální počet třídicích intervalů je 7. Tabulka rozložení četností: (Uj,Uj+l) dj ni Pi Nj fj (50,56> 6 53 12 0,24000 12 0,24000 0,04000 (56,62> 6 59 12 0,24000 26 0,48000 0,04000 (62,68> 6 65 11 0,22000 35 0,70000 0,03667 (68,74) 6 71 8 0,16000 43 0,86000 0,02666 (74,80> 6 77 3 0,06000 46 0,92000 0,01000 (80,86> 6 83 3 0,06000 49 0,98000 0,01000 (86,92> 6 89 1 0,02000 50 1,00000 0,00333 Histogram 0,04- 0,03 - 0,02-0,01 - 0,00-1-1-1-1-1-1-1-1-1- 50 56 62 68 74 80 86 92 Graf intervalové empirické distribuční funkce 1,00 0,75-0,50-0,25-0,0- 50 56 62 68 74 80 86 92 2. Bodové a intervalové rozložení četností b) Pro znak Y je optimální počet třídicích intervalů 7. Kontingenční tabulka absolutních četností: to °0 "-v <5f "-v to cr cr er °0 er of H (Uj,Uj+i) (50,56> 4 4 4 0 0 0 0 12 (56,62> 2 2 6 2 0 0 0 12 (62,68> 0 1 7 1 2 0 0 11 (68,74) 0 0 1 2 3 1 1 8 (74,80> 0 0 2 1 0 0 0 3 (80,86> 0 0 0 0 2 0 1 3 (86,92> 0 0 0 0 0 0 1 1 6 7 20 6 7 1 3 50 Dvourozměrný tečkový diagram 190 — 180 — 170 — 160 — 50 60 70 80 c) Znaky X a Y nejsou četnostně nezávislé, protože již pro j = 1, k = 1 není splněn multiplikativní vztah fu = /i. • /i. V našem případě totiž ^ 12 6 i 50-6 ' 50-5-j 44 Číselné charakteristiky znaků 3. Číselné charakteristiky znaků Cíl kapitoly Po prostudování této kapitoly budete umět: ■ rozlišovat různé typy znaků ■ vypočítat různé charakteristiky polohy a variability skalárního znaku ■ vypočítat charakteristiky těsnosti lineární závislosti dvou znaků ■ využít vlastností číselných charakteristik ke zjednodušení výpočtů ■ vypočítat vážené číselné charakteristiky znaků. Časová zátěž Pro zvládnutí této kapitoly budete potřebovat 5-6 hodin studia. Nejprve se naučíme rozlišovat různé typy znaků podle toho, jaký je jejich stupeň kvantifikace. Pro jednotlivé typy znaků pak zavedeme číselné charakteristiky popisující polohu hodnot znaku na číselné ose a jejich proměnlivost. Seznámíme se rovněž s důležitými vlastnostmi číselných charakteristik a naučíme seje počítat pro konkrétní datové soubory. 3.1. Motivace Ve druhé kapitole jsme se seznámili s funkcionálními charakteristikami znaků, jako jsou p(x,y), p\(x), P2Íy), F(x), f(x,y), f\(x), f2Íy), které nesou úplnou informaci o rozložení četností. V této kapitole zavedeme číselné charakteristiky, které nás informují o některých rysech tohoto rozložení četností: o poloze (úrovni) hodnot znaku, o jejich variabilitě (rozptýlení), o těsnosti závislosti dvou znaků a pod. Pro různé typy znaků se používají různé číselné charakteristiky, proto se nejdřív seznámíme s jednotlivými typy znaků. 3.2. Definice Podle stupně kvantifikace znaky třídíme takto: (n) Nominální znaky připouštějí obsahovou interpretaci jedině relace rovnosti x\ = X2 (popřípadě x\ ž X2), tj. hodnoty znaku představují jen číselné kódy kvalitativních pojmenování. Např. městské tramvaje jsou očíslovány, ale např. č. 4 a 12 říkají jen to, že jde o různé tratě: nic jiného se z nich o vztahu obou tratí nedá vyčíst. (0) Ordinální znaky připouštějí obsahovou interpretaci kromě relace rovnosti i v případě relace uspořádání x\ < x2 (popřípadě x\ > x2), tj. jejich uspořádání vyjadřuje větší nebo menší intenzitu zkoumané vlastnosti. Např. školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených (jedničkář je lepší než dvojkař), ale intervaly mezi známkami nemají obsahové interpretace (netvrdíme, že rozdíl ve znalostech mezi jedničkářem a dvojkařem je stejný jako mezi trojkařem a čtyřkařem. Podobný charakter mají různá bodování ve sportovních, uměleckých a jiných soutěžích. (1) Intervalové znaky připouštějí obsahovou interpretaci kromě relace rovnosti a uspořádání též u operace rozdílu x\ - x2 (popřípadě součtu x\ + x2), tj. stejný interval mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje i stejný rozdíl v extenzitě zkoumané vlastnosti. Např. teplota měřená ve 46 stupních Celsia představuje intervalový znak. Naměříme-li ve čtyřech dnech polední teploty 0, 2, 4, 6, znamená to, že každým dnem stoupla teplota o 2 stupně Celsia. Bylo by však chybou interpretovat tyto údaje tvrzením, že ze druhého na třetí den vzrostla teplota dvakrát, kdežto ze třetího na čtvrtý pouze jedenapůlkrát. (p) Poměrové znaky umožňují obsahovou interpretaci kromě relace rovnosti a uspořádání a operace rozdílu ještě u operace podílu x\ /x2 (popřípadě součinu X\ ■ x2), tj. stejný poměr mezi jednou dvojicí hodnot a druhou dvojicí hodnot znamená i stejný podíl v extenzitě zkoumané vlastnosti. Např. má-li jedna osoba hmotnost 150 kg a druhá 75 kg, má smysl prohlásit, že první je dvakrát hmotnější než druhá. Zvláštní postavení mají: (a) Alternativní znaky, které nabývají jen dvou hodnot, např. 0,1, což znamená absenci a prezenci nějakého jevu. Například 0 bude znamenat neúspěch, 1 úspěch při řešení určité úlohy. Alternativní znaky mohou být ztotožněny s kterýmkoliv z předcházejících typů. 3.3. Definice Pro nominální znaky používáme jako charakteristiku polohy modus. U bodového rozložení četností je to nejčetnější varianta znaku, u intervalového střed nejčetněj šího třídicího intervalu. 3.4. Definice Pro ordinální znaky používáme jako charakteristiku polohy a-kvantil. Je-li a e (0,1), pak of-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 - a všech dat. Pro výpočet a-kvantilu slouží algoritmus: celé číslo c na Xry — x(c) + x(c+1) necelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c ^ Xa — X(c) Pro speciálně zvolená a užíváme názvů: xq^q - medián, jco,25 - dolní kvartil, xqjs -horníkvartil, xo,i,..., *o,9 - decily, xq$\, ..., xq^ -percentily. Jako charakteristika variability slouží kvartilová odchylka: 1 = -^0,75 _ -^0,25- 3.5. Příklad Pro datový soubor známek z matematiky (viz příklad 1.10) vypočtěte medián, oba kvartily a kvartilovou odchylku. 3. Číselné charakteristiky znaků Řešení: a n ■ a c 0,25 20-0,25 5 (í+i) 2 1 0,50 20-0,5 10 (2+3) 2 2,5 0,75 20-0,75 15 (4+4) 2 4 4=4-1=3 3.6. Definice Pro intervalové a poměrové znaky slouží jako charakteristika polohy aritmetický průměr m (lze ho interpretovat jako těžiště jednorozměrného tečkového digramu). Charakteristikou variability je rozptyl 1 " ■mf či směrodatná odchylka s = Vš2". Pomocí průměru zavedeme centrovanou hodnotu Xi - m (podle znaménka poznáme, zda z-tá hodnota je podprůměrná či nadprůměrná j^. — m a pomocí směrodatné odchylky zavedeme standardizovanou hodnotu —- (vy- s jadřuje, o kolik směrodatných odchylek se z-tá hodnota odchýlila od průměru). 3.7. Věta Rozptyl je nulový, právě když x\ = x2 = ■ ■ ■ = xn. 3.8. Příklad Vypočtěte průměr a rozptyl a) centrovaných hodnot, b) standardizovaných hodnot. Řešení: ad a) Průměr centrovaných hodnot: 1 " i=i ■ m) = m--■ n ■ m = 0. n Rozptyl centrovaných hodnot: 1 " -V((^-m)-0)2 = 52. n -f-* i=i 48 ad b) Průměr standardizovaných hodnot: 1 " -Y n 4-i (x; - m) 1 n 1-í-- = --0 = 0. s s Rozptyl standardizovaných hodnot: 1 " -Y . , . s 1 sl 3.9. Poznámka V předešlém příkladě jsme vypočítali, že průměr centrovaných hodnot je 0. Této skutečnosti lze využít k vysvětlení rozptylu: chceme získat číslo, které by charakterizovalo variabilitu jednotlivých hodnot kolem průměru. Průměr centrovaných hodnot nelze použít (vyjde 0), proto místo centrovaných hodnot vezmeme jejich kvadráty. Tím dospějeme ke vzorci pro rozptyl: 1 " s2 = - )(Xi - mf. i=i Rozptyl však vychází v kvadrátech jednotek, v nichž byl měřen znak X, proto raději používáme směrodatnou odchylku s. Definiční tvar vzorce pro rozptyl není příliš vhodný pro výpočty, v praxi se používá výpočetní tvar vzorce pro rozptyl: s2 = - Yj(xí -m)2 = - ^(x2 - 2mxi + m2) = - ^ xf - i= 1 i= 1 i= 1 n n \ H 1 --• 2m • > Xi-\— / m2 = - > x2 — 2m2 H— • n - m2 = n -fr' n -fr' n n i=l i=l i=l 1 " i=l m2. 3.10. Definice Pro poměrové znaky používáme jako charakteristiku variability koeficient variace — . Je to bezrozměrné číslo, které se často vyjadřuje v procentech. Umožňuje m porovnat variabilitu několika znaků. Jsou-li všechny hodnoty poměrového znaku kladné, pak jako charakteristiku polohy lze užít geometrický průměr i]x\ ■... ■ xn. 3.11. Příklad Vypočtěte koeficient variace meze plasticity a meze pevnosti oceli pro datový soubor z příkladu 2.13. Řešení: Si 32,8577 nn„n s2 32,5147 nnnin — = —-= 0,3413, — = —--= 0,2842. mi 96,2667 m2 114,4000 3. Číselné charakteristiky znaků Zjistili jsme, že koeficient variace meze plasticity je 34,13 %, zatímco meze pevnosti jen 28,42%. (Aritmetické průměry m\, m2 a směrodatné odchylky s\, s2 jsou vypočítány v příkladu 3.17.) Nyní se budeme zabývat číselnými charakteristikami dvourozměrného datového souboru se znaky intervalového či poměrového typu. Společnou variabilitu těchto dvou znaků kolem jejich průměru měříme pomocí kovariance. Jako míra těsnosti lineární závislosti dvou znaků slouží koeficient korelace. Je velmi důležité porozumět vlastnostem koeficientu korelace, proto si pozorně prohlédněte obrázky ilustrující jeho význam. Pro praktické procvičení nám poslouží příklad na číselné charakteristiky mezí plasticity a pevnosti. 3.12. Definice Pro dvourozměrný datový soubor Xn yn_ kde znaky X, Y jsou intervalového či poměrového typu, používáme jako charakteristiku společné variability znaků X, Y kolem jejich průměrů kovarianci 1 " s n = ~ / .(M ~ mi)(yi ~ m2). i=i 3.13. Poznámka Kovariance je průměrem součinů centrovaných hodnot. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s nadprůměrnými (podprůměrnými) hodnotami znaku F, budou součiny centrovaných hodnot Xj - ni\ a y, - m2 vesměs kladné a jejich průměr (tj. kovariance) rovněž. Znamená to, že mezi znaky X, Y existuje určitý stupeň přímé lineární závislosti. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s podprůměrnými (nadprůměrnými) hodnotami znaku F, budou součiny centrovaných hodnot vesměs záporné a jejich průměr rovněž. Znamená to, že mezi znaky X a F existuje určitý stupeň nepřímé lineární závislosti. Je-li kovariance nulová, pak řekneme, že znaky X, F jsou nekorelované a znamená to, že mezi nimi neexistuje žádná lineární závislost. Pro výpočet kovariance používáme vzorec: S12 1 " - y xtfi - n í i=i ni\m2. 3.14. Definice Jsou-li směrodatné odchylky s\, s2 nenulové, pak definujeme koeficient korelace znaků X, Y vzorcem Xi - mi yt - m2 T\2 -T i=i Sl s2 50 3.15. Věta Pro koeficient korelace platí -1 < ru < 1 a rovnosti je dosaženo právě když mezi hodnotami x\,... ,xn a yi,... ,yn existuje úplná lineární závislost, tj. existují konstanty a, b tak, že yt = a + bxu i = 1,...,«, přičemž znaménko + platí pro b > 0, znaménko - pro b < 0. (Uvedená nerovnost se nazývá Cauchyova-Schwarzova-Buňakovského nerovnost.) 3.16. Poznámka Koeficient korelace se počítá podle vzorce rn =- . Představu o významu hodnot SlS2 koeficientu korelace podávají následující dvourozměrné tečkové diagramy. r = 1,00 r = 0,76 r = 0,00 r = -0,37 r = -1,00 3.17. Příklad Pro datový soubor z příkladu 2.13 vypočtěte a) aritmetické průměry znaků X, Y, b) rozptyly a směrodatné odchylky znaků X, Y, c) kovarianci a koeficient korelace znaků X, Y. Řešení: ad a) mi = 96,2667, m2 = 114,4000. adb) s\ = 1079,6, s\ = 1057,2, Si = 32,8577, s2 = 32,5147. ad c) 5i2 = 992,76, rl2 = 0,9292. Koeficient korelace svědčí o tom, že mezi oběma znaky existuje velmi silná přímá lineární závislost - čím vyšší je mez plasticity, tím je vyšší mez pevnosti a čím je nižší mez plasticity, tím je nižší mez pevnosti. Při výpočtu číselných charakteristik se v řadě situací uplatní věta shrnující některé jejich vlastnosti. Pro lepší pochopení uvedených vlastností slouží následující příklad. 3. Číselné charakteristiky znaků 3.18. Věta Uveďme některé vlastnosti číselných charakteristik. a) Nechť ni\ je aritmetický průměr a s\ rozptyl znaku X. Pak znak Y = a + bX má aritmetický průměr m2 = a + bni\ a rozptyl s\ = b2s\. b) Nechťm!, m2 jsou aritmetické průměry, s2, s\ rozptyly a s12 kovariance znaků X, Y. Pak znak U = X + Y má aritmetický průměr m3 = m\ + m2 a rozptyl s\ = s\ + s\ + 2sn- c) Nechť s n je kovariance znaků X, Y a m\, m2 jsou aritmetické průměry znaků X, Y. Pak znaky U = a + bX, V = c + dY mají kovarianci 534 = bds\2. 3.19. Příklad a) Znak X má aritmetický průměr 2 a rozptyl 3. Najděte aritmetický průměr a rozptyl znaku Y = -1 + 3X. b) Znaky X a F mají aritmetické průměry 3 a 2, rozptyly 2 a 3, kovarianci 1,5. Vypočtěte aritmetický průměr a rozptyl znaku Z = 5X - AY. c) Součet rozptylů dvou znaků je 120, součin 1000 a rozptyl jejich součtů je 100. Vypočtěte koeficient korelace těchto znaků. Řešení: ad a) m2 -1 +3m1 = -1 + 3 -2 32-5? 9 • 3 = 27. adb) m3 = 5mi -4m2 = 5-3-4-2 = 7, s\ = 52 ■ sj +(-4)2 ■ s\ + 2-5 ■ (-4) ■ sl2 = 25-2+ 16-3 -40-1,5 = 38. ■'1+2 ''i °2 2 adc) s\ + s22 = 120, *i-52 = 1000, s\+2 = 100 = ^ + ^ + 2Sl2 => s12 IM = _io, ri2 = ^ = _i^ = -0,316. 2 ' 1z íi-í2 VlOOO Pokud nemáme k dispozici původní datový soubor, ale jenom variační řadu nebo tabulku rozložení četností (resp. kontingenční tabulku), můžeme vypočítat tzv. vážené číselné charakteristiky. Pro datový soubor obsahující údaje o mezi plasticity a mezi pevnosti oceli je zajímavé porovnat původní číselné charakteristiky a vážené číselné charakteristiky. 3.20. Definice a) Vážené číselné charakteristiky u bodového rozložení četností: Vážený aritmetický průměr m j=i Vážený rozptyl s2 = - Yn^-mf. Vážená kovariance 1 s n = ~ ^ ^ njk{X[n - ml)(y[k] - m2). 52 b) Vážené číselné charakteristiky u intervalového rozložení četnosti: Vzorce jsou formálně shodné s předešlými. Je však zapotřebí uvést, že výpočty jsou přesné jen tehdy, souhlasí-li průměry v jednotlivých třídicích intervalech se středy těchto intervalů, resp. vykompenzují-li se vzájemně chyby vzniklé v důsledku odchylek středů intervalů od průměru v těchto intervalech. Oba tyto případy jsou však vzácné a většinou se dopustíme určité chyby. 3.21. Příklad Pro intervalové rozložení četností uvedené v příkladu 2.13 spočtěte vážené číselné charakteristiky a porovnejte je s číselnými charakteristikami uvedenými v příkladu 3.17. Řešení: bodové rozložení intervalové rozložení nii 96,27 96,67 m2 114,40 113,67 1079,63 1148,89 *2 1057,21 1019,89 Sl 32,858 33,895 S2 32,515 31,936 S\2 992,76 998,89 r\2 0,929 0,923 Shrnutí kapitoly Podle stupně kvantifikace znaky třídíme na nominální, ordinální, intervalové, poměrové a alternativní. Jako charakteristika polohy nominálních znaků slouží modus. Charakteristikou polohy ordinálních znaků je kterýkoliv íK-kvantil, často se používá medián, dolní a horní kvartil, decily, percentily. Rozdíl horního a dolního kvartilu je kvartilová odchylka, kterou používáme jako charakteristiku variability. U intervalových znaků slouží jako charakteristika polohy aritmetický průměr a jako charakteristika variability rozptyl či směrodatná odchylka. Odečteme-li od libovolné hodnoty průměr, dostaneme centrovanou hodnotu, a podělíme-li centrovanou hodnotu směrodatnou odchylkou, získáme standardizovanou hodnotu. Pro poměrové znaky používáme koeficient variace. Mají-li kladné hodnoty, pak jejich polohu charakterizujeme geometrickým průměrem. Máme-li dvourozměrný datový soubor, pak jako charakteristiku společné variability zavedeme kovarianci a jako míru těsnosti lineární závislosti koeficient korelace. Podle Cauchyovy-Schwarzovy-Buňakovského nerovnosti nabývá koeficient korelace hodnot mezi -1 a 1. Je-li k dispozici variační řada u bodového rozložení četností nebo tabulka rozložení četností u intervalového rozložení četností (resp. kontingenční tabulka), můžeme vypočítat vážené číselné charakteristiky: vážený aritmetický průměr, vážený rozptyl a váženou kovarianci. 3. Číselné charakteristiky znaků Kontrolní otázky a úkoly 1. Udejte příklad nominálního, ordinálního, intervalového, poměrového a alternativního znaku. 2. Jaké charakteristiky polohy a variability užíváme pro uvedené typy znaků? 3. Kdy se shodují číselné charakteristiky s váženými číselnými charakteristikami? 4. Jaký význam má koeficient korelace? 5. V akciové společnosti je průměrná mzda 13 500 Kč. Přitom 30 % pracovníků s nejnižší mzdou má průměrně 9000 Kč. Na začátku roku dostal každý z těchto pracovníků přidáno 500 Kč. O kolik % vzrostla průměrná mzda v celé akciové společnosti? [Průměrná mzda v celé akciové společnosti vzrostla o 1,1 %.] 6. (S) Při statistickém šetření pojištěnců byly získány tyto výše pojistek v Kč: výše pojistky 390 410 430 450 470 490 510 530 550 570 abs. četnost 7 10 14 22 25 12 3 3 2 2 Určete aritmetický průměr, medián, modus, rozptyl, směrodatnou odchylku a koeficient variace výše pojistky. [Průměr = 457,4, medián = 450, modus = 470, rozptyl = 1493,24, směrodatná odchylka = 38,64, koeficient variace = 0,08.] 7. V datovém souboru, z něhož byl vypočten průměr 110 a rozptyl 800, byly zjištěny 2 chyby: místo 85 má být 95 a místo 120 má být 150. Ostatních 18 údajů je správných. Opravte průměr a rozptyl. [Průměr = 112, rozptyl = 851.] 8. Vážený aritmetický průměr činil 1500 a vážený rozptyl 90000. Varianty x\j\ byly transformovány vztahem: X[j] — Cl j = l,...,r, a > 0, h > 0. Po této transformaci byl vážený aritmetický průměr 5 a vážený rozptyl 9. Určete konstanty a a h. [a = 1000, h = 100] 9. (S) Pro dvourozměrný datový soubor 2 4 4 5 6 8 10 10 10 10 1 2 3 4 4 4 5 5 5 6 vypočtěte koeficient korelace. [Koeficient korelace = 0,92] 10. Rozptyl součtů hodnot dvou znaků je 350, rozptyl rozdílů je 700. Vypočtěte koeficient korelace, víte-li, že oba znaky mají stejné rozptyly. [Koeficient korelace = -1/3] 54 4 Regresní přímka Cíl kapitoly Po prostudování této kapitoly budete umět: ■ stanovit odhady parametrů regresní přímky a znát jejich význam ■ posoudit kvalitu proložení regresní přímky dvourozměrným tečkovým diagramem ■ vypočítat regresní odhady závisle proměnného znaku ■ stanovit odhady parametrů druhé regresní přímky ■ znát vztahy mezi parametry první a druhé regresní přímky. Pro zvládnutí této kapitoly budete potřebovat 3^4 hodiny studia. Budeme se zabývat speciálním případem, kdy hodnoty znaku Y závisejí na hodnotách znaku X přibližně lineárně. Ukážeme si, jak tuto závislost popsat regresní přímkou, jak odhadnout její parametry metodou nejmenších čtverců na základě znalosti dvourozměrného datového souboru a jak posoudit kvalitu regresní přímky pomocí indexu determinace. Vysvětlíme si význam regresních parametrů a v příkladu se budeme zabývat regresní přímkou meze pevnosti na mez plasticity. 4.1. Motivace Cílem regresní analýzy je vystižení závislosti hodnot znaku Y na hodnotách znaku X. Při tom je nutné vyřešit dva problémy: jaký typ funkce použít k vystižení dané závislosti a jak stanovit konkrétní parametry zvoleného typu funkce? Typ funkce určíme buď logickým rozborem zkoumané závislosti nebo se snažíme ho odhadnout pomocí dvourozměrného tečkového diagramu. Zde se omezíme na lineární závislost y = ySo + P\x. Odhady bo a b\ neznámých parametrů y30, fii získáme na základě dvourozměrného datového souboru _•*•« yn_ metodou nejmenších čtverců. Požadujeme, aby průměr součtu čtverců odchylek skutečných a odhadnutých hodnot byl minimální, tj. aby výraz nabýval svého minima vzhledem k b0 a b\. Tento výraz je minimální, jsou-li jeho první derivace podle bo a b\ nulové. Stačí tyto derivace spočítat, položit je rovny 0 a řešit systém dvou rovnic o dvou neznámých, tzv. systém normálních rovnic. Časová zátěž x\ y\ í=i 4.2. Definice Nechť j e dán dvourozměrný datový soubor x\ yi %n yn_ a přímka y = B0 + Bxx. Výraz 1 " q(b0,bi) = - Y1 (yr -b0- biXi)2 1=1 se nazývá rozptyl hodnot znaku Y kolem přímky y = bo + b\x. Přímka y = bo + bxx, jejíž parametry minimalizují rozptyl q(bo, bx) v celém dvourozměrném prostoru, se nazývá regresní přímka znaku Y na znak X. Regresní odhad i-té hodnoty znaku Y značíme % = bo + b\Xu i = 1,...,«. Kvadrát koeficientu korelace znaků X, Y se nazývá index determinace a značí se ID2. (Index determinace udává, jakou část variability hodnot znaku Y vystihuje regresní přímka. Nabývá hodnot z intervalu (0,1). Čím je bližší 1, tím lépe vystihuje regresní přímka závislost Y na X.) 4.3. Věta Nechť y = bo + b\x je regresní přímka znaku Y na znak X. Pak použitím metody nejmenších čtverců dostaneme: , S12 , S12 bi = —r, b0 = m2--- - mi, s\ s\ tedy y = m2 + ^r(x - m{). Přitom úsek b0 regresní přímky udává velikost jejího posunutí na svislé ose (tj. udává, jaký je regresní odhad hodnoty znaku Y, nabývá-li znak X hodnoty 0) a směrnice b\ udává, o kolik jednotek se změní hodnota znaku F, změní-li se hodnota znaku X o jednotku. Jestliže je b\ > 0, dochází s růstem X k růstu Y a hovoříme o přímé závislosty hodnot znaku Y na hodnotách znaku X. Je-li b\ < 0, dochází s růstem X k poklesu Y a hovoříme o nepřímé závislosti hodnot znaku Y na hodnotách znaku X. 4.4. Příklad Pro datový soubor z příkladu 2.13 a) určete regresní přímku meze pevnosti na mez plasticity. b) Zakreslete regresní přímku do dvourozměrného tečkového diagramu. c) Jak se změní mez pevnosti, vzroste-li mez plasticity o jednotku? d) Najděte regresní odhad meze pevnosti pro mez plasticity = 60. e) Vypočtěte index determinace a interpretujte ho. Řešení: ad a) Na základě výsledků příkladu 3.17 dostáváme: bx = f = ^§ = 0,9195; b0 = m2- bxmx = 114,4 - 0,99195 • 96,27 = 25,88; y = 25,8*8 + 0,9195*. 4. Regresní přímka ad b) 190 30 50 70 90 110 130 150 170 mez plasticity Povšimněte si, že koeficient korelace znaků X, Y vypočtený v příkladě 3.17 činil 0,936. Tato hodnota je blízká 1, což svědčí o silné přímé lineární závislosti mezi znaky X aY. Tečky v dvourozměrném tečkovém diagramu nejsou příliš rozptýleny kolem regresní přímky. ad c) Mez pevnosti vzroste o 0,9195 kp cm2. ad d) y = 25,88 + 0,9195 • 60 = 81,05. ad e) ID2 = r22 = 0,92922 = 0,8635. Znamená to, že 86,35 % variability hodnot meze pevnosti je vysvětleno regresní přímkou. 4.5. Definice Regresní přímkou znaku X na znak Y nazveme tu přímku x = ba+b\y Jejíž parametry minimalizují rozptyl Í3. q(bQ, bx) = - V'(*,■ - bo - bji)2 n -fr* í=i v celé rovině. Nazývá se též druhá regresní přímka. Regresní přímka znaku Y na znak X a regresní přímka znaku X na znak Y se nazývají sdružené regresní přímky. 4.6. Věta Rovnice regresní přímky znaku X na znak Y má tvar x = mi + —(y - m2). Sdružené regresní přímky se protínají v bodě (mi,m2). Pro regresní parametry b\, b\ platí: b\b\ = r\v Rovnice sdružených regresních přímek můžeme psát ve tvaru y = m2 + rX2—(x - mi), 1 s^< y = m2 H---(x - mi), r\2 si (je-li rX2 * 0). 58 Regresní přímky svírají tím menší úhel, čím méně se od sebe liší r n a Regresní přímky splynou, je-li r2n = 1. K tomu dojde právě tehdy, existuje-li mezi X a Y úplná lineární závislost. Všechny body (Xi,yi), i = 1,... ,n leží na jedné přímce, tedy ze znalosti Xj můžeme přesně vypočítat yt, i = 1,... ,n. Jsou-li znaky X, Y nekorelované, pak mají sdružené regresní přímky rovnice y = m2, x = m\ a jsou na sebe kolmé. Označíme-li a úhel, který svírají sdružené regresní přímky, pak platí: ■ cos a = 0, právě když mezi X a Y neexistuje žádná lineární závislost, ■ cos a = 1, právě když mezi X a Y existuje úplná přímá lineární závislost, ■ cos a = -1, právě když mezi X a Y existuje úplná nepřímá lineární závislost. 4.7. Příklad Pro datový soubor z příkladu 2.13 a) Určete regresní přímku meze plasticity na mez pevnosti. b) Zakreslete regresní přímku do dvourozměrného tečkového diagramu. Řešení: ad a) S využitím výsledků příkladu 3.17 dostáváme: — 5i2 992,76 nnnn b0 = mx-bxm2 = 96,27-0,939- 114,4 = -11,16, tedy x = -11,16 + 0,939);. ad b) Uvědomte si, že součin směrnic sdružených regresních přímek je 0,9195 • 0,9390 = 0,8635, což je index determinace neboli kvadrát indexu korelace. 4. Regresní přímka 170 150 130 ■| no 5 o i n 90 6 70 50 30-4^-j-j-j-j-j-j- 50 70 90 110 130 150 170 190 mez pevnosti Shrnutí kapitoly Pokud vzhled dvourozměrného tečkového diagramu svědčí o existenci určitého stupně lineární závislosti znaku Y na znaku X, můžeme diagramem proložit regresní přímku znaku Y na znak X. (Pozor - nelze se spokojit pouze s výpočtem korelačního koeficientu, je nutné grafické posouzení závislosti.) Její parametry (tj. posunutí a směrnici) odhadujeme metodou nejmenších čtverců. Kvalitu proložení posuzujeme pomocí indexu determinace - čím je tento index bližší 1, tím je regresní přímka výstižnější a čím je bližší 0, tím je regresní přímka nevhodnější pro vystižení závislosti Y na X. Dosadíme-li danou hodnotu znaku X do rovnice regresní přímky, získáme regresní odhad příslušné hodnoty znaku Y. Má-li smysl zkoumat též opačný směr závislosti, tj. X na F, hledáme druhou regresní přímku. 1. a 2. regresní přímka se označují jako sdružené regresní přímky. Kontrolní otázky a úkoly 1. V čem spočívá princip metody nejmenších čtverců? 2. Uveďte příklad dvourozměrného datového souboru z ekonomické praxe vhodný pro použití regresní přímky. 3. Co vyjadřuje index determinace a jak se počítá? 4. Jaký je vztah mezi směrnicemi sdružených regresních přímek? 5. Jsou-li sdružené regresní přímky kolmé, co lze říct o znacích Xaľ? 6. Rozhodněte, zda přímky y = 13 - 2x, x = 8 - y mohou být sdruženými regresními přímkami. [Protože součin směrnic daných přímek je větší než 1, nemůže se jednat o sdružené regresní přímky.] 60 7. Je dána rovnice regresní přímky y = 87 + 0,3(x - 25) a koeficient korelace f n = 0,77. Najděte rovnici sdružené regresní přímky. [x = 25 + 1,9763 -(y- 87)] 8. (S) U osmi náhodně vybraných studentů byly zjišťovány jejich matematické a verbální schopnosti. Výsledky matematického testu udává znak X, výsledky verbálního Y. X 80 50 36 58 72 60 56 68 Y 65 60 35 39 48 44 48 61 a) Vypočtěte koeficient korelace a interpretujte ho. b) Najděte rovnice sdružených regresních přímek. c) Zlepší-li se výsledek v matematickém testu o 10 bodů, o kolik bodů se zlepší výsledek ve verbálním testu? d) Zlepší-li se výsledek ve verbálním testu o 10 bodů, o kolik bodů se zlepší výsledek v matematickém testu? [a) Koeficient korelace = 0,6264, což znamená, že mezi výsledky matematického a verbálního testu existuje středně silná přímá lineární závislost, b) y = 19,908 + 0,5015*, x = 20,8852 + 0,7823y, c) Výsledek ve verbálním testu se zlepší o 5,015 bodu. d) Výsledek v matematickém testu se zlepší o 7,823 bodu.] 9. Jak se změní úsek a směrnice regresní přímky, když každou hodnotu závisle proměnného znaku zvětšíme o 10 %? [Usek i směrnice se zvětší o 10 %] 10. Závislost mezi vnější teplotou a teplotou ve skladišti je popsána regresní přímkou y = 8 + 0,6x. Při jaké vnější teplotě klesne teplota ve skladišti pod bod mrazu? [Při teplotě -13,3 °C] 4. Regresní přímka 62 Jev a jeho pravděpodobnost 5. Jev a jeho pravděpodobnost Cíl kapitoly Po prostudování této kapitoly budete umět ■ rozlišit náhodný a deterministický pokus ■ stanovit základní prostor ■ popsat vztahy mezi jevy pomocí množinových operací ■ vypočítat pravděpodobnost jevu a znát vlastnosti pravděpodobnosti Časová zátěž Na prostudování této kapitoly budete potřebovat asi 6 hodin. Nejprve se seznámíme s pojmem pokusu, a to deterministického a náhodného pokusu. Nadále se budeme zabývat náhodnými pokusy. Množinu možných výsledků pokusu považujeme za základní prostor. Na základním prostoru vybudujeme jevové pole jako systém podmnožin, který je uzavřený vzhledem k množinovým operacím. Základní prostor spolu s jevovým polem tvoří tzv. měřitelný prostor. Libovolná podmnožina možných výsledků náhodného pokusu, která patří do jevového pole, je jev. Naučíme se vyjadřovat vztahy mezi jevy pomocí množinových operací a uvedeme vlastnosti těchto operací. 5.1. Definice Pokusem rozumíme jednorázové uskutečnění konstantně vymezeného souboru definičních podmínek. Předpokládáme, že pokus můžeme mnohonásobně nezávisle opakovat za dodržení definičních podmínek (ostatní podmínky se mohou měnit, proto různá opakování pokusu mohou vést k různým výsledkům). Dále předpokládáme, že opakováním pokusu vzniká opět pokus. Deterministickým pokusem nazýváme takový pokus, jehož každé opakování vede k jedinému možnému výsledku. (Např. zahřívání vody na 100 °C při atmosférickém tlaku 1015 hPa vede k varu vody.) Náhodným pokusem nazýváme takový pokus, jehož každé opakování vede k právě jednomu z více možných výsledků, které jsou vzájemně neslučitelné. (Např. hod kostkou vede k právě jednomu ze šesti možných výsledků.) 5.2. Definice Neprázdnou množinu možných výsledků náhodného pokusu značíme Q, a nazýváme ji základní prostor. Možné výsledky značíme a»i, a»2,____Na základním prostoru Q. vytvoříme jevové pole JI jako systém podmnožin, který s každými dvěma množinami obsahuje i jejich rozdíl, obsahuje celý základní prostor a obsahuje-li každou ze spočetné posloupnosti množin, obsahuje i jejich spočetné sjednocení (znamená to, že systém JI je uzavřený vzhledem k množinovým operacím). Jestliže A e JI, pak řekneme, že A je jev. Dvojice (Q., JI) se nazývá měřitelný prostor. Q. se nazývá jistý jev, 0 nemožný jev. 5.3. Poznámka Vztahy mezi jevy vyjadřujeme pomocí množinových inkluzí a operace s jevy popisujeme pomocí množinových operací. 64 a) A c B znamená, že jev A má za důsledek jev B. b) A U B znamená nastoupení aspoň jednoho z jevů A, 6. c) A n 6 znamená společné nastoupení jevů A, 6. d) A - B znamená nastoupení jevu A za nenastoupení jevu 6. e) A = Q,- A znamená jev opačný k jevu A. f) A n B = 0 znamená, že jevy A, 6 jsou neslučitelné. g) o» e A znamená, že možný výsledek o» je příznivý nastoupení jevu A. 5.4. Věta Uveďme některé vlastnosti, které mají operace s jevy: a) Pro sjednocení a průnik jevů platí komutativní zákon, který pro dva jevy A, B má tvar: AuB = BuA, A n B = B n A. b) Pro sjednocení a průnik tří jevů A, B, C platí zákon asociativní: A u (B u C) = (A u B) u C, A n (fí n C) = (A n B) n C, a zákon distributivní: A n (fí u C) = (A n B) u (A n C), A u (fí n C) = (A u fí) n (A u C). c) Pro sjednocení a průnik jevů opačných platí de Morganovy zákony, které pro dva jevy A, 6 zapíšeme takto: Ä U fí = A n fí, Ä n fí = A U B. 5.5. Příklad Náhodný pokus spočívá v hodu kostkou. Jev A znamená, že padne sudé číslo a jev B znamená, že padne číslo větší než 4. a) Určete základní prostor Q.. b) Vypište možné výsledky příznivé nastoupení jevů A, B. c) Pomocí operací s jevy vyjádřete následující jevy: padne liché číslo; nepadne číslo 1 ani 3, padne číslo 6; padne číslo 2 nebo 4. Řešení: ad a) Q. = {a»i,... ,cl>6], kde možný výsledek ojj znamená, že padne číslo i, i = 1,...,6. ad b) A = {cú2,co4,ci>6}, B = {cú5,cú(,}. ad c) A = {0)1,0)3,0)5}; A U B = {0)2,0)4,0)5,0)6}; A n B = {coe}; A - B = {o)2,0)4} Na měřitelném prostoru zavedeme pravděpodobnost jako funkci, která splňuje určité axiomy a každému jevu přiřazuje číslo mezi 0 a 1. Měřitelný prostor spolu s pravděpodobností tvoří pravděpodobnostní prostor. Seznámíme se s vlastnos- 5. Jev a jeho pravděpodobnost tmi pravděpodobnosti a uvidíme, že téměř všechny jsou obdobné vlastnostem relativní četnosti jak jsme je poznali v první kapitole. Zavedeme speciální případ pravděpodobnosti - klasickou pravděpodobnost a vypočítáme několik příkladů. 5.6. Definice Nechť JI) je měřitelný prostor. Pravděpodobností rozumíme reálnou množinovou funkci P : JI —> R, která splňuje následující tři axiómy: každému jevu přiřazuje nezáporné číslo, jistému jevu přiřazuje číslo 1, sjednocení neslučitelných jevů přiřazuje součet pravděpodobností těchto jevů. Trojice (Q.,Jl,P) se nazývá pravděpodobnostní prostor. Axiomy pravděpodobnosti jsou zvoleny tak, aby pravděpodobnost byla „zidealizo-vaným" protějškem relativní četnosti zavedené v definici 1.1. Znamená to, že pro velký počet opakování pokusu, v němž sledujeme nastoupení jevu A, se relativní četnost j evu A blíží pravděpodobno s ti j evu A. Tento poznatek j e znám j ako empirický zákon velkých čísel. Zdálo by se přirozené definovat pravděpodobnost jako limitu relativní četnosti pro n —> oo. Tento postup by však nebyl korektní, protože počet pokusů n je vždy konečný a nelze se tedy přesvědčit o existenci uvedené limity. 5.7. Věta Nechť JI, P) je pravděpodobnostní prostor. Pak pro libovolné jevy A, A\, A2, • • • e JI platí následujících 14 vlastností: Pl P2 P3 P4 P5 P6 P7 P8 P9 P10 Pil P12 P13 P14: P(df) = 0 P(A) > 0 (nezápornost - axióm) P(AX U A2) + P(AX n A2) = P(Ai) + P(A2) l + P(A, n A2) > P(A,) + P(A2) P(A1 U A2) < P(AO + P(A2) (subaditivita) A1 n A2 = 0 => P(A1 U A2) = P(AO + P(A2) (aditivita) P(A2-Al) = P(A2)-P(AlnA2) Ai c A2 => P(A2 - Ai) = P{A2) - P(Ai) (subtraktivita) AiCA2 => P(AO < P(A2) (monotonie) P(Í2) = 1 (normovanost - axióm) P{A) + P{A) = 1 (komplementarita) P(A) < 1 Ai n Aj = 0 pro jí j => p(Ai U A2 U ...) = P(Ai) + P(A2) + (spočetná aditivita - axióm) ( n \ n n-l n U At =^ P(Ai) - 2 Z P(Ai n Ai)+ v i'=l / n—2 n-l i'=l í'=1 j=i+l +ZZ Z ^'najna*) í'=l _/=i'+l k=j+l + (-D»-1p(A1nA2n---nAB) 66 Pro neslučitelné jevy Ai,...,An dostáváme ( n \ n y a, =2>(a,). v i=l 1=1 Vlastnosti P1,... ,P12 odpovídají vlastnostem relativní četnosti z věty 1.3, vlastnost P14 je známa jako věta o sčítání pravděpodobností. 5.8. Definice Nechť Q, je konečný základní prostor a nechť všechny možné výsledky mají stejnou šanci nastat. Klasická pravděpodobnost je funkce, která jevu A přiřazuje číslo P(A) =- , kde m(A) je počet možných výsledků příznivých nastoupení jevu m(Q) A a m(Q) je počet všech možných výsledků. 5.9. Příklad Vypočítejte pravděpodobnosti jevů A, B, A, A U B, A n B, A - B z příkladu 5.5. Řešení: 3 1 2 1 _31 m(Q) = 6, P(A) = - = -, P(B) = - = -, P(A) = - = -, 4 2 1 2 1 P(AuB) = - = -, P(AHB) = -, P(A-B) = - = -. o 5 o o 5 5.10. Příklad V dodávce 100 kusů výrobků nemá požadovaný průměr 10 kusů, požadovanou délku 20 kusů a současně nemá požadovaný průměr i délku 5 kusů. Jaká je pravděpodobnost, že náhodně vybraný výrobek z této dodávky má požadovaný průměr i délku? Řešení: Jev A spočívá v tom, že výrobek má požadovaný průměr a jev B v tom, že výrobek má požadovanou délku. Počítáme P(A n B) = P(A U B) = 1 - P(A U B) 1 - [P(A) + P{B) - P{A n B)] = 1 - I + ^- - -Ž- I = 0,75. v v v 1 100 100 100/ 5.11. Příklad Mezi ./V výrobky je M zmetků. Náhodně bez vracení vybereme n výrobků. Jaká je pravděpodobnost, že vybereme právě k zmetků? Řešení: Základní prostor Q, je tvořen všemi neuspořádanými n-ticemi vytvořenými z ./V prvků. Tedy m(Q) = (N). Jev A spočívá v tom, že vybereme právě k zmetků z M 5. Jev a jeho pravděpodobnost zmetků (ty lze vybrat ykj způsoby) a výběr doplníme n - k kvalitními výrobky vybranými z N - M kvalitních výrobků (tento výběr lze provést způsoby). Podle kombinatorického pravidla součinu dostáváme / 4 / 4 (M\(N-M\ m(A) = [k)[n-k} t6dy P{A)=Mä) = ~^~- Shrnutí kapitoly Deterministický pokus vede při každém opakování k jedinému možnému výsledku, zatímco náhodný pokus vede při každém opakování právě k jednomu z více možných výsledků. Množina možných výsledků náhodného pokusu tvoří základní prostor. Systém podmnožin základního prostoru, který je uzavřený vzhledem k množinovým operacím, se nazývá jevové pole. Základní prostor spolu s jevovým polem označujeme jako měřitelný prostor. Podmnožina, která patří do jevového pole, je jev. Celý základní prostor je jevem jistým, prázdná množina jevem nemožným. Šanci jevu na uskutečnění vyjadřujeme pomocí pravděpodobnosti, což je funkce, která každému jevu přiřazuje číslo mezi 0 a 1 a splňuje určité axiomy, které stanovil ruský matematik A. N. Kolmogorov tak, aby pravděpodobnost byla „zideali-zovaným" protějškem relativní četnosti. Při mnohonásobném nezávislém opakování téhož náhodného pokusu totiž platí empirický zákon velkých čísel: relativní četnost jevu se ustaluje kolem nějaké konstanty, kterou považujeme za pravděpodobnost tohoto jevu. Měřitelný prostor spolu s pravděpodobností tvoří pravděpodobnostní prostor. V praxi se nejčastěji používá klasická pravděpodobnost zavedená jako podíl počtu těch výsledků, které jsou příznivé nastoupení daného jevu, a počtu všech možných výsledků. Kontrolní otázky a úkoly 1. Uveďte příklad deterministického pokusu a náhodného pokusu. 2. Náhodný pokus spočívá v hodu dvěma kostkami. Určete základní prostor. [Q. = {[C0i,í0i],[í0i,í02],---,[C0l,C06],---,[C06,C06]}] 3. Pro zkoušku provozní spolehlivosti určitého zařízení je předepsán tento postup: zařízení je uvedeno v činnost pětkrát při maximálním zatížení. Jakmile při některém z těchto pěti pokusů zařízení selže, nesplnilo podmínky zkoušky. Označme A, jev: „při z-tém pokusu zařízení selhalo" pro i = 1,..., 5. Pomocí jevů A, vyjádřete jevy: a) Zařízení neprošlo úspěšně zkouškou. b) První tři pokusy byly úspěšné, ve 4. a 5. pokusu zařízení selhalo. c) 1. a 5. pokus byly úspěšné, ale zkouška byla neúspěšná. [a) Ai u • • • uA5, b) A7nÄ^nÄ7nA4nA5, c)Ä7nÄ7n (A2 uA3 uA4)] 4. Formulujte emiprický zákon velkých čísel. 5. Uveďte příklad situace, v níž nelze použít klasickou pravděpodobnost. 68 6. Z karetní hry o 32 kartách vybereme náhodně bez vracení 4 karty. Jaká je pravděpodobnost, že aspoň jedna z nich je eso? [0,4306] 7. Dva hráči házejí střídavě mincí. Vyhrává ten, komu padne dřív líc. Stanovte pravděpodobnost výhry 1. hráče a pravděpodobnost výhry 2. hráče. [2/3 a 1/3] 8. Chevalier de Méré pozoroval, že při házení třemi kostkami padá součet 11 častěji než součet 12, i když podle jeho názoru (nesprávného) mají oba součty stejnou pravděpodobnost. Stanovte pravděpodobnost obou jevů. [0,125 a 0,1157] 9. Student se ke zkoušce připravil na 15 otázek z 20 zadaných. Při zkoušce si vybere náhodně dvě otázky. Jaká je pravděpodobnost, že aspoň na jednu zná odpověď? [18/19] 10. Mezi následujícími tvrzeními vyberte ta, která jsou pravdivá: a) P(A n B) < P(B), b) P(A UB)< P(B), c) P(A U6)< P{A) + P(B), d) P(A) < 0. 5. Jev a jeho pravděpodobnost 70 Stochasticky nezávislé jevy a podmíněná pravděpodobnost 6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost Cíl kapitoly Po prostudování této kapitoly budete umět ■ ověřit stochastickou nezávislost posloupnosti jevů ■ řešit příklady využívající stochastickou nezávislost jevů ■ počítat podmíněnou pravděpodobnost ■ použít větu o násobení pravděpodobností, vzorec pro úplnou pravděpodobnost a Bayesův vzorec Časová zátěž Pro zvládnutí této kapitoly budete potřebovat asi 6 hodin studia. Z předešlé kapitoly víme, že pravděpodobnost je „zidealizovaným" protějškem relativní četnosti. Lze tedy očekávat, že stochasticky nezávislé jevy zavedeme podobně jako četnostně nezávislé množiny: pomocí multiplikativního vztahu. Uvedeme vlastnosti stochasticky nezávislých jevů a s jejich pomocí odvodíme dvě důležitá rozložení pravděpodobnosti - geometrické a binomické, která mají, jak uvidíme později, časté využití v praxi. 6.1. Definice Nechť (Q.,JI, P) je pravděpodobnostní prostor. Jevy A\,A2 e J\ jsou stochasticky nezávislé, jestliže P(Ai n A2) = P(Ai)P(A2). (Tento vztah znamená, že informace o nastoupení jednoho jevu neovlivní šance, s nimiž očekáváme nastoupení druhého jevu. Stochastická nezávislost jevů Ai,A2 je motivována četnostní nezávislostí množin G\, G2 ve výběrovém souboru - viz definice 1.6.) Jevy A\,...,An e JI jsou stochasticky nezávislé, jestliže platí systém multiplikativních vztahů: VI < i < j < n : P{Ai n Aj) = P{Ai)P(Aj), VI < í < j 0, (J Hi = Q,, Hi n H j = 0 pro i ž j (říkáme, že jevy H\,...,Hn tvoří úplný i=i systém hypotéz). a) Pro libovolný jev A e Ji platí vzorec úplné pravděpodobnosti: P{A) = 2JP{Hi)P{A\Hi). i=i b) Pro libovolnou hypotézu Hk, k = 1,..., n a jev A e JI s nenulovou pravděpodobností platí Bayesův vzorec: p(hk\A) = P(Hk)P(A\Hk) P(A) (P(Hk\A) se nazývá aposteriorní pravděpodobnost hypotézy Hk, P(Hk) je apriorní pravděpodobnost.) 6.8. Příklad Je známo, že 90 % výrobků odpovídá standardu. Byla vypracována zjednodušená kontrolní zkouška, která u standardního výrobku dá kladný výsledek s pravděpodobností 0,95, zatímco u výrobku nestandardního s pravděpodobností 0,2. Jaká je pravděpodobnost, že a) zkouška u náhodně vybraného výrobku dopadla kladně, b) výrobek, u něhož zkouška dopadla kladně, je standardní? Řešení: Jev A znamená, že zkouška u náhodně vybraného výrobku dopadla kladně, jev Hi znamená, že výrobek je standardní, jev H2 znamená, že výrobek není standardní, P{HX) = 0,9, P(H2) = 0,1, P{A\HX) = 0,95, P(A\H2) = 0,2. ad a) P(A) = P(Hi)P(A\Hi) + P(H2)P(A\H2) = 0,9 • 0,95 + 0,1 • 0,2 = 0,875 adb) P(Hl\A) = ^^ = Q-^§=0,9S. Shrnutí kapitoly Stochasticky nezávislé jevy jsou protipólem deterministicky závislých jevů: informace o nastoupení jednoho jevu nijak nemění šance, s nimiž očekáváme nastoupení druhého jevu. Formálně zavádíme stochastickou nezávislost jevů pomocí 74 multiplikativních vztahů na základě analogie s četnostní nezávislostí množin. Pomocí stochasticky nezávislých jevů lze odvodit geometrické a binomické rozložení pravděpodobností. Obě tato rozložení se často používají v praxi. Podmíněná relativní četnost motivuje zavedení podmníněné pravděpodobnosti -zkoumáme pravděpodobnost nastoupení nějakého jevu za podmínky, že nastal jiný jev. Podmíněná pravděpodobnost se vyskytuje v několika důležitých vzorcích, které umožňují řešit řadu příkladů. Jedná se o větu o násobení pravděpodobností, vzorec pro výpočet úplné pravděpodobnosti a Bayesův vzorec. Kontrolní otázky a úkoly 1. Uveďte příklad stochasticky nezávislých jevů 2. Nechť P{A) = p, P(B) = q. Pomocí čísel p, q vyjádřete pravděpodobnost nastoupení aspoň jednoho z jevů A, B, jsou-li tyto jevy a) stochasticky nezávislé, b) neslučitelné. [a)p + q- pq, b) p + q] 3. Co lze říci o jevech A, B, které nejsou nemožné a platí pro ně: P(A u B) = 1 - [1 - P(A)][1 - P(fí)]? [A a B jsou stochasticky nezávislé jevy.] 4. Je pravděpodobnější vyhrát se stejně silným soupeřem tři partie ze čtyř nebo pět z osmi, když nerozhodný výsledek je vyloučen a výsledky jsou nezávislé? [0,25 a 0,219] 5. První dělník vyrobí denně 60 výrobků, z toho 10 % zmetků. Druhý dělník vyrobí denně 40 výrobků, z toho 5 % zmetků. Jaká je pravděpodobnost, že náhodně vybraný výrobek z denní produkce je zmetek a pochází od prvního dělníka? [0,06] 6. Ze šesti vajec jsou dvě prasklá. Náhodně vybereme dvě vejce. Jaká je pravděpodobnost, že budou a) obě prasklá, b) právě jedno prasklé, c) obě dobrá? [a) 1/15, b) 8/15, c) 6/15] 7. Doplňte chybějící člen x v rovnici P{B) = P{B\A)P{A) + xP(Ä). _ [x = P(B\Ä)] 8. Pro jaké jevy A,B,B^d) platí P(A\B) = P(A)? [Pro stochasticky nezávislé.] 9. Co lze říci o jevech Ax,... ,An s nenulovými pravděpodobnostmi, které jsou neslučitelné a jejich sjednocením je celý základní prostor? [Jevy A\,...,An tvoří úplný systém hypotéz.] 10. Pojišťovací společnost rozlišuje při pojišťování tři skupiny řidičů - A, B a C. Pravděpodobnost toho, že řidič patřící do skupiny A bude mít během roku 75 6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost nehodu, je 0,03, zatímco u řidiče skupiny B je to 0,06 a u řidiče skupiny C 0,1. Podle dlouhodobých záznamů společnosti je 70% pojistných smluv uzavřeno s řidiči skupiny A, 20 % s řidiči skupiny B a 10 % s řidiči skupiny C. Jestliže došlo k nehodě řidiče pojištěného u této společnosti, jaká je pravděpodobnost, že patřil do skupiny C? [0,233] 11. U jistého druhu elektrického spotřebiče se s pravděpodobností 0,01 vyskytuje výrobní vada. U spotřebiče s touto výrobní vadou dochází v záruční lhůtě k poruše s pravděpodobností 0,5. Výrobky, které tuto vadu nemají, se v záruční lhůtě porouchají s pravděpodobností 0,01. Jaká je pravděpodobnost, že a) u náhodně vybraného výrobku nastane v záruční lhůtě porucha, b) výrobek, který se v záruční lhůtě porouchá, bude mít dotyčnou výrobní vadu? [a) 0,0149, b) 0,3356] 76 Náhodná veličina a její distribuční funkce 7. Náhodná veličina a její distribuční funkce Cíl kapitoly Po prostudování této kapitoly budete umět: ■ číselně popsat výsledky náhodného pokusu pomoci náhodných veličin a náhodných vektorů, ■ najít distribuční funkci náhodné veličiny či náhodného vektoru, ■ rozlišit diskrétní a spojité náhodné veličiny a náhodné vektory a najít jejich funkcionální charakteristiky, ■ ověřit stochastickou nezávislost náhodných veličin. Časová zátěž Na prostudování této kapitoly budete potřebovat asi 8 hodin studia. Naučíme se, jak popisovat výsledky náhodného pokusu pomocí náhodné veličiny, tj. zobrazení, které možnému výsledku přiřadí číslo či několik čísel. Existuje zřetelná analogie mezi znakem, který známe z kapitoly 1, a náhodnou veličinou. V některých situacích potřebujeme náhodnou veličinu transformovat. Získáme složenou funkci zvanou transformovaná náhodná veličina. Statistika často zajímá pravděpodobnost jevu, že hodnota náhodné veličiny nepřesáhne nějakou mez. Pomocí této pravděpodobnosti zavedeme distribuční funkci, která je „zidealizovaným" protějškem empirické distribuční funkce, s níž jsme se setkali v kapitole 2. Seznámíme se s vlastnostmi distribuční funkce a vyřešíme několik příkladů. 7.1. Definice Funkce X : Q, —> R s vlastností, že Vjc e R: {co e Q,; X (co) < x] e A, která každému možnému výsledku co e Q, přiřazuje reálné číslo X(co), se nazývá náhodná veličina a číslo X(co) je číselná realizace náhodné veličiny X príslušná možnému výsledku co. Uspořádaná posloupnost náhodných veličin (Xi,..., Xn) se nazývá náhodný vektor a značí se X. Je-li g : R —> R (resp. (gi,... ,gm) : R" —> Rm) funkce, pak složená funkce Y = g(X) (resp. Y = (Yu...,Ym) = (gi(*i, ...,*„),... ,gm(*i,... ,*„))) se nazývá transformovaná náhodná veličina (resp. transformovaný náhodný vektor). Vysvětlení: Náhodná veličina i náhodný vektor popisují výsledky náhodného pokusu pomocí reálných čísel. Splnění podmínky Vjc e R: {co e Q.;X(co) < x] e A (vzor intervalu (-oo, x) je jev) není nutno ověřovat, protože se v praktických úlohách automaticky předpokládá. Také pro libovolnou číselnou množinu B platí {co e Q.; X(co) e B] e A. (Vzor libovolné číselné množiny B je jev.) Náhodná veličina v počtu pravděpodobnosti a znak v popisné statistice - viz definice 1.8 - jsou sice pojmy blízké, nikoli však totožné. Znak lze považovat za náhodnou veličinu, pokud jeho hodnotu zjišťujeme na objektu, který byl vybrán ze základního souboru náhodně. Upozornění: V dalším textu se omezíme na dvourozměrné náhodné vektory. Poznatky lze jednoduše zobecnit i na n-rozměrné náhodné vektory. 78 7.2. Označení Nechť fí c R. Jev {oj e Q.; X(a>) e B} zkráceně zapisujeme {X e B} a čteme: náhodná veličina X se realizovala v množině B. 7.3. Definice Pravděpodobnostní chování náhodné veličiny X (resp. náhodného vektoru X = (Xi,X2)) popisujeme distribuční funkcí O : R —> R, která je dána vztahem: Vjc e R : O(jc) = P(X < jc) (resp. simultánni distribuční funkcí O : R2 —> R, která je definována vztahem: V(*i, jc2) e R2 : (*i, jc2) = P(*i < *i A X2 < x2).) Vysvětlení: Distribuční funkce O(jc) je zidealizovaným protějškem empirické distribuční funkce F (x) zavedené v definici 2.4 či 2.14: N(X < x) VxeR: F(x) = —--. n S rostoucím rozsahem výběrového souboru se budou hodnoty F(x) ustalovat kolem hodnot ®(jc). 7.4. Příklad Najděte distribuční funkci náhodné veličiny X, která udává, jaké číslo padlo při hodu kostkou a nakreslete graf této distribuční funkce. Řešení: Náhodná veličina X může nabývat hodnot 1,2,3,4,5,6. Číselnou osu tedy rozdělíme na 7 intervalů. x e (-00,1) : $(jc) = P(X < x) = 0 x e (1,2) : 0(x) = P(X < x) = \ 6 x e (2,3) : 0(x) = P(X < x) = \ + \ = \ 000 x e (3,4) : $(*) = P{X < x) = \ + \ + \ = | 0000 11114 x e (4,5) : -oo x—>oo ■ /<-/./? c < b platí: P(a(b) - O(a), ■ pro libovolné, ale pevné dané xq e R : P(X = xq) = O(jco) - lim O(jc). x—>x0 b) Vektorový případ: Simultánní distribuční funkce 0(*i, x2) náhodného vektoru X = (Xi, X2) má následující vlastnosti: ■ 0(jci , x2) je neklesající vzhledem ke každé jednotlivé proměnné, ■ 0(jci , x2) je zprava spojitá vzhledem ke každé jednotlivé proměnné, ■ 0(jci , x2) je normovaná v tom smyslu, že lim 0(jci,x2) = 1, lim <&(xi,x2) = lim 0(jci, jc2) = 0, Xl—>oo,j:2—>oo Xi—>-oo X2—>-oo ■ V(*i, jc2) e R2, h > Q,h2 > Q : P(xx < Xx < xx + hx A x2 < X2 < x2 + h2) = 0(jci + hi,x2 + h2) - 0(jci + hi, x2) - 0(jci,x2 + h2) + 0(jci,x2) (tato vlastnost vyjadřuje pravděpodobnost, že náhodný vektor se realizuje v obdélníku (xi,Xi +hi)x (x2,x2 + h2)), m lim d>(xi,x2) = d>i(xi), lim a>(xux2) = d>2(x2), kde d>i(xi), d>2(x2) jsou X2—>oo x\—>oo distribuční funkce náhodných veličin Xi, X2. Nazývají se marginální distribuční funkce . 7.6. Příklad Náhodný vektor (X\,X2) má distribuční funkci <3>{xi,x2) = (arctgxx + |J (arctg jc2 + |J . Vypočtěte pravděpodobnost, že náhodný vektor (Xl5X2) se bude realizovat v jednotkovém čtverci (0,1) x (0,1). Najděte obě marginální distribuční funkce $>\{x\), ®i(x2). 80 Řešení: Podle 4. vlastnosti z věty 7.5b), kde x\ = 0, x2 = 0, h\ = 1, h2 = 1 dostáváme P(0 < Xx < 1 A 0 < X2 < 1) = 0(1,1) - 0(1,0) - 0(0,1) + 0(0,0) = 1 (n n\{n n\ 1 (n n\í n\ = ^U + 2)(4 + 2)-íí(4 + 2)(0+2)- 4K)(H)4K)K)4- x2^oo 7T V 2/ \ ii 71 \ x\^co 7lz \ Z) \ Zl 71 \ Nyní se budeme zabývat dvěma speciálními typy náhodných veličin, a to diskrétními a spojitými náhodnými veličinami. Diskrétní náhodná veličina nabývá nejvýše spočetně mnoha izolovaných hodnot, zatímco spojitá veličina nabývá všech hodnot z nějakého intervalu. Pravděpodobnostní chování diskrétní (resp. spojité) náhodné veličiny popíšeme pomocí pravděpodobnostní funkce (resp. pomocí hustoty pravděpodobnosti). Uvidíme, že vlastnosti pravděpodobnostní funkce jsou podobné jako vlastnosti četnostní funkce a vlastnosti hustoty pravděpodobnosti jsou analogické vlastnostem hustoty četnosti. 7.7. Definice a)Skalární případ: Náhodná veličina X se nazývá diskrétní, jestliže její distribuční funkci lze vyjádřit pomocí nezáporné funkce tt(x) v součtovém tvaru: Funkce n(x) se nazývá pravděpodobnostní funkce diskrétní náhodné veličiny X. b)Vektorový případ: Náhodný vektor (Xi,X2) se nazývá diskrétní, jestliže jeho simultánní distribuční funkci lze vyjádřit pomocí nezáporné funkce 7t{x\, x2) v součtovém tvaru: Funkce n(x\, x2) se nazývá simultánní pravděpodobnostní funkce diskrétního náhodného vektoru {X\,X2). Vysvětlení: Pravděpodobnostní funkce tt(x) je zidealizovaným protějškem četnostní funkce p(x) zavedené v definici 2.4: Vx e R : p(x) = NiX~x) ■ S rostoucím rozsahem výběrového souboru se hodnoty četnostní funkce ustalují kolem hodnot pravděpodobnostní funkce. Diskrétní náhodná veličina nabývá nejvýše spočetně mnoha hodnot. Její distribuční funkce má schodovitý průběh - viz graf v příkladu 7.4. t 0 (nezápornost), co ■ 2 k{x) = 1 (normovanost), x=-oo ■ VieR: n{x) = P(X = x), ■ VB c R : P(X e B) = £ n(x). xeB b)Vektorový případ: Je-li n{x\, x2) simultánní pravděpodobnostní funkce diskrétního náhodného vektoru (Xi, X2), pak platí: ■ V(x\,x2) e R2 : n(x\,x2) > 0 (nezápornost), co co ■ Jj Z n(xi,x2)=l (normovanost), Xi=—oo X2=-oo ■ V(jci, x2) e R2 : n{xux2) = P(Xl =XlAX2 = x2), ■ VfícR2: P((XuX2)eB)= £ 7r(xux2), co co ■ Z n{xi,x2) = tti(xi), Z n(xi,x2) = n2(x2), přičemž ni(xi), n2(x2) jsou jT2=-oo xi=—oo marginální pravděpodobnostní funkce náhodných veličin X\,X2. 7.9. Příklad Pravděpodobnost poruchy každé ze tří nezávisle pracujících výrobních linek je 0,5. Náhodná veličina X udává počet výrobních linek, které mají poruchu. Najděte pravděpodobnostní funkci náhodné veličiny X. Řešení: Náhodná veličina X, která udává počet linek v poruše, nabývá hodnot 0, 1, 2, 3. Při stanovení hodnot její pravděpodobnostní funkce můžeme využít příkladu 6.3 b), kde bylo odvozeno binomické rozložení pravděpodobností. Pravděpodobnost, že 82 v prvních n pokusech nastane právě x úspěchů, je rovna (1 - ů)n x■ V našem případě za „úspěch" považujeme poruchu výrobní linky, n = 3, ů = 0,5. 7t(0) n (2) n (3) n {x) P(X = 0) P(X=l) P(X = 2) 0,5°(1-0,5)3~° = 0,53 = 0,125 0,5^1-0,5)3^ = 3 - 0,53 = 0,375 0,5Z (1 - 0,5)3"2 = 3 • 0,5J = 0,375 P(X = 3) = |^ |0,5J (1 - 0,5)3 3 =0,5J = 0,125 0 jinak Dále vypočteme pravděpodobnost, že nepracují aspoň dvě linky. Přitom použijeme 4. vlastnost z věty 7.8 (a). P(X > 2) = P(X = 2) + P(X = 3) = ?r(2) + tt(3) = 0,375 + 0,125 = 0,5 S pravděpodobností 50 % tedy můžeme očekávat, že aspoň dvě linky jsou porouchané. 7.10. Příklad Je dán systém složený ze dvou bloků. Pravděpodobnost, že z-tý blok správně funguje, je v,, i = 1,2, a pravděpodobnost, že správně fungují oba bloky, je vn- Nechťnáhodná veličina X, je ukazatel fungování z-tého bloku, tj. X: = 1, pokud z-tý blok funguje, 0, pokud z-tý blok nefunguje, z = 1,2. Najděte simultánní pravděpodobnostní funkci tt{x\ , x2) náhodného vektoru (Xi, X2) a obě marginální pravděpodobnostní funkce n\{x\) a ^2(^2)- Řešení: Hodnoty pravděpodobnostních funkcí zapíšeme do kontingenční tabulky. Xi\^ 0 1 nxixx) 0 1 - Vi - V2 + v12 V2 - v12 l-n 1 Vi - v12 v12 Vi ^2(^2) 1 - v2 v2 1 tt(0, 0) = P(Xi = 0 A X2 = 0) = 1 - P(Xi = 1 v X2 = 1) = = 1 - (Vi + V2 - v12) = 1 - Vi - V2 + v12, tt(0, 1) = P(Xi = 0 A X2 = 1) = P(X2 = 1) - = 1 A X2 = 1) = v2 - v12, tt(1,0) = = 1 A X2 = 0) = P(Xi = 1) - = 1 A X2 = 1) = vi - v12, 7. Náhodná veličina a její distribuční funkce n{\,\) = P{Xl = 1 AX2 = 1) = v12, tt(xi,x2) = 0 jinak. 7.11. Definice a) Skalární případ: Náhodná veličina X se nazývá spojitá, jestliže její distribuční funkci lze vyjádřit pomocí nezáporné funkce cp(x) v integrálním tvaru: V* e x -I 0 (nezápornost) co ■ J (p(x) dx = 1 (normovanost) ■ V* e R : P(X = x) = 0 ■ VB c R : P(X e B) = J 0 (nezápornost) co co ■ J J (p(xi,x2)dx\dx2 = 1 (normovanost) —co —co ■ V(jci, x2) e R2 : P(XX = xx A X2 = x2) = 0 ■ Bel2: P((Xi, X2) e B) = f f ip{xx, x2) dxxdx2 (x\ ,x2)eB oo oo ■ j 1020. 7.14. Příklad Spojitý náhodný vektor (XX,X2) má simultánní hustotu pravděpodobnosti 1 (f(xux2) = 7t2(1 +X\)(\ +X\) Najděte obě marginální distribuční funkce ^i(-^i), ^2(^2)- 7. Náhodná veličina a její distribuční funkce Řešení: co co ^i(*i) = f-hr,-2^dx2 = ^7T—f T~2dx2 = J 7t2(1 + X\){\ + X2) 7t2(1 + X\) J 1 + X2 — co —co 1 ™ 1 /7t / 7t\\ 1 7r2(l+x2) & °° 7r2(l+x2)V2 l 2// 7r(l + x2)' Analogicky dostáváme (jci, x2)= J J 2,5 dhdt2 = 2,5[ř1]!105[ř2]!202 = 2,5(*i + 0,5)(jc2 + 0,2) -0,5 -0,2 pro -0,5 < x\ < 0,5, -0,2 < x2 < 0,2, <&(xi,x2) = 0 pro x\ < -0,5 nebo x2 < -0,2, 0(jci, x2) = 1 pro xi > 0,5 a x2 > 0,2. Z definice 7.11 (skalární případ) dostaneme: Xl J ldh = [ři] 0>i(*i) = \dh = [řiR, = a +0,5 -0,5 -0,5 pro -0,5 < xi < 0,5, Oi(jci) = 1 pro xx > 0,5, Oi(jci) = 0 pro jci < -0,5. Dále ®i(x2) = J 2,5dt2 = 2,5[t2]%2 = 2,5(x2 + 0,2) -0,2 pro -0,2 < *2 < 0,2, 02(*2) = 1 pro x2 > 0,2, <5>2(x2) = 0 Pro xi ^ -0>2-Stochastickou nezávislost náhodných veličin Xi,X2 ověříme pomocí definice 7.15 (c): V(xi,x2) e R.2 : ip(xi,x2) = (pi(xi)(p2(x2), tedy náhodné veličiny X1,X2 jsou stochasticky nezávislé. 7. Náhodná veličina a její distribuční funkce 7.17. Příklad Diskrétní náhodný vektor (Xi, X2) má simultánní pravděpodobnostní funkci n{x\, x2) danou hodnotami: tt(-1,2) = tt(-1,3) = tt(0,3) = tt(1,0) = tt(1, 1) = 0, tt(-1,0) = tt(0, 1) = tt(1,2) = 2c, tt(-1, 1) = tt(0,0) = tt(0,2) = tt(1,3) = c. Určete konstantu c, hodnotu simultánni distribuční funkce O(0,2), obě marginální pravděpodobnostní funkce n\{x\), n2{x2) a hodnotu marginální distribuční funkce Oi(l). Zjistěte, zda náhodné veličiny X\, X2 jsou stochasticky nezávislé. Řešení: Hodnoty simultánní pravděpodobnostní funkce n{x\, x2) uspořádáme do kontingen-ční tabulky, kterou ještě doplníme o sloupec s hodnotami tti (x\) a řádek s hodnotami tt2(x2). Tyto hodnoty získáme pomocí věty 7.8 (vektorový případ). Xi 0 1 2 3 TľxiXx) -1 2c c 0 0 3c 0 c 2c c 0 4c 1 0 0 2c c 3c 3c 3c 3c c 1 Z normovanosti pravděpodobnostní funkce diskrétního náhodného vektoru (viz věta 7.8, vektorový případ) dostáváme 10c = 1, tedy c = 0,1. Z definice diskrétního náhodného vektoru (definice 7.7, vektorový případ) plyne O(0,2) = tt(-1,0) + tt(-1, 1) +tt(-1,2) + tt(0,0)+ + tt(0, 1) + tt(0,2) = 0,2 + 0,1+0 + 0,1+0,2 + 0,1 = 0,7. Z definice diskrétní náhodné veličiny (definice 7.7, skalární případ) plyne Oi(l) = 7Ti(-l) + 7Ti(0) + 7Ti(l) = 0,3 + 0,4 + 0,3 = 1. Pokud by náhodné veličiny X\, X2 byly stochasticky nezávislé, musel by pro všechna V(jci , x2) e R2 platit multiplikativní vztah: ti{x\ , x2) = 7i\{x\)n2{x2) (viz definice 7.15 (b)). Avšak již pro x\ = -1, x2 = 0 dostáváme tt(-1,0) = 0,2, tti(-I) = 0,3, 7r2(0) = 0,3. Vidíme tedy, že multiplikativní vztah splněn není a náhodné veličiny Xi,X2 nejsou stochasticky nezávislé. 7.18. Věta Jsou-li náhodné veličiny Xi,...,Xn stochasticky nezávislé, pak jsou stochasticky nezávislé také transformované náhodné veličiny Y\ = gi(Xi),..., Yn = g„(Xn). Shrnutí kapitoly Náhodná veličina se zavádí jako zobrazení, které každému výsledku náhodného pokusu přiřazuje číslo (pak se jedná o skalární náhodnou veličinu) nebo více čísel (v tomto případě jde o náhodný vektor). Náhodnou veličinu lze pomocí libovolné funkce transformovat a získat tak transformovanou náhodnou veličinu. 88 Pravděpodobnostní chování náhodné veličiny popisuje distribuční funkce, jejíž zavedení je motivováno empirickou distribuční funkcí známou z popisné statistiky. Vlastnosti těchto dvou funkcí jsou analogické. Praktický význam mají dva speciální druhy náhodných veličin. Diskrétní náhodná veličina může nabývat pouze spočetně mnoha hodnot a její pravděpodobnostní chování je popsáno pravděpodobnostní funkcí, což je „zidealizovaný" protějšek četnostní funkce. Diskrétní náhodný vektor je tvořen diskrétními náhodnými veličinami. Zabývali jsme se náhodnými vektory se dvěma složkami. V souvislosti s diskrétním náhodným vektorem zavádíme simultánní pravděpodobnostní funkci. Marginální pravděpodobnostní funkce se vztahují k jednotlivým složkám náhodného vektoru. Spojitá náhodná veličina nabývá všech hodnot z nějakého intervalu. Její pravděpodobnostní chování je popsáno hustotou pravděpodobnosti, což je „zidealizovaný" protějšek hustoty četnosti. Spojitý náhodný vektor je tvořen spojitými náhodnými veličinami. Jeho pravděpodobnostní chování je popsáno simultánní hustotou pravděpodobnosti. Marginální hustoty pravděpodobnosti se vztahují k jednotlivým složkám náhodného vektoru. Pomocí multiplikativního vztahu, v němž vystupují simultánní a marginální distribuční funkce (resp. pravděpodobnostní funkce v diskrétním případě resp. hustoty pravděpodobnosti ve spojitém případě), zavedeme pojem stochastické nezávislosti náhodných veličin. Kontrolní otázky a úkoly 1. Uveďte příklad náhodné veličiny a náhodného vektoru z ekonomické praxe. 2. Najděte distribuční funkci náhodné veličiny, která udává počet líců při hodu třemi mincemi a nakreslete její graf. [x e (-oo,0) : ®(x) = O, x e (0,1) : ®(x) = |, x e (1,2) : ®(x) = §, x e (2,3) : ®(x) = |, x e (3, oo) : ®(x) = 1 1,2 "i 0,8 -0,6 -0,4 - 0,2 - _ 0-- -0,2 -|-1-1-1-1-1-1-1-1-1-1 - 1,5 - 1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5 ] 3. Rozhodněte, které z uvedených náhodných veličin j sou diskrétní a které j sou spojité: a) počet členů domácnosti b) věk člověka v letech c) náhodně vybrané reálné číslo d) počet zákazníků ve frontě e) cena výrobku 7. Náhodná veličina a její distribuční funkce f) počet zmetků z celkové denní produkce g) délka určitého předmětu h) životnost televizoru v letech [diskrétní a), d), f), spojité b), c), e), g), h)] 4. Které funkcionální charakteristiky popisují pravděpodobnostní chovaní diskrétní náhodné veličiny a které diskrétního náhodného vektoru? 5. Které funkcionální charakteristiky popisují pravděpodobnostní chování spojité náhodné veličiny a které spojitého náhodného vektoru? 6. Je-li X diskrétní náhodná veličina s pravděpodobnostní funkcí n(x), může býtn{x) > 1? [n(x) nemůže být větší než 1, protože má význam pravděpodobnosti.] 7. Je-li X spojitá náhodná veličina s hustotou pravděpodobnosti (p(x), může být (f(x) > 1? [(f(x) může být větší než 1, protože nemá význam pravděpodobnosti.] 8. Náhodná veličina udává průměrný počet ok při hodu dvěma kostkami. Nakreslete graf její pravděpodobnostní funkce. [7t(1) = i, tt(1,5) = ±, n(2) = l6, 7t(2,5) = ±, 7t(3) = |, 7t(3,5) = !, n{A) = *<4,5) = ± *<5) = h *(5,5) = ± n{6) = i 0,16 0,12 0,08 0,04 0 O O o o o o o o o o -1-1-1-1-1-1-1-1-1-1 I 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 J 9. Diskrétní náhodný vektor (Xi, X2) má simultánní pravděpodobnostní funkci n(xi,xi) danou hodnotami: tt(0, 0) = tt(0, 2) = tt(1, 1) = tt(2, 0) = tt(2, 2) = 0, tt(1,0) = tt(0, 1) = tt(1,2) = tt(2, 1) = 0,25. Jsou náhodné veličiny X\, X2 stochasticky nezávislé? [Náhodné veličiny X\, X2 nejsou stochasticky nezávislé, protože není splněn multiplikativní vztah: V(x\,x2) e R2 : n(x\,x2) = ni(xi)n2(x2).] 10. Nechť spojitý vektor (Xi, X2) má simultánní hustotu pravděpodobnosti 2 složkami je takové rozložení, kdy jedna nebo více složek tohoto náhodného vektoru je konstantní. Uvažme např. náhodný vektor (Xi, X2), kde náhodná veličina Xi udává výšku syna a náhodná veličina X2 udává výšku otce. Bude nás zajímat rozložení pravděpodobností výšek synů při dané hodnotě výšek otců, tedy podmíněné rozložení veličiny X\ za podmínky X2 = x2. U diskrétních náhodných vektorů používáme podmíněnou pravděpodobnostní funkci 7Ti|2 {x\ \x2), což je zidealizovaný protějšek podmíněné četnostní funkce pX\2 (x\ \x2) (viz definice 2.7) a u spojitých náhodných vektorů zavádíme podmíněnou hustotu pravděpodobnosti íp\\2 (x\ \x2) jako zidealizovaný protějšek podmíněné hustoty četnosti Zip {x\ \x2) (viz definice 2.17). 8.2. Definice Nechť (X\,X2) je náhodný vektor se simultánní distribuční funkcí O (xi, x2). Podmíněná distribuční funkce i|2 {x\ \x2) náhodné veličiny X\ za podmínky, že náhodná veličina X2 nabývá hodnoty x2, je dána vztahem Vjci e R : ®m {xl \x2) lim P {Xi < xi \x2 < X2 < x2 + Ax2) = lim P (Xi < xi a x2 < X2 < x2 + Ax2) P (x2 i|2 (xi \x2) udává pravděpodobnost, že veličina Xi nabude hodnoty nejvýše xi při dané hodnotě X2 = x2. Protože hodnota x2 je pevně daná, je funkce i|2 (xi \x2) funkcí jedné proměnné a lze snadno ověřit, že splňuje požadavky kladené na distribuční funkci náhodné veličiny. Stejně jako lze ověřovat stochastickou nezávislost dvou jevů pomocí vztahu mezi podmíněnou pravděpodobností jednoho jevu za podmínky, že nastal druhý jev, 92 a pravděpodobností onoho prvního jevu (viz vlastnost d) ve větě 6.5), můžeme zkoumat stochastickou nezávislost dvou náhodných veličin pomocí vztahu mezi podmíněnou distribuční funkcí a marginální distribuční funkcí (jak uvidíme později, analogické rovnosti platí i pro podmíněnou pravděpodobnostní funkci resp. podmíněnou hustotu pravděpodobnosti a marginální pravděpodobnostní funkci resp. marginální hustotu pravděpodobnosti). 8.3. Věta Nechť (Xi,X2) je náhodný vektor s marginálními distribučními funkcemi i (xi) a 02 (x2). Náhodné veličiny X\, X2 jsou stochasticky nezávislé, jestliže platí: V*2 e R : O112 {xx \x2) = 0>i (Xl) a současně Vjci e R : 02|i (x2\xl) = 02fe). Nyní zavedeme podmíněná rozložení pravděpodobností pro dvourozměrný diskrétní a poté pro spojitý náhodný vektor. 8.4. Definice Nechť (Xi, X2) je diskrétní náhodný vektor se simultánní pravděpodobnostní funkcí 7t (x\, x2) a marginálními pravděpodobnostními funkcemi tti (xi) a n2 (x2). Fixujeme hodnotu x2. Podmíněná pravděpodobnostní funkce n\\2 (x\ \x2) náhodné veličiny X\ za podmínky, že náhodná veličina X2 nabývá hodnoty x2, je dána vztahem: Vjci e R : nm (xi \x2) = n^Xl,X2^ pro ni > q 7t2 (x2) Analogicky lze definovat podmíněnou pravděpodobnostní funkci tt2|i (x2 \x\ ). Vysvětlení: Podmíněná pravděpodobnostní funkce n\\2 (x\ \x2) je v důsledku působení empirického zákona velkých čísel teoretickým protějškem sloupcově podmíněné četnostní funkce p\\2 (x\ \x2) zavedené v definici 2.7: Vjci e R : pm {x\ \x2) = PX^ pro p2(x2) > 0. Pí (x2) S rostoucím rozsahem výběrového souboru se budou hodnoty sloupcově podmíněné četnostní funkce pX\2 {x\ \x2) ustalovat kolem hodnot podmíněné pravděpodobnostní funkce n\\2 (x\ \x2). Definice podmíněné pravděpodobnostní funkce n\\2 (x\ \x2) je v úplném souladu s definicí podmíněné pravděpodobnosti jevu A za podmínky, že nastal jev B s nenulovou pravděpodobností: v P(B) V tomto případě A = {Xi = x\], B = {X2 = x2}. 8.5. Poznámka Z definičního vztahu je okamžitě vidět, že simultánní pravděpodobnostní funkci náhodného vektoru (X\,X2) lze vyjádřit jako součin marginální pravděpodobnostní 8. Podmíněná rozložení náhodných veličin funkce jedné ze složek náhodného vektoru a podmíněné pravděpodobnostní funkce druhé ze složek náhodného vektoru, tj. 7T (Xi, X2) = 7T2 (X2) TTip (*1 |X2 ) , jestliže tt2 (x2) > 0, a obdobně n(xUX2) = 7Ti (jCl)7T2|l 1*1 ), jestliže 7Ti (xi) > 0. Z těchto dvou vztahů vyplývá, že , , , nm(xi\x2)n2(x2) X2\l (X2 \Xi ) = -—- 7Ti (Xi) a podobně , , N 7T2|1 (x2 \xi)ni (xi) Xl\2 {X\ \X2) = -—-. 7T2 (X2) Jedná se o Bayesův vzorec pro diskrétní náhodný vektor (Xi, X2). 8.6. Důsledek Je-li (Xi,X2) diskrétní náhodný vektor, pak pro podmíněnou distribuční funkci #i|2 (xi |x2) platí: Z n(t,x2) Vx\ e R : Oi|2 (xi \x2) = pro n2 (x2) > 0. 7T2 (x2) 8.7. Věta Nechť (Xi,X2) je diskrétní náhodný vektor s marginálními pravděpodobnostními funkcemi n\ {x\) a n2{x2). Náhodné veličiny Xi, X2 jsou stochasticky nezávislé, jestliže platí: Vx2 e R,7r2 (x2) > 0 : nm {xx \x2) = nx (x{), tj. podmíněná pravděpodobnostní funkce náhodné veličiny X\ za podmínky X2 = x2 je rovna marginální pravděpodobnostní funkci náhodné veličiny X\. Analogicky, náhodné veličiny\X\, X2 jsou stochasticky nezávislé, jestliže platí Vjci e R, 7Ti (xi) > 0 : n2\\ (x2 \x\) = n2 (x2). 8.8. Příklad Použijeme poněkud modifikované zadání příkladu 7.10. Je dán systém složený ze dvou bloků. Pravděpodobnost že 1. blok správně funguje, je 0,95, pravděpodobnost, že 2. blok správně funguje, je 0,92 a pravděpodobnost, že správně fungují oba bloky, je 0,88. Nechť náhodná veličina X, je ukazatel fungování z'-tého bloku, tj. _ ( 1, pokud i—tý blok funguje '-12 1 \ 0, pokud i—tý blok nefunguje 94 Simultánní a marginální pravděpodobnostní funkce náhodného vektoru (Xx, X2) byly odvozeny v př. 7.10, tedy po dosazení za ů\ = 0,95, ů2 = 0,92, ůu = 0,88 dostaneme kontingenční tabulku: xx x2 TTi(jCi) 0 1 0 0,01 0,04 0,05 1 0,07 0,88 0,95 T2O2) 0,08 0,92 1 Vypočtěte podmíněné pravděpodobnostní funkce n\\2 (x\ \x2 )&n2\\ (x2 \x\) a s jejich pomocí ověřte, zda náhodné veličiny Xx, X2 jsou stochasticky nezávislé. Řešení: Nejprve vypočítáme hodnoty funkce n\\2 (x\ \x2) podle vzorce Vjci e R : nX\2 (xx \x2) = n^Xl,x^ pro ^ ^ > q. 7t2 (x2) niv (0 10) T112 (110) nm (0 |1) ^-112 (l ID 7t(0, 0) 0,01 n2(0) 0,08 tt(1,0) 0,07 ^(0) 0,08 7t(0, 1) 0,04 n2(l) 0,92 n(l,l) 0,88 n2(l) 0,92 = 0,125 = 0,875 = 0,043 = 0,957 Interpretace např. hodnoty n\\2 (0 |0): je-li známo, že 2. blok nefunguje, tak pravděpodob nost nefungování 1. bloku je 0,125. Dále vypočítáme hodnoty funkce n2\i (x2 \x\). T211 (0|0) 7T2I1 d 10) ^2|1 (011) ^2|1 (UĎ tt(0,0) 0,01 TTl (0) 0,05 7t(0, 1) 0,04 *x (0) 0,05 7T(1,0) 0,07 0,95 *(U) 0,88 ^ri(l) 0,95 0,2 0,8 0,074 0,926 Interpretace např. hodnoty 7r2|i (110): je-li známo, že 1. blok nefunguje, tak pravděpodob nost fungování 2. bloku je 0,8. K ověření stochastické nezávislosti náhodných veličin Xx, X2 použijeme vzorec z věty 8.7: ~ix2 e R : nx\2 (xx \x2) = ti\ (xx) a současně ~ixx e R : n2\i (x2 \xx) = 8. Podmíněná rozložení náhodných veličin 7T2 (x2). V našem případě pro jc2 = 0 a x\ =0 dostáváme: n\\2 (010) = 0,125, avšak 7Ti (0) = 0,05. Rovnost tedy splněna není a další ověřování je zbytečné. Náhodné veličiny X\, X2 nejsou stochasticky nezávislé. V dalším výkladu se budeme věnovat spojitému náhodnému vektoru {X\,X2). Při zavedení podmíněné hustoty pravděpodobnosti veličiny Xi za podmínky, že veličina X2 nabývá hodnoty x2, nemůžeme využít elementární definici podmíněné psavděpodobnosti, neboť pro spojité náhodné veličiny platí, že P(X2 = x2) = 0 (viz věta 7.12, třetí vlastnost). Budeme požadovat, aby (p2 (x2) > 0. Pak již lze definovat podmíněnou hustotu pravděpodobnosti cpi\2 {x\ \x2). 8.9. Definice Nechť (Xi, X2) je spojitý náhodný vektor se simultánní hustotou pravděpodobnosti ip(xi,x2) a marginálními hustotami pravděpodobnosti ip\ {x\) a ip2(x2). Fixujeme hodnotu x2. Podmíněná hustota pravděpodobnosti ipi\2 (x\ \x2) náhodné veličiny Xi za podmínky, že náhodná veličina X2 nabývá hodnoty x2, je dána vztahem Vjci e R : (pm {xx \x2) ip(xi,x2) pro (p2 (x2) > 0. 2|i (x2 \x\).) Vysvětlení: Podmíněná hustota pravděpodobnosti ip\\2 {x\ \x2) je v důsledku působení empirického zákona velkých čísel teoretickým protějškem sloupcově podmíněné hustoty četnosti f\\2 {x\ \x2) zavedené v definici 2.17: Vjci e R : fm (xl \x2) f(xi,x2) fi{x2) pro f2 (x2) > 0. S rostoucím rozsahem výběrového souboru se budou hodnoty sloupcově podmíněné hustoty četnosti f\\2 {x\ \x2) ustalovat kolem hodnot podmíněné hustoty pravděpodobnosti ip\\2 {x\ \x2). Definice podmíněné hustoty pravděpodobnosti nemůže vycházet z definice podmíněné pravděpodobnosti, neboť ve spojitém případě P(X2 = x2) = 0. 8.10. Poznámka Podobně jako v diskrétním případě lze z definičních vztahů pro podmíněné hustoty pravděpodobnosti odvodit Bayesův vzorec pro spojitý náhodný vektor: a podobně <£2|1 {x2\Xi) = 0. 8.12. Věta Nechť (Xi,X2) je spojitý náhodný vektor s marginálními hustotami pravděpodobnosti (fi (xi) a te). Náhodné veličiny X\, X2 jsou stochasticky nezávislé, jestliže platí Vjc2 e R,^2 (*2) > 0 : 0 : (pm (x2 \xx) = ip2 (x2). 8.13. Příklad Využijeme modifikaci příkladu 7.16. Na výrobcích měříme délku s přesností +0,5 mm a šířku s přesností +0,2 mm. Náhodná veličina X\ udává chybu při měření délky a náhodná veličina X2 udává chybu při měření šířky. Předpokládáme, že simultánní hustota pravděpodobnosti je uvnitř mezí chyb konstantní, tj. , ( k pro - 0,5 < xi < 0,5, -0,2 < x2 < 0,2; = { 0 jinak. Najděte obě podmíněné hustoty pravděpodobnosti ipi\2 (x\ \x2) a ^2|i (x2 \x\) a s jejich pomocí ověřte, zda náhodné veličiny X\, X2 jsou stochasticky nezávislé. Řešení: V příkladu 7.16 bylo odvozeno, že , í 2,5 pro - 0,5 < xx < 0,5, -0,2 < x2 < 0,2; *<*'^ = {o jinak, ^ _ í 1 pro - 0,5 < xi < 0,5 ^l Xl \ 0 jinak a , , í 2,5 pro - 0,2 0. <£2 fe) 8. Podmíněná rozložení náhodných veličin |3 V našem případě: ( Éči^Ř = |Ž = i pro _ 0,5 < jci < 0,5 0. V našem případě: P2|i tek) = | 0w(j:i (a) tel = f = 2,5 pro - 0,2 2 složek. Vybereme marginální náhodný vektor {xt,..., X^j o ti\ složkách a zbylý marginální náhodný vektor o n2 složkách («j + n2 = n) označme (Xk,..., Xf). Pak můžeme zavést podmíněnou distribuční funkci náhodného vektoru (Xj,..., X^j za podmínky, že Xt = xt A... AXi = xi (resp. podmíněnou pravděpodobnostní funkci v diskrétním případě resp. podmíněnou hustotu pravděpodobnosti ve spojitém případě) pomocí analogických vztahů, které byly uvedeny v definici 8.2 (resp. definici 8.4 resp. definici 8.9). 8.16. Poznámka V počtu pravděpodobnosti a matematické statistice má velký význam vícerozměrné normální rozložení, viz definice 9.6 d). Lze dokázat, že podmíněná rozložení příslušná vícerozměrnému normálnímu rozložení jsou rovněž normální, což je velmi užitečná vlastnost normálního rozložení. Shrnutí kapitoly Uvažujeme dvourozměrný náhodný vektor (Xi,X2) a zkoumáme rozložení náhodné veličiny Xi za podmínky, že náhodná veličina X2 nabývá konstantní hodnoty. Podmíněné rozložení definujeme takto: 98 pro libovolný náhodný vektor (Xi, X2) definujeme podmíněnou distribuční funkci P(Xl < xi \x2 m (xl \x2) = lim P(Xl < xx \x2 0 P (x2 < X2 < x2+ Ax2) pro diskrétní náhodný vektor {X\,X2) definujeme podmíněnou pravděpodobnostní funkci Vxi e R : nm {x\ \x2) =--L— pro n2 (x2) > 0. 7T2 (x2) Pro podmíněnou distribuční funkci platí Z n(t,x2) Vxi e R : ®m (xx \x2) = pro n2 (x2) > 0. 7T2 (x2) pro spojitý náhodný vektor (Xi,X2) definujeme podmíněnou hustotu pravděpodobnosti: Vxi e R : 0. <£2 fe) Pro distribuční funkci platí: -m J (p(t,x2)dt Vxi e R : Oi|2 (xx |*2) = —---— pro 0. <£2 fe) Je-li podmíněné rozložení rovno marginálnímu rozložení, např. Vx2 e R, tt2(jc2) > 0: 7Ti|2 (xi \x2) = n\ (xi), jsou náhodné veličiny X\, X2 stochasticky nezávislé. Pomocí podmíněné pravděpodobnostní funkce či podmíněné hustoty pravděpodobnosti můžeme také vypočítat pravděpodobnost jevu, že jedna náhodná veličina se realizuje v dané číselné množině za předpokladu, že druhá náhodná veličina nabyla určité hodnoty. Kontrolní otázky a úkoly 1. Co vyjadřuje podmíněná pravděpodobností funkce n\\2 {x\ \x2)? 2. Jaký je vztah mezi podmíněnou hustotou pravděpodobnosti ipm (xi \x2) apod-míněnou hustotou četnosti f\\2 {x\ \x2)l 3. Jak lze pomocí podmíněného rozložení ověřit stochastickou nezávislost náhodných veličin? 4. Spojitý náhodný vektor (Xi, X2) má simultánní hustotu pravděpodobnosti í 2 pro 0 < xi < 1, 0 < x2 < 1 - xi; = { 0 jinak. Určete obě podmíněné hustoty pravděpodobnosti ipi\2 {x\ \x2), (p2\\ {x2\x\) a s jejich pomocí zjistěte, zda náhodné veličiny Xx, X2 jsou stochasticky nezávislé. 8. Podmíněná rozložení náhodných veličin Řešení: Nejprve vypočítáme marginální hustoty pravděpodobnosti. 0 dostaneme ( fjxux2) _ 2 _ _j_ 0 < x < l . . 1 . Yl \ 0 jinak. Je okamžitě zřejmé, že náhodné veličiny Xi, X2 nejsou stochasticky nezávislé, neboť nejsou splněny vztahy Vjc2 e R : ^112 (*i 1*2) = 1, 0 < jc2 < 1 1. 2+ Spočteme y>i (2) = | • ^ = 0,25 a dosadíme do vzorce pro výpočet 02,i (0,5 |2): 05 02,i (0,5 |2) ¥>i (2) 0,25 ™ = 0,45 20 Pokud náklady na zakoupenou energii činí 2 milióny Kč, tak pravděpodobnost, že náklady na lokální zdroje nepřesáhnou 0,5 miliónu Kč, je 0,45. Diskrétní náhodný vektor (Xi,X2) má simultánní pravděpodobnostní funkci tt(xi,x2), jejíž hodnoty jsou uvedeny v kontingenční tabulce: Xi x2 2 4 6 8 1 0,01 0,03 0,04 0,02 2 0,02 0,24 0,10 0,04 3 0,04 0,15 0,08 0,03 4 0,04 0,06 0,08 0,02 Stanovte podmíněněné pravděpodobnostních funkce ii\\2 (x\ |8), 7r2|i (x2 |1) a hodnoty podmíněných distribučních funkcí 0lj2 (214), 02jl (6 |3). Řešení: Kontingenční tabulku doplníme o sloupec a řádek, v nichž budou uvedeny marginální pravděpodobnostní funkce n\ (xi) a tt2 (jc2). *1 x2 7Ti (Xi) 2 4 6 8 1 0,01 0,03 0,04 0,02 0,1 2 0,02 0,24 0,10 0,04 0,4 3 0,04 0,15 0,08 0,03 0,3 4 0,04 0,06 0,08 0,02 0,2 7T2 (X2) 0,11 0,48 0,30 0,11 1 Pro výpočet podmíněných pravděpodobnostních funkcí použijeme vzorec z definice 8.4: Vjci e R : nm (xx \x2) = ^**'*2'> pro n2 (x2) > 0, Vjc2 e R : 7r2|i (jc2 \x\ ) = Výpočty uspořádáme do dvou tabulek. 7T2 (X2) n(xi,x2) 7Ti (Xi) pro 7Ti (xi) > 0. 8. Podmíněná rozložení náhodných veličin Xi 7Tl|2 (Xi |8) 1 tt(1,8) _ 0,02 _ 2 7T2(8) _ 0,11 _ 11 2 tt(2,8) _ 0,04 _ 4 7T2(8) 0,11 11 3 tt(3,8) _ 0,03 _ 3 7T2(8) 0,11 11 4 tt(4,8) _ 0,02 _ 2 7T2(8) 0,11 11 x2 7T2|1 |1) 2 tt(1,2) _ 0,01 _ 1 tti(1) _ 0,1 _ 10 4 tt(1,4) _ 0,03 _ 3 7Tl(l) 0,1 10 6 tt(1,6) _ 0,04 _ 4 7Tl(l) 0,1 10 8 tt(1,8) _ 0,02 _ 2 7Tl(l) 0,1 10 Pro výpočet hodnot podmíněných distribučních funkcí použijeme vzorec z důsledku 8.6: Z n(t,x2) Vxi e R : 0 je střední počet těchto událostí. n(x) ^e-Á 0 pro x = 0,1,..., jinak. 0,22 0,18 0,14 H 0,1 0,06 0,02-0,02 0 2 4 6 8 10 12 14 Pravděpodobnostní funkce Po(5). 16 9.3. Příklad V rodině je 10 dětí. Za předpokladu, že chlapci i dívky se rodí s pravděpodobností 0,5 a pohlaví se formuje nezávisle na sobě, určete pravděpodobnost, že v této rodině jsou nejméně 3 a nejvýše 8 chlapců. Řešení: X - počet chlapců v této rodině, X ~ Bi(l0; 0,5), ■4 10-* 957 1024 = 0,935. 9.4. Příklad Jaká je pravděpodobnost, že při hře „Člověče, nezlob se!" nasadíme nejpozději při třetím hodu? 9. Vybraná rozložení diskrétních a spojitých náhodných veličin Řešení: X - počet neúspěchů před první šestkou, X ~ Ge(^), P(X<2) = 2(l-i)'i=0,4213. 9.5. Příklad Při provozu balicího automatu vznikají během směny náhodné poruchy, které se řídí rozložením Po{2). Jaká je pravděpodobnost, že během směny dojde aspoň k jedné poruše? Řešení: X - počet poruch během směny, X ~ Po(2), 2° P(X > 1) = 1 - P(X < 1) = 1 - P(X = 0) = 1 - — e~2 = 0,8647. 9.6. Definice Nyní uvedeme vybrané typy spojitých rozložení. a) Rovnoměrné spojité rozložení: X ~ Rs(a, b) Náhodná veličina X má konstantní hustotu na intervalu {a, b). { t— pro x e (a, b), *') = {o ľinak. 0,4 ■ 0,3 ■ 0,2- o,i- 0 -0,1 -2-10 1 2 3 Hustota Rs{-1,2). b) Exponenciální rozložení: X ~ Ex{X) Náhodná veličina X udává dobu čekání na příchod nějaké události, která se může dostavit každým okamžikem se stejnou šancí bez ohledu na dosud pročekanou dobu. Přitom j vyjadřuje střední dobu čekání. (p(x) = Ae~Ax 0 pro x > 0, jinak. 108 Hustota Ex(2). c) Normální rozložení: X ~ N(p,, o~2) Tato náhodná veličina vzniká např. tak, že ke konstantě jx se přičítá velké množství nezávislých náhodných vlivů mírně kolísajících kolem 0. Proměnlivost těchto vlivů je vyjádřena konstantou a > 0. (p(x) = cr V2^ Pro jx = 0, cr2 = 1 se jedná o standardizované normální rozložení, píšeme U ~ N(0,1). Hustota pravděpodobnosti má v tomto případě tvar 0, pro u < 0 se používá přepočtový vzorec O(-m) = 1 - i = 1' 2. Pak náhodná veličina X = — F{nun2). _ n2 1 2 3 Hustota F(5,8). 9.7. Příklad Na automatické lince se plní láhve mlékem. Působením náhodných vlivů množství mléka kolísá v intervalu (980 ml, 1020 ml). Každé množství mléka v tomto intervalu považujeme za stejně možné. Jaká je pravděpodobnost, že v náhodně vybrané láhvi bude aspoň 1000 ml mléka? Řešení: X - množství mléka v náhodně vybrané láhvi, X ~ Rs(9S0,1020), 1000) = J -L dx = 1WJ020 = 05 1000 112 9.8. Příklad Doba (v minutách) potřebná k obsloužení zákazníka v prodejně potravin je náhodná veličina, která se řídí rozložením Ex(\). Jaká je pravděpodobnost, že doba potřebná k obsloužení náhodně vybraného zákazníka v této prodejně bude v rozmezí od 3 do 6 minut? Řešení: X - doba potřebná k obsloužení náhodně vybraného zákazníka, X ~ Ex(\), P(3 < X < 6) pro x > 0, jinak. o = J ^e~í dx = ^(-3) [e^f3 = -e~2 + e~l = 0,233 9.9. Příklad Výsledky u přijímacích zkoušek na jistou VŠ jsou normálně rozloženy s parametry ix = 550 bodů, cr = 100 bodů. S jakou pravděpodobností bude mít náhodně vybraný uchazeč aspoň 600 bodů? Řešení: X - výsledek náhodně vybraného uchazeče, X ~ N(550,1002), P(X > 600) =\-P(X< 600) + P(X = 600) = 1 - P(X < 600) = !X-fi 600 -fi\ , / 600-550 = 1 -P\-- <-- \ = \-P\U < a cr ) \ 100 = 1 - O(0,5) = 1 - 0,69146 = 0,31. 9.10. Příklad Nechť Xi,X2,X3,XA jsou stochasticky nezávislé náhodné veličiny, X{ ~ N(0,1), i = 1,2,3,4. Jaké rozložení má transformovaná náhodná veličina x- xV5 - x\ + x32 + x\ Řešení: X ~ ř(3), protože Xx ~ N(0,1) a X\ + X2 + X\ ~ x2(3). Shrnutí kapitoly Degenerované rozložení popisuje pravděpodobnostní chování konstanty, což je nepochybně patologický případ. Zajímavější je alternativní, geometrické a zvláště binomické rozložení. Všechna tato rozložení souvisejí s počty úspěchů či neúspěchů 9. Vybraná rozložení diskrétních a spojitých náhodných veličin v posloupnosti opakovaných nezávislých pokusů. Hypergeometrické rozložení se vyskytuje v situacích, kdy provádíme výběr bez vracení ze souboru, který obsahuje označené prvky. Rovnoměrné rozložení na dané množině je charakteristické tím, že náhodná veličina, která se jím řídí, nabývá každé hodnoty z této množiny se stejnou pravděpodobností. Podle Poissonova rozložení se chová např. náhodná veličina udávající počet událostí, které nastanou v jednotkovém čase. Za spojitých rozložení je nejjednodušší rovnoměrné spojité rozložení. Jeho hustota je na daném intervalu konstantní a jinde nulová. Náhodná veličina s exponenciálním rozložením udává dobu čekání na příchod nějaké události, přičemž toto čekání probíhá „bez paměti". Vůbec nej důležitějším rozložením je normální rozložení, které vzniká např. tak, že k nějaké konstantě se přičítá velké množství nezávislých náhodných vlivů mírně kolísajících kolem nuly. Tím se z konstanty stane náhodná veličina. Grafem normální hustoty pravděpodobnosti je známá Gaussova křivka. Pomocí standardizovaného rozložení lze zavést další tři typy speciálních rozložení, a to Pearsonovo, Studentovo a Fisherovo-Snedecorovo. Nacházejí uplatnění především v matematické statistice. Kontrolní otázky a úkoly 1. (S) Pomocí systému STATISTICA nakreslete grafy hustot a distribučních funkcí uvedených spojitých rozložení. Sledujte vliv parametrů na tvar hustot a distribučních funkcí. Návod: viz příloha B. 2. (S) Pojišťovna zjistila, že 12 % pojistných událostí je způsobeno vloupáním. Jaká je pravděpodobnost, že mezi 30 náhodně vybranými pojistnými událostmi bude způsobeno vloupáním nejvýše 6? [0,939] 3. Doba (v hodinách), která uplyne mezi dvěma naléhavými příjmy v jisté nemocnici, se řídí rozložením Ex(0,5). Jaká je pravděpodobnost, že uplyne více než 5 hodin bez naléhavého příjmu? [e~2'5 = 0,0821] 4. Jaká je pravděpodobnost, že náhodná veličina X ~ N(20,16) nabude hodnotu menší než 12 nebo větší než 28? [0,0455] 5. Nechť X ~ Rs(a, b), přičemž 0 pro x < a x+20 55 pro a < x < b 1 pro x > b Určete a, b. [a = -20, b = 35] Nechť Xi, X2 jsou stochasticky nezávislé náhodné veličiny takové, že X, ~ N(0,1), i = 1,2. Jaké rozložení má transformovaná náhodná veličina X2 114 Číselné charakteristiky náhodných veličin 10. Číselné charakteristiky náhodných veličin Cíl kapitoly Po prostudování této kapitoly budete umět: ■ spočítat kvantily spojitých náhodných veličin ■ hledat kvantily některých spojitých náhodných veličin ve statistických tabulkách ■ určit střední hodnotu a rozptyl náhodné veličiny ■ spočítat kovarianci a koeficient korelace dvou náhodných veličin ■ využívat vlastností číselných charakteristik náhodných veličin při konkrétních výpočtech Časová zátěž Na prostudování této kapitoly budete potřebovat asi 10 hodin studia. 10.1. Motivace V kapitole 7 j sme se seznámili s funkcionálními charakteristikami náhodných veličin (např. distribuční funkce, pravděpodobnostní funkce, hustota pravděpodobnosti), které plně popisují pravděpodobnostní chování náhodné veličiny. Číselné charakteristiky vystihují pouze některé rysy tohoto chování, např. popisují polohu realizací náhodné veličiny na číselné ose či jejich proměnlivost (variabilitu). Jsou jednodušší než funkcionální charakteristiky, ale nesou jen částečnou informaci. 10.2. Definice NechťX je spojitá náhodná veličina aspoň ordinálního charakteru (viz definici 3.2) s distribuční funkcí O(jc) a nechť a e (0,1). Číslo Ka(X), které splňuje podmínku Ka(X) a = <&{Ka{X))= j = Ma, X => Ka(X) = X2a(n), X ~ t(n) => £a(X) = řa(n), X ~ F(nun2) => £a(X) = F^,^). Tyto kvantily najdeme ve statistických tabulkách. Používáme vztahy: Ua = — Ui-a, ta{n) = -ři_a(n), 1 Fa(nun2) = -—---. Fi-a(n2,ni) 10.4. Příklad a) Nechť U ~ N(0,1). Najděte medián a horní a dolní kvartil. b) Určete 4025(25). c) Určete ř0,99(30) a ř0,05(24). d) Určete F0,975(5,20) a F0,05(2,10). Řešení: ad a) a0,5o = 0, a0,25 = -0,67449, m0,75 = 0,67449 adb) ^025(25) = 13,12 ad c) ř0,99(30) = 2,4573, řao5(24) = -1,7109 ad d) F0,975(5,20) = 3,2891, F0,05(2,10) = 0,05156 10.5. Věta Nechť X je spojitá náhodná veličina, Y = g(X) transformovaná náhodná veličina, a e (0,1). a) Je-li g všude rostoucí funkce, pak Ka(Y) = g(Ka(X)). b) Je-li g všude klesající funkce, pak Ka(Y) = g(Ki-a(X)). 10.6. Příklad Nechť U ~ N(0,1). Najděte devátý decil transformované náhodné veličiny Y = 3 + 2U. Řešení: Funkce y = 3 + 2u je všude rostoucí funkce, tedy K090(Y) = 3 + 2a090 = 3 + 2 • 1,28155 = 5,5631. 10. Číselné charakteristiky náhodných veličin Nyní budeme věnovat pozornost číselným charakteristikám polohy a variability náhodné veličiny intervalového či poměrového charakteru. Jak uvidíme, teoretickým protějškem aritmetického průměru m je střední hodnota E(X) a empirického rozptylu s2 teoretický rozptyl D(X). Empirický rozptyl s2 jsme zavedli jako aritmetický průměr kvadrátů centrovaných hodnot. Není tedy překvapivé, že teoretický rozptyl D(X) je střední hodnotou kvadrátů centrovaných hodnot. Naučíme se počítat střední hodnotu a rozptyl transformovaných náhodných veličin a náhodných vektorů. Uvedeme střední hodnoty a rozptyly vybraných typů diskrétních a spojitých rozložení, která jsme poznali v kapitole 9. 10.7. Definice NechťX je náhodná veličina aspoň intervalového charakteru (viz definici 3.2). Její střední hodnotou nazýváme číslo E(X), které je v diskrétním případě zavedeno vztahem E(X) = a ve spojitém případě vztahem E(X) co x(p(x) dx za předpokladu, že případná nekonečná suma či integrál vpravo absolutně konverguje. Není-li tato podmínka splněna, pak řekneme, že střední hodnota neexistuje. Transformovaná náhodná veličina X — E(X) se nazývá centrovaná náhodná veličina. (Střední hodnota je číslo, které charakterizuje polohu realizací náhodné veličiny na číselné ose s přihlédnutím k jejich pravděpodobnostem. V diskrétním případě představuje střední hodnota těžiště soustavy hmotných bodů, jejichž hmotnost je popsána pravděpodobnostní funkcí n(x) a ve spojitém případě je střední hodnota těžištěm hmotné přímky, na níž je rozprostření hmoty popsáno hustotou pravděpodobnosti (f(x). Střední hodnota je teoretickým protějškem váženého aritmetického průměru z definice 3.20.) 10.8. Příklad Náhodná veličina X udává počet ok při hodu kostkou. Vypočtěte její střední hodnotu. Řešení: n(x) g pro x = 1,2,... ,6 0 jinak, 6 l 7 E(X) = ^ xn(x) = -(1+2 + 3 + 4 + 5 + 6) = -= 3,5. x=l 10.9. Věta a) Skalární případ: • Nechť X je diskrétní náhodná veličina s pravděpodobnostní funkcí n(x) a Y = g(X) je transformovaná náhodná veličina. Pak 118 E(Y) = ^ g(xMx), x=-oo pokud suma vpravo absolutně konverguje. • Nechť X je spojitá náhodná veličina s hustotou pravděpodobnosti 0 je konstanta. Vypočtěte E{Y). Řešení: co A (p(x) ( Ae~Ax prox>0, [e^Ae^dx { 0 jinak, J A + y o 10.11. Definice Rozptylem náhodné veličiny X, která má střední hodnotu E(X), rozumíme číslo D(X) = E([X - E(X)]2), pokud střední hodnota vpravo existuje. Číslo ^/D(X) se nazývá směrodatná odchylka. Transformovaná náhodná veličina se nazývá standardizovaná náhodná veličina. Z věty 10.9a) plyne, že v diskrétním případě je rozptyl dán vzorcem oo D(X) =Yj[x- E(X)fn(x) 10. Číselné charakteristiky náhodných veličin a ve spojitém případě vzorcem co D{X) = J [x- E(X)]2ip(x) dx X=-cn (pokud suma či integrál vpravo absolutně konvergují). (Rozptyl je číslo, které charakterizuje proměnlivost realizací náhodné veličiny kolem její střední hodnoty s přihlédnutím k jejich pravděpodobnostem. Je teoretickým protějškem váženého rozptylu zavedeného v definici 3.20.) 10.12. Příklad Náhodná veličina X udává počet ok při hodu kostkou. Vypočtěte její rozptyl. Řešení: { \ mox= 1,2, ...,6, n(x) = \ t „ , £(X) = 3,5 (viz př. 10.8), 0 jinak, 6 j D(X) = YJ(x-3,5)2- x=l ^=2,92. 12 10.13. Věta Uveďme střední hodnoty a rozptyly vybraných typů diskrétních a spojitých rozložení. a) X b) X c) X d) X e) X f) X g) X h) X i) X j) x k) X 1) X Dg(jj) => E(X) = fi, D(X) = 0, A(v) => = v, = v(l - v), 5í(w,v) => = wv, = wv(l - v), Ge(v) => = if, = ^, Hg{N,M,n) => E{X) = f n, = f^(l - f £(X) = 2^1, = 7W(G) Po(A) => E(X) = A, D(X) = A2, ■ Rs(a,b) => £(X) = 2^, = • => = \, D{X) = -\, N(jd, ér2) => E(X) = /d, D(X) = ér2, X\n) => E{X) = n, D(X) = 2n, - t(n) => £(X) = 0 pro n > 2, pro n ^2 Pro n >3, pro « = 1,2 neexistuje, m) X ~ F(«i,«2) 1 £(X) neexistuje, £>(X) = E(X) = ^2 Pro n2 ^ 3, pro n2 = 1.2 £(X) neexistuje, -77 pro n2 ^ 5, pro n2 = 1,2,3,4 Z)(X) neexistuje. «1 («2-2)(«2-4) Věnujme se nyní dvěma náhodným veličinám Xl5 X2. Nejprve získáme informace o úrovni a variabilitě podmíněného rozložení náhodné veličiny X\ za podmínky, že 120 náhodná veličina X2 se realizovala číslem x2. Tyto informace nám poskytne podmíněná střední hodnota a podmíněný rozptyl. Dále nás budou zajímat charakteristiky společné variability a síly těsnosti lineárního vztahu náhodných veličin Xi,X2. 10.14. Definice a) Diskrétnípřípad:Nechť(Ar1,X2)jediskrétnínáhodnývektoranechť7ri|2 (x\ \x2) je podmíněná pravděpodobnostní funkce náhodné veličiny X\ za podmínky, že náhodná veličina X2 nabývá hodnoty x2. Podmíněná střední hodnota je definována vztahem oo Vx2 e R,n2(x2) > 0 : E{Xx \x2) = ^ Xinm (xi \x2) X\ =-oo a podmíněný rozptyl je definován vztahem oo V*2 e R, Ti (x2) > 0 : D (Xt \x2) = ^ [Xl - E (X, \x2 )]2 nm (xx \x2). X\ =-oo Tento vzorec lze upravit do výpočetního tvaru oo D (Xi \x2) = ^ x\nm (xx \x2) - [E (X, \x2 )]2 . Xi =-oo b) Spojitý případ: Nechť (Xi, X2) je spojitý náhodný vektor a nechť ipi\2 (x\ \x2) je podmíněná hustota pravděpodobnosti náhodné veličiny Xi za podmínky, že náhodná veličina X2 nabývá hodnoty x2. Podmíněná střední hodnota je definována vztahem xi _ Xl+X2 _ 1(X\ +x2) 1 Xl , — + *2 — 3 2 Jo 2(xx + *2) A x\—-—— ax\ - 2x2 + 1 2*2 + l o l xA _ 3x2 + 2 2x2 + 1 (ä + ~2) ~ 3(2*2 + 1) Skedastická funkce: D(Xx\x2) = I [xi - E (Xi \x2)] (fil2 (xi \x2) dxi Xl - 3*2 + 2 2 (xi + x2) , 6*2 + 6*2+1 2*2+1 -dx\ 2(6*2 + 3)2 3(2*2 + 1) Vidíme, že rozložení náhodného vektoru (Xi, X2) je heteroskedastické. Jako motivace pro zavedení charakteristik společné variability náhodných veličin Xi, X2 a síly těsnosti lineárního vztahu mezi nimi nám poslouží empirická kovariance s\2 123 10. Číselné charakteristiky náhodných veličin a empirický koeficient korelace r\2. Empirická kovariance s\2 byla definována jako aritmetický průměr součinů centrovaných hodnot a empirický koeficient korelace r12 jako aritmetický průměr součinů standardizovaných hodnot. Lze tedy očekávat, že teoretická kovariance C(Xi,X2) bude střední hodnotou součinů centrovaných hodnot a teoretický koeficient korelace R(Xi, X2) bude střední hodnotou součinů standardizovaných hodnot. 10.17. Definice Kovariancí náhodných veličin X\,X2, které mají střední hodnoty E{X\), E(X2), rozumíme číslo C(XUX2) = E([X, - E(X,)][X2 - E{X2)D (pokud střední hodnoty vpravo existují). Z věty 10.9b) plyne, že v diskrétním případě je kovariance dána vzorcem co co C(Xi, X2) = ^ YjIxi- E(X!)] [x2 - E(X2)MXl, x2) X\ =-0o JT2 = -°° a ve spojitém případě vzorcem co co C(XUX2) = J J[Xl- £(Xi)][jt2 - E(X2)Mxux2)dXldx2 — co —co (pokud dvojná suma či dvojný integrál vpravo absolutně konvergují). Kovariance je číslo, které charakterizuje proměnlivost realizací náhodných veličin X\,X2 kolem jejich středních hodnot s přihlédnutím k jejich pravděpodobnostem. Je-li kovariance kladná (záporná), pak to svědčí o existenci jistého stupně přímé (nepřímé) lineární závislosti mezi realizacemi náhodných veličin X\,X2. Je-li kovariance nulová, pak říkáme, že náhodné veličiny Xi, X2 jsou nekorelované a znamená to, že mezi jejich realizacemi není žádný lineární vztah. Pozor - z nekorelo-vanosti nevyplývá stochastická nezávislost, zatímco ze stochastické nezávislosti plyne nekorelovanost. Kovariance je teoretickým protějškem vážené kovariance z definice 3.20. 10.18. Příklad Diskrétní náhodný vektor {X\, X2) má simultánní pravděpodobnostní funkci s hodno- tami: tt(0,-1) = c, ?r(0,0) = tt(0, 1) = tt(1,-1) = tt(2,-1) = 0, tt(1,0) = tt(1,1) = tt(2, 1) = 2c, ?r(2,0) = 3c, tt(xi,x2) = 0 jinak. Určete konstantu c a vypočtěte C(XUX2). Řešení: Hodnoty simultánní pravděpodobnostní funkce a obou marginálních pravděpodobnostních funkcí uspořádáme do kontingenční tabulky. 124 X\ x2^\ -1 0 1 TTlOl) 0 c 0 0 c 1 0 2c 2c 4c 2 0 3c 2c 5c xi(x2) c 5c 4c 1 Z normovanosti pravděpodobnostní funkce diskrétního náhodného vektoru (viz věta 7.8, vektorový případ) dostáváme 10c = 1, tedy c = 0,1. 2 E(Xi) = Yj *iTi(*i) = 0 • 0,1 + 1 • 0,4 + 2 • 0,5 = 1,4 xi=q 1 E(X2) = x2^2(x2) = -1 • 0,1 + 0 • 0,5 + 1 • 0,4 = 0,3 x2=-l 2 1 C(XUX2) = YjTj[Xi~ EiX^xi ~ E{X2)]n(xux2) = x\=0 x2=—l = (0 - 1,4) • (-1 - 0,3) • 0,1 + • • • + (2 - 1,4) • (1 - 0,3) • 0,2 = 0,18. 10.19. Definice Koeficientem korelace náhodných veličin X\, X2 rozumíme číslo R(Xl.X2) J E( W • W) P» V5ČXÔ V5(S > 0, I 0 jinak. (Koeficient korelace je číslo, které charakterizuje těsnost lineární závislosti realizací náhodných veličin X\, X2. Čím bližší je 1, tím těsnější je přímá lineární závislost, čím bližší je -1, tím těsnější je nepřímá lineární závislost.) Nyní se podrobně seznámíme s řadou vlastností výše uvedených číselných charakteristik a využijeme jich při řešení několika příkladů. 10.20. Věta Nechť a, a\, a2, b, b\, b2 jsou reálná čísla, X, X\,..., Xn, Y\,..., Ym jsou náhodné veličiny definované na témž pravděpodobnostním prostoru. V následujících vzorcích vždy z existence číselných charakteristik na pravé straně vyplývá existence výrazu na levé straně. Vlastnosti střední hodnoty a) E (a) = a, b) E(a + bX) = a + bE(X), c) E(X - E(X)) = 0, d) E\ZXA = ZE(Xi), \i=l I 1=1 125 10. Číselné charakteristiky náhodných veličin e) Jsou-li náhodné veličiny X\,..., Xn stochasticky nezávislé, pak platí e[ux) = ue(xí). \i=l j 1=1 Vlastnosti kovariance a) C (a i, X2) = C(Xl, a2) = C(au a2) = 0, b) C(fli + biXua2 + b2X2) = bxb2C(XuX2), c) C(X,X) = D(X), d) C(X1,X2) = C(X2,X1), e) C(XUX2) = £(XiX2) - £(Xi)£(X2), (n m \ n m i=l 7=1 / ŕ=l 7=1 Vlastnosti rozptylu a) D(a) = 0, b) D(a + bX) = b2D(X), c) D{X) = E(X2) - [E(X)]\ (n \ n ti—\ n X X A = X D(Xi) + 2 X X C(Xŕ, X j) (Jsou-li náhodné veličiny X1?..., í'=1 / í'=1 í'=1 7=1+1 (n \ n X x, = X ^K-Xi) •) i=i / i=i Vlastnosti koeficientu korelace a) Ä(fli,X2) = Ä(Xi,fl2) = Ä(fli,fl2) = 0, b) R{ax + hXua2 + b2X2) = sgn(^1^2)7?(X1,X2), c) R(X, X) = 1 pro D(X) ŕ 0, (X, X) = 0 jinak, d) Ä(Xi,X2) = /?(X2,Xi) e) R(XUX2)= - I 0 j inak, f) |7?(Xi,X2)| < 1 a rovnost nastane tehdy a jen tehdy, když mezi veličinami Xi,X2 existuje s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a\,a2 tak, že P(X2 = cii+a2Xi) = 1. (Uvedená nerovnost se nazývá Cauchyova-Schwarzova-Buňakovského nerovnost.) 10.21. Příklad Vypočtěte koeficient korelace náhodných veličin X\, X2 z příkladu 10.18. Řešení: Vpříkladu 10.18 byla vypočtena kovariance C(Xx,X2) = 0,18. Stačí tedy vypočítat směrodatné odchylky veličin X\,X2. 126 2 D{Xl) = Yuixi-E{Xl)fnl{xl) = = (O - 1,4)2 • 0,1 + (1 - 1,4)2 • 0,4 + (2 - 1,4)2 • 0,5 = 0,44 i D(X2) = Yj[x2- E(X2)]2n2(x2) = x2=-l = (-1 - 0,3)2 • 0,1 + (0 - 0,3)2 • 0,5 + (1 - 0,3)2 • 0,4 = 0,41 10.22. Příklad Náhodná veličina X má střední hodnotu jx a rozptyl a2. Vypočtěte střední hodnotu a rozptyl centrované náhodné veličiny Y = X - jx a střední hodnotu a rozptyl standardizované náhodné veličiny U = —. 10.23. Příklad Náhodné veličiny X, F j sou náhodné chyby, které vznikají na vstupním zařízení. Mají střední hodnoty E(X) = -2, E(Y) = 4 a rozptyly D(X) = 4, D(Y) = 9. Koeficient korelace těchto chyb je R(X, Y) = -0,5. Chyba na výstupu zařízení souvisí s chybami na vstupu funkční závislostí Z = 3X2 - 2XY + Y2 - 3. Najděte střední hodnotu chyby na výstupu. Řešení: E(Z) = E(3X2 - 2XY + Y2 - 3) = 3E(X2) - 2E(XY) + E(Y2) - E(3) = = 3 [DÍK) + [E(X)]2) - 2 [C(X, Y) + E(X)E(Y)] + D{Y) + [E(Y)]2 - 3 = = 3[D(X) + [E(X)]2] - 2[R(X, Y) y/D(X) y/D(Y) + E(X)E(Y)] + D(Y)+ + [E(Y)]2 - 3 = 3(4 + 4) - 2[-0,5 • 2 • 3 + (-2) • 4] + 9 + 16 - 3 = = 24 + 22 + 25 - 3 = 68. Pokud neznáme rozložení pravděpodobností náhodné veličiny, ale jenom její střední hodnotu a rozptyl, pak můžeme pomocí tzv. Čebyševovy nerovnosti aspoň odhadnout pravděpodobnost, že tato náhodná veličina se od své střední hodnoty odchýlí o více než ř-násobek své směrodatné odchylky. Řešení: E(Y) D(Y) E(X-fí) = E(X) - Eijx) = yu -yu = 0, D(X -fi) = D(X) = o2, 10. Číselné charakteristiky náhodných veličin 10.24. Věta Nechť nezáporná náhodná veličina X má střední hodnotu p. Pak platí Čebyševova nerovnost i. typu P(X >£)<-, s kde e je libovolné kladné číslo. Význam Čebyševovy nerovnosti I. typu spočívá v tom, že pokud neznáme rozložení náhodné veličiny, ale známe její střední hodnotu, pak můžeme hrubě odhadnout pravděpodobnost, s jakou nezáporná náhodná veličina X nabude hodnoty alespoň s. 10.25. Příklad Počet slunečných dní v roce na určitém místě je náhodná proměnná X se střední hodnotou 85 dní. Jaká je pravděpodobnost, že v průběhu roku nebude na tomto místě více než 198 slunečných dní? Řešení: Spočteme P{X < 198) > 1 85 198 = 0,57. Tedy pravděpodobnost, že v průběhu roku nebude na určitém místě více než 198 slunečných dní, je asi 0,57. 10.26. Věta Nechť náhodná veličina X má střední hodnotu p a rozptyl cr2. Pak platí Čebyševova nerovnost ii. typu a2 Ve> 0 : P(\X-p\ >£)<—. s1 Označíme-li s = ta, pak pro Ví> 0 : P{\X-p\ > ta) < \. t1 Význam Čebyševovy nerovnosti II. typu spočívá v tom, že pokud neznáme rozložení náhodné veličiny, ale známe její střední hodnotu a rozptyl, pak můžeme odhadnout pravděpodobnost, s jakou se od své střední hodnoty odchýlí o více než ř-násobek své směrodatné odchylky. t 1 1 3cr). b) Jestliže X ~ N(jx, cr2), vypočtěte PQX - /x\ > 3cr). Řešení: ad a) P(|X - ju| > 3ít) < ^ = i = 0,1. (Tento výsledek je znám jako pravidlo 3o~ a říká, že nejvýše 11,1% realizací náhodné veličiny leží vně intervalu (jx - 3a,/x + 3o~).) ad b) PQX - fi\ > 3cr) = 1 - P(-3a < X - /x < 3cr) = 1 - p(-3 < ^ < 3) = 1 - 0(3) + 0(-3) = 2[1 - 0(3)] = 2(1 - 0,99865) = 0,0027. (Má-li náhodná veličina normální rozdělení, pak pouze 0,27 % realizací leží vně intervalu (jx - 3a,/x + 3a).) V závěru kapitoly se soustředíme na vlastnosti střední hodnoty a rozptylu náhodné veličiny s normálním rozložením. 10.28. Věta a) Jestliže X ~ N(ji, a2), pak E(X) = /x, D(X) = a2. b) Jestliže X ~ N(jx, a2) a Y = a + bX, pak Y ~ N(a + b/x, b2a2). c) Jestliže Xi,..., Xn jsou stochasticky nezávislé náhodné veličiny a nechťX, ~ N(jXi,a2),i= \,...,n, Y = É X, pak i=i N (n n \ v 1=1 1=1 10.29. Příklad Nechť Xi, X2 jsou stochasticky nezávislé náhodné veličiny, X{ ~ N(0,1), i = 1,2. Zjistěte, jaké rozložení má transformovaná náhodná veličina Y = 3 + Xi - 2X2, určete jeho parametry a najděte dolní kvartil náhodné veličiny Y. Řešení: Y ~ N(E(Y), D(Y)), přičemž E(Y) = E(3 + Xi- 2X2) = 3 + E(X{) - 2E(X2) = 3+ 0- 2- 0 = 3, D(Y) = D{3 +Xx- 2X2) = D(Xx) + (-2)2D(X2) =1+4-1 = 5, tedy Y ~ N(3,5). Nyní vypočítáme dolní kvartil. Využijeme toho, že U = ^ ~ N(0,1), tedy £0,25(*0 = 3 + V5w0,25 = 3 - V5 • 0,67449 = 1,4918. Shrnutí kapitoly Při zavádění číselných charakteristik náhodných veličin nás motivují číselné charakteristiky znaků, jak jsme je poznali ve 3. kapitole. Jako charakteristika polohy číselných realizací spojité náhodné veličiny aspoň or-dinálního typu slouží a-kvantil a jeho speciální případy: medián, dolní a horní kvartil. Variabilitu charakterizujeme kvartilovou odchylkou. Výpočet kvantilů 10. Číselné charakteristiky náhodných veličin není příliš jednoduchá záležitost, proto jsou kvantily několika typů rozložení tabe-lovány nebo je lze získat pomocí speciálního statistického software. Pro náhodné veličiny intervalového a poměrového typu používáme jako charakteristiku polohy střední hodnotu - teoretický protějšek aritmetického průměru. Pomocí střední hodnoty pak definujeme další číselné charakteristiky: rozptyl a jeho druhou odmocninu - směrodatnou odchylku, kovarianci a koeficient korelace. Informace o úrovni a variabilitě hodnot jedné náhodné veličiny za předpokladu, že druhá náhodná veličina se realizovala určitou konkrétní hodnotou, poskytují podmíněná střední hodnota (regresní funkce) a podmíněný rozptyl (skedastická funkce). Řešení konkrétních příkladů velmi usnadňují vzorce, které popisují vlastnosti číselných charakteristik. Kontrolní otázky a úkoly 1. Pomocí statistických tabulek vypočtěte následující kvantily: "0,95, "0,10, x\ 975(10), x\ 025(9)' %>o(8), %)5(6), F0i975(5 , 7), F0j025(8 , 6). [Wo,95 = 1,64485, «0,10 = -1,28155,^975(10) = 20,483,^(9) = 2,7, ř0,9o(8) = 1,3968, ř0,05(6) = -1,9432, F0,975(5,7) = 5,2852, >0,025(8,6) = 1/^,975(6,8) = 1/4,6517 = 0,215] 2. NechťX ~ iV(-l, 4). Najděte Kom(X). [^o,o25(X) = 2- «0,025 - 1 = -2 • 1,95996 - 1 = -4,91992] 3. Nechť Xi,X2 jsou stochasticky nezávislé náhodné veličiny takové, že Xi ~ iV(2,4), X2 ~ iV(-l,9). Vypočtěte 99% kvantil transformované náhodné veličiny Y = 2X\ - 3X2 + 5. [Y ~ JV(12,97), K0S9(Y) = V97 • a0,99 + 12 = 34,9119] 4. V zásilce 15 výrobků je 5 nekvalitních. Náhodná veličina X udává počet nekvalitních výrobků mezi čtyřmi náhodně vybranými výrobky. Vypočtěte její střední hodnotu a rozptyl, jestliže výběr byl proveden a) s vracením, b) bez vracení. (Návod: v bodě (a) má X binomické rozložení, v bodě (b) hypergeometrické.) [a) X ~ Bi(4, i), E(X) = f, D(X) = f, b) X ~ ffg(15,5,4), E(X) = f, D(X) = g] 5. Sledovaná železniční trasa vykazuje velké nerovnosti, takže zatížení jednotlivé vozové nápravy náhodně kolísá, teoreticky spojitým způsobem. Prakticky jsou známy jen částečné informace, takže uvažujeme o diskrétní náhodné veličině X (náhodné zatížení v tunách) s pravděpodobnostní funkcí n(x) = 0,15 pro x = 6, n(x) = 0,65 pro x = 30, n(x) = 0,2 pro x = 70, tt(x) = 0 jinak. Při kalkulaci nákladů se ekonom zajímá o střední opotřebení náprav dané vzorcem Y = 1,15X2. Vypočtěte střední hodnotu opotřebení. [E(Y) = 1,15 • E(X2) = 1805,96] 6. Počet různých druhů zboží, které zákazník nakoupí při jedné návštěvě obchodu, je náhodná veličina X. Dlouhodobým sledováním bylo zjištěno, že X nabývá hodnot 0,1,2,3,4 s pravděpodobnostmi 0,25,0,55, 0,11,0,07 a 0,02. 130 a) Najděte distribuční funkci náhodné veličiny X a nakreslete její graf. b) Vypočtěte střední hodnotu náhodné veličiny X. c) Vypočtěte rozptyl náhodné veličiny X. [a) x e (-00,0) : í»(jc) = 0, x e (0,1) : 0(x) = 0,25, x e (1,2) : 0(x) = 0,8, x e (2,3) : 0(x) = 0,91, x e (3,4) : 0(x) = 0,98, x e (4,00) : 0(x) = 1 1,2 -1 1,0 - _:- 0,8 - - 0,6 -0,4 -0,2 - 0,0-- -0,2 -|-1-1-1-1-1-1 -10 12 3 4 5 b) E{X) = 1,06, c) D(X) = 0,8164] 7. Střelec střílí 3x nezávisle na sobě do terče. Při každém výstřelu se trefí s pravděpodobností |. Za zásah získá 2 body, jinak ztratí 2 body. Vypočtěte střední hodnotu a rozptyl počtu získaných bodů. [X - počet získaných bodů, X nabývá hodnot -6, -2, 2, 6 s pravděpodobnostmi i |j, g, g. £(X) = 3, = 9.] 8. Uvažme rodinu se třemi dětmi. Předpokládáme, že pravděpodobnost narození chlapce i dívky je stejná. Náhodná veličina X udává počet dívek v této rodině (má binomické rozložení) , transformovaná náhodná veličina Y = -100X2 + 300X + 500 udává roční náklady (v dolarech) na ošacení dětí. Vypočtěte střední hodnotu náhodné veličiny Y. [X ~ Bi(3, i), E(X) = §, D(X) = f = E(X2) - [E(X)]2, tedy E(X2) = 3, E(Y) = -100 • E{X2) + 300 • E{X) + 500 = 650.] 9. V zásilce 10 výrobků je 8 kvalitních a 2 zmetky. Mezi kvalitními výrobky je 5 výrobků 1. jakosti a 3 výrobky 2. jakosti. Ze zásilky náhodně vybereme bez vracení 2 výrobky. Zavedeme náhodnou veličinu X\, která udává počet kvalitních výrobků ve výběru a náhodnou veličinu X2, která udává počet výrobků 1. jakosti ve výběru. a) Najděte simultánní pravděpodobnostní funkci a obě marginální pravděpodobnostní funkce. b) Vypočtěte koeficient korelace náhodných veličin Xi,X2. c) Vyjádřete podmíněnou pravděpodobnostní funkci n\\2 {x\ \x2). d) Vypočtěte podmíněnou střední hodnotu E (Xi |0) a podmíněný rozptyl D{XX |0). [a) x2 0 1 2 7Ti (Xi) Xi n(xux2) 0 1/45 0 0 1/45 1 6/45 10/45 0 16/45 2 3/45 15/45 10/45 28/45 7T2 (X2) 10/45 25/45 10/45 1 131 10. Číselné charakteristiky náhodných veličin b)R(XuX2) = 0,503, c) x2 0 1 2 Xi 7Tl|2 (Xl \X2) 0 1/10 0 0 1 6/10 10/25 0 2 3/10 15/25 1 d)E(Xx |0) = 1,2, D (Xi |0) = 0,36] 10. Náhodná veličina X udává příjem manžela (v tisících dolarů) a náhodná veličina F udává příjem manželky (v tisících dolarů). Je známa simultánni pravděpodobnostní funkce tt(x, y) diskrétního náhodného vektoru (X, Y): tt(10, 10) = 0,2, tt(10,20) = 0,04, tt(10,30) = 0,01, tt(10,40) = 0, ?r(20,10) = 0,1, ?r(20,20) = 0,36, tt(20,30) = 0,09, tt(20,40) = 0, tt(30, 10) = 0, tt(30,20) = 0,05, tt(30,30) = 0,1, tt(30,40) = 0, tt(40, 10) = 0, tt(40, 20) = 0, tt(40, 30) = 0, tt(40, 40) = 0,05, n(x, y) = 0 jinak. a) Vypočtěte korelační koeficient náhodných veličin X, Y. b) Vypočtěte střední hodnotu a směrodatnou odchylku náhodné veličiny Z = 0,1X + 0,2F, která vyjadřuje příspěvek obou manželů na důchod. (Náhodná veličina Z vyjadřuje, že příspěvek na důchod činí 10 % manželova platu a 20 % manželčina platu.) [a) R(X, Y) = = 0,76, b)E{Z) = 6, D(Z) = 5,36] 11. Náhodné veličiny X\,X2 mají kovarianci 12. Vypočtěte kovarianci náhodných veličin Fi = -8 + 1 lXi, F2 = 6 - 4X2. [-528] 12. Náhodná veličina X udává výšku v metrech a náhodná veličina F udává hmotnost v gramech. Jak se změní kovariance a koeficient korelace, jestliže výšku vyjádříme v cm a hmotnost v kg? [Kovariance se lOx zmenší, koeficient korelace se nezmění.] 13. Náhodná veličina X má střední hodnotu jx a směrodatnou odchylku a. Kolik procent realizací této náhodné veličiny se bude nacházet v intervalu (jx -2(t,yu + 2(r)? [aspoň 75%] 14. Použijte Čebyševovu nerovnost II. typu k odhadu pravděpodobnosti, že při 600 hodech kostkou padne šestka aspoň 75x a nejvýše 125x. [aspoň 0,86] 132 Zákon velkých čísel a centrální limitní věta 11. Zákon velkých čísel a centrální limitní věta Cíl kapitoly Po prostudování této kapitoly budete umět: ■ odhadnout pravděpodobnost, s níž se náhodná veličina realizuje v určité vzdálenosti od své střední hodnoty ■ odhadnout pravděpodobnost úspěchu v posloupnosti opakovaných nezávislých pokusů relativní četností tohoto úspěchu ■ aproximovat distribuční funkci binomického rozložení distribuční funkcí standardizovaného normálního rozložení Časová zátěž Na prostudování této kapitoly budete potřebovat asi 5 hodin studia. V 5. kapitole, konkrétně v definici 5.6, jsme se seznámili s empirickým zákonem velkých čísel, který tvrdil, že při mnohonásobném nezávislém opakování téhož náhodného pokusu se relativní četnost jevu blíží pravděpodobnosti tohoto jevu. Jak uvidíme, je empirický zákon velkých čísel speciálním případem obecnějšího zákona velkých čísel. Tento důsledek uvedeme jako Bernoulliovu větu. 11.1. Motivace Zákon velkých čísel vyjadřuje skutečnost, že s rostoucím počtem nezávislých opakování náhodného pokusu se empirické charakteristiky, které popisují výsledky těchto pokusů, blíží teoretickým charakteristikám, např. relativní četnost úspěchu se blíží pravděpodobnosti úspěchu, četnostní funkce se blíží pravděpodobnostní funkci, hustota četnosti se blíží hustotě pravděpodobnosti apod. Centrální limitní věta tvrdí, že za jistých podmínek má součet nezávislých náhodných veličin s týmž rozložením přibližně normální rozložení. Normální rozložení je tedy rozložením limitním, k němuž se blíží všechna rozložení, proto hraje velmi důležitou roli v počtu pravděpodobnosti a matematické statistice. 11.2. Věta Nechť {X„}™=1 je posloupnost stochasticky nezávislých náhodných veličin, které mají střední hodnoty jx a rozptyly a2. Pak pro posloupnost aritmetických průměrů \ oo \Í\x\ platí: Ve > 0 : P 1 " -T x, n ^ < e neboli Ve > 0 : lim P n—>oo 1 " i=1 2 nsz > e = 0. Uvedená věta se nazývá zákon velkých čísel nebo též Cebyševova věta. Její tvrzení říká, že posloupnost aritmetických průměrů konverguje podle pravděpodobnosti ke střední hodnotě jx. Tedy při dostatečně velkém počtu pokusů lze střední hodnotu odhadnout průměrem výsledků jednotlivých pokusů. 134 11.3. Důsledek Nechť náhodná veličina Yn udává počet úspěchů v posloupnosti n opakovaných nezávislých pokusů, přičemž v každém pokusu nastává úspěch s pravděpodobností v. Podle definice 9.2c) Yn ~ Bi(n,v). Pak pro posloupnost relativních četností (d platí: Ve > 0 : P n < e > 1 ů(l-ů) > 1 4ne2' neboli Ve > 0 : lim P n—>oo n >e =0. Tento důsledek Čebyševovy věty se nazývá Bernoulliova věta. Vyjadřuje skutečnost, že posloupnost relativních četností konverguje podle pravděpodobnosti k pravděpodobnosti úspěchu v. Tedy při dostatečně velkém počtu pokusů lze pravděpodobnost úspěchu odhadnout relativní četností úspěchu. 11.4. Příklad Při výstupní kontrole bylo zjištěno, že mezi 3000 kontrolovanými výrobky je 12 zmetků. Jaká je pravděpodobnost, že relativní četnost výskytu zmetku se od pravděpodobnosti výskytu zmetku neliší o více než 0,01? Řešení: ^3000 - počet zmetků mezi kontrolovanými výrobky, F30oo Podle Bernoulliovy věty dostáváme: Ä(3000, v), v * 3^. Ve > 0 : P n < e > 1 ů(l-ů) > 1 4ns2 V našem případě e = 0,01, n = 3000, v « tedy [3000 3000 ů < 0,01 > 1 12 2988 3000 3000 3000 • 0,0001 = 0,872. Již několikrát jsme se zmínili o tom, že normální rozložení je vůbec nej důležitější typ rozložení. Centrální limitní věta nám dá odpověď na otázku, proč tomu tak je. 11.5. Věta Lindebergova-Lévyova centrální limitní věta. Nechť {X„}™=1 je posloupnost stochasticky nezávislých náhodných veličin, které mají všechny totéž rozložení se střední hodnotou jx a rozptylem a2. Pak pro posloupnost standardizovaných součtů n 2 Xi - nix Un = --;=—, n =1,2,... cr y n platí: V* e R : lim P(Un < x) = ©(*), kde O(jc) je distribuční funkce rozložení N(0,1). 1 11. Zákon velkých čísel a centrální limitní věta Lindebergova-Lévyova centrální limitní věta říká, že pro dostatečně velká n (prakticky stačí n > 30) lze rozložení součtu stochasticky nezávislých a stejně rozložených náhodných veličin aproximovat normálním rozložením N(n/j., na2). Při praktických výpočtech se často používá důsledek centrální limitní věty, a to Moivreova-Laplaceova věta, která za určitých podmínek umožní nahradit složitý výpočet distribuční funkce binomického rozložení jednoduchým hledáním v tabulkách hodnot distribuční funkce standardizovaného normálního rozložení. Pokud však máme k dispozici statistický software, dáme přednost přesnému výpočtu před aproximativním. 11.6. Důsledek Moivreova-Laplaceova věta. Nechť {Yn}™=l je posloupnost stochasticky nezávislých náhodných veličin, Yn ~ Bi(n, v), n = 1,2,... Pak platí: / Yn — nů y — nů Vy F IR : lim P(Y. < y) = lim P —< J Vn#(l - #) ^Jnů(\-ů)i y — nů Vn0(l -#)/ kde Q>(x) je distribuční funkce rozložení N(0,1). Moivreova-Laplaceova věta tvrdí, že za určitých podmínek lze binomické rozložení aproximovat standardizovaným normálním rozložením. Aproximace se považuje za vyhovující, když jsou splněny podmínky ^ < v < ^ a «v(l - v) > 9. 11.7. Příklad Mezi dlužníky určité banky je 10 % klientů, kteří mají potíže se splácením dluhu, zbylých 90 % klientů potíže se splácením dluhu nemá. Jaká je pravděpodobnost, že mezi náhodně vybraným vzorkem 200 dlužníků jich bude mít problémy se splácením a) 20 až 25; b) nejvýše 10; c) nejméně 30? Řešení: X - počet dlužníků, kteří mají problémy se splácením, X ~ 6/(200; 0,1), E(X) = 20, D(X) = 18. Nejdříve ověříme, zda jsou splněny podmínky, při kterých j e aproximace vyhovující: 1 200 200 • 0,1 • 0,9 = 18 > 9, ——- = 0,005 < 0,1 < ——- = 0,995, 200+ 1 200+1 tedy obě podmínky jsou splněny. Ad a) P(20 «0,975 = 1,96 => y[ň > 29,4 => « > 865. Pro splnění podmínek je zapotřebí vybrat aspoň 865 zaměstnanců. Shrnutí kapitoly V této kapitole jsme ukázali, že již dříve vyslovený empirický zákon velkých čísel je speciálním případem obecnějšího zákona velkých čísel, který popisuje pravděpodobnostní chování posloupností aritmetických průměrů stochasticky nezávislých náhodných veličin s touž střední hodnotou a rozptylem. Důsledek tohoto zákona (zvaného též Cebyševova věta) jsme uvedli jako Bernoulliovu větu. Seznámili jsme se též s Lindebergovou-Lévyovou centrální větou, která tvrdí, že za určitých podmínek lze rozložení součtu náhodných veličin s jakýmkoliv rozložením aproximovat normálním rozložením. Toto tvrzení tedy vysvětluje důležitost normálního rozložení. Historicky starší než tato věta je její důsledek uváděný 11. Zákon velkých čísel a centrální limitní věta jako Moivreova-Laplaceova věta, která umožňuje aproximovat binomické rozložení normálním rozložením. Kontrolní otázky a úkoly 1. Pravděpodobnost, že výrobek má 1. jakost, je v = 0,9. Kolik výrobků je třeba zkontrolovat, aby s pravděpodobností aspoň 0,99 bylo zaručeno, že rozdíl relativní četnosti počtu výrobků 1. jakosti a pravděpodobnosti v = 0,9 byl v absolutní hodnotě menší než 0,03? K výpočtu použijte jak Bernoulliovu větu, tak Moivreovu-Laplaceovu větu a výsledky porovnejte. [Pomocí Bernoulliovy věty: n > 10000, pomocí Moivre-Laplaceovy věty: n > 666.] 2. Pravděpodobnost narození chlapce je 0,515. Jaká je pravděpodobnost, že mezi 10 000 novorozenci bude a) více děvčat než chlapců, b) chlapců od 5 000 do 5 300, c) relativní četnost chlapců v mezích od 0,515 do 0,517? [a) 0,00135, b) 0,9973, c) 0,15542] 3. Pravděpodobnost zásahu terče jedním výstřelem je 0,4. Kolikrát je třeba vystřelit, aby absolutní hodnota odchylky relativní četnosti zásahů od uvedené pravděpodobnosti byla menší než 0,02 s pravděpodobností aspoň 0,95? [Je zapotřebí aspoň 2305 výstřelů.] 138 Příloha A - Statistické tabulky Příloha A - Statistické tabulky Distribuční funkce standardizovaného normálního rozložení u 0(w) u 0(w) u u 0(ří) 0,00 0,50000 0,50 0,69146 1,00 0,84134 1,50 0,93319 0,01 0,50399 0,51 0,69497 1,01 0,84375 1,51 0,93448 0,02 0,50798 0,52 0,69847 1,02 0,84614 1,52 0,93574 0,03 0,51197 0,53 0,70194 1,03 0,84850 1,53 0,93699 0,04 0,51595 0,54 0,70540 1,04 0,85083 1,54 0,93822 0,05 0,51994 0,55 0,70884 1,05 0,85314 1,55 0,93943 0,06 0,52392 0,56 0,71226 1,06 0,85543 1,56 0,94062 0,07 0,52790 0,57 0,71566 1,07 0,85769 1,57 0,94179 0,08 0,53188 0,58 0,71904 1,08 0,85993 1,58 0,94295 0,09 0,53586 0,59 0,72240 1,09 0,86214 1,59 0,94408 0,10 0,53983 0,60 0,72575 1,10 0,86433 1,60 0,94520 0,11 0,54380 0,61 0,72907 1,11 0,86650 1,61 0,94630 0,12 0,54776 0,62 0,73237 1,12 0,86864 1,62 0,94738 0,13 0,55172 0,63 0,73565 1,13 0,87076 1,63 0,94845 0,14 0,55567 0,64 0,73891 1,14 0,87286 1,64 0,94950 0,15 0,55962 0,65 0,74215 1,15 0,87493 1,65 0,95053 0,16 0,56356 0,66 0,74537 1,16 0,87698 1,66 0,95154 0,17 0,56749 0,67 0,74857 1,17 0,87900 1,67 0,95254 0,18 0,57142 0,68 0,75175 1,18 0,88100 1,68 0,95352 0,19 0,57535 0,69 0,75490 1,19 0,88298 1,69 0,95449 0,20 0,57926 0,70 0,75804 1,20 0,88493 1,70 0,95543 0,21 0,58317 0,71 0,76115 1,21 0,88686 1,71 0,95637 0,22 0,58706 0,72 0,76424 1,22 0,88877 1,72 0,95728 0,23 0,59095 0,73 0,76730 1,23 0,89065 1,73 0,95818 0,24 0,59483 0,74 0,77035 1,24 0,89251 1,74 0,95907 0,25 0,59871 0,75 0,77337 1,25 0,89435 1,75 0,95994 0,26 0,60257 0,76 0,77637 1,26 0,89617 1,76 0,96080 0,27 0,60642 0,77 0,77935 1,27 0,89796 1,77 0,96164 0,28 0,61026 0,78 0,78230 1,28 0,89973 1,78 0,96246 0,29 0,61409 0,79 0,78524 1,29 0,90147 1,79 0,96327 0,30 0,61791 0,80 0,78814 1,30 0,90320 1,80 0,96407 0,31 0,62172 0,81 0,79103 1,31 0,90490 1,81 0,96485 0,32 0,62552 0,82 0,79389 1,32 0,90658 1,82 0,96562 0,33 0,62930 0,83 0,79673 1,33 0,90824 1,83 0,96638 0,34 0,63307 0,84 0,79955 1,34 0,90988 1,84 0,96712 0,35 0,63683 0,85 0,80234 1,35 0,91149 1,85 0,96784 0,36 0,64058 0,86 0,80511 1,36 0,91309 1,86 0,96856 0,37 0,64431 0,87 0,80785 1,37 0,91466 1,87 0,96926 0,38 0,64803 0,88 0,81057 1,38 0,91621 1,88 0,96995 0,39 0,65173 0,89 0,81327 1,39 0,91774 1,89 0,97062 0,40 0,65542 0,90 0,81594 1,40 0,91924 1,90 0,97128 0,41 0,65910 0,91 0,81859 1,41 0,92073 1,91 0,97193 0,42 0,66276 0,92 0,82121 1,42 0,92220 1,92 0,97257 0,43 0,66640 0,93 0,82381 1,43 0,92364 1,93 0,97320 0,44 0,67003 0,94 0,82639 1,44 0,92507 1,94 0,97381 0,45 0,67364 0,95 0,82894 1,45 0,92647 1,95 0,97441 0,46 0,67724 0,96 0,83147 1,46 0,92785 1,96 0,97500 0,47 0,68082 0,97 0,83398 1,47 0,92922 1,97 0,97558 0,48 0,68439 0,98 0,83646 1,48 0,93056 1,98 0,97615 0,49 0,68793 0,99 0,83891 1,49 0,93189 1,99 0,97670 (D(-M) = l - (D(M) 140 Distribuční funkce standardizovaného normálního rozložení u 00) u 0(w) u u 0(ří) 2,00 0,97725 2,50 0,99379 3,00 0,99865 3,50 0,99977 2,01 0,97778 2,51 0,99396 3,01 0,99869 3,51 0,99978 2,02 0,97831 2,52 0,99413 3,02 0,99874 3,52 0,99978 2,03 0,97882 2,53 0,99430 3,03 0,99878 3,53 0,99979 2,04 0,97932 2,54 0,99446 3,04 0,99882 3,54 0,99980 2,05 0,97982 2,55 0,99461 3,05 0,99886 3,55 0,99981 2,06 0,98030 2,56 0,99477 3,06 0,99889 3,56 0,99981 2,07 0,98077 2,57 0,99492 3,07 0,99893 3,57 0,99982 2,08 0,98124 2,58 0,99506 3,08 0,99897 3,58 0,99983 2,09 0,98169 2,59 0,99520 3,09 0,99900 3,59 0,99983 2,10 0,98214 2,60 0,99534 3,10 0,99903 3,60 0,99984 2,11 0,98257 2,61 0,99547 3,11 0,99906 3,61 0,99985 2,12 0,98300 2,62 0,99560 3,12 0,99910 3,62 0,99985 2,13 0,98341 2,63 0,99573 3,13 0,99913 3,63 0,99986 2,14 0,98382 2,64 0,99585 3,14 0,99916 3,64 0,99986 2,15 0,98422 2,65 0,99598 3,15 0,99918 3,65 0,99987 2,16 0,98461 2,66 0,99609 3,16 0,99921 3,66 0,99987 2,17 0,98500 2,67 0,99621 3,17 0,99924 3,67 0,99988 2,18 0,98537 2,68 0,99632 3,18 0,99926 3,68 0,99988 2,19 0,98574 2,69 0,99643 3,19 0,99929 3,69 0,99989 2,20 0,98610 2,70 0,99653 3,20 0,99931 3,70 0,99989 2,21 0,98645 2,71 0,99664 3,21 0,99934 3,71 0,99990 2,22 0,98679 2,72 0,99674 3,22 0,99936 3,72 0,99990 2,23 0,98713 2,73 0,99683 3,23 0,99938 3,73 0,99990 2,24 0,98745 2,74 0,99693 3,24 0,99940 3,74 0,99991 2,25 0,98778 2,75 0,99702 3,25 0,99942 3,75 0,99991 2,26 0,98809 2,76 0,99711 3,26 0,99944 3,76 0,99992 2,27 0,98840 2,77 0,99720 3,27 0,99946 3,77 0,99992 2,28 0,98870 2,78 0,99728 3,28 0,99948 3,78 0,99992 2,29 0,98899 2,79 0,99736 3,29 0,99950 3,79 0,99992 2,30 0,98928 2,80 0,99744 3,30 0,99952 3,80 0,99993 2,31 0,98956 2,81 0,99752 3,31 0,99953 3,81 0,99993 2,32 0,98983 2,82 0,99760 3,32 0,99955 3,82 0,99993 2,33 0,99010 2,83 0,99767 3,33 0,99957 3,83 0,99994 2,34 0,99036 2,84 0,99774 3,34 0,99958 3,84 0,99994 2,35 0,99061 2,85 0,99781 3,35 0,99960 3,85 0,99994 2,36 0,99086 2,86 0,99788 3,36 0,99961 3,86 0,99994 2,37 0,99111 2,87 0,99795 3,37 0,99962 3,87 0,99995 2,38 0,99134 2,88 0,99801 3,38 0,99964 3,88 0,99995 2,39 0,99158 2,89 0,99807 3,39 0,99965 3,89 0,99995 2,40 0,99180 2,90 0,99813 3,40 0,99966 3,90 0,99995 2,41 0,99202 2,91 0,99819 3,41 0,99968 3,91 0,99995 2,42 0,99224 2,92 0,99825 3,42 0,99969 3,92 0,99996 2,43 0,99245 2,93 0,99831 3,43 0,99970 3,93 0,99996 2,44 0,99266 2,94 0,99836 3,44 0,99971 3,94 0,99996 2,45 0,99286 2,95 0,99841 3,45 0,99972 3,95 0,99996 2,46 0,99305 2,96 0,99846 3,46 0,99973 3,96 0,99996 2,47 0,99324 2,97 0,99851 3,47 0,99974 3,97 0,99996 2,48 0,99343 2,98 0,99856 3,48 0,99975 3,98 0,99997 2,49 0,99361 2,99 0,99861 3,49 0,99976 3,99 0,99997 (D(-M) = l - (D(M) Příloha A - Statistické tabulky Kvantily standardizovaného normálního rozložení a ua a ua a ua a ua 0,500 0,00000 0,850 1,03643 0,930 1,47579 0,965 1,81191 0,510 0,02507 0,860 1,08032 0,931 1,48328 0,966 1,82501 0,520 0,05015 0,870 1,12639 0,932 1,49085 0,967 1,83842 0,530 0,07527 0,880 1,17499 0,933 1,49851 0,968 1,85218 0,540 0,10043 0,890 1,22653 0,934 1,50626 0,969 1,86630 0,550 0,12566 0,900 1,28155 0,935 1,51410 0,970 1,88079 0,560 0,15097 0,901 1,28727 0,936 1,52204 0,971 1,89570 0,570 0,17637 0,902 1,29303 0,937 1,53007 0,972 1,91104 0,580 0,20189 0,903 1,29884 0,938 1,53820 0,973 1,92684 0,590 0,22754 0,904 1,30469 0,939 1,54643 0,974 1,94313 0,600 0,25335 0,905 1,31058 0,940 1,55477 0,975 1,95996 0,610 0,27932 0,906 1,31652 0,941 1,56322 0,976 1,97737 0,620 0,30548 0,907 1,32251 0,942 1,57179 0,977 1,99539 0,630 0,33185 0,908 1,32854 0,943 1,58047 0,978 2,01409 0,640 0,35846 0,909 1,33462 0,944 1,58927 0,979 2,03352 0,650 0,38532 0,910 1,34076 0,945 1,59819 0,980 2,05375 0,660 0,41246 0,911 1,34694 0,946 1,60725 0,981 2,07485 0,670 0,43991 0,912 1,35317 0,947 1,61644 0,982 2,09693 0,680 0,46770 0,913 1,35946 0,948 1,62576 0,983 2,12007 0,690 0,49585 0,914 1,36581 0,949 1,63523 0,984 2,14441 0,700 0,52440 0,915 1,37220 0,950 1,64485 0,985 2,17009 0,710 0,55338 0,916 1,37866 0,951 1,65463 0,986 2,19729 0,720 0,58284 0,917 1,38517 0,952 1,66456 0,987 2,22621 0,730 0,61281 0,918 1,39174 0,953 1,67466 0,988 2,25713 0,740 0,64335 0,919 1,39838 0,954 1,68494 0,989 2,29037 0,750 0,67449 0,920 1,40507 0,955 1,69540 0,990 2,32635 0,760 0,70630 0,921 1,41183 0,956 1,70604 0,991 2,36562 0,770 0,73885 0,922 1,41865 0,957 1,71689 0,992 2,40892 0,780 0,77219 0,923 1,42554 0,958 1,72793 0,993 2,45726 0,790 0,80642 0,924 1,43250 0,959 1,73920 0,994 2,51214 0,800 0,84162 0,925 1,43953 0,960 1,75069 0,995 2,57583 0,810 0,87790 0,926 1,44663 0,961 1,76241 0,996 2,65207 0,820 0,91537 0,927 1,45381 0,962 1,77438 0,997 2,74778 0,830 0,95417 0,928 1,46106 0,963 1,78661 0,998 2,87816 0,840 0,99446 0,929 1,46838 0,964 1,79912 0,999 3,09023 142 Kvantily Pearsonova rozlozeni n 0,001 0,005 a 0,010 0,025 0,050 0,001 0,005 0,010 0,025 0,050 1 0,000 0,000 0,000 0,001 0,004 2 0,002 0,010 0,020 0,051 0,103 3 0,024 0,072 0,115 0,216 0,352 4 0,091 0,207 0,297 0,484 0,711 5 0,210 0,412 0,554 0,831 1,145 6 0,381 0,676 0,872 1,237 1,635 7 0,598 0,989 1,239 1,690 2,167 8 0,857 1,344 1,646 2,180 2,733 9 1,152 1,735 2,088 2,700 3,325 10 1,479 2,156 2,558 3,247 3,940 11 1,834 2,603 3,053 3,816 4,575 12 2,214 3,074 3,571 4,404 5,226 13 2,617 3,565 4,107 5,009 5,892 14 3,041 4,075 4,660 5,629 6,571 15 3,483 4,601 5,229 6,262 7,261 16 3,942 5,142 5,812 6,908 7,962 17 4,416 5,697 6,408 7,564 8,672 18 4,905 6,265 7,015 8,231 9,390 19 5,407 6,844 7,633 8,907 10,117 20 5,921 7,434 8,260 9,591 10,851 21 6,447 8,034 8,897 10,283 11,591 22 6,983 8,643 9,542 10,982 12,338 23 7,529 9,260 10,196 11,689 13,091 24 8,085 9,886 10,856 12,401 13,848 25 8,649 10,520 11,524 13,120 14,611 26 9,222 11,160 12,198 13,844 15,379 27 9,803 11,808 12,879 14,573 16,151 28 10,391 12,461 13,565 15,308 16,928 29 10,986 13,121 14,256 16,047 17,708 30 11,588 13,787 14,953 16,791 18,493 35 14,688 17,192 18,509 20,569 22,465 40 17,916 20,707 22,164 24,433 26,509 45 21,251 24,311 25,901 28,366 30,612 50 24,674 27,991 29,707 32,357 34,764 55 28,173 31,735 33,570 36,398 38,958 60 31,738 35,534 37,485 40,482 43,188 65 35,362 39,383 41,444 44,603 47,450 70 39,036 43,275 45,442 48,758 51,739 75 42,757 47,206 49,475 52,942 56,054 80 46,520 51,172 53,540 57,153 60,391 85 50,320 55,170 57,634 61,389 64,749 90 54,155 59,196 61,754 65,647 69,126 95 58,022 63,250 65,898 69,925 73,520 100 61,918 67,328 70,065 74,222 77,929 Příloha A - Statistické tabulky Kvantily Pearsonova rozložení n 0,950 0,975 a 0,990 0,995 0,999 1 3,841 5,024 6,635 7,879 10,828 2 5,991 7,378 9,210 10,597 13,816 3 7,815 9,348 11,345 12,838 16,266 4 9,488 11,143 13,277 14,860 18,467 5 11,070 12,833 15,086 16,750 20,515 6 12,592 14,449 16,812 18,548 22,458 7 14,067 16,013 18,475 20,278 24,322 8 15,507 17,535 20,090 21,955 26,124 9 16,919 19,023 21,666 23,589 27,877 10 18,307 20,483 23,209 25,188 29,588 11 19,675 21,920 24,725 26,757 31,264 12 21,026 23,337 26,217 28,300 32,909 13 22,362 24,736 27,688 29,819 34,528 14 23,685 26,119 29,141 31,319 36,123 15 24,996 27,488 30,578 32,801 37,697 16 26,296 28,845 32,000 34,267 39,252 17 27,587 30,191 33,409 35,718 40,790 18 28,869 31,526 34,805 37,156 42,312 19 30,144 32,852 36,191 38,582 43,820 20 31,410 34,170 37,566 39,997 45,315 21 32,671 35,479 38,932 41,401 46,797 22 33,924 36,781 40,289 42,796 48,268 23 35,172 38,076 41,638 44,181 49,728 24 36,415 39,364 42,980 45,559 51,179 25 37,652 40,646 44,314 46,928 52,620 26 38,885 41,923 45,642 48,290 54,052 27 40,113 43,195 46,963 49,645 55,476 28 41,337 44,461 48,278 50,993 56,892 29 42,557 45,722 49,588 52,336 58,301 30 43,773 46,979 50,892 53,672 59,703 35 49,802 53,203 57,342 60,275 66,619 40 55,758 59,342 63,691 66,766 73,402 45 61,656 65,410 69,957 73,166 80,077 50 67,505 71,420 76,154 79,490 86,661 55 73,311 77,380 82,292 85,749 93,168 60 79,082 83,298 88,379 91,952 99,607 65 84,821 89,177 94,422 98,105 105,988 70 90,531 95,023 100,425 104,215 112,317 75 96,217 100,839 106,393 110,286 118,599 80 101,879 106,629 112,329 116,321 124,839 85 107,522 112,393 118,236 122,325 131,041 90 113,145 118,136 124,116 128,299 137,208 95 118,752 123,858 129,973 134,247 143,344 100 124,342 129,561 135,807 140,169 149,449 144 Kvantily Studentova rozložení n 0,900 0,950 0,975 a 0,990 0,995 0,999 1 3,0777 6,3138 12,7062 31,8205 63,6567 318,3088 2 1,8856 2,9200 4,3027 6,9646 9,9248 22,3271 3 1,6377 2,3534 3,1824 4,5407 5,8409 10,2145 4 1,5332 2,1318 2,7764 3,7469 4,6041 7,1732 5 1,4759 2,0150 2,5706 3,3649 4,0321 5,8934 6 1,4398 1,9432 2,4469 3,1427 3,7074 5,2076 7 1,4149 1,8946 2,3646 2,9980 3,4995 4,7853 8 1,3968 1,8595 2,3060 2,8965 3,3554 4,5008 9 1,3830 1,8331 2,2622 2,8214 3,2498 4,2968 10 1,3722 1,8125 2,2281 2,7638 3,1693 4,1437 11 1,3634 1,7959 2,2010 2,7181 3,1058 4,0247 12 1,3562 1,7823 2,1788 2,6810 3,0545 3,9296 13 1,3502 1,7709 2,1604 2,6503 3,0123 3,8520 14 1,3450 1,7613 2,1448 2,6245 2,9768 3,7874 15 1,3406 1,7531 2,1314 2,6025 2,9467 3,7328 16 1,3368 1,7459 2,1199 2,5835 2,9208 3,6862 17 1,3334 1,7396 2,1098 2,5669 2,8982 3,6458 18 1,3304 1,7341 2,1009 2,5524 2,8784 3,6105 19 1,3277 1,7291 2,0930 2,5395 2,8609 3,5794 20 1,3253 1,7247 2,0860 2,5280 2,8453 3,5518 21 1,3232 1,7207 2,0796 2,5176 2,8314 3,5272 22 1,3212 1,7171 2,0739 2,5083 2,8188 3,5050 23 1,3195 1,7139 2,0687 2,4999 2,8073 3,4850 24 1,3178 1,7109 2,0639 2,4922 2,7969 3,4668 25 1,3163 1,7081 2,0595 2,4851 2,7874 3,4502 26 1,3150 1,7056 2,0555 2,4786 2,7787 3,4350 27 1,3137 1,7033 2,0518 2,4727 2,7707 3,4210 28 1,3125 1,7011 2,0484 2,4671 2,7633 3,4082 29 1,3114 1,6991 2,0452 2,4620 2,7564 3,3962 30 1,3104 1,6973 2,0423 2,4573 2,7500 3,3852 oo 1,2816 1,6449 1,9600 2,3263 2,5758 3,0000 Příloha A - Statistické tabulky Kvantily Fisherova-Snedecorova rozložení pro a = 0,95 «2 1 2 3 «i 4 5 6 7 1 161,4500 199,5000 215,7074 224,5832 230,1619 233,9860 236,7684 2 18,5128 19,0000 19,1643 19,2468 19,2964 19,3295 19,3532 3 10,1280 9,5521 9,2766 9,1172 9,0135 8,9406 8,8867 4 7,7086 6,9443 6,5914 6,3882 6,2561 6,1631 6,0942 5 6,6079 5,7861 5,4095 5,1922 5,0503 4,9503 4,8759 6 5,9874 5,1433 4,7571 4,5337 4,3874 4,2839 4,2067 7 5,5914 4,7374 4,3468 4,1203 3,9715 3,8660 3,7870 8 5,3177 4,4590 4,0662 3,8379 3,6875 3,5806 3,5005 9 5,1174 4,2565 3,8625 3,6331 3,4817 3,3738 3,2927 10 4,9646 4,1028 3,7083 3,4780 3,3258 3,2172 3,1355 11 4,8443 3,9823 3,5874 3,3567 3,2039 3,0946 3,0123 12 4,7472 3,8853 3,4903 3,2592 3,1059 2,9961 2,9134 13 4,6672 3,8056 3,4105 3,1791 3,0254 2,9153 2,8321 14 4,6001 3,7389 3,3439 3,1122 2,9582 2,8477 2,7642 15 4,5431 3,6823 3,2874 3,0556 2,9013 2,7905 2,7066 16 4,4940 3,6337 3,2389 3,0069 2,8524 2,7413 2,6572 17 4,4513 3,5915 3,1968 2,9647 2,8100 2,6987 2,6143 18 4,4139 3,5546 3,1599 2,9277 2,7729 2,6613 2,5767 19 4,3807 3,5219 3,1274 2,8951 2,7401 2,6283 2,5435 20 4,3512 3,4928 3,0984 2,8661 2,7109 2,5990 2,5140 21 4,3248 3,4668 3,0725 2,8401 2,6848 2,5727 2,4876 22 4,3009 3,4434 3,0491 2,8167 2,6613 2,5491 2,4638 23 4,2793 3,4221 3,0280 2,7955 2,6400 2,5277 2,4422 24 4,2597 3,4028 3,0088 2,7763 2,6207 2,5082 2,4226 25 4,2417 3,3852 2,9912 2,7587 2,6030 2,4904 2,4047 26 4,2252 3,3690 2,9752 2,7426 2,5868 2,4741 2,3883 27 4,2100 3,3541 2,9604 2,7278 2,5719 2,4591 2,3732 28 4,1960 3,3404 2,9467 2,7141 2,5581 2,4453 2,3593 29 4,1830 3,3277 2,9340 2,7014 2,5454 2,4324 2,3463 30 4,1709 3,3158 2,9223 2,6896 2,5336 2,4205 2,3343 40 4,0847 3,2317 2,8387 2,6060 2,4495 2,3359 2,2490 60 4,0012 3,1504 2,7581 2,5252 2,3683 2,2541 2,1665 80 3,9604 3,1108 2,7188 2,4859 2,3287 2,2142 2,1263 120 3,9201 3,0718 2,6802 2,4472 2,2899 2,1750 2,0868 oo 3,8415 2,9957 2,6049 2,3719 2,2141 2,0986 2,0096 146 Kvantily Fisherova-Snedecorova rozložení pro a = 0,95 «2 8 9 10 «i 11 12 13 14 1 238,8827 240,5433 241,8818 242,9835 243,9060 244,6899 245,3640 2 19,3710 19,3848 19,3959 19,4050 19,4125 19,4189 19,4244 3 8,8452 8,8123 8,7855 8,7633 8,7446 8,7287 8,7149 4 6,0410 5,9988 5,9644 5,9358 5,9117 5,8911 5,8733 5 4,8183 4,7725 4,7351 4,7040 4,6777 4,6552 4,6358 6 4,1468 4,0990 4,0600 4,0274 3,9999 3,9764 3,9559 7 3,7257 3,6767 3,6365 3,6030 3,5747 3,5503 3,5292 8 3,4381 3,3881 3,3472 3,3130 3,2839 3,2590 3,2374 9 3,2296 3,1789 3,1373 3,1025 3,0729 3,0475 3,0255 10 3,0717 3,0204 2,9782 2,9430 2,9130 2,8872 2,8647 11 2,9480 2,8962 2,8536 2,8179 2,7876 2,7614 2,7386 12 2,8486 2,7964 2,7534 2,7173 2,6866 2,6602 2,6371 13 2,7669 2,7144 2,6710 2,6347 2,6037 2,5769 2,5536 14 2,6987 2,6458 2,6022 2,5655 2,5342 2,5073 2,4837 15 2,6408 2,5876 2,5437 2,5068 2,4753 2,4481 2,4244 16 2,5911 2,5377 2,4935 2,4564 2,4247 2,3973 2,3733 17 2,5480 2,4943 2,4499 2,4126 2,3807 2,3531 2,3290 18 2,5102 2,4563 2,4117 2,3742 2,3421 2,3143 2,2900 19 2,4768 2,4227 2,3779 2,3402 2,3080 2,2800 2,2556 20 2,4471 2,3928 2,3479 2,3100 2,2776 2,2495 2,2250 21 2,4205 2,3660 2,3210 2,2829 2,2504 2,2222 2,1975 22 2,3965 2,3419 2,2967 2,2585 2,2258 2,1975 2,1727 23 2,3748 2,3201 2,2747 2,2364 2,2036 2,1752 2,1502 24 2,3551 2,3002 2,2547 2,2163 2,1834 2,1548 2,1298 25 2,3371 2,2821 2,2365 2,1979 2,1649 2,1362 2,1111 26 2,3205 2,2655 2,2197 2,1811 2,1479 2,1192 2,0939 27 2,3053 2,2501 2,2043 2,1655 2,1323 2,1035 2,0781 28 2,2913 2,2360 2,1900 2,1512 2,1179 2,0889 2,0635 29 2,2783 2,2229 2,1768 2,1379 2,1045 2,0755 2,0500 30 2,2662 2,2107 2,1646 2,1256 2,0921 2,0630 2,0374 40 2,1802 2,1240 2,0772 2,0376 2,0035 1,9738 1,9476 60 2,0970 2,0401 1,9926 1,9522 1,9174 1,8870 1,8602 80 2,0564 1,9991 1,9512 1,9105 1,8753 1,8445 1,8174 120 2,0164 1,9588 1,9105 1,8693 1,8337 1,8026 1,7750 oo 1,9384 1,8799 1,8307 1,7886 1,7522 1,7202 1,6918 Příloha A - Statistické tabulky Kvantily Fisherova-Snedecorova rozložení pro a = 0,95 «2 15 16 17 «i 18 19 20 25 1 245,9499 246,4639 246,9184 247,3232 247,6861 248,0131 249,2601 2 19,4291 19,4333 19,4370 19,4402 19,4431 19,4458 19,4558 3 8,7029 8,6923 8,6829 8,6745 8,6670 8,6602 8,6341 4 5,8578 5,8441 5,8320 5,8211 5,8114 5,8025 5,7687 5 4,6188 4,6038 4,5904 4,5785 4,5678 4,5581 4,5209 6 3,9381 3,9223 3,9083 3,8957 3,8844 3,8742 3,8348 7 3,5107 3,4944 3,4799 3,4669 3,4551 3,4445 3,4036 8 3,2184 3,2016 3,1867 3,1733 3,1613 3,1503 3,1081 9 3,0061 2,9890 2,9737 2,9600 2,9477 2,9365 2,8932 10 2,8450 2,8276 2,8120 2,7980 2,7854 2,7740 2,7298 11 2,7186 2,7009 2,6851 2,6709 2,6581 2,6464 2,6014 12 2,6169 2,5989 2,5828 2,5684 2,5554 2,5436 2,4977 13 2,5331 2,5149 2,4987 2,4841 2,4709 2,4589 2,4123 14 2,4630 2,4446 2,4282 2,4134 2,4000 2,3879 2,3407 15 2,4034 2,3849 2,3683 2,3533 2,3398 2,3275 2,2797 16 2,3522 2,3335 2,3167 2,3016 2,2880 2,2756 2,2272 17 2,3077 2,2888 2,2719 2,2567 2,2429 2,2304 2,1815 18 2,2686 2,2496 2,2325 2,2172 2,2033 2,1906 2,1413 19 2,2341 2,2149 2,1977 2,1823 2,1683 2,1555 2,1057 20 2,2033 2,1840 2,1667 2,1511 2,1370 2,1242 2,0739 21 2,1757 2,1563 2,1389 2,1232 2,1090 2,0960 2,0454 22 2,1508 2,1313 2,1138 2,0980 2,0837 2,0707 2,0196 23 2,1282 2,1086 2,0910 2,0751 2,0608 2,0476 1,9963 24 2,1077 2,0880 2,0703 2,0543 2,0399 2,0267 1,9750 25 2,0889 2,0691 2,0513 2,0353 2,0207 2,0075 1,9554 26 2,0716 2,0518 2,0339 2,0178 2,0032 1,9898 1,9375 27 2,0558 2,0358 2,0179 2,0017 1,9870 1,9736 1,9210 28 2,0411 2,0210 2,0030 1,9868 1,9720 1,9586 1,9057 29 2,0275 2,0073 1,9893 1,9730 1,9581 1,9446 1,8915 30 2,0148 1,9946 1,9765 1,9601 1,9452 1,9317 1,8782 40 1,9245 1,9037 1,8851 1,8682 1,8529 1,8389 1,7835 60 1,8364 1,8151 1,7959 1,7784 1,7625 1,7480 1,6902 80 1,7932 1,7716 1,7520 1,7342 1,7180 1,7032 1,6440 120 1,7505 1,7285 1,7085 1,6904 1,6739 1,6587 1,5980 oo 1,6640 1,6435 1,6228 1,6038 1,5865 1,5705 1,5061 148 Kvantily Fisherova-Snedecorova rozložení pro a = 0,95 «2 30 40 n 60 80 120 oo 1 250,0952 251,1432 252,1957 252,7237 253,2529 254,3100 2 19,4624 19,4707 19,4791 19,4832 19,4874 19,4960 3 8,6166 8,5944 8,5720 8,5607 8,5494 8,5264 4 5,7459 5,7170 5,6877 5,6730 5,6581 5,6281 5 4,4957 4,4638 4,4314 4,4150 4,3985 4,3650 6 3,8082 3,7743 3,7398 3,7223 3,7047 3,6689 7 3,3758 3,3404 3,3043 3,2860 3,2674 3,2298 8 3,0794 3,0428 3,0053 2,9862 2,9669 2,9276 9 2,8637 2,8259 2,7872 2,7675 2,7475 2,7067 10 2,6996 2,6609 2,6211 2,6008 2,5801 2,5379 11 2,5705 2,5309 2,4901 2,4692 2,4480 2,4045 12 2,4663 2,4259 2,3842 2,3628 2,3410 2,2962 13 2,3803 2,3392 2,2966 2,2747 2,2524 2,2064 14 2,3082 2,2664 2,2229 2,2006 2,1778 2,1307 15 2,2468 2,2043 2,1601 2,1373 2,1141 2,0658 16 2,1938 2,1507 2,1058 2,0826 2,0589 2,0096 17 2,1477 2,1040 2,0584 2,0348 2,0107 1,9604 18 2,1071 2,0629 2,0166 1,9927 1,9681 1,9168 19 2,0712 2,0264 1,9795 1,9552 1,9302 1,8780 20 2,0391 1,9938 1,9464 1,9217 1,8963 1,8432 21 2,0102 1,9645 1,9165 1,8915 1,8657 1,8117 22 1,9842 1,9380 1,8894 1,8641 1,8380 1,7831 23 1,9605 1,9139 1,8648 1,8392 1,8128 1,7570 24 1,9390 1,8920 1,8424 1,8164 1,7896 1,7330 25 1,9192 1,8718 1,8217 1,7955 1,7684 1,7110 26 1,9010 1,8533 1,8027 1,7762 1,7488 1,6906 27 1,8842 1,8361 1,7851 1,7584 1,7306 1,6717 28 1,8687 1,8203 1,7689 1,7418 1,7138 1,6541 29 1,8543 1,8055 1,7537 1,7264 1,6981 1,6376 30 1,8409 1,7918 1,7396 1,7121 1,6835 1,6223 40 1,7444 1,6928 1,6373 1,6077 1,5766 1,5089 60 1,6491 1,5943 1,5343 1,5019 1,4673 1,3893 80 1,6017 1,5449 1,4821 1,4477 1,4107 1,3247 120 1,5543 1,4952 1,4290 1,3922 1,3519 1,2539 oo 1,4591 1,3940 1,3180 1,2735 1,2214 1,0000 Příloha A - Statistické tabulky Kvantily Fisherova-Snedecorova rozložení pro a = 0,975 «2 1 2 3 «i 4 5 6 7 1 647,7890 799,5000 864,1630 899,5833 921,8479 937,1111 948,2169 2 38,5063 39,0000 39,1655 39,2484 39,2982 39,3315 39,3552 3 17,4434 16,0441 15,4392 15,1010 14,8848 14,7347 14,6244 4 12,2179 10,6491 9,9792 9,6045 9,3645 9,1973 9,0741 5 10,0070 8,4336 7,7636 7,3879 7,1464 6,9777 6,8531 6 8,8131 7,2599 6,5988 6,2272 5,9876 5,8198 5,6955 7 8,0727 6,5415 5,8898 5,5226 5,2852 5,1186 4,9949 8 7,5709 6,0595 5,4160 5,0526 4,8173 4,6517 4,5286 9 7,2093 5,7147 5,0781 4,7181 4,4844 4,3197 4,1970 10 6,9367 5,4564 4,8256 4,4683 4,2361 4,0721 3,9498 11 6,7241 5,2559 4,6300 4,2751 4,0440 3,8807 3,7586 12 6,5538 5,0959 4,4742 4,1212 3,8911 3,7283 3,6065 13 6,4143 4,9653 4,3472 3,9959 3,7667 3,6043 3,4827 14 6,2979 4,8567 4,2417 3,8919 3,6634 3,5014 3,3799 15 6,1995 4,7650 4,1528 3,8043 3,5764 3,4147 3,2934 16 6,1151 4,6867 4,0768 3,7294 3,5021 3,3406 3,2194 17 6,0420 4,6189 4,0112 3,6648 3,4379 3,2767 3,1556 18 5,9781 4,5597 3,9539 3,6083 3,3820 3,2209 3,0999 19 5,9216 4,5075 3,9034 3,5587 3,3327 3,1718 3,0509 20 5,8715 4,4613 3,8587 3,5147 3,2891 3,1283 3,0074 21 5,8266 4,4199 3,8188 3,4754 3,2501 3,0895 2,9686 22 5,7863 4,3828 3,7829 3,4401 3,2151 3,0546 2,9338 23 5,7498 4,3492 3,7505 3,4083 3,1835 3,0232 2,9023 24 5,7166 4,3187 3,7211 3,3794 3,1548 2,9946 2,8738 25 5,6864 4,2909 3,6943 3,3530 3,1287 2,9685 2,8478 26 5,6586 4,2655 3,6697 3,3289 3,1048 2,9447 2,8240 27 5,6331 4,2421 3,6472 3,3067 3,0828 2,9228 2,8021 28 5,6096 4,2205 3,6264 3,2863 3,0626 2,9027 2,7820 29 5,5878 4,2006 3,6072 3,2674 3,0438 2,8840 2,7633 30 5,5675 4,1821 3,5894 3,2499 3,0265 2,8667 2,7460 40 5,4239 4,0510 3,4633 3,1261 2,9037 2,7444 2,6238 60 5,2856 3,9253 3,3425 3,0077 2,7863 2,6274 2,5068 80 5,2184 3,8643 3,2841 2,9504 2,7295 2,5708 2,4502 120 5,1523 3,8046 3,2269 2,8943 2,6740 2,5154 2,3948 oo 5,0239 3,6889 3,1161 2,7858 2,5665 2,4082 2,2875 150 Kvantily Fisherova-Snedecorova rozložení pro a = 0,975 «2 8 9 10 «i 11 12 13 14 1 956,6562 963,2846 968,6274 973,0252 976,7080 979,8368 982,5278 2 39,3730 39,3869 39,3980 39,4071 39,4146 39,4210 39,4265 3 14,5399 14,4731 14,4189 14,3742 14,3366 14,3045 14,2768 4 8,9796 8,9047 8,8439 8,7935 8,7512 8,7150 8,6838 5 6,7572 6,6811 6,6192 6,5678 6,5245 6,4876 6,4556 6 5,5996 5,5234 5,4613 5,4098 5,3662 5,3290 5,2968 7 4,8993 4,8232 4,7611 4,7095 4,6658 4,6285 4,5961 8 4,4333 4,3572 4,2951 4,2434 4,1997 4,1622 4,1297 9 4,1020 4,0260 3,9639 3,9121 3,8682 3,8306 3,7980 10 3,8549 3,7790 3,7168 3,6649 3,6209 3,5832 3,5504 11 3,6638 3,5879 3,5257 3,4737 3,4296 3,3917 3,3588 12 3,5118 3,4358 3,3736 3,3215 3,2773 3,2393 3,2062 13 3,3880 3,3120 3,2497 3,1975 3,1532 3,1150 3,0819 14 3,2853 3,2093 3,1469 3,0946 3,0502 3,0119 2,9786 15 3,1987 3,1227 3,0602 3,0078 2,9633 2,9249 2,8915 16 3,1248 3,0488 2,9862 2,9337 2,8890 2,8506 2,8170 17 3,0610 2,9849 2,9222 2,8696 2,8249 2,7863 2,7526 18 3,0053 2,9291 2,8664 2,8137 2,7689 2,7302 2,6964 19 2,9563 2,8801 2,8172 2,7645 2,7196 2,6808 2,6469 20 2,9128 2,8365 2,7737 2,7209 2,6758 2,6369 2,6030 21 2,8740 2,7977 2,7348 2,6819 2,6368 2,5978 2,5638 22 2,8392 2,7628 2,6998 2,6469 2,6017 2,5626 2,5285 23 2,8077 2,7313 2,6682 2,6152 2,5699 2,5308 2,4966 24 2,7791 2,7027 2,6396 2,5865 2,5411 2,5019 2,4677 25 2,7531 2,6766 2,6135 2,5603 2,5149 2,4756 2,4413 26 2,7293 2,6528 2,5896 2,5363 2,4908 2,4515 2,4171 27 2,7074 2,6309 2,5676 2,5143 2,4688 2,4293 2,3949 28 2,6872 2,6106 2,5473 2,4940 2,4484 2,4089 2,3743 29 2,6686 2,5919 2,5286 2,4752 2,4295 2,3900 2,3554 30 2,6513 2,5746 2,5112 2,4577 2,4120 2,3724 2,3378 40 2,5289 2,4519 2,3882 2,3343 2,2882 2,2481 2,2130 60 2,4117 2,3344 2,2702 2,2159 2,1692 2,1286 2,0929 80 2,3549 2,2775 2,2130 2,1584 2,1115 2,0706 2,0346 120 2,2994 2,2217 2,1570 2,1021 2,0548 2,0136 1,9773 oo 2,1918 2,1136 2,0483 1,9927 1,9447 1,9027 1,8656 Příloha A - Statistické tabulky Kvantily Fisherova-Snedecorova rozložení pro a = 0,975 «2 15 16 17 «i 18 19 20 25 1 984,8668 986,9187 988,7331 990,3490 991,7973 993,1028 998,0808 2 39,4313 39,4354 39,4391 39,4424 39,4453 39,4479 39,4579 3 14,2527 14,2315 14,2127 14,1960 14,1810 14,1674 14,1155 4 8,6565 8,6326 8,6113 8,5924 8,5753 8,5599 8,5010 5 6,4277 6,4032 6,3814 6,3619 6,3444 6,3286 6,2679 6 5,2687 5,2439 5,2218 5,2021 5,1844 5,1684 5,1069 7 4,5678 4,5428 4,5206 4,5008 4,4829 4,4667 4,4045 8 4,1012 4,0761 4,0538 4,0338 4,0158 3,9995 3,9367 9 3,7694 3,7441 3,7216 3,7015 3,6833 3,6669 3,6035 10 3,5217 3,4963 3,4737 3,4534 3,4351 3,4185 3,3546 11 3,3299 3,3044 3,2816 3,2612 3,2428 3,2261 3,1616 12 3,1772 3,1515 3,1286 3,1081 3,0896 3,0728 3,0077 13 3,0527 3,0269 3,0039 2,9832 2,9646 2,9477 2,8821 14 2,9493 2,9234 2,9003 2,8795 2,8607 2,8437 2,7777 15 2,8621 2,8360 2,8128 2,7919 2,7730 2,7559 2,6894 16 2,7875 2,7614 2,7380 2,7170 2,6980 2,6808 2,6138 17 2,7230 2,6968 2,6733 2,6522 2,6331 2,6158 2,5484 18 2,6667 2,6404 2,6168 2,5956 2,5764 2,5590 2,4912 19 2,6171 2,5907 2,5670 2,5457 2,5265 2,5089 2,4408 20 2,5731 2,5465 2,5228 2,5014 2,4821 2,4645 2,3959 21 2,5338 2,5071 2,4833 2,4618 2,4424 2,4247 2,3558 22 2,4984 2,4717 2,4478 2,4262 2,4067 2,3890 2,3198 23 2,4665 2,4396 2,4157 2,3940 2,3745 2,3567 2,2871 24 2,4374 2,4105 2,3865 2,3648 2,3452 2,3273 2,2574 25 2,4110 2,3840 2,3599 2,3381 2,3184 2,3005 2,2303 26 2,3867 2,3597 2,3355 2,3137 2,2939 2,2759 2,2054 27 2,3644 2,3373 2,3131 2,2912 2,2713 2,2533 2,1826 28 2,3438 2,3167 2,2924 2,2704 2,2505 2,2324 2,1615 29 2,3248 2,2976 2,2732 2,2512 2,2313 2,2131 2,1419 30 2,3072 2,2799 2,2554 2,2334 2,2134 2,1952 2,1237 40 2,1819 2,1542 2,1293 2,1068 2,0864 2,0677 1,9943 60 2,0613 2,0330 2,0076 1,9846 1,9636 1,9445 1,8687 80 2,0026 1,9741 1,9483 1,9250 1,9037 1,8843 1,8071 120 1,9450 1,9161 1,8900 1,8663 1,8447 1,8249 1,7462 oo 1,8326 1,8028 1,7759 1,7515 1,7291 1,7085 1,6259 152 Kvantily Fisherova-Snedecorova rozložení pro a = 0,975 «2 30 40 «i 60 80 120 oo 1 1001,4140 1005,5980 1009,8000 1011,9080 1014,0200 1018,3000 2 39,4646 39,4729 39,4812 39,4854 39,4896 39,4980 3 14,0805 14,0365 13,9921 13,9697 13,9473 13,9020 4 8,4613 8,4111 8,3604 8,3349 8,3092 8,2573 5 6,2269 6,1750 6,1225 6,0960 6,0693 6,0153 6 5,0652 5,0125 4,9589 4,9318 4,9044 4,8491 7 4,3624 4,3089 4,2544 4,2268 4,1989 4,1423 8 3,8940 3,8398 3,7844 3,7563 3,7279 3,6702 9 3,5604 3,5055 3,4493 3,4207 3,3918 3,3329 10 3,3110 3,2554 3,1984 3,1694 3,1399 3,0798 11 3,1176 3,0613 3,0035 2,9740 2,9441 2,8828 12 2,9633 2,9063 2,8478 2,8178 2,7874 2,7249 13 2,8372 2,7797 2,7204 2,6900 2,6590 2,5955 14 2,7324 2,6742 2,6142 2,5833 2,5519 2,4872 15 2,6437 2,5850 2,5242 2,4930 2,4611 2,3953 16 2,5678 2,5085 2,4471 2,4154 2,3831 2,3163 17 2,5020 2,4422 2,3801 2,3481 2,3153 2,2474 18 2,4445 2,3842 2,3214 2,2890 2,2558 2,1869 19 2,3937 2,3329 2,2696 2,2368 2,2032 2,1333 20 2,3486 2,2873 2,2234 2,1902 2,1562 2,0853 21 2,3082 2,2465 2,1819 2,1485 2,1141 2,0422 22 2,2718 2,2097 2,1446 2,1108 2,0760 2,0032 23 2,2389 2,1763 2,1107 2,0766 2,0415 1,9677 24 2,2090 2,1460 2,0799 2,0454 2,0099 1,9353 25 2,1816 2,1183 2,0516 2,0169 1,9811 1,9055 26 2,1565 2,0928 2,0257 1,9907 1,9545 1,8781 27 2,1334 2,0693 2,0018 1,9665 1,9299 1,8527 28 2,1121 2,0477 1,9797 1,9441 1,9072 1,8291 29 2,0923 2,0276 1,9591 1,9232 1,8861 1,8072 30 2,0739 2,0089 1,9400 1,9039 1,8664 1,7867 40 1,9429 1,8752 1,8028 1,7644 1,7242 1,6371 60 1,8152 1,7440 1,6668 1,6252 1,5810 1,4821 80 1,7523 1,6790 1,5987 1,5549 1,5079 1,3997 120 1,6899 1,6141 1,5299 1,4834 1,4327 1,3104 oo 1,5660 1,4835 1,3883 1,3329 1,2684 1,0000 Příloha A - Statistické tabulky 154 Příloha B - Základní informace o programu STATISTICA Příloha B - Základní informace o programu STATISTICA Systém má modulární stavbu. V multilicenci pro Masarykovu univerzitu jsou k dispozici moduly: Basic Statistics/Tables, Multiple Regression, ANOVA, Nonparametrics, Distribu-tion Fitting, Advanced Linear/Nonlinear Models, Multivariate Explorartory Techniques, Industrial Statistics & Six Sigma. Velké množství informací o systému STATISTICA lze najít na webové stránce společnosti StatSoft, která je jejím distributorem v České republice (internetová adresa stránek je www.statsoft.cz).Z této stránky vede rovněž odkaz na elektronickou učebnici statistiky. Ovládání systému STATISTICA se může jemně lišit dle použité verze programu. STATISTICA má několik typů oken: ■ spreadsheet (datové okno, má příponu sta, jeho obsah však lze exportovat i v jiných formátech). Do datového okna lze načítat datové soubory nejrůznějších typů (např. z tabulkových procesorů, databázové soubory, ASCII soubory). ■ workbook (má příponu stw). Do workbooku ukládají výstupy, tj. tabulky a grafy. Skládá se ze dvou oken, v levém okně je znázorněna stromová struktura výstupů, v pravém jsou samotné výstupy. V levém okně se lze pohybovat myší nebo kurzorem, mazat, přesouvat, editovat apod. Výstupy mohou sloužit jako vstupy pro další analýzy a grafy. ■ report (má příponu str, lze ho uložit i ve formátu rtf, txt či htm). Pokud požadujeme, aby se výstupy ukládaly nejen do workbooku, ale i do reportu, postupujeme takto: Tools - Options - Output Manager - zaškrtneme Also send to Report Window -OK. Report se podobně jako workbook skládá ze dvou oken. Do reportu můžeme vkládat vlastní text, vysvětlující komentáře, poznámky apod. Tabulky a grafy lze v reportu i workbooku dále upravovat. ■ okno grafů (přípona stg, lze ho uložit i jako bmp, jpg, png a wmf). Získá se tak, že ve workbooku klikneme pravým tlačítkem na graf a vybereme Clone Graph. ■ programovací okno (přípona svb). Slouží pro zápis programů v jazyku STATISTICA Visual Basic. Mezi jednotlivými typy oken se přepínáme pomocí položky Window v hlavním menu. B.1. Bodové zpracování četností 1. Zapište do datového okna programu STATISTICA datový soubor, který bude obsahovat známky z matematiky, angličtiny a údaje o pohlaví dvaceti studentů (viz příklad 1.10). Návod: File - New - Number of variables 3, Number of cases 20, OK. 2. Znaky nazvěte X, Y, Z, vytvořte jim návěští (X - známka z matematiky, Y - známka z angličtiny, Z - pohlaví studenta) a popište, co znamenají jednotlivé varianty (u znaků X a Y: 1 - výborně, 2 - velmi dobře, 3 - dobře, 4 - neprospěl, u znaku Z: 0 - žena, 1 - muž). Soubor uložte pod názvem známky.sta. Návod: Kurzor nastavíme na Varl - 2x klikneme myší - Name X - Long Name známka z matematiky, Text label - 1 výborně, 2 velmi dobře, 3 dobře, 4 neprospěl, OK. U proměnné Y lze text label okopírovat z proměnné X - v Text Labels Editor zvolíme Copy from variable X. Přepínání mezi číselnými hodnotami a jejich textovým popisem se děje pomocí tlačítka s obrázkem štítku. 3. U znaků X a Y vypočtěte absolutní četnosti, relativní četnosti a relativní kumulativní četnosti. Návod: Statistics - Basic Statistics/Tables - Frequency tables - OK - Variables X, Y, OK - Summary. Obě dvě tabulky se uloží do workbooku a listovat v nich můžeme pomocí stromové struktury v levém okně. 4. Vytvořte sloupkový diagram absolutních četností znaků X a Y Návod: Graphs - Histograms - Variables X, Y - OK - vypneme Normal fit -Advanced - zaškrtneme Breaks between Columns, OK. Vytvořte výsečový diagram absolutních četností znaků X a Y Návod: Graphs - 2D Graphs - Pie Charts - Variables X, Y - OK - Advanced - Pie legend Text and Percent (nebo Text and Value) - OK. Vytvořte polygon absolutních četností znaků X a Y Návod: ve workbooku vstoupíme do tabulky rozložení četností proměnné X. Pomocí Edit - Delete - Cases vymažeme řádek označený Missing. Nastavíme se kurzorem na Count - Graphs - Graphs of Block Data - Line Plot:Entire Columns. Vykreslí se polygon četností. 5. Vytvořte graf empirické distribuční funkce znaku X. Návod: Při tvorbě histogramu zadáme v Advanced volbu Showing Type Cumulative, Y axis % - 2x klikneme myší na pozadí grafu - otevře se okno All Options -vybereme Plot: Bars - Type Rectangles. V tomto grafu jsou však svislé čáry až k vodorovné ose. Lze použít i jiný typ grafu: vytvoříme nový datový soubor, který bude mít dvě proměnné a případů o dva víc než je počet variant znaku X. Do 1. proměnné zapíšeme do 1. řádku hodnotu o 1 menší než je 1. varianta znaku X, pak varianty znaku X a nakonec hodnotu o 1 větší než je poslední varianta znaku X. Do 2. proměnné zapíšeme 0, pak relativní kumulativní četnosti znaku X (v procentech) a nakonec 100. Graphs - Scatterplots -Variables VI, V2 - OK - vypneme Linear fit -OK - 2x klikneme na pozadí grafu - Plot:General - vypneme Markers, zaškrtneme Line - Line Type: Step - OK. Vytvořte graf četnostní funkce znaku X. Návod: Při tvorbě histogramu zadáme v Advanced Y axis % - 2x klikneme myší na pozadí grafu - vybereme Plot General - zaškrtneme Markers - vybereme Plot:Bars - Type Lines. 157 Příloha B - Základní informace o programu STATISTICA 6. Z datového souboru vyberte pouze ženy (pouze muže) a úkol 3 proveďte pro ženy (pro muže). Návod: Statistics - Basic Statistics/Tables - Frequency tables - OK -Variables X, Y, OK - Select Cases - zaškrtneme Selection Conditions - Include cases - zaškrtneme Specific, selected by Z = 0, OK. 7. Nadále pracujte s celým datovým souborem. Vytvořte kontingenční tabulku absolutních četností znaků X a Y a graf simultánní četností funkce. Návod: Statistics - Basic Statistics/Tables - Tables and banners - OK - Select cases - All - OK - Specify tables - List 1 X, List 2 Y, OK, Summary. Vytvoření grafu simultánní četnostní funkce: Návrat do Crosstabulation Tables Result - 3D histograms - vybereme Axis Scaling - Mode Manual - Minimum 0 (a totéž provedeme pro Axis Y) - dále vybereme Graph Layout - Type - Spikes - OK. Graf lze natáčet pomocí Point of View. Vytvořte kontingenční tabulku sloupcově a řádkově podmíněných relativních četností znaků X a Y. Návod: Návrat do Crosstabulation Tables Result - Options - zaškrtneme ve sloupci Compute tables volbu Percentages of column counts (resp. Percentages of row counts). 158 B.2. Intervalové zpracování četností 1. Zapište do datového okna programu STATISTICA datový soubor, který bude obsahovat údaje o mezi plasticity oceli a mezi pevnosti (viz příklad 2.13). Proměnným X a Y vytvořte návěští „mez plasticity" a „mez pevnosti". Soubor pak uložte pod názvem ocel. sta. Návod: „Bodové zpracování četností", 1. a 2. úkol. 2. Pro X a Y použijeme intervalové zpracování četností. Návod: Datový soubor má rozsah 60, volíme proto podle Sturgesova pravidla 7 třídicích intervalů. Dále musíme zjistit minimum a maximum, abychom vhodně stanovili třídicí intervaly. Návod: Statistics - Basic Statistics/Tables - Descriptive statistics - Variables X, Y -zaškrtneme Minimum & maximum - Summary. (Pro X je minimum 33 a maximum 160, tedy vhodná volba třídicích intervalu je (30,50), (50,70),..., (150,170) - viz příklad 2.13, pro Y je minimum 52 a maximum 189, tedy třídicí intervaly zvolíme (50,70), (70,90), ... (170,190) - viz příklad 2.19.) 3. Vytvořte histogram pro X a pro Y Návod: Graphs - Histograms - Variables X - vypneme Normal fit - Advanced -zaškrtneme Boundaries - Specify Boundaries - 50 70 90 110 130 150 170 OK - Y Axis %. 2x klikneme na pozadí grafu a ve volbě All Options můžeme měnit různé vlastnosti grafu. Upozornění: STATISTICA v histogramu znázorňuje relativní četnost výškou obdélníku, nikoliv jeho plochou, což není v souladu s definicí 2.14. 4. Proveďte zakódování hodnot proměnných X a Y do příslušných třídicích intervalů. Návod: Insert - Add Variables - 2 - After Y - OK - přejmenujeme je na RX a RY Nastavíme se kurzorem na RX - Data - Recode - vyplníme podmínky pro všech 7 kategorií. (Pozor - podmínky se musí psát ve tvaru X>30 and X<=50 atd.). Pak klepneme na OK. Analogicky pro Y 5. Vytvořte graf intervalové empirické distribuční funkce pro X. Návod: Vytvoříme Frequency table pro RX. Před 1. případ vložíme řádek, kde do Category napíšeme 0 a do Cumulative Count také 0. Nastavíme se kurzorem na Cumulative Percent - Graphs - Graphs of Block Data - Custom Graph from Block by Column - Line Plots (Variables) - OK. 2x klikneme na pozadí grafu -Plot: General - vypneme Markers - Axis: Scaling - Mode Manual - Minimum 1, Maximum 9 - Axis: Custom Units - Position 1, Text 30 atd až Position 9, Text 190 -OK. 6. Sestavte kontingenční tabulky absolutních četností (relativních četností, sloupcově a řádkově podmíněných relativních četností) dvourozměrných třídících intervalů pro (X,Y). Návod: Viz úkol č. 6 v „Bodovém zpracování četností", kde budeme pracovat s proměnnými RX a RY 159 Příloha B - Základní informace o programu STATISTICA B.3. Výpočet číselných charakteristik jednorozměrného a dvourozměrného souboru, regresní přímka 1. Načtěte soubor znamky.sta. Pro známky z matematiky a angličtiny vypočtěte medián, dolní a horní kvartil a kvartilovou odchylku. Výsledky porovnejte s příkladem 3.5. Návod: Stastistics - Basic Statistics/Tables - Descriptive Statistics - OK - Variables X, Y, OK - zaškrtneme Median, Lower & upper quartiles, Quartile range - Summary. 2. Načtěte soubor ocel.sta. Pro mez plasticity a mez pevnosti vypočtěte aritmetické průměry, směrodatné odchylky a rozptyly. Výsledky porovnejte s příkladem 3.17. Návod: Návod: Stastistics - Basic Statistics/Tables - Descriptive Statistics - OK -Variables X, Y, OK - zaškrtneme Mean, Standard Deviation, Variance - Summary. Vysvětlení: Rozptyl a směrodatná odchylka vyjdou ve STATISTICE jinak než v příkladu 3.17, protože STATISTICA ve vzorci pro výpočet rozptylu nepoužívá \/n, ale l/(n- 1). 3. Nakreslete dvourozměrný tečkový diagram pro (X,Y). Návod: Graphs - Scatterplots - Variables X,Y - OK - vypneme Linear fit - OK. 4. Vypočtěte kovarianci a koeficient korelace meze plasticity a meze pevnosti. Výsledky porovnejte s příkladem 3.17. Návod: Statistics - Multiple Regression - Variables Independent X, Dependent Y -OK - OK - Residuals/assumption-prediction - Descriptive statistics - Covariances. Pro získání korelačního koeficientu zvolíme Correlation místo Covariances. Vysvětlení: Kovariance vyjde ve STATISTICE jinak než v příkladu 3.17, protože ve STATISTICE se ve vzorci pro výpočet kovariance nepoužívá l/n, ale l/(« - 1). 5. Určete koeficienty regresní přímky meze pevnosti na mez plasticity a stanovte index determinace. Určete regresní odhad meze pevnosti, je-li mez plasticity 110. Nakreslete regresní přímku do dvourozměrného tečkového diagramu. Návod: V tabulce Multiple Regression zvolíme Variables Independent X, Dependent Y - OK - Summary:Regression results. Ve výstupní tabulce najdeme koeficient bo ve sloupci B na řádku označeném Intercept, koeficient b\ ve sloupci B na řádku označeném X, index determinace pod označením R2. Pro výpočet predikované hodnoty zvolíme Residuals/assumption/prediction Predict dependent variable X:l 10 - OK. Ve výstupní tabulce je hledaná hodnota označena jako Predictd. Nakreslení regresní přímky: Návrat do Multiple Regression - Residuals/assumption/ /prediction - Perform residuals analysis - Scatterplots - Bivariate correlation - X, Y - OK. Jiný způsob: Do dvourozměrného tečkového diagramu nakreslíme regresní přímku tak, že v tabulce 2D Scatterplots zvolíme Fit Linear, OK. 160 B.4. Výpočty pravděpodobností s využitím distribuční funkce binomického rozložení Označme X náhodnou veličinu. Její distribuční funkci zavedeme vztahem cD(x) = P(X < x). Pokud náhodná veličina X nabývá pouze konečně nebo spočetně mnoha hodnot, lze pomocí cD(x) vyjádřit následující pravděpodobnosti: a) P(X = x) = P(X < x) - P(X < x - 1) = 3>(x) - 3>(x - 1); b) P(X > x) = 1 - P(X < x) = 1 - P(X < x - 1) = 1 - 3>(x - 1); c) P{xi (xi - 1). STATISTICA poskytuje hodnoty distribučních funkcí mnoha rozložení. Omezíme se na binomické rozložení (funkce IBinom(x, p, n), kde x... počet úspěchů, p ... pravděpodobnost úspěchu v jednom pokusu, «... celkový počet pokusů). Vzorový příklad na binomické rozložení: Pojišťovna zjistila, že 12 % pojistných událostí je způsobeno vloupáním. Jaká je pravděpodobnost, že mezi 30 náhodně vybranými pojistnými událostmi bude způsobeno vloupáním a) nejvýše 6, b) aspoň 6, c) právě 6, d) od dvou do pěti? Řešení: X ... počet pojistných událostí způsobených vloupáním , n = 30, p = 0,12. ad a) P(X < 6) = 0(6) = 0,9393, ad b) P(X>6) = 1-P(X<5) = 1- 0(5) = 0,1431, ad c) P(X = 6) = 0(6) - 0(5) = 0,0825, ad d) P(2 < X < 5) = 0(5) - O(l) = 0,7469. Postup ve STATISTICE: Otevřeme nový datový soubor se čtyřmi proměnnými a o jednom případu. Řešení: Do Long Name 1. proměnné napíšeme =IBinom(6;0,12;30). Do Long Name 2. proměnné napíšeme =l-IBinom(5;0,12;30). Do Long Name 3. proměnné napíšeme =IBinom(6;0,12;30)-IBinom(5;0,12;30). Do Long Name 4. proměnné napíšeme =IBinom(5;0,12;30)-IBinom(l;0,12;30). (Do Lange Name proměnné vstoupíme tak, že v datovém okně 2x klikneme myší na název proměnné.) Kreslení grafů distribuční funkce a pravděpodobnostní funkce binomického rozložení Vzorový příklad: Nakreslete graf distribuční funkce a pravděpodobnostní funkce náhodné veličiny X ~ Bř'(12;0,3). Postup ve STATISTICE: Vytvoříme nový datový soubor o 3 proměnných a 13 případech. První proměnnou nazveme X a uložíme do ní hodnoty 0, 1,..., 12 (do Long Name napíšeme =v0-l). Druhou proměnnou nazveme DF a uložíme do ní hodnoty distribuční funkce (do Long Name napíšeme příkaz =IBinom(x;0,3;12)). Třetí proměnnou nazveme PF a uložíme do ní hodnoty pravděpodobnostní funkce (do Long Name napíšeme příkaz =Binom(x;0,3;12)). Graf distribuční funkce: Graphs - Scatterplots - Variables X, DF - OK - vypneme Linear fit - OK - 2x klikneme na pozadí grafu - Plot: General - zaškrtneme Line - Line Type: Step - OK. Příloha B - Základní informace o programu STATISTICA Graf pravděpodobnostní funkce: Graphs - Scatterplots - Variables X, PF - OK - vypneme Linear rit - OK. Podle tohoto návodu nakreslete grafy distribučních a pravděpodobnostních funkcí binomického rozložení pro různá nap, např. n = 5, p = 0,5 (resp. 0,75) apod. Sledujte vliv parametrů na vzhled grafů. 162 B.5. Grafy hustot a distribučních funkcí, výpočet kvantilů STATISTICA umí kreslit grafy hustot a distribučních funkcí mnoha spojitých rozložení a počítat kvantily těchto rozložení. Slouží k tomu Probability Calculator v menu Statistics. Zaměříme se na rozložení uvedená definici 9.6. 1. Rovnoměrné spojité rozložení Rs(0,1) Statistics - Probability Calculator - Distributions - Beta - shape 1 - napíšeme 1, shape 2 - napíšeme 1. STATISTICA vykreslí graf hustoty a distribuční funkce. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku Beta objeví hodnota tohoto kvantilu. 2. Exponenciální rozložení Ex(A) Ve volbě Distributions vybereme Exponential a do okénka lambda napíšeme patřičnou hodnotu. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku exp objeví hodnota tohoto kvantilu. 3. Normální rozložení N(p, o2) Ve volbě Distributions vybereme Z (Normal), do okénka mean napíšeme hodnotu p a do okénka st. dev. napíšeme hodnotu cr. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku X objeví hodnota tohoto kvantilu. 4. Pearsonovo rozložení chĺ-kvadrát s n stupni volnostix2(n) Ve volbě Distributions vybereme Chi 2 a do okénka df napíšeme patřičný počet stupňů volnosti. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku Chi 2 objeví hodnota tohoto kvantilu. 5. Studentovo rozložení s n stupni volnosti t(n) Ve volbě Distributions vybereme t (Student) a do okénka df napíšeme patřičný počet stupňů volnosti. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku t objeví hodnota tohoto kvantilu. 6. Fisherovo-Snedecorovo rozložení s n\ a n2 stupni volnosti F(n\,n2) Ve volbě Distributions vybereme F (Fisher) a do okének df 1 a df2 napíšeme počet stupňů volnosti čitatele a jmenovatele. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku F objeví hodnota tohoto kvantilu. 163 Příloha B - Základní informace o programu STATISTICA 164 Závěr Závěr Učební text, který jste právě dočetli, byl určen k prvnímu seznámení s matematickou disciplinou nazývanou statistika. Autorským záměrem bylo ukázat vám, že statistika ve své popisné formě dokáže pomoci několika výstižných charakteristik zpřehlednit informace obsažené ve velkých datových souborech, zatímco ve své induktivní formě založené na počtu pravděpodobnosti slouží především jako nástroj rozhodování v situacích ovlivněných náhodou, kdy na základě znalosti náhodného výběru z určitého rozložení pravděpodobnosti usuzuje na vlastnosti tohoto rozložení. V současnosti je statistika velice rozvinutá a důležitá věda, která se neustále doplňuje a rozšiřuje o nové poznatky. Z tohoto důvodu může být tento učební text jen značně omezeným úvodem, který však má dostatečnou oporu v obecných statistických principech. V seznamu literatury samozřejmě najdete knihy, které vám poslouží při prohlubování a rozšiřování vašich statistických znalosti, bez nichž se dnes neobejde žádný absolvent ekonomicky zaměřené vysoké školy. Od ekonoma se totiž očekává, že bude rozhodovat nejenom na základě svých zkušenosti, ale především na základě matematických a statistických analýz. Proto musí být schopen sám provést jednodušší analýzy a u těch složitějších najít společnou řeč se statistiky, aby jim mohl zadávat úkoly a správně interpretovat výsledky těchto analýz. Jak jste již zjistili, použiti statistického programového systému STAT1STICA osvobozuje uživatele od namáhavých úkonů, jako je vyhledávání v datech, jejich třídění, sumarizace a grafické znázornění. Dbejte však na to, aby data byla do počítače vkládána pečlivě a vždy byla podrobena kontrole. Např. je užitečné pro každou proměnnou vypočítat minimum, maximum, medián, kvartilovou odchylku, vykreslit sloupkový diagram, dvourozměrný tečkový diagram apod. Při zpracování dat rozhodně používejte jen ty metody, kterým dobře rozumíte a jejichž výsledky umíte interpretovat. Systém STAT1STICA obsahuje velké množství metod, jejichž neadekvátní aplikace může vést k zavádějícím či dokonce chybným závěrům. Po úspěšném zvládnuti předmětu „Statistika 1" se před vámi otevírají značné možnosti, jak efektivně získávat informace obsažené v datech a využívat je ve své každodenní práci. 166