Masarykova univerzita Ekonomicko-správní fakulta
Statistika 1
distanční studijní opora
Marie Budíková David Hampel
Brno 2011
Identifikace modulu
Znak
■ BKMSTAl
Určení
■ Kombinované bakalářské studium
Název
■ Statistika 1
Garant/autor
■ RNDr. Marie Budíková, Dr., Mgr. David Hampel, Ph.D.
Cíl
Vymezení cíle
Statistika jako metoda analýzy dat patří k vědním disciplínám, v nichž by měl být vzdělán každý ekonom. Její role v ekonomii je zcela nezastupitelná, neboť moderní řízení je založeno na nepřetržitém vyhodnocování informací o hospodářství jako celku i jeho subsystémech, a tyto informace poskytuje a následně zpracovává právě statistika.
Přiměřená znalost základních statistických pojmů je pro ekonoma důležitá také proto, že mu pomáhá porozumět odborné ekonomické literatuře, jejíž některé části statistiku v hojné míře využívají.
Význam statistiky v poslední době neustále roste, což úzce souvisí s rozvojem výpočetní techniky, která je používána jak při sběru a přenosu dat, tak při jejich zpracování a ukládání informací.
Dovednosti a znalosti získané po studiu textů
Předmět „Statistika 1" vás má především naučit zpracovávat data, která se týkají ekonomických jevů, tj. data třídit, numericky vyhodnocovat a interpretovat. Velké množství příkladů, které jsou součástí učebního textu, vám pomůže při formulování vlastních úloh a výběru správné metody. Naučíte se rovněž využívat výpočetní techniku při řešení ekonomických problémů.
Časový plán
Rozsah předmětu je dán akreditací a je rozdělen do tří bloků konzultací po čtyřech hodinách. První blok je zaměřen na vysvětlení pojmů popisné statistiky a regresní analýzu, druhý a třetí blok na počet pravděpodobnosti. V každém bloku konzultací jsou prezentována řešení typických příkladů.
Časová náročnost
■ prezenční část
■ samostudium
■ POT
12 hodin 87 hodin 1 hodina
Celkový studijní ■ 100 hodin
Harmonogram
Říjen:
1. a 2. týden
3. týden
4. týden Listopad:
1. týden
2. týden
3. a 4. týden
Prosinec:
1. týden
2. týden
3. a 4. týden Leden:
zkouška
cas
první blok konzultací, seznámení s kursem a požadavky, zadání POT - 4 hodiny samostudium a práce s PC - 16 hodin samostudium - 4 hodiny
vypracování prvních čtyř příkladů z POT - 2 hodiny druhý blok konzultací - 4 hodiny
samostudium a práce s PC - 20 hodin třetí blok konzultací - 4 hodiny samostudium - 7 hodin
vypracování dalších čtyř příkladů z POT - 2 hodiny
samostudium a práce s PC - 10 hodin samostudium - 6 hodin vypracování POT - 1 hodina samostudium - 24 hodin
Způsob studia
Studijní pomůcky
Doporučená literatura:
■ Anděl J.: Matematická statistika. SNTL/Alfa Praha 1978.
■ Arltová m., Bílková D., Jarošová E., Pourová z.: Sbírka příkladů ze statistiky (Statistika A). VŠE Praha 1996. 1. vydání. ISBN 80-7079-727-4
■ Budíková m., Králová m., Maroš b.: Průvodce základními statistickými metodami. Grada 2010. ISBN 978-80-247-3243-5
■ Budíková m., Mikoláš Š., Osecký P: Popisná statistika. MU Brno 2001.
■ budíková m., mikoláš Š., osecký P: Teorie pravděpodobnosti a matematická statistika. Sbírka příkladů. MU Brno 2001.
■ Hebák R, Kahounová J.: Počet pravděpodobnosti v příkladech. SNTL Praha 1978.
■ Karpíšek Z.: Pravděpodobnostní metody. VUT Brno 2000. ISBN 80-214-1832-X
■ Karpíšek Z., Drdla M.: Statistické metody. VUT Brno 1999. ISBN 80-214-1678-5
■ novovičová J.: Pravděpodobnost a matematická statistika. ČVUT Praha 2002. Dotisk 1. vydání. ISBN 80-01-01980-2
■ stuchlý J.: Statistika I. Cvičení ze statistických metod pro managery. VŠE Praha 1999. 1. vydání. ISBN 80-7079-754-1
Vybavení
■ PC
■ CD-ROM
Návod práce se studijními texty
Text je rozvržen do 11 kapitol a 3 příloh. 1. až 4. kapitola se zabývají popisnou statistikou. Popisná statistika je disciplína, která pomocí různých tabulek, grafů, funkcionálních a číselných charakteristik sumarizuje informace obsažené ve velkém množství dat. Používá jen základní matematické operace a lze ji snadno pochopit. Její důležitost spočívá jednak v tom, že se v praxi velmi často používá a jednak motivuje pojmy, které jsou potřeba v počtu pravděpodobnosti.
5. až 11. kapitola vás seznámí s počtem pravděpodobnosti, který se zabývá studiem zákonitostí v náhodných pokusech. Matematickými prostředky modeluje situace, v nichž hraje roli náhoda. Pod pojmem náhoda rozumíme působení faktorů, které se živelně mění při různých provedeních téhož pokusu a nepodléhají naší kontrole.
Příloha A je tvořena vybranými statistickými tabulkami, konkrétně obsahuje hodnoty distribuční funkce standardizovaného normálního rozložení, kvantily standardizovaného normálního rozložení, Pearsonova rozloženíx2(n)> Studentova rozložení t(n) a Fisherova-Snedecorova rozložení F(ni, n2). Příloha B pak obsahuje informace o programovém systému STATISTICA a podrobné návody na jeho použití.
V úvodu 1. až 11. kapitoly je vždy vymezen cíl kapitoly a je uvedena časová zátěž, která je potřebná ke zvládnutí příslušné kapitoly. Kapitoly jsou uzavřeny stručným shrnutím probrané látky a kontrolními otázkami a úkoly. Ty úkoly, jejichž řešení je nutné či alespoň vhodné provádět pomocí systému STATISTICA, jsou označeny (S). Výsledky úkolů můžete porovnat s výsledky, k nimž dospěli autoři učebního textu.
1. až 11. kapitola jsou uspořádány v logickém sledu. Do přílohy A budete nahlížet podle potřeby a příloha B vám poslouží rovněž průběžně.
Obsah
Obsah
Stručný obsah
Kapitola 1
Základní, výběrový a datový soubor
Zavádí pojem objektu, základního a výběrového souboru, absolutní, relativní a podmíněné relativní četnosti množiny, zabývá se vlastnostmi relativní četnosti, definuje četnostní nezávislost dvou množin, vysvětluje pojem znaku, datového souboru a jevu.
Kapitola 2
Bodové a intervalové rozložení četností
Zabývá se tabulkovým a grafickým zpracováním četností, a to jak pro bodové, tak pro intervalové rozložení četností jednorozměrného a dvourozměrného znaku včetně zavedení funkcionálních charakteristik rozložení četností znaků.
Kapitola 3
Číselné charakteristiky znaků
Probírá číselné charakteristiky různých typů znaků, a to charakteristiky polohy, proměnlivosti, společné proměnlivosti dvou znaků a jejich lineární závislosti. Podává rovněž přehled vlastností číselných charakteristik.
Kapitola 4 Regresní přímka
Věnuje se speciálnímu případu regresní funkce, a to regresní přímce. Vysvětluje princip metody ne-jmenších čtverců, uvádí vzorce pro výpočet parametrů regresní přímky, vysvětluje význam těchto parametrů, posuzuje kvalitu regresní přímky pomocí indexu determinace. Zabývá se též vlastnostmi sdružených regresních přímek.
Kapitola 5
Jev a jeho pravděpodobnost
Vysvětluje pojem pokusu, základního prostoru a jevového pole, uvádí operace s jevy. Axiomaticky definuje pravděpodobnost, věnuje se vlastnostem pravděpodobnosti a zavádí klasickou pravděpodobnost.
Kapitola 6
Stochasticky nezávislé jevy a podmíněná pravděpodobnost
Zabývá se stochasticky nezávislými jevy, uvádí jejich vlastnosti a odvozuje geometrické a binomické rozložení pravděpodobností. Definuje podmíněnou pravděpodobnost, uvádí větu o násobení pravděpodobností, vzorec pro výpočet úplné pravděpodobnosti a Bayesův vzorec.
Kapitola 7
Náhodná veličina a její distribuční funkce
Číselně popisuje výsledky náhodných pokusů pomocí náhodných veličin a náhodných vektorů diskrétního a spojitého typu. Pravděpodobnostní chování náhodných veličin popisuje pomocí distribuční funkce,
pravděpodobnostní funkce či pomocí hustoty pravděpodobnosti. Věnuje se též stochastické nezávislosti náhodných veličin.
Kapitola 8
Podmíněná rozložení náhodných veličin
V této kapitole je ukázáno, jak se chová rozložení jedné náhodné veličiny při pevně daných hodnotách druhé náhodné veličiny, a to jak v diskrétním, tak ve spojitém případě.
Kapitola 9
Vybraná rozložení diskrétních a spojitých náhodných veličin
Uvádí několik vybraných typů důležitých diskrétních a spojitých rozložení pravděpodobnosti. Popisuje situace, v nichž se tato rozložení vyskytují a zdůrazňuje význam normálního rozložení. Na základě standardizovaného normálního rozložení odvozuje speciální rozložení, která jsou pak používána v matematické statistice.
Kapitola 10
Číselné charakteristiky náhodných veličin
Probírá číselné charakteristiky náhodných veličin, které jsou teoretickými protějšky empirických číselných charakteristik zavedených v kapitole 3. Zabývá se též hledáním kvantilů některých spojitých rozložení ve statistických tabulkách a podává přehled středních hodnot a rozptylů důležitých typů rozložení.
Kapitola 11
Zákon velkých čísel a centrální limitní věta
Uvádí zákon velkých čísel a jeho důsledek - Bernoulliovu větu, která při velkém počtu pokusů umožní odhadnout pravděpodobnost úspěchu pomocí relativní četnosti tohoto úspěchu.Vysvětluje význam centrální limitní věty a jejího důsledku - Moivre-Laplaceovy věty.
Obsah
Úplný obsah
Obsah.....................................................................................5
Úvod.....................................................................................11
Způsob studia...........................................................................13
1. Základní, výběrový a datový soubor...............................................15
2. Bodové a intervalové rozložení četností...........................................23
3. Číselné charakteristiky znaků......................................................45
4. Regresní přímka....................................................................55
5. Jev a jeho pravděpodobnost.......................................................63
6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost.....................71
7. Náhodná veličina a její distribuční funkce.........................................77
8. Podmíněná rozložení náhodných veličin..........................................91
9. Vybraná rozložení diskrétních a spojitých náhodných veličin...................103
10. Číselné charakteristiky náhodných veličin.......................................115
11. Zákon velkých čísel a centrální limitní věta.......................................133
Příloha A - Statistické tabulky.........................................................139
Příloha B - Základní informace o programu STATISTICA..............................155
Závěr....................................................................................165
Úvod
Úvod
Proč se zabývat statistikou?
Statistika je metoda analýzy dat, která nachází široké uplatnění v celé řadě ekonomických, technických, přírodovědných a humanitních disciplín. Její význam v poslední době neustále roste, což úzce souvisí s rozvojem výpočetní techniky, která je používána jak při sběru a přenosu dat, tak při jejich zpracování a ukládání informací.
Role statistiky v ekonomii je zcela nezastupitelná, neboť moderní řízení je založeno na nepřetržitém vyhodnocování informací o hospodářství jako celku i jeho subsystémech, a tyto informace poskytuje a následně zpracovává právě statistika.
Přiměřená znalost základních statistických pojmů je pro ekonoma důležitá také proto, že mu pomáhá porozumět odborné ekonomické literatuře, jejíž některé části statistiku v hojné míře využívají.
Aplikovat statistiku znamená shromažďovat data o studovaných jevech a zpracovávat je, tj. třídit, numericky vyhodnocovat a interpretovat. Statistika se tak pro ekonoma ocitá v těsném sousedství informatiky a výpočetní techniky a je připravena řešit ekonomické problémy pomocí kvantitativní analýzy dat.
Způsob studia
Způsob studia
Co lze očekávat od tohoto textu?
V předmětu „Statistika 1" se budeme zabývat dvěma oblastmi statistiky, a to popisnou statistikou a počtem pravděpodobno sti.
Popisná statistika je disciplína, která pomocí různých tabulek, grafů, funkcionálních a číselných charakteristik sumarizuje informace obsažené ve velkém množství dat. Používá jen základní matematické operace a lze ji snadno pochopit. Její důležitost spočívá jednak v tom, že se v praxi velmi často používá a jednak motivuje pojmy, které jsou potřeba v počtu pravděpodobnosti.
Počet pravděpodobnosti se zabývá studiem zákonitostí v náhodných pokusech. Matematickými prostředky modeluje situace, v nichž hraje roli náhoda. Pod pojmem náhoda rozumíme působení faktorů, které se živelně mění při různých provedeních téhož pokusu a nepodléhají naší kontrole.
K úspěšnému zvládnutí předmětu „Statistika 1" je zapotřebí ovládat kombinatoriku, základy diferenciálního a integrálního počtu jedné a dvou proměnných a znát základy práce s osobním počítačem.
Velmi účinným prostředkem pro řešení statistických úloh je programový systém STATISTICA. Masarykova univerzita je vlastníkem multilicence, tedy každý student může systém STATISTICA legálně používat. Informace o tomto systému a podrobné návody na jeho použití jsou uvedeny v příloze B studijních materiálů. Příklady či úkoly, jejichž řešení je nutné či alespoň vhodné provádět pomocí systému STATISTICA, jsou označeny (S).
Příloha A obsahuje vybrané statistické tabulky, konkrétně hodnoty distribuční funkce standardizovaného normálního rozložení, kvantily standardizovaného normálního rozložení, Pearsonova rozložení x2(n)> Studentova rozložení t(ri) a Fisherova-Snedecorova rozložení F{ti\, n2). Všechny tyto tabelované hodnoty (a samozřejmě mnohé další) lze získat pomocí systému STATISTICA.
Základní, výběrový a datový soubor
1. Základní, výběrový a datový soubor
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■ vymezit základní soubor a jeho objekty
■ stanovit výběrový soubor
■ spočítat absolutní a relativní četnosti množin ve výběrovém souboru a znát vlastnosti relativní četnosti a podmíněné relativní četnosti
■ ověřit četnostní nezávislost dvou množin ve výběrovém souboru
■ vytvořit datový soubor
■ uspořádat jednorozměrný datový soubor a stanovit vektor variant
■ vypočítat absolutní a relativní četnost jevu ve výběrovém souboru
Časová zátěž
Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia.
Nejprve se seznámíme s definicí základního a výběrového souboru a pojmem absolutní a relativní četnosti množiny v daném výběrovém souboru. Uvedeme příklad, s jehož různými variantami se budeme setkávat ve všech kapitolách věnovaných popisné statistice. Rovněž shrneme vlastnosti relativní četnosti.
1.1. Definice
Základním souborem rozumíme libovolnou neprázdnou množinu E. Její prvky značíme s a nazýváme je objekty. Libovolnou neprázdnou podmnožinu {s\,... ,s„] základního souboru E nazýváme výběrový soubor rozsahu n. Je-li G c E, pak symbolem N{G) rozumíme absolutní četnost množiny G ve výběrovém souboru, tj. počet těch objektů množiny G, které patří do výběrového souboru. Relativní četnost množiny G ve výběrovém souboru zavedeme vztahem
p{G) =
N{G)
1.2. Příklad
Základním souborem E je množina všech ekonomicky zaměřených studentů 1. ročníku českých vysokých škol. Množina G\ je tvořena těmi studenty, kteří uspěli
v prvním zkušebním termínu z matematiky a množina G2 obsahuje ty studenty, kteří uspěli v prvním zkušebním termínu z angličtiny. Ze základního souboru bylo náhodně vybráno 20 studentů, kteří tvoří výběrový soubor {s\,..., s2o}. Z těchto 20 studentů 12 uspělo v matematice, 15 v angličtině a 11 v obou předmětech. Zapište absolutní a relativní četnosti úspěšných matematiků, angličtinám a oboustranně úspěšných studentů.
Řešení:
ÍV(G0 = 12, N(G2) = 15, N(Gi n G2) = 11, n = 20 p(Gi) = = 0,6, p(G2) = = 0,75, p(Gi nG2) = ^= 0,55
16
Vidíme, že úspěšných matematiků je 60 %, angličtinám 75 % a oboustranně úspěšných studentů jen 55 %.
1.3. Věta
Relativní četnost má následujících 12 vlastností, které jsou obdobné vlastnostem procent.
M®) = 0
p{G) > 0
p(d U G2) + p(d n G2) = p(d) + p(G2) 1 + p(d n G2) > Md) + p(G2) p(GlUG2)
Md U G2) = Md) + p(G2) p(G2-G1)=p(G2)-p(G1nG2) d c G2 =^> /?(G2 - Gi) = /?(G2) - /?(Gi) Gi c G2 => /7(Gi) < /?(G2) P(E) = 1 _ MG) + p(G) = 1 MG) < 1
Pokud se v daném základním souboru zajímáme o dvě podmnožiny, můžeme zavést pojem podmíněné relativní četnosti jedné podmnožiny v daném výběrovém souboru za předpokladu, že objekt pochází z druhé podmnožiny. V následujícím příkladu vypočteme podmíněné relativní četnosti úspěšných matematiků mezi úspěšnými angličtinári a naopak.
1.4. Definice
Nechť E je základní soubor, G\, G2 jeho podmnožiny, {s\,..., sn] výběrový soubor. Definujeme podmíněnou relativní četnost množiny G\ ve výběrovém souboru za předpokladu G2:
MGi|G2) = ———— =-——
N(G2) p(G2)
a podmíněnou relativní četnost G2 ve výběrovém souboru za předpokladu G\.
N(d n G2) p(d n G2)
p(G2\d)
N(Gi) p(d)
1.5. Příklad
Pro údaje z příkladu 1.2 vypočtěte podmíněnou relativní četnost úspěšných matematiků mezi úspěšnými angličtinári a podmíněnou relativní četnost úspěšných angličtinám mezi úspěšnými matematiky.
Řešení:
p{G\\G2) = = 0,73 (tzn., že 73 % těch studentů, kteří byli úspěšní v angličtině, uspělo i v matematice)
1. Základní, výběrový a datový soubor
/?(G2|Gi) = || = 0,92 (tzn., že 92 % těch studentů, kteří byli úspěšní v matematice, uspělo i v angličtině)
Nyní se naučíme, jak ověřovat četnostní nezávislost dvou množin v daném výběrovém souboru. Znamená to, že informace o původu objektu z jedné množiny nijak nemění šance, s nimiž soudíme na jeho původ i z druhé množiny. Ověříme, zda úspěch v matematice a angličtině jsou v daném výběrovém souboru četnostně nezávislé.
1.6. Definice
Řekneme, že množiny G\, G2 jsou četnostně nezávislé v daném výběrovém souboru, jestliže
p(G1 n G2) = p{Gx) ■ p{G2).
(V praxi jen zřídka dojde k tomu, že uvedený vztah platí přesně. Většinou je jen naznačena určitá tendence četnostní nezávislosti.)
1.7. Příklad
Pro údaje z příkladu 1.2 zjistěte, zda úspěchy v matematice a angličtině jsou v daném výběrovém souboru četnostně nezávislé.
Řešení:
p{d n G2) = 0,55, p{Gi) ■ p{G2) = 0,6 • 0,75 = 0,45,
tedy skutečná relativní četnost oboustranně úspěšných studentů je větší než by odpovídalo četnostní nezávislosti množin Gi, G2 v daném výběrovém souboru.
Nyní každý objekt základního souboru ohodnotíme jedním nebo více čísly pomocí funkce, která se nazývá znak. Čísla, která se vztahují pouze k objektům výběrového souboru sestavíme do matice zvané datový soubor. Vysvětlíme si, co to je uspořádaný datový soubor a vektor variant. Uvedené pojmy objasníme na příkladu.
1.8. Definice
Nechť E je základní soubor. Potom funkce X : E —> R, Y : E —> R, ..., Z : E —> R, které každému objektu přiřazují číslo, se nazývají (skalární) znaky. Uspořádaná p-tice (X, Y,..., Z) se nazývá vektorový znak.
1.9. Definice
Nechť je dán výběrový soubor {s\,..., sn] c E. Hodnoty znaků X, Y,..., Z pro z'-tý objekt označíme Xj = X(ei), y i = Y(sj), ... ,zí = Z(sj), i = l,...,n. Matice
X n y n
Z2 Zn
typu n x p se nazývá datový soubor. Její řádky odpovídají jednotlivým objektům, sloupce znakům.
18
Libovolný sloupec této matice nazýváme jednorozměrným datovým souborem. Jestliže uspořádáme hodnoty některého znaku (např. znaku X) v jednorozměrném datovém souboru vzestupně podle velikosti, dostaneme uspořádaný datový soubor
X(\)
kde jC(i) < X(2) < ••• < x(n). Vektor
kdejC[i] < ••• < X[r] j sou navzájem různé hodnoty znaku X, se nazývá vektor variant. 1.10. Příklad
Pro studenty z výběrového souboru uvedeného v příkladu 1.2 byly zjišťovány hodnoty znaků X - známka z matematiky v prvním zkušebním termínu, Y - známka z angličtiny v prvním zkušebním termínu, Z-pohlaví studenta (0 ... žena, 1... muž). Byl získán datový soubor
2 2 0
1 3 1
4 3 1
1 1 0
1 2 1
4 4 1
3 3 1
3 4 0
1 1 0
1 1 0
4 2 1
4 4 0
2 2 0
4 3 1
2 3 1
4 4 0
1 1 0
4 3 1
4 4 1
1 3 0
Utvořte jednorozměrný neuspořádaný i uspořádaný datový soubor pro známky z matematiky a vektory variant pro známky z matematiky.
1. Základní, výběrový a datový soubor
Řešení:
2 1
1 1
4 1
1 1
1 1
4 1
3 1
3 2
1 2
1 2
4 3
4 3
2 4
4 4
2 4
4 4
1 4
4 4
4 4
1 4.
V závěrečné partii této kapitoly se seznámíme s pojmem jevu a jeho absolutní a relativní četnosti. V následujícím příkladu vypočítáme konkrétní absolutní a relativní četnosti několika jevů.
1.11. Definice
Nechť {s\,..., £„} je výběrový soubor, X,Y,...,Z jsou znaky, B, Bi,..., Bp jsou číselné množiny. Zápis {X e B] znamená jev ,jnak X nabyl hodnoty z množiny 6" a zápis {X e B\ A Y e B2 a ... Z e 6^} znamená jev X nabyl hodnoty
z množiny B\ a současně znak Y nabyl hodnoty z množiny B2 atd. až znak Z nabyl hodnoty z množiny Bp". Symbol N(X e B) značí absolutní četnost jevu {X e B} ve výběrovém souboru, tj. počet těch objektů ve výběrovém souboru, pro něž jc, e B. Symbol p(X e B) znamená relativní četnost jevu {X e B] ve výběrovém souboru, tj.
N(X e B) n
AnalogickyN(X e BXAY e B2A---AZ e Bp)vesp.p(X e BXAY e B2A---AZ e Bp) znamená absolutní resp. relativní četnost jevu {X e Bi A Y e B2 A ■ ■ ■ A Z e Bp] ve výběrovém souboru.
1.12. Příklad
Pro datový soubor z příkladu 1.10 najděte relativní četnost
a) matematických j edničkářů,
b) úspěšných matematiků,
c) oboustranně neúspěšných studentů.
20
Řešení:
ad a) p(X=l) = l = 0,35; ad b) p(X < 3) = ^ = 0,60; ad c) p(X = 4Aľ = 4) = ^ = 0,20.
Shrnutí kapitoly
Předmětem statistického zájmu není jednotlivý objekt, nýbrž soubor objektů, tzv. základní soubor. Zpravidla není možné vyšetřovat všechny objekty, ale jenom určitý počet objektů, které tvoří výběrový soubor. Ty prvky základního souboru, které vykazují určitou společnou vlastnost, tvoří množinu. Statistik zkoumá absolutní a relativní četnost množiny v daném výběrovém souboru. Zajímají-li nás ve výběrovém souboru dvě množiny, můžeme zkoumat výskyty objektů z jedné množiny mezi objekty pocházejícími z druhé množiny. Tím dospíváme k pojmu podmíněné relativní četnosti. Rovněž lze ověřovat četnostní nezávislost těchto dvou množin v daném výběrovém souboru. Četnostní nezávislost vlastně znamená, že informace o původu objektu z jedné množiny nijak nemění šance, s nimiž soudíme na jeho původ z druhé množiny. Každému objektu základního souboru lze pomocí funkce zvané znak přiřadit číslo (nebo i více čísel). Pokud hodnoty znaků pro objekty daného výběrového souboru uspořádáme do matice, dostáváme datový soubor. Libovolný sloupec této matice tvoří jednorozměrný datový soubor, který můžeme uspořádat podle velikosti a vytvořit tak uspořádaný datový soubor nebo z něj získat vektor variant. Jevem rozumíme skutečnost, že znak nabyl hodnoty z nějaké číselné množiny. Můžeme zkoumat absolutní a relativní četnost jevu v daném výběrovém souboru.
Kontrolní otázky a úkoly
1. Uveďte příklad základního souboru z ekonomické praxe.
2. Nechť množiny G\, G2 jsou neslučitelné a nechť dále p{G\) = 0,27, p{G\ U G2) = 0,75. Vypočtěte p(G2).
[p(G2) = p{Gx U G2) - p{Gx) = 0,75 - 0,27 = 0,48]
3. Nechť Gi c G2, p(Gi) = 0,33, p(G2 - Gx) = 0,15. Vypočtěte p(G2).
[p(G2) = p(G2 - Gi) + p{Gi) = 0,15 + 0,33 = 0,48]
4. Nechť/?(Gi - G2) = 0,36, p{Gx n G2) = 0,12. Vypočtěte p{Gi).
[/?(Gi) = p{Gx - G2) + p{Gx n G2) = 0,36 + 0,12 = 0,48]
5. Je dán dvourozměrný datový soubor
"2 1"
2 0
1 0 4 2
4 2
3 2 3 1
5 3 5 2
2 0
1. Základní, výběrový a datový soubor
Znak X znamená počet členů domácnosti a znak Y počet dětí do 15 let v této domácnosti.
a) Utvořte uspořádané datové soubory pro znaky X a Y.
b) Najděte vektory variant znaků X a Y.
c) Vypočtěte relativní četnost tříčlenných domácností.
d) Vypočtěte relativní četnost nejvýše tříčlenných domácností.
e) Vypočtěte relativní četnost bezdětných domácností.
f) Vypočtěte relativní četnost dvoučlenných bezdětných domácností.
g) Vypočtěte podmíněnou relativní četnost dvoučlenných domácností, které jsou bezdětné.
[a) uspořádaný datový soubor pro znak X: (122233445 5)r, uspořádaný datový soubor pro znak Y: (0 0 0 1 1 2 2 2 2 3)T, b) vektor variant pro znak X: (1 2 3 4 5)r, vektor variant pro znak Y: (0 1 2 3)T, c) relativní četnost tříčlenných domácností: 0,2, d) relativní četnost nejvýše tříčlenných domácností: 0,6, e) relativní četnost bezdětných domácností: 0,3, f) relativní četnost dvoučlenných domácností: 0,2, g) podmíněná relativní četnost těch dvoučlenných domácností, které jsou bezdětné: 0,6.]
22
Bodové a intervalové rozložení četností
2. Bodové a intervalové rozložení četností
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■ konstruovat diagramy znázorňující rozložení četností
■ vytvářet tabulky četností
■ sestrojit grafy četnostní funkce, empirické distribuční funkce, hustoty četnosti a empirické intervalové distribuční funkce
Časová zátěž
Pro zvládnutí této kapitoly budete potřebovat 7-8 hodin studia.
Nejprve se seznámíme s bodovým rozložením četností a ukážeme si, jak pomocí různých diagramů graficky znázornit bodové rozložení četností. Pro datový soubor známek z matematiky a angličtiny pak vytvoříme několik typů diagramů.
2.1. Definice
Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X není příliš velký, pak přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností.
2.2. Definice
Existuje několik způsobů, jak graficky znázornit bodové rozložení četností.
Tečkový diagram: na číselné ose vyznačíme jednotlivé varianty znaku X a nad každou variantu nakreslíme tolik teček, jaký je její počet výskytů.
Polygon četnosti: je lomená čára spojující body, jejichž jc-ová souřadnice je varianta znaku X a y-owá souřadnice je počet výskytů této varianty.
Sloupkový diagram: je soustava na sebe nenavazujících obdélníků, kde střed základny je varianta znaku X a výška je počet výskytů této varianty.
Výsečový graf: je kruh rozdělený na výseče, jejichž vnější obvod odpovídá počtu výskytů variant znaku X.
Dvourozměrný tečkový diagram: na vodorovnou osu vyneseme varianty znaku X, na svislou varianty znaku F a do příslušných průsečíků nakreslíme tolik teček, jaký je počet výskytů dané dvojice.
2.3. Příklad
Pro datový soubor z příkladu 1.10 sestrojte
a) jednorozměrné tečkové diagramy pro znak X a znak F,
b) polygony četností pro znak X a znak F,
c) sloupkové diagramy pro znak X a znak F,
d) výsečové diagramy pro znak X a znak F,
e) dvourozměrný tečkový diagram pro vektorový znak (X, F),
24
Řešení:
ad a)
Známka z matematiky
Známka z angličtiny
H-h
H-1-1-h
adb)
Polygon četnosti pro známky z matematiky
ad c)
Sloupkový diagram známek z matematiky 10.-
12 3 4
add)
Výsečový diagram známek z matematiky
Polygon četnosti pro známky z angličtiny
10
Sloupkový diagram známek z angličtiny
Výsečový diagram známek z angličtiny
2. Bodové a intervalové rozložení četností
Ze všech těchto diagramů je vidět odlišný přístup zkoušejících ke studentům. Matematik nešetří jedničkami, ale místo trojky raději rovnou dává čtyřku. Naproti tomu angličtinár považuje trojku za typickou studentskou známku.
ad e)
1 2 3 4 ^
Dvourozměrný tečkový diagram svědčí o nepříliš výrazné tendenci k podobné klasifikaci v obou předmětech. Můžete si zkusit nakreslit dvourozměrné tečkové diagramy zvlášť pro muže a zvlášť pro ženy. Zjistíte, že u žen je tendence k podobným známkám daleko silnější než u mužů.
Bodové rozložení četností lze znázornit nejenom graficky, ale též tabulkou zvanou variační řada, která obsahuje absolutní a relativní četnosti jednotlivých variant znaku v daném výběrovém souboru a též absolutní a relativní kumulativní četnosti. Pomocí relativních četností se zavádí četnostní funkce, pomocí relativních kumulativních četností empirická distribuční funkce (je pro ni typické, že má schodovitý průběh). Tyto pojmy objasníme na příkladu známek z matematiky a uvedeme rovněž vlastnosti obou výše zmíněných funkcí.
2.4. Definice
Nechť je dán jednorozměrný datový soubor, v němž znak X nabývá r variant. Pro j = 1,..., r definujeme:
absolutní četnost varianty X[j] ve výběrovém souboru
n j = N (X = x[n)
relativní četnost varianty x^ ve výběrovém souboru
nJ
P i = — n
absolutní kumulativní četnost prvních j variant ve výběrovém souboru
Nj = N(X < xvn) = «! + •••+«,-
relativní kumulativní četnost prvních j variant ve výběrovém souboru
Fj = — = Pl + ---+Pj n
26
Tabulka typu
x[j] nJ Pj Fj
nx Pi Ni
x[r] nr Pr Nr Fr
se nazývá variační řada. Funkce
p(x) =
se nazývá četnostnífunkce. Funkce
F{x) =
O
1
p j pro x = x[n, j= 1, 0 jinak
pro x < x[\]
pro x[n x[r]
r-l
se nazývá empirická distribuční funkce. 2.5. Příklad
Pro datový soubor z příkladu 1.10 sestavte variační řadu pro znak X. Nakreslete grafy četnostní funkce a empirické distribuční funkce.
Řešení:
XU1 Pj Nj Fj
1 7 0,35 7 0,35
2 3 0,15 10 0,50
3 2 0,10 12 0,60
4 8 0,40 20 1,00
- 20 1,00 - -
Viz obrázek na následující straně. 2.6. Věta
Četnostní funkce je nezáporná (Vjc e R : p(x) > 0) a normovaná, tj.
2 = L
Empirická distribuční funkce je neklesající, tzn.
Vjci,jc2 e R, jci < x2 : F(jci) < F(jc2),
zprava spojitá (Vjco e R libovolné, ale pevně dané: lim F(x) = F(xq)) a normovaná (lim F(x) = 0, lim F(x) = 1).
2. Bodové a intervalové rozložení četností
Nyní se budeme zabývat dvourozměrným datovým souborem. Zavedeme simultánní absolutní a relativní četnosti pro dvojice variant znaků X a Y a ukážeme souvislost mezi simultánními a marginálními četnostmi. Budeme definovat podmíněné relativní četnosti. Vysvětlíme si, jak se uvedené četnosti zapisují do kontingenčních tabulek. Pomocí simultánních relativních četností zavedeme simultánní četnostní funkci, seznámíme se s jejími vlastnostmi a ukážeme vztah mezi simultánní četnostní funkcí a marginálními četnostními funkcemi. Zavedeme pojem četnostní nezávislosti znaků v daném výběrovém souboru. Se všemi uvedenými pojmy se naučíme pracovat v příkladu se známkami z matematiky a angličtiny.
2.7. Definice
Nechť je dán dvourozměrný datový soubor
kde znak X má r variant a znak Y má s variant. Pak definujeme: simultánní absolutní četnost dvojice (.%], )>[&]) ve výběrovém souboru
njk = N(X = x[n a Y = ym),
simultánní relativní četnost dvojice (.%], )>[&]) ve výběrovém souboru
nJk
Pjk = —, n
28
marginální absolutní četnost varianty X[j]
rij. = N(X = xU]) = «_,•! + ••• + njs, marginální relativní četnost varianty X[j]
Pj. = — =Pji + ---+pjs, n
marginální absolutní četnost varianty y^]
n.k = N(Y = ym) = % + ■•■ + nrk, marginální relativní četnost varianty y^
P.k = - = Plk + ■ ■ ■ + Prk,
n
sloupcově podmíněná relativní četnost varianty x^ za předpokladu y^]
P m -
řádkově podmíněná relativní četnost varianty y^] za předpokladu x^
Kteroukoliv ze simultánních četností či podmíněných relativních četností zapisujeme do kontingenční tabulky. Kontingenční tabulka simultánních absolutních četností má tvar:
y
X
X[l] nn nls n\.
X[r] nr\ nrs nr.
n.k n.\ n.s n
Funkce
p^y) = í Pik Pro x = y = y^ í = h ■ ■ ■,r, k = 1,..., s \ 0 jinak
se nazývá simultánní četnostní funkce. Četnostní funkce pro znaky X a Y (tzv. marginání četnostní funkce) odlišíme indexem takto:
n(^_ÍPj- prox = xU], j=l,...,r PÁX) ~ \ 0 jinak
Piiy)
p.k proy = ym, k=l,...,s 0 jinak
2. Bodové a intervalové rozložení četností
Funkce pi\2 (x\y) zavedená vztahem Vjc e R:
Pm (x\y) =
pro p2 (y) > 0 jinak
se nazývá sloupcově podmíněná četnostní funkce. Funkce p2\i (y\x) zavedená vztahem Vy e R:
Pm (y\x) =
pro /?! (x) > 0 jinak
se nazývá řádkově podmíněná četnostní funkce.
Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé, právě když pro všechna j = 1,..., r a všechna k = 1,..., s platí multiplikativní vztah: p^ = p j ■ p ^ neboli
V(ij)eť: p(x,y) = Pl(x) ■ p2(y).
Definici četnostní nezávislosti lze vyslovit i takto: znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé, jestliže platí: Vy e R,p2(y) > 0: p\\2 (x \y) = Pi (x) resp. Vjc e R, /?i (jc) > 0: p2\\ (y \x) = p2 (y). (Znamená to, že podmíněná četnostní funkce znaku X za podmínky Y = y je rovna marginální četnostní funkci znaku X resp. podmíněná četnostní funkce znaku Y za podmínky X = x je rovna marginální četnostní funkci znaku Y).
2.8. Věta
Mezi simultánní četnostní funkcí a marginálními četnostními funkcemi platí vztahy:
co co
Pi(x) = ^ p(x,y), p2(y) = ^ p(x,y).
2.9. Příklad
Pro datový soubor z příkladu 1.10
a) sestavte kontingenční tabulky simultánních absolutních a relativních četností,
b) nakreslete graf simultánní četnostní funkce p(x, y),
c) sestavte kontingenční tabulky sloupcově a řádkově podmíněných relativních četností,
d) kolik procent těch studentů, kteří měli jedničku z angličtiny, mělo dvojku z matematiky,
e) kolik procent těch studentů, kteří měli jedničku z matematiky, mělo dvojku z angličtiny,
f) zjistěte, zda znaky X, F jsou v daném výběrovém souboru četnostně nezávislé.
30
Řešení:
ad a)
y i 2 3 4 nj
X
1 4 1 2 0 7
2 0 2 1 0 3
3 0 0 1 1 2
4 0 1 3 4 8
n.k 4 4 7 5 n = 20
1 2 3 4 Pj.
Pjk
1 0,20 0,05 0,10 0,00 0,35
2 0,00 0,10 0,05 0,00 0,15
3 0,00 0,00 0,05 0,05 0,10
4 0,00 0,05 0,15 0,20 0,40
0,20 0,20 0,35 0,25 1,00
adb)
o
0,20n
1
2. Bodové a intervalové rozložení četností
ad c)
l 2 3 4
x Pm
1 1,00 0,25 0,29 0,00
2 0,00 0,50 0,14 0,00
3 0,00 0,00 0,14 0,20
4 0,00 0,25 0,43 0,80
Z 1,00 1,00 1,00 1,00
y 1 2 3 4 Z
x P(j)k
1 0,57 0,14 0,29 0,00 1,00
2 0,00 0,67 0,33 0,00 1,00
3 0,00 0,00 0,50 0,50 1,00
4 0,00 0,12 0,38 0,50 1,00
ad d) Tento údaj najdeme ve druhém řádku prvního sloupce tabulky sloupcově podmíněných relativních četností: 0 %.
ad e) Tento údaj najdeme v prvním řádku druhého sloupce tabulky řádkově podmíněných relativních četností: 14%.
ad f) Kdyby v daném výběrovém souboru byly oba znaky četnostně nezávislé, platil by pro všechna j = 1,2,3,4 a všechna k = 1,2,3,4 multiplikativní vztah: pjk = p j ■ p k, což splněno není. Tedy známky z matematiky a angličtiny nejsou četnostně nezávislé.
V některých datových souborech je počet variant znaku příliš veliký a použití bodového rozložení četností by vedlo k nepřehledným a roztříštěným výsledkům.
V takových situacích používáme intervalové rozložení četností. Definujeme třídicí interval a jeho absolutní a relativní četnost, absolutní a relativní kumulativní četnost. Nově zavádíme četnostní hustotu třídicího intervalu. Uvedené četnosti zapisujeme do tabulky rozložení četností. Počet třídicích intervalů stanovujeme např. podle Sturgesova pravidla. Intervalové rozložení četností požijeme v příkladu s datovým souborem obsahujícím údaje o mezích plasticity a pevnosti 60 vzorků oceli.
2.10. Definice
Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X je blízký rozsahu souboru, pak přiřazujeme četnosti nikoliv jednotlivým variantám, ale celým intervalům hodnot. Hovoříme pak o intervalovém rozložení četností.
2.11. Definice
Číselnou osu rozložíme na intervaly typu (-00, m), («1, u2), ■ ■ ■, (ur, ur+\), (ur+\, 00) tak, aby okrajové intervaly neobsahovaly žádnou pozorovanou hodnotu znaku X.
32
Užíváme označení:
j-tý třídicí interval znaku X, j = 1,..., r.
(Uj,Uj+i),
délka j-tého třídicího intervalu znaku X:
d j = Uj+\ — u j,
střed j-tého třídicího intervalu znaku X:
_ 1
Třídicí intervaly volíme nejčastěji stejně dlouhé. Jejich počet určíme např. pomocí Sturgesova pravidla: r « 1 + 3,3 • log n, kde n je rozsah datového souboru.
2.12. Definice
Nechťje dán jednorozměrný datový soubor rozsahu n. Hodnoty znaku X roztřídíme do r třídicích intervalů. Pro j = 1,..., r definujeme:
absolutní četnost j-tého třídicího intervalu ve výběrovém souboru
n j = N (u j < X < Uj+i),
relativní četnost j-tého třídicího intervalu ve výběrovém souboru
nJ
Pj = —» n
četnostní hustota j-tého třídicího intervalu ve výběrovém souboru
f. = El
absolutní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru
Nj = N(X < uj+i) = «! + ••• + «_,-,
relativní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru
NJ
F j = — =/?! + .•• + p j.
2. Bodové a intervalové rozložení četností
Tabulka typu
(Uj,Uj+i) dj XU] Pi fj
(«1,«2> di *[i] «1 Pi fl Ni Fl
(ur,ur+i) dr X[r] nr Pr fr Fr
z n 1
se nazývá tabulka rozložení četností. 2.13. Příklad
Z fiktivního základního souboru všech vzorků oceli odpovídajících „všem myslitelným tavbám" bylo do laboratoře dodáno 60 vzorků a zjištěny hodnoty znaku X -mez plasticity a Y - mez pevnosti (v kpcirr2). Datový soubor má tvar:
154
133
58
145
94
113
86
121
119
112
85
41
96
45
99
178
164
75
161
107
141
97
127
138
125
97
72
113
89
109
51
101
160
87
88 83
106 92 85 112
98
103
99
104
107
95
114
169
101 139 98 111 104 103
118
102 108
119 128 118
98 97
33 78
73 77 47 68
140 115
105 101
71 93
39 69
122 147
52 117
147 137 125 149
76 85 61 85
137 142
44 92
66 42
68 116
141 157
155 189
136 155
82 81
136 163
72 79
81 61
113 123
42 85
123 147
153 179
85 91
a) Pro znak X stanovte optimální počet třídicích intervalů dle Sturgesova pravidla.
b) Sestavte tabulku rozložení četností. Řešení:
ad a) Rozsah datového souboru je 60, tedy podle Sturgesova pravidla je optimální počet třídicích intervalů r = 7. Budeme tedy volit 7 intervalů stejné délky tak, aby v nich byly obsaženy všechny pozorované hodnoty znaku X, z nichž nejmenší je 33, největší 160; volba u\ = 30, ..., «8 = 170 splňuje požadavky.
34
ad b)
(Uj,Uj+l) dj XU1 ni Pj Nj Fj fj
(30,50> 20 40 8 0,1333 8 0,1333 0,0066
(50,70) 20 60 4 0,0667 12 0,2000 0,0033
(70,90> 20 80 13 0,2166 25 0,4167 0,0108
(90,110) 20 100 15 0,2500 40 0,6667 0,0125
(110,130) 20 120 9 0,1500 49 0,8167 0,0075
(130,150) 20 140 7 0,1167 56 0,9333 0,0058
(150,170) 20 160 4 0,0667 60 1,0000 0,0033
Součet 60 1,0000
Ke grafickému znázornění intervalového rozložení četností slouží histogram. S jeho pomocí lze dobře vysvětlit, co znamená hustota četnosti, což je funkce zavedená pomocí četnostních hustot jednotlivých třídicích intervalů. S hustotou četnosti úzce souvisí intervalová empirická distribuční funkce (je všude spojitá, protože je funkcí horní meze integrálu z hustoty četnosti). Pro údaje o mezi platicity oceli vytvoříme histogram a graf intervalové empirické distribuční funkce. Seznámíme se rovněž s vlastnostmi obou výše zmíněných funkcí.
2.14. Definice
Intervalové rozložení četností znázorňujeme pomocí histogramu. Je to graf skládající se z r obdélníků, sestrojených nad třídicími intervaly, přičemž obsah j-tého obdélníku je roven relativní četnosti pj j-tého třídicího intervalu, j = 1,..., r. Histogram je shora omezen schodovitou čarou, která je grafem funkce zvané hustota četnosti:
y(jc) = ( fí Pr° Uj 0) a normovaná (J f (x) dx =
—oo
1). Intervalová empirická distribuční funkce je neklesající, spojitá a normovaná (lim F (x) = 0, lim F (x) = 1).
x—>-oo x—>oo
V následujícím tématu se budeme věnovat dvourozměrnému intervalovému rozložení četnosti, tj. budeme pracovat s dvourozměrným datovým souborem. Zavedeme podobné pojmy jako u dvourozměrného bodového rozložení četnosti a jejich pochopení si ověříme na příkladě s datovým souborem obsahujícím údaje o mezi plasticity a mezi pevnosti oceli.
2.17. Definice
Nechť je dán dvourozměrný datový soubor
36
kde hodnoty znaku X roztřídíme do r třídicích intervalů («,-, «,•+!>, j = l,...,r s délkami d\,..., dr a hodnoty znaku Y roztřídíme do s třídicích intervalů (v*, v^+i), k = 1,..., s s délkami hi,...,hs. Pak definujeme:
simultánní absolutní četnost (j,k)-tého třídicího intervalu:
njk = N(Uj < X < Uj+i a vk < Y < vk+i),
simultánní relativní četnost (j,k)-tého třídicího intervalu:
njk
Pjk = —, n
marginální absolutní četnost j-tého třídicího intervalu pro znakX:
tij. =«,-! + ••• + njs,
marginální relativní četnost j-tého třídicího intervalu pro znakX:
nJ-
P i- = —' n
marginální absolutní četnost k-tého třídicího intervalu pro znak Y:
n k = nu + ■ ■ ■ + nrk,
marginální relativní četnost k-tého třídicího intervalu pro znak Y:
n.k
P.k = —, n
simultánní četnostní hustota v (j,k)-tém třídicím intervalu:
Pjk
jk
djhk
marginální četnostní hustota v j-tém třídicím intervalu pro znak X:
f.=PJ-
marginální četnostní hustota v k-tém třídicím intervalu pro znak Y:
, P.k
jjc - ~r-
Kteroukoliv ze simultánních četností zapisujeme do kontingenční tabulky. Uveďme kontingenční tabulku simultánních absolutních četností:
(vk,vk+i) (Vl,V2> (vs,vs+i)
(Uj,Uj+i) njk
(«1,«2> «11 nu ni.
(ur, Ur+i) nrX ■ ■ nrs nr
n.k n.i n s n
2. Bodové a intervalové rozložení četností
Funkce
ý(x y) = { hk pro uivk 0 0 jinak
se nazývá sloupcově podmíněná hustota četnosti. Funkce /2|i (y\x) zavedená vztahem Vy e R:
, , , , / Pro/1W>0
/211 (yW= X ■• 1
^ 0 jinak se nazývá řádkově podmíněná hustota četnosti.
Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé při intervalovém rozložení četností, jestliže pro všechna j = 1,... ,r a všechna k = 1,..., s platí multiplikativní vztah: = fj. ■ f k neboli pro
V(x,y)eR2:f(x,y) = Mx)f2(y).
Definici četnostní nezávislosti lze vyslovit i takto: znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé při intervalovém rozložení četností, jestliže platí: Vy e R, f2 (y) > 0: fm (x \y) = f, (x) resp. V* e R, /i (x) > 0: (y \x) = f2 (y). (Znamená to, že podmíněná hustota četnosti znaku X za podmínky Y = y je rovna marginální hustotě četnosti znaku X resp. podmíněná hustota četnosti znaku Y za podmínky X = x je rovna marginální hustotě četnosti znaku Y).
2.18. Věta
Mezi simultánní hustotou četnosti a marginálními hustotami četnosti platí vztahy:
co
y)dy, /2OO = f(x,y)dx.
co
2.19. Příklad
Pro datový soubor z příkladu 2.13
a) stanovte dle Sturgesova pravidla optimální počet třídicích intervalů pro znak Y
b) sestavte kontingenční tabulku simultánních absolutních četností.
38
Řešení:
ad a) Rozsah datového souboru je 60. Podle Sturgesova pravidla je tedy optimální počet třídicích intervalů s = 7. Nejmenší hodnota je 52 a největší 189. Volíme Vl = 50, v2 = 70,..., v8 = 190.
8" ď o" cr
-\£
{Uj,Uj+i)
(30,50> 5 3 0 0 0 0 0 8
(50,70) 0 3 1 0 0 0 0 4
(70,90) 0 4 7 1 1 0 0 13
(90,110) 0 0 6 8 1 0 0 15
(110,130) 0 0 0 4 5 0 0 9
(130,150) 0 0 0 0 2 5 0 7
(150,170) 0 0 0 0 0 1 3 4
n.k 5 10 14 13 9 6 3 60
Shrnutí kapitoly
Není-li v jednorozměrném souboru počet variant znaku příliš velký, pak přiřazujeme četnosti jednotlivým variantám znaku a hovoříme o serisebodovém rozložení četnosti. To lze znázornit graficky pomocí různých diagramů (např. tečkový diagram, sloupkový diagram atd.). Pokud zapíšeme četnosti do tabulky, dostaneme variační řadu. Pomocí relativních četností zavedeme četnostní funkci, pomocí kumulativních relativních četností empirickou distribuční funkci, která má schodovitý průběh.
Pracujeme-li s dvourozměrným datovým souborem, zavádíme simultánní četnosti a zapisujeme je do kontingenční tabulky. Na okrajích kontingenční tabulky jsou uvedeny marginální četnosti, které se vztahují jen k jednomu znaku. Pomocí simultánních kumulativních relativních četností zavádíme simultánní četnostní funkci. Simultánní a marginální četnosti či četnostní funkce nám snadno umožní ověřit četnostní nezávislost dvou znaků v daném výběrovém souboru.
Je-li počet variant znaku srovnatelný s rozsahem souboru, použijeme raději intervalové rozložení četnosti, při němž přiřazujeme četnosti nikoli jednotlivým variantám, ale třídicím intervalům. Jejich počet určíme např. pomocí Sturgesova pravidla. Četnosti třídicích intervalů zapisujeme do tabulky rozložení četností. Relativní četnosti třídicích intervalů znázorňujeme pomocí histogramu. Schodovitá čára shora omezující histogram je grafem hustoty četnosti. Spojitým protějškem schodovité empirické distribuční funkce je intervalová empirická distribuční funkce zavedená jako funkce horní meze integrálu z hustoty četnosti.
Při dvourozměrném intervalovém rozložení četností pracujeme s podobnými pojmy jako u dvourozměrného bodového rozložení četnosti. Místo simultánní a marginální četnostní funkce samozřejmě máme simultánní či marginální hustotu četnosti.
2. Bodové a intervalové rozložení četností
Kontrolní otázky a úkoly
1. Jaké grafy znázorňující rozložení četností znáte? Popište způsob jejich konstrukce.
2. Jak vzniká variační řada?
3. Jaké četnosti zapisujeme do kontingenční tabulky?
4. Kdy jsou v daném výběrovém souboru znaky četnostně nezávislé?
5. K čemu slouží Sturgesovo pravidlo?
6. Vyjmenujte funkcionální charakteristiky skalárního znaku a dvourozměrného vektorového znaku při bodovém a intervalovém rozložení četností.
7. (S) V rámci marketingového průzkumu trhu bylo dotázáno 25 náhodně vybraných zákazníků jisté pojišťovny a byl zjišťován jejich zájem o nový druh pojištění (znak X) a současně jejich rodinný stav (znak Y). Získané odpovědi byly zakódovány pro znak X takto: jednoznačný nezájem = 1, podprůměrný zájem = 2, průměrný zájem = 3, nadprůměrný zájem = 4, jednoznačný zájem = 5 a pro znak Y takto: svobodný = 1, rozvedený nebo ovdovělý = 2, ženatý = 3.
5 1
3 2
4 2
4 1
5 2
4 3
3 3 1 1
4 3 3 3
5 2
3 2
4 1
5 1 1 3
4 2
5 3
4 3
5 3 3 1
4 1
4 3
4 3
2 3
2 2
a) Pro znak X sestrojte jednorozměrný tečkový diagram, sestavte variační řadu, sestrojte graf četnostní funkce a empirické distribuční funkce.
b) Pro vektorový znak (X, Y) sestavte kontingenční tabulku absolutních četností, absolutních kumulativních četností, dále kontingenční tabulky sloupcově a řádkově podmíněných četností a graf simultánní četnostní funkce.
c) Jsou znaky X, Y v daném výběrovém souboru četnostně nezávislé?
40
[a) Jednorozměrný tečkový diagram
Variační řada
XU1 ni Pi Nj Fj
• • • • • • « 1 2 0,08 2 0,08
2 2 0,08 4 0,16
3 5 0,20 9 0,36
4 10 0,40 19 0,79
-1-1-1-1-1-=*-1 2 3 4 5 5 6 0,24 25 1,00
Graf empirické distribuční funkce
F(j)
I-*•
Graf četnostní funkce
1,0 + 0,8 0,6 0,4-0,2-0,0
pU)
0,4 + 0,3 0,2 0,1 + 0,0
b) Kontingenční tabulka absolutních četností
y i 2 3 H
X
1 i 0 1 2
2 0 1 1 2
3 i 2 2 5
4 3 2 5 10
5 2 2 2 6
n.k 7 7 11 25
Kontingenční tabulka sloupcově podmíněných relativních četností
y 1 2 3
X
1 1/7 0 1/11
2 0 1/7 1/11
3 1/7 2/7 2/11
4 3/7 2/7 5/11
5 2/7 2/7 2/11
Z 1 1 1
Kontingenční tabulka absolutních Kontingenční tabulka řádkově
kumulativních četností
y 1 2 3 Nj.
X
1 1 1 2 2
2 1 2 4 4
3 2 5 9 9
4 5 10 19 19
5 7 14 25 25
Nk 7 14 25
podmíněných relativních četností
y i 2 3 Z
X
1 1/2 0 1/2 1
2 0 1/2 1/2 1
3 1/5 2/5 2/5 1
4 3/10 2/10 5/10 1
5 2/6 2/6 2/6 1
2. Bodové a intervalové rozložení četností
Graf simultánní četnostní funkce
c) Znaky nejsou četnostně nezávislé, protože již pro j = 1, k = 1 neplatí multiplikativní vztah pn = px ■ p,\.W našem případě totiž 25 ^ 2% ' 25 •]
8. (S) U 50 náhodně vybraných posluchačů a posluchaček VŠE v Praze byla zjišťována jejich hmotnost v kg (znak X) a jejich výška v cm (znak Y).
58 178
68 173
56 170
60 170
61 173
71 181 85 184 80 170 52 172
72 182
65 170
57 169
65 169
60 170
54 162
52 169
83 182
60 168
68 173
63 171
72 177 90 192 57 176 51 168 81 190
73 177 75 179 71 180
66 178
67 182
72 191
57 174
57 160
56 170
56 172
52 165
72 185
75 170
52 163
63 184
63 172 58 163
64 174 52 168 55 164 67 173 60 170 55 160 62 172 70 171
a) Pro znak X stanovte optimální počet třídicích intervalů podle Stur-gesova pravidla, sestavte tabulku rozložení četnosti, nakreslete histogram a graf intervalové empirické distribuční funkce.
b) Pro znak Y rovněž stanovte optimální počet třídicích intervalů podle Sturgesova pravidla. Pro vektorový znak (X, Y) sestavte kontingen-ční tabulku absolutních četností a nakreslete dvourozměrný tečkový diagram.
c) Jsou znaky X, Y v daném výběrovém souboru četnostně nezávislé?
42
[a) Optimální počet třídicích intervalů je 7. Tabulka rozložení četností:
(Uj,Uj+l) dj ni Pi Nj fj
(50,56> 6 53 12 0,24000 12 0,24000 0,04000
(56,62> 6 59 12 0,24000 26 0,48000 0,04000
(62,68> 6 65 11 0,22000 35 0,70000 0,03667
(68,74) 6 71 8 0,16000 43 0,86000 0,02666
(74,80> 6 77 3 0,06000 46 0,92000 0,01000
(80,86> 6 83 3 0,06000 49 0,98000 0,01000
(86,92> 6 89 1 0,02000 50 1,00000 0,00333
Histogram
0,04-
0,03 -
0,02-0,01 -
0,00-1-1-1-1-1-1-1-1-1-
50 56 62 68 74 80 86 92
Graf intervalové empirické distribuční funkce
1,00 0,75-0,50-0,25-0,0-
50 56 62 68 74 80 86 92
2. Bodové a intervalové rozložení četností
b) Pro znak Y je optimální počet třídicích intervalů 7. Kontingenční tabulka absolutních četností:
to °0 "-v <5f "-v
to cr cr er °0 er of H
(Uj,Uj+i)
(50,56> 4 4 4 0 0 0 0 12
(56,62> 2 2 6 2 0 0 0 12
(62,68> 0 1 7 1 2 0 0 11
(68,74) 0 0 1 2 3 1 1 8
(74,80> 0 0 2 1 0 0 0 3
(80,86> 0 0 0 0 2 0 1 3
(86,92> 0 0 0 0 0 0 1 1
6 7 20 6 7 1 3 50
Dvourozměrný tečkový diagram
190 —
180 —
170 —
160 —
50 60 70 80
c) Znaky X a Y nejsou četnostně nezávislé, protože již pro j = 1, k = 1 není splněn multiplikativní vztah fu = /i. • /i. V našem případě totiž ^
12 6 i 50-6 ' 50-5-j
44
Číselné charakteristiky znaků
3. Číselné charakteristiky znaků
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■ rozlišovat různé typy znaků
■ vypočítat různé charakteristiky polohy a variability skalárního znaku
■ vypočítat charakteristiky těsnosti lineární závislosti dvou znaků
■ využít vlastností číselných charakteristik ke zjednodušení výpočtů
■ vypočítat vážené číselné charakteristiky znaků.
Časová zátěž
Pro zvládnutí této kapitoly budete potřebovat 5-6 hodin studia.
Nejprve se naučíme rozlišovat různé typy znaků podle toho, jaký je jejich stupeň kvantifikace. Pro jednotlivé typy znaků pak zavedeme číselné charakteristiky popisující polohu hodnot znaku na číselné ose a jejich proměnlivost. Seznámíme se rovněž s důležitými vlastnostmi číselných charakteristik a naučíme seje počítat pro konkrétní datové soubory.
3.1. Motivace
Ve druhé kapitole jsme se seznámili s funkcionálními charakteristikami znaků, jako jsou p(x,y), p\(x), P2Íy), F(x), f(x,y), f\(x), f2Íy), které nesou úplnou informaci o rozložení četností. V této kapitole zavedeme číselné charakteristiky, které nás informují o některých rysech tohoto rozložení četností: o poloze (úrovni) hodnot znaku, o jejich variabilitě (rozptýlení), o těsnosti závislosti dvou znaků a pod. Pro různé typy znaků se používají různé číselné charakteristiky, proto se nejdřív seznámíme s jednotlivými typy znaků.
3.2. Definice
Podle stupně kvantifikace znaky třídíme takto:
(n) Nominální znaky připouštějí obsahovou interpretaci jedině relace rovnosti x\ = X2 (popřípadě x\ ž X2), tj. hodnoty znaku představují jen číselné kódy kvalitativních pojmenování. Např. městské tramvaje jsou očíslovány, ale např. č. 4 a 12 říkají jen to, že jde o různé tratě: nic jiného se z nich o vztahu obou tratí nedá vyčíst.
(0) Ordinální znaky připouštějí obsahovou interpretaci kromě relace rovnosti i v případě relace uspořádání x\ < x2 (popřípadě x\ > x2), tj. jejich uspořádání vyjadřuje větší nebo menší intenzitu zkoumané vlastnosti. Např. školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených (jedničkář je lepší než dvojkař), ale intervaly mezi známkami nemají obsahové interpretace (netvrdíme, že rozdíl ve znalostech mezi jedničkářem a dvojkařem je stejný jako mezi trojkařem a čtyřkařem. Podobný charakter mají různá bodování ve sportovních, uměleckých a jiných soutěžích.
(1) Intervalové znaky připouštějí obsahovou interpretaci kromě relace rovnosti a uspořádání též u operace rozdílu x\ - x2 (popřípadě součtu x\ + x2), tj. stejný interval mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje i stejný rozdíl v extenzitě zkoumané vlastnosti. Např. teplota měřená ve
46
stupních Celsia představuje intervalový znak. Naměříme-li ve čtyřech dnech polední teploty 0, 2, 4, 6, znamená to, že každým dnem stoupla teplota o 2 stupně Celsia. Bylo by však chybou interpretovat tyto údaje tvrzením, že ze druhého na třetí den vzrostla teplota dvakrát, kdežto ze třetího na čtvrtý pouze jedenapůlkrát.
(p) Poměrové znaky umožňují obsahovou interpretaci kromě relace rovnosti a uspořádání a operace rozdílu ještě u operace podílu x\ /x2 (popřípadě součinu X\ ■ x2), tj. stejný poměr mezi jednou dvojicí hodnot a druhou dvojicí hodnot znamená i stejný podíl v extenzitě zkoumané vlastnosti. Např. má-li jedna osoba hmotnost 150 kg a druhá 75 kg, má smysl prohlásit, že první je dvakrát hmotnější než druhá.
Zvláštní postavení mají:
(a) Alternativní znaky, které nabývají jen dvou hodnot, např. 0,1, což znamená absenci a prezenci nějakého jevu. Například 0 bude znamenat neúspěch, 1 úspěch při řešení určité úlohy. Alternativní znaky mohou být ztotožněny s kterýmkoliv z předcházejících typů.
3.3. Definice
Pro nominální znaky používáme jako charakteristiku polohy modus. U bodového rozložení četností je to nejčetnější varianta znaku, u intervalového střed nejčetněj šího třídicího intervalu.
3.4. Definice
Pro ordinální znaky používáme jako charakteristiku polohy a-kvantil. Je-li a e (0,1), pak of-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 - a všech dat. Pro výpočet a-kvantilu slouží algoritmus:
celé číslo c
na
Xry —
x(c) + x(c+1)
necelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c
^ Xa — X(c)
Pro speciálně zvolená a užíváme názvů: xq^q - medián, jco,25 - dolní kvartil, xqjs -horníkvartil, xo,i,..., *o,9 - decily, xq$\, ..., xq^ -percentily. Jako charakteristika variability slouží kvartilová odchylka:
1 = -^0,75 _ -^0,25-
3.5. Příklad
Pro datový soubor známek z matematiky (viz příklad 1.10) vypočtěte medián, oba kvartily a kvartilovou odchylku.
3. Číselné charakteristiky znaků
Řešení:
a n ■ a c
0,25 20-0,25 5 (í+i) 2 1
0,50 20-0,5 10 (2+3) 2 2,5
0,75 20-0,75 15 (4+4) 2 4
4=4-1=3
3.6. Definice
Pro intervalové a poměrové znaky slouží jako charakteristika polohy aritmetický průměr
m
(lze ho interpretovat jako těžiště jednorozměrného tečkového digramu). Charakteristikou variability je rozptyl
1 "
■mf
či směrodatná odchylka s = Vš2". Pomocí průměru zavedeme centrovanou hodnotu
Xi - m (podle znaménka poznáme, zda z-tá hodnota je podprůměrná či nadprůměrná
j^. — m
a pomocí směrodatné odchylky zavedeme standardizovanou hodnotu —- (vy-
s
jadřuje, o kolik směrodatných odchylek se z-tá hodnota odchýlila od průměru).
3.7. Věta
Rozptyl je nulový, právě když x\ = x2 = ■ ■ ■ = xn.
3.8. Příklad
Vypočtěte průměr a rozptyl
a) centrovaných hodnot,
b) standardizovaných hodnot.
Řešení:
ad a) Průměr centrovaných hodnot:
1 "
i=i
■ m) = m--■ n ■ m = 0.
n
Rozptyl centrovaných hodnot:
1 "
-V((^-m)-0)2 = 52.
n -f-*
i=i
48
ad b) Průměr standardizovaných hodnot:
1 "
-Y
n 4-i
(x; - m) 1 n 1-í-- = --0 = 0.
s s
Rozptyl standardizovaných hodnot:
1 "
-Y
. , . s 1 sl
3.9. Poznámka
V předešlém příkladě jsme vypočítali, že průměr centrovaných hodnot je 0. Této skutečnosti lze využít k vysvětlení rozptylu: chceme získat číslo, které by charakterizovalo variabilitu jednotlivých hodnot kolem průměru. Průměr centrovaných hodnot nelze použít (vyjde 0), proto místo centrovaných hodnot vezmeme jejich kvadráty. Tím dospějeme ke vzorci pro rozptyl:
1 "
s2 = - )(Xi - mf.
i=i
Rozptyl však vychází v kvadrátech jednotek, v nichž byl měřen znak X, proto raději používáme směrodatnou odchylku s. Definiční tvar vzorce pro rozptyl není příliš vhodný pro výpočty, v praxi se používá výpočetní tvar vzorce pro rozptyl:
s2 = - Yj(xí -m)2 = - ^(x2 - 2mxi + m2) = - ^ xf -
i= 1 i= 1 i= 1
n n \ H 1
--• 2m • > Xi-\— / m2 = - > x2 — 2m2 H— • n - m2 =
n -fr' n -fr' n n
i=l i=l i=l
1 "
i=l
m2.
3.10. Definice
Pro poměrové znaky používáme jako charakteristiku variability koeficient variace
— . Je to bezrozměrné číslo, které se často vyjadřuje v procentech. Umožňuje m
porovnat variabilitu několika znaků. Jsou-li všechny hodnoty poměrového znaku kladné, pak jako charakteristiku polohy lze užít geometrický průměr i]x\ ■... ■ xn.
3.11. Příklad
Vypočtěte koeficient variace meze plasticity a meze pevnosti oceli pro datový soubor z příkladu 2.13.
Řešení:
Si 32,8577 nn„n s2 32,5147 nnnin
— = —-= 0,3413, — = —--= 0,2842.
mi 96,2667 m2 114,4000
3. Číselné charakteristiky znaků
Zjistili jsme, že koeficient variace meze plasticity je 34,13 %, zatímco meze pevnosti jen 28,42%. (Aritmetické průměry m\, m2 a směrodatné odchylky s\, s2 jsou vypočítány v příkladu 3.17.)
Nyní se budeme zabývat číselnými charakteristikami dvourozměrného datového souboru se znaky intervalového či poměrového typu. Společnou variabilitu těchto dvou znaků kolem jejich průměru měříme pomocí kovariance. Jako míra těsnosti lineární závislosti dvou znaků slouží koeficient korelace. Je velmi důležité porozumět vlastnostem koeficientu korelace, proto si pozorně prohlédněte obrázky ilustrující jeho význam. Pro praktické procvičení nám poslouží příklad na číselné charakteristiky mezí plasticity a pevnosti.
3.12. Definice
Pro dvourozměrný datový soubor
Xn yn_
kde znaky X, Y jsou intervalového či poměrového typu, používáme jako charakteristiku společné variability znaků X, Y kolem jejich průměrů kovarianci
1 "
s n = ~ / .(M ~ mi)(yi ~ m2). i=i
3.13. Poznámka
Kovariance je průměrem součinů centrovaných hodnot. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s nadprůměrnými (podprůměrnými) hodnotami znaku F, budou součiny centrovaných hodnot Xj - ni\ a y, - m2 vesměs kladné a jejich průměr (tj. kovariance) rovněž. Znamená to, že mezi znaky X, Y existuje určitý stupeň přímé lineární závislosti. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s podprůměrnými (nadprůměrnými) hodnotami znaku F, budou součiny centrovaných hodnot vesměs záporné a jejich průměr rovněž. Znamená to, že mezi znaky X a F existuje určitý stupeň nepřímé lineární závislosti. Je-li kovariance nulová, pak řekneme, že znaky X, F jsou nekorelované a znamená to, že mezi nimi neexistuje žádná lineární závislost.
Pro výpočet kovariance používáme vzorec:
S12
1 "
- y xtfi -
n í
i=i
ni\m2.
3.14. Definice
Jsou-li směrodatné odchylky s\, s2 nenulové, pak definujeme koeficient korelace znaků X, Y vzorcem
Xi - mi yt - m2
T\2
-T
i=i
Sl
s2
50
3.15. Věta
Pro koeficient korelace platí -1 < ru < 1 a rovnosti je dosaženo právě když mezi hodnotami x\,... ,xn a yi,... ,yn existuje úplná lineární závislost, tj. existují konstanty a, b tak, že yt = a + bxu i = 1,...,«, přičemž znaménko + platí pro b > 0, znaménko - pro b < 0. (Uvedená nerovnost se nazývá Cauchyova-Schwarzova-Buňakovského nerovnost.)
3.16. Poznámka
Koeficient korelace se počítá podle vzorce rn =- . Představu o významu hodnot
SlS2
koeficientu korelace podávají následující dvourozměrné tečkové diagramy.
r = 1,00 r = 0,76 r = 0,00
r = -0,37 r = -1,00
3.17. Příklad
Pro datový soubor z příkladu 2.13 vypočtěte
a) aritmetické průměry znaků X, Y,
b) rozptyly a směrodatné odchylky znaků X, Y,
c) kovarianci a koeficient korelace znaků X, Y.
Řešení:
ad a) mi = 96,2667, m2 = 114,4000.
adb) s\ = 1079,6, s\ = 1057,2, Si = 32,8577, s2 = 32,5147. ad c) 5i2 = 992,76, rl2 = 0,9292.
Koeficient korelace svědčí o tom, že mezi oběma znaky existuje velmi silná přímá lineární závislost - čím vyšší je mez plasticity, tím je vyšší mez pevnosti a čím je nižší mez plasticity, tím je nižší mez pevnosti.
Při výpočtu číselných charakteristik se v řadě situací uplatní věta shrnující některé jejich vlastnosti. Pro lepší pochopení uvedených vlastností slouží následující příklad.
3. Číselné charakteristiky znaků
3.18. Věta
Uveďme některé vlastnosti číselných charakteristik.
a) Nechť ni\ je aritmetický průměr a s\ rozptyl znaku X. Pak znak Y = a + bX má aritmetický průměr m2 = a + bni\ a rozptyl s\ = b2s\.
b) Nechťm!, m2 jsou aritmetické průměry, s2, s\ rozptyly a s12 kovariance znaků X, Y. Pak znak U = X + Y má aritmetický průměr m3 = m\ + m2 a rozptyl s\ = s\ + s\ + 2sn-
c) Nechť s n je kovariance znaků X, Y a m\, m2 jsou aritmetické průměry znaků X, Y. Pak znaky U = a + bX, V = c + dY mají kovarianci 534 = bds\2.
3.19. Příklad
a) Znak X má aritmetický průměr 2 a rozptyl 3. Najděte aritmetický průměr a rozptyl znaku Y = -1 + 3X.
b) Znaky X a F mají aritmetické průměry 3 a 2, rozptyly 2 a 3, kovarianci 1,5. Vypočtěte aritmetický průměr a rozptyl znaku Z = 5X - AY.
c) Součet rozptylů dvou znaků je 120, součin 1000 a rozptyl jejich součtů je 100. Vypočtěte koeficient korelace těchto znaků.
Řešení:
ad a) m2
-1 +3m1 = -1 + 3 -2
32-5?
9 • 3 = 27.
adb) m3 = 5mi -4m2 = 5-3-4-2 = 7, s\ = 52 ■ sj +(-4)2 ■ s\ + 2-5 ■ (-4) ■ sl2 = 25-2+ 16-3 -40-1,5 = 38.
■'1+2 ''i °2 2
adc) s\ + s22 = 120, *i-52 = 1000, s\+2 = 100 = ^ + ^ + 2Sl2 => s12 IM = _io, ri2 = ^ = _i^ = -0,316.
2 ' 1z íi-í2 VlOOO
Pokud nemáme k dispozici původní datový soubor, ale jenom variační řadu nebo tabulku rozložení četností (resp. kontingenční tabulku), můžeme vypočítat tzv. vážené číselné charakteristiky. Pro datový soubor obsahující údaje o mezi plasticity a mezi pevnosti oceli je zajímavé porovnat původní číselné charakteristiky a vážené číselné charakteristiky.
3.20. Definice
a) Vážené číselné charakteristiky u bodového rozložení četností: Vážený aritmetický průměr
m
j=i
Vážený rozptyl
s2 = - Yn^-mf.
Vážená kovariance
1
s n = ~ ^ ^ njk{X[n - ml)(y[k] - m2).
52
b) Vážené číselné charakteristiky u intervalového rozložení četnosti: Vzorce jsou formálně shodné s předešlými. Je však zapotřebí uvést, že výpočty jsou přesné jen tehdy, souhlasí-li průměry v jednotlivých třídicích intervalech se středy těchto intervalů, resp. vykompenzují-li se vzájemně chyby vzniklé v důsledku odchylek středů intervalů od průměru v těchto intervalech. Oba tyto případy jsou však vzácné a většinou se dopustíme určité chyby.
3.21. Příklad
Pro intervalové rozložení četností uvedené v příkladu 2.13 spočtěte vážené číselné charakteristiky a porovnejte je s číselnými charakteristikami uvedenými v příkladu 3.17.
Řešení:
bodové rozložení intervalové rozložení
nii 96,27 96,67
m2 114,40 113,67
1079,63 1148,89
*2 1057,21 1019,89
Sl 32,858 33,895
S2 32,515 31,936
S\2 992,76 998,89
r\2 0,929 0,923
Shrnutí kapitoly
Podle stupně kvantifikace znaky třídíme na nominální, ordinální, intervalové, poměrové a alternativní. Jako charakteristika polohy nominálních znaků slouží modus. Charakteristikou polohy ordinálních znaků je kterýkoliv íK-kvantil, často se používá medián, dolní a horní kvartil, decily, percentily. Rozdíl horního a dolního kvartilu je kvartilová odchylka, kterou používáme jako charakteristiku variability. U intervalových znaků slouží jako charakteristika polohy aritmetický průměr a jako charakteristika variability rozptyl či směrodatná odchylka. Odečteme-li od libovolné hodnoty průměr, dostaneme centrovanou hodnotu, a podělíme-li centrovanou hodnotu směrodatnou odchylkou, získáme standardizovanou hodnotu. Pro poměrové znaky používáme koeficient variace. Mají-li kladné hodnoty, pak jejich polohu charakterizujeme geometrickým průměrem.
Máme-li dvourozměrný datový soubor, pak jako charakteristiku společné variability zavedeme kovarianci a jako míru těsnosti lineární závislosti koeficient korelace. Podle Cauchyovy-Schwarzovy-Buňakovského nerovnosti nabývá koeficient korelace hodnot mezi -1 a 1.
Je-li k dispozici variační řada u bodového rozložení četností nebo tabulka rozložení četností u intervalového rozložení četností (resp. kontingenční tabulka), můžeme vypočítat vážené číselné charakteristiky: vážený aritmetický průměr, vážený rozptyl a váženou kovarianci.
3. Číselné charakteristiky znaků
Kontrolní otázky a úkoly
1. Udejte příklad nominálního, ordinálního, intervalového, poměrového a alternativního znaku.
2. Jaké charakteristiky polohy a variability užíváme pro uvedené typy znaků?
3. Kdy se shodují číselné charakteristiky s váženými číselnými charakteristikami?
4. Jaký význam má koeficient korelace?
5. V akciové společnosti je průměrná mzda 13 500 Kč. Přitom 30 % pracovníků s nejnižší mzdou má průměrně 9000 Kč. Na začátku roku dostal každý z těchto pracovníků přidáno 500 Kč. O kolik % vzrostla průměrná mzda v celé akciové společnosti?
[Průměrná mzda v celé akciové společnosti vzrostla o 1,1 %.]
6. (S) Při statistickém šetření pojištěnců byly získány tyto výše pojistek v Kč:
výše pojistky 390 410 430 450 470 490 510 530 550 570
abs. četnost 7 10 14 22 25 12 3 3 2 2
Určete aritmetický průměr, medián, modus, rozptyl, směrodatnou odchylku a koeficient variace výše pojistky.
[Průměr = 457,4, medián = 450, modus = 470, rozptyl = 1493,24, směrodatná odchylka = 38,64, koeficient variace = 0,08.]
7. V datovém souboru, z něhož byl vypočten průměr 110 a rozptyl 800, byly zjištěny 2 chyby: místo 85 má být 95 a místo 120 má být 150. Ostatních 18 údajů je správných. Opravte průměr a rozptyl.
[Průměr = 112, rozptyl = 851.]
8. Vážený aritmetický průměr činil 1500 a vážený rozptyl 90000. Varianty x\j\ byly transformovány vztahem:
X[j] — Cl
j = l,...,r, a > 0, h > 0. Po této transformaci byl vážený aritmetický průměr 5 a vážený rozptyl 9. Určete konstanty a a h.
[a = 1000, h = 100]
9. (S) Pro dvourozměrný datový soubor
2 4 4 5 6 8 10 10 10 10
1 2 3 4 4 4 5 5 5 6
vypočtěte koeficient korelace.
[Koeficient korelace = 0,92]
10. Rozptyl součtů hodnot dvou znaků je 350, rozptyl rozdílů je 700. Vypočtěte koeficient korelace, víte-li, že oba znaky mají stejné rozptyly.
[Koeficient korelace = -1/3]
54
4
Regresní přímka
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■ stanovit odhady parametrů regresní přímky a znát jejich význam
■ posoudit kvalitu proložení regresní přímky dvourozměrným tečkovým diagramem
■ vypočítat regresní odhady závisle proměnného znaku
■ stanovit odhady parametrů druhé regresní přímky
■ znát vztahy mezi parametry první a druhé regresní přímky.
Pro zvládnutí této kapitoly budete potřebovat 3^4 hodiny studia.
Budeme se zabývat speciálním případem, kdy hodnoty znaku Y závisejí na hodnotách znaku X přibližně lineárně. Ukážeme si, jak tuto závislost popsat regresní přímkou, jak odhadnout její parametry metodou nejmenších čtverců na základě znalosti dvourozměrného datového souboru a jak posoudit kvalitu regresní přímky pomocí indexu determinace. Vysvětlíme si význam regresních parametrů a v příkladu se budeme zabývat regresní přímkou meze pevnosti na mez plasticity.
4.1. Motivace
Cílem regresní analýzy je vystižení závislosti hodnot znaku Y na hodnotách znaku X. Při tom je nutné vyřešit dva problémy: jaký typ funkce použít k vystižení dané závislosti a jak stanovit konkrétní parametry zvoleného typu funkce? Typ funkce určíme buď logickým rozborem zkoumané závislosti nebo se snažíme ho odhadnout pomocí dvourozměrného tečkového diagramu. Zde se omezíme na lineární závislost y = ySo + P\x. Odhady bo a b\ neznámých parametrů y30, fii získáme na základě dvourozměrného datového souboru
_•*•« yn_
metodou nejmenších čtverců. Požadujeme, aby průměr součtu čtverců odchylek skutečných a odhadnutých hodnot byl minimální, tj. aby výraz
nabýval svého minima vzhledem k b0 a b\. Tento výraz je minimální, jsou-li jeho první derivace podle bo a b\ nulové. Stačí tyto derivace spočítat, položit je rovny 0 a řešit systém dvou rovnic o dvou neznámých, tzv. systém normálních rovnic.
Časová zátěž
x\ y\
í=i
4.2. Definice
Nechť j e dán dvourozměrný datový soubor
x\ yi
%n yn_
a přímka y = B0 + Bxx. Výraz
1 "
q(b0,bi) = - Y1 (yr -b0- biXi)2
1=1
se nazývá rozptyl hodnot znaku Y kolem přímky y = bo + b\x. Přímka y = bo + bxx, jejíž parametry minimalizují rozptyl q(bo, bx) v celém dvourozměrném prostoru, se nazývá regresní přímka znaku Y na znak X. Regresní odhad i-té hodnoty znaku Y značíme % = bo + b\Xu i = 1,...,«. Kvadrát koeficientu korelace znaků X, Y se nazývá index determinace a značí se ID2. (Index determinace udává, jakou část variability hodnot znaku Y vystihuje regresní přímka. Nabývá hodnot z intervalu (0,1). Čím je bližší 1, tím lépe vystihuje regresní přímka závislost Y na X.)
4.3. Věta
Nechť y = bo + b\x je regresní přímka znaku Y na znak X. Pak použitím metody nejmenších čtverců dostaneme:
, S12 , S12
bi = —r, b0 = m2--- - mi,
s\ s\
tedy y = m2 + ^r(x - m{). Přitom úsek b0 regresní přímky udává velikost jejího posunutí na svislé ose (tj. udává, jaký je regresní odhad hodnoty znaku Y, nabývá-li znak X hodnoty 0) a směrnice b\ udává, o kolik jednotek se změní hodnota znaku F, změní-li se hodnota znaku X o jednotku. Jestliže je b\ > 0, dochází s růstem X k růstu Y a hovoříme o přímé závislosty hodnot znaku Y na hodnotách znaku X. Je-li b\ < 0, dochází s růstem X k poklesu Y a hovoříme o nepřímé závislosti hodnot znaku Y na hodnotách znaku X.
4.4. Příklad
Pro datový soubor z příkladu 2.13
a) určete regresní přímku meze pevnosti na mez plasticity.
b) Zakreslete regresní přímku do dvourozměrného tečkového diagramu.
c) Jak se změní mez pevnosti, vzroste-li mez plasticity o jednotku?
d) Najděte regresní odhad meze pevnosti pro mez plasticity = 60.
e) Vypočtěte index determinace a interpretujte ho.
Řešení:
ad a) Na základě výsledků příkladu 3.17 dostáváme: bx = f = ^§ = 0,9195; b0 = m2- bxmx = 114,4 - 0,99195 • 96,27 = 25,88; y = 25,8*8 + 0,9195*.
4. Regresní přímka
ad b)
190
30 50 70 90 110 130 150 170
mez plasticity
Povšimněte si, že koeficient korelace znaků X, Y vypočtený v příkladě 3.17 činil 0,936. Tato hodnota je blízká 1, což svědčí o silné přímé lineární závislosti mezi znaky X aY. Tečky v dvourozměrném tečkovém diagramu nejsou příliš rozptýleny kolem regresní přímky.
ad c) Mez pevnosti vzroste o 0,9195 kp cm2.
ad d) y = 25,88 + 0,9195 • 60 = 81,05.
ad e) ID2 = r22 = 0,92922 = 0,8635. Znamená to, že 86,35 % variability hodnot meze pevnosti je vysvětleno regresní přímkou.
4.5. Definice
Regresní přímkou znaku X na znak Y nazveme tu přímku x = ba+b\y Jejíž parametry minimalizují rozptyl
Í3.
q(bQ, bx) = - V'(*,■ - bo - bji)2 n -fr*
í=i
v celé rovině. Nazývá se též druhá regresní přímka. Regresní přímka znaku Y na znak X a regresní přímka znaku X na znak Y se nazývají sdružené regresní přímky.
4.6. Věta
Rovnice regresní přímky znaku X na znak Y má tvar
x = mi + —(y - m2).
Sdružené regresní přímky se protínají v bodě (mi,m2). Pro regresní parametry b\, b\ platí: b\b\ = r\v Rovnice sdružených regresních přímek můžeme psát ve tvaru
y = m2 + rX2—(x - mi),
1 s^<
y = m2 H---(x - mi),
r\2 si
(je-li rX2 * 0).
58
Regresní přímky svírají tím menší úhel, čím méně se od sebe liší r n a Regresní přímky splynou, je-li r2n = 1. K tomu dojde právě tehdy, existuje-li mezi X a Y úplná lineární závislost. Všechny body (Xi,yi), i = 1,... ,n leží na jedné přímce, tedy ze znalosti Xj můžeme přesně vypočítat yt, i = 1,... ,n. Jsou-li znaky X, Y nekorelované, pak mají sdružené regresní přímky rovnice y = m2, x = m\ a jsou na sebe kolmé. Označíme-li a úhel, který svírají sdružené regresní přímky, pak platí:
■ cos a = 0, právě když mezi X a Y neexistuje žádná lineární závislost,
■ cos a = 1, právě když mezi X a Y existuje úplná přímá lineární závislost,
■ cos a = -1, právě když mezi X a Y existuje úplná nepřímá lineární závislost.
4.7. Příklad
Pro datový soubor z příkladu 2.13
a) Určete regresní přímku meze plasticity na mez pevnosti.
b) Zakreslete regresní přímku do dvourozměrného tečkového diagramu.
Řešení:
ad a) S využitím výsledků příkladu 3.17 dostáváme: — 5i2 992,76 nnnn
b0 = mx-bxm2 = 96,27-0,939- 114,4 = -11,16,
tedy
x = -11,16 + 0,939);. ad b) Uvědomte si, že součin směrnic sdružených regresních přímek je
0,9195 • 0,9390 = 0,8635,
což je index determinace neboli kvadrát indexu korelace.
4. Regresní přímka
170 150 130
■| no
5
o i
n 90
6
70 50
30-4^-j-j-j-j-j-j-
50 70 90 110 130 150 170 190
mez pevnosti
Shrnutí kapitoly
Pokud vzhled dvourozměrného tečkového diagramu svědčí o existenci určitého stupně lineární závislosti znaku Y na znaku X, můžeme diagramem proložit regresní přímku znaku Y na znak X. (Pozor - nelze se spokojit pouze s výpočtem korelačního koeficientu, je nutné grafické posouzení závislosti.) Její parametry (tj. posunutí a směrnici) odhadujeme metodou nejmenších čtverců. Kvalitu proložení posuzujeme pomocí indexu determinace - čím je tento index bližší 1, tím je regresní přímka výstižnější a čím je bližší 0, tím je regresní přímka nevhodnější pro vystižení závislosti Y na X. Dosadíme-li danou hodnotu znaku X do rovnice regresní přímky, získáme regresní odhad příslušné hodnoty znaku Y.
Má-li smysl zkoumat též opačný směr závislosti, tj. X na F, hledáme druhou regresní přímku. 1. a 2. regresní přímka se označují jako sdružené regresní přímky.
Kontrolní otázky a úkoly
1. V čem spočívá princip metody nejmenších čtverců?
2. Uveďte příklad dvourozměrného datového souboru z ekonomické praxe vhodný pro použití regresní přímky.
3. Co vyjadřuje index determinace a jak se počítá?
4. Jaký je vztah mezi směrnicemi sdružených regresních přímek?
5. Jsou-li sdružené regresní přímky kolmé, co lze říct o znacích Xaľ?
6. Rozhodněte, zda přímky y = 13 - 2x, x = 8 - y mohou být sdruženými regresními přímkami.
[Protože součin směrnic daných přímek je větší než 1, nemůže se jednat o sdružené regresní přímky.]
60
7. Je dána rovnice regresní přímky y = 87 + 0,3(x - 25) a koeficient korelace f n = 0,77. Najděte rovnici sdružené regresní přímky.
[x = 25 + 1,9763 -(y- 87)]
8. (S) U osmi náhodně vybraných studentů byly zjišťovány jejich matematické a verbální schopnosti. Výsledky matematického testu udává znak X, výsledky verbálního Y.
X 80 50 36 58 72 60 56 68
Y 65 60 35 39 48 44 48 61
a) Vypočtěte koeficient korelace a interpretujte ho.
b) Najděte rovnice sdružených regresních přímek.
c) Zlepší-li se výsledek v matematickém testu o 10 bodů, o kolik bodů se zlepší výsledek ve verbálním testu?
d) Zlepší-li se výsledek ve verbálním testu o 10 bodů, o kolik bodů se zlepší výsledek v matematickém testu?
[a) Koeficient korelace = 0,6264, což znamená, že mezi výsledky matematického a verbálního testu existuje středně silná přímá lineární závislost, b) y = 19,908 + 0,5015*, x = 20,8852 + 0,7823y, c) Výsledek ve verbálním testu se zlepší o 5,015 bodu. d) Výsledek v matematickém testu se zlepší o 7,823 bodu.]
9. Jak se změní úsek a směrnice regresní přímky, když každou hodnotu závisle proměnného znaku zvětšíme o 10 %?
[Usek i směrnice se zvětší o 10 %]
10. Závislost mezi vnější teplotou a teplotou ve skladišti je popsána regresní přímkou y = 8 + 0,6x. Při jaké vnější teplotě klesne teplota ve skladišti pod bod mrazu?
[Při teplotě -13,3 °C]
4. Regresní přímka
62
Jev a jeho pravděpodobnost
5. Jev a jeho pravděpodobnost
Cíl kapitoly
Po prostudování této kapitoly budete umět
■ rozlišit náhodný a deterministický pokus
■ stanovit základní prostor
■ popsat vztahy mezi jevy pomocí množinových operací
■ vypočítat pravděpodobnost jevu a znát vlastnosti pravděpodobnosti
Časová zátěž
Na prostudování této kapitoly budete potřebovat asi 6 hodin.
Nejprve se seznámíme s pojmem pokusu, a to deterministického a náhodného pokusu. Nadále se budeme zabývat náhodnými pokusy. Množinu možných výsledků pokusu považujeme za základní prostor. Na základním prostoru vybudujeme jevové pole jako systém podmnožin, který je uzavřený vzhledem k množinovým operacím. Základní prostor spolu s jevovým polem tvoří tzv. měřitelný prostor. Libovolná podmnožina možných výsledků náhodného pokusu, která patří do jevového pole, je jev. Naučíme se vyjadřovat vztahy mezi jevy pomocí množinových operací a uvedeme vlastnosti těchto operací.
5.1. Definice
Pokusem rozumíme jednorázové uskutečnění konstantně vymezeného souboru definičních podmínek. Předpokládáme, že pokus můžeme mnohonásobně nezávisle opakovat za dodržení definičních podmínek (ostatní podmínky se mohou měnit, proto různá opakování pokusu mohou vést k různým výsledkům). Dále předpokládáme, že opakováním pokusu vzniká opět pokus.
Deterministickým pokusem nazýváme takový pokus, jehož každé opakování vede k jedinému možnému výsledku. (Např. zahřívání vody na 100 °C při atmosférickém tlaku 1015 hPa vede k varu vody.)
Náhodným pokusem nazýváme takový pokus, jehož každé opakování vede k právě jednomu z více možných výsledků, které jsou vzájemně neslučitelné. (Např. hod kostkou vede k právě jednomu ze šesti možných výsledků.)
5.2. Definice
Neprázdnou množinu možných výsledků náhodného pokusu značíme Q, a nazýváme
ji základní prostor. Možné výsledky značíme a»i, a»2,____Na základním prostoru Q.
vytvoříme jevové pole JI jako systém podmnožin, který s každými dvěma množinami obsahuje i jejich rozdíl, obsahuje celý základní prostor a obsahuje-li každou ze spočetné posloupnosti množin, obsahuje i jejich spočetné sjednocení (znamená to, že systém JI je uzavřený vzhledem k množinovým operacím). Jestliže A e JI, pak řekneme, že A je jev. Dvojice (Q., JI) se nazývá měřitelný prostor. Q. se nazývá jistý jev, 0 nemožný jev.
5.3. Poznámka
Vztahy mezi jevy vyjadřujeme pomocí množinových inkluzí a operace s jevy popisujeme pomocí množinových operací.
64
a) A c B znamená, že jev A má za důsledek jev B.
b) A U B znamená nastoupení aspoň jednoho z jevů A, 6.
c) A n 6 znamená společné nastoupení jevů A, 6.
d) A - B znamená nastoupení jevu A za nenastoupení jevu 6.
e) A = Q,- A znamená jev opačný k jevu A.
f) A n B = 0 znamená, že jevy A, 6 jsou neslučitelné.
g) o» e A znamená, že možný výsledek o» je příznivý nastoupení jevu A.
5.4. Věta
Uveďme některé vlastnosti, které mají operace s jevy:
a) Pro sjednocení a průnik jevů platí komutativní zákon, který pro dva jevy A, B má tvar:
AuB = BuA, A n B = B n A.
b) Pro sjednocení a průnik tří jevů A, B, C platí zákon asociativní:
A u (B u C) = (A u B) u C, A n (fí n C) = (A n B) n C, a zákon distributivní:
A n (fí u C) = (A n B) u (A n C), A u (fí n C) = (A u fí) n (A u C).
c) Pro sjednocení a průnik jevů opačných platí de Morganovy zákony, které pro dva jevy A, 6 zapíšeme takto:
Ä U fí = A n fí, Ä n fí = A U B.
5.5. Příklad
Náhodný pokus spočívá v hodu kostkou. Jev A znamená, že padne sudé číslo a jev B znamená, že padne číslo větší než 4.
a) Určete základní prostor Q..
b) Vypište možné výsledky příznivé nastoupení jevů A, B.
c) Pomocí operací s jevy vyjádřete následující jevy: padne liché číslo; nepadne číslo 1 ani 3, padne číslo 6; padne číslo 2 nebo 4.
Řešení:
ad a) Q. = {a»i,... ,cl>6], kde možný výsledek ojj znamená, že padne číslo i, i = 1,...,6.
ad b) A = {cú2,co4,ci>6}, B = {cú5,cú(,}.
ad c) A = {0)1,0)3,0)5}; A U B = {0)2,0)4,0)5,0)6}; A n B = {coe}; A - B = {o)2,0)4}
Na měřitelném prostoru zavedeme pravděpodobnost jako funkci, která splňuje určité axiomy a každému jevu přiřazuje číslo mezi 0 a 1. Měřitelný prostor spolu s pravděpodobností tvoří pravděpodobnostní prostor. Seznámíme se s vlastnos-
5. Jev a jeho pravděpodobnost
tmi pravděpodobnosti a uvidíme, že téměř všechny jsou obdobné vlastnostem relativní četnosti jak jsme je poznali v první kapitole. Zavedeme speciální případ pravděpodobnosti - klasickou pravděpodobnost a vypočítáme několik příkladů.
5.6. Definice
Nechť JI) je měřitelný prostor. Pravděpodobností rozumíme reálnou množinovou funkci P : JI —> R, která splňuje následující tři axiómy: každému jevu přiřazuje nezáporné číslo, jistému jevu přiřazuje číslo 1, sjednocení neslučitelných jevů přiřazuje součet pravděpodobností těchto jevů. Trojice (Q.,Jl,P) se nazývá pravděpodobnostní prostor.
Axiomy pravděpodobnosti jsou zvoleny tak, aby pravděpodobnost byla „zidealizo-vaným" protějškem relativní četnosti zavedené v definici 1.1. Znamená to, že pro velký počet opakování pokusu, v němž sledujeme nastoupení jevu A, se relativní četnost j evu A blíží pravděpodobno s ti j evu A. Tento poznatek j e znám j ako empirický zákon velkých čísel. Zdálo by se přirozené definovat pravděpodobnost jako limitu relativní četnosti pro n —> oo. Tento postup by však nebyl korektní, protože počet pokusů n je vždy konečný a nelze se tedy přesvědčit o existenci uvedené limity.
5.7. Věta
Nechť JI, P) je pravděpodobnostní prostor. Pak pro libovolné jevy A, A\, A2, • • • e JI platí následujících 14 vlastností:
Pl P2 P3 P4 P5 P6 P7 P8 P9 P10 Pil P12 P13
P14:
P(df) = 0
P(A) > 0 (nezápornost - axióm)
P(AX U A2) + P(AX n A2) = P(Ai) + P(A2)
l + P(A, n A2) > P(A,) + P(A2)
P(A1 U A2) < P(AO + P(A2) (subaditivita)
A1 n A2 = 0 => P(A1 U A2) = P(AO + P(A2) (aditivita)
P(A2-Al) = P(A2)-P(AlnA2)
Ai c A2 => P(A2 - Ai) = P{A2) - P(Ai) (subtraktivita) AiCA2 => P(AO < P(A2) (monotonie) P(Í2) = 1 (normovanost - axióm) P{A) + P{A) = 1 (komplementarita) P(A) < 1
Ai n Aj = 0 pro jí j => p(Ai U A2 U ...) = P(Ai) + P(A2) + (spočetná aditivita - axióm)
( n \ n n-l n
U At =^ P(Ai) - 2 Z P(Ai n Ai)+
v i'=l /
n—2 n-l
i'=l
í'=1 j=i+l
+ZZ Z ^'najna*)
í'=l _/=i'+l k=j+l
+ (-D»-1p(A1nA2n---nAB)
66
Pro neslučitelné jevy Ai,...,An dostáváme
( n \ n
y a, =2>(a,).
v i=l
1=1
Vlastnosti P1,... ,P12 odpovídají vlastnostem relativní četnosti z věty 1.3, vlastnost P14 je známa jako věta o sčítání pravděpodobností.
5.8. Definice
Nechť Q, je konečný základní prostor a nechť všechny možné výsledky mají stejnou šanci nastat. Klasická pravděpodobnost je funkce, která jevu A přiřazuje číslo
P(A) =- , kde m(A) je počet možných výsledků příznivých nastoupení jevu
m(Q)
A a m(Q) je počet všech možných výsledků.
5.9. Příklad
Vypočítejte pravděpodobnosti jevů A, B, A, A U B, A n B, A - B z příkladu 5.5. Řešení:
3 1 2 1 _31
m(Q) = 6, P(A) = - = -, P(B) = - = -, P(A) = - = -,
4 2 1 2 1
P(AuB) = - = -, P(AHB) = -, P(A-B) = - = -.
o 5 o o 5
5.10. Příklad
V dodávce 100 kusů výrobků nemá požadovaný průměr 10 kusů, požadovanou délku 20 kusů a současně nemá požadovaný průměr i délku 5 kusů. Jaká je pravděpodobnost, že náhodně vybraný výrobek z této dodávky má požadovaný průměr i délku?
Řešení:
Jev A spočívá v tom, že výrobek má požadovaný průměr a jev B v tom, že výrobek má požadovanou délku. Počítáme
P(A n B) = P(A U B) = 1 - P(A U B)
1 - [P(A) + P{B) - P{A n B)] = 1 - I + ^- - -Ž- I = 0,75. v v v 1 100 100 100/
5.11. Příklad
Mezi ./V výrobky je M zmetků. Náhodně bez vracení vybereme n výrobků. Jaká je pravděpodobnost, že vybereme právě k zmetků?
Řešení:
Základní prostor Q, je tvořen všemi neuspořádanými n-ticemi vytvořenými z ./V prvků. Tedy m(Q) = (N). Jev A spočívá v tom, že vybereme právě k zmetků z M
5. Jev a jeho pravděpodobnost
zmetků (ty lze vybrat ykj způsoby) a výběr doplníme n - k kvalitními výrobky
vybranými z N - M kvalitních výrobků (tento výběr lze provést způsoby). Podle kombinatorického pravidla součinu dostáváme
/ 4 / 4 (M\(N-M\
m(A) = [k)[n-k} t6dy P{A)=Mä) = ~^~-
Shrnutí kapitoly
Deterministický pokus vede při každém opakování k jedinému možnému výsledku, zatímco náhodný pokus vede při každém opakování právě k jednomu z více možných výsledků. Množina možných výsledků náhodného pokusu tvoří základní prostor. Systém podmnožin základního prostoru, který je uzavřený vzhledem k množinovým operacím, se nazývá jevové pole. Základní prostor spolu s jevovým polem označujeme jako měřitelný prostor. Podmnožina, která patří do jevového pole, je jev. Celý základní prostor je jevem jistým, prázdná množina jevem nemožným.
Šanci jevu na uskutečnění vyjadřujeme pomocí pravděpodobnosti, což je funkce, která každému jevu přiřazuje číslo mezi 0 a 1 a splňuje určité axiomy, které stanovil ruský matematik A. N. Kolmogorov tak, aby pravděpodobnost byla „zideali-zovaným" protějškem relativní četnosti. Při mnohonásobném nezávislém opakování téhož náhodného pokusu totiž platí empirický zákon velkých čísel: relativní četnost jevu se ustaluje kolem nějaké konstanty, kterou považujeme za pravděpodobnost tohoto jevu. Měřitelný prostor spolu s pravděpodobností tvoří pravděpodobnostní prostor. V praxi se nejčastěji používá klasická pravděpodobnost zavedená jako podíl počtu těch výsledků, které jsou příznivé nastoupení daného jevu, a počtu všech možných výsledků.
Kontrolní otázky a úkoly
1. Uveďte příklad deterministického pokusu a náhodného pokusu.
2. Náhodný pokus spočívá v hodu dvěma kostkami. Určete základní prostor.
[Q. = {[C0i,í0i],[í0i,í02],---,[C0l,C06],---,[C06,C06]}]
3. Pro zkoušku provozní spolehlivosti určitého zařízení je předepsán tento postup: zařízení je uvedeno v činnost pětkrát při maximálním zatížení. Jakmile při některém z těchto pěti pokusů zařízení selže, nesplnilo podmínky zkoušky. Označme A, jev: „při z-tém pokusu zařízení selhalo" pro i = 1,..., 5. Pomocí jevů A, vyjádřete jevy:
a) Zařízení neprošlo úspěšně zkouškou.
b) První tři pokusy byly úspěšné, ve 4. a 5. pokusu zařízení selhalo.
c) 1. a 5. pokus byly úspěšné, ale zkouška byla neúspěšná.
[a) Ai u • • • uA5, b) A7nÄ^nÄ7nA4nA5, c)Ä7nÄ7n (A2 uA3 uA4)]
4. Formulujte emiprický zákon velkých čísel.
5. Uveďte příklad situace, v níž nelze použít klasickou pravděpodobnost.
68
6. Z karetní hry o 32 kartách vybereme náhodně bez vracení 4 karty. Jaká je pravděpodobnost, že aspoň jedna z nich je eso? [0,4306]
7. Dva hráči házejí střídavě mincí. Vyhrává ten, komu padne dřív líc. Stanovte pravděpodobnost výhry 1. hráče a pravděpodobnost výhry 2. hráče.
[2/3 a 1/3]
8. Chevalier de Méré pozoroval, že při házení třemi kostkami padá součet 11 častěji než součet 12, i když podle jeho názoru (nesprávného) mají oba součty stejnou pravděpodobnost. Stanovte pravděpodobnost obou jevů.
[0,125 a 0,1157]
9. Student se ke zkoušce připravil na 15 otázek z 20 zadaných. Při zkoušce si vybere náhodně dvě otázky. Jaká je pravděpodobnost, že aspoň na jednu zná odpověď? [18/19]
10. Mezi následujícími tvrzeními vyberte ta, která jsou pravdivá:
a) P(A n B) < P(B),
b) P(A UB)< P(B),
c) P(A U6)< P{A) + P(B),
d) P(A) < 0.
5. Jev a jeho pravděpodobnost
70
Stochasticky nezávislé jevy a podmíněná pravděpodobnost
6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost
Cíl kapitoly
Po prostudování této kapitoly budete umět
■ ověřit stochastickou nezávislost posloupnosti jevů
■ řešit příklady využívající stochastickou nezávislost jevů
■ počítat podmíněnou pravděpodobnost
■ použít větu o násobení pravděpodobností, vzorec pro úplnou pravděpodobnost a Bayesův vzorec
Časová zátěž
Pro zvládnutí této kapitoly budete potřebovat asi 6 hodin studia.
Z předešlé kapitoly víme, že pravděpodobnost je „zidealizovaným" protějškem relativní četnosti. Lze tedy očekávat, že stochasticky nezávislé jevy zavedeme podobně jako četnostně nezávislé množiny: pomocí multiplikativního vztahu. Uvedeme vlastnosti stochasticky nezávislých jevů a s jejich pomocí odvodíme dvě důležitá rozložení pravděpodobnosti - geometrické a binomické, která mají, jak uvidíme později, časté využití v praxi.
6.1. Definice
Nechť (Q.,JI, P) je pravděpodobnostní prostor. Jevy A\,A2 e J\ jsou stochasticky nezávislé, jestliže P(Ai n A2) = P(Ai)P(A2). (Tento vztah znamená, že informace o nastoupení jednoho jevu neovlivní šance, s nimiž očekáváme nastoupení druhého jevu. Stochastická nezávislost jevů Ai,A2 je motivována četnostní nezávislostí množin G\, G2 ve výběrovém souboru - viz definice 1.6.) Jevy A\,...,An e JI jsou stochasticky nezávislé, jestliže platí systém multiplikativních vztahů:
VI < i < j < n : P{Ai n Aj) = P{Ai)P(Aj),
VI < í < j 0, (J Hi = Q,, Hi n H j = 0 pro i ž j (říkáme, že jevy H\,...,Hn tvoří úplný i=i
systém hypotéz).
a) Pro libovolný jev A e Ji platí vzorec úplné pravděpodobnosti:
P{A) = 2JP{Hi)P{A\Hi).
i=i
b) Pro libovolnou hypotézu Hk, k = 1,..., n a jev A e JI s nenulovou pravděpodobností platí Bayesův vzorec:
p(hk\A) =
P(Hk)P(A\Hk) P(A)
(P(Hk\A) se nazývá aposteriorní pravděpodobnost hypotézy Hk, P(Hk) je apriorní pravděpodobnost.)
6.8. Příklad
Je známo, že 90 % výrobků odpovídá standardu. Byla vypracována zjednodušená kontrolní zkouška, která u standardního výrobku dá kladný výsledek s pravděpodobností 0,95, zatímco u výrobku nestandardního s pravděpodobností 0,2. Jaká je pravděpodobnost, že
a) zkouška u náhodně vybraného výrobku dopadla kladně,
b) výrobek, u něhož zkouška dopadla kladně, je standardní?
Řešení:
Jev A znamená, že zkouška u náhodně vybraného výrobku dopadla kladně, jev Hi znamená, že výrobek je standardní, jev H2 znamená, že výrobek není standardní, P{HX) = 0,9, P(H2) = 0,1, P{A\HX) = 0,95, P(A\H2) = 0,2.
ad a) P(A) = P(Hi)P(A\Hi) + P(H2)P(A\H2) = 0,9 • 0,95 + 0,1 • 0,2 = 0,875
adb) P(Hl\A) = ^^ = Q-^§=0,9S.
Shrnutí kapitoly
Stochasticky nezávislé jevy jsou protipólem deterministicky závislých jevů: informace o nastoupení jednoho jevu nijak nemění šance, s nimiž očekáváme nastoupení druhého jevu. Formálně zavádíme stochastickou nezávislost jevů pomocí
74
multiplikativních vztahů na základě analogie s četnostní nezávislostí množin. Pomocí stochasticky nezávislých jevů lze odvodit geometrické a binomické rozložení pravděpodobností. Obě tato rozložení se často používají v praxi.
Podmíněná relativní četnost motivuje zavedení podmníněné pravděpodobnosti -zkoumáme pravděpodobnost nastoupení nějakého jevu za podmínky, že nastal jiný jev. Podmíněná pravděpodobnost se vyskytuje v několika důležitých vzorcích, které umožňují řešit řadu příkladů. Jedná se o větu o násobení pravděpodobností, vzorec pro výpočet úplné pravděpodobnosti a Bayesův vzorec.
Kontrolní otázky a úkoly
1. Uveďte příklad stochasticky nezávislých jevů
2. Nechť P{A) = p, P(B) = q. Pomocí čísel p, q vyjádřete pravděpodobnost nastoupení aspoň jednoho z jevů A, B, jsou-li tyto jevy
a) stochasticky nezávislé,
b) neslučitelné.
[a)p + q- pq, b) p + q]
3. Co lze říci o jevech A, B, které nejsou nemožné a platí pro ně:
P(A u B) = 1 - [1 - P(A)][1 - P(fí)]?
[A a B jsou stochasticky nezávislé jevy.]
4. Je pravděpodobnější vyhrát se stejně silným soupeřem tři partie ze čtyř nebo pět z osmi, když nerozhodný výsledek je vyloučen a výsledky jsou nezávislé? [0,25 a 0,219]
5. První dělník vyrobí denně 60 výrobků, z toho 10 % zmetků. Druhý dělník vyrobí denně 40 výrobků, z toho 5 % zmetků. Jaká je pravděpodobnost, že náhodně vybraný výrobek z denní produkce je zmetek a pochází od prvního dělníka? [0,06]
6. Ze šesti vajec jsou dvě prasklá. Náhodně vybereme dvě vejce. Jaká je pravděpodobnost, že budou
a) obě prasklá,
b) právě jedno prasklé,
c) obě dobrá?
[a) 1/15, b) 8/15, c) 6/15]
7. Doplňte chybějící člen x v rovnici P{B) = P{B\A)P{A) + xP(Ä). _
[x = P(B\Ä)]
8. Pro jaké jevy A,B,B^d) platí P(A\B) = P(A)?
[Pro stochasticky nezávislé.]
9. Co lze říci o jevech Ax,... ,An s nenulovými pravděpodobnostmi, které jsou neslučitelné a jejich sjednocením je celý základní prostor?
[Jevy A\,...,An tvoří úplný systém hypotéz.]
10. Pojišťovací společnost rozlišuje při pojišťování tři skupiny řidičů - A, B a C. Pravděpodobnost toho, že řidič patřící do skupiny A bude mít během roku
75
6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost
nehodu, je 0,03, zatímco u řidiče skupiny B je to 0,06 a u řidiče skupiny C 0,1. Podle dlouhodobých záznamů společnosti je 70% pojistných smluv uzavřeno s řidiči skupiny A, 20 % s řidiči skupiny B a 10 % s řidiči skupiny C. Jestliže došlo k nehodě řidiče pojištěného u této společnosti, jaká je pravděpodobnost, že patřil do skupiny C?
[0,233]
11. U jistého druhu elektrického spotřebiče se s pravděpodobností 0,01 vyskytuje výrobní vada. U spotřebiče s touto výrobní vadou dochází v záruční lhůtě k poruše s pravděpodobností 0,5. Výrobky, které tuto vadu nemají, se v záruční lhůtě porouchají s pravděpodobností 0,01. Jaká je pravděpodobnost, že
a) u náhodně vybraného výrobku nastane v záruční lhůtě porucha,
b) výrobek, který se v záruční lhůtě porouchá, bude mít dotyčnou výrobní vadu?
[a) 0,0149, b) 0,3356]
76
Náhodná veličina a její distribuční funkce
7. Náhodná veličina a její distribuční funkce
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■ číselně popsat výsledky náhodného pokusu pomoci náhodných veličin a náhodných vektorů,
■ najít distribuční funkci náhodné veličiny či náhodného vektoru,
■ rozlišit diskrétní a spojité náhodné veličiny a náhodné vektory a najít jejich funkcionální charakteristiky,
■ ověřit stochastickou nezávislost náhodných veličin.
Časová zátěž
Na prostudování této kapitoly budete potřebovat asi 8 hodin studia.
Naučíme se, jak popisovat výsledky náhodného pokusu pomocí náhodné veličiny, tj. zobrazení, které možnému výsledku přiřadí číslo či několik čísel. Existuje zřetelná analogie mezi znakem, který známe z kapitoly 1, a náhodnou veličinou. V některých situacích potřebujeme náhodnou veličinu transformovat. Získáme složenou funkci zvanou transformovaná náhodná veličina.
Statistika často zajímá pravděpodobnost jevu, že hodnota náhodné veličiny nepřesáhne nějakou mez. Pomocí této pravděpodobnosti zavedeme distribuční funkci, která je „zidealizovaným" protějškem empirické distribuční funkce, s níž jsme se setkali v kapitole 2. Seznámíme se s vlastnostmi distribuční funkce a vyřešíme několik příkladů.
7.1. Definice
Funkce X : Q, —> R s vlastností, že Vjc e R: {co e Q,; X (co) < x] e A, která každému možnému výsledku co e Q, přiřazuje reálné číslo X(co), se nazývá náhodná veličina a číslo X(co) je číselná realizace náhodné veličiny X príslušná možnému výsledku co. Uspořádaná posloupnost náhodných veličin (Xi,..., Xn) se nazývá náhodný vektor a značí se X. Je-li g : R —> R (resp. (gi,... ,gm) : R" —> Rm) funkce, pak složená funkce Y = g(X) (resp. Y = (Yu...,Ym) = (gi(*i, ...,*„),... ,gm(*i,... ,*„))) se nazývá transformovaná náhodná veličina (resp. transformovaný náhodný vektor).
Vysvětlení: Náhodná veličina i náhodný vektor popisují výsledky náhodného pokusu pomocí reálných čísel. Splnění podmínky Vjc e R: {co e Q.;X(co) < x] e A (vzor intervalu (-oo, x) je jev) není nutno ověřovat, protože se v praktických úlohách automaticky předpokládá. Také pro libovolnou číselnou množinu B platí {co e Q.; X(co) e B] e A. (Vzor libovolné číselné množiny B je jev.) Náhodná veličina v počtu pravděpodobnosti a znak v popisné statistice - viz definice 1.8 - jsou sice pojmy blízké, nikoli však totožné. Znak lze považovat za náhodnou veličinu, pokud jeho hodnotu zjišťujeme na objektu, který byl vybrán ze základního souboru náhodně.
Upozornění: V dalším textu se omezíme na dvourozměrné náhodné vektory. Poznatky lze jednoduše zobecnit i na n-rozměrné náhodné vektory.
78
7.2. Označení
Nechť fí c R. Jev {oj e Q.; X(a>) e B} zkráceně zapisujeme {X e B} a čteme: náhodná veličina X se realizovala v množině B.
7.3. Definice
Pravděpodobnostní chování náhodné veličiny X (resp. náhodného vektoru X = (Xi,X2)) popisujeme distribuční funkcí O : R —> R, která je dána vztahem: Vjc e R : O(jc) = P(X < jc) (resp. simultánni distribuční funkcí O : R2 —> R, která je definována vztahem:
V(*i, jc2) e R2 : (*i, jc2) = P(*i < *i A X2 < x2).)
Vysvětlení: Distribuční funkce O(jc) je zidealizovaným protějškem empirické distribuční funkce F (x) zavedené v definici 2.4 či 2.14:
N(X < x)
VxeR: F(x) = —--.
n
S rostoucím rozsahem výběrového souboru se budou hodnoty F(x) ustalovat kolem hodnot ®(jc).
7.4. Příklad
Najděte distribuční funkci náhodné veličiny X, která udává, jaké číslo padlo při hodu kostkou a nakreslete graf této distribuční funkce.
Řešení:
Náhodná veličina X může nabývat hodnot 1,2,3,4,5,6. Číselnou osu tedy rozdělíme na 7 intervalů.
x e (-00,1) : $(jc) = P(X < x) = 0
x e (1,2) : 0(x) = P(X < x) = \
6
x e (2,3) : 0(x) = P(X < x) = \ + \ = \
000
x e (3,4) : $(*) = P{X < x) = \ + \ + \ = |
0000
11114 x e (4,5) : -oo x—>oo
■ /<-/./? c < b platí: P(a(b) - O(a),
■ pro libovolné, ale pevné dané xq e R : P(X = xq) = O(jco) - lim O(jc).
x—>x0
b) Vektorový případ: Simultánní distribuční funkce 0(*i, x2) náhodného vektoru X = (Xi, X2) má následující vlastnosti:
■ 0(jci , x2) je neklesající vzhledem ke každé jednotlivé proměnné,
■ 0(jci , x2) je zprava spojitá vzhledem ke každé jednotlivé proměnné,
■ 0(jci , x2) je normovaná v tom smyslu, že
lim 0(jci,x2) = 1, lim <&(xi,x2) = lim 0(jci, jc2) = 0,
Xl—>oo,j:2—>oo Xi—>-oo X2—>-oo
■ V(*i, jc2) e R2, h > Q,h2 > Q : P(xx < Xx < xx + hx A x2 < X2 < x2 + h2) = 0(jci + hi,x2 + h2) - 0(jci + hi, x2) - 0(jci,x2 + h2) + 0(jci,x2) (tato vlastnost vyjadřuje pravděpodobnost, že náhodný vektor se realizuje v obdélníku (xi,Xi +hi)x (x2,x2 + h2)),
m lim d>(xi,x2) = d>i(xi), lim a>(xux2) = d>2(x2), kde d>i(xi), d>2(x2) jsou
X2—>oo x\—>oo
distribuční funkce náhodných veličin Xi, X2. Nazývají se marginální distribuční funkce .
7.6. Příklad
Náhodný vektor (X\,X2) má distribuční funkci
<3>{xi,x2) = (arctgxx + |J (arctg jc2 + |J .
Vypočtěte pravděpodobnost, že náhodný vektor (Xl5X2) se bude realizovat v jednotkovém čtverci (0,1) x (0,1). Najděte obě marginální distribuční funkce $>\{x\), ®i(x2).
80
Řešení:
Podle 4. vlastnosti z věty 7.5b), kde x\ = 0, x2 = 0, h\ = 1, h2 = 1 dostáváme
P(0 < Xx < 1 A 0 < X2 < 1) = 0(1,1) - 0(1,0) - 0(0,1) + 0(0,0) =
1 (n n\{n n\ 1 (n n\í n\ = ^U + 2)(4 + 2)-íí(4 + 2)(0+2)-
4K)(H)4K)K)4-
x2^oo 7T V 2/ \ ii 71 \
x\^co 7lz \ Z) \ Zl 71 \
Nyní se budeme zabývat dvěma speciálními typy náhodných veličin, a to diskrétními a spojitými náhodnými veličinami. Diskrétní náhodná veličina nabývá nejvýše spočetně mnoha izolovaných hodnot, zatímco spojitá veličina nabývá všech hodnot z nějakého intervalu. Pravděpodobnostní chování diskrétní (resp. spojité) náhodné veličiny popíšeme pomocí pravděpodobnostní funkce (resp. pomocí hustoty pravděpodobnosti). Uvidíme, že vlastnosti pravděpodobnostní funkce jsou podobné jako vlastnosti četnostní funkce a vlastnosti hustoty pravděpodobnosti jsou analogické vlastnostem hustoty četnosti.
7.7. Definice
a)Skalární případ: Náhodná veličina X se nazývá diskrétní, jestliže její distribuční funkci lze vyjádřit pomocí nezáporné funkce tt(x) v součtovém tvaru:
Funkce n(x) se nazývá pravděpodobnostní funkce diskrétní náhodné veličiny X.
b)Vektorový případ: Náhodný vektor (Xi,X2) se nazývá diskrétní, jestliže jeho simultánní distribuční funkci lze vyjádřit pomocí nezáporné funkce 7t{x\, x2) v součtovém tvaru:
Funkce n(x\, x2) se nazývá simultánní pravděpodobnostní funkce diskrétního náhodného vektoru {X\,X2).
Vysvětlení: Pravděpodobnostní funkce tt(x) je zidealizovaným protějškem četnostní funkce p(x) zavedené v definici 2.4: Vx e R : p(x) = NiX~x) ■ S rostoucím rozsahem výběrového souboru se hodnoty četnostní funkce ustalují kolem hodnot pravděpodobnostní funkce. Diskrétní náhodná veličina nabývá nejvýše spočetně mnoha hodnot. Její distribuční funkce má schodovitý průběh - viz graf v příkladu 7.4.
t 0 (nezápornost),
co
■ 2 k{x) = 1 (normovanost),
x=-oo
■ VieR: n{x) = P(X = x),
■ VB c R : P(X e B) = £ n(x).
xeB
b)Vektorový případ: Je-li n{x\, x2) simultánní pravděpodobnostní funkce diskrétního náhodného vektoru (Xi, X2), pak platí:
■ V(x\,x2) e R2 : n(x\,x2) > 0 (nezápornost),
co co
■ Jj Z n(xi,x2)=l (normovanost),
Xi=—oo X2=-oo
■ V(jci, x2) e R2 : n{xux2) = P(Xl =XlAX2 = x2),
■ VfícR2: P((XuX2)eB)= £ 7r(xux2),
co co
■ Z n{xi,x2) = tti(xi), Z n(xi,x2) = n2(x2), přičemž ni(xi), n2(x2) jsou
jT2=-oo xi=—oo
marginální pravděpodobnostní funkce náhodných veličin X\,X2.
7.9. Příklad
Pravděpodobnost poruchy každé ze tří nezávisle pracujících výrobních linek je 0,5. Náhodná veličina X udává počet výrobních linek, které mají poruchu. Najděte pravděpodobnostní funkci náhodné veličiny X.
Řešení:
Náhodná veličina X, která udává počet linek v poruše, nabývá hodnot 0, 1, 2, 3. Při stanovení hodnot její pravděpodobnostní funkce můžeme využít příkladu 6.3 b), kde bylo odvozeno binomické rozložení pravděpodobností. Pravděpodobnost, že
82
v prvních n pokusech nastane právě x úspěchů, je rovna (1 - ů)n x■ V našem případě za „úspěch" považujeme poruchu výrobní linky, n = 3, ů = 0,5.
7t(0)
n (2)
n (3) n {x)
P(X = 0) P(X=l) P(X = 2)
0,5°(1-0,5)3~° = 0,53 = 0,125 0,5^1-0,5)3^ = 3 - 0,53 = 0,375
0,5Z (1 - 0,5)3"2 = 3 • 0,5J = 0,375
P(X = 3) = |^ |0,5J (1 - 0,5)3 3 =0,5J = 0,125 0 jinak
Dále vypočteme pravděpodobnost, že nepracují aspoň dvě linky. Přitom použijeme 4. vlastnost z věty 7.8 (a).
P(X > 2) = P(X = 2) + P(X = 3) = ?r(2) + tt(3) = 0,375 + 0,125 = 0,5
S pravděpodobností 50 % tedy můžeme očekávat, že aspoň dvě linky jsou porouchané.
7.10. Příklad
Je dán systém složený ze dvou bloků. Pravděpodobnost, že z-tý blok správně funguje, je v,, i = 1,2, a pravděpodobnost, že správně fungují oba bloky, je vn- Nechťnáhodná veličina X, je ukazatel fungování z-tého bloku, tj.
X: =
1, pokud z-tý blok funguje, 0, pokud z-tý blok nefunguje,
z = 1,2.
Najděte simultánní pravděpodobnostní funkci tt{x\ , x2) náhodného vektoru (Xi, X2) a obě marginální pravděpodobnostní funkce n\{x\) a ^2(^2)-
Řešení:
Hodnoty pravděpodobnostních funkcí zapíšeme do kontingenční tabulky.
Xi\^ 0 1 nxixx)
0 1 - Vi - V2 + v12 V2 - v12 l-n
1 Vi - v12 v12 Vi
^2(^2) 1 - v2 v2 1
tt(0, 0) = P(Xi = 0 A X2 = 0) = 1 - P(Xi = 1 v X2 = 1) =
= 1 - (Vi + V2 - v12) = 1 - Vi - V2 + v12,
tt(0, 1) = P(Xi = 0 A X2 = 1) = P(X2 = 1) - = 1 A X2 = 1) = v2 - v12, tt(1,0) = = 1 A X2 = 0) = P(Xi = 1) - = 1 A X2 = 1) = vi - v12,
7. Náhodná veličina a její distribuční funkce
n{\,\) = P{Xl = 1 AX2 = 1) = v12,
tt(xi,x2) = 0 jinak.
7.11. Definice
a) Skalární případ: Náhodná veličina X se nazývá spojitá, jestliže její distribuční funkci lze vyjádřit pomocí nezáporné funkce cp(x) v integrálním tvaru:
V* e
x
-I
0 (nezápornost)
co
■ J (p(x) dx = 1 (normovanost)
■ V* e R : P(X = x) = 0
■ VB c R : P(X e B) = J
0 (nezápornost)
co co
■ J J (p(xi,x2)dx\dx2 = 1 (normovanost)
—co —co
■ V(jci, x2) e R2 : P(XX = xx A X2 = x2) = 0
■ Bel2: P((Xi, X2) e B) = f f ip{xx, x2) dxxdx2
(x\ ,x2)eB
oo oo
■ j
1020.
7.14. Příklad
Spojitý náhodný vektor (XX,X2) má simultánní hustotu pravděpodobnosti
1
(f(xux2) =
7t2(1 +X\)(\ +X\)
Najděte obě marginální distribuční funkce ^i(-^i), ^2(^2)-
7. Náhodná veličina a její distribuční funkce
Řešení:
co co
^i(*i) = f-hr,-2^dx2 = ^7T—f T~2dx2 =
J 7t2(1 + X\){\ + X2) 7t2(1 + X\) J 1 + X2
— co —co
1 ™ 1 /7t / 7t\\ 1
7r2(l+x2) & °° 7r2(l+x2)V2 l 2// 7r(l + x2)' Analogicky dostáváme
(jci, x2)= J J 2,5 dhdt2 = 2,5[ř1]!105[ř2]!202 = 2,5(*i + 0,5)(jc2 + 0,2)
-0,5 -0,2
pro -0,5 < x\ < 0,5, -0,2 < x2 < 0,2, <&(xi,x2) = 0 pro x\ < -0,5 nebo x2 < -0,2, 0(jci, x2) = 1 pro xi > 0,5 a x2 > 0,2. Z definice 7.11 (skalární případ) dostaneme:
Xl
J ldh = [ři]
0>i(*i) = \dh = [řiR, = a +0,5
-0,5 -0,5
pro -0,5 < xi < 0,5, Oi(jci) = 1 pro xx > 0,5, Oi(jci) = 0 pro jci < -0,5. Dále
®i(x2) = J 2,5dt2 = 2,5[t2]%2 = 2,5(x2 + 0,2)
-0,2
pro -0,2 < *2 < 0,2, 02(*2) = 1 pro x2 > 0,2, <5>2(x2) = 0 Pro xi ^ -0>2-Stochastickou nezávislost náhodných veličin Xi,X2 ověříme pomocí definice 7.15 (c): V(xi,x2) e R.2 : ip(xi,x2) = (pi(xi)(p2(x2), tedy náhodné veličiny X1,X2 jsou stochasticky nezávislé.
7. Náhodná veličina a její distribuční funkce
7.17. Příklad
Diskrétní náhodný vektor (Xi, X2) má simultánní pravděpodobnostní funkci n{x\, x2) danou hodnotami: tt(-1,2) = tt(-1,3) = tt(0,3) = tt(1,0) = tt(1, 1) = 0, tt(-1,0) = tt(0, 1) = tt(1,2) = 2c, tt(-1, 1) = tt(0,0) = tt(0,2) = tt(1,3) = c. Určete konstantu c, hodnotu simultánni distribuční funkce O(0,2), obě marginální pravděpodobnostní funkce n\{x\), n2{x2) a hodnotu marginální distribuční funkce Oi(l). Zjistěte, zda náhodné veličiny X\, X2 jsou stochasticky nezávislé.
Řešení:
Hodnoty simultánní pravděpodobnostní funkce n{x\, x2) uspořádáme do kontingen-ční tabulky, kterou ještě doplníme o sloupec s hodnotami tti (x\) a řádek s hodnotami tt2(x2). Tyto hodnoty získáme pomocí věty 7.8 (vektorový případ).
Xi 0 1 2 3 TľxiXx)
-1 2c c 0 0 3c
0 c 2c c 0 4c
1 0 0 2c c 3c
3c 3c 3c c 1
Z normovanosti pravděpodobnostní funkce diskrétního náhodného vektoru (viz věta 7.8, vektorový případ) dostáváme 10c = 1, tedy c = 0,1. Z definice diskrétního náhodného vektoru (definice 7.7, vektorový případ) plyne
O(0,2) = tt(-1,0) + tt(-1, 1) +tt(-1,2) + tt(0,0)+
+ tt(0, 1) + tt(0,2) = 0,2 + 0,1+0 + 0,1+0,2 + 0,1 = 0,7.
Z definice diskrétní náhodné veličiny (definice 7.7, skalární případ) plyne
Oi(l) = 7Ti(-l) + 7Ti(0) + 7Ti(l) = 0,3 + 0,4 + 0,3 = 1.
Pokud by náhodné veličiny X\, X2 byly stochasticky nezávislé, musel by pro všechna V(jci , x2) e R2 platit multiplikativní vztah: ti{x\ , x2) = 7i\{x\)n2{x2) (viz definice 7.15 (b)). Avšak již pro x\ = -1, x2 = 0 dostáváme tt(-1,0) = 0,2, tti(-I) = 0,3, 7r2(0) = 0,3. Vidíme tedy, že multiplikativní vztah splněn není a náhodné veličiny Xi,X2 nejsou stochasticky nezávislé.
7.18. Věta
Jsou-li náhodné veličiny Xi,...,Xn stochasticky nezávislé, pak jsou stochasticky nezávislé také transformované náhodné veličiny Y\ = gi(Xi),..., Yn = g„(Xn).
Shrnutí kapitoly
Náhodná veličina se zavádí jako zobrazení, které každému výsledku náhodného pokusu přiřazuje číslo (pak se jedná o skalární náhodnou veličinu) nebo více čísel (v tomto případě jde o náhodný vektor). Náhodnou veličinu lze pomocí libovolné funkce transformovat a získat tak transformovanou náhodnou veličinu.
88
Pravděpodobnostní chování náhodné veličiny popisuje distribuční funkce, jejíž zavedení je motivováno empirickou distribuční funkcí známou z popisné statistiky. Vlastnosti těchto dvou funkcí jsou analogické.
Praktický význam mají dva speciální druhy náhodných veličin. Diskrétní náhodná veličina může nabývat pouze spočetně mnoha hodnot a její pravděpodobnostní chování je popsáno pravděpodobnostní funkcí, což je „zidealizovaný" protějšek četnostní funkce. Diskrétní náhodný vektor je tvořen diskrétními náhodnými veličinami. Zabývali jsme se náhodnými vektory se dvěma složkami. V souvislosti s diskrétním náhodným vektorem zavádíme simultánní pravděpodobnostní funkci. Marginální pravděpodobnostní funkce se vztahují k jednotlivým složkám náhodného vektoru.
Spojitá náhodná veličina nabývá všech hodnot z nějakého intervalu. Její pravděpodobnostní chování je popsáno hustotou pravděpodobnosti, což je „zidealizovaný" protějšek hustoty četnosti. Spojitý náhodný vektor je tvořen spojitými náhodnými veličinami. Jeho pravděpodobnostní chování je popsáno simultánní hustotou pravděpodobnosti. Marginální hustoty pravděpodobnosti se vztahují k jednotlivým složkám náhodného vektoru.
Pomocí multiplikativního vztahu, v němž vystupují simultánní a marginální distribuční funkce (resp. pravděpodobnostní funkce v diskrétním případě resp. hustoty pravděpodobnosti ve spojitém případě), zavedeme pojem stochastické nezávislosti náhodných veličin.
Kontrolní otázky a úkoly
1. Uveďte příklad náhodné veličiny a náhodného vektoru z ekonomické praxe.
2. Najděte distribuční funkci náhodné veličiny, která udává počet líců při hodu třemi mincemi a nakreslete její graf.
[x e (-oo,0) : ®(x) = O, x e (0,1) : ®(x) = |, x e (1,2) : ®(x) = §, x e (2,3) : ®(x) = |, x e (3, oo) : ®(x) = 1
1,2 "i
0,8 -0,6 -0,4 -
0,2 - _
0--
-0,2 -|-1-1-1-1-1-1-1-1-1-1
- 1,5 - 1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5 ]
3. Rozhodněte, které z uvedených náhodných veličin j sou diskrétní a které j sou spojité:
a) počet členů domácnosti
b) věk člověka v letech
c) náhodně vybrané reálné číslo
d) počet zákazníků ve frontě
e) cena výrobku
7. Náhodná veličina a její distribuční funkce
f) počet zmetků z celkové denní produkce
g) délka určitého předmětu
h) životnost televizoru v letech
[diskrétní a), d), f), spojité b), c), e), g), h)]
4. Které funkcionální charakteristiky popisují pravděpodobnostní chovaní diskrétní náhodné veličiny a které diskrétního náhodného vektoru?
5. Které funkcionální charakteristiky popisují pravděpodobnostní chování spojité náhodné veličiny a které spojitého náhodného vektoru?
6. Je-li X diskrétní náhodná veličina s pravděpodobnostní funkcí n(x), může býtn{x) > 1?
[n(x) nemůže být větší než 1, protože má význam pravděpodobnosti.]
7. Je-li X spojitá náhodná veličina s hustotou pravděpodobnosti (p(x), může být (f(x) > 1?
[(f(x) může být větší než 1, protože nemá význam pravděpodobnosti.]
8. Náhodná veličina udává průměrný počet ok při hodu dvěma kostkami. Nakreslete graf její pravděpodobnostní funkce.
[7t(1) = i, tt(1,5) = ±, n(2) = l6, 7t(2,5) = ±, 7t(3) = |, 7t(3,5) = !, n{A) = *<4,5) = ± *<5) = h *(5,5) = ± n{6) = i
0,16 0,12
0,08 0,04 0
O
O o o o o o o o
o
-1-1-1-1-1-1-1-1-1-1
I 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 J
9. Diskrétní náhodný vektor (Xi, X2) má simultánní pravděpodobnostní funkci n(xi,xi) danou hodnotami:
tt(0, 0) = tt(0, 2) = tt(1, 1) = tt(2, 0) = tt(2, 2) = 0, tt(1,0) = tt(0, 1) = tt(1,2) = tt(2, 1) = 0,25.
Jsou náhodné veličiny X\, X2 stochasticky nezávislé?
[Náhodné veličiny X\, X2 nejsou stochasticky nezávislé, protože není splněn
multiplikativní vztah: V(x\,x2) e R2 : n(x\,x2) = ni(xi)n2(x2).]
10. Nechť spojitý vektor (Xi, X2) má simultánní hustotu pravděpodobnosti
2 složkami je takové rozložení, kdy jedna nebo více složek tohoto náhodného vektoru je konstantní. Uvažme např. náhodný vektor (Xi, X2), kde náhodná veličina Xi udává výšku syna a náhodná veličina X2 udává výšku otce. Bude nás zajímat rozložení pravděpodobností výšek synů při dané hodnotě výšek otců, tedy podmíněné rozložení veličiny X\ za podmínky X2 = x2.
U diskrétních náhodných vektorů používáme podmíněnou pravděpodobnostní funkci 7Ti|2 {x\ \x2), což je zidealizovaný protějšek podmíněné četnostní funkce pX\2 (x\ \x2) (viz definice 2.7) a u spojitých náhodných vektorů zavádíme podmíněnou hustotu pravděpodobnosti íp\\2 (x\ \x2) jako zidealizovaný protějšek podmíněné hustoty četnosti Zip {x\ \x2) (viz definice 2.17).
8.2. Definice
Nechť (X\,X2) je náhodný vektor se simultánní distribuční funkcí O (xi, x2). Podmíněná distribuční funkce i|2 {x\ \x2) náhodné veličiny X\ za podmínky, že náhodná veličina X2 nabývá hodnoty x2, je dána vztahem
Vjci e R : ®m {xl \x2)
lim P {Xi < xi \x2 < X2 < x2 + Ax2)
= lim
P (Xi < xi a x2 < X2 < x2 + Ax2)
P (x2 i|2 (xi \x2) udává pravděpodobnost, že veličina Xi nabude hodnoty nejvýše xi při dané hodnotě X2 = x2. Protože hodnota x2 je pevně daná, je funkce i|2 (xi \x2) funkcí jedné proměnné a lze snadno ověřit, že splňuje požadavky kladené na distribuční funkci náhodné veličiny.
Stejně jako lze ověřovat stochastickou nezávislost dvou jevů pomocí vztahu mezi podmíněnou pravděpodobností jednoho jevu za podmínky, že nastal druhý jev,
92
a pravděpodobností onoho prvního jevu (viz vlastnost d) ve větě 6.5), můžeme zkoumat stochastickou nezávislost dvou náhodných veličin pomocí vztahu mezi podmíněnou distribuční funkcí a marginální distribuční funkcí (jak uvidíme později, analogické rovnosti platí i pro podmíněnou pravděpodobnostní funkci resp. podmíněnou hustotu pravděpodobnosti a marginální pravděpodobnostní funkci resp. marginální hustotu pravděpodobnosti).
8.3. Věta
Nechť (Xi,X2) je náhodný vektor s marginálními distribučními funkcemi i (xi) a 02 (x2). Náhodné veličiny X\, X2 jsou stochasticky nezávislé, jestliže platí:
V*2 e R : O112 {xx \x2) = 0>i (Xl)
a současně
Vjci e R : 02|i (x2\xl) = 02fe).
Nyní zavedeme podmíněná rozložení pravděpodobností pro dvourozměrný diskrétní a poté pro spojitý náhodný vektor.
8.4. Definice
Nechť (Xi, X2) je diskrétní náhodný vektor se simultánní pravděpodobnostní funkcí 7t (x\, x2) a marginálními pravděpodobnostními funkcemi tti (xi) a n2 (x2). Fixujeme hodnotu x2. Podmíněná pravděpodobnostní funkce n\\2 (x\ \x2) náhodné veličiny X\ za podmínky, že náhodná veličina X2 nabývá hodnoty x2, je dána vztahem:
Vjci e R : nm (xi \x2) = n^Xl,X2^ pro ni > q
7t2 (x2)
Analogicky lze definovat podmíněnou pravděpodobnostní funkci tt2|i (x2 \x\ ).
Vysvětlení: Podmíněná pravděpodobnostní funkce n\\2 (x\ \x2) je v důsledku působení empirického zákona velkých čísel teoretickým protějškem sloupcově podmíněné četnostní funkce p\\2 (x\ \x2) zavedené v definici 2.7:
Vjci e R : pm {x\ \x2) = PX^ pro p2(x2) > 0.
Pí (x2)
S rostoucím rozsahem výběrového souboru se budou hodnoty sloupcově podmíněné četnostní funkce pX\2 {x\ \x2) ustalovat kolem hodnot podmíněné pravděpodobnostní funkce n\\2 (x\ \x2). Definice podmíněné pravděpodobnostní funkce n\\2 (x\ \x2) je v úplném souladu s definicí podmíněné pravděpodobnosti jevu A za podmínky, že nastal jev B s nenulovou pravděpodobností:
v P(B) V tomto případě A = {Xi = x\], B = {X2 = x2}.
8.5. Poznámka
Z definičního vztahu je okamžitě vidět, že simultánní pravděpodobnostní funkci náhodného vektoru (X\,X2) lze vyjádřit jako součin marginální pravděpodobnostní
8. Podmíněná rozložení náhodných veličin
funkce jedné ze složek náhodného vektoru a podmíněné pravděpodobnostní funkce druhé ze složek náhodného vektoru, tj.
7T (Xi, X2) = 7T2 (X2) TTip (*1 |X2 ) ,
jestliže tt2 (x2) > 0, a obdobně
n(xUX2) = 7Ti (jCl)7T2|l 1*1 ),
jestliže 7Ti (xi) > 0. Z těchto dvou vztahů vyplývá, že
, , , nm(xi\x2)n2(x2)
X2\l (X2 \Xi ) = -—-
7Ti (Xi)
a podobně
, , N 7T2|1 (x2 \xi)ni (xi)
Xl\2 {X\ \X2) = -—-.
7T2 (X2)
Jedná se o Bayesův vzorec pro diskrétní náhodný vektor (Xi, X2). 8.6. Důsledek
Je-li (Xi,X2) diskrétní náhodný vektor, pak pro podmíněnou distribuční funkci #i|2 (xi |x2) platí:
Z n(t,x2)
Vx\ e R : Oi|2 (xi \x2) = pro n2 (x2) > 0.
7T2 (x2)
8.7. Věta
Nechť (Xi,X2) je diskrétní náhodný vektor s marginálními pravděpodobnostními funkcemi n\ {x\) a n2{x2). Náhodné veličiny Xi, X2 jsou stochasticky nezávislé, jestliže platí:
Vx2 e R,7r2 (x2) > 0 : nm {xx \x2) = nx (x{),
tj. podmíněná pravděpodobnostní funkce náhodné veličiny X\ za podmínky X2 = x2 je rovna marginální pravděpodobnostní funkci náhodné veličiny X\. Analogicky, náhodné veličiny\X\, X2 jsou stochasticky nezávislé, jestliže platí
Vjci e R, 7Ti (xi) > 0 : n2\\ (x2 \x\) = n2 (x2).
8.8. Příklad
Použijeme poněkud modifikované zadání příkladu 7.10. Je dán systém složený ze dvou bloků. Pravděpodobnost že 1. blok správně funguje, je 0,95, pravděpodobnost,
že 2. blok správně funguje, je 0,92 a pravděpodobnost, že správně fungují oba bloky, je 0,88. Nechť náhodná veličina X, je ukazatel fungování z'-tého bloku, tj.
_ ( 1, pokud i—tý blok funguje '-12 1 \ 0, pokud i—tý blok nefunguje
94
Simultánní a marginální pravděpodobnostní funkce náhodného vektoru (Xx, X2) byly odvozeny v př. 7.10, tedy po dosazení za ů\ = 0,95, ů2 = 0,92, ůu = 0,88 dostaneme kontingenční tabulku:
xx x2 TTi(jCi)
0 1
0 0,01 0,04 0,05
1 0,07 0,88 0,95
T2O2) 0,08 0,92 1
Vypočtěte podmíněné pravděpodobnostní funkce n\\2 (x\ \x2 )&n2\\ (x2 \x\) a s jejich pomocí ověřte, zda náhodné veličiny Xx, X2 jsou stochasticky nezávislé.
Řešení:
Nejprve vypočítáme hodnoty funkce n\\2 (x\ \x2) podle vzorce
Vjci e R : nX\2 (xx \x2) = n^Xl,x^ pro ^ ^ > q.
7t2 (x2)
niv (0 10) T112 (110) nm (0 |1)
^-112 (l ID
7t(0, 0) 0,01
n2(0) 0,08
tt(1,0) 0,07
^(0) 0,08
7t(0, 1) 0,04
n2(l) 0,92
n(l,l) 0,88
n2(l) 0,92
= 0,125 = 0,875 = 0,043 = 0,957
Interpretace např. hodnoty n\\2 (0 |0): je-li známo, že 2. blok nefunguje, tak pravděpodob nost nefungování 1. bloku je 0,125.
Dále vypočítáme hodnoty funkce n2\i (x2 \x\).
T211 (0|0)
7T2I1 d 10) ^2|1 (011) ^2|1 (UĎ
tt(0,0) 0,01
TTl (0) 0,05
7t(0, 1) 0,04
*x (0) 0,05
7T(1,0) 0,07
0,95
*(U) 0,88
^ri(l) 0,95
0,2 0,8 0,074 0,926
Interpretace např. hodnoty 7r2|i (110): je-li známo, že 1. blok nefunguje, tak pravděpodob nost fungování 2. bloku je 0,8.
K ověření stochastické nezávislosti náhodných veličin Xx, X2 použijeme vzorec z věty 8.7: ~ix2 e R : nx\2 (xx \x2) = ti\ (xx) a současně ~ixx e R : n2\i (x2 \xx) =
8. Podmíněná rozložení náhodných veličin
7T2 (x2). V našem případě pro jc2 = 0 a x\ =0 dostáváme: n\\2 (010) = 0,125, avšak 7Ti (0) = 0,05. Rovnost tedy splněna není a další ověřování je zbytečné. Náhodné veličiny X\, X2 nejsou stochasticky nezávislé.
V dalším výkladu se budeme věnovat spojitému náhodnému vektoru {X\,X2). Při zavedení podmíněné hustoty pravděpodobnosti veličiny Xi za podmínky, že veličina X2 nabývá hodnoty x2, nemůžeme využít elementární definici podmíněné psavděpodobnosti, neboť pro spojité náhodné veličiny platí, že P(X2 = x2) = 0 (viz věta 7.12, třetí vlastnost).
Budeme požadovat, aby (p2 (x2) > 0. Pak již lze definovat podmíněnou hustotu pravděpodobnosti cpi\2 {x\ \x2).
8.9. Definice
Nechť (Xi, X2) je spojitý náhodný vektor se simultánní hustotou pravděpodobnosti ip(xi,x2) a marginálními hustotami pravděpodobnosti ip\ {x\) a ip2(x2). Fixujeme hodnotu x2. Podmíněná hustota pravděpodobnosti ipi\2 (x\ \x2) náhodné veličiny Xi za podmínky, že náhodná veličina X2 nabývá hodnoty x2, je dána vztahem
Vjci e R : (pm {xx \x2)
ip(xi,x2)
pro (p2 (x2) > 0.
2|i (x2 \x\).)
Vysvětlení: Podmíněná hustota pravděpodobnosti ip\\2 {x\ \x2) je v důsledku působení empirického zákona velkých čísel teoretickým protějškem sloupcově podmíněné hustoty četnosti f\\2 {x\ \x2) zavedené v definici 2.17:
Vjci e R : fm (xl \x2)
f(xi,x2) fi{x2)
pro f2 (x2) > 0.
S rostoucím rozsahem výběrového souboru se budou hodnoty sloupcově podmíněné hustoty četnosti f\\2 {x\ \x2) ustalovat kolem hodnot podmíněné hustoty pravděpodobnosti ip\\2 {x\ \x2). Definice podmíněné hustoty pravděpodobnosti nemůže vycházet z definice podmíněné pravděpodobnosti, neboť ve spojitém případě P(X2 = x2) = 0.
8.10. Poznámka
Podobně jako v diskrétním případě lze z definičních vztahů pro podmíněné hustoty pravděpodobnosti odvodit Bayesův vzorec pro spojitý náhodný vektor:
a podobně
<£2|1 {x2\Xi) =
0.
8.12. Věta
Nechť (Xi,X2) je spojitý náhodný vektor s marginálními hustotami pravděpodobnosti (fi (xi) a te). Náhodné veličiny X\, X2 jsou stochasticky nezávislé, jestliže platí
Vjc2 e R,^2 (*2) > 0 : 0 : (pm (x2 \xx) = ip2 (x2).
8.13. Příklad
Využijeme modifikaci příkladu 7.16. Na výrobcích měříme délku s přesností +0,5 mm a šířku s přesností +0,2 mm. Náhodná veličina X\ udává chybu při měření délky a náhodná veličina X2 udává chybu při měření šířky. Předpokládáme, že simultánní hustota pravděpodobnosti je uvnitř mezí chyb konstantní, tj.
, ( k pro - 0,5 < xi < 0,5, -0,2 < x2 < 0,2; = { 0 jinak.
Najděte obě podmíněné hustoty pravděpodobnosti ipi\2 (x\ \x2) a ^2|i (x2 \x\) a s jejich pomocí ověřte, zda náhodné veličiny X\, X2 jsou stochasticky nezávislé.
Řešení:
V příkladu 7.16 bylo odvozeno, že
, í 2,5 pro - 0,5 < xx < 0,5, -0,2 < x2 < 0,2; *<*'^ = {o jinak,
^ _ í 1 pro - 0,5 < xi < 0,5
^l Xl \ 0 jinak
a
, , í 2,5 pro - 0,2 0.
<£2 fe)
8. Podmíněná rozložení náhodných veličin
|3
V našem případě:
( Éči^Ř = |Ž = i pro _ 0,5 < jci < 0,5
0.
V našem případě:
P2|i tek) = | 0w(j:i
(a)
tel = f = 2,5 pro - 0,2 2 složek. Vybereme marginální náhodný vektor {xt,..., X^j o ti\ složkách a zbylý marginální náhodný vektor o n2 složkách («j + n2 = n) označme (Xk,..., Xf). Pak můžeme zavést podmíněnou distribuční funkci náhodného vektoru (Xj,..., X^j za podmínky, že Xt = xt A... AXi = xi (resp. podmíněnou pravděpodobnostní funkci v diskrétním případě resp. podmíněnou hustotu pravděpodobnosti ve spojitém případě) pomocí analogických vztahů, které byly uvedeny v definici 8.2 (resp. definici 8.4 resp. definici 8.9).
8.16. Poznámka
V počtu pravděpodobnosti a matematické statistice má velký význam vícerozměrné normální rozložení, viz definice 9.6 d). Lze dokázat, že podmíněná rozložení příslušná vícerozměrnému normálnímu rozložení jsou rovněž normální, což je velmi užitečná vlastnost normálního rozložení.
Shrnutí kapitoly
Uvažujeme dvourozměrný náhodný vektor (Xi,X2) a zkoumáme rozložení náhodné veličiny Xi za podmínky, že náhodná veličina X2 nabývá konstantní hodnoty. Podmíněné rozložení definujeme takto:
98
pro libovolný náhodný vektor (Xi, X2) definujeme podmíněnou distribuční funkci
P(Xl < xi \x2 m (xl \x2) = lim P(Xl < xx \x2 0 P (x2 < X2 < x2+ Ax2)
pro diskrétní náhodný vektor {X\,X2) definujeme podmíněnou pravděpodobnostní funkci
Vxi e R : nm {x\ \x2) =--L— pro n2 (x2) > 0.
7T2 (x2)
Pro podmíněnou distribuční funkci platí
Z n(t,x2)
Vxi e R : ®m (xx \x2) = pro n2 (x2) > 0.
7T2 (x2)
pro spojitý náhodný vektor (Xi,X2) definujeme podmíněnou hustotu pravděpodobnosti:
Vxi e R : 0.
<£2 fe)
Pro distribuční funkci platí:
-m
J (p(t,x2)dt
Vxi e R : Oi|2 (xx |*2) = —---— pro 0.
<£2 fe)
Je-li podmíněné rozložení rovno marginálnímu rozložení, např. Vx2 e R, tt2(jc2) > 0: 7Ti|2 (xi \x2) = n\ (xi), jsou náhodné veličiny X\, X2 stochasticky nezávislé.
Pomocí podmíněné pravděpodobnostní funkce či podmíněné hustoty pravděpodobnosti můžeme také vypočítat pravděpodobnost jevu, že jedna náhodná veličina se realizuje v dané číselné množině za předpokladu, že druhá náhodná veličina nabyla určité hodnoty.
Kontrolní otázky a úkoly
1. Co vyjadřuje podmíněná pravděpodobností funkce n\\2 {x\ \x2)?
2. Jaký je vztah mezi podmíněnou hustotou pravděpodobnosti ipm (xi \x2) apod-míněnou hustotou četnosti f\\2 {x\ \x2)l
3. Jak lze pomocí podmíněného rozložení ověřit stochastickou nezávislost náhodných veličin?
4. Spojitý náhodný vektor (Xi, X2) má simultánní hustotu pravděpodobnosti
í 2 pro 0 < xi < 1, 0 < x2 < 1 - xi; = { 0 jinak.
Určete obě podmíněné hustoty pravděpodobnosti ipi\2 {x\ \x2), (p2\\ {x2\x\) a s jejich pomocí zjistěte, zda náhodné veličiny Xx, X2 jsou stochasticky nezávislé.
8. Podmíněná rozložení náhodných veličin
Řešení:
Nejprve vypočítáme marginální hustoty pravděpodobnosti.
0
dostaneme
( fjxux2) _ 2 _ _j_ 0 < x < l
. . 1 .
Yl \ 0 jinak.
Je okamžitě zřejmé, že náhodné veličiny Xi, X2 nejsou stochasticky nezávislé, neboť nejsou splněny vztahy Vjc2 e R : ^112 (*i 1*2) = 1, 0 < jc2 < 1 1.
2+
Spočteme y>i (2) = | • ^ = 0,25 a dosadíme do vzorce pro výpočet 02,i (0,5 |2):
05
02,i (0,5 |2)
¥>i (2)
0,25
™ = 0,45 20
Pokud náklady na zakoupenou energii činí 2 milióny Kč, tak pravděpodobnost, že náklady na lokální zdroje nepřesáhnou 0,5 miliónu Kč, je 0,45.
Diskrétní náhodný vektor (Xi,X2) má simultánní pravděpodobnostní funkci tt(xi,x2), jejíž hodnoty jsou uvedeny v kontingenční tabulce:
Xi x2
2 4 6 8
1 0,01 0,03 0,04 0,02
2 0,02 0,24 0,10 0,04
3 0,04 0,15 0,08 0,03
4 0,04 0,06 0,08 0,02
Stanovte podmíněněné pravděpodobnostních funkce ii\\2 (x\ |8), 7r2|i (x2 |1) a hodnoty podmíněných distribučních funkcí 0lj2 (214), 02jl (6 |3).
Řešení:
Kontingenční tabulku doplníme o sloupec a řádek, v nichž budou uvedeny marginální pravděpodobnostní funkce n\ (xi) a tt2 (jc2).
*1 x2 7Ti (Xi)
2 4 6 8
1 0,01 0,03 0,04 0,02 0,1
2 0,02 0,24 0,10 0,04 0,4
3 0,04 0,15 0,08 0,03 0,3
4 0,04 0,06 0,08 0,02 0,2
7T2 (X2) 0,11 0,48 0,30 0,11 1
Pro výpočet podmíněných pravděpodobnostních funkcí použijeme vzorec z definice 8.4:
Vjci e R : nm (xx \x2) = ^**'*2'> pro n2 (x2) > 0,
Vjc2 e R : 7r2|i (jc2 \x\ ) = Výpočty uspořádáme do dvou tabulek.
7T2 (X2)
n(xi,x2)
7Ti (Xi)
pro 7Ti (xi) > 0.
8. Podmíněná rozložení náhodných veličin
Xi 7Tl|2 (Xi |8)
1 tt(1,8) _ 0,02 _ 2 7T2(8) _ 0,11 _ 11
2 tt(2,8) _ 0,04 _ 4 7T2(8) 0,11 11
3 tt(3,8) _ 0,03 _ 3 7T2(8) 0,11 11
4 tt(4,8) _ 0,02 _ 2 7T2(8) 0,11 11
x2 7T2|1 |1)
2 tt(1,2) _ 0,01 _ 1 tti(1) _ 0,1 _ 10
4 tt(1,4) _ 0,03 _ 3 7Tl(l) 0,1 10
6 tt(1,6) _ 0,04 _ 4 7Tl(l) 0,1 10
8 tt(1,8) _ 0,02 _ 2 7Tl(l) 0,1 10
Pro výpočet hodnot podmíněných distribučních funkcí použijeme vzorec z důsledku 8.6:
Z n(t,x2)
Vxi e R : 0,
7T2 (x2)
Z 7rUi,0
Vx2 e R : 0.
7Ti Ui)
V našem případě počítáme:
jr(l,4) + 7T(2,4) 0,03 + 0,24 27 °1|2(2|4) = -M4)-= 0,48 = 48 = °'5625'
„,„N 7r(3,2) + 7r(3,4) + 7r(3,6) 0,04 + 0,15 + 0,08
°2|l(6|3) = -M3)-=-61-
27 ™ = ™ = 0,9 30
102
Vybraná rozložení diskrétních a spojitých náhodných veličin
9. Vybraná rozložení diskrétních a spojitých náhodných veličin
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■ rozlišovat důležité typy diskrétních a spojitých rozložení
■ využívat vlastností těchto rozložení při výpočtu pravděpodobností různých jevů
■ hledat v tabulkách hodnot distribuční funkce standardizovaného normálního rozložení
Časová zátěž
Na prostudování této kapitoly budete potřebovat asi 5 hodin studia.
Nyní se seznámíme s přehledem důležitých pravděpodobnostních funkcí a hustot pravděpodobnosti. Uvedeme nejenom analytické vyjádření těchto funkcí, ale též grafy. Vysvětlíme rovněž, v jakých situacích se lze s uvedenými rozloženími pravděpodobnosti setkat. Zvláštním pozornost budeme věnovat normálnímu rozložení, které hraje velkou roli v celé řadě praktických aplikací počtu pravděpodobnosti, a jak uvidíme později, i v matematické statistice.
9.1. Označení
Známe-li distribuční funkci O(jc) náhodné veličiny X (resp. pravděpodobnostní funkci n(x) v diskrétním případě resp. hustotu pravděpodobnosti ip(x) ve spojitém případě), pak řekneme, že známe rozložení pravděpodobností (zkráceně rozložení) náhodné veličiny X. Toto rozložení závisí na nějakém parametru v, což nejčastěji bývá reálné číslo nebo reálný vektor. Zápis X ~ L(v) čteme: náhodná veličina X má rozložení L s parametrem v.
9.2. Definice
Nejprve se seznámíme s vybranými rozloženími diskrétních náhodných veličin.
a) Degenerované rozložení: X ~ DgQx)
Tato náhodná veličina nabývá pouze konstantní hodnotu jx.
n(x)
1 pro X = yU, 0 jinak.
0,5 1 1,5
Pravděpodobnostní funkce Dg(l).
104
b) Alternativní rozložení: X ~ A(y)
Náhodná veličina X udává počet úspěchů v jednom pokusu, přičemž pravděpodobnost úspěchu je v.
7ľ(x)
1 — v pro x = 0, v pro x = 1, 0 jinak.
0,5 -
■0,5
-10 12 Pravděpodobnostní funkce A(0,75).
c) Binomické rozložení: X ~ Bi(n, v)
Náhodná veličina X udává počet úspěchů v posloupnosti n nezávislých opakovaných pokusů, přičemž pravděpodobnost úspěchu je v každém pokusu v.
n(x)
0,6
(")v*(l - v)"-* pro* = 0,1,..., n
jinak.
0,4-0,2-0
0,2
-10 12 3 4 5 6
Pravděpodobnostní funkce 6/(5; 0,5).
(Odvození - viz př. 6.3b).) Alternativní rozložení je speciálním případem binomického rozložení pro n = 1. Jsou-li Xi,...,Xn stochasticky nezávislé náhodné veličiny, X{ ~ A(v), i = 1,..., n, pak
X = YJXi~Bi(n,v).
i=i
d) Geometrické rozložení: X ~ Ge(v)
Náhodná veličina X udává počet neúspěchů v posloupnosti opakovaných
105
9. Vybraná rozložení diskrétních a spojitých náhodných veličin
nezávislých pokusů předcházejících prvnímu úspěchu, přičemž pravděpodobnost úspěchu je v každém pokusu v.
n(x)
(1 - v)xv pro x = 0,1, 0 jinak.
0,3 0,2-
o,i-
0
0,1
- 1 1 3 5 7 9 11
Pravděpodobnostní funkce Ge(0,25).
(Odvození - viz př. 6.3 a).)
e) Hypergeometrické rozložení: X ~ Hg(N, M, ň)
V souboru ./V prvků je M prvků označeno. Náhodně vybereme n prvků bez vracení. Náhodná veličina X udává počet vybraných označených prvků.
/M\/N-M\ u A n-x )
n(x)
o
0,5 0,4-0,3 0,2-
o,i-
0-
pro x = max{0, M — N + n},... min{M, n], jinak.
0,1
-10 12 3 4 5 6 Pravděpodobnostní funkce Hg(lO, 7,5).
f) Rovnoměrné diskrétní rozložení: X ~ Rd(G)
Nechť G je konečná množina o n prvcích. Náhodná veličina X nabývá se stejnou pravděpodobností každé hodnoty z množiny G.
n(x) =
pro x e G,
0 jinak.
(Typickým příkladem je náhodná veličina udávající počet ok při hodu kostkou.)
106
0,18
0 2 4 6
Pravděpodobnostní funkce Rd({l, 2,
10
10}).
g) Poissonovo rozložení: X ~ Po{X)
Náhodná veličina X udává počet událostí, které nastanou v jednotkovém časovém intervalu, přičemž události nastávají náhodně, jednotlivě a vzájemně nezávisle. Parametr A > 0 je střední počet těchto událostí.
n(x)
^e-Á
0
pro x = 0,1,..., jinak.
0,22 0,18 0,14 H
0,1 0,06 0,02-0,02
0 2 4 6 8 10 12 14 Pravděpodobnostní funkce Po(5).
16
9.3. Příklad
V rodině je 10 dětí. Za předpokladu, že chlapci i dívky se rodí s pravděpodobností 0,5 a pohlaví se formuje nezávisle na sobě, určete pravděpodobnost, že v této rodině jsou nejméně 3 a nejvýše 8 chlapců.
Řešení:
X - počet chlapců v této rodině, X ~ Bi(l0; 0,5),
■4
10-*
957 1024
= 0,935.
9.4. Příklad
Jaká je pravděpodobnost, že při hře „Člověče, nezlob se!" nasadíme nejpozději při třetím hodu?
9. Vybraná rozložení diskrétních a spojitých náhodných veličin
Řešení:
X - počet neúspěchů před první šestkou, X ~ Ge(^),
P(X<2) = 2(l-i)'i=0,4213.
9.5. Příklad
Při provozu balicího automatu vznikají během směny náhodné poruchy, které se řídí rozložením Po{2). Jaká je pravděpodobnost, že během směny dojde aspoň k jedné poruše?
Řešení:
X - počet poruch během směny, X ~ Po(2),
2°
P(X > 1) = 1 - P(X < 1) = 1 - P(X = 0) = 1 - — e~2 = 0,8647.
9.6. Definice
Nyní uvedeme vybrané typy spojitých rozložení.
a) Rovnoměrné spojité rozložení: X ~ Rs(a, b)
Náhodná veličina X má konstantní hustotu na intervalu {a, b).
{ t— pro x e (a, b), *') = {o ľinak.
0,4 ■ 0,3 ■ 0,2-
o,i-
0
-0,1
-2-10 1 2 3
Hustota Rs{-1,2).
b) Exponenciální rozložení: X ~ Ex{X)
Náhodná veličina X udává dobu čekání na příchod nějaké události, která se může dostavit každým okamžikem se stejnou šancí bez ohledu na dosud pročekanou dobu. Přitom j vyjadřuje střední dobu čekání.
(p(x) =
Ae~Ax 0
pro x > 0, jinak.
108
Hustota Ex(2).
c) Normální rozložení: X ~ N(p,, o~2)
Tato náhodná veličina vzniká např. tak, že ke konstantě jx se přičítá velké množství nezávislých náhodných vlivů mírně kolísajících kolem 0. Proměnlivost těchto vlivů je vyjádřena konstantou a > 0.
(p(x) =
cr
V2^
Pro jx = 0, cr2 = 1 se jedná o standardizované normální rozložení, píšeme U ~ N(0,1). Hustota pravděpodobnosti má v tomto případě tvar
0, pro u < 0 se používá přepočtový vzorec O(-m) = 1 - i = 1' 2. Pak náhodná veličina
X = — F{nun2). _
n2
1 2 3 Hustota F(5,8).
9.7. Příklad
Na automatické lince se plní láhve mlékem. Působením náhodných vlivů množství mléka kolísá v intervalu (980 ml, 1020 ml). Každé množství mléka v tomto intervalu považujeme za stejně možné. Jaká je pravděpodobnost, že v náhodně vybrané láhvi bude aspoň 1000 ml mléka?
Řešení:
X - množství mléka v náhodně vybrané láhvi, X ~ Rs(9S0,1020),
1000) = J -L dx = 1WJ020 = 05
1000
112
9.8. Příklad
Doba (v minutách) potřebná k obsloužení zákazníka v prodejně potravin je náhodná veličina, která se řídí rozložením Ex(\). Jaká je pravděpodobnost, že doba potřebná k obsloužení náhodně vybraného zákazníka v této prodejně bude v rozmezí od 3 do 6 minut?
Řešení:
X - doba potřebná k obsloužení náhodně vybraného zákazníka, X ~ Ex(\), P(3 < X < 6)
pro x > 0, jinak.
o
= J ^e~í dx = ^(-3) [e^f3 = -e~2 + e~l = 0,233
9.9. Příklad
Výsledky u přijímacích zkoušek na jistou VŠ jsou normálně rozloženy s parametry ix = 550 bodů, cr = 100 bodů. S jakou pravděpodobností bude mít náhodně vybraný uchazeč aspoň 600 bodů?
Řešení:
X - výsledek náhodně vybraného uchazeče, X ~ N(550,1002),
P(X > 600) =\-P(X< 600) + P(X = 600) = 1 - P(X < 600) =
!X-fi 600 -fi\ , / 600-550 = 1 -P\-- <-- \ = \-P\U <
a cr ) \ 100
= 1 - O(0,5) = 1 - 0,69146 = 0,31.
9.10. Příklad
Nechť Xi,X2,X3,XA jsou stochasticky nezávislé náhodné veličiny, X{ ~ N(0,1), i = 1,2,3,4. Jaké rozložení má transformovaná náhodná veličina
x- xV5 -
x\ + x32 + x\
Řešení:
X ~ ř(3), protože Xx ~ N(0,1) a X\ + X2 + X\ ~ x2(3).
Shrnutí kapitoly
Degenerované rozložení popisuje pravděpodobnostní chování konstanty, což je nepochybně patologický případ. Zajímavější je alternativní, geometrické a zvláště binomické rozložení. Všechna tato rozložení souvisejí s počty úspěchů či neúspěchů
9. Vybraná rozložení diskrétních a spojitých náhodných veličin
v posloupnosti opakovaných nezávislých pokusů. Hypergeometrické rozložení se vyskytuje v situacích, kdy provádíme výběr bez vracení ze souboru, který obsahuje označené prvky. Rovnoměrné rozložení na dané množině je charakteristické tím, že náhodná veličina, která se jím řídí, nabývá každé hodnoty z této množiny se stejnou pravděpodobností. Podle Poissonova rozložení se chová např. náhodná veličina udávající počet událostí, které nastanou v jednotkovém čase.
Za spojitých rozložení je nejjednodušší rovnoměrné spojité rozložení. Jeho hustota je na daném intervalu konstantní a jinde nulová. Náhodná veličina s exponenciálním rozložením udává dobu čekání na příchod nějaké události, přičemž toto čekání probíhá „bez paměti". Vůbec nej důležitějším rozložením je normální rozložení, které vzniká např. tak, že k nějaké konstantě se přičítá velké množství nezávislých náhodných vlivů mírně kolísajících kolem nuly. Tím se z konstanty stane náhodná veličina. Grafem normální hustoty pravděpodobnosti je známá Gaussova křivka. Pomocí standardizovaného rozložení lze zavést další tři typy speciálních rozložení, a to Pearsonovo, Studentovo a Fisherovo-Snedecorovo. Nacházejí uplatnění především v matematické statistice.
Kontrolní otázky a úkoly
1. (S) Pomocí systému STATISTICA nakreslete grafy hustot a distribučních funkcí uvedených spojitých rozložení. Sledujte vliv parametrů na tvar hustot a distribučních funkcí. Návod: viz příloha B.
2. (S) Pojišťovna zjistila, že 12 % pojistných událostí je způsobeno vloupáním. Jaká je pravděpodobnost, že mezi 30 náhodně vybranými pojistnými událostmi bude způsobeno vloupáním nejvýše 6? [0,939]
3. Doba (v hodinách), která uplyne mezi dvěma naléhavými příjmy v jisté nemocnici, se řídí rozložením Ex(0,5). Jaká je pravděpodobnost, že uplyne více než 5 hodin bez naléhavého příjmu? [e~2'5 = 0,0821]
4. Jaká je pravděpodobnost, že náhodná veličina X ~ N(20,16) nabude hodnotu menší než 12 nebo větší než 28? [0,0455]
5. Nechť X ~ Rs(a, b), přičemž
0 pro x < a
x+20 55
pro a < x < b
1 pro x > b
Určete a, b. [a = -20, b = 35]
Nechť Xi, X2 jsou stochasticky nezávislé náhodné veličiny takové, že X, ~ N(0,1), i = 1,2. Jaké rozložení má transformovaná náhodná veličina
X2
114
Číselné charakteristiky náhodných veličin
10. Číselné charakteristiky náhodných veličin
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■ spočítat kvantily spojitých náhodných veličin
■ hledat kvantily některých spojitých náhodných veličin ve statistických tabulkách
■ určit střední hodnotu a rozptyl náhodné veličiny
■ spočítat kovarianci a koeficient korelace dvou náhodných veličin
■ využívat vlastností číselných charakteristik náhodných veličin při konkrétních výpočtech
Časová zátěž
Na prostudování této kapitoly budete potřebovat asi 10 hodin studia.
10.1. Motivace
V kapitole 7 j sme se seznámili s funkcionálními charakteristikami náhodných veličin (např. distribuční funkce, pravděpodobnostní funkce, hustota pravděpodobnosti), které plně popisují pravděpodobnostní chování náhodné veličiny. Číselné charakteristiky vystihují pouze některé rysy tohoto chování, např. popisují polohu realizací náhodné veličiny na číselné ose či jejich proměnlivost (variabilitu). Jsou jednodušší než funkcionální charakteristiky, ale nesou jen částečnou informaci.
10.2. Definice
NechťX je spojitá náhodná veličina aspoň ordinálního charakteru (viz definici 3.2) s distribuční funkcí O(jc) a nechť a e (0,1). Číslo Ka(X), které splňuje podmínku
Ka(X)
a = <&{Ka{X))= j
= Ma, X => Ka(X) = X2a(n),
X ~ t(n) => £a(X) = řa(n), X ~ F(nun2) => £a(X) = F^,^).
Tyto kvantily najdeme ve statistických tabulkách. Používáme vztahy:
Ua = — Ui-a,
ta{n) = -ři_a(n),
1
Fa(nun2) = -—---.
Fi-a(n2,ni)
10.4. Příklad
a) Nechť U ~ N(0,1). Najděte medián a horní a dolní kvartil.
b) Určete 4025(25).
c) Určete ř0,99(30) a ř0,05(24).
d) Určete F0,975(5,20) a F0,05(2,10).
Řešení:
ad a) a0,5o = 0, a0,25 = -0,67449, m0,75 = 0,67449
adb) ^025(25) = 13,12
ad c) ř0,99(30) = 2,4573, řao5(24) = -1,7109
ad d) F0,975(5,20) = 3,2891, F0,05(2,10) = 0,05156
10.5. Věta
Nechť X je spojitá náhodná veličina, Y = g(X) transformovaná náhodná veličina, a e (0,1).
a) Je-li g všude rostoucí funkce, pak Ka(Y) = g(Ka(X)).
b) Je-li g všude klesající funkce, pak Ka(Y) = g(Ki-a(X)).
10.6. Příklad
Nechť U ~ N(0,1). Najděte devátý decil transformované náhodné veličiny Y = 3 + 2U.
Řešení:
Funkce y = 3 + 2u je všude rostoucí funkce, tedy K090(Y) = 3 + 2a090 = 3 + 2 • 1,28155 = 5,5631.
10. Číselné charakteristiky náhodných veličin
Nyní budeme věnovat pozornost číselným charakteristikám polohy a variability náhodné veličiny intervalového či poměrového charakteru. Jak uvidíme, teoretickým protějškem aritmetického průměru m je střední hodnota E(X) a empirického rozptylu s2 teoretický rozptyl D(X). Empirický rozptyl s2 jsme zavedli jako aritmetický průměr kvadrátů centrovaných hodnot. Není tedy překvapivé, že teoretický rozptyl D(X) je střední hodnotou kvadrátů centrovaných hodnot. Naučíme se počítat střední hodnotu a rozptyl transformovaných náhodných veličin a náhodných vektorů. Uvedeme střední hodnoty a rozptyly vybraných typů diskrétních a spojitých rozložení, která jsme poznali v kapitole 9.
10.7. Definice
NechťX je náhodná veličina aspoň intervalového charakteru (viz definici 3.2). Její střední hodnotou nazýváme číslo E(X), které je v diskrétním případě zavedeno vztahem
E(X) =
a ve spojitém případě vztahem
E(X)
co
x(p(x) dx
za předpokladu, že případná nekonečná suma či integrál vpravo absolutně konverguje. Není-li tato podmínka splněna, pak řekneme, že střední hodnota neexistuje. Transformovaná náhodná veličina X — E(X) se nazývá centrovaná náhodná veličina.
(Střední hodnota je číslo, které charakterizuje polohu realizací náhodné veličiny na číselné ose s přihlédnutím k jejich pravděpodobnostem. V diskrétním případě představuje střední hodnota těžiště soustavy hmotných bodů, jejichž hmotnost je popsána pravděpodobnostní funkcí n(x) a ve spojitém případě je střední hodnota těžištěm hmotné přímky, na níž je rozprostření hmoty popsáno hustotou pravděpodobnosti (f(x). Střední hodnota je teoretickým protějškem váženého aritmetického průměru z definice 3.20.)
10.8. Příklad
Náhodná veličina X udává počet ok při hodu kostkou. Vypočtěte její střední hodnotu.
Řešení:
n(x)
g pro x = 1,2,... ,6 0 jinak,
6 l 7
E(X) = ^ xn(x) = -(1+2 + 3 + 4 + 5 + 6) = -= 3,5.
x=l
10.9. Věta
a) Skalární případ:
• Nechť X je diskrétní náhodná veličina s pravděpodobnostní funkcí n(x) a Y = g(X) je transformovaná náhodná veličina. Pak
118
E(Y) = ^ g(xMx),
x=-oo
pokud suma vpravo absolutně konverguje.
• Nechť X je spojitá náhodná veličina s hustotou pravděpodobnosti
0 je konstanta. Vypočtěte E{Y). Řešení:
co
A
(p(x)
( Ae~Ax prox>0, [e^Ae^dx { 0 jinak, J
A + y
o
10.11. Definice
Rozptylem náhodné veličiny X, která má střední hodnotu E(X), rozumíme číslo D(X) = E([X - E(X)]2), pokud střední hodnota vpravo existuje. Číslo ^/D(X) se nazývá směrodatná odchylka. Transformovaná náhodná veličina se nazývá
standardizovaná náhodná veličina.
Z věty 10.9a) plyne, že v diskrétním případě je rozptyl dán vzorcem
oo
D(X) =Yj[x- E(X)fn(x)
10. Číselné charakteristiky náhodných veličin
a ve spojitém případě vzorcem
co
D{X) = J [x- E(X)]2ip(x) dx
X=-cn
(pokud suma či integrál vpravo absolutně konvergují).
(Rozptyl je číslo, které charakterizuje proměnlivost realizací náhodné veličiny kolem její střední hodnoty s přihlédnutím k jejich pravděpodobnostem. Je teoretickým protějškem váženého rozptylu zavedeného v definici 3.20.)
10.12. Příklad
Náhodná veličina X udává počet ok při hodu kostkou. Vypočtěte její rozptyl. Řešení:
{ \ mox= 1,2, ...,6, n(x) = \ t „ , £(X) = 3,5 (viz př. 10.8),
0 jinak,
6 j
D(X) = YJ(x-3,5)2-
x=l
^=2,92. 12
10.13. Věta
Uveďme střední hodnoty a rozptyly vybraných typů diskrétních a spojitých rozložení.
a) X
b) X
c) X
d) X
e) X
f) X
g) X
h) X
i) X j) x k) X 1) X
Dg(jj) => E(X) = fi, D(X) = 0, A(v) => = v, = v(l - v), 5í(w,v) => = wv, = wv(l - v),
Ge(v) => = if, = ^,
Hg{N,M,n) => E{X) = f n, = f^(l - f
£(X) = 2^1, =
7W(G)
Po(A) => E(X) = A, D(X) = A2,
■ Rs(a,b) => £(X) = 2^, =
• => = \, D{X) = -\,
N(jd, ér2) => E(X) = /d, D(X) = ér2,
X\n) => E{X) = n, D(X) = 2n,
- t(n) => £(X) = 0 pro n > 2, pro n ^2 Pro n >3, pro « = 1,2 neexistuje,
m) X ~ F(«i,«2)
1 £(X) neexistuje,
£>(X) =
E(X) = ^2 Pro n2 ^ 3, pro n2 = 1.2 £(X) neexistuje,
-77 pro n2 ^ 5, pro n2 = 1,2,3,4 Z)(X) neexistuje.
«1 («2-2)(«2-4)
Věnujme se nyní dvěma náhodným veličinám Xl5 X2. Nejprve získáme informace o úrovni a variabilitě podmíněného rozložení náhodné veličiny X\ za podmínky, že
120
náhodná veličina X2 se realizovala číslem x2. Tyto informace nám poskytne podmíněná střední hodnota a podmíněný rozptyl. Dále nás budou zajímat charakteristiky společné variability a síly těsnosti lineárního vztahu náhodných veličin Xi,X2.
10.14. Definice
a) Diskrétnípřípad:Nechť(Ar1,X2)jediskrétnínáhodnývektoranechť7ri|2 (x\ \x2) je podmíněná pravděpodobnostní funkce náhodné veličiny X\ za podmínky, že náhodná veličina X2 nabývá hodnoty x2. Podmíněná střední hodnota je definována vztahem
oo
Vx2 e R,n2(x2) > 0 : E{Xx \x2) = ^ Xinm (xi \x2)
X\ =-oo
a podmíněný rozptyl je definován vztahem
oo
V*2 e R, Ti (x2) > 0 : D (Xt \x2) = ^ [Xl - E (X, \x2 )]2 nm (xx \x2).
X\ =-oo
Tento vzorec lze upravit do výpočetního tvaru
oo
D (Xi \x2) = ^ x\nm (xx \x2) - [E (X, \x2 )]2 .
Xi =-oo
b) Spojitý případ: Nechť (Xi, X2) je spojitý náhodný vektor a nechť ipi\2 (x\ \x2) je podmíněná hustota pravděpodobnosti náhodné veličiny Xi za podmínky, že náhodná veličina X2 nabývá hodnoty x2. Podmíněná střední hodnota je definována vztahem
xi _ Xl+X2 _ 1(X\ +x2)
1
Xl ,
— + *2 —
3 2
Jo
2(xx + *2) A
x\—-—— ax\ -
2x2 + 1
2*2 + l
o
l xA _ 3x2 + 2 2x2 + 1 (ä + ~2) ~ 3(2*2 + 1)
Skedastická funkce: D(Xx\x2) =
I
[xi - E (Xi \x2)] (fil2 (xi \x2) dxi
Xl -
3*2 + 2
2 (xi + x2) , 6*2 + 6*2+1
2*2+1
-dx\
2(6*2 + 3)2
3(2*2 + 1)
Vidíme, že rozložení náhodného vektoru (Xi, X2) je heteroskedastické.
Jako motivace pro zavedení charakteristik společné variability náhodných veličin Xi, X2 a síly těsnosti lineárního vztahu mezi nimi nám poslouží empirická kovariance s\2
123
10. Číselné charakteristiky náhodných veličin
a empirický koeficient korelace r\2. Empirická kovariance s\2 byla definována jako aritmetický průměr součinů centrovaných hodnot a empirický koeficient korelace r12 jako aritmetický průměr součinů standardizovaných hodnot. Lze tedy očekávat, že teoretická kovariance C(Xi,X2) bude střední hodnotou součinů centrovaných hodnot a teoretický koeficient korelace R(Xi, X2) bude střední hodnotou součinů standardizovaných hodnot.
10.17. Definice
Kovariancí náhodných veličin X\,X2, které mají střední hodnoty E{X\), E(X2),
rozumíme číslo
C(XUX2) = E([X, - E(X,)][X2 - E{X2)D
(pokud střední hodnoty vpravo existují). Z věty 10.9b) plyne, že v diskrétním případě je kovariance dána vzorcem
co co
C(Xi, X2) = ^ YjIxi- E(X!)] [x2 - E(X2)MXl, x2)
X\ =-0o JT2 = -°°
a ve spojitém případě vzorcem
co co
C(XUX2) = J J[Xl- £(Xi)][jt2 - E(X2)Mxux2)dXldx2
— co —co
(pokud dvojná suma či dvojný integrál vpravo absolutně konvergují).
Kovariance je číslo, které charakterizuje proměnlivost realizací náhodných veličin X\,X2 kolem jejich středních hodnot s přihlédnutím k jejich pravděpodobnostem. Je-li kovariance kladná (záporná), pak to svědčí o existenci jistého stupně přímé (nepřímé) lineární závislosti mezi realizacemi náhodných veličin X\,X2. Je-li kovariance nulová, pak říkáme, že náhodné veličiny Xi, X2 jsou nekorelované a znamená to, že mezi jejich realizacemi není žádný lineární vztah. Pozor - z nekorelo-vanosti nevyplývá stochastická nezávislost, zatímco ze stochastické nezávislosti plyne nekorelovanost. Kovariance je teoretickým protějškem vážené kovariance z definice 3.20.
10.18. Příklad
Diskrétní náhodný vektor {X\, X2) má simultánní pravděpodobnostní funkci s hodno-
tami: tt(0,-1) = c, ?r(0,0) = tt(0, 1) = tt(1,-1) = tt(2,-1) = 0, tt(1,0) = tt(1,1) = tt(2, 1) = 2c, ?r(2,0) = 3c, tt(xi,x2) = 0 jinak. Určete konstantu c a vypočtěte C(XUX2).
Řešení:
Hodnoty simultánní pravděpodobnostní funkce a obou marginálních pravděpodobnostních funkcí uspořádáme do kontingenční tabulky.
124
X\ x2^\ -1 0 1 TTlOl)
0 c 0 0 c
1 0 2c 2c 4c
2 0 3c 2c 5c
xi(x2) c 5c 4c 1
Z normovanosti pravděpodobnostní funkce diskrétního náhodného vektoru (viz věta 7.8, vektorový případ) dostáváme 10c = 1, tedy c = 0,1.
2
E(Xi) = Yj *iTi(*i) = 0 • 0,1 + 1 • 0,4 + 2 • 0,5 = 1,4
xi=q 1
E(X2) = x2^2(x2) = -1 • 0,1 + 0 • 0,5 + 1 • 0,4 = 0,3
x2=-l
2 1
C(XUX2) = YjTj[Xi~ EiX^xi ~ E{X2)]n(xux2) =
x\=0 x2=—l
= (0 - 1,4) • (-1 - 0,3) • 0,1 + • • • + (2 - 1,4) • (1 - 0,3) • 0,2 = 0,18.
10.19. Definice
Koeficientem korelace náhodných veličin X\, X2 rozumíme číslo
R(Xl.X2) J E( W • W) P» V5ČXÔ V5(S > 0, I 0 jinak.
(Koeficient korelace je číslo, které charakterizuje těsnost lineární závislosti realizací náhodných veličin X\, X2. Čím bližší je 1, tím těsnější je přímá lineární závislost, čím bližší je -1, tím těsnější je nepřímá lineární závislost.)
Nyní se podrobně seznámíme s řadou vlastností výše uvedených číselných charakteristik a využijeme jich při řešení několika příkladů.
10.20. Věta
Nechť a, a\, a2, b, b\, b2 jsou reálná čísla, X, X\,..., Xn, Y\,..., Ym jsou náhodné veličiny definované na témž pravděpodobnostním prostoru. V následujících vzorcích vždy z existence číselných charakteristik na pravé straně vyplývá existence výrazu na levé straně.
Vlastnosti střední hodnoty
a) E (a) = a,
b) E(a + bX) = a + bE(X),
c) E(X - E(X)) = 0,
d) E\ZXA = ZE(Xi),
\i=l I 1=1
125
10. Číselné charakteristiky náhodných veličin
e) Jsou-li náhodné veličiny X\,..., Xn stochasticky nezávislé, pak platí
e[ux) = ue(xí).
\i=l j 1=1
Vlastnosti kovariance
a) C (a i, X2) = C(Xl, a2) = C(au a2) = 0,
b) C(fli + biXua2 + b2X2) = bxb2C(XuX2),
c) C(X,X) = D(X),
d) C(X1,X2) = C(X2,X1),
e) C(XUX2) = £(XiX2) - £(Xi)£(X2),
(n m \ n m
i=l 7=1 / ŕ=l 7=1
Vlastnosti rozptylu
a) D(a) = 0,
b) D(a + bX) = b2D(X),
c) D{X) = E(X2) - [E(X)]\
(n \ n ti—\ n
X X A = X D(Xi) + 2 X X C(Xŕ, X j) (Jsou-li náhodné veličiny X1?..., í'=1 / í'=1 í'=1 7=1+1
(n \ n
X x, = X ^K-Xi) •) i=i / i=i
Vlastnosti koeficientu korelace
a) Ä(fli,X2) = Ä(Xi,fl2) = Ä(fli,fl2) = 0,
b) R{ax + hXua2 + b2X2) = sgn(^1^2)7?(X1,X2),
c) R(X, X) = 1 pro D(X) ŕ 0, (X, X) = 0 jinak,
d) Ä(Xi,X2) = /?(X2,Xi)
e) R(XUX2)= -
I 0 j inak,
f) |7?(Xi,X2)| < 1 a rovnost nastane tehdy a jen tehdy, když mezi veličinami Xi,X2 existuje s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a\,a2 tak, že P(X2 = cii+a2Xi) = 1. (Uvedená nerovnost se nazývá Cauchyova-Schwarzova-Buňakovského nerovnost.)
10.21. Příklad
Vypočtěte koeficient korelace náhodných veličin X\, X2 z příkladu 10.18. Řešení:
Vpříkladu 10.18 byla vypočtena kovariance C(Xx,X2) = 0,18. Stačí tedy vypočítat směrodatné odchylky veličin X\,X2.
126
2
D{Xl) = Yuixi-E{Xl)fnl{xl) =
= (O - 1,4)2 • 0,1 + (1 - 1,4)2 • 0,4 + (2 - 1,4)2 • 0,5 = 0,44
i
D(X2) = Yj[x2- E(X2)]2n2(x2) =
x2=-l
= (-1 - 0,3)2 • 0,1 + (0 - 0,3)2 • 0,5 + (1 - 0,3)2 • 0,4 = 0,41
10.22. Příklad
Náhodná veličina X má střední hodnotu jx a rozptyl a2. Vypočtěte střední hodnotu a rozptyl centrované náhodné veličiny Y = X - jx a střední hodnotu a rozptyl standardizované náhodné veličiny U = —.
10.23. Příklad
Náhodné veličiny X, F j sou náhodné chyby, které vznikají na vstupním zařízení. Mají střední hodnoty E(X) = -2, E(Y) = 4 a rozptyly D(X) = 4, D(Y) = 9. Koeficient korelace těchto chyb je R(X, Y) = -0,5. Chyba na výstupu zařízení souvisí s chybami na vstupu funkční závislostí Z = 3X2 - 2XY + Y2 - 3. Najděte střední hodnotu chyby na výstupu.
Řešení:
E(Z) = E(3X2 - 2XY + Y2 - 3) = 3E(X2) - 2E(XY) + E(Y2) - E(3) =
= 3 [DÍK) + [E(X)]2) - 2 [C(X, Y) + E(X)E(Y)] + D{Y) + [E(Y)]2 - 3 = = 3[D(X) + [E(X)]2] - 2[R(X, Y) y/D(X) y/D(Y) + E(X)E(Y)] + D(Y)+ + [E(Y)]2 - 3 = 3(4 + 4) - 2[-0,5 • 2 • 3 + (-2) • 4] + 9 + 16 - 3 =
= 24 + 22 + 25 - 3 = 68.
Pokud neznáme rozložení pravděpodobností náhodné veličiny, ale jenom její střední hodnotu a rozptyl, pak můžeme pomocí tzv. Čebyševovy nerovnosti aspoň odhadnout pravděpodobnost, že tato náhodná veličina se od své střední hodnoty odchýlí o více než ř-násobek své směrodatné odchylky.
Řešení:
E(Y) D(Y)
E(X-fí) = E(X) - Eijx) = yu -yu = 0, D(X -fi) = D(X) = o2,
10. Číselné charakteristiky náhodných veličin
10.24. Věta
Nechť nezáporná náhodná veličina X má střední hodnotu p. Pak platí Čebyševova nerovnost i. typu
P(X >£)<-, s
kde e je libovolné kladné číslo.
Význam Čebyševovy nerovnosti I. typu spočívá v tom, že pokud neznáme rozložení náhodné veličiny, ale známe její střední hodnotu, pak můžeme hrubě odhadnout pravděpodobnost, s jakou nezáporná náhodná veličina X nabude hodnoty alespoň s.
10.25. Příklad
Počet slunečných dní v roce na určitém místě je náhodná proměnná X se střední hodnotou 85 dní. Jaká je pravděpodobnost, že v průběhu roku nebude na tomto místě více než 198 slunečných dní?
Řešení:
Spočteme
P{X < 198) > 1
85 198
= 0,57.
Tedy pravděpodobnost, že v průběhu roku nebude na určitém místě více než 198 slunečných dní, je asi 0,57.
10.26. Věta
Nechť náhodná veličina X má střední hodnotu p a rozptyl cr2. Pak platí Čebyševova nerovnost ii. typu
a2
Ve> 0 : P(\X-p\ >£)<—.
s1
Označíme-li s = ta, pak pro
Ví> 0 : P{\X-p\ > ta) < \.
t1
Význam Čebyševovy nerovnosti II. typu spočívá v tom, že pokud neznáme rozložení náhodné veličiny, ale známe její střední hodnotu a rozptyl, pak můžeme odhadnout pravděpodobnost, s jakou se od své střední hodnoty odchýlí o více než ř-násobek své směrodatné odchylky.
t 1 1 3cr).
b) Jestliže X ~ N(jx, cr2), vypočtěte PQX - /x\ > 3cr).
Řešení:
ad a) P(|X - ju| > 3ít) < ^ = i = 0,1.
(Tento výsledek je znám jako pravidlo 3o~ a říká, že nejvýše 11,1% realizací náhodné veličiny leží vně intervalu (jx - 3a,/x + 3o~).)
ad b) PQX - fi\ > 3cr) = 1 - P(-3a < X - /x < 3cr) = 1 - p(-3 < ^ < 3) = 1 - 0(3) + 0(-3) = 2[1 - 0(3)] = 2(1 - 0,99865) = 0,0027. (Má-li náhodná veličina normální rozdělení, pak pouze 0,27 % realizací leží vně intervalu (jx - 3a,/x + 3a).)
V závěru kapitoly se soustředíme na vlastnosti střední hodnoty a rozptylu náhodné veličiny s normálním rozložením.
10.28. Věta
a) Jestliže X ~ N(ji, a2), pak E(X) = /x, D(X) = a2.
b) Jestliže X ~ N(jx, a2) a Y = a + bX, pak Y ~ N(a + b/x, b2a2).
c) Jestliže Xi,..., Xn jsou stochasticky nezávislé náhodné veličiny a nechťX, ~ N(jXi,a2),i= \,...,n, Y = É X, pak
i=i
N
(n n \
v 1=1 1=1
10.29. Příklad
Nechť Xi, X2 jsou stochasticky nezávislé náhodné veličiny, X{ ~ N(0,1), i = 1,2. Zjistěte, jaké rozložení má transformovaná náhodná veličina Y = 3 + Xi - 2X2, určete jeho parametry a najděte dolní kvartil náhodné veličiny Y.
Řešení:
Y ~ N(E(Y), D(Y)), přičemž
E(Y) = E(3 + Xi- 2X2) = 3 + E(X{) - 2E(X2) = 3+ 0- 2- 0 = 3, D(Y) = D{3 +Xx- 2X2) = D(Xx) + (-2)2D(X2) =1+4-1 = 5,
tedy Y ~ N(3,5). Nyní vypočítáme dolní kvartil. Využijeme toho, že U = ^ ~ N(0,1), tedy £0,25(*0 = 3 + V5w0,25 = 3 - V5 • 0,67449 = 1,4918.
Shrnutí kapitoly
Při zavádění číselných charakteristik náhodných veličin nás motivují číselné charakteristiky znaků, jak jsme je poznali ve 3. kapitole.
Jako charakteristika polohy číselných realizací spojité náhodné veličiny aspoň or-dinálního typu slouží a-kvantil a jeho speciální případy: medián, dolní a horní kvartil. Variabilitu charakterizujeme kvartilovou odchylkou. Výpočet kvantilů
10. Číselné charakteristiky náhodných veličin
není příliš jednoduchá záležitost, proto jsou kvantily několika typů rozložení tabe-lovány nebo je lze získat pomocí speciálního statistického software.
Pro náhodné veličiny intervalového a poměrového typu používáme jako charakteristiku polohy střední hodnotu - teoretický protějšek aritmetického průměru. Pomocí střední hodnoty pak definujeme další číselné charakteristiky: rozptyl a jeho druhou odmocninu - směrodatnou odchylku, kovarianci a koeficient korelace.
Informace o úrovni a variabilitě hodnot jedné náhodné veličiny za předpokladu, že druhá náhodná veličina se realizovala určitou konkrétní hodnotou, poskytují podmíněná střední hodnota (regresní funkce) a podmíněný rozptyl (skedastická funkce).
Řešení konkrétních příkladů velmi usnadňují vzorce, které popisují vlastnosti číselných charakteristik.
Kontrolní otázky a úkoly
1. Pomocí statistických tabulek vypočtěte následující kvantily:
"0,95, "0,10, x\ 975(10), x\ 025(9)' %>o(8), %)5(6), F0i975(5 , 7), F0j025(8 , 6).
[Wo,95 = 1,64485, «0,10 = -1,28155,^975(10) = 20,483,^(9) = 2,7, ř0,9o(8) = 1,3968, ř0,05(6) = -1,9432, F0,975(5,7) = 5,2852, >0,025(8,6) = 1/^,975(6,8) = 1/4,6517 = 0,215]
2. NechťX ~ iV(-l, 4). Najděte Kom(X).
[^o,o25(X) = 2- «0,025 - 1 = -2 • 1,95996 - 1 = -4,91992]
3. Nechť Xi,X2 jsou stochasticky nezávislé náhodné veličiny takové, že Xi ~ iV(2,4), X2 ~ iV(-l,9). Vypočtěte 99% kvantil transformované náhodné veličiny Y = 2X\ - 3X2 + 5.
[Y ~ JV(12,97), K0S9(Y) = V97 • a0,99 + 12 = 34,9119]
4. V zásilce 15 výrobků je 5 nekvalitních. Náhodná veličina X udává počet nekvalitních výrobků mezi čtyřmi náhodně vybranými výrobky. Vypočtěte její střední hodnotu a rozptyl, jestliže výběr byl proveden a) s vracením, b) bez vracení. (Návod: v bodě (a) má X binomické rozložení, v bodě (b) hypergeometrické.)
[a) X ~ Bi(4, i), E(X) = f, D(X) = f, b) X ~ ffg(15,5,4), E(X) = f, D(X) = g]
5. Sledovaná železniční trasa vykazuje velké nerovnosti, takže zatížení jednotlivé vozové nápravy náhodně kolísá, teoreticky spojitým způsobem. Prakticky jsou známy jen částečné informace, takže uvažujeme o diskrétní náhodné veličině X (náhodné zatížení v tunách) s pravděpodobnostní funkcí n(x) = 0,15 pro x = 6, n(x) = 0,65 pro x = 30, n(x) = 0,2 pro x = 70, tt(x) = 0 jinak. Při kalkulaci nákladů se ekonom zajímá o střední opotřebení náprav dané vzorcem Y = 1,15X2. Vypočtěte střední hodnotu opotřebení. [E(Y) = 1,15 • E(X2) = 1805,96]
6. Počet různých druhů zboží, které zákazník nakoupí při jedné návštěvě obchodu, je náhodná veličina X. Dlouhodobým sledováním bylo zjištěno, že X nabývá hodnot 0,1,2,3,4 s pravděpodobnostmi 0,25,0,55, 0,11,0,07 a 0,02.
130
a) Najděte distribuční funkci náhodné veličiny X a nakreslete její graf.
b) Vypočtěte střední hodnotu náhodné veličiny X.
c) Vypočtěte rozptyl náhodné veličiny X.
[a) x e (-00,0) : í»(jc) = 0, x e (0,1) : 0(x) = 0,25, x e (1,2) : 0(x) = 0,8,
x e (2,3) : 0(x) = 0,91, x e (3,4) : 0(x) = 0,98, x e (4,00) : 0(x) = 1 1,2 -1
1,0 - _:-
0,8 - -
0,6 -0,4 -0,2 -
0,0--
-0,2 -|-1-1-1-1-1-1
-10 12 3 4 5
b) E{X) = 1,06, c) D(X) = 0,8164]
7. Střelec střílí 3x nezávisle na sobě do terče. Při každém výstřelu se trefí s pravděpodobností |. Za zásah získá 2 body, jinak ztratí 2 body. Vypočtěte střední hodnotu a rozptyl počtu získaných bodů.
[X - počet získaných bodů, X nabývá hodnot -6, -2, 2, 6 s pravděpodobnostmi i |j, g, g. £(X) = 3, = 9.]
8. Uvažme rodinu se třemi dětmi. Předpokládáme, že pravděpodobnost narození chlapce i dívky je stejná. Náhodná veličina X udává počet dívek v této rodině (má binomické rozložení) , transformovaná náhodná veličina Y = -100X2 + 300X + 500 udává roční náklady (v dolarech) na ošacení dětí. Vypočtěte střední hodnotu náhodné veličiny Y.
[X ~ Bi(3, i), E(X) = §, D(X) = f = E(X2) - [E(X)]2, tedy E(X2) = 3, E(Y) = -100 • E{X2) + 300 • E{X) + 500 = 650.]
9. V zásilce 10 výrobků je 8 kvalitních a 2 zmetky. Mezi kvalitními výrobky je 5 výrobků 1. jakosti a 3 výrobky 2. jakosti. Ze zásilky náhodně vybereme bez vracení 2 výrobky. Zavedeme náhodnou veličinu X\, která udává počet kvalitních výrobků ve výběru a náhodnou veličinu X2, která udává počet výrobků 1. jakosti ve výběru.
a) Najděte simultánní pravděpodobnostní funkci a obě marginální pravděpodobnostní funkce.
b) Vypočtěte koeficient korelace náhodných veličin Xi,X2.
c) Vyjádřete podmíněnou pravděpodobnostní funkci n\\2 {x\ \x2).
d) Vypočtěte podmíněnou střední hodnotu E (Xi |0) a podmíněný rozptyl D{XX |0).
[a)
x2 0 1 2 7Ti (Xi)
Xi n(xux2)
0 1/45 0 0 1/45
1 6/45 10/45 0 16/45
2 3/45 15/45 10/45 28/45
7T2 (X2) 10/45 25/45 10/45 1
131
10. Číselné charakteristiky náhodných veličin
b)R(XuX2) = 0,503, c)
x2 0 1 2
Xi 7Tl|2 (Xl \X2)
0 1/10 0 0
1 6/10 10/25 0
2 3/10 15/25 1
d)E(Xx |0) = 1,2, D (Xi |0) = 0,36]
10. Náhodná veličina X udává příjem manžela (v tisících dolarů) a náhodná veličina F udává příjem manželky (v tisících dolarů). Je známa simultánni pravděpodobnostní funkce tt(x, y) diskrétního náhodného vektoru (X, Y): tt(10, 10) = 0,2, tt(10,20) = 0,04, tt(10,30) = 0,01, tt(10,40) = 0, ?r(20,10) = 0,1, ?r(20,20) = 0,36, tt(20,30) = 0,09, tt(20,40) = 0, tt(30, 10) = 0, tt(30,20) = 0,05, tt(30,30) = 0,1, tt(30,40) = 0, tt(40, 10) = 0, tt(40, 20) = 0, tt(40, 30) = 0, tt(40, 40) = 0,05, n(x, y) = 0 jinak.
a) Vypočtěte korelační koeficient náhodných veličin X, Y.
b) Vypočtěte střední hodnotu a směrodatnou odchylku náhodné veličiny Z = 0,1X + 0,2F, která vyjadřuje příspěvek obou manželů na důchod. (Náhodná veličina Z vyjadřuje, že příspěvek na důchod činí 10 % manželova platu a 20 % manželčina platu.)
[a) R(X, Y) = = 0,76, b)E{Z) = 6, D(Z) = 5,36]
11. Náhodné veličiny X\,X2 mají kovarianci 12. Vypočtěte kovarianci náhodných veličin Fi = -8 + 1 lXi, F2 = 6 - 4X2. [-528]
12. Náhodná veličina X udává výšku v metrech a náhodná veličina F udává hmotnost v gramech. Jak se změní kovariance a koeficient korelace, jestliže výšku vyjádříme v cm a hmotnost v kg?
[Kovariance se lOx zmenší, koeficient korelace se nezmění.]
13. Náhodná veličina X má střední hodnotu jx a směrodatnou odchylku a. Kolik procent realizací této náhodné veličiny se bude nacházet v intervalu (jx -2(t,yu + 2(r)? [aspoň 75%]
14. Použijte Čebyševovu nerovnost II. typu k odhadu pravděpodobnosti, že při 600 hodech kostkou padne šestka aspoň 75x a nejvýše 125x. [aspoň 0,86]
132
Zákon velkých čísel a centrální limitní věta
11. Zákon velkých čísel a centrální limitní věta
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■ odhadnout pravděpodobnost, s níž se náhodná veličina realizuje v určité vzdálenosti od své střední hodnoty
■ odhadnout pravděpodobnost úspěchu v posloupnosti opakovaných nezávislých pokusů relativní četností tohoto úspěchu
■ aproximovat distribuční funkci binomického rozložení distribuční funkcí standardizovaného normálního rozložení
Časová zátěž
Na prostudování této kapitoly budete potřebovat asi 5 hodin studia.
V 5. kapitole, konkrétně v definici 5.6, jsme se seznámili s empirickým zákonem velkých čísel, který tvrdil, že při mnohonásobném nezávislém opakování téhož náhodného pokusu se relativní četnost jevu blíží pravděpodobnosti tohoto jevu. Jak uvidíme, je empirický zákon velkých čísel speciálním případem obecnějšího zákona velkých čísel. Tento důsledek uvedeme jako Bernoulliovu větu.
11.1. Motivace
Zákon velkých čísel vyjadřuje skutečnost, že s rostoucím počtem nezávislých opakování náhodného pokusu se empirické charakteristiky, které popisují výsledky těchto pokusů, blíží teoretickým charakteristikám, např. relativní četnost úspěchu se blíží pravděpodobnosti úspěchu, četnostní funkce se blíží pravděpodobnostní funkci, hustota četnosti se blíží hustotě pravděpodobnosti apod.
Centrální limitní věta tvrdí, že za jistých podmínek má součet nezávislých náhodných veličin s týmž rozložením přibližně normální rozložení. Normální rozložení je tedy rozložením limitním, k němuž se blíží všechna rozložení, proto hraje velmi důležitou roli v počtu pravděpodobnosti a matematické statistice.
11.2. Věta
Nechť {X„}™=1 je posloupnost stochasticky nezávislých náhodných veličin, které mají střední hodnoty jx a rozptyly a2. Pak pro posloupnost aritmetických průměrů
\ oo
\Í\x\ platí:
Ve > 0 : P
1 "
-T x,
n ^
< e
neboli
Ve > 0 : lim P
n—>oo
1 "
i=1
2
nsz
> e
= 0.
Uvedená věta se nazývá zákon velkých čísel nebo též Cebyševova věta. Její tvrzení říká, že posloupnost aritmetických průměrů konverguje podle pravděpodobnosti ke střední hodnotě jx. Tedy při dostatečně velkém počtu pokusů lze střední hodnotu odhadnout průměrem výsledků jednotlivých pokusů.
134
11.3. Důsledek
Nechť náhodná veličina Yn udává počet úspěchů v posloupnosti n opakovaných nezávislých pokusů, přičemž v každém pokusu nastává úspěch s pravděpodobností v. Podle definice 9.2c) Yn ~ Bi(n,v). Pak pro posloupnost relativních četností
(d platí:
Ve > 0 : P
n
< e > 1
ů(l-ů)
> 1
4ne2'
neboli
Ve > 0 : lim P
n—>oo
n
>e =0.
Tento důsledek Čebyševovy věty se nazývá Bernoulliova věta. Vyjadřuje skutečnost, že posloupnost relativních četností konverguje podle pravděpodobnosti k pravděpodobnosti úspěchu v. Tedy při dostatečně velkém počtu pokusů lze pravděpodobnost úspěchu odhadnout relativní četností úspěchu.
11.4. Příklad
Při výstupní kontrole bylo zjištěno, že mezi 3000 kontrolovanými výrobky je 12 zmetků. Jaká je pravděpodobnost, že relativní četnost výskytu zmetku se od pravděpodobnosti výskytu zmetku neliší o více než 0,01?
Řešení:
^3000 - počet zmetků mezi kontrolovanými výrobky, F30oo Podle Bernoulliovy věty dostáváme:
Ä(3000, v), v * 3^.
Ve > 0 : P
n
< e > 1
ů(l-ů)
> 1
4ns2
V našem případě e = 0,01, n = 3000, v « tedy
[3000
3000
ů
< 0,01 > 1
12 2988 3000 3000
3000 • 0,0001
= 0,872.
Již několikrát jsme se zmínili o tom, že normální rozložení je vůbec nej důležitější typ rozložení. Centrální limitní věta nám dá odpověď na otázku, proč tomu tak je.
11.5. Věta
Lindebergova-Lévyova centrální limitní věta. Nechť {X„}™=1 je posloupnost stochasticky nezávislých náhodných veličin, které mají všechny totéž rozložení se střední hodnotou jx a rozptylem a2. Pak pro posloupnost standardizovaných součtů
n
2 Xi - nix
Un = --;=—, n =1,2,...
cr y n
platí: V* e R : lim P(Un < x) = ©(*), kde O(jc) je distribuční funkce rozložení N(0,1).
1
11. Zákon velkých čísel a centrální limitní věta
Lindebergova-Lévyova centrální limitní věta říká, že pro dostatečně velká n (prakticky stačí n > 30) lze rozložení součtu stochasticky nezávislých a stejně rozložených náhodných veličin aproximovat normálním rozložením N(n/j., na2).
Při praktických výpočtech se často používá důsledek centrální limitní věty, a to Moivreova-Laplaceova věta, která za určitých podmínek umožní nahradit složitý výpočet distribuční funkce binomického rozložení jednoduchým hledáním v tabulkách hodnot distribuční funkce standardizovaného normálního rozložení. Pokud však máme k dispozici statistický software, dáme přednost přesnému výpočtu před aproximativním.
11.6. Důsledek
Moivreova-Laplaceova věta. Nechť {Yn}™=l je posloupnost stochasticky nezávislých náhodných veličin, Yn ~ Bi(n, v), n = 1,2,... Pak platí:
/ Yn — nů y — nů
Vy F IR : lim P(Y. < y) = lim P —< J
Vn#(l - #) ^Jnů(\-ů)i
y — nů
Vn0(l -#)/ kde Q>(x) je distribuční funkce rozložení N(0,1).
Moivreova-Laplaceova věta tvrdí, že za určitých podmínek lze binomické rozložení aproximovat standardizovaným normálním rozložením. Aproximace se považuje za vyhovující, když jsou splněny podmínky ^ < v < ^ a «v(l - v) > 9.
11.7. Příklad
Mezi dlužníky určité banky je 10 % klientů, kteří mají potíže se splácením dluhu, zbylých 90 % klientů potíže se splácením dluhu nemá. Jaká je pravděpodobnost, že mezi náhodně vybraným vzorkem 200 dlužníků jich bude mít problémy se splácením
a) 20 až 25;
b) nejvýše 10;
c) nejméně 30?
Řešení:
X - počet dlužníků, kteří mají problémy se splácením, X ~ 6/(200; 0,1), E(X) = 20, D(X) = 18. Nejdříve ověříme, zda jsou splněny podmínky, při kterých j e aproximace vyhovující:
1 200 200 • 0,1 • 0,9 = 18 > 9, ——- = 0,005 < 0,1 < ——- = 0,995,
200+ 1 200+1
tedy obě podmínky jsou splněny. Ad a)
P(20 «0,975 = 1,96 => y[ň > 29,4 => « > 865. Pro splnění podmínek je zapotřebí vybrat aspoň 865 zaměstnanců.
Shrnutí kapitoly
V této kapitole jsme ukázali, že již dříve vyslovený empirický zákon velkých čísel je speciálním případem obecnějšího zákona velkých čísel, který popisuje pravděpodobnostní chování posloupností aritmetických průměrů stochasticky nezávislých náhodných veličin s touž střední hodnotou a rozptylem. Důsledek tohoto zákona (zvaného též Cebyševova věta) jsme uvedli jako Bernoulliovu větu.
Seznámili jsme se též s Lindebergovou-Lévyovou centrální větou, která tvrdí, že za určitých podmínek lze rozložení součtu náhodných veličin s jakýmkoliv rozložením aproximovat normálním rozložením. Toto tvrzení tedy vysvětluje důležitost normálního rozložení. Historicky starší než tato věta je její důsledek uváděný
11. Zákon velkých čísel a centrální limitní věta
jako Moivreova-Laplaceova věta, která umožňuje aproximovat binomické rozložení normálním rozložením.
Kontrolní otázky a úkoly
1. Pravděpodobnost, že výrobek má 1. jakost, je v = 0,9. Kolik výrobků je třeba zkontrolovat, aby s pravděpodobností aspoň 0,99 bylo zaručeno, že rozdíl relativní četnosti počtu výrobků 1. jakosti a pravděpodobnosti v = 0,9 byl v absolutní hodnotě menší než 0,03? K výpočtu použijte jak Bernoulliovu větu, tak Moivreovu-Laplaceovu větu a výsledky porovnejte.
[Pomocí Bernoulliovy věty: n > 10000, pomocí Moivre-Laplaceovy věty: n > 666.]
2. Pravděpodobnost narození chlapce je 0,515. Jaká je pravděpodobnost, že mezi 10 000 novorozenci bude
a) více děvčat než chlapců,
b) chlapců od 5 000 do 5 300,
c) relativní četnost chlapců v mezích od 0,515 do 0,517?
[a) 0,00135, b) 0,9973, c) 0,15542]
3. Pravděpodobnost zásahu terče jedním výstřelem je 0,4. Kolikrát je třeba vystřelit, aby absolutní hodnota odchylky relativní četnosti zásahů od uvedené pravděpodobnosti byla menší než 0,02 s pravděpodobností aspoň 0,95?
[Je zapotřebí aspoň 2305 výstřelů.]
138
Příloha A - Statistické tabulky
Příloha A - Statistické tabulky
Distribuční funkce standardizovaného normálního rozložení
u 0(w) u 0(w) u u 0(ří)
0,00 0,50000 0,50 0,69146 1,00 0,84134 1,50 0,93319
0,01 0,50399 0,51 0,69497 1,01 0,84375 1,51 0,93448
0,02 0,50798 0,52 0,69847 1,02 0,84614 1,52 0,93574
0,03 0,51197 0,53 0,70194 1,03 0,84850 1,53 0,93699
0,04 0,51595 0,54 0,70540 1,04 0,85083 1,54 0,93822
0,05 0,51994 0,55 0,70884 1,05 0,85314 1,55 0,93943
0,06 0,52392 0,56 0,71226 1,06 0,85543 1,56 0,94062
0,07 0,52790 0,57 0,71566 1,07 0,85769 1,57 0,94179
0,08 0,53188 0,58 0,71904 1,08 0,85993 1,58 0,94295
0,09 0,53586 0,59 0,72240 1,09 0,86214 1,59 0,94408
0,10 0,53983 0,60 0,72575 1,10 0,86433 1,60 0,94520
0,11 0,54380 0,61 0,72907 1,11 0,86650 1,61 0,94630
0,12 0,54776 0,62 0,73237 1,12 0,86864 1,62 0,94738
0,13 0,55172 0,63 0,73565 1,13 0,87076 1,63 0,94845
0,14 0,55567 0,64 0,73891 1,14 0,87286 1,64 0,94950
0,15 0,55962 0,65 0,74215 1,15 0,87493 1,65 0,95053
0,16 0,56356 0,66 0,74537 1,16 0,87698 1,66 0,95154
0,17 0,56749 0,67 0,74857 1,17 0,87900 1,67 0,95254
0,18 0,57142 0,68 0,75175 1,18 0,88100 1,68 0,95352
0,19 0,57535 0,69 0,75490 1,19 0,88298 1,69 0,95449
0,20 0,57926 0,70 0,75804 1,20 0,88493 1,70 0,95543
0,21 0,58317 0,71 0,76115 1,21 0,88686 1,71 0,95637
0,22 0,58706 0,72 0,76424 1,22 0,88877 1,72 0,95728
0,23 0,59095 0,73 0,76730 1,23 0,89065 1,73 0,95818
0,24 0,59483 0,74 0,77035 1,24 0,89251 1,74 0,95907
0,25 0,59871 0,75 0,77337 1,25 0,89435 1,75 0,95994
0,26 0,60257 0,76 0,77637 1,26 0,89617 1,76 0,96080
0,27 0,60642 0,77 0,77935 1,27 0,89796 1,77 0,96164
0,28 0,61026 0,78 0,78230 1,28 0,89973 1,78 0,96246
0,29 0,61409 0,79 0,78524 1,29 0,90147 1,79 0,96327
0,30 0,61791 0,80 0,78814 1,30 0,90320 1,80 0,96407
0,31 0,62172 0,81 0,79103 1,31 0,90490 1,81 0,96485
0,32 0,62552 0,82 0,79389 1,32 0,90658 1,82 0,96562
0,33 0,62930 0,83 0,79673 1,33 0,90824 1,83 0,96638
0,34 0,63307 0,84 0,79955 1,34 0,90988 1,84 0,96712
0,35 0,63683 0,85 0,80234 1,35 0,91149 1,85 0,96784
0,36 0,64058 0,86 0,80511 1,36 0,91309 1,86 0,96856
0,37 0,64431 0,87 0,80785 1,37 0,91466 1,87 0,96926
0,38 0,64803 0,88 0,81057 1,38 0,91621 1,88 0,96995
0,39 0,65173 0,89 0,81327 1,39 0,91774 1,89 0,97062
0,40 0,65542 0,90 0,81594 1,40 0,91924 1,90 0,97128
0,41 0,65910 0,91 0,81859 1,41 0,92073 1,91 0,97193
0,42 0,66276 0,92 0,82121 1,42 0,92220 1,92 0,97257
0,43 0,66640 0,93 0,82381 1,43 0,92364 1,93 0,97320
0,44 0,67003 0,94 0,82639 1,44 0,92507 1,94 0,97381
0,45 0,67364 0,95 0,82894 1,45 0,92647 1,95 0,97441
0,46 0,67724 0,96 0,83147 1,46 0,92785 1,96 0,97500
0,47 0,68082 0,97 0,83398 1,47 0,92922 1,97 0,97558
0,48 0,68439 0,98 0,83646 1,48 0,93056 1,98 0,97615
0,49 0,68793 0,99 0,83891 1,49 0,93189 1,99 0,97670
(D(-M) = l - (D(M)
140
Distribuční funkce standardizovaného normálního rozložení
u 00) u 0(w) u u 0(ří)
2,00 0,97725 2,50 0,99379 3,00 0,99865 3,50 0,99977
2,01 0,97778 2,51 0,99396 3,01 0,99869 3,51 0,99978
2,02 0,97831 2,52 0,99413 3,02 0,99874 3,52 0,99978
2,03 0,97882 2,53 0,99430 3,03 0,99878 3,53 0,99979
2,04 0,97932 2,54 0,99446 3,04 0,99882 3,54 0,99980
2,05 0,97982 2,55 0,99461 3,05 0,99886 3,55 0,99981
2,06 0,98030 2,56 0,99477 3,06 0,99889 3,56 0,99981
2,07 0,98077 2,57 0,99492 3,07 0,99893 3,57 0,99982
2,08 0,98124 2,58 0,99506 3,08 0,99897 3,58 0,99983
2,09 0,98169 2,59 0,99520 3,09 0,99900 3,59 0,99983
2,10 0,98214 2,60 0,99534 3,10 0,99903 3,60 0,99984
2,11 0,98257 2,61 0,99547 3,11 0,99906 3,61 0,99985
2,12 0,98300 2,62 0,99560 3,12 0,99910 3,62 0,99985
2,13 0,98341 2,63 0,99573 3,13 0,99913 3,63 0,99986
2,14 0,98382 2,64 0,99585 3,14 0,99916 3,64 0,99986
2,15 0,98422 2,65 0,99598 3,15 0,99918 3,65 0,99987
2,16 0,98461 2,66 0,99609 3,16 0,99921 3,66 0,99987
2,17 0,98500 2,67 0,99621 3,17 0,99924 3,67 0,99988
2,18 0,98537 2,68 0,99632 3,18 0,99926 3,68 0,99988
2,19 0,98574 2,69 0,99643 3,19 0,99929 3,69 0,99989
2,20 0,98610 2,70 0,99653 3,20 0,99931 3,70 0,99989
2,21 0,98645 2,71 0,99664 3,21 0,99934 3,71 0,99990
2,22 0,98679 2,72 0,99674 3,22 0,99936 3,72 0,99990
2,23 0,98713 2,73 0,99683 3,23 0,99938 3,73 0,99990
2,24 0,98745 2,74 0,99693 3,24 0,99940 3,74 0,99991
2,25 0,98778 2,75 0,99702 3,25 0,99942 3,75 0,99991
2,26 0,98809 2,76 0,99711 3,26 0,99944 3,76 0,99992
2,27 0,98840 2,77 0,99720 3,27 0,99946 3,77 0,99992
2,28 0,98870 2,78 0,99728 3,28 0,99948 3,78 0,99992
2,29 0,98899 2,79 0,99736 3,29 0,99950 3,79 0,99992
2,30 0,98928 2,80 0,99744 3,30 0,99952 3,80 0,99993
2,31 0,98956 2,81 0,99752 3,31 0,99953 3,81 0,99993
2,32 0,98983 2,82 0,99760 3,32 0,99955 3,82 0,99993
2,33 0,99010 2,83 0,99767 3,33 0,99957 3,83 0,99994
2,34 0,99036 2,84 0,99774 3,34 0,99958 3,84 0,99994
2,35 0,99061 2,85 0,99781 3,35 0,99960 3,85 0,99994
2,36 0,99086 2,86 0,99788 3,36 0,99961 3,86 0,99994
2,37 0,99111 2,87 0,99795 3,37 0,99962 3,87 0,99995
2,38 0,99134 2,88 0,99801 3,38 0,99964 3,88 0,99995
2,39 0,99158 2,89 0,99807 3,39 0,99965 3,89 0,99995
2,40 0,99180 2,90 0,99813 3,40 0,99966 3,90 0,99995
2,41 0,99202 2,91 0,99819 3,41 0,99968 3,91 0,99995
2,42 0,99224 2,92 0,99825 3,42 0,99969 3,92 0,99996
2,43 0,99245 2,93 0,99831 3,43 0,99970 3,93 0,99996
2,44 0,99266 2,94 0,99836 3,44 0,99971 3,94 0,99996
2,45 0,99286 2,95 0,99841 3,45 0,99972 3,95 0,99996
2,46 0,99305 2,96 0,99846 3,46 0,99973 3,96 0,99996
2,47 0,99324 2,97 0,99851 3,47 0,99974 3,97 0,99996
2,48 0,99343 2,98 0,99856 3,48 0,99975 3,98 0,99997
2,49 0,99361 2,99 0,99861 3,49 0,99976 3,99 0,99997
(D(-M) = l - (D(M)
Příloha A - Statistické tabulky
Kvantily standardizovaného normálního rozložení
a ua a ua a ua a ua
0,500 0,00000 0,850 1,03643 0,930 1,47579 0,965 1,81191
0,510 0,02507 0,860 1,08032 0,931 1,48328 0,966 1,82501
0,520 0,05015 0,870 1,12639 0,932 1,49085 0,967 1,83842
0,530 0,07527 0,880 1,17499 0,933 1,49851 0,968 1,85218
0,540 0,10043 0,890 1,22653 0,934 1,50626 0,969 1,86630
0,550 0,12566 0,900 1,28155 0,935 1,51410 0,970 1,88079
0,560 0,15097 0,901 1,28727 0,936 1,52204 0,971 1,89570
0,570 0,17637 0,902 1,29303 0,937 1,53007 0,972 1,91104
0,580 0,20189 0,903 1,29884 0,938 1,53820 0,973 1,92684
0,590 0,22754 0,904 1,30469 0,939 1,54643 0,974 1,94313
0,600 0,25335 0,905 1,31058 0,940 1,55477 0,975 1,95996
0,610 0,27932 0,906 1,31652 0,941 1,56322 0,976 1,97737
0,620 0,30548 0,907 1,32251 0,942 1,57179 0,977 1,99539
0,630 0,33185 0,908 1,32854 0,943 1,58047 0,978 2,01409
0,640 0,35846 0,909 1,33462 0,944 1,58927 0,979 2,03352
0,650 0,38532 0,910 1,34076 0,945 1,59819 0,980 2,05375
0,660 0,41246 0,911 1,34694 0,946 1,60725 0,981 2,07485
0,670 0,43991 0,912 1,35317 0,947 1,61644 0,982 2,09693
0,680 0,46770 0,913 1,35946 0,948 1,62576 0,983 2,12007
0,690 0,49585 0,914 1,36581 0,949 1,63523 0,984 2,14441
0,700 0,52440 0,915 1,37220 0,950 1,64485 0,985 2,17009
0,710 0,55338 0,916 1,37866 0,951 1,65463 0,986 2,19729
0,720 0,58284 0,917 1,38517 0,952 1,66456 0,987 2,22621
0,730 0,61281 0,918 1,39174 0,953 1,67466 0,988 2,25713
0,740 0,64335 0,919 1,39838 0,954 1,68494 0,989 2,29037
0,750 0,67449 0,920 1,40507 0,955 1,69540 0,990 2,32635
0,760 0,70630 0,921 1,41183 0,956 1,70604 0,991 2,36562
0,770 0,73885 0,922 1,41865 0,957 1,71689 0,992 2,40892
0,780 0,77219 0,923 1,42554 0,958 1,72793 0,993 2,45726
0,790 0,80642 0,924 1,43250 0,959 1,73920 0,994 2,51214
0,800 0,84162 0,925 1,43953 0,960 1,75069 0,995 2,57583
0,810 0,87790 0,926 1,44663 0,961 1,76241 0,996 2,65207
0,820 0,91537 0,927 1,45381 0,962 1,77438 0,997 2,74778
0,830 0,95417 0,928 1,46106 0,963 1,78661 0,998 2,87816
0,840 0,99446 0,929 1,46838 0,964 1,79912 0,999 3,09023
142
Kvantily Pearsonova rozlozeni
n 0,001 0,005 a 0,010 0,025 0,050
0,001 0,005 0,010 0,025 0,050
1 0,000 0,000 0,000 0,001 0,004
2 0,002 0,010 0,020 0,051 0,103
3 0,024 0,072 0,115 0,216 0,352
4 0,091 0,207 0,297 0,484 0,711
5 0,210 0,412 0,554 0,831 1,145
6 0,381 0,676 0,872 1,237 1,635
7 0,598 0,989 1,239 1,690 2,167
8 0,857 1,344 1,646 2,180 2,733
9 1,152 1,735 2,088 2,700 3,325
10 1,479 2,156 2,558 3,247 3,940
11 1,834 2,603 3,053 3,816 4,575
12 2,214 3,074 3,571 4,404 5,226
13 2,617 3,565 4,107 5,009 5,892
14 3,041 4,075 4,660 5,629 6,571
15 3,483 4,601 5,229 6,262 7,261
16 3,942 5,142 5,812 6,908 7,962
17 4,416 5,697 6,408 7,564 8,672
18 4,905 6,265 7,015 8,231 9,390
19 5,407 6,844 7,633 8,907 10,117
20 5,921 7,434 8,260 9,591 10,851
21 6,447 8,034 8,897 10,283 11,591
22 6,983 8,643 9,542 10,982 12,338
23 7,529 9,260 10,196 11,689 13,091
24 8,085 9,886 10,856 12,401 13,848
25 8,649 10,520 11,524 13,120 14,611
26 9,222 11,160 12,198 13,844 15,379
27 9,803 11,808 12,879 14,573 16,151
28 10,391 12,461 13,565 15,308 16,928
29 10,986 13,121 14,256 16,047 17,708
30 11,588 13,787 14,953 16,791 18,493
35 14,688 17,192 18,509 20,569 22,465
40 17,916 20,707 22,164 24,433 26,509
45 21,251 24,311 25,901 28,366 30,612
50 24,674 27,991 29,707 32,357 34,764
55 28,173 31,735 33,570 36,398 38,958
60 31,738 35,534 37,485 40,482 43,188
65 35,362 39,383 41,444 44,603 47,450
70 39,036 43,275 45,442 48,758 51,739
75 42,757 47,206 49,475 52,942 56,054
80 46,520 51,172 53,540 57,153 60,391
85 50,320 55,170 57,634 61,389 64,749
90 54,155 59,196 61,754 65,647 69,126
95 58,022 63,250 65,898 69,925 73,520
100 61,918 67,328 70,065 74,222 77,929
Příloha A - Statistické tabulky
Kvantily Pearsonova rozložení
n 0,950 0,975 a 0,990 0,995 0,999
1 3,841 5,024 6,635 7,879 10,828
2 5,991 7,378 9,210 10,597 13,816
3 7,815 9,348 11,345 12,838 16,266
4 9,488 11,143 13,277 14,860 18,467
5 11,070 12,833 15,086 16,750 20,515
6 12,592 14,449 16,812 18,548 22,458
7 14,067 16,013 18,475 20,278 24,322
8 15,507 17,535 20,090 21,955 26,124
9 16,919 19,023 21,666 23,589 27,877
10 18,307 20,483 23,209 25,188 29,588
11 19,675 21,920 24,725 26,757 31,264
12 21,026 23,337 26,217 28,300 32,909
13 22,362 24,736 27,688 29,819 34,528
14 23,685 26,119 29,141 31,319 36,123
15 24,996 27,488 30,578 32,801 37,697
16 26,296 28,845 32,000 34,267 39,252
17 27,587 30,191 33,409 35,718 40,790
18 28,869 31,526 34,805 37,156 42,312
19 30,144 32,852 36,191 38,582 43,820
20 31,410 34,170 37,566 39,997 45,315
21 32,671 35,479 38,932 41,401 46,797
22 33,924 36,781 40,289 42,796 48,268
23 35,172 38,076 41,638 44,181 49,728
24 36,415 39,364 42,980 45,559 51,179
25 37,652 40,646 44,314 46,928 52,620
26 38,885 41,923 45,642 48,290 54,052
27 40,113 43,195 46,963 49,645 55,476
28 41,337 44,461 48,278 50,993 56,892
29 42,557 45,722 49,588 52,336 58,301
30 43,773 46,979 50,892 53,672 59,703
35 49,802 53,203 57,342 60,275 66,619
40 55,758 59,342 63,691 66,766 73,402
45 61,656 65,410 69,957 73,166 80,077
50 67,505 71,420 76,154 79,490 86,661
55 73,311 77,380 82,292 85,749 93,168
60 79,082 83,298 88,379 91,952 99,607
65 84,821 89,177 94,422 98,105 105,988
70 90,531 95,023 100,425 104,215 112,317
75 96,217 100,839 106,393 110,286 118,599
80 101,879 106,629 112,329 116,321 124,839
85 107,522 112,393 118,236 122,325 131,041
90 113,145 118,136 124,116 128,299 137,208
95 118,752 123,858 129,973 134,247 143,344
100 124,342 129,561 135,807 140,169 149,449
144
Kvantily Studentova rozložení
n 0,900 0,950 0,975 a 0,990 0,995 0,999
1 3,0777 6,3138 12,7062 31,8205 63,6567 318,3088
2 1,8856 2,9200 4,3027 6,9646 9,9248 22,3271
3 1,6377 2,3534 3,1824 4,5407 5,8409 10,2145
4 1,5332 2,1318 2,7764 3,7469 4,6041 7,1732
5 1,4759 2,0150 2,5706 3,3649 4,0321 5,8934
6 1,4398 1,9432 2,4469 3,1427 3,7074 5,2076
7 1,4149 1,8946 2,3646 2,9980 3,4995 4,7853
8 1,3968 1,8595 2,3060 2,8965 3,3554 4,5008
9 1,3830 1,8331 2,2622 2,8214 3,2498 4,2968
10 1,3722 1,8125 2,2281 2,7638 3,1693 4,1437
11 1,3634 1,7959 2,2010 2,7181 3,1058 4,0247
12 1,3562 1,7823 2,1788 2,6810 3,0545 3,9296
13 1,3502 1,7709 2,1604 2,6503 3,0123 3,8520
14 1,3450 1,7613 2,1448 2,6245 2,9768 3,7874
15 1,3406 1,7531 2,1314 2,6025 2,9467 3,7328
16 1,3368 1,7459 2,1199 2,5835 2,9208 3,6862
17 1,3334 1,7396 2,1098 2,5669 2,8982 3,6458
18 1,3304 1,7341 2,1009 2,5524 2,8784 3,6105
19 1,3277 1,7291 2,0930 2,5395 2,8609 3,5794
20 1,3253 1,7247 2,0860 2,5280 2,8453 3,5518
21 1,3232 1,7207 2,0796 2,5176 2,8314 3,5272
22 1,3212 1,7171 2,0739 2,5083 2,8188 3,5050
23 1,3195 1,7139 2,0687 2,4999 2,8073 3,4850
24 1,3178 1,7109 2,0639 2,4922 2,7969 3,4668
25 1,3163 1,7081 2,0595 2,4851 2,7874 3,4502
26 1,3150 1,7056 2,0555 2,4786 2,7787 3,4350
27 1,3137 1,7033 2,0518 2,4727 2,7707 3,4210
28 1,3125 1,7011 2,0484 2,4671 2,7633 3,4082
29 1,3114 1,6991 2,0452 2,4620 2,7564 3,3962
30 1,3104 1,6973 2,0423 2,4573 2,7500 3,3852
oo 1,2816 1,6449 1,9600 2,3263 2,5758 3,0000
Příloha A - Statistické tabulky
Kvantily Fisherova-Snedecorova rozložení pro a = 0,95
«2 1 2 3 «i 4 5 6 7
1 161,4500 199,5000 215,7074 224,5832 230,1619 233,9860 236,7684
2 18,5128 19,0000 19,1643 19,2468 19,2964 19,3295 19,3532
3 10,1280 9,5521 9,2766 9,1172 9,0135 8,9406 8,8867
4 7,7086 6,9443 6,5914 6,3882 6,2561 6,1631 6,0942
5 6,6079 5,7861 5,4095 5,1922 5,0503 4,9503 4,8759
6 5,9874 5,1433 4,7571 4,5337 4,3874 4,2839 4,2067
7 5,5914 4,7374 4,3468 4,1203 3,9715 3,8660 3,7870
8 5,3177 4,4590 4,0662 3,8379 3,6875 3,5806 3,5005
9 5,1174 4,2565 3,8625 3,6331 3,4817 3,3738 3,2927
10 4,9646 4,1028 3,7083 3,4780 3,3258 3,2172 3,1355
11 4,8443 3,9823 3,5874 3,3567 3,2039 3,0946 3,0123
12 4,7472 3,8853 3,4903 3,2592 3,1059 2,9961 2,9134
13 4,6672 3,8056 3,4105 3,1791 3,0254 2,9153 2,8321
14 4,6001 3,7389 3,3439 3,1122 2,9582 2,8477 2,7642
15 4,5431 3,6823 3,2874 3,0556 2,9013 2,7905 2,7066
16 4,4940 3,6337 3,2389 3,0069 2,8524 2,7413 2,6572
17 4,4513 3,5915 3,1968 2,9647 2,8100 2,6987 2,6143
18 4,4139 3,5546 3,1599 2,9277 2,7729 2,6613 2,5767
19 4,3807 3,5219 3,1274 2,8951 2,7401 2,6283 2,5435
20 4,3512 3,4928 3,0984 2,8661 2,7109 2,5990 2,5140
21 4,3248 3,4668 3,0725 2,8401 2,6848 2,5727 2,4876
22 4,3009 3,4434 3,0491 2,8167 2,6613 2,5491 2,4638
23 4,2793 3,4221 3,0280 2,7955 2,6400 2,5277 2,4422
24 4,2597 3,4028 3,0088 2,7763 2,6207 2,5082 2,4226
25 4,2417 3,3852 2,9912 2,7587 2,6030 2,4904 2,4047
26 4,2252 3,3690 2,9752 2,7426 2,5868 2,4741 2,3883
27 4,2100 3,3541 2,9604 2,7278 2,5719 2,4591 2,3732
28 4,1960 3,3404 2,9467 2,7141 2,5581 2,4453 2,3593
29 4,1830 3,3277 2,9340 2,7014 2,5454 2,4324 2,3463
30 4,1709 3,3158 2,9223 2,6896 2,5336 2,4205 2,3343
40 4,0847 3,2317 2,8387 2,6060 2,4495 2,3359 2,2490
60 4,0012 3,1504 2,7581 2,5252 2,3683 2,2541 2,1665
80 3,9604 3,1108 2,7188 2,4859 2,3287 2,2142 2,1263
120 3,9201 3,0718 2,6802 2,4472 2,2899 2,1750 2,0868
oo 3,8415 2,9957 2,6049 2,3719 2,2141 2,0986 2,0096
146
Kvantily Fisherova-Snedecorova rozložení pro a = 0,95
«2 8 9 10 «i 11 12 13 14
1 238,8827 240,5433 241,8818 242,9835 243,9060 244,6899 245,3640
2 19,3710 19,3848 19,3959 19,4050 19,4125 19,4189 19,4244
3 8,8452 8,8123 8,7855 8,7633 8,7446 8,7287 8,7149
4 6,0410 5,9988 5,9644 5,9358 5,9117 5,8911 5,8733
5 4,8183 4,7725 4,7351 4,7040 4,6777 4,6552 4,6358
6 4,1468 4,0990 4,0600 4,0274 3,9999 3,9764 3,9559
7 3,7257 3,6767 3,6365 3,6030 3,5747 3,5503 3,5292
8 3,4381 3,3881 3,3472 3,3130 3,2839 3,2590 3,2374
9 3,2296 3,1789 3,1373 3,1025 3,0729 3,0475 3,0255
10 3,0717 3,0204 2,9782 2,9430 2,9130 2,8872 2,8647
11 2,9480 2,8962 2,8536 2,8179 2,7876 2,7614 2,7386
12 2,8486 2,7964 2,7534 2,7173 2,6866 2,6602 2,6371
13 2,7669 2,7144 2,6710 2,6347 2,6037 2,5769 2,5536
14 2,6987 2,6458 2,6022 2,5655 2,5342 2,5073 2,4837
15 2,6408 2,5876 2,5437 2,5068 2,4753 2,4481 2,4244
16 2,5911 2,5377 2,4935 2,4564 2,4247 2,3973 2,3733
17 2,5480 2,4943 2,4499 2,4126 2,3807 2,3531 2,3290
18 2,5102 2,4563 2,4117 2,3742 2,3421 2,3143 2,2900
19 2,4768 2,4227 2,3779 2,3402 2,3080 2,2800 2,2556
20 2,4471 2,3928 2,3479 2,3100 2,2776 2,2495 2,2250
21 2,4205 2,3660 2,3210 2,2829 2,2504 2,2222 2,1975
22 2,3965 2,3419 2,2967 2,2585 2,2258 2,1975 2,1727
23 2,3748 2,3201 2,2747 2,2364 2,2036 2,1752 2,1502
24 2,3551 2,3002 2,2547 2,2163 2,1834 2,1548 2,1298
25 2,3371 2,2821 2,2365 2,1979 2,1649 2,1362 2,1111
26 2,3205 2,2655 2,2197 2,1811 2,1479 2,1192 2,0939
27 2,3053 2,2501 2,2043 2,1655 2,1323 2,1035 2,0781
28 2,2913 2,2360 2,1900 2,1512 2,1179 2,0889 2,0635
29 2,2783 2,2229 2,1768 2,1379 2,1045 2,0755 2,0500
30 2,2662 2,2107 2,1646 2,1256 2,0921 2,0630 2,0374
40 2,1802 2,1240 2,0772 2,0376 2,0035 1,9738 1,9476
60 2,0970 2,0401 1,9926 1,9522 1,9174 1,8870 1,8602
80 2,0564 1,9991 1,9512 1,9105 1,8753 1,8445 1,8174
120 2,0164 1,9588 1,9105 1,8693 1,8337 1,8026 1,7750
oo 1,9384 1,8799 1,8307 1,7886 1,7522 1,7202 1,6918
Příloha A - Statistické tabulky
Kvantily Fisherova-Snedecorova rozložení pro a = 0,95
«2 15 16 17 «i 18 19 20 25
1 245,9499 246,4639 246,9184 247,3232 247,6861 248,0131 249,2601
2 19,4291 19,4333 19,4370 19,4402 19,4431 19,4458 19,4558
3 8,7029 8,6923 8,6829 8,6745 8,6670 8,6602 8,6341
4 5,8578 5,8441 5,8320 5,8211 5,8114 5,8025 5,7687
5 4,6188 4,6038 4,5904 4,5785 4,5678 4,5581 4,5209
6 3,9381 3,9223 3,9083 3,8957 3,8844 3,8742 3,8348
7 3,5107 3,4944 3,4799 3,4669 3,4551 3,4445 3,4036
8 3,2184 3,2016 3,1867 3,1733 3,1613 3,1503 3,1081
9 3,0061 2,9890 2,9737 2,9600 2,9477 2,9365 2,8932
10 2,8450 2,8276 2,8120 2,7980 2,7854 2,7740 2,7298
11 2,7186 2,7009 2,6851 2,6709 2,6581 2,6464 2,6014
12 2,6169 2,5989 2,5828 2,5684 2,5554 2,5436 2,4977
13 2,5331 2,5149 2,4987 2,4841 2,4709 2,4589 2,4123
14 2,4630 2,4446 2,4282 2,4134 2,4000 2,3879 2,3407
15 2,4034 2,3849 2,3683 2,3533 2,3398 2,3275 2,2797
16 2,3522 2,3335 2,3167 2,3016 2,2880 2,2756 2,2272
17 2,3077 2,2888 2,2719 2,2567 2,2429 2,2304 2,1815
18 2,2686 2,2496 2,2325 2,2172 2,2033 2,1906 2,1413
19 2,2341 2,2149 2,1977 2,1823 2,1683 2,1555 2,1057
20 2,2033 2,1840 2,1667 2,1511 2,1370 2,1242 2,0739
21 2,1757 2,1563 2,1389 2,1232 2,1090 2,0960 2,0454
22 2,1508 2,1313 2,1138 2,0980 2,0837 2,0707 2,0196
23 2,1282 2,1086 2,0910 2,0751 2,0608 2,0476 1,9963
24 2,1077 2,0880 2,0703 2,0543 2,0399 2,0267 1,9750
25 2,0889 2,0691 2,0513 2,0353 2,0207 2,0075 1,9554
26 2,0716 2,0518 2,0339 2,0178 2,0032 1,9898 1,9375
27 2,0558 2,0358 2,0179 2,0017 1,9870 1,9736 1,9210
28 2,0411 2,0210 2,0030 1,9868 1,9720 1,9586 1,9057
29 2,0275 2,0073 1,9893 1,9730 1,9581 1,9446 1,8915
30 2,0148 1,9946 1,9765 1,9601 1,9452 1,9317 1,8782
40 1,9245 1,9037 1,8851 1,8682 1,8529 1,8389 1,7835
60 1,8364 1,8151 1,7959 1,7784 1,7625 1,7480 1,6902
80 1,7932 1,7716 1,7520 1,7342 1,7180 1,7032 1,6440
120 1,7505 1,7285 1,7085 1,6904 1,6739 1,6587 1,5980
oo 1,6640 1,6435 1,6228 1,6038 1,5865 1,5705 1,5061
148
Kvantily Fisherova-Snedecorova rozložení pro a = 0,95
«2 30 40 n 60 80 120 oo
1 250,0952 251,1432 252,1957 252,7237 253,2529 254,3100
2 19,4624 19,4707 19,4791 19,4832 19,4874 19,4960
3 8,6166 8,5944 8,5720 8,5607 8,5494 8,5264
4 5,7459 5,7170 5,6877 5,6730 5,6581 5,6281
5 4,4957 4,4638 4,4314 4,4150 4,3985 4,3650
6 3,8082 3,7743 3,7398 3,7223 3,7047 3,6689
7 3,3758 3,3404 3,3043 3,2860 3,2674 3,2298
8 3,0794 3,0428 3,0053 2,9862 2,9669 2,9276
9 2,8637 2,8259 2,7872 2,7675 2,7475 2,7067
10 2,6996 2,6609 2,6211 2,6008 2,5801 2,5379
11 2,5705 2,5309 2,4901 2,4692 2,4480 2,4045
12 2,4663 2,4259 2,3842 2,3628 2,3410 2,2962
13 2,3803 2,3392 2,2966 2,2747 2,2524 2,2064
14 2,3082 2,2664 2,2229 2,2006 2,1778 2,1307
15 2,2468 2,2043 2,1601 2,1373 2,1141 2,0658
16 2,1938 2,1507 2,1058 2,0826 2,0589 2,0096
17 2,1477 2,1040 2,0584 2,0348 2,0107 1,9604
18 2,1071 2,0629 2,0166 1,9927 1,9681 1,9168
19 2,0712 2,0264 1,9795 1,9552 1,9302 1,8780
20 2,0391 1,9938 1,9464 1,9217 1,8963 1,8432
21 2,0102 1,9645 1,9165 1,8915 1,8657 1,8117
22 1,9842 1,9380 1,8894 1,8641 1,8380 1,7831
23 1,9605 1,9139 1,8648 1,8392 1,8128 1,7570
24 1,9390 1,8920 1,8424 1,8164 1,7896 1,7330
25 1,9192 1,8718 1,8217 1,7955 1,7684 1,7110
26 1,9010 1,8533 1,8027 1,7762 1,7488 1,6906
27 1,8842 1,8361 1,7851 1,7584 1,7306 1,6717
28 1,8687 1,8203 1,7689 1,7418 1,7138 1,6541
29 1,8543 1,8055 1,7537 1,7264 1,6981 1,6376
30 1,8409 1,7918 1,7396 1,7121 1,6835 1,6223
40 1,7444 1,6928 1,6373 1,6077 1,5766 1,5089
60 1,6491 1,5943 1,5343 1,5019 1,4673 1,3893
80 1,6017 1,5449 1,4821 1,4477 1,4107 1,3247
120 1,5543 1,4952 1,4290 1,3922 1,3519 1,2539
oo 1,4591 1,3940 1,3180 1,2735 1,2214 1,0000
Příloha A - Statistické tabulky
Kvantily Fisherova-Snedecorova rozložení pro a = 0,975
«2 1 2 3 «i 4 5 6 7
1 647,7890 799,5000 864,1630 899,5833 921,8479 937,1111 948,2169
2 38,5063 39,0000 39,1655 39,2484 39,2982 39,3315 39,3552
3 17,4434 16,0441 15,4392 15,1010 14,8848 14,7347 14,6244
4 12,2179 10,6491 9,9792 9,6045 9,3645 9,1973 9,0741
5 10,0070 8,4336 7,7636 7,3879 7,1464 6,9777 6,8531
6 8,8131 7,2599 6,5988 6,2272 5,9876 5,8198 5,6955
7 8,0727 6,5415 5,8898 5,5226 5,2852 5,1186 4,9949
8 7,5709 6,0595 5,4160 5,0526 4,8173 4,6517 4,5286
9 7,2093 5,7147 5,0781 4,7181 4,4844 4,3197 4,1970
10 6,9367 5,4564 4,8256 4,4683 4,2361 4,0721 3,9498
11 6,7241 5,2559 4,6300 4,2751 4,0440 3,8807 3,7586
12 6,5538 5,0959 4,4742 4,1212 3,8911 3,7283 3,6065
13 6,4143 4,9653 4,3472 3,9959 3,7667 3,6043 3,4827
14 6,2979 4,8567 4,2417 3,8919 3,6634 3,5014 3,3799
15 6,1995 4,7650 4,1528 3,8043 3,5764 3,4147 3,2934
16 6,1151 4,6867 4,0768 3,7294 3,5021 3,3406 3,2194
17 6,0420 4,6189 4,0112 3,6648 3,4379 3,2767 3,1556
18 5,9781 4,5597 3,9539 3,6083 3,3820 3,2209 3,0999
19 5,9216 4,5075 3,9034 3,5587 3,3327 3,1718 3,0509
20 5,8715 4,4613 3,8587 3,5147 3,2891 3,1283 3,0074
21 5,8266 4,4199 3,8188 3,4754 3,2501 3,0895 2,9686
22 5,7863 4,3828 3,7829 3,4401 3,2151 3,0546 2,9338
23 5,7498 4,3492 3,7505 3,4083 3,1835 3,0232 2,9023
24 5,7166 4,3187 3,7211 3,3794 3,1548 2,9946 2,8738
25 5,6864 4,2909 3,6943 3,3530 3,1287 2,9685 2,8478
26 5,6586 4,2655 3,6697 3,3289 3,1048 2,9447 2,8240
27 5,6331 4,2421 3,6472 3,3067 3,0828 2,9228 2,8021
28 5,6096 4,2205 3,6264 3,2863 3,0626 2,9027 2,7820
29 5,5878 4,2006 3,6072 3,2674 3,0438 2,8840 2,7633
30 5,5675 4,1821 3,5894 3,2499 3,0265 2,8667 2,7460
40 5,4239 4,0510 3,4633 3,1261 2,9037 2,7444 2,6238
60 5,2856 3,9253 3,3425 3,0077 2,7863 2,6274 2,5068
80 5,2184 3,8643 3,2841 2,9504 2,7295 2,5708 2,4502
120 5,1523 3,8046 3,2269 2,8943 2,6740 2,5154 2,3948
oo 5,0239 3,6889 3,1161 2,7858 2,5665 2,4082 2,2875
150
Kvantily Fisherova-Snedecorova rozložení pro a = 0,975
«2 8 9 10 «i 11 12 13 14
1 956,6562 963,2846 968,6274 973,0252 976,7080 979,8368 982,5278
2 39,3730 39,3869 39,3980 39,4071 39,4146 39,4210 39,4265
3 14,5399 14,4731 14,4189 14,3742 14,3366 14,3045 14,2768
4 8,9796 8,9047 8,8439 8,7935 8,7512 8,7150 8,6838
5 6,7572 6,6811 6,6192 6,5678 6,5245 6,4876 6,4556
6 5,5996 5,5234 5,4613 5,4098 5,3662 5,3290 5,2968
7 4,8993 4,8232 4,7611 4,7095 4,6658 4,6285 4,5961
8 4,4333 4,3572 4,2951 4,2434 4,1997 4,1622 4,1297
9 4,1020 4,0260 3,9639 3,9121 3,8682 3,8306 3,7980
10 3,8549 3,7790 3,7168 3,6649 3,6209 3,5832 3,5504
11 3,6638 3,5879 3,5257 3,4737 3,4296 3,3917 3,3588
12 3,5118 3,4358 3,3736 3,3215 3,2773 3,2393 3,2062
13 3,3880 3,3120 3,2497 3,1975 3,1532 3,1150 3,0819
14 3,2853 3,2093 3,1469 3,0946 3,0502 3,0119 2,9786
15 3,1987 3,1227 3,0602 3,0078 2,9633 2,9249 2,8915
16 3,1248 3,0488 2,9862 2,9337 2,8890 2,8506 2,8170
17 3,0610 2,9849 2,9222 2,8696 2,8249 2,7863 2,7526
18 3,0053 2,9291 2,8664 2,8137 2,7689 2,7302 2,6964
19 2,9563 2,8801 2,8172 2,7645 2,7196 2,6808 2,6469
20 2,9128 2,8365 2,7737 2,7209 2,6758 2,6369 2,6030
21 2,8740 2,7977 2,7348 2,6819 2,6368 2,5978 2,5638
22 2,8392 2,7628 2,6998 2,6469 2,6017 2,5626 2,5285
23 2,8077 2,7313 2,6682 2,6152 2,5699 2,5308 2,4966
24 2,7791 2,7027 2,6396 2,5865 2,5411 2,5019 2,4677
25 2,7531 2,6766 2,6135 2,5603 2,5149 2,4756 2,4413
26 2,7293 2,6528 2,5896 2,5363 2,4908 2,4515 2,4171
27 2,7074 2,6309 2,5676 2,5143 2,4688 2,4293 2,3949
28 2,6872 2,6106 2,5473 2,4940 2,4484 2,4089 2,3743
29 2,6686 2,5919 2,5286 2,4752 2,4295 2,3900 2,3554
30 2,6513 2,5746 2,5112 2,4577 2,4120 2,3724 2,3378
40 2,5289 2,4519 2,3882 2,3343 2,2882 2,2481 2,2130
60 2,4117 2,3344 2,2702 2,2159 2,1692 2,1286 2,0929
80 2,3549 2,2775 2,2130 2,1584 2,1115 2,0706 2,0346
120 2,2994 2,2217 2,1570 2,1021 2,0548 2,0136 1,9773
oo 2,1918 2,1136 2,0483 1,9927 1,9447 1,9027 1,8656
Příloha A - Statistické tabulky
Kvantily Fisherova-Snedecorova rozložení pro a = 0,975
«2 15 16 17 «i 18 19 20 25
1 984,8668 986,9187 988,7331 990,3490 991,7973 993,1028 998,0808
2 39,4313 39,4354 39,4391 39,4424 39,4453 39,4479 39,4579
3 14,2527 14,2315 14,2127 14,1960 14,1810 14,1674 14,1155
4 8,6565 8,6326 8,6113 8,5924 8,5753 8,5599 8,5010
5 6,4277 6,4032 6,3814 6,3619 6,3444 6,3286 6,2679
6 5,2687 5,2439 5,2218 5,2021 5,1844 5,1684 5,1069
7 4,5678 4,5428 4,5206 4,5008 4,4829 4,4667 4,4045
8 4,1012 4,0761 4,0538 4,0338 4,0158 3,9995 3,9367
9 3,7694 3,7441 3,7216 3,7015 3,6833 3,6669 3,6035
10 3,5217 3,4963 3,4737 3,4534 3,4351 3,4185 3,3546
11 3,3299 3,3044 3,2816 3,2612 3,2428 3,2261 3,1616
12 3,1772 3,1515 3,1286 3,1081 3,0896 3,0728 3,0077
13 3,0527 3,0269 3,0039 2,9832 2,9646 2,9477 2,8821
14 2,9493 2,9234 2,9003 2,8795 2,8607 2,8437 2,7777
15 2,8621 2,8360 2,8128 2,7919 2,7730 2,7559 2,6894
16 2,7875 2,7614 2,7380 2,7170 2,6980 2,6808 2,6138
17 2,7230 2,6968 2,6733 2,6522 2,6331 2,6158 2,5484
18 2,6667 2,6404 2,6168 2,5956 2,5764 2,5590 2,4912
19 2,6171 2,5907 2,5670 2,5457 2,5265 2,5089 2,4408
20 2,5731 2,5465 2,5228 2,5014 2,4821 2,4645 2,3959
21 2,5338 2,5071 2,4833 2,4618 2,4424 2,4247 2,3558
22 2,4984 2,4717 2,4478 2,4262 2,4067 2,3890 2,3198
23 2,4665 2,4396 2,4157 2,3940 2,3745 2,3567 2,2871
24 2,4374 2,4105 2,3865 2,3648 2,3452 2,3273 2,2574
25 2,4110 2,3840 2,3599 2,3381 2,3184 2,3005 2,2303
26 2,3867 2,3597 2,3355 2,3137 2,2939 2,2759 2,2054
27 2,3644 2,3373 2,3131 2,2912 2,2713 2,2533 2,1826
28 2,3438 2,3167 2,2924 2,2704 2,2505 2,2324 2,1615
29 2,3248 2,2976 2,2732 2,2512 2,2313 2,2131 2,1419
30 2,3072 2,2799 2,2554 2,2334 2,2134 2,1952 2,1237
40 2,1819 2,1542 2,1293 2,1068 2,0864 2,0677 1,9943
60 2,0613 2,0330 2,0076 1,9846 1,9636 1,9445 1,8687
80 2,0026 1,9741 1,9483 1,9250 1,9037 1,8843 1,8071
120 1,9450 1,9161 1,8900 1,8663 1,8447 1,8249 1,7462
oo 1,8326 1,8028 1,7759 1,7515 1,7291 1,7085 1,6259
152
Kvantily Fisherova-Snedecorova rozložení pro a = 0,975
«2 30 40 «i 60 80 120 oo
1 1001,4140 1005,5980 1009,8000 1011,9080 1014,0200 1018,3000
2 39,4646 39,4729 39,4812 39,4854 39,4896 39,4980
3 14,0805 14,0365 13,9921 13,9697 13,9473 13,9020
4 8,4613 8,4111 8,3604 8,3349 8,3092 8,2573
5 6,2269 6,1750 6,1225 6,0960 6,0693 6,0153
6 5,0652 5,0125 4,9589 4,9318 4,9044 4,8491
7 4,3624 4,3089 4,2544 4,2268 4,1989 4,1423
8 3,8940 3,8398 3,7844 3,7563 3,7279 3,6702
9 3,5604 3,5055 3,4493 3,4207 3,3918 3,3329
10 3,3110 3,2554 3,1984 3,1694 3,1399 3,0798
11 3,1176 3,0613 3,0035 2,9740 2,9441 2,8828
12 2,9633 2,9063 2,8478 2,8178 2,7874 2,7249
13 2,8372 2,7797 2,7204 2,6900 2,6590 2,5955
14 2,7324 2,6742 2,6142 2,5833 2,5519 2,4872
15 2,6437 2,5850 2,5242 2,4930 2,4611 2,3953
16 2,5678 2,5085 2,4471 2,4154 2,3831 2,3163
17 2,5020 2,4422 2,3801 2,3481 2,3153 2,2474
18 2,4445 2,3842 2,3214 2,2890 2,2558 2,1869
19 2,3937 2,3329 2,2696 2,2368 2,2032 2,1333
20 2,3486 2,2873 2,2234 2,1902 2,1562 2,0853
21 2,3082 2,2465 2,1819 2,1485 2,1141 2,0422
22 2,2718 2,2097 2,1446 2,1108 2,0760 2,0032
23 2,2389 2,1763 2,1107 2,0766 2,0415 1,9677
24 2,2090 2,1460 2,0799 2,0454 2,0099 1,9353
25 2,1816 2,1183 2,0516 2,0169 1,9811 1,9055
26 2,1565 2,0928 2,0257 1,9907 1,9545 1,8781
27 2,1334 2,0693 2,0018 1,9665 1,9299 1,8527
28 2,1121 2,0477 1,9797 1,9441 1,9072 1,8291
29 2,0923 2,0276 1,9591 1,9232 1,8861 1,8072
30 2,0739 2,0089 1,9400 1,9039 1,8664 1,7867
40 1,9429 1,8752 1,8028 1,7644 1,7242 1,6371
60 1,8152 1,7440 1,6668 1,6252 1,5810 1,4821
80 1,7523 1,6790 1,5987 1,5549 1,5079 1,3997
120 1,6899 1,6141 1,5299 1,4834 1,4327 1,3104
oo 1,5660 1,4835 1,3883 1,3329 1,2684 1,0000
Příloha A - Statistické tabulky
154
Příloha B - Základní informace o programu STATISTICA
Příloha B - Základní informace o programu STATISTICA
Systém má modulární stavbu. V multilicenci pro Masarykovu univerzitu jsou k dispozici moduly: Basic Statistics/Tables, Multiple Regression, ANOVA, Nonparametrics, Distribu-tion Fitting, Advanced Linear/Nonlinear Models, Multivariate Explorartory Techniques, Industrial Statistics & Six Sigma.
Velké množství informací o systému STATISTICA lze najít na webové stránce společnosti StatSoft, která je jejím distributorem v České republice (internetová adresa stránek je www.statsoft.cz).Z této stránky vede rovněž odkaz na elektronickou učebnici statistiky.
Ovládání systému STATISTICA se může jemně lišit dle použité verze programu.
STATISTICA má několik typů oken:
■ spreadsheet (datové okno, má příponu sta, jeho obsah však lze exportovat i v jiných formátech). Do datového okna lze načítat datové soubory nejrůznějších typů (např. z tabulkových procesorů, databázové soubory, ASCII soubory).
■ workbook (má příponu stw). Do workbooku ukládají výstupy, tj. tabulky a grafy. Skládá se ze dvou oken, v levém okně je znázorněna stromová struktura výstupů, v pravém jsou samotné výstupy. V levém okně se lze pohybovat myší nebo kurzorem, mazat, přesouvat, editovat apod. Výstupy mohou sloužit jako vstupy pro další analýzy a grafy.
■ report (má příponu str, lze ho uložit i ve formátu rtf, txt či htm). Pokud požadujeme, aby se výstupy ukládaly nejen do workbooku, ale i do reportu, postupujeme takto: Tools - Options - Output Manager - zaškrtneme Also send to Report Window -OK. Report se podobně jako workbook skládá ze dvou oken. Do reportu můžeme vkládat vlastní text, vysvětlující komentáře, poznámky apod. Tabulky a grafy lze v reportu i workbooku dále upravovat.
■ okno grafů (přípona stg, lze ho uložit i jako bmp, jpg, png a wmf). Získá se tak, že ve workbooku klikneme pravým tlačítkem na graf a vybereme Clone Graph.
■ programovací okno (přípona svb). Slouží pro zápis programů v jazyku STATISTICA Visual Basic. Mezi jednotlivými typy oken se přepínáme pomocí položky Window v hlavním menu.
B.1. Bodové zpracování četností
1. Zapište do datového okna programu STATISTICA datový soubor, který bude obsahovat známky z matematiky, angličtiny a údaje o pohlaví dvaceti studentů (viz příklad 1.10).
Návod: File - New - Number of variables 3, Number of cases 20, OK.
2. Znaky nazvěte X, Y, Z, vytvořte jim návěští (X - známka z matematiky, Y - známka z angličtiny, Z - pohlaví studenta) a popište, co znamenají jednotlivé varianty (u znaků X a Y: 1 - výborně, 2 - velmi dobře, 3 - dobře, 4 - neprospěl, u znaku Z: 0 - žena, 1 - muž). Soubor uložte pod názvem známky.sta.
Návod: Kurzor nastavíme na Varl - 2x klikneme myší - Name X - Long Name známka z matematiky, Text label - 1 výborně, 2 velmi dobře, 3 dobře, 4 neprospěl, OK. U proměnné Y lze text label okopírovat z proměnné X - v Text Labels Editor zvolíme Copy from variable X.
Přepínání mezi číselnými hodnotami a jejich textovým popisem se děje pomocí tlačítka s obrázkem štítku.
3. U znaků X a Y vypočtěte absolutní četnosti, relativní četnosti a relativní kumulativní četnosti.
Návod: Statistics - Basic Statistics/Tables - Frequency tables - OK - Variables X, Y, OK - Summary. Obě dvě tabulky se uloží do workbooku a listovat v nich můžeme pomocí stromové struktury v levém okně.
4. Vytvořte sloupkový diagram absolutních četností znaků X a Y
Návod: Graphs - Histograms - Variables X, Y - OK - vypneme Normal fit -Advanced - zaškrtneme Breaks between Columns, OK.
Vytvořte výsečový diagram absolutních četností znaků X a Y
Návod: Graphs - 2D Graphs - Pie Charts - Variables X, Y - OK - Advanced - Pie
legend Text and Percent (nebo Text and Value) - OK.
Vytvořte polygon absolutních četností znaků X a Y
Návod: ve workbooku vstoupíme do tabulky rozložení četností proměnné X. Pomocí Edit - Delete - Cases vymažeme řádek označený Missing. Nastavíme se kurzorem na Count - Graphs - Graphs of Block Data - Line Plot:Entire Columns. Vykreslí se polygon četností.
5. Vytvořte graf empirické distribuční funkce znaku X.
Návod: Při tvorbě histogramu zadáme v Advanced volbu Showing Type Cumulative, Y axis % - 2x klikneme myší na pozadí grafu - otevře se okno All Options -vybereme Plot: Bars - Type Rectangles. V tomto grafu jsou však svislé čáry až k vodorovné ose. Lze použít i jiný typ grafu: vytvoříme nový datový soubor, který bude mít dvě proměnné a případů o dva víc než je počet variant znaku X. Do 1. proměnné zapíšeme do 1. řádku hodnotu o 1 menší než je 1. varianta znaku X, pak varianty znaku X a nakonec hodnotu o 1 větší než je poslední varianta znaku X. Do 2. proměnné zapíšeme 0, pak relativní kumulativní četnosti znaku X (v procentech) a nakonec 100. Graphs - Scatterplots -Variables VI, V2 - OK - vypneme Linear fit -OK - 2x klikneme na pozadí grafu - Plot:General - vypneme Markers, zaškrtneme Line - Line Type: Step - OK.
Vytvořte graf četnostní funkce znaku X.
Návod: Při tvorbě histogramu zadáme v Advanced Y axis % - 2x klikneme myší na pozadí grafu - vybereme Plot General - zaškrtneme Markers - vybereme Plot:Bars - Type Lines.
157
Příloha B - Základní informace o programu STATISTICA
6. Z datového souboru vyberte pouze ženy (pouze muže) a úkol 3 proveďte pro ženy (pro muže). Návod: Statistics - Basic Statistics/Tables - Frequency tables - OK -Variables X, Y, OK - Select Cases - zaškrtneme Selection Conditions - Include cases - zaškrtneme Specific, selected by Z = 0, OK.
7. Nadále pracujte s celým datovým souborem. Vytvořte kontingenční tabulku absolutních četností znaků X a Y a graf simultánní četností funkce.
Návod: Statistics - Basic Statistics/Tables - Tables and banners - OK - Select cases - All - OK - Specify tables - List 1 X, List 2 Y, OK, Summary. Vytvoření grafu simultánní četnostní funkce: Návrat do Crosstabulation Tables Result - 3D histograms - vybereme Axis Scaling - Mode Manual - Minimum 0 (a totéž provedeme pro Axis Y) - dále vybereme Graph Layout - Type - Spikes - OK. Graf lze natáčet pomocí Point of View.
Vytvořte kontingenční tabulku sloupcově a řádkově podmíněných relativních četností znaků X a Y.
Návod: Návrat do Crosstabulation Tables Result - Options - zaškrtneme ve sloupci Compute tables volbu Percentages of column counts (resp. Percentages of row counts).
158
B.2. Intervalové zpracování četností
1. Zapište do datového okna programu STATISTICA datový soubor, který bude obsahovat údaje o mezi plasticity oceli a mezi pevnosti (viz příklad 2.13). Proměnným X a Y vytvořte návěští „mez plasticity" a „mez pevnosti". Soubor pak uložte pod názvem ocel. sta.
Návod: „Bodové zpracování četností", 1. a 2. úkol.
2. Pro X a Y použijeme intervalové zpracování četností.
Návod: Datový soubor má rozsah 60, volíme proto podle Sturgesova pravidla 7 třídicích intervalů. Dále musíme zjistit minimum a maximum, abychom vhodně stanovili třídicí intervaly.
Návod: Statistics - Basic Statistics/Tables - Descriptive statistics - Variables X, Y -zaškrtneme Minimum & maximum - Summary. (Pro X je minimum 33 a maximum 160, tedy vhodná volba třídicích intervalu je (30,50), (50,70),..., (150,170) - viz příklad 2.13, pro Y je minimum 52 a maximum 189, tedy třídicí intervaly zvolíme (50,70), (70,90), ... (170,190) - viz příklad 2.19.)
3. Vytvořte histogram pro X a pro Y
Návod: Graphs - Histograms - Variables X - vypneme Normal fit - Advanced -zaškrtneme Boundaries - Specify Boundaries - 50 70 90 110 130 150 170 OK - Y Axis %. 2x klikneme na pozadí grafu a ve volbě All Options můžeme měnit různé vlastnosti grafu.
Upozornění: STATISTICA v histogramu znázorňuje relativní četnost výškou obdélníku, nikoliv jeho plochou, což není v souladu s definicí 2.14.
4. Proveďte zakódování hodnot proměnných X a Y do příslušných třídicích intervalů. Návod: Insert - Add Variables - 2 - After Y - OK - přejmenujeme je na RX a RY Nastavíme se kurzorem na RX - Data - Recode - vyplníme podmínky pro všech 7 kategorií. (Pozor - podmínky se musí psát ve tvaru X>30 and X<=50 atd.). Pak klepneme na OK. Analogicky pro Y
5. Vytvořte graf intervalové empirické distribuční funkce pro X.
Návod: Vytvoříme Frequency table pro RX. Před 1. případ vložíme řádek, kde do Category napíšeme 0 a do Cumulative Count také 0. Nastavíme se kurzorem na Cumulative Percent - Graphs - Graphs of Block Data - Custom Graph from Block by Column - Line Plots (Variables) - OK. 2x klikneme na pozadí grafu -Plot: General - vypneme Markers - Axis: Scaling - Mode Manual - Minimum 1, Maximum 9 - Axis: Custom Units - Position 1, Text 30 atd až Position 9, Text 190 -OK.
6. Sestavte kontingenční tabulky absolutních četností (relativních četností, sloupcově a řádkově podmíněných relativních četností) dvourozměrných třídících intervalů pro (X,Y).
Návod: Viz úkol č. 6 v „Bodovém zpracování četností", kde budeme pracovat s proměnnými RX a RY
159
Příloha B - Základní informace o programu STATISTICA
B.3. Výpočet číselných charakteristik jednorozměrného a dvourozměrného souboru, regresní přímka
1. Načtěte soubor znamky.sta. Pro známky z matematiky a angličtiny vypočtěte medián, dolní a horní kvartil a kvartilovou odchylku. Výsledky porovnejte s příkladem 3.5. Návod: Stastistics - Basic Statistics/Tables - Descriptive Statistics - OK - Variables X, Y, OK - zaškrtneme Median, Lower & upper quartiles, Quartile range - Summary.
2. Načtěte soubor ocel.sta. Pro mez plasticity a mez pevnosti vypočtěte aritmetické průměry, směrodatné odchylky a rozptyly. Výsledky porovnejte s příkladem 3.17. Návod: Návod: Stastistics - Basic Statistics/Tables - Descriptive Statistics - OK -Variables X, Y, OK - zaškrtneme Mean, Standard Deviation, Variance - Summary. Vysvětlení: Rozptyl a směrodatná odchylka vyjdou ve STATISTICE jinak než v příkladu 3.17, protože STATISTICA ve vzorci pro výpočet rozptylu nepoužívá \/n, ale l/(n- 1).
3. Nakreslete dvourozměrný tečkový diagram pro (X,Y).
Návod: Graphs - Scatterplots - Variables X,Y - OK - vypneme Linear fit - OK.
4. Vypočtěte kovarianci a koeficient korelace meze plasticity a meze pevnosti. Výsledky porovnejte s příkladem 3.17.
Návod: Statistics - Multiple Regression - Variables Independent X, Dependent Y -OK - OK - Residuals/assumption-prediction - Descriptive statistics - Covariances. Pro získání korelačního koeficientu zvolíme Correlation místo Covariances. Vysvětlení: Kovariance vyjde ve STATISTICE jinak než v příkladu 3.17, protože ve STATISTICE se ve vzorci pro výpočet kovariance nepoužívá l/n, ale l/(« - 1).
5. Určete koeficienty regresní přímky meze pevnosti na mez plasticity a stanovte index determinace. Určete regresní odhad meze pevnosti, je-li mez plasticity 110. Nakreslete regresní přímku do dvourozměrného tečkového diagramu.
Návod: V tabulce Multiple Regression zvolíme Variables Independent X, Dependent
Y - OK - Summary:Regression results. Ve výstupní tabulce najdeme koeficient bo ve sloupci B na řádku označeném Intercept, koeficient b\ ve sloupci B na řádku označeném X, index determinace pod označením R2.
Pro výpočet predikované hodnoty zvolíme Residuals/assumption/prediction Predict dependent variable X:l 10 - OK. Ve výstupní tabulce je hledaná hodnota označena jako Predictd.
Nakreslení regresní přímky: Návrat do Multiple Regression - Residuals/assumption/ /prediction - Perform residuals analysis - Scatterplots - Bivariate correlation - X,
Y - OK. Jiný způsob: Do dvourozměrného tečkového diagramu nakreslíme regresní přímku tak, že v tabulce 2D Scatterplots zvolíme Fit Linear, OK.
160
B.4. Výpočty pravděpodobností s využitím distribuční funkce binomického rozložení
Označme X náhodnou veličinu. Její distribuční funkci zavedeme vztahem cD(x) = P(X < x). Pokud náhodná veličina X nabývá pouze konečně nebo spočetně mnoha hodnot, lze pomocí cD(x) vyjádřit následující pravděpodobnosti:
a) P(X = x) = P(X < x) - P(X < x - 1) = 3>(x) - 3>(x - 1);
b) P(X > x) = 1 - P(X < x) = 1 - P(X < x - 1) = 1 - 3>(x - 1);
c) P{xi (xi - 1).
STATISTICA poskytuje hodnoty distribučních funkcí mnoha rozložení. Omezíme se na binomické rozložení (funkce IBinom(x, p, n), kde x... počet úspěchů, p ... pravděpodobnost úspěchu v jednom pokusu, «... celkový počet pokusů).
Vzorový příklad na binomické rozložení: Pojišťovna zjistila, že 12 % pojistných událostí je způsobeno vloupáním. Jaká je pravděpodobnost, že mezi 30 náhodně vybranými pojistnými událostmi bude způsobeno vloupáním a) nejvýše 6, b) aspoň 6, c) právě 6, d) od dvou do pěti?
Řešení:
X ... počet pojistných událostí způsobených vloupáním , n = 30, p = 0,12.
ad a) P(X < 6) = 0(6) = 0,9393,
ad b) P(X>6) = 1-P(X<5) = 1- 0(5) = 0,1431,
ad c) P(X = 6) = 0(6) - 0(5) = 0,0825,
ad d) P(2 < X < 5) = 0(5) - O(l) = 0,7469.
Postup ve STATISTICE: Otevřeme nový datový soubor se čtyřmi proměnnými a o jednom případu.
Řešení:
Do Long Name 1. proměnné napíšeme =IBinom(6;0,12;30).
Do Long Name 2. proměnné napíšeme =l-IBinom(5;0,12;30).
Do Long Name 3. proměnné napíšeme =IBinom(6;0,12;30)-IBinom(5;0,12;30).
Do Long Name 4. proměnné napíšeme =IBinom(5;0,12;30)-IBinom(l;0,12;30).
(Do Lange Name proměnné vstoupíme tak, že v datovém okně 2x klikneme myší na název
proměnné.)
Kreslení grafů distribuční funkce a pravděpodobnostní funkce binomického rozložení
Vzorový příklad: Nakreslete graf distribuční funkce a pravděpodobnostní funkce náhodné veličiny X ~ Bř'(12;0,3).
Postup ve STATISTICE: Vytvoříme nový datový soubor o 3 proměnných a 13 případech. První proměnnou nazveme X a uložíme do ní hodnoty 0, 1,..., 12 (do Long Name napíšeme =v0-l). Druhou proměnnou nazveme DF a uložíme do ní hodnoty distribuční funkce (do Long Name napíšeme příkaz =IBinom(x;0,3;12)). Třetí proměnnou nazveme PF a uložíme do ní hodnoty pravděpodobnostní funkce (do Long Name napíšeme příkaz =Binom(x;0,3;12)).
Graf distribuční funkce: Graphs - Scatterplots - Variables X, DF - OK - vypneme Linear fit - OK - 2x klikneme na pozadí grafu - Plot: General - zaškrtneme Line - Line Type: Step - OK.
Příloha B - Základní informace o programu STATISTICA
Graf pravděpodobnostní funkce: Graphs - Scatterplots - Variables X, PF - OK - vypneme Linear rit - OK.
Podle tohoto návodu nakreslete grafy distribučních a pravděpodobnostních funkcí binomického rozložení pro různá nap, např. n = 5, p = 0,5 (resp. 0,75) apod. Sledujte vliv parametrů na vzhled grafů.
162
B.5. Grafy hustot a distribučních funkcí, výpočet kvantilů
STATISTICA umí kreslit grafy hustot a distribučních funkcí mnoha spojitých rozložení a počítat kvantily těchto rozložení. Slouží k tomu Probability Calculator v menu Statistics. Zaměříme se na rozložení uvedená definici 9.6.
1. Rovnoměrné spojité rozložení Rs(0,1)
Statistics - Probability Calculator - Distributions - Beta - shape 1 - napíšeme 1, shape 2 - napíšeme 1. STATISTICA vykreslí graf hustoty a distribuční funkce. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku Beta objeví hodnota tohoto kvantilu.
2. Exponenciální rozložení Ex(A)
Ve volbě Distributions vybereme Exponential a do okénka lambda napíšeme patřičnou hodnotu. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku exp objeví hodnota tohoto kvantilu.
3. Normální rozložení N(p, o2)
Ve volbě Distributions vybereme Z (Normal), do okénka mean napíšeme hodnotu p a do okénka st. dev. napíšeme hodnotu cr. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku X objeví hodnota tohoto kvantilu.
4. Pearsonovo rozložení chĺ-kvadrát s n stupni volnostix2(n)
Ve volbě Distributions vybereme Chi 2 a do okénka df napíšeme patřičný počet stupňů volnosti. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku Chi 2 objeví hodnota tohoto kvantilu.
5. Studentovo rozložení s n stupni volnosti t(n) Ve volbě Distributions vybereme t (Student) a do okénka df napíšeme patřičný počet stupňů volnosti. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku t objeví hodnota tohoto kvantilu.
6. Fisherovo-Snedecorovo rozložení s n\ a n2 stupni volnosti F(n\,n2)
Ve volbě Distributions vybereme F (Fisher) a do okének df 1 a df2 napíšeme počet stupňů volnosti čitatele a jmenovatele. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku F objeví hodnota tohoto kvantilu.
163
Příloha B - Základní informace o programu STATISTICA
164
Závěr
Závěr
Učební text, který jste právě dočetli, byl určen k prvnímu seznámení s matematickou disciplinou nazývanou statistika. Autorským záměrem bylo ukázat vám, že statistika ve své popisné formě dokáže pomoci několika výstižných charakteristik zpřehlednit informace obsažené ve velkých datových souborech, zatímco ve své induktivní formě založené na počtu pravděpodobnosti slouží především jako nástroj rozhodování v situacích ovlivněných náhodou, kdy na základě znalosti náhodného výběru z určitého rozložení pravděpodobnosti usuzuje na vlastnosti tohoto rozložení.
V současnosti je statistika velice rozvinutá a důležitá věda, která se neustále doplňuje a rozšiřuje o nové poznatky. Z tohoto důvodu může být tento učební text jen značně omezeným úvodem, který však má dostatečnou oporu v obecných statistických principech.
V seznamu literatury samozřejmě najdete knihy, které vám poslouží při prohlubování a rozšiřování vašich statistických znalosti, bez nichž se dnes neobejde žádný absolvent ekonomicky zaměřené vysoké školy. Od ekonoma se totiž očekává, že bude rozhodovat nejenom na základě svých zkušenosti, ale především na základě matematických a statistických analýz. Proto musí být schopen sám provést jednodušší analýzy a u těch složitějších najít společnou řeč se statistiky, aby jim mohl zadávat úkoly a správně interpretovat výsledky těchto analýz.
Jak jste již zjistili, použiti statistického programového systému STAT1STICA osvobozuje uživatele od namáhavých úkonů, jako je vyhledávání v datech, jejich třídění, sumarizace a grafické znázornění. Dbejte však na to, aby data byla do počítače vkládána pečlivě a vždy byla podrobena kontrole. Např. je užitečné pro každou proměnnou vypočítat minimum, maximum, medián, kvartilovou odchylku, vykreslit sloupkový diagram, dvourozměrný tečkový diagram apod. Při zpracování dat rozhodně používejte jen ty metody, kterým dobře rozumíte a jejichž výsledky umíte interpretovat. Systém STAT1STICA obsahuje velké množství metod, jejichž neadekvátní aplikace může vést k zavádějícím či dokonce chybným závěrům.
Po úspěšném zvládnuti předmětu „Statistika 1" se před vámi otevírají značné možnosti, jak efektivně získávat informace obsažené v datech a využívat je ve své každodenní práci.
166