Masarykova univerzita v Brně Ekonomicko-správní fakulta
Statistika
distanční studijní opora
Marie Budíková
Brno 2004
Education and Culture
Socrates
Grundtvig
Tento projekt byl realizován za finanční podpory Evropské unie v rámci programu SOCRATES — Grundtvig.
Za obsah produktu odpovídá výlučně autor, produkt nereprezentuje názory Evropské komise a Evropská komise neodpovídá za použití informací, jež jsou obsahem produktu.
This project was realized with financial support of European Union in terms of program SOCRATES -- Grundtvig.
Author is exclusively responsible for content of product, product does not represent opinions of European Union and European Commission is not responsible for any uses of informations, which are content of product
Statistika
Vydala Masarykova univerzita v Brně Ekonomicko-správní fakulta
Vydání pilotní verze Brno, 2004
RNDr. Marie Budíková', Dr.
Publikace neprošla jazykovou úpravou
Identifikace modulu
Znak
■   KMSTAT
Název
■   Statistika
Garant/autor
■   RNDr. Marie Budíková, Dr.
Cíl
Vymezení cíle
Statistika jako metoda analýzy dat patří k vědním disciplínám, v nichž by měl být vzdělán každý ekonom. Její role v ekonomii je zcela nezastupitelná, neboť moderní řízení je založeno na nepřetržitém vyhodnocování informací o hospodářství jako celku i jeho subsystémech, a tyto informace poskytuje a následně zpracovává právě statistika.
Přiměřená znalost základních statistických pojmů je pro ekonoma důležitá také proto, že mu pomáhá porozumět odborné ekonomické literatuře, jejíž některé části statistiku v hojné míře využívají.
Význam statistiky v poslední době neustále roste, což úzce souvisí s rozvojem výpočetní techniky, která je používána jak při sběru a přenosu dat, tak při jejich zpracování a uklá-dání informací.
Dovednosti a znalosti získané po studiu textů
Předmět „Statistika" vás má především naučit zpracovávat data, která se týkají ekonomických jevů, tj. data třídit, numericky vyhodnocovat a interpretovat. Velké množství příkladů, které jsou součástí učebního textu, vám pomůže při formulování vlastních úloh a výběru správné metody. Naučíte se rovněž využívat výpočetní techniku při řešení ekonomických problémů.
Časový plán
Časová náročnost
■   prezenční část      22%
■   samostudium       78%
Celkový studijní čas
■   14 týdnů
Harmonogram
■   přednášky                                             24 hodin
■   samostudium a práce s počítačem     85 hodin
Způsob studia
Studijní pomůcky
doporučená literatura:
[1] Anděl J.: Matematická statistika. SNTL/Alfa Praha 1978.
[2] Arltová M., Bílková D., Jarošová E., Pourová Z.: Sbírka
příkladů ze statistiky (Statistika A). VŠE Praha 1996. [3] Budíková M., Mikoláš Š., Osecký P.: Popisná statistika. MU Brno
2001. [4] Budíková M., Mikoláš Š., Osecký P.: Teorie pravděpodobnosti a
matematická statistika. Sbírka příkladů. MU Brno 2001. [5] HebÁk  P.,   KahounovÁ   J.:   Počet pravděpodobnosti v příkladech.
SNTL Praha 1978. [6] KarpÍŠek Z.: Pravděpodobnostní metody. VUT Brno 2000. [7] KarpÍŠek Z., Drdla M.: Statistické metody. VUT Brno 1999. [8] NOVOVIČOVÁ  J.:  Pravděpodobnost a matematická statistika.  ČVUT
Praha 2002. [9]  StuchlÝ J.: Statistika I. Cvičení ze statistických metod pro managery.
VŠE Praha 1999.
Vybavení
■   PC
■   CD-ROM
Návod práce se studijními texty
Text je rozvržen do 13 kapitol a 2 příloh. 1. až 4. kapitola se zabývají popisnou statistikou. Popisná statistika je disciplína, která pomocí různých tabulek, grafů, funkcionálních a číselných charakteristik sumarizuje informace obsažené ve velkém množství dat. Používá jen základní matematické operace a lze ji snadno pochopit. Její důležitost spočívá jednak v tom, že se v praxi velmi často používá a jednak motivuje pojmy, které jsou potřeba v počtu pravděpodobnosti.
5. až 10. kapitola vás seznámí s počtem pravděpodobnosti, který se zabývá studiem zákonitostí v náhodných pokusech. Matematickými prostředky modeluje situace, v nichž hraje roli náhoda. Pod pojmem náhoda rozumíme působení faktorů, které se živelně mění při různých provedeních téhož pokusu a nepodléhají naší kontrole.
11. až 13. kapitola obsahují základní poznatky o matematické statistice. Matematická statistika je věda, která analyzuje a interpretuje data především za účelem získání předpovědi a zlepšení rozhodování v různých oblastech lidské činnosti. Při tom se řídí principem statistické indukce: na základě znalostí o náhodném výběru z určitého rozložení pravděpodobností se snaží odvodit vlastnosti tohoto rozložení pravděpodobností.
Příloha A je tvořena vybranými statistickými tabulkami, konkrétně obsahuje hodnoty distribuční funkce standardizovaného normálního rozložení, kvantily
standardizovaného normálního rozložení, Pearsonova rozložení x2(n)> Studentova rozložení t(n) a Fisherova-Snedecorova rozložení F(ni,ri2)- Příloha B pak obsahuje informace o programovém systému STATISTICA a podrobné návody na jeho použití.
V úvodu 1. až 13. kapitoly je vždy vymezen cíl kapitoly a je uvedena časová zátěž, která je potřebná ke zvládnutí příslušné kapitoly. Kapitoly jsou uzavřeny stručným shrnutím probrané látky a kontrolními otázkami a úkoly. Ty úkoly, jejichž řešení je nutné či alespoň vhodné provádět pomocí systému STATISTICA, jsou označeny (S). Výsledky úkolů můžete porovnat s výsledky, k nimž dospěla autorka učebního textu.
1. až 13. kapitola jsou uspořádány v logickém sledu. Do přílohy A budete nahlížet podle potřeby a příloha B vám poslouží rovněž průběžně.
5
1.  Základní, výběrový a datový soubor...............................................13
2.  Bodové a intervalové rozložení četností...........................................21
3.  Číselné charakteristiky znaků......................................................39
4.  Regresní přímka....................................................................49
5.  Jev a jeho pravděpodobnost.......................................................57
6.  Stochasticky nezávislé jevy a podmíněná pravděpodobnost.....................65
7.  Náhodná veličina a její distribuční funkce.........................................71
8.  Vybraná rozložení diskrétních a spojitých náhodných veličin.....................85
9.  Číselné charakteristiky náhodných veličin........................................97
10.  Zákon velkých čísel a centrální limitní věta.......................................111
11.  Základní pojmy matematické statistiky...........................................117
12.  Bodové a intervalové odhady parametrů a parametrických funkcí...............123
13.  Úvod do testování hypotéz a testy o parametrech normálního rozložení........137
Příloha A - Statistické tabulky.........................................................147
Příloha B - Základní informace o programu STATISTICA 6............................163
8
Proč se zabývat statistikou?
Statistika je metoda analýzy dat, která nachází široké uplatnění v celé řadě ekonomických, technických, přírodovědných a humanitních disciplín. Její význam v poslední době neustále roste, což úzce souvisí s rozvojem výpočetní techniky, která je používána jak při sběru a přenosu dat, tak při jejich zpracování a ukládání informací.
Role statistiky v ekonomii je zcela nezastupitelná, neboť moderní řízení je založeno na nepřetržitém vyhodnocování informací o hospodářství jako celku i jeho subsystémech, a tyto informace poskytuje a následně zpracovává právě statistika.
Přiměřená znalost základních statistických pojmů je pro ekonoma důležitá také proto, že mu pomáhá porozumět odborné ekonomické literatuře, jejíž některé části statistiku v hojné míře využívají.
Aplikovat statistiku znamená shromažďovat data o studovaných jevech a zpracovávat je, tj. třídit, numericky vyhodnocovat a interpretovat. Statistika se tak pro ekonoma ocitá v těsném sousedství informatiky a výpočetní techniky a je připravena řešit ekonomické problémy pomocí kvantitativní analýzy dat.
10
Způsob studia
Způsob studia
Co lze očekávat od tohoto textu?
V předmětu „Statistika" se budeme zabývat třemi oblastmi statistiky, a to popisnou statistikou, počtem pravděpodobnosti a matematickou statistikou.
Popisná statistika je disciplína, která pomocí různých tabulek, grafů, funkcionálních a číselných charakteristik sumarizuje informace obsažené ve velkém množství dat. Používá jen základní matematické operace a lze ji snadno pochopit. Její důležitost spočívá jednak v tom, že se v praxi velmi často používá a jednak motivuje pojmy, které jsou potřeba v počtu pravděpodobnosti.
Počet pravděpodobnosti se zabývá studiem zákonitostí v náhodných pokusech. Matematickými prostředky modeluje situace, v nichž hraje roli náhoda. Pod pojmem náhoda rozumíme působení faktorů, které se živelně mění při různých provedeních téhož pokusu a nepodléhají naší kontrole.
Matematická statistika je věda, která analyzuje a interpretuje data především za účelem získání předpovědi a zlepšení rozhodování v různých oblastech lidské činnosti. Při tom se řídí principem statistické indukce: na základě znalostí o náhodném výběru z určitého rozložení pravděpodobností se snaží odvodit vlastnosti tohoto rozložení pravděpodobností.
K úspěšnému zvládnutí předmětu „Statistika" je zapotřebí ovládat kombinatoriku, základy diferenciálního a integrálního počtu jedné a dvou proměnných a znát základy práce s osobním počítačem.
Velmi účinným prostředkem pro řešení statistických úloh je programový systém STATISTICA, jehož instalační CD je součástí studijních materiálů. Informace o tomto systému a podrobné návody na jeho použití jsou uvedeny v příloze B studijních materiálů. Příklady či úkoly, jejichž řešení je nutné či alespoň vhodné provádět pomocí systému STATISTICA, jsou označeny (S).
Příloha A obsahuje vybrané statistické tabulky, konkrétně hodnoty distribuční funkce standardizovaného normálního rozložení, kvantily standardizovaného normálního rozložení, Pearsonova rozložení x2(n)> Studentova rozložení t(n) a Fisherova-Snedecorova rozložení F(ni,n2). Všechny tyto tabelované hodnoty (a samozřejmě mnohé další) lze získat pomocí systému STATISTICA.
12
I
1
Základní, výběrový a datový soubor
1. Základní, výběrový a datový soubor
I
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■   vymezit základní soubor a jeho objekty
■   stanovit výběrový soubor
■   spočítat absolutní a relativní četnosti množin ve výběrovém souboru a znát vlastnosti relativní četnosti a podmíněné relativní četnosti
■   ověřit četnostní nezávislost dvou množin ve výběrovém souboru
■   vytvořit datový soubor
■   uspořádat jednorozměrný datový soubor a stanovit vektor variant
■   vypočítat absolutní a relativní četnost jevu ve výběrovém souboru
Časová zátěž
Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia.
Nejprve se seznámíme s definicí základního a výběrového souboru a pojmem absolutní a relativní četnosti množiny v daném výběrovém souboru. Uvedeme příklad, s jehož různými variantami se budeme setkávat ve všech kapitolách věnovaných popisné statistice. Rovněž shrneme vlastnosti relativní četnosti.
1.1. Definice
Základním souborem rozumíme libovolnou neprázdnou množinu E. Její prvky značíme e a nazýváme je objekty. Libovolnou neprázdnou podmnožinu {e\,... ,en} základního souboru E nazýváme výběrový soubor rozsahu n. Je-li G C E, pak symbolem N (G) rozumíme absolútni četnost množiny G ve výběrovém souboru, tj. počet těch objektů množiny G, které patří do výběrového souboru. Relativní četnost množiny G ve výběrovém souboru zavedeme vztahem
N(G)
p(G)
n
1.2. Příklad
Základním souborem E je množina všech ekonomicky zaměřených studentů 1. ročníku českých vysokých škol. Množina G\ je tvořena těmi studenty, kteří uspěli v prvním zkušebním termínu z matematiky a množina G2 obsahuje ty studenty, kteří uspěli v prvním zkušebním termínu z angličtiny. Ze základního souboru bylo náhodně vybráno 20 studentů, kteří tvoří výběrový soubor {e\,... ,£20}- Z těchto 20 studentů 11 uspělo v matematice, 15 v angličtině a 11 v obou předmětech. Zapište absolutní a relativní četnosti úspěšných matematiků, angličtinám a oboustranně úspěšných studentů.
Řešení:
AT(Gi) = 12,    iV(G2) = 15,    N(GlnG2) = U,    n = 20 p(G1) = — = 0,6,    p(G2) = 0,75,    p{GlC\G2) = — = 0,55
20
20
14
Vidíme, že úspěšných matematiků je 60%, angličtinám 75% a oboustranně úspěšných studentů jen 55%.
1.3. Věta
Relativní četnost má následujících 12 vlastností, které jsou obdobné vlastnostem procent.
■   p(0) = O
■   p(G) > 0
■   p(G1UG2)+p(G1C\G2)=p(G1)+p(G2) m  l+p(GlnG2)>p(Gl)+p(G2)
■   p(G1UG2)<p(G1)+p(G2)
■   G1nG2 = (b => p(G1UG2)=p(G1)+p(G2)
■   p(G2-G1)=p(G2)-p(G1nG2)
■   GiCG2^ p(G2-G1)=p(G2)-p(G1)
■   Gi c G2  => p(Gl) < p(G2) m p(E) = 1 _
■   p(G)+p(G) = l
■   P(G) < 1
Pokud se v daném základním souboru zajímáme o dvě podmnožiny, můžeme zavést pojem podmíněné relativní četnosti jedné podmnožiny v daném výběrovém souboru za předpokladu, že objekt pochází z druhé podmnožiny. V následujícím příkladu vypočteme podmíněné relativní četnosti úspěšných matematiků mezi úspěšnými angličtinári a naopak.
I
1.4. Definice
Nechť E je základní soubor, G\, G2 jeho podmnožiny, {e\,..., en} výběrový soubor. Definujeme podmíněnou relativní četnost množiny G\ ve výběrovém souboru za předpokladu G2:
p(Gi|G2) =
N(G1 n G2)     p(G1 n G2)
N(G2)              p(G2)
a podmíněnou relativní četnost G2 ve výběrovém souboru za předpokladu G\\
AT(Gi n G2)      pid n G2)
p(G2\G1)
N(G1)
P(G1)
1.5. Příklad
Pro údaje z příkladu 1.2 vypočtěte podmíněnou relativní četnost úspěšných matematiků mezi úspěšnými angličtinári a podmíněnou relativní četnost ú-spěšných angličtinám mezi úspěšnými matematiky.
Řešení:
p(Gi|G2) = y| = 0,73 (tzn., že 73% těch studentů, kteří byli úspěšní v angličtině, uspělo i v matematice)
15
1. Základní, výběrový a datový soubor
I
p(G2\G\) = Y2 = 0,92 (tzn., že 92% těch studentů, kteří byli úspěšní v matematice, uspělo i v angličtině)
Nyní se naučíme, jak ověřovat četnostní nezávislost dvou množin v daném výběrovém souboru. Znamená to, že informace o původu objektu z jedné množiny nijak nemění šance, s nimiž soudíme na jeho původ i z druhé množiny. Ověříme, zda úspěch v matematice a angličtině jsou v daném výběrovém souboru četnostně nezávislé.
1.6. Definice
Řekneme, že množiny G\,G2 jsou četnostně nezávislé y daném výběrovém souboru, jestliže
p(G1nG2)=p(G1)-p(G2).
(V praxi jen zřídka dojde k tomu, že uvedený vztah platí přesně. Většinou je jen naznačena určitá tendence četnostní nezávislosti.)
1.7. Příklad
Pro údaje z příkladu 1.2 zjistěte, zda úspěchy v matematice a angličtině jsou v daném výběrovém souboru četnostně nezávislé.
Řešení:
p(Gx n G2) = 0,55,    p(Gí) ■ p(G2) = 0,6 • 0,75 = 0,45,
tedy skutečná relativní četnost oboustranně úspěšných studentů je větší než by odpovídalo četnostní nezávislosti množin G\, G2 v daném výběrovém souboru.
Nyní každý objekt základního souboru ohodnotíme jedním nebo více čísly pomocí funkce, která se nazývá znak. Čísla, která se vztahují pouze k objektům výběrového souboru sestavíme do matice zvané datový soubor. Vystvětlíme si, co to je uspořádaný datový soubor a vektor variant. Uvedené pojmy objasníme na příkladu.
1.8. Definice
Nechť E je základní soubor. Potom funkce X : E —► IR, Y : E —► IR, .... Z : E —► E, které každému objektu přiřazují číslo, se nazývají (skalární) znaky. Uspořádaná p-tice (X, Y,..., Z) se nazývá vektorový znak.
1.9. Definice
Nechť je dán výběrový soubor {e\,..., en} C E. Hodnoty znaků X, Y,..., Z pro z-tý objekt označíme Xí = X(ei),yi = Y (ei),..., Zi = Z (ei), i = 1,..., n. Matice
rxi    yi    ...    zi
x2    y2   ...    z2
%n     V n     ■ ■ ■      Zn
16
typu n x p se nazývá datový soubor. Její řádky odpovídají jednotlivým objektům, sloupce znakům.
Libovolný sloupec této matice nazýváme jednorozměrným datovým souborem. Jestliže uspořádáme hodnoty některého znaku (např. znaku X) v jednorozměrném datovém souboru vzestupně podle velikosti, dostaneme uspořádaný datový soubor
rx{l)
I
X(n)
kde X(i) < X{2) < • • • < X(n). Vektor
x
[i]
X\,
kde X[i\ < ■ ■ ■ < X[r] jsou navzájem různé hodnoty znaku X, se nazývá vektor variant.
1.10. Příklad
Pro studenty z výběrového souboru u vedeného v příkladu 1.2 byly zjišťovány hodnoty znaků X - známka z matematiky v prvním zkušebním termínu, Y - známka z angličtiny v prvním zkušebním termínu, Z - pohlaví studenta (0 ... žena, 1... muž). Byl získán datový soubor
"2	2	0"
1	3	1
4	3	1
1	1	0
1	2	1
4	4	1
3	3	1
3	4	0
1	1	0
1	1	0
4	2	1
4	4	0
2	2	0
4	3	1
2	3	1
4	4	0
1	1	0
4	3	1
4	4	1
1	3	0
Utvořte jednorozměrný uspořádaný i neuspořádaný datový soubor pro známky z matematiky a vektory variant pro známky z matematiky.
17
1. Základní, výběrový a datový soubor
I
Řešení:
"2"		T
1		1
4		1
1		1
1		1
4		1
3		1
3		2
1		2
1		2
4	i	3
4		3
2		4
4		4
2		4
4		4
1		4
4		4
4		4
_1_		4
V závěrečné partii této kapitoly se seznámíme s pojmem jevu a jeho absolutní a relativní četnosti. V následujícím příkladu vypočítáme konkrétní absolutní a relativní četnosti několika jevů.
1.11. Definice
Nechť {e\,..., en} je výběrový soubor, X, Y,..., Z jsou znaky, B, B\.
B<n
jsou číselné množiny. Zápis {X G B} znamená jev „znak X nabyl hodnoty z množiny Bu a zápis {X E B\ AY E B2 A ... Z E Bp} znamená jev „znak X nabyl hodnoty z množiny B\ a současně znak Y nabyl hodnoty z množiny B2 atd. až znak Z nabyl hodnoty z množiny Bpu. Symbol N(X E B) značí absolutní četnost jevu X G B ve výběrovém souboru, tj. počet těch objektů ve výběrovém souboru, pro něž x% E B. Symbol p(X E B) znamená relativní četnost jevu {X G B} ve výběrovém souboru, tj.
p(X EB) =
N(X E B)
n
Analogicky N (X E Bx A Y E B2 A ■ ■ ■ A Z E Bp) resp. p(X E Bx A Y E £>2 A • • • A Z E Bp) znamená absolutní resp. relativní četnost jevu {X E Bi AY E B2 A ■ ■ ■ A Z E Bp} ve výběrovém souboru.
1.12. Příklad
Pro datový soubor z příkladu 1.10 najděte relativní četnost
a)   matematických jedničkám,
b)   úspěšných matematiků.
18
c) oboustranně neúspěšných studentu. Řešení:
ad a)    p{X = 1) = ^ = 0,35;        ad b)    p{X < 3) adc)    p(X = iAY = 4) = ^ = 0,20.
i = 0,60;
Shrnutí kapitoly
Předmětem statistického zájmu není jednotlivý objekt, nýbrž soubor objektů, tzv. základní soubor. Zpravidla není možné vyšetřovat všechny objekty, ale jenom určitý počet objektů, které tvoří výběrový soubor. Ty prvky základního souboru, které vykazují určitou společnou vlastnost, tvoří množinu. Statistik zkoumá absolutní a relativní četnost množiny v daném výběrovém souboru. Zajímají-li nás ve výběrovém souboru dvě množiny, můžeme zkoumat výskyty objektů z jedné množiny mezi objekty pocházejícími z druhé množiny. Tím dospíváme k pojmu podmíněné relativní četnosti. Rovněž lze ověřovat četnostní nezávislost těchto dvou množin v daném výběrovém souboru. Cetnostní nezávislost vlastně znamená, že informace o původu objektu z jedné množiny nijak nemění šance, s nimiž soudíme na jeho původ z druhé množiny. Každému objektu základního souboru lze pomocí funkce zvané znak přiřadit číslo (nebo i více čísel). Pokud hodnoty znaků pro objekty daného výběrového souboru uspořádáme do matice, dostáváme datový soubor. Libovolný sloupec této matice tvoří jednorozměrný datový soubor, který můžeme uspořádat podle velikosti a vytvořit tak uspořádaný datový soubor nebo z něj získat vektor variant. Jevem rozumíme skutečnost, že znak nabyl hodnoty z nějaké číselné množiny. Můžeme zkoumat absolutní a relativní četnost jevu v daném výběrovém souboru.
Kontrolní otázky a úkoly
1   Uveďte příklad základního souboru z ekonomické praxe.
2  Nechť množiny Gri,Gr2 jsou neslučitelné, p(G\) = 0,27, p(G\ U G2) = 0,75. Vypočtěte p(G2).
3  Nechť d C G2, p(Gi) = 0,33, p(G2 - G{) = 0,15. Vypočtěte p(G2).
4  Nechť p(Gi - G2) = 0,36, p(G1 n G2) = 0,12. Vypočtěte p(G2).
5   Je dán dvourozměrný datový soubor
"2	1"
2	0
1	0
4	2
4	2
3	2
3	1
5	3
5	2
2	0
Znak X znamená počet členů domácnosti a znak Y počet dětí do 15 let v této domácnosti.
1. Základní, výběrový a datový soubor
I
a)   Utvořte uspořádané datové soubory pro znaky X a Y.
b)   Najděte vektory variant znaků X a Y.
c)   Vypočtěte relativní četnost tříčlenných domácností.
d)   Vypočtěte relativní četnost nejvýše tříčlenných domácností.
e)   Vypočtěte relativní četnost bezdětných domácností.
f)   Vypočtěte relativní četnost dvoučlenných bezdětných domácností.
g)   Vypočtěte podmíněnou relativní četnost dvoučlenných domácností, které jsou bezdětné.
20
I
2
Bodové a intervalové rozložení četností
2. Bodové a intervalové rozložení četností
I
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■   konstruovat diagramy znázorňující rozložení četností
■   vytvářet tabulky četností
■   sestrojit grafy četnostní funkce, empirické distribuční funkce, hustoty četnosti a empirické intervalové distribuční funkce
Časová zátěž
Pro zvládnutí této kapitoly budete potřebovat 7-8 hodin studia.
Nejprve se seznámíme s bodovým rozložením četností a ukážeme si, jak pomocí různých diagramů graficky znázornit bodové rozložení četností. Pro datový soubor známek z matematiky a angličtiny pak vytvoříme několik typů diagramů.
2.1. Definice
Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X není příliš velký, pak přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností
2.2. Definice
Existuje několik způsobů, jak graficky znázornit bodové rozložení četností.
Tečkový diagram: na číselné ose vyznačíme jednotlivé varianty znaku X a nad každou variantu nakreslíme tolik teček, jaká je její absolutní četnost.
Polygon četnosti: je lomená čára spojující body, jejichž x-ová souřadnice je varianta znaku X a y-ová souřadnice je absolutní četnost této varianty.
Sloupkový diagram: je soustava na sebe nenavazujících obdélníků, kde střed základny je varianta znaku X a výška je absolutní četnost této varianty.
Výsečový graf: je kruh rozdělený na výseče, jejichž vnější obvod odpovídá absolutním četnostem variant znaku X.
Dvourozměrný tečkový diagram: na vodorovnou osu vyneseme varianty znaku X, na svislou varianty znaku y a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dané dvojice.
2.3. Příklad
Pro datový soubor z příkladu 1.10 sestrojte
a)  jednorozměrné tečkové diagramy pro znak X a znak Y.
b)   polygony četností pro znak X a znak Y,
c)   sloupkové diagramy pro znak X a znak Y.
d)   výsečové diagramy pro znak X a znak Y.
e)   dvourozměrný tečkový diagram pro vektorový znak (X, Y).
22
Řešení:
ad a)
Známka z matematiky
Známka z angličtiny
I
ad b)
Polygon četnosti pro známky z matematiky 9
ad c)
Sloupkový diagram známek z matematiky 9
ad d) Výsečový diagram známek z matematiky
i
Polygon četnosti pro známky z angličtiny 9
Sloupkový diagram známek z angličtiny 9
8
7
6
5
4
3
2
1
0
Výsečový diagram známek z angličtiny
1
23
2. Bodové a intervalové rozložení četností
I
Ze všech těchto diagramů je vidět odlišný přístup zkoušejících ke studentům. Matematik nešetří jedničkami, ale místo trojky raději rovnou dává čtyřku. Naproti tomu angličtinár považuje trojku za typickou studentskou známku.
ad e)
12         3         4^
Dvourozměrný tečkový diagram svědčí o nepříliš výrazné tendenci k podobné klasifikaci v obou předmětech. Můžete si zkusit nakreslit dvourozměrné tečkové diagramy zvlášť pro muže a zvlášť pro ženy. Zjistíte, že u žen je tendence k podobným známkám daleko silnější než u mužů.
Bodové rozložení četností lze znázornit nejenom graficky, ale též tabulkou zvanou variační řada, která obsahuje absolutní a relativní četnosti jednotlivých variant znaku v daném výběrovém souboru a též absolutní a relativní kumulativní četnosti. Pomocí relativních četností se zavádí četnostní funkce, pomocí relativních kumulativních četností empirická distribuční funkce (je pro ni typické, že má schodovitý průběh). Tyto pojmy objasníme na příkladu známek z matematiky a uvedeme rovněž vlastnosti obou výše zmíněných funkcí.
2.4. Definice
Nechť je dán jednorozměrný datový soubor, v němž znak X nabývá r variant. Pro j = 1,..., r definujeme:
absolutní četnost varianty xy] ve výběrovém souboru
n j = N (X = x{j])
relativní četnost varianty xy] ve výběrovém souboru
Pj =
n
absolutní kumulativní četnost prvních j variant ve výběrovém souboru
Nj = N(X <x[j]) = n1 + --- +
n.
relativní kumulativní četnost prvních j variant ve výběrovém souboru
Ni n
*i = ^=Pi
Pí
24
Tabulka typu
x\j]	rij	Pi	N3	F3
xm	ni	P\	N!	Fx
				
X[r]	nr	Pr	Nr	Fr
se nazývá variační řada.
Funkce
í Pj   prox = xm, j = l,...,r ^   '      | O     jinak
se nazývá četnostní funkce. Funkce
ÍO     pro x < X[i] Fj   pro xm <x< x[j+1], j = 1,..., r - 1 1        pro X > X [r]
se nazývá empirická distribuční funkce.
2.5. Příklad
Pro datový soubor z příkladu 1.10 sestavte variační řadu pro znak X. Nakreslete grafy četnostní funkce a empirické distribuční funkce.
Řešení:
x\j]	rij	Pj	Nj	F3
1	7	0,35	7	0,35
2	3	0,15	10	0,50
3	2	0,10	12	0,60
4	8	0,40	20	1,00
-	20	1,00	-	-
pit) >;
0,4-0,2-
0,0-
f---------------f-
2         3
x
F(t)\ 1,0
0,8
0,6
0,4
0,2
0,0
F(x) = E P(t)
t<x
2    I    3
x
2. Bodové a intervalové rozložení četností
I
2.6. Věta
Cetnostní funkce je nezáporná (Vx G E : p(x) < 0) a normovaná, tj.
DC
x=—oc
Empirická distribuční funkce je neklesající, tzn.
Vxi,x2 Gl, X\ < X2 :   ^(^í) < ^(^2);
zprava spojitá (Vx0 G E libovolné, ale pevně dané:   lim F(x) = F(x0)) a normovaná ( lim   F{x) = 0,  lim F{x) = 1).
X—>X()
X—> — oc
Nyní se budeme zabývat dvourozměrných datovým souborem. Zavedeme simultánní absolutní a relativní četnosti pro dvojice variant znaků X a y a ukážeme souvislost mezi simultánními a marginálními četnostmi. Budeme definovat podmíněné relativní četnosti. Vysvětlíme si, jak se uvedené četnosti zapisují do kontingenčních tabulek. Pomocí simultánních relativních četností zavedeme simultánní cetnostní funkci, seznámíme se s jejími vlastnostmi a ukážeme vztah mezi simultánní cetnostní funkcí a marginálními četnostními funkcemi. Zavedeme pojem cetnostní nezávislosti znaků v daném výběrovém souboru. Se všemi uvedenými pojmy se naučíme pracovat v příkladu se známkami z matematiky a angličtiny.
2.7. Definice Nechť je dán dvourozměrný datový soubor
xi    V\
Xu     Vn
kde znak X má r variant a znak Y má s variant. Pak definujeme: simultánni absolutní četnost dvojice (xy],y[k]) ve výběrovém souboru
n
ik = N(X = x\j] A Y = y[k]).
simultánní relativní četnost dvojice (xy],y[k]) ve výběrovém souboru
rijk
Pjk
n
marginální absolutní četnost varianty xy]
nj. = N(X = xtí]) = njl + --- +
marginální relativní četnost varianty xy]
n
]S;
Vj.
n
Pii
Pis
26
marginální absolutní četnost varianty y^
n.k = N(Y = y[k]) = nlk H--------h nrk.
marginální relativní četnost varianty y[k\
n k
P.k = ----  = Plk H--------h Prk;
n
sloupcově podmíněná relativní četnost varianty xy] za předpokladu y^
rijk
I
Pj(k)
n.k
řádkově podmíněná relativní četnost varianty y\k\ za předpokladu xy]
rijk
P{j)k
Tli
Kteroukoliv ze simultánních četností či podmíněných relativních četností zapisujeme do kontingenční tabulky. Kontingenčm tabulka simultánních absolutních četností má tvar:
	y	V[i]             ■ ■ ■             V[s\	rij.
X	njk		
xm X[r]		nu             ...             nls T 1                                                    ...                                                       / Vrp Q	ni. nr.
n.k		n.i             ...              n.s	n
Funkce
p(x,y)
pjk   pro x = x{j], y = y[k], j = 1,... , r, k=l,...s 0      jinak
se nazývá simultánní četnostní funkce. Četnostní funkce pro znaky X a Y odlišíme indexem takto:
/  \       í Pi    Pro x = x\i\, j = 1) • • •) r P^ = \0     jinak
P2{y)
P.k   proy = y[k], k=l,...,s 0      jinak
Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé, právě když pro všechna j = 1,..., r a všechna k = 1,..., s platí multiplikativní vztah: pjk = p j. ■ p.k neboli
V(x,y) e R2 : p(x,y) = pi(x) ■ p2(y).
27
2. Bodové a intervalové rozložení četností
I
2.8. Věta
Mezi simultánní četnostní funkcí a marginálními četnostními funkcemi platí vztahy:
DC
y=-oc
DC
P2{v) = Y^ p(x>y">-
2.9. Příklad
Pro datový soubor z příkladu 1.10
a)   sestavte kontingenční tabulky simultánních absolutních a relativních četností,
b)   nakreslete graf simultánní četnostní funkce p(x, y).
c)   sestavte kontingenční tabulky sloupcově a řádkově podmíněných relativních četností,
d)   kolik procent těch studentů, kteří měli jedničku z angličtiny, mělo dvojku z matematiky,
e)   kolik procent těch studentů, kteří měli jedničku z matematiky mělo dvojku z angličtiny,
f)   zjistěte, zda znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé.
Řešení:
ad a)
	y	1	2	3	4	rij.
X	rijk					
1		4	1	2	0	7
2		0	2	1	0	3
3		0	0	1	1	2
4		0	1	3	4	8
n.k		4	4	7	5	n = 20
	y	i	2	3	4	Pj.
X	Pjk					
1		0,20	0,05	0,10	0,00	0,35
2		0,00	0,10	0,05	0,00	0,15
3		0,00	0,00	0,05	0,05	0,10
4		0,00	0,05	0,15	0,20	0,40
P.k		0,20	0,20	0,35	0,25	1,00
28
ad b)
0,20-, 0,15-
ad c)
	v	12                3                4
x	P j (k)	
1 2 3 4		1,00           0,25           0,29           0,00 0,00           0,50           0,14           0,00 0,00           0,00           0,14           0,20 0,00           0,25           0,43           0,80
E		1,00           1,00           1,00           1,00
	y	12                3                4	E
x	P(j)k		
1 2 3 4		0,57           0,14           0,29           0,00 0,00           0,67           0,33           0,00 0,00           0,00           0,50           0,50 0,00           0,12           0,38           0,50	1,00 1,00 1,00 1,00
ad d) Tento údaj najdeme ve druhém řádku prvního sloupce tabulky sloupcově podmíněných relativních četností: 0%.
ad e) Tento údaj najdeme v prvním řádku druhého sloupce tabulky řádkově podmíněných relativních četností: 14%.
ad f) Kdyby v daném výběrovém souboru byly oba znaky četnostně nezávislé, platil by pro všechna j = 1,2,3,4 a všechna k = 1,2,3,4 multiplikativní vztah: pjk = Pj.-p.k, což splněno není. Tedy známky z matematiky a angličtiny nejsou četnostně nezávislé.
V některých datových souborech je počet variant znaku příliš veliký a použití bodového rozložení četností by vedlo k nepřehledným a roztříštěným výsled-
2. Bodové a intervalové rozložení četností
I
kům. V takových situacích používáme intervalové rozložení četností. Definujeme třídicí interval a jeho absolutní a relativní četnost, absolutní a relativní kumulativní četnost. Nově zavádíme četnostní hustotu třídícího intervalu. Uvedené četnosti zapisujeme do tabulky rozložení četností. Počet třídících intervalů stanovujeme např. podle Sturgesova pravidla. Intervalové rozložení četností požijeme v příkladu s datovým souborem obsahujícím údaje o mezích plasticity a pevnosti 60 vzorků oceli.
2.10. Definice
Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X je blízký rozsahu souboru, pak přiřazujeme četnosti nikoliv jednotlivým variantám, ale celým intervalům hodnot. Hovoříme pak o intervalovém rozložení četnosti.
2.11. Definice
Číselnou osu rozložíme na intervaly typu (—oo,tíi), (tíi,tí2), • • •, (ur)ur+i). (ur+i, oo) tak, aby okrajové intervaly neobsahovaly žádnou pozorovanou hodnotu znaku X. Užíváme označení:
j-tý třídicí interval znaku X, j = 1,..., r:
(Uj,Uj+i).
délka j-tého třídicího intervalu znaku X:
d j = Uj+i — Uj.
střed j-tého třídicího intervalu znaku X:
1
xm = ^(uj + Uj+i)-
Třídicí intervaly volíme nejčastěji stejně dlouhé. Jejich počet určíme např. pomocí Sturgesova pravidla: r ~ 1 + 3,3 • logn, kde n je počet variant znaku X.
2.12. Definice
Nechť je dán jednorozměrný datový soubor rozsahu n. Hodnoty znaku X roztřídíme do r třídících intervalů. Pro j = 1,..., r definujeme:
absolutní četnost j-tého třídicího intervalu ve výběrovém souboru
Tli
N{uj < X < uj+i).
relativní četnost j -tého třídicího intervalu ve výběrovém souboru
Vj
n
30
četnostm hustota j-teho třídicího intervalu ve výběrovém souboru
absolutní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru
Nj = N(X < uj+l) = ni-\--------hnj:
relativní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru.
Tabulka typu
(Uj,Uj+i)	dj	rij	Pj	fi	N3	F3
(ui,u2)	d\	ni	V\	h	N!	Fx
						
(ur,ur+i)	dr	nr	Pr	fr	Nr	Fr
E		n	1			
se nazývá tabulka rozložení četností.
2.13. Příklad
Z fiktivního základního souboru všech vzorků oceli odpovídajících „všem myslitelným tavbám" bylo do laboratoře dodáno 60 vzorků a zjištěny a hodnoty znaku X - mez plasticity a Y - mez pevnosti. Datový soubor má tvar:
"154	178"		"51	95"		"98	140"		"44	68"
133	164		101	114		97	115		92	116
58	75		160	169		105	101		141	157
145	161		87	101		71	93		155	189
94	107		88	139		39	69		136	155
113	141		83	98		122	147		82	81
86	97		106	111		33	52		136	163
121	127		92	104		78	117		72	79
119	138		85	103		147	137		66	81
112	125		112	118		125	149		42	61
85	97		98	102		73	76		113	123
41	72		103	108		77	85		42	85
96	113		99	119		47	61		133	147
45	89		104	128		68	85		153	179
99	109		107	118		137	142		85	91
a)   Pro znak X stanovte optimální počet třídicích intervalů dle Sturgesova pravidla.
b)   Sestavte tabulku rozložení četností.
2. Bodové a intervalové rozložení četností
I
Řešení:
ad a) Znak X má 50 variant, tedy podle Sturgesova pravidla je optimální počet třídicích intervalů r = 7. Budeme tedy volit 7 intervalů stejné délky tak, aby v nich byly obsaženy všechny pozorované hodnoty znaku X, z nichž nejmenší je 33, největší 160; volba u\ = 30, ..., u$ = 170 splňuje požadavky.
ad b)
(Uj,Uj+1)	dj	xtí]	rij	Pj	Nj	Fi	fi
(30,50)	20	40	8	0,1333	8	0,1333	0,0066
(50,70)	20	60	4	0,0667	12	0,2000	0,0333
(70,90)	20	80	13	0,2166	25	0,4167	0,0108
(90,110)	20	100	15	0,2500	40	0,6667	0,0125
(110,130)	20	120	9	0,1500	49	0,8167	0,0075
(130,150)	20	140	7	0,1167	56	0,9333	0,0058
(150,170)	20	160	4	0,0667	60	1,0000	0,0033
Součet			60	1,0000			
Ke grafickému znázornění intervalového rozložení četností slouží histogram. S jeho pomocí lze dobře vysvětlit, co znamená hustota četnosti, což je funkce zavedená pomocí četnostních hustot jednotlivých třídicích intervalů. S hustotou četnosti úzce souvisí intervalová empirická distribuční funkce (je všude spojitá, protože je funkcí horní meze integrálu z hustoty četnosti). Pro údaje o mezi platicity oceli vytvoříme histogram a graf intervalové empirické distribuční funkce. Seznámíme se rovněž s vlastnostmi obou výše zmíněných funkcí.
2.14. Definice
Intervalové rozložení četností graficky znázorňujeme graficky pomocí histogramu. Je to graf skládající se z r obdélníků, sestrojených nad třídicími intervaly, přičemž obsah j-tého obdélníku je roven relativní četnosti pj j-tého třídicího intervalu, j = 1,..., r. Histogram je shora omezen schodovitou čarou, která je grafem funkce zvané hustota četnosti:
m
f j   pro Uj<x< uj+1, j = 1,..., r 0     jinak
Pomocí funkce hustoty četnosti zavedeme intervalovou empirickou distribuční funkci:
X
F(x)=   f f (t) dt.
2.15. Příklad
Pro datový soubor z příkladu 2.13 nakreslete histogram pro znak X a pod histogram nakreslete graf intervalové empirické distribuční funkce.
32
30   50   70   90   110   130   150   170   190
2.16. Věta
oc
Hustota četnosti je nezáporná (Vx G E : f (x) > 0) a normovaná ( J f (x) dx).
—oc
Intervalová empirická distribuční funkce je neklesající, spojitá a normovaná ( lim  F (x) = 0,   lim F (x) = 1).
x—>—oo                              x—>oo
V následujícím tématu se budeme věnovat dvourozměrnému intervalovému rozložení četnosti, tj. budeme pracovat s dvourozměrným datovým souborem. Zavedeme podobné pojmy jako u dvourozměrného bodového rozložení četnosti a jejich pochopení si ověříme na příkladě s datovým souborem obsahujícím údaje o mezi plasticity a mezi pevnosti oceli.
2.17. Definice
Nechť je dán dvourozměrný datový soubor
Xu     Vn
2. Bodové a intervalové rozložení četností
I
kde hodnoty znaku X roztřídíme do r třídicích intervalů (uj,Uj+i), j = 1,..., r s délkami d\,... ,dr a hodnoty znaku Y roztřídíme do s třídicích intervalů (vk, Vk+i), k = 1,..., s s délkami hi,..., hs. Pak definujeme:
simultánni absolutní četnost (j,k)-tého třídicího intervalu: njk = N(uj < X < uj+i A vk < Y < vk+1),
simultánní relativní četnost (j, k)-tého třídicího intervalu:
rijk
Pjk =
n
marginální absolutní četnost j-tého třídicího intervalu pro znak X:
nj- = nji + ■ ■ ■ + n j s-, marginální relativní četnost j-tého třídicího intervalu pro znak X:
Pj.=
rii
n
marginální absolutní četnost k-tého třídicího intervalu pro znak Y:
n.k = nik H--------\-nrk,
marginální relativní četnost k-tého třídicího intervalu pro znak Y:
n.k
P.k
n
simultánni četnostní hustota v (j, k)-tém třídicím intervalu:
Pjk
f.
j k
djhk
marginálni četnostní hustota v j-tém třídicím intervalu pro znak X:
h      d3;
marginálni četnostní hustota v k-tém třídicím intervalu pro znak Y:
P.k
/.A
hk
Kteroukoliv ze simultánních četností zapisujeme do kontingenční tabulky. Uveďme kontingenční tabulku simultánních absolutních četností:
	(Vk,Vk+l)	(vi,v2)	(vs,vs+i)	rij.
(Uj,Uj+1)	njk			
(Ui,U2) (ur,ur+i)		nrl	nu	ni. nr.
n.k		n.i	n.s	n
34
Funkce
e,      n      j fjk   prouj <x<uj+i,vk<y <vk+i,j = l,...,r,k= l,...,s
J[X,y)      \ O      jinak
se nazývá simultánní hustota četnosti. Hustoty četnosti pro znaky X a Y odlišíme indexem takto:
fj.   pro Uj<x< uj+1,j = 1,..., r 0     jinak
f.k   pro vk < y < vk+i,k= l,..., s 0      jinak
h(x) = Í2Íy) =
Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé při intervalovém rozložení četností, jestliže pro všechna j = 1,..., r a všechna k = 1,..., s platí multiplikativní vztah: fjk = f j, ■ f,k neboli pro
W(x,y)eR2:f(x,y) = f1(x)f2(y).
2.18. Věta
Mezi simultánní hustotou četnosti a marginálními hustotami četnosti platí vztahy:
h(x) =   / f(x,y)dy,        h(y)=   / f(x,y)dx.
2.19. Příklad
Pro datový soubor z příkladu 2.13
a)  stanovte dle Sturgesova pravidla optimální počet třídicích intervalů pro znak Y
b)  sestavte kontingenční tabulku simultánních absolutních četností. Řešení:
ad a)      Počet variant znaku Y je 52. Podle Sturgesova pravidla je tedy
optimální počet třídicích intervalů s = 7. Nejmenší hodnota je 52 a největší
189. Volíme vx = 50, v2 = 70,..., v8 = 190.
ad b)
		o"	Ol	r-* r-* o" Ol	00 r-* o" i—(	r-* o" 00 i—(	r-* o" I—(	Ol I—(	nj.
(Uj,Uj+1)	rijk								
(30,50)		5	3	0	0	0	0	0	8
(50,70)		0	3	1	0	0	0	0	4
(70,90)		0	4	7	1	1	0	0	13
(90,110)		0	0	6	8	1	0	0	15
(110,130)		0	0	0	4	5	0	0	9
(130,150)		0	0	0	0	2	5	0	7
(150,170)		0	0	0	0	0	1	3	4
n.k		5	10	14	13	9	6	3	60
2. Bodové a intervalové rozložení četností
I
Shrnutí kapitoly
Není-li v jednorozměrném souboru počet variant znaku příliš velký, pak přiřazujeme četnosti jednotlivým variantám znaku a hovoříme o bodovém rozložení četnosti. To lze znázornit graficky pomocí různých diagramů (např. tečkový diagram, sloupkový diagram atd.). Pokud zapíšeme četnosti do tabulky, dostaneme variační řadu. Pomocí relativních četností zavedeme četnostní funkci, pomocí kumulativních relativních četností empirickou distribuční funkci, která má schodovitý průběh.
Pracujeme-li s dvourozměrným datovým souborem, zavádíme simultánní četnosti a zapisujeme je do kontingenční tabulky. Na okrajích kontin-genční tabulky jsou uvedeny marginální četnosti, které se vztahují jen k jednomu znaku. Pomocí simultánních kumulativních relativních četností zavádíme simultánní četnostní funkci. Simultánní a marginální četnosti či četnostní funkce nám snadno umožní ověřit četnostní nezávislost dvou znaků v daném výběrovém souboru.
Je-li počet variant znaku srovnatelný s rozsahem souboru, použijeme raději intervalové rozložení četnosti, při němž přiřazujeme četnosti nikoli jednotlivým variantám, ale třídicím intervalům. Jejich počet určíme např. pomocí Sturgesova pravidla. Četnosti třídicích intervalů zapisujeme do tabulky rozložení četností. Relativní četnosti třídicích intervalů znázorňujeme pomocí histogramu. Schodovitá čára shora omezující histogram je grafem hustoty četnosti. Spojitým protějškem schodovité empirické distribuční funkce je intervalová empirická distribuční funkce zavedená jako funkce horní meze integrálu z hustoty četnosti.
Při dvourozměrném intervalovém rozložení četností pracujeme s podobnými pojmy jako u dvourozměrného bodového rozložení četnosti. Místo simultánní a marginální četnostní funkce samozřejmě máme simultánní či marginální hustotu četnosti.
Kontrolní otázky a úkoly
1   Jaké grafy znázorňující rozložení četností znáte? Popište způsob jejich konstrukce.
2   Jak vzniká variační řada?
3   Jaké četnosti zapisujeme do kontingenční tabulky?
4  Kdy jsou v daném výběrovém souboru znaky četnostně nezávislé?
5   K čemu slouží Sturgesovo pravidlo?
6  Vyjmenujte funkcionální charakteristiky skalárního znaku a dvourozměrného vektorového znaku při bodovém a intervalovém rozložení četností.
7   (S) V rámci marketingového průzkumu trhu bylo dotázáno 25 náhodně vybraných zákazníků jisté pojišťovny a byl zjišťován jejich zájem o nový druh pojištění (znak X) a současně jejich rodinný stav (znak Y). Získané odpovědi byly zakódovány pro znak X takto: jednoznačný nezájem = 1, podprůměrný zájem = 2, průměrný zájem = 3, nadprů-
36
měrný zájem = 4, jednoznačný zájem = 5 a pro znak Y takto: svobodný = 1, rozvedený nebo ovdovělý = 2, ženatý = 3.
5 1		4 3		5 2		4 2		4 1
3 2		3 3		3 2		5 3		4 3
4 2		1 1		4 1		4 3		4 3
4 1		4 3		5 1		5 3		2 3
5 2		3 3		1 3		3 1		2 2
a)   Pro znak X sestrojte jednorozměrný tečkový diagram, sestavte variační řadu, sestrojte graf četnostní funkce a empirické distribuční funkce.
b)   Pro vektorový znak (X, Y) sestavte kontingenční tabulku absolutních četností, absolutních kumulativních četností, dále kontingenční tabulky sloupcově a řádkově podmíněných četností a graf simultánní četnostní funkce.
c)   Jsou znaky X, y v daném výběrovém souboru četnostně nezávis-
(S) Ue50 náhodně vybraných posluchačů a posluchaček VŠE v Praze byla zjišťována jejich hmotnost v kg (znak X) a jejich výška v cm (znak Y).
"58 178"		"65	170"		"72	177"		"72	191"		"63 172"
68 173		57	169		90	192		57	174		58 163
56 170		65	169		57	176		57	160		64 174
60 170		60	170		51	168		56	170		52 168
61 173		54	162		81	190		56	172		55 164
71 181		52	169		73	177		52	165		67 173
85 184		83	182		75	179		72	185		60 170
80 170		60	168		71	180		75	170		55 160
52 172		68	173		66	178		52	163		62 172
72 182		63	171		67	182		63	184		70 171
a)
b)
Pro znak X stanovte optimální počet třídicích intervalů podle Sturgesova pravidla, sestavte tabulku rozložení četnosti, nakreslete histogram a graf intervalové empirické distribuční funkce. Pro znak Y rovněž stanovte optimální počet třídicích intervalů podle Sturgesova pravidla. Pro vektorový znak (X, Y) sestavte kontingenční tabulku absolutních četností a nakreslete dvourozměrný tečkový diagram, c) Jsou znaky X, y v daném výběrovém souboru četnostně nezávislé?
I
37
2. Bodové a intervalové rozložení četností
I
38
I
3
Číselné charakteristiky znaků
3. Číselné charakteristiky znaků
I
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■   rozlišovat různé typy znaků
■   vypočítat různé charakteristiky, polohy a variability skalárního znaku
■   vypočítat charakteristiky těsnosti lineární závislosti dvou znaků
■   využít vlastností číselných charakteristik ke zjednodušení výpočtů
■   vypočítat vážené číselné charakteristiky znaků.
Časová zátěž
Pro zvládnutí této kapitoly budete potřebovat 5-6 hodin studia.
Nejprve se naučíme rozlišovat různé typy znaků podle toho, jaký je jejich stupeň kvantifikace. Pro jednotlivé typy znaků pak zavedeme číselné charakteristiky popisující polohu hodnot znaku na číselné ose a jejich proměnlivost. Seznámíme se rovněž s důležitými vlastnostmi číselných charakteristik a naučíme se je počítat pro konkrétní datové soubory.
3.1. Motivace
Ve druhé kapitole jsme se seznámili s funkcionálními charakteristikami znaků, jako jsou p(x,y),pi(x),p2(y), F(x), f(x,y), fi(x), f2(y), které nesou úplnou informaci o rozložení četností. V této kapitole zavedeme číselné charakteristiky, které nás informují o některých rysech tohoto rozložení četností: o poloze (úrovni) hodnot znaku, o jejich variabilitě (rozptýlení), o těsnosti závislosti dvou znaků a pod. Pro různé typy znaků se používají různé číselné charakteristiky, proto se nejdřív seznámíme s jednotlivými typy znaků.
3.2. Definice
Podle stupně kvantifikace znaky třídíme takto:
(n) Nominální znaky připouštějí obsahovou interpretaci jedině relace rovnosti x\ = X2 (popřípadě x\ ^ x2), tj. hodnoty znaku představují jen číselné kódy kvalitativních pojmenování. Např. městské tramvaje jsou očíslovány, ale např. č. 4 a 12 říkají jen to, že jde o různé tratě: nic jiného se z nich o vztahu obou tratí nedá vyčíst.
(o) Ordinálni znaky připouštějí obsahovou interpretaci kromě relace rovnosti i v případě relace uspořádání x\ < x2 (popřípadě X\ > x2), tj. jejich uspořádání vyjadřuje větší nebo menší intenzitu zkoumané vlastnosti. Např. školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených (jedničkář je lepší než dvojkař), ale intervaly mezi známkami nemají obsahové interpretace (netvrdíme, že rozdíl ve znalostech mezi jedničkářem a dvojkařem je stejný jako mezi trojkařem a čtyřkařem. Podobný charakter mají různá bodování ve sportovních, uměleckých a jiných soutěžích.
(i) Intervalové znaky připouštějí obsahovou interpretaci kromě relace rovnosti a uspořádání též u operace rozdílu x\— x2 (popřípadě součtu x\+x2), tj. stejný interval mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje
40
i stejný rozdíl v extenzitě zkoumané vlastnosti. Např. teplota měřená ve stupních Celsia představuje intervalový znak. Naměříme-li ve čtyřech dnech polední teploty 0, 2, 4, 6, znamená to, že každým dnem stoupla teplota o 2 stupně Celsia. Bylo by však chybou interpretovat tyto údaje tvrzením, že ze druhého na třetí den vzrostla teplota dvakrát, kdežto ze třetího na čtvrtý pouze jedenapůlkrát.
(p) Poměrové znaky umožňují obsahovou interpretaci kromě relace rovnosti a uspořádání a operace rozdílu ještě u operace podílu x\/x2 (popřípadě součinu X\ -x2), tj. stejný poměr mezi jednou dvojicí hodnot a druhou dvojicí hodnot znamená i stejný podíl v extenzitě zkoumané vlastnosti. Např. má-li jedna osoba hmotnost 150 kg a druhá 75 kg, má smysl prohlásit, že první je dvakrát hmotnější než druhá.
Zvláštní postavení mají:
(a) Alternativní znaky, které nabývají jen dvou hodnot, např. 0,1, což znamená absenci a prezenci nějakého jevu. Například 0 bude znamenat neúspěch, 1 úspěch při řešení určité úlohy. Alternativní znaky mohou být ztotožněny s kterýmkoliv z předcházejících typů.
I
3.3. Definice
Pro nominální znaky používáme jako charakteristiku polohy modus. U bodového rozložení četností je to nejčetnější varianta znaku, u intervalového střed nejčetnějšího třídicího intervalu.
3.4. Definice
Pro ordinální znaky používáme jako charakteristiku polohy Cü-kvantil. Jeli a G (0,1), pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 — a všech dat. Pro výpočet Cü-kvantilu slouží algoritmus:
celé číslo c
X(y
X(c) + X(c+1)
necelé číslo  =/-  zaokrouhlíme nahoru na nejbližší celé číslo c
~r     Xa           (c)
Pro speciálně zvolená a užíváme názvů: £0,50 ~~ medián, £0,25 ~~ dolní kvarta, £0,75 - horní kvartil, £0,1,... ,£0,9 ~~ decay, £0,01, • • • ^0,99 - percentily. Jako charakteristika variability slouží kvartilová odchylka:
Q = 3^0,75 — Xq 25-
3.5. Příklad
Pro datový soubor známek z matematiky (viz příklad 1.10) vypočtěte medián, oba kvartily a kvartilovou odchylku.
41
3. Číselné charakteristiky znaků
I
Řešení:
OL	na	c		•La
0,25	5	5	(i+i) 2	1
0,50	10	10	(2+3) 2	2,5
0,75	15	15	(4+4) 2	4
g=4-1=3
3.6. Definice
Pro intervalové a poměrové znaky slouží jako charakteristika polohy aritmetický průměr
1   n m = — >   Xi n *-^
(lze ho interpretovat jako těžiště jednorozměrného tečkového digramu). Charakteristikou variability je rozptyl
s2 =
1   n
- y^ixi - míli -f—'
í=i
či směrodatná odchylka s = všč. Pomocí průměru zavedeme centrovanou hodnotu Xi — m (podle znaménka poznáme, zda z-tá hodnota je podprůměrná či nadprůměrná a pomocí směrodatné odchylky zavedeme standardizovanou
hodnotu —------ (vyjadřuje o kolik směrodatných odchylek se z-tá hodnota
s
odchýlila od průměru).
3.7.  Věta
Rozptyl je nulový, právě když X\ = x2 = ■ ■ ■ = xn.
3.8.  Příklad
Vypočtěte průměr a rozptyl
a)   centrovaných hodnot,
b)   standardizovaných hodnot.
Řešení:
ad a)      Průměr centrovaných hodnot:
1   n                            1
— y   {xi — m) = m-----• n ■ m = 0.
n *-^                          n
t=i
Rozptyl centrovaných hodnot:
1    n -V((^-m)-0)2 = s2.
n   f    J
í=l
42
ad b)      Průměr standardizovaných hodnot:
1 y^ (xí — to)       1
•0 = 0.
í=l
Rozptyl standardizovaných hodnot:
i    n    /
1 ^—r / Xi — Tfl n Z—/
í=l
2       S2
51   =š = >-
3.9. Poznámka
V předešlém příkladě jsme vypočítali, že průměr centrovaných hodnot je 0. Této skutečnosti lze využít k vysvětlení rozptylu: chceme získat číslo, které by charakterizovalo variabilitu jednotlivých hodnot kolem průměru. Průměr centrovaných hodnot nelze použít (vyjde 0), proto místo centrovaných hodnot
n
vezmeme jejich kvadráty. Tím dospějeme ke vzorci pro rozptyl: s2 = - ^2(xí~
n í=i m)2. Rozptyl však vychází v kvadrátech jednotek, v nichž byl měřen znak X.
proto raději používáme směrodatnou odchylku s. Definiční tvar vzorce pro
rozptyl není příliš vhodný pro výpočty, v praxi se používá výpočetní tvar
vzorce pro rozptyl:
1
n
í=l
1
m)2=- y.tô í=i
2,       1
2mxí + m ) = — n
T.
<Xj x
n
- ■ 2m ■ V
X i
n
n
E*?
í=i
m
1
— >   m2
1
-J2x^ t=i
2m2
1
n
n ■ m
I
í=i
3.10. Definice
Pro poměrové znaky používáme jako charakteristiku variability koeficient
g variace  —.  Je to bezrozměrné číslo, které se často vyjadřuje v procen-m
tech. Umožňuje porovnat variabilitu několika znaků. Jsou-li všechny hodnoty poměrového znaku kladné, pak jako charakteristiku polohy lze užít geometrický průměr ^Jx\ ■ ... ■ xn.
3.11. Příklad
Vypočtěte koeficient variace meze plasticity a meze pevnosti oceli pro datový soubor z příkladu 2.13.
Řešení:
si       32,441                         s2       32,515
— = —-----= 0,338,         — = —2-----= 0,284.
m1       95,88         '      '         m2      114,40
Zjistili jsme, že koeficient variace meze plasticity je 33,8%, zatímco meze pevnosti jen 28,4%.
43
3. Číselné charakteristiky znaků
I
Nyní se budeme zabývat číselnými charakteristikami dvourozměrného datového souboru se znaky intervalového či poměrového typu. Společnou variabilitu těchto dvou znaků kolem jejich průměru měříme pomocí kovariance. Jako míra těsnosti lineární závislosti dvou znaků slouží koeficient korelace. Je velmi důležité porozumět vlastnostem koeficientu korelace, proto si pozorně prohlédněte obrázky ilustrující jeho význam. Pro praktické procvičení nám poslouží příklad na číselné charakteristiky mezí plasticity a pevnosti.
3.12. Definice
Pro dvourozměrný datový soubor
xi    Ví
Jbr.
Vn
kde znaky X, Y jsou intervalového či poměrového typu, používáme jako charakteristiku společné variability znaků X, Y kolem jejich průměrů kovarianci
S12 =
1   n
~y^(xi - mi)(yi - m2).
3.13. Poznámka
Kovariance je průměrem součinů centrovaných hodnot. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s nadprůměrnými (podprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot Xi — rri\ a Ví — 1^2 vesměs kladné a jejich průměr (tj. kovariance) rovněž. Znamená to, že mezi znaky X, Y existuje určitý stupeň přímé lineární závislosti. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s podprůměrnými (nadprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot vesměs záporné a jejich průměr rovněž. Znamená to, že mezi znaky X a, Y existuje určitý stupeň nepřímé lineární závislosti. Je-li kovariance nulová, pak řekneme, že znaky X, Y jsou nekorelované a znamená to, že mezi nimi neexistuje žádná lineární závislost.
Pro výpočet kovariance používáme vzorec:
s 12
n
í=i
XíVí - m1m2-
3.14. Definice
Jsou-li směrodatné odchylky s\, s2 nenulové, pak definujeme koeficient korelace znaků X, Y vzorcem
n
1 v-^ x
r12 = - >    -
n *-^      s\
i=i
mi    íjí - m2
S2
44
3.15. Věta
Pro koeficient korelace platí — 1 < r 12 < 1 a rovnosti je dosaženo právě když mezi hodnotami X\,...,xn a yi, ■ ■ ■ ,yn existuje úplná lineární závislost, tj. existují konstanty a, b tak, že y» = a + bxi, i = 1,..., n, přičemž znaménko + platí pro b > 0, znaménko — pro b < 0. (Uvedená nerovnost se nazývá Cauchyova - Schwarzova - Buňakovského nerovnost.)
3.16. Poznámka
S12
Koeficient korelace se počítá podle vzorce r 12 =------. Představu o významu
S1S2
hodnot koeficientu korelace podávají následující dvourozměrné tečkové diagramy.
I
1,00
0,76
0,00
r= -0,37
r = -1,00
3.17. Příklad
Pro datový soubor z příkladu 2.13 vypočtěte
a)   aritmetické průměry znaků X,Y,
b)   rozptyly a směrodatné odchylky znaků X, Y,
c)   kovarianci a koeficient korelace znaků X,Y. Řešení: ad a)     mi = 95,9,    1TI2 = 114,4.
ad b)     si = 1052,40,     s22 = 1057,21,     Sl = 32,4,
ad c)     S12 = 985,76,    r12 = 0,936.
Koeficient korelace svědčí o tom, že mezi oběma znaky existuje velmi silná přímá lineární závislost - čím vyšší je mez plasticity, tím je vyšší mez pevnosti a čím je nižší mez plasticity, tím je nižší mez pevnosti.
s2 = 32,5.
Při výpočtu číselných charakteristik se v řadě situací uplatní věta shrnující některé jejich vlastnosti. Pro lepší pochopení uvedených vlastností slouží následující příklad.
45
3. Číselné charakteristiky znaků
I
3.18.  Věta
Uveďme některé vlastnosti číselných charakteristik.
a)   Nechť m\ je aritmetický průměr a s\ rozptyl znaku X. Pak znak Y = a + bX má aritmetický průměr m2 = a + brri\ a rozptyl s\ = b2s\.
b)   Nechť mi,TO2 jsou aritmetické průměry, s2, s2, rozptyly a s 12 kovariance znaků X, Y. Pak znak U = X+Y má aritmetický průměr m3 = ■m,1+m2 a rozptyl s2 = s2 + s2, + 2s\2-
c)   Nechť S12 je kovariance znaků X, Y a m\, rri2 jsou aritmetické průměry znaků X,Y. Pak znaky U = a + 6X, U = c + <iV mají kovarianci s34 = bds\2-
3.19.  Příklad
a)   Znak X má aritmetický průměr 2 a rozptyl 3. Najděte aritmetický průměr a rozptyl znaku Y = — 1 + 3X.
b)   Znaky X a,Y mají aritmetické průměry 3 a 2, rozptyly 2 a 3, kovarianci 1,5. Vypočtěte aritmetický průměr a rozptyl znaku Z = 5X — 4Y.
c)   Součet rozptylů dvou znaků je 120, součin 1000 a rozptyl jejich součtů je 100. Vypočtěte koeficient korelace těchto znaků.
Řešení:
ad a)     rri2 = — 1
adb) 25-2
ad c)
m3 = 5mi-16-9-40
-3toi = -1 + 3-2 = 5
-4m2 = 5-3-4-2 = 7, s 1,5 = 134.
S2 = 32 • s? = 9 • 3 = 27.
52-^+(-4)2-^+2-5-(-4)-s
12
'1
150.
1000.
100-120
= -10, r12 =
1+2 " _ —   -10
S1-S2
'1000
100 = s2 + = -0,316.
2s
12
S12
Pokud nemáme k dispozici původní datový soubor, ale jenom variační řadu nebo tabulku rozložení četností (resp. kontingenční tabulku), můžeme vypočítat tzv. vážené číselné charakteristiky. Pro datový soubor obsahující údaje o mezi plasticity a mezi pevnosti oceli je zajímavé porovnat původní číselné charakteristiky a vážené číselné charakteristiky.
3.20. Definice
a)     Vážené číselné charakteristiky u bodového rozložení četností:
Vážený aritmetický průměr
1    n
1E
í=l
Vážený rozptyl
1   n -ZS"(%]-™)2-
Vážená kovariance
1      n       n
12 = ~zZYl M%1 - mi)(y[k] - m2).
i=\ k=\
46
b) Vážené číselné charakteristiky u intervalového rozložení četnosti: Vzorce jsou formálně shodné s předešlými. Je však zapotřebí uvést, že výpočty jsou přesné jen tehdy, souhlasí-li průměry v jednotlivých třídicích intervalech se středy těchto intervalů, resp. vykompenzují—li se vzájemně chyby vzniklé v důsledku odchylek středů intervalů od průměru v těchto intervalech. Oba tyto případy jsou však vzácné a většinou se dopustíme určité chyby.
3.21. Příklad
Pro intervalové rozložení četností uvedené v příkladu 2.13 spočtěte vážené číselné charakteristiky a porovnejte je s číselnými charakteristikami uvedenými v příkladu 3.17.
Řešení:
	bodové rozložení	intervalové rozložení
rrii	95,88	96,67
m2	114,40	113,67
si	1052,40	1148,89
4	1057,21	1019,89
«1	32,441	33,895
S2	32,515	31,936
Sl2	985,76	998,89
ri2	0,939	0,923
Shrnutí kapitoly
Podle stupně kvantifikace znaky třídíme na nominální, ordinální, intervalové, poměrové a alternativní. Jako charakteristika polohy nominálních znaků slouží modus. Charakteristikou polohy ordinálních znaků je kterýkoliv a—kvantil, často se používá medián, dolní a horní kvartil, decily, per-centily. Rozdíl horního a dolního kvartilu je kvartilová odchylka, kterou používáme jako charakteristiku variability. U intervalových znaků slouží jako charakteristika polohy aritmetický průměr a jako charakteristika variability rozptyl či směrodatná odchylka. Odečteme-li od libovolné hodnoty průměr, dostaneme centrovanou hodnotu, a podělíme-li centrovanou hodnotu směrodatnou odchylkou, získáme standardizovanou hodnotu. Pro poměrové znaky používáme koeficient variace. Mají-li kladné hodnoty, pak jejich polohu charakterizujeme geometrickým průměrem.
Máme-li dvourozměrný datový soubor, pak jako charakteristiku společné variability zavedeme kovarianci a jako míru těsnosti lineární závislosti koeficient korelace. Podle Cauchy — Schwarzovy — Buňakovského nerovnosti nabývá koeficient korelace hodnot mezi —1 a 1.
3. Číselné charakteristiky znaků
I
Je-li k dispozici variační řada u bodového rozložení četností nebo tabulka rozložení četností u intervalového rozložení četností (resp. kontingenční tabulka), můžeme vypočítat vážené číselné charakteristiky: vážený aritmetický průměr, vážený rozptyl a váženou kovarianci.
Kontrolní otázky a úkoly
1   Udejte příklad nominálního, ordinálního, intervalového, poměrového a alternativního znaku.
2   Jaké charakteristiky polohy a variability užíváme pro uvedené typy znaků?
3  Kdy se shodují číselné charakteristiky s váženými číselnými charakteristikami?
4  Jaký význam má koeficient korelace?
5  V akciové společnosti je průměrná mzda 13 500 Kč. Přitom 30% pracovníků s nejnižší mzdou má průměrně 9 000 Kč. Na začátku roku dostal každý z těchto pracovníků přidáno 500 Kč. O kolik % vzrostla průměrná mzda v celé akciové společnosti?
6   (S) Při statistickém šetření pojištěnců byly získány tyto výše pojistek v Kč:
výše pojistky	390	410	430	450	470	490	510	530	550	570
abs. četnost	7	10	14	22	25	12	3	3	2	2
Určete aritmetický průměr, medián, modus, rozptyl, směrodatnou odchylku a koeficient variace výše pojistky.
7  V datovém souboru, z něhož byl vypočten průměr 110 a rozptyl 800, byly zjištěny 2 chyby: místo 85 má být 95 a místo 120 má být 150. Ostatních 18 údajů je správných. Opravte průměr a rozptyl.
8  Vážený aritmetický průměr činil 1500 a vážený rozptyl 90000. Varianty x[j] byly transformovány vztahem:
x
y\j
bl
h
j = 1,..., r. Po této transformaci byl vážený aritmetický průměr 5 a vážený rozptyl 9. Určete konstanty a a h. 9 (S) Pro dvourozměrný datový soubor
2	4	4	5	6	8	10	10	10	10
1	2	3	4	4	4	5	5	5	6
vypočtěte koeficient korelace. 10 Rozptyl součtů hodnot dvou znaků je 350, rozptyl rozdílů je 700. Vypočtěte koeficient korelace, víte-li, že oba znaky mají stejné rozptyly.
48
I
4
Regresní přímka
4. Regresní přímka
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■   stanovit odhady parametrů regresní přímky a znát jejich význam
■   posoudit kvalitu proložení regresní přímky dvourozměrným tečkovým diagramem
■   vypočítat regresní odhady závisle proměnného znaku
■   stanovit odhady parametrů druhé regresní přímky
■   znát vztahy mezi parametry první a druhé regresní přímky.
I
Časová zátěž
Pro zvládnutí této kapitoly budete potřebovat 3-4 hodiny studia.
Budeme se zabývat speciálním případem, kdy hodnoty znaku Y závisejí na hodnotách znaku X přibližně lineárně. Ukážeme si, jak tuto závislost popsat regresní přímkou, jak odhadnout její parametry metodou nejmenších čtverců na základě znalosti dvourozměrného datového souboru a jak posoudit kvalitu regresní přímky pomocí indexu determinace. Vysvětlíme si význam regresních parametrů a v příkladu se budeme zabývat regresní přímkou meze pevnosti na mez plasticity.
4.1. Motivace
Cílem regresní analýzy je vystižení závislosti hodnot znaku Y na hodnotách znaku X. Při tom je nutné vyřešit dva problémy: jaký typ funkce použít k vystižení dané závislosti a jak stanovit konkrétní parametry zvoleného typu funkce? Typ funkce určíme buď logickým rozborem zkoumané závislosti nebo se snažíme ho odhadnout pomocí dvourozměrného tečkového diagramu. Zde se omezíme na lineární závislost y = ß0 + ß\X. Odhady b0 a b\ neznámých parametrů ß0, ß\ získáme na základě dvourozměrného datového souboru
xi    y\
Jbr.
Vn
metodou nejmenších čtverců. Požadujeme, aby průměr součtu čtverců odchylek skutečných a odhadnutých hodnot byl minimální, tj. aby výraz
1   n
- y^iVí - ßo~ ßiXif í=i
nabýval svého minima vzhledem k ß0 a ß\. Tento výraz je minimální, jsou-li jeho první derivace podle ß0 a ß\ nulové. Stačí tyto derivace spočítat, položit je rovny 0 a řešit systém dvou rovnic o dvou neznámých, tzv. systém normálních rovnic.
50
4.2. Definice
Nechť je dán dvourozměrný datový soubor
x\    V\
Xn     yn
a přímka y = ß0 + ß\X. Výraz
1   n q(ßo, ßi) = - y^iVí - ßo - ßiXif
t=i
se nazývá rozptyl hodnot znaku Y kolem přímky y = ß0 + ß\X. Přímka V = ßo + ßix, jejíž parametry minimalizují rozptyl q(ßo,ßi) v celém dvourozměrném prostoru, se nazývá regresní přímka znaku Y na znak X. Regresní odhad i-té hodnoty znaku Y značíme ýi = bo + b\Xi, i = 1,..., n. Kvadrát koeficientu korelace znaků X, y se nazývá index determinace a značí se ID2. (Index determinace udává, jakou část variability hodnot znaku Y vystihuje regresní přímka. Nabývá hodnot z intervalu (0,1). Čím je bližší 1, tím lépe vystihuje regresní přímka závislost y na X.)
I
4.3. Věta
Nechť y = bo + b\x je regresní přímka znaku Y na znak X. Pak použitím metody nejmenších čtverců dostaneme:
&i = —. 4
bo = m2------o- • mi.
4
tedy y = rri2 l^fíx-mi). Přitom úsek 60 regresní přímky udává velikost
si
jejího posunutí na svislé ose (tj. udává, jaký je regresní odhad hodnoty znaku Y, nabývá-li znak X hodnoty 0) a směrnice b\ udává, o kolik jednotek se změní hodnota znaku Y, změní-li se hodnota znaku X o jednotku. Jestliže je b\ > 0, dochází s růstem X k růstu Y a hovoříme o přímé závislosti hodnot znaku Y na hodnotách znaku X. Je-li b\ < 0, dochází s růstem X k poklesu Y a hovoříme o nepřímé závislosti hodnot znaku Y na hodnotách znaku X.
4.4. Příklad
Pro datový soubor z příkladu 2.13
a)   určete regresní přímku meze pevnosti na mez plasticity.
b)   Zakreslete regresní přímku do dvourozměrného tečkového diagramu.
c)   Jak se změní mez pevnosti, vzroste-li mez plasticity o jednotku?
d)   Najděte regresní odhad meze pevnosti pro mez plasticity = 60.
e)   Vypočtěte index determinace a interpretujte ho.
Řešení:
ad a)      Na základě výsledků příkladu 3.17 dostáváme: b\ b0 = m2- &iTOi = 114,4 - 0,937 • 95,9 = 24,5;    y = 24,5
«12 S2
0,937a;1.
985,76 , 1052,4'
51
4. Regresní přímka
I
ad b)
o >
190 170 150 — 130 — 110
90—1-
70
50 30
-----------------------------------1------------------------------1------------------------------1------------------------------1------------------------------1------------------------------1-------»---------------------
---------------------------------------------1-----------------+-----------------i-----------------------------------------1  -j/^-t---------
•   •              a0000^
---------------------------------------------1-----------------+-----------------|--------------r _ -yiSL-----------1-------------------
-------------------------_,              +         '~s>\     '                    A
---------------#------------------\J^^-------"*- +--------------'-----------------------------------'----------------
>i                          •
_______________•______^f^______________________i______________________x.______________________i_____________________________________________________i________________________
50
70
90           110
mez plasticity
130
150
170
Povšimněte si, že koeficient korelace znaků X, Y vypočtený v příkladě 3.17 činil 0,936. Tato hodnota je blízká 1, což svědčí o silné přímé lineární závislosti mezi znaky X a Y. Tečky v dvourozměrném tečkovém diagramu nejsou příliš rozptýleny kolem regresní přímky.
ad c) Mez pevnosti vzroste o 0,937kpcm~2.
ad d) = 24,5 + 0,937 • 60 = 80,72.
ad e) IDS
12
0,9362 = 0,876. Znamená to, že 87,6% variability hodnot
meze pevnosti je vysvětleno regresní přímkou.
4.5. Definice
Regresní přímkou znaku X na znak Y nazveme tu přímku x = b0 + biy, jejíž parametry minimalizují rozptyl
_____l   n           _    _
q(ßo,ßi) = - y^(xí - A) - ßiVif
v celé rovině. Nazývá se též druhá regresní přímka. Regresní přímka znaku Y na znak X a regresní přímka znaku X na znak Y se nazývají sdružené regresní přímky.
4.6. Věta
Rovnice regresní přímky znaku X na znak Y má tvar x = m\ + ^(y — 777,2). Sdružené regresní přímky se protínají v bodě (mi,777-2). Pro regresní parametry b\, b\ platí: 6161 = r22. Rovnice sdružených regresních přímek můžeme psát ve tvaru
y = m-2 + ru — (x - mi).
y = m2
1 S2(              \
---------(Z-TOi).
ri2Si
(je-li r 12 ^ 0).
52
Regresní přímky svírají tím menší úhel, čím méně se od sebe liší r u a —. Regresní přímky splynou, je-li r\2 = 1. K tomu dojde právě tehdy, existuje-li mezi XaY úplná lineární závislost. Všechny body (xí, i/í), i = 1,..., n leží na jedné přímce, tedy ze znalosti Xi můžeme přesně vypočítat i/í, i = 1,..., n. Jsou-li znaky X, Y nekorelované, pak mají sdružené regresní přímky rovnice V = rn-2, x = rrii a jsou na sebe kolmé. Označíme-li a úhel, který svírají sdružené regresní přímky, pak platí:
■   coscü = 0, právě když mezi laľ neexistuje žádná lineární závislost,
■   coscü   =   1, právě když mezi X a Y existuje úplná přímá lineární závislost,
■   coscü = — 1, právě když mezi X a Y existuje úplná nepřímá lineární závislost.
m2
I
4.7. Příklad
Pro datový soubor z příkladu 2.13
a)   Určete regresní přímku meze plasticity na mez pevnosti.
b)   Zakreslete regresní přímku do dvourozměrného tečkového diagramu.
Řešení:
ad a)    S využitím výsledků příkladu 3.17 dostáváme:
r-     si2
Ol = ~T
985,76 1057,21
0,932,
b0 = m1- b1m2 = 95,9 - 0,932 • 114,4 = -10,7
tedy
x
-10,7 + 0,932y. ad b) Uvědomte si, že součin směrnic sdružených regresních přímek je
0,937-0,932 = 0,87
53
4. Regresní přímka
I
což je index derminace naboli kvadrát indexu korelace. 170-
110          130
mez pevnosti
190
Shrnutí kapitoly
Pokud vzhled dvourozměrného tečkového diagramu svědčí o existenci určitého stupně lineární závislosti znaku Y na znaku X, můžeme diagramem proložit regresní přímku znaku Y na znak X. (Pozor - nelze se spokojit pouze s výpočtem korelačního koeficientu, je nutné grafické posouzení závislosti.) Její parametry (tj. posunutí a směrnici) odhadujeme metodou nejmenších čtverců. Kvalitu proložení posuzujeme pomocí indexu determinace - čím je tento index bližší 1, tím je regresní přímka výstižnější a čím je bližší 0, tím je regresní přímka nevhodnější pro vystižení závislosti Y na X. Dosadíme-li danou hodnotu znaku X do rovnice regresní přímky, získáme regresní odhad příslušné hodnoty znaku Y.
Má-li smysl zkoumat též opačný směr závislosti, tj. X na Y, hledáme druhou regresní přímku. 1. a 2. regresní přímka se označují jako sdružené regresní přímky.
Kontrolní otázky a úkoly
1   V čem spočívá princip metody nejmenších čtverců?
2  Uveďte příklad dvourozměrného datového souboru z ekonomické praxe vhodný pro použití regresní přímky.
3   Co vyjadřuje index determinace a jak se počítá?
4   Jaký je vztah mezi směrnicemi sdružených regresních přímek
5   Jsou-li sdružené regresní přímky kolmé, co lze říct o znacích X a Yl
6   Rozhodněte, zda přímky y = 13 — 2x, x = 8 — y mohou být sdruženými regresními přímkami.
7   Je dána rovnice regresní přímky y = 87 + 0,3(x — 25) a koeficient korelace r 12 = 0,77. Najděte rovnici sdružené regresní přímky.
54
8 (S) U osmi náhodně vybraných studentů byly zjišťovány jejich matematické a verbální schopnosti. Výsledky matematického testu udává znak X, výsledky verbálního Y.
X	80	50	36	58	72	60	56	68
Y	65	60	35	39	48	44	48	61
a)   Vypočtěte koeficient korelace a interpretujte ho.
b)   Najděte rovnice sdružených regresních přímek.
c)   Zlepší-li se výsledek v matematickém testu o 10 bodů, o kolik bodů se zlepší výsledek ve verbálním testu?
d)   Zlepší-li se výsledek ve verbálním testu o 10 bodů, o kolik bodů se zlepší výsledek v matematickém testu?
9 Jak se změní úsek a směrnice regresní přímky, když každou hodnotu závisle proměnného znaku zvětšíme o 10%? 10 Závislost mezi vnější teplotou a teplotou ve skladišti je popsána regresní přímkou y = 8 + 0,6x. Při jaké vnější teplotě klesne teplota ve skladišti pod bod mrazu?
I
55
4. Regresní přímka
I
56
I
5!
Jev a jeho pravděpodobnost
5. Jev a jeho pravděpodobnost
Cíl kapitoly
Po prostudování této kapitoly budete umět
■   rozlišit náhodný a deterministický pokus
■   stanovit základní prostor
■   popsat vztahy mezi jevy pomocí množinových operací
■   vypočítat pravděpodobnost jevu a znát vlastnosti pravděpodobnosti
Časová zátěž
Na prostudování této kapitoly budete potřebovat asi 6 hodin.
I
Nejprve se seznámíme s pojmem pokusu, a to deterministického a náhodného pokusu. Nadále se budeme zabývat náhodnými pokusy. Množinu možných výsledků pokusu považujeme za základní prostor. Na základním prostoru vybudujeme jevové pole jako systém podmnožin, který je uzavřený vzhledem k množinovým operacím. Základní prostor spolu s jevovým polem tvoří tzv. měřitelný prostor. Libovolná podmnožina možných výsledků náhodného pokusu, která patří do jevového pole, je jev. Naučíme se vyjadřovat vztahy mezi jevy pomocí množinových operací a uvedeme vlastnosti těchto operací.
5.1. Definice
Pokusem rozumíme jednorázové uskutečnění konstantně vymezeného souboru definičních podmínek. Předpokládáme, že pokus můžeme mnohonásobně nezávisle opakovat za dodržení definičních podmínek (ostatní podmínky se mohou měnit, proto různá opakování pokusu mohou vést k různým výsledkům). Dále předpokládáme, že opakováním pokusu vzniká opět pokus.
Deterministickým pokusem nazýváme takový pokus, jehož každé opakování vede k jedinému možnému výsledku. (Např. zahřívání vody na 100 °C při atmosférickém tlaku 1015 hPa vede k varu vody.)
Náhodným pokusem nazýváme takový pokus, jehož každé opakování vede k právě jednomu z více možných výsledků, které jsou vzájemně neslučitelné. (Např. hod kostkou vede k právě jednomu ze šesti možných výsledků.)
5.2. Definice
Neprázdnou množinu možných výsledků náhodného pokusu značíme Q a nazýváme ji základní prostor. Možné výsledky značíme ui,U2,---- Na základním prostoru Q vytvoříme jevové pole A jako systém podmnožin, který s každými dvěma množinami obsahuje i jejich rozdíl, obsahuje celý základní prostor a obsahuje-li každou ze spočetné posloupnosti množin, obsahuje i jejich spočetné sjednocení (znamená to, že systém A je uzavřený vzhledem k množinovým operacím). Jestliže A E A, pak řekneme, že A je jev. Dvojice (Q,A) se nazývá měřitelný prostor. Q se nazývá jistý jev, 0 nemožný jev.
58
5.3.  Poznámka
Vztahy mezi jevy vyjadřujeme pomocí množinových inkluzí a operace s jevy popisujeme pomocí množinových operací.
a)   A C B znamená, že jev A má za důsledek jev B.
b)   A U B znamená nastoupení aspoň jednoho z jevů A, B.
c)   i4íl5 znamená společné nastoupení jevů A, B.
d)   A — B znamená nastoupení jevu A za nenastoupení jevu B.
e)   A = Q — A znamená jev opačný k jevu A.
f)   A n B = 0 znamená, že jevy A, B jsou neslučitelné.
g)   oj G A znamená, že možný výsledek oj je příznivý nastoupení jevu A.
5.4.  Věta
Uveďme některé vlastnosti, které mají operace s jevy:
a)   Pro sjednocení a průnik jevů platí komutativní zákon, který pro dva jevy A, B má tvar:
AnB = BnA,        AnB = BnA.
b)   Pro sjednocení a průnik tří jevů A, B, C platí zákon asociativní:
A u (B u C) = (A u B) u c,      A n (B n C) = (A n B) n c,
a zákon distributivní:
An(BnC) = (An B) u (An C),      Au(BnC) = (An B) n (An C).
c)   Pro sjednocení a průnik jevů opačných platí de Morganovy zákony, které pro dva jevy A, B zapíšeme takto:
A~n~B = A~ňB,      ~Än~B = AnB.
5.5.  Příklad
Náhodný pokus spočívá v hodu kostkou. Jev A znamená, že padne sudé číslo a jev B znamená, že padne číslo větší než 4.
a)   Určete základní prostor Q.
b)   Vypište možné výsledky příznivé nastoupení jevů A, B.
c)   Pomocí operací s jevy vyjádřete následující jevy: padne liché číslo; nepadne číslo 1 ani 3, padne číslo 6; padne číslo 2 nebo 4.
Řešení:
ad a)    Q = {u\,..., ue}, kde možný výsledek ují znamená, že padne číslo i.
i = 1,...,6.
ad b)     A = {u2,0J4, we}, B = {u5, u6}.
ad c) A = {ui,013,015}; AnB = {012,014,oi5,0Je}; AnB = {oie}; A —B = {012,014}
Na měřitelném prostoru zavedeme pravděpodobnost jako funkci, která splňuje určité axiomy a každému jevu přiřazuje číslo mezi 0 a 1. Měřitelný prostor spolu s pravděpodobností tvoří pravděpodobnostní prostor. Seznámíme
59
m
ž
a
5. Jev a jeho pravděpodobnost
se s vlastnostmi pravděpodobnosti a uvidíme, že téměř všechny jsou obdobné vlastnostem relativní četnosti jak jsme je poznali v první kapitole. Zavedeme speciální případ pravděpodobnosti - klasickou pravděpodobnost a vypočítáme několik příkladů.
5.6. Definice
Nechť (Q, A) je měřitelný prostor. Pravděpodobnostírozumíme reálnou množinovou funkci P : A —► IR, která splňuje následující tři axiómy: každému jevu přiřazuje nezáporné číslo, jistému jevu přiřazuje číslo 1, sjednocení neslučitelných jevů přiřazuje součet pravděpodobností těchto jevů. Trojice (Q,A,P) se nazývá pravděpodobnostní prostor.
I
(Axiómy pravděpodobnosti jsou zvoleny tak, aby pravděpodobnost byla „zi-dealizovaným" protějškem relativní četnosti zavedené v definici 1.1. Znamená to, že pro velký počet opakování pokusu, v němž sledujeme nastoupení jevu A, se relativní četnost jevu A blíží pravděpodobnosti jevu A. Tento poznatek je znám jako empirický zákon velkých čísel. Zdálo by se přirozené definovat pravděpodobnost jako limitu relativní četnosti pro n —► oo. Tento postup by však nebyl korektní, protože počet pokusů n je vždy konečný a nelze se tedy přesvědčit o existenci uvedené limity.)
5.7. Věta
Nechť (Q, A, P) je pravděpodobnostní prostor. Pak pro libovolné jevy A, A\.
A2, • • • E A platí následujících 14 vlastností:
PÍ
P2
P3
P4
P5
P6
P7
P8
P9
P10
Pil
P12
P13
P14:
P(
0
P (A) > 0      (nezápornost - axióm)
P(A1 U A2) + P(A1 n A2) = P(A1) + P(A2)
i + p^nA^ >p{A1) + p{A2)
P{Al U A2) < P{Al) + P(A2)     (subaditivita)
Ai n A2 = 0  =>  P(Ai U A2) = P(A1) + P(A2)     (aditivita)
P(A2 - A1) = P(A2) - P(A1 n A2)
AľCA2  =>  P(A2 - Aí) = P(A2) - P(A2)     (subtraktivita)
Ai C A2  =>  P(A2) < P(A2)     (monotonie)
P(íž) = 1      (normovanost - axióm)
P (A) + P (A) = 1     (komplementarita)
P{A) < 1
At n Aj = 0 pro i^J   =>   P(Ai U A2 U ...) = P(Ai) + P(A2) (spočetná aditivita - axióm)
(n        \           n                     n—l      n
U ^ = E p^ - E E p^n A>)+ i=\       J         í=l                     í=l j=i+l
n—2   n—1        n
Y, Y,  Y, P(AnA3nAk)--■ ■+(-i)n-1P(AlnA2n-■ -c\An)
i=l j=i+l k=j+l
60
Pro neslučitelné jevy A\,..., An dostáváme
/ n         \            n
vi=l
í=l
(Vlastnosti PÍ,..., P12 odpovídají vlastnostem relativní četnosti z věty 1.3. vlastnost P14 je známa jako věta o sčítání pravděpodobností.)
5.8. Definice
Nechť Q je konečný základní prostor a nechť všechny možné výsledky mají stejnou šanci nastat. Klasická pravděpodobnost je funkce, která jevu A při-
řazuje číslo P (A)
m(A)
, kde m(A) je počet možných výsledků příznivých
nastoupení jevu A a m(Q) je počet všech možných výsledků.
5.9. Příklad
Vypočítejte pravděpodobnosti jevů A, B, A, A U B, A n B, A — B z příkladu 5.5.
Řešení:
m(Q) = 6, P(Al)B) = l =
P{A) = I = h       P{B) = 1 =
P(A) = 1 = 1
P(AnB) = l       P{A-B) = l = \.
I
5.10. Příklad
V dodávce 100 kusů výrobků nemá požadovaný průměr 10 kusů, požadovanou délku 20 kusů a současně nemá požadovaný průměr i délku 5 kusů. Jaká je pravděpodobnost, že náhodně vybraný výrobek z této dodávky má požadovaný průměr i délku?
Řešení:
Jev A spočívá v tom, že výrobek má požadovaný průměr a jev B v tom, že výrobek má požadovanou délku. Počítáme
P {A C\B) = P{A \JB) = l- P{A \JB) =
= 1 - [P(A) + P(B) - P(ÄC\B)} = 1 - (^- + ^~
5
V100      100      100
= 0,75.
5.11. Příklad
Mezi N výrobky je M zmetků. Náhodně bez vracení vybereme n výrobků. Jaká je pravděpodobnost, že vybereme právě k zmetků?
Řešení:
Základní prostor Q je tvořen všemi neuspořádanými n-ticemi vytvořenými z N prvků. Tedy m(fl) = (^). Jev A spočívá v tom, že vybereme právě k zmetků z M zmetků (ty lze vybrat (, ) způsoby) a výběr doplníme n — k
61
5. Jev a jeho pravděpodobnost
kvalitními výrobky vybranými z N — M kvalitních výrobků (tento výběr lze způsoby). Podle kombinatorického pravidla součinu dostává-
provést me
n—k
m(A) =
M
N- M n — k
tedy    P (Ä) =
m(Ä)
M\ íN-M\ k J v n—k )
N\
I
Shrnutí kapitoly
Deterministický pokus vede při každém opakování k jedinému možnému výsledku, zatímco náhodný pokus vede při každém opakování právě k jednomu z více možných výsledků. Množina možných výsledků náhodného pokusu tvoří základní prostor. Systém podmnožin základního prostoru, který je uzavřený vzhledem k množinovým operacím, se nazývá jevové pole. Základní prostor spolu s jevovým polem označujeme jako měřitelný prostor. Podmnožina, která patří do jevového pole, je jev. Celý základní prostor je jevem jistým, prázdná množina jevem nemožným.
Šanci jevu na uskutečnění vyjadřujeme pomocí pravděpodobnosti, což je funkce, která každému jevu přiřazuje číslo mezi 0 a 1 a splňuje určité axiomy, které stanovil ruský matematik A. N. Kolmogorov tak, aby pravděpodobnost byla „zidealizovaným" protějškem relativní četnosti. Při mnohonásobném nezávislém opakování téhož náhodného pokusu totiž platí empirický zákon velkých čísel: relativní četnost jevu se ustaluje kolem nějaké konstanty, kterou považujeme za pravděpodobnost tohoto jevu. Měřitelný prostor spolu s pravděpodobností tvoří pravděpodobnostní prostor. V praxi se nej-častěji používá klasická pravděpodobnost zavedená jako podíl počtu těch výsledků, které jsou příznivé nastoupení daného jevu, a počtu všech možných výsledků.
Kontrolní otázky a úkoly
1   Uveďte příklad deterministického pokusu a náhodného pokusu.
2  Náhodný pokus spočívá v hodu dvěma kostkami. Určete základní prostor.
3  Pro zkoušku provozní spolehlivosti určitého zařízení je předepsán tento postup: zařízení je uvedeno v činnost pětkrát při maximálním zatížení. Jakmile při některém z těchto pěti pokusů zařízení selže, nesplnilo podmínky zkoušky. Označme Ai jev: „při z-tém pokusu zařízení selhalo" pro i = 1,... , 5. Pomocí jevů Ai vyjádřete jevy:
a)   Zařízení neprošlo úspěšně zkouškou.
b)   První tři pokusy byly úspěšné, ve 4. a 5. pokusu zařízení selhalo.
c)   1. a 5. pokus byly úspěšné, ale zkouška byla neúspěšná.
4  Formulujte emiprický zákon velkých čísel.
5  Uveďte příklad situace, v níž nelze použít klasickou pravděpodobnost.
6  Z karetní hry o 32 kartách vybereme náhodně bez vracení 4 karty. Jaká je pravděpodobnost, že aspoň jedna z nich je eso?
62
7  Dva hráči házejí střídavě mincí. Vyhrává ten, komu padne dřív líc. Stanovte pravděpodobnost výhry 1. hráče a pravděpodobnost výhry 2. hráče.
8  Chevalier de Méré pozoroval, že při házení třemi kostkami padá součet 11 častěji než součet 12, i když podle jeho názoru (nesprávného) mají oba součty stejnou pravděpodobnost. Stanovte pravděpodobnost obou jevů.
9  Student se ke zkoušce připravil na 15 otázek z 20 zadaných. Při zkoušce si vybere náhodně dvě otázky. Jaká je pravděpodobnost, že aspoň na jednu zná odpověď?
10 Mezi následujícími tvrzeními vyberte ta, která jsou pravdivá:
a)   P(AnB) < P(B),
b)   P(AUB) < P(B),
c)   P(AUB) < P(A) + P(B),
d)   P(A) < 0.
I
63
5. Jev a jeho pravděpodobnost
I
64
I
6
Stochasticky nezávislé jevy a podmíněná pravděpodobnost
6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost
I
Cíl kapitoly
Po prostudování této kapitoly budete umět
■   ověřit stochastickou nezávislost posloupnosti jevů
■   řešit příklady využívající stochastickou nezávislost jevů
■   počítat podmíněnou pravděpodobnost
■   použít větu o násobení pravděpodobností, vzorec pro úplnou pravděpodobnost a Bayesův vzorec
Časová zátěž
Pro zvládnutí této kapitoly budete potřebovat asi 6 hodin studia.
Z předešlé kapitoly víme, že pravděpodobnost je „zidealizovaným" protějškem relativní četnosti. Lze tedy očekávat, že stochasticky nezávislé jevy zavedeme podobně jako četnostně nezávislé množiny: pomocí multiplikativního vztahu. Uvedeme vlastnosti stochasticky nezávislých jevů a s jejich pomocí odvodíme dvě důležitá rozložení pravděpodobnosti - geometrické a binomické, která mají, jak uvidíme později, časté využití v praxi.
6.1. Definice
Nechť (Q, A, P) je pravděpodobnostní prostor. Jevy Ai,A2 G A jsou stochasticky nezávislé, jestliže P(Aiľ\A2) = P(Ai)P(A2). (Tento vztah znamená, že informace o nastoupení jednoho jevu neovlivní šance, s nimiž očekáváme nastoupení druhého jevu. Stochastická nezávislost jevů Ai,A2 je motivována četnostní nezávislostí množin G\, G2 ve výběrovém souboru - viz definice 1.6.) Jevy Ai,... ,An G A jsou stochasticky nezávislé, jestliže platí systém multiplikativních vztahů:
VI < i < j < n :     P(Ai n Aj) = P(Ai)P(Aj),
VI < i < j < k < n :     P(Ai n Aj n Ak) = P(A)P(Aj)P(Ak).
P(Ain---nAn) = P(Ai)...P(An).
Jevy Ai,A2,--- G A jsou stochasticky nezávislé, jestliže pro všechna přirozená n jsou stochasticky nezávislé jevy Ai,..., An G A.
(Upozornění: při ověřování stochastické nezávislosti jevů musíme prozkoumat platnost všech multiplikativních vztahů.)
6.2. Věta
a)   Nemožný jev je stochasticky nezávislý s každým jevem.
b)   Jistý jev je stochasticky nezávislý s každým jevem.
c)   Stochastická nezávislost se neporuší, jestliže některé (nebo i všechny) jevy nahradíme jevy opačnými.
d)   Neslučitelné jevy nemohou být stochasticky nezávislé (pokud nemají všechny nulovou pravděpodobnost).
66
6.3. Příklad
Nezávisle opakujeme týž náhodný pokus. Nechť jev Ai znamená úspěch v i-tém pokusu, přičemž P(Ai) = v, i = 1, 2,... Vypočítejte pravděpodobnost, že
a)   prvnímu úspěchu předchází z neúspěchů, z = 0,1,2,....
b)   v prvních n pokusech nastane právě y úspěchů, y = 0,1,... ,n.
Řešení:
ad a)     P(Ä[ n-nín Az+1) = P(Ä[)... P(Ä~z)P(Az+1) = (l - u)zv (geometrické rozložení pravděpodobností)
ad b)
P((An- • -n^n^+in- • -nAra)u- • -u^n- • -r\An_yr\An_y+lr\- ■ -r\An)) = P{Al)... P{Ay)P(Ä~^)... P(An) + ■■■ +
P^)... P(An_y)P(An_y+l)... P(An) =
- u)n-yuy = (
uy(l - u)n~y + ••• + (!- u)n-yuy = IU ) vy{l - u)n~y
(binomické rozložení pravděpodobností)
Nyní zavedeme podmíněnou pravděpodobnost na základě analogie s podmíněnou relativní četností. Shrneme vlastnosti podmíněné pravděpodobnosti a naučíme se používat vzorec pro výpočet úplné pravděpodobnosti a Bayesův vzorec.
6.4.  Definice
Nechť (Q, A, P) je pravděpodobnostní prostor a dále H G A jev s nenulovou pravděpodobností. Podmíněnou pravdepodobnosti za podmínky H rozumíme funkci P(.\H) :  A —► IR danou vzorcem:
(Vysvětlení: Opakovaně nezávisle provádíme týž náhodný pokus a sledujeme nastoupení jevu A v těch pokusech, v nichž nastoupil jev H. Podmíněnou relativní četnost A za podmínky H jsme v definici 1.4 zavedli vztahem p(A\H) = ^ '. Tato podmíněná relativní četnost se s rostoucím počtem pokusů ustaluje kolem konstanty P(A\H), kterou považujeme za podmíněnou pravděpodobnost jevu A za podmínky H.)
6.5.  Věta
Pro podmíněnou pravděpodobnost platí:
a)   P(A, n A2) = P{A1)P{A2\A1) pro P(A) ^ 0.
b)   P(A1 n A2) = P(A2)P(A1\A2) pro P(A2) ^ 0.
c)  P(AinA2n- • -r\An) = P{Al)P{A2\Al)P{A:i\Alr\A2)... P^l^n- • -n
Ara_i) pro P(AiC\- ■ -nAra_i) 7^ 0.    (Věta o násobení pravděpodobností)
6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost
d)  Jevy Ai, A2 jsou stochasticky nezávislé, právě když P(Ai\A2) = P(A\) nebo P(A2) = 0 a právě když P(A2\A1) = P(A2) nebo P(A{) = 0.
6.6. Příklad
Ze skupiny 100 výrobků, která obsahuje 10 zmetků, vybereme náhodně bez
vracení 3 výrobky. Vypočtěte pravděpodobnost jevu, že první dva výrobky
budou kvalitní a třetí bude zmetek.
Řešení:
Jev Ai znamená, že z-tý vybraný výrobek je kvalitní, i = 1,2,3. Počítáme
P(Ai nA2nA~3) = P(Ai)P(A2\Ai)P(A-3\Ai n A2) = $ • § • f = 0,083.
I
6.7. Věta
Nechť (Q, A, P) je pravděpodobnostní prostor, Hi,..., Hn G A takové jevy,
n
že P (Hi) > 0, (J Hi = Q, Hi n Hj = 0 pro i ^ j (říkáme, že jevy Hi,..., Hn
í=i tvoří úplný systém hypotéz).
a) Pro libovolný jev A G A platí vzorec úplné pravděpodobnosti:
P(A) = Y,P(H)P(A\Ht).
í=i
b) Pro libovolnou hypotézu Hk, k = 1,... ,n a jev A G A s nenulovou pravděpodobností platí Bayesův vzorec:
P(Hk\A) =
P(Hk)P(A\Hk) P(A)         '
(P(Hk\A) se nazývá aposteriornípravděpodobnosthypotézy Hk, P(Hk) je apriorní pravděpodobnost.)
6.8. Příklad
Je známo, že 90% výrobků odpovídá standardu. Byla vypracována zjednodušená kontrolní zkouška, která u standardního výrobku dá kladný výsledek s pravděpodobností 0,95, zatímco u výrobku nestandardního s pravděpodobností 0,2. Jaká je pravděpodobnost, že
a)   zkouška u náhodně vybraného výrobku dopadla kladně,
b)   výrobek, u něhož zkouška dopadla kladně, je standardní?
Řešení:
Jev A znamená, že zkouška u náhodně vybraného výrobku dopadla kladně, jev Hi znamená, že výrobek je standardní, jev H2 znamená, že výrobek není standardní, P(Hľ) = 0,9, P(H2) = 0,1, P(A\Hi) = 0,95, P(A\H2) = 0,2.
ad a)     P (A) = P(Hi)P(A\Hi)+P(H2)P(A\H2) = 0,9-0,95+0,1-0,2 = 0,875
adb)     P(Hi\A) =
_  P(H1)P(A\H1)        0,9-0,95  = n no
0,875        u,yo.
P(A)
68
Shrnutí kapitoly
Stochasticky nezávislé jevy jsou protipólem deterministicky závislých jevů: informace o nastoupení jednoho jevu nijak nemění šance, s nimiž očekáváme nastoupení druhého jevu. Formálně zavádíme stochastickou nezávislost jevů pomocí multiplikativních vztahů na základě analogie s četnostní nezávislostí množin. Pomocí stochasticky nezávislých jevů lze odvodit geometrické a binomické rozložení pravděpodobností. Obě tato rozložení se často používají v praxi.
Podmíněná relativní četnost motivuje zavedení podmníněné pravděpodobnosti - zkoumáme pravděpodobnost nastoupení nějakého jevu za podmínky, že nastal jiný jev. Podmíněná pravděpodobnost se vyskytuje v několika důležitých vzorcích, které umožňují řešit řadu příkladů. Jedná se o větu o násobení pravděpodobností, vzorec pro výpočet úplné pravděpodobnosti a Bayesův vzorec.
Kontrolní otázky a úkoly
1   Uveďte příklad stochasticky nezávislých jevů
2  Nechť P (A) = p, P(B) = q. Pomocí čísel p, q vyjádřete pravděpodobnost nastoupení aspoň jednoho z jevů A, B, jsou-li tyto jevy
a)   stochasticky nezávislé,
b)   neslučitelné.
3   Co lze říci o jevech A, B, které nejsou nemožné a platí pro ně:
P (A Uß) = l-[1- P(A)][1 - P{B)]1
4  Je pravděpodobnější vyhrát se stejně silným soupeřem tři partie ze čtyř nebo pět z osmi, když nerozhodný výsledek je vyloučen a výsledky jsou nezávislé?
5  První dělník vyrobí denně 60 výrobků, z toho 10% zmetků. Druhý dělník vyrobí denně 40 výrobků, z toho 5% zmetků. Jaká je pravděpodobnost, že náhodně vybraný výrobek z denní produkce je zmetek a pochází od prvního dělníka?
6  Ze šesti vajec jsou dvě prasklá. Náhodně vybereme dvě vejce. Jaká je pravděpodobnost, že budou
a) obě prasklá,
b) právě jedno prasklé,
c) obě dobrá?
7  Doplňte chybějící člen x v rovnici P(B) = P(B\A)P(A) + xP(A).
8   Pro jaké jevy A, B, B ^ 0 platí P{A\B) = P (A)?
9   Co lze říci o jevech Ai,..., An s nenulovými pravděpodobnostmi, které jsou neslučitelné a jejich sjednocením je celý základní prostor?
10 Pojišťovací společnost rozlišuje při pojišťování tři skupiny řidičů - A, B a C. Pravděpodobnost toho, že řidič patřící do skupiny A bude mít během roku nehodu, je 0,03, zatímco u řidiče skupiny B je to 0,06 a u
6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost
řidiče skupiny C 0,1. Podle dlouhodobých záznamů společnosti je 70% pojistných smluv uzavřeno s řidiči skupiny A, 20% s řidiči skupiny B a 10% s řidiči skupiny C. Jestliže došlo k nehodě řidiče pojištěného u této společnosti, jaká je pravděpodobnost, že patřil do skupiny C?
11 U jistého druhu elektrického spotřebiče se s pravděpodobností 0,01 vyskytuje výrobní vada. U spotřebiče s touto výrobní vadou dochází v záruční lhůtě k poruše s pravděpodobností 0,5. Výrobky, které tuto vadu nemají, se v záruční lhůtě porouchají s pravděpodobností 0,01. Jaká je pravděpodobnost, že
a)   u náhodně vybraného výrobku nastane v záruční lhůtě porucha,
b)   výrobek, který se v záruční lhůtě porouchá, bude mít dotyčnou výrobní vadu?
I
70
I
7
Náhodná veličina a její distribuční funkce
7. Náhodná veličina a její distribuční funkce
I
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■   číselně popsat výsledky náhodného pokusu pomoci náhodných veličina a náhodných vektorů,
■   najít distribuční funkci náhodné veličiny či náhodného vektoru,
■   rozlišit diskrétní a spojité náhodné veličiny a náhodné vektory a najít jejich funkcionální charakteristiky,
■   ověřit stochastickou nezávislost náhodných veličin.
Časová zátěž
Na prostudování této kapitoly budete potřebovat asi 8 hodin studia.
Naučíme se, jak popisovat výsledky náhodného pokusu pomocí náhodné veličiny, tj. zobrazení, které možnému výsledku přiřadí číslo či několik čísel. Existuje zřetelná analogie mezi znakem, který známe z 1. kapitoly, a náhodnou veličinou. V některých situacích potřebujeme náhodnou veličinu transformovat. Získáme složenou funkci zvanou transformovaná náhodná veličina.
Statistika často zajímá pravděpodobnost jevu, že hodnota náhodné veličiny nepřesáhne nějakou mez. Pomocí této pravděpodobnosti zavedeme distribuční funkci, která je „zidealizovaným" protějškem empirické distribuční funkce, s níž jsme se setkali ve 2. kapitole. Seznámíme se s vlastnostmi distribuční funkce a vyřešíme několik příkladů.
7.1.  Definice
Libovolná funkce X : Q —► R, která každému možnému výsledku u G Q přiřazuje reálné číslo X(u), se nazývá náhodná veličina a číslo X(u) je číselná realizace náhodné veličiny X příslušná možnému výsledku u. Uspořádaná posloupnost náhodných veličin (X\,..., Xn) se nazývá náhodný vektor a značí se X. Je-li g : E —► E (resp. (gi,... , gm) : W1 —► Rm) funkce, pak složená funkce Y = g(X) (resp. Y = (Y1,...,Ym) = (gi(xi,... ,xn),... ,gm(xi,... ,xn))) se nazývá transformovaná náhodná veličina (resp. transformovaný náhodný vektor).
Vysvětlení: Náhodná veličina i náhodný vektor popisují výsledky náhodného pokusu pomocí reálných čísel. Musí přitom splňovat podmínku tzv. měřitel-nosti, kterou se zde nebudeme zabývat. Náhodná veličina v počtu pravděpodobnosti a znak v popisné statistice - viz definice 1.8 - jsou sice pojmy blízké, nikoli však totožné. Znak lze považovat za náhodnou veličinu, pokud jeho hodnotu zjišťujeme na objektu, který byl vybrán ze základního souboru náhodně.
Upozornění: V dalším textu se omezíme na dvourozměrné náhodné vektory. Poznatky lze jednoduše zobecnit i na n-rozměrné náhodné vektory.
7.2.  Označení
Nechť B C E. Jev {u G Q; X (u) G B} zkráceně zapisujeme {X G B} a čteme: náhodná veličina X se realizovala v množině B.
72
7.3.  Definice
Pravděpodobnostní chování náhodné veličiny X (resp. náhodného vektoru X = (Xi,X2)) popisujeme distribuční funkcí $ : E —► E, která je dána vztahem: Vx 6 R : $(x) = P(X < x) (resp. simultánní distribuční funkcí $ : E2 —► E, která je definována vztahem: V(xi,X2) G E2 : ^{x\)X2) = P(X1<x1,X2<x2)).
Vysvětlení: Distribuční funkce $(x) je zidealizovaným protějškem empirické distribuční funkce F{x) zavedené v definici 2.4 či 2.14: \/x G E :   F (x) = *-  -x'. S rostoucím rozsahem výběrového souboru se budou hodnoty F(x) ustalovat kolem hodnot $(x).
7.4.  Příklad
Najděte distribuční funkci náhodné veličiny X, která udává, jaké číslo padlo při hodu kostkou a nakreslete graf této distribuční funkce.
Řešení:
Náhodná veličina X může nabývat hodnot 1,2,3,4,5,6. Číselnou osu tedy rozdělíme na 7 intervalů.
x G	(-oo,l) : $(x) = P(X<x) = 0
x G	(1,2): $(x) = P(X < x) = \ 6
x G	(2,3): $(x) = P(X<x) = i + i = ^
x G	(3,4): $(x) = p(x<x) = i + i + i = ^
x G	(4,5) : $0r) = P(X<x)=l-+l-+l-+l- = -6      6      6      6       6
x G	(5, 6) : $(*) = ^(^<^) = ^ + ^ + ^ + ^ + ^ = | 6      6      6      6      6       6
x G	1111116 (6, oo) : $(x) = P(X< x) = - + - + - + - + - + - = -
I
= - = 1
1,0
0,8-
0,6
0,4
0,2-
0,0
73
7. Náhodná veličina a její distribuční funkce
I
7.5.  Věta
a)        Skalární případ: Distribuční funkce $(x) skalární náhodné veličiny X má následující vlastnosti:
■   $(x) je neklesající.
■   $(x) je zprava spojitá.
■   $(x) je normovaná v tom smyslu, že   lim   $(x) = 0, lim $(x) = 1.
IE—> — OO                                        IE—>00
■   Va,6eR,a<6 platí: P(a < x < b) = $(&) - $(a).
■   pro libovolné, ale pevné dané x0 G E : P (X = x0) = $(x0)— hm $(x).
b)       Vektorový případ: Simultánní distribuční funkce §(xi,x2) náhodného vektoru X = (Xi,X2) má následující vlastnosti:
■   §(x\,x2) je neklesající vzhledem ke každé jednotlivé proměnné,
■   §(x\,x2) je zprava spojitá vzhledem ke každé jednotlivé proměnné,
■   §(x\,x2) je normovaná v tom smyslu, že        lim       §(x\,x2)  =   1,
IE1—>00,IE2—>00
lim   §(x\,x2) =    hm   §(x\,x2) = 0,
IE1—> — OO                                              IE2—> —OO
■   V(xi,x2) E R2, hi > 0,h2 > 0 : P{xx < X1 < xi + hiAx2 < X2 <x2 + h2) = &(xi + hi,x2 + h2)-&(xi + hi,x2)-&(xi,x2 + h2) + &(xi,x2) (tato vlastnost vyjadřuje pravděpodobnost, že náhodný vektor se realizuje v obdélníku (xi,X\ + h\) x (x2,x2 + h2)).
■     lim $(xi,x2) = $i(xi),   lim $(xi,x2) = $2(^2), kde $i(xi), $2(^2)
X2—>00                                                                lEl—>00
jsou distribuční funkce náhodných veličin X1; X2. Nazývají se marginální distribuční funkce.
7.6.  Příklad
Náhodný vektor (Xi,X2) má distribuční funkci
1
®(xi,x2)
7T
arctg x\
TT
arctg x2
Vypočtěte pravděpodobnost, že náhodný vektor (Xi,X2) se bude realizovat v jednotkovém čtverci (0,1) x (0,1). Najděte obě marginální distribuční funkce $i(xi), $2(^2)-
Řešení:
Podle 4. vlastnosti v věty 7.5(b), kde X\ dostáváme
0, x2 = 0, h\
1, ho
P(0 < X1 < 1 A 0 < X2 < 1) = $(1,1) - $(1, 0) - $(0,1) + $(0, 0) =
1     /TT        TT\   /TT        TT'
= V2 \l + 2J V4 + 2,
1     /7T        7T\   /           TT
^(4 + 2)(0+2
1
7T
0
vT\   /7T         7T
4
1     /          7T\   /          7T
Íi(°+2U°
$1(^1) =   lim —z (arctgXi + — ) (arctg
$2(^2) =   lim —z (arctgXi + — ) (arctg
1
16'
TT\          1    /                           TT
._.„ö^1  ,      , ._.„öx2 + -    = -   arctgxi + -
ie2^oo 7TZ   V                          Z/V                          Z /         TT   V                          Z
TT\          1    /                           7T
._.„ö^1  ,      , ._.„öx2 + -    = -   arctgx2 + -
xi^oo 7TZ  V                          z/V                          Z /        tt  \                          z
74
Nyní se budeme zabývat dvěma speciálními typy náhodných veličin, a to diskrétními a spojitými náhodnými veličinami. Diskrétní náhodná veličina nabývá nejvýše spočetně mnoha izolovaných hodnot, zatímco spojitá veličina nabývá všech hodnot z nějakého intervalu. Pravděpodobnostní chování diskrétní (resp. spojité) náhodné veličiny popíšeme pomocí pravděpodobnostní funkce (resp. pomocí hustoty pravděpodobnosti). Uvidíme, že vlastnosti pravděpodobnostní funkce jsou podobné jako vlastnosti četnostní funkce a vlastnosti hustoty pravděpodobnosti jsou analogické vlastnostem hustoty četnosti.
7.7.  Definice
a)         Skalární případ: Náhodná veličina X se nazývá diskrétní, jestliže její distribuční funkci lze vyjádřit pomocí nezáporné funkce tt(x) v součtovém tvaru:
ViGR: $(x) = J^tt(x).
t<x
Funkce tt(x) se nazývá pravděpodobnostní funkce diskrétní náhodné veličiny X.
b)        Vektorový případ: Náhodný vektor (Xi,X2) se nazývá diskrétní, jestliže jeho simultánní distribuční funkci lze vyjádřit pomocí nezáporné funkce 7r(x\,X2) v součtovém tvaru:
V(x!,x2)E2 : ${Xl,x2) =Y,Y, ^1^2).
tl<Xl Í2<IE2
Funkce 7r(xi,x2) se nazývá simultánní pravděpodobnostní funkce diskrétního náhodného vektoru (Xi,X2).
Vysvětlení: Pravděpodobnostní funkce tt(x) je zidealizovaným protějškem četnostní funkce p(x) zavedené v definici 2.4: Ví £ 1 : p(x) = *- ~x'. S rostoucím rozsahem výběrového souboru se hodnoty četnostní funkce usta-lují kolem hodnot pravděpodobnostní funkce. Diskrétní náhodná veličina nabývá nejvýše spočetně mnoha hodnot. Její distribuční funkce má schodovitý průběh - viz graf v příkladu 7.4.
Simultánní pravděpodobnostní funkce tt(x\, x2) je zidealizovaným protějškem
simultánní četnostní funkce z definice 2.7: V(xi,x2)   G  E2   :   p(xi,x2)   =
((  i-xi)A(  2-a?2j)^ g rostoucím rozsahem výběrového souboru se hodnoty siro                                                                                              j                                                                                j
multánní pravděpodobnostní funkce ustalují kolem hodnot simultánní pravděpodobnostní funkce.
7.8.  Věta
a) Skalární případ: Je-li ir(x) pravděpodobnostní funkce diskrétní náhodné veličiny X, pak platí:
■   \/x G E : TT (x) > 0      (nezápornost),
00
■      yj   n (x) = 1      (normovanost);
U.
7. Náhodná veličina a její distribuční funkce
I
■   WxeR: n (x) = P(X = x),
m  VBCR: P (X G S) = E 7r(ar).
b) Vektorový případ: Je-li ii(xi, x2) simultánní pravděpodobnostní funkce diskrétního náhodného vektoru (Xi,X2), pak platí:
■   W(x\,x2) G E2 : tt(xi,x2) > 0      (nezápornost),
oo             oo
■       E       Yl    vr(xi,x2) = 1      (normovanost),
Xl= — OO X2= — oc
■   V(xi, x2) G E2 : tt(xi, x2) = P{Xi = xi A X2 = x2),
m  VB C E2 : P((Xi,X2) G S) =      E     vr(xi,x2),
(xi,x2)es
oo                                                                    oo
■       E    vr(xi,x2)  = 7Ti(xi),     E    n(xi,x2)  = vr2(x2), přičemž iti(xi).
X2= — OO                                                                  Xl = — oc
7r2(^2) jsou marginální pravděpodobnostní funkce náhodných veličin Xi, X2.
7.9. Příklad
Pravděpodobnost poruchy každé ze tří nezávisle pracujících výrobních linek je 0,5. Náhodná veličina X udává počet výrobních linek, které mají poruchu. Najděte pravděpodobnostní funkci náhodné veličiny X.
Řešení:
Náhodná veličina X nabývá hodnot 0,1, 2, 3. tt(0) = P{X = 0) = 0,53 = 0,125,
tt(1) = P(X = 1) = 3 • 0,53 = 0,375,
tt(2) = P(X = 2) = 3 • 0,53 = 0,375,
tt(3) = P(X = 3) = 0,53 = 0,125,
tt(x) = 0    jinak.
7.10. Příklad
Je dán systém složený ze dvou bloků. Pravděpodobnost, že z-tý blok správně funguje, je Ví, i = 1,2, a, pravděpodobnost, že správně fungují oba bloky, je z/12. Nechť náhodná veličina X» je ukazatel fungování z-tého bloku, tj.
1,   pokud i-tý blok funguje, 0,   pokud i-tý blok nefunguje.
X
1,2.
Najděte simultánní pravděpodobnostní funkci 7r(x\,x2) náhodného vektoru (Xi,X2) a obě marginální pravděpodobnostní funkce tti(xi) a tt2(x2).
Řešení:
Hodnoty pravděpodobnostních funkcí zapíšeme do kontingenční tabulky.
Xi		x2		TlliXi)
		0	1	
X\	0	1 - Z/l - Z/2 + Z/12	z/2 - Z/12	1-Z/i
	1	Z/l - Z/12	^12	V\
vr2(x2)		1 - Z/2	v2	1
76
7t(0, 0) = P(X1 = 0 A X2 = 0) = 1 - P(X1 = 1 V X2 = 1) =
=  1 - (z/i + V2 - Vu) =  1 - Vl - V2 + ^12;
tt(0, 1) = P(X1 = 0 A X2 = 1) = P(X2 = 1) - P(Xi = 1 A X2 = 1) =
= i/2 - i/12.
tt(1, 0) = P(X: = 1 A X2 = 0) = P(X! = 1) - P(X! = 1 A X2 = 1) =
=   Vl   -   V\2;
7r(l,l) = P(X1 = lAX2 = l) = //12, 7r(xi,x2) = 0        jinak.
7.11. Definice
a) Skalární případ: Náhodná veličina X se nazývá spojitá, jestliže její distribuční funkci lze vyjádřit pomocí nezáporné funkce <p(x) v integrálním tvaru :
ViGR: $(x) =   / ip(t) dt.
Funkce ip(x) se nazývá hustota pravděpodobnosti spojité náhodné veličiny X.
b) Vektorový případ: Náhodný vektor (Xi,X2) se nazývá spojitý, jestliže jeho simultánní distribuční funkci je možné vyjádřit pomocí nezáporné funkce <p(xi,X2) v integrálním tvaru:
XI       X2
V(xi,x2) G E2 : $(xi,x2) =   /        (p(t1,t2)dt1dt2.
—oo —oc
Funkce Lp(x\,x2) se nazývá simultánní hustota pravděpodobnosti spojitého náhodného vektoru (Xi,X2).
Vysvětlení: Hustota pravděpodobnosti ip(x) je zidealizovaným protějškem hustoty četnosti f(x) zavedené v definici 2.14. S rostoucím rozsahem výběrového souboru a klesající šířkou třídicích intervalů se hodnoty hustoty četnosti ustalují kolem hodnot hustoty pravděpodobnosti. Spojitá náhodná veličina nabývá všech hodnot z nějakého intervalu. Její distribuční funkce je všude spojitá.
Simultánní hustota pravděpodobnosti je zidealizovaným protějškem simultánní hustoty četnosti zavedené v definici 2.17. S rostoucím rozsahem výběrového souboru a klesající plochou dvourozměrných třídicích intervalů se hodnoty simultánní hustoty pravděpodobnosti a ustalují kolem hodnot simultánní hustoty četnosti.
7.12. Věta
a) Skalární případ: Je-li <p(x) hustota pravděpodobnosti spojité náhodné veličiny X, pak platí:
LĹ.
ri
7. Náhodná veličina a její distribuční funkce
I
VxGR: <p(x) > 0 (nezápornost)
DC
J ip(x) dx = 1 (normovanost)
— oc
VxGR: P (X = x) = 0
VßCR: P (X eB)=   j  <p(x) dx
x&B
d&(x)
■   ip(x) =   d(*' ve všech bodech spojitosti funkce ip(x)
b) Vektorový případ: Je-li Lp(x\,x2) simultánni hustota pravděpodobnosti spojitého náhodného vektoru (Xi,X2), pak platí:
■   W(x\,x2) G E2 : Lp(x\,x2) > 0 (nezápornost)
DO       OC
■     J   J Lp(x\,x2) dx\dx2 = 1 (normovanost)
— oc —oc
■   y(x1,x2) E E2 : P((X1 = Xl) A (X2 = x2)) = 0
■   B ER2 : P((X1}X2) EB)=   J J     (p(x1,x2)dx1dx2
(xi,x2)eB
DO                                                                                               OC
■     J tp{xi,x2)dx2 = tfiixi),   j tp{xi,x2)dxi = >-p2(x2), přičemž '-pi(xi),
— oo                                                                 —oc
^2(^2) jsou marginální hustoty pravděpodobnosti náhodných veličin X\, X2.
7.13. Příklad
Na automatické lince se plní láhve mlékem. Každá láhev má obsahovat přesně 1000 ml mléka, ale v důsledku působení náhodných vlivů množství mléka kolísá v intervalu (980 ml, 1020 ml). Každé množství mléka v tomto intervalu považujeme za stejně možné. Náhodná veličina X udává množství mléka v náhodně vybrané lahvi. Najděte její hustotu pravděpodobnosti <p(x) a distribuční funkci $(x).
Řešení:
'•P(x) =
k    pro x e (980,1020), 0     jinak.
1020
Z normovanosti hustoty plyne: 1 =   J  kdx = 40k, tedy k
980
tribuční funkci platí:
^j. Pro dis-
$(x)
0                            pro x < 980,
/ w dt = ^iF   Pro 980 < x < 1020, pro x > 1020.
980 1
7.14. Příklad
Spojitý náhodný vektor (Xi,X2) má simultánní hustotu pravděpodobnosti
!p(x1,x2)
1
7T2(1+X2)(1+X2)2'
78
Najděte obě marginální distribuční funkce <pi(xi), ^2(^2)-Řešení:
DO                                                                                                                                                  OC
'Mxi) = J\-{i + x\){i + x2fdX2 = ^{i\xi) J TT4dX2 =
—00                                                                                                                     —00
=  7T2(l+X?)[arCtS;r2]!000 =  7T2(1+X?)   (2   "   V      2J)   =  n(l+xJY
Analogicky dostáváme
'Mx2) = ÄľTxfy
V popisné statistice, konkrétně ve 2. kapitole, jsme se setkali s četnostní nezávislostí znaků v daném výběrovém souboru. V počtu pravděpodobnosti má tento pojem svou analogii ve stochastické nezávislosti náhodných veličin. Spočítáme několik příkladů, v nichž se vyskytují stochasticky nezávislé veličiny, a ukážeme si, že transformováním se stochastická nezávislost náhodných veličin neporuší.
7.15. Definice
a) Obecný případ: Řekneme, že náhodné veličiny Xi,... ,Xn s marginálními distribučními funkcemi $i(xi),... , §n(%n) a simultánní distribuční funkcí $(xi,... ,xn) jsou stochasticky nezávislé, jestliže pro V(xi,... ,xn) G
Rn :   $(2ľi,...,2ľra) = <$>1(x1).....$n(Xn)-
b)       Diskrétní případ: Řekneme, že diskrétní náhodné veličiny X\,... ,Xn s marginálními pravděpodobnostními funkcemi iri(xi),... ,irn(xn) a simultánní pravděpodobnostní funkcí ir(xi,... ,xn) jsou stochasticky nezávislé, jestliže pro V(xi,... ,xn) G Era : tt(xi, ... ,xn) = tti(xi).....iľn(xn).
c)        Spojitý případ: Řekneme, že spojité náhodné veličiny Xi,... , Xn s marginálními hustotami pravděpodobnosti ipi(xi),..., <pn(xn) a simultánní pravděpodobnostní funkcí ip(xi,... ,xn) jsou stochasticky nezávislé, jestliže pro
V(xi,... ,xn) eRn : <p(xi, ...,xn) = <pi(xi).....(Pn(xn) s případnou výjimkou
na množině bodů neovlivňujících integraci.
Řekneme, že posloupnost {Xn}^=l je posloupností stochasticky nezávislých náhodných veličin, jestliže pro všechna přirozená n jsou stochasticky nezávislé náhodné veličiny Xi,..., Xn.
Vysvětlení: Jsou-li náhodné veličiny X\,... ,Xn stochasticky nezávislé, pak to znamená, že informace o realizaci jedné náhodné veličiny nijak neovlivní šance, s nimiž očekáváme realizace ostatních náhodných veličin. Stochastická nezávislost náhodných veličin je zidealizovaným protějškem četnostní nezávislosti znaků v daném výběrovém souboru — viz definice 2.7 a 2.17.
7. Náhodná veličina a její distribuční funkce
I
7.16. Příklad
Na výrobcích měříme délku s přesností ±0,5 mm a šířku s přesností ±0,2 mm. Náhodná veličina Xi udává chybu při měření délky a náhodná veličina X2 udává chybu při měření šířky. Předpokládáme, že simultánní hustota pravděpodobnosti Lp(x\,x2) je uvnitř mezí chyb konstantní, tj.
!p(x1,x2)
k    pro - 0,5 < xi < 0,5; -0,2 < x2 < 0,2, 0     jinak.
Určete konstantu k, najděte marginální hustoty pravděpodobnosti ipi(xi). p2(x2), simultánní distribuční funkci §(xi,x2), obě marginální distribuční funkce $i(xi), $2(^2), vypočítejte pravděpodobnost P((—0,1 < Xi < 0,1) A (—0,1 < X2 < 0,1)) a zjistěte, zda náhodné veličiny X1; X2 jsou stochasticky nezávislé.
Řešení:
Z normovanosti simultánní hustoty pravděpodobnosti plyne:
0,5   0,2
1 =
kdx\dx2 = k[x\\lQ 5[x2] J0 2 = k ■ 1 ■ 0,4
k = 2,5.
-0,5-0,2
Marginální hustoty pravděpodobnosti pomocí věty 7.12 (b):
0,2 '•Pi(xi) =    I   2,5dx2 = 2,5[x2]^o2 = 1 Pro ~ 0,5 < x\ < 0,5,
i0,2
-0,2
^1(^1) = 0 jinak.
Podobně
0,5
i0,5
ňW =: J 2MXÍ = 2'5|;ril-°'5 = 2'5 Pr° "" °'2 " X2 ' 0X
-0,5
^2(^2) = 0 jinak. Z definice 7.11 (vektorový případ) plyne:
XI        X2
$(xux2) =    í    í 2,5díidí2 = 2,5[íi]!.1o)5[Í2]!.2o)2 = 2,5(xi + 0,5)(x2 + 0,2) -0,5-0,2
pro —0,5 < x\ < 0,5,-0,2 < x2 < 0,2, §(x\,x2) = 0 pro x\ < —0,5 nebo x2 < —0,2, $(xi,x2) = 1 pro X\ > 0,5 a x2 > 0,2. Z definice 7.11 (skalární případ) dostaneme:
Xl
$i(*i)=   / ldíi = [íi]!.1o)5 = a;1 + 0,5
-0,5
80
pro —0,5 < x\ < 0,5, $i(xi) = 1 pro x\ > 0,5, $i(£i) = 0 pro x\ < —0,5. Dále
X2
$2(^2) =   í ldt2= [t2f\2 = 2,5(x2 + 0,2) -0,2
pro -0,2 < x2 < 0,2, $2(^2) = 1 pro x2 > 0,2, $2(^2) = 0 pro x2 < -0,2. Stochastickou nezávislost náhodných veličin Xi,X2 ověříme pomocí definice 7.15 (c): V(x\,x2) G E2 : Lp(x\,x2) = <*pi(xi)Lp2(x2), tedy náhodné veličiny X\,X2 jsou stochasticky nezávislé.
7.17. Příklad
Diskrétní náhodný vektor (X\,X2) má simultánní pravděpodobnostní funkci 7r(x\,x2) danou hodnotami: 7r(—1,2) = 7r(—1,3) = 7r(0,3) = 7r(l,0) = tt(1,1) = 0, vr(-l,0) = vr(0,l) = vr(l,2) = 2c, tt(—1,1) = vr(0,0) = 7r(0, 2) = 7r(l,3) = c. Určete konstantu c, hodnotu simultánní distribuční funkce $(0,2), obě marginální pravděpodobnostní funkce tti(xi), tt2(x2) a hodnotu marginální distribuční funkce $i(l). Zjistěte, zda náhodné veličiny X\, X2 jsou stochasticky nezávislé.
Řešení:
Hodnoty simultánní pravděpodobnostní funkce ir(xi, x2) uspořádáme do kon-tingenční tabulky, kterou ještě doplníme o sloupec s hodnotami tti(xi) a řádek s hodnotami tt2(x2). Tyto hodnoty získáme pomocí věty 7.8 (vektorový případ).
		x2				7Ti(Xi)
		0	1	2	3	
X\	-1	2c	c	0	0	3c
	0	c	2c	c	0	4c
	1	0	0	2c	c	3c
7r2(x2)		3c	3c	3c	c	1
Z normovanosti pravděpodobnostní funkce diskrétního náhodného vektoru (viz věta 7.8, vektorový případ) dostáváme 10c = 1, tedy c = 0,1. Z definice diskrétního náhodného vektoru (definice 7.7, vektorový případ) plyne
$(0, 2) = vr(-l, 0) + vr(-l, 1) + vr(-l, 2) + vr(-l, 3) + vr(0, 0) +
+ vr(0,1) + vr(0, 2) = 0,2 + 0,1 + 0 + 0,1 + 0,2 + 0,1 = 0,6.
Z definice diskrétní náhodné veličiny (definice 7.7, skalární případ) plyne
$l(l) = 7Ti(-l) + 7Ti(0) + 7Ti(l) = 0,3 + 0,4 + 0,3 = 1.
Pokud by náhodné veličiny X\,X2 byly stochasticky nezávislé, musel by pro všechna W(x\,x2) G E2 platit multiplikativní vztah: tt(xi,x2) = tti(x 1)^2(^2) (viz definice 7.15 (b)). Avšak již pro X\ = —1, x2 = 0 dostáváme 7r(—1,0) = 0,2, 7Ti(—1) = 0,3, 7T2(0) = 0,3. Vidíme tedy, že multiplikativní vztah splněn není a náhodné veličiny X\,X2 nejsou stochasticky nezávislé.
7. Náhodná veličina a její distribuční funkce
I
7.18. Věta
Jsou-li náhodné veličiny Xi,... ,Xn stochasticky nezávislé, pak jsou stochasticky nezávislé také transformované náhodné veličiny Yi = gi(Xi),....
Shrnutí kapitoly
Náhodná veličina se zavádí jako zobrazení, které každému výsledku náhodného pokusu přiřazuje číslo (pak se jedná o skalární náhodnou veličinu) nebo více čísel (v tomto případě jde o náhodný vektor). Náhodnou veličinu lze pomocí libovolné funkce transformovat a získat tak transformovanou náhodnou veličinu. Pravděpodobnostní chování náhodné veličiny popisuje distribuční funkce, jejíž zavedení je motivováno empirickou distribuční funkcí známou z popisné statistiky. Vlastnosti těchto dvou funkcí jsou analogické.
Praktický význam mají dva speciální druhy náhodných veličin. Diskrétní náhodná veličina může nabývat pouze spočetně mnoha hodnot a její pravděpodobnostní chování je popsáno pravděpodobnostní funkcí, což je „zidealizovaný" protějšek četnostní funkce. Diskrétní náhodný vektor je tvořen diskrétními náhodnými veličinami. Zabývali jsme se náhodnými vektory se dvěma složkami. V souvislosti s diskrétním náhodným vektorem zavádíme simultánní pravděpodobnostní funkci. Marginální pravděpodobnostní funkce se vztahují k jednotlivým složkám náhodného vektoru.
Spojitá náhodná veličina nabývá všech hodnot z nějakého intervalu. Její pravděpodobnostní chování je popsáno hustotou pravděpodobnosti, což je „zidealizovaný" protějšek hustoty četnosti. Spojitý náhodný vektor je tvořen spojitými náhodnými veličinami. Jeho pravděpodobnostní chování je popsáno simultánní hustotou pravděpodobnosti. Marginální hustoty pravděpodobnosti se vztahují k jednotlivým složkám náhodného vektoru.
Pomocí multiplikativního vztahu, v němž vystupují simultánní a marginální distribuční funkce (resp. pravděpodobnostní funkce v diskrétním případě resp. hustoty pravděpodobnosti ve spojitém případě), zavedeme pojem stochastické nezávislosti náhodných veličin.
Kontrolní otázky a úkoly
1   Uveďte příklad náhodné veličiny a náhodného vektoru z ekonomické praxe.
2   Najděte distribuční funkci náhodné veličiny, která udává počet líců při hodu třemi mince-mi a nakreslete její graf.
3   Rozhodněte, které z uvedených náhodných veličin jsou diskrétní a které jsou spojité:
a)   počet členů domácnosti
b)   věk člověka v letech
c)   náhodně vybrané reálné číslo
d)   počet zákazníků ve frontě
82
e)   cena výrobku
f)   počet zmetků z celkové denní produkce
g)   délka určitého předmětu
h) životnost televizoru v letech
4  Které funkcionální charakteristiky popisují pravděpodobnostní chování diskrétní náhodné veličiny a které diskrétního náhodného vektoru?
5  Které funkcionální charakteristiky popisují pravděpodobnostní chování spojité náhodné veličiny a které spojitého náhodného vektoru?
6   Je-li X diskrétní náhodná veličina s pravděpodobnostní funkcí ir(x). může být ir(x) > 1?
7   Je-li X spojitá náhodná veličina s hustotou pravděpodobnosti <p(x). může být ip(x) > 1?
8  Náhodná veličina udává průměrný počet ok při hodu dvěma kostkami. Nakreslete graf její pravděpodobnostní funkce.
9  Diskrétní náhodný vektor (Xi,X2) má simultánní pravděpodobnostní funkci ir(xi,X2) danou hodnotami:
tt(0, 0) = 7r(0, 2) = tt(1, 1) = vr(2, 0) = vr(2, 2) = 0, 7r(0, 1) = 7t(1,2) =7t(2,1) = 0,25.
Jsou náhodné veličiny X\, X2 stochasticky nezávislé? 10 Nechť spojitý vektor (Xi, X2) má simultánní hustotu pravděpodobnosti
,          s       f 24x?x2(l — Xi)     pro 0 < xi < 1, 0 < x2 < 1.
^i»^) = |0                                 jinak_
Dokažte, že náhodné veličiny X1; X2 jsou stochasticky nezávislé.
7. Náhodná veličina a její distribuční funkce
I
84
8
Vybraná rozložení diskrétních a spojitých náhodných veličin
I
8. Vybraná rozložení diskrétních a spojitých náhodných veličin
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■   rozlišovat důležité typy diskrétních a spojitých rozložení
■   využívat vlastností těchto rozložení při výpočtu pravděpodobností různých jevů
■   hledat v tabulkách hodnot distribuční funkce standardizovaného normálního rozložení
Časová zátěž
Na prostudování této kapitoly budete potřebovat asi 5 hodin studia.
Nyní se seznámíme s přehledem důležitých pravděpodobnostních funkcí a hustot pravděpodobnosti. Uvedeme nejenom analytické vyjádření těchto funkcí, ale též grafy. Vysvětlíme rovněž, v jakých situacích se lze s uvedenými rozloženími pravděpodobnosti setkat. Zvláštním pozornost budeme věnovat normálnímu rozložení, které hraje velkou roli v celé řadě praktických aplikací počtu pravděpodobnosti a, jak uvidíme později, i v matematické statistice.
I
8.1.  Označení
Známe-li distribuční funkci $(x) náhodné veličiny X (resp. pravděpodobnostní funkci tt(x) v diskrétním případě resp. hustotu pravděpodobnosti ip(x) ve spojitém případě), pak řekneme, že známe rozložení pravděpodobností (zkráceně rozložení) náhodné veličiny X. Toto rozložení závisí na nějakém parametru v, což nejčastěji bývá reálné číslo nebo reálný vektor. Zápis X ~ L{y) čteme: náhodná veličina X má rozložení L s parametrem v.
8.2.  Definice
Nejprve se seznámíme s vybranými rozloženími diskrétních náhodných veličin.
a) Degenerované rozložení: X ~ Dg(ß)
Tato náhodná veličina nabývá pouze konstantní hodnotu ß.
7ľ
(X) =
1   pro x = ß. 0   jinak.
0.5               1               1.5
Pravděpodobnostní funkce Dg{l).
86
b) Alternativní rozložení: X ~ A(u)
Náhodná veličina X udává počet úspěchů v jednom pokusu, přičemž pravděpodobnost úspěchu je v.
1 — v   pro x = 0. n (x) = <   v         pro x = 1.
0         jinak.
0.5
-0.5
o
Pravděpodobnostní funkce A(0,75).
c)  Binomické rozložení: X ~ i?z(n, v)
Náhodná veličina X udává počet úspěchů v posloupnosti n nezávislých opakovaných pokusů, přičemž pravděpodobnost úspěchu je v každém pokusu v.
7T
(x) =
(  £)i^(l- v)n~x   prox = 0,l,...,n
jinak.
u.u 0.4-			•	•		
0.2-	i	• t			•	•
						
0 9						
		1	1	1	1	1
I
-1       o
Pravděpodobnostní funkce Bi(5; 0,5).
(Odvození - viz př. 6.3 (b).) Alternativní rozložení je speciálním případem binomického rozložení pro n = 1. Jsou-li Xí}... ,Xn stochasticky nezávislé náhodné veličiny, Xj ~ A(u), i = 1,..., n, pak
X = J2xí ~Bi(n,u).
í=i
87
8. Vybraná rozložení diskrétních a spojitých náhodných veličin
d)  Geometrické rozloženi: X ~ G e (u)
Náhodná veličina X udává počet neúspěchů v posloupnosti opakovaných nezávislých pokusů předcházejících prvnímu úspěchu, přičemž pravděpodobnost úspěchu je v každém pokusu v.
7t(x)
(1 — u)xu   pro x = 0,1,...
0
jinak.
I
\J.O	o										
0.2-		•	•								
0.1-				•	•	•	•	•	•	•	•
											
0 1											
		|		|		|		|		|	
	1	1		3		5		7		9	1
Pravděpodobnostní funkce Ge(0,25).
(Odvození - viz př. 6.3 (a).)
e) Hypergeometrické rozložení: X ~ Hg(N, M, n)
V souboru N prvků je M prvků označeno. Náhodně vybereme n prvků bez vracení. Náhodná veličina X udává počet vybraných označených prvků.
7T
(X) =
(M\ (N-M\ \ x ) V. n — x  )
0
0.5 0.4 0.3 0.2-0.1 0 -0.1
(?)
pro x = max{0, M — N + n},... min{M, n}. jinak.
Pravděpodobnostní funkce Hg(10, 7, 5).
f) Rovnoměrné diskrétní rozložení: X ~ Rd(G)
Nechť G je konečná množina o n prvcích. Náhodná veličina X nabývá se stejnou pravděpodobností každé hodnoty z množiny G.
-   pro x G G
TT (x) =  *     n
0    jinak.
88
(Typickým příkladem je náhodná veličina udávající počet ok při hodu kostkou.)
7t(x)
Pravděpodobnostní funkce Rd({l, 2,..., 10}).
g) Poissonovo rozloženi: X ~ Po(X)
Náhodná veličina X udává počet událostí, které nastanou v jednotkovém časovém intervalu, přičemž události nastávají náhodně, jednotlivě a vzájemně nezávisle. Parametr A > 0 je střední počet těchto událostí.
^e"A   pro x = 0,1,.... 0          jinak.
0.22-0.18-0.14-0.1 0.06 0.02--0.02 ■
•   •   •   •
T
T
T
10     12     14     16
Pravděpodobnostní funkce Po(5).
8.3. Příklad
V rodině je 10 dětí. Za předpokladu, že chlapci i dívky se rodí s pravděpodobností 0,5 a pohlaví se formuje nezávisle na sobě, určete pravděpodobnost, že v této rodině jsou nejméně 3 a nejvýše 8 chlapců.
Řešení:
X - počet chlapců v této rodině, X ~ Bi(10; 0,5),
P(3 < X < 8)
8
E
x=3
10-
957 1024
0,935.
8. Vybraná rozložení diskrétních a spojitých náhodných veličin
8.4. Příklad
Jaká je pravděpodobnost, že při hře „Člověče, nezlob se!" nasadíme nejpozději při třetím hodu?
Řešení:
X - počet neúspěchů před první šestkou, X ~ Ge(|),
P(X < 2) = EÍ1- Í)l = 0'4213-
8.5. Příklad
Při provozu balicího automatu vznikají během směny náhodné poruchy, které se řídí rozložením Po{2). Jaká je pravděpodobnost, že během směny dojde aspoň k jedné poruše?
Řešení:
X - počet poruch během směny, X ~ Po{2).
P(X > 1) = 1 - P(X < 1) = 1 - P(X = 0) = 1 - —e"2 = 0,8647.
I
8.6. Definice
Nyní uvedeme vybrané typy spojitých rozložení.
a) Rovnoměrné spojité rozložení: X ~ Rs(a, b)
Náhodná veličina X nabývá se stejnou pravděpodobností každé hodnoty z intervalu (a, b).
, n       Í -r—   pro x G (a, b). *iX> = { T   [inak.
0.4 0.3 0.2 0.1 0 -0.1

Hustota Rs(-1,2). b) Exponenciálni rozložení: X ~ E x (X)
Náhodná veličina X udává dobu čekání na příchod nějaké události.
90
která se může dostavit každým okamžikem se stejnou šancí bez ohledu na dosud pročekanou dobu. Přitom j vyjadřuje střední dobu čekání.
'■P(x)
\e~Xx
pro x > 0. jinak.
Hustota Ex{2). c) Normálni rozloženi: X ~ N(/j,, a2)
Tato náhodná veličina vzniká např. tak, že ke konstantě ß se přičítá velké množství nezávislých náhodných vlivů mírně kolísajících kolem 0. Proměnlivost těchto vlivů je vyjádřena konstantou a > 0.
'•P(x) =
1
aV2n
e

Pro ß = 0, a2 =  1 se jedná o standardizované normální rozložení,
píšeme U ~ N(0,1). Hustota pravděpodobnosti má v tomto případě
tvar
1       ^ '•PW =
2vr Distribuční funkce standardizovaného normálního rozložení
v,
1
$(«) =
2vr
e   2 áí
I
je tabelována pro ti > 0, pro u < 0 se používá přepočtový vzorec $(-«) = 1 - $(«). Má-li X ~ iV()U, a2), pak [/ = ^^ ~ ÍV(0,1).
-2-10      1 Hustota ÍV(0,1)
■3     -2-10        1 Distribuční funkce N(0,1)
91
8. Vybraná rozložení diskrétních a spojitých náhodných veličin
-10        12       3       4        -2-10123
Hustota N(l; 0,5)                      Distribuční funkce N(l; 0,5)
(Normálni rozložení hraje ústřední roli v počtu pravděpodobnosti i matematické statistice. Jeho význam spočívá jednak v tom, že normálním rozložením se řídí pravděpodobnostní chování mnoha náhodných veličin a jednak v tom, že za určitých podmínek konverguje k normálnímu rozložení součet nezávislých náhodných veličin s týmž rozložením.) d) Dvourozměrné normální rozložení:
X2
No
Pí ß2
of       peri<72\ p<7i<72       er 2   J
I
Náhodný vektor í        J vzniká ve dvourozměrných situacích podobně jako skalární náhodná veličina v bodě (e).
1
'•p{xi,x2) =
(Tia2
>/W
e  "   2
kde
q(xi,x2) =
1-P2
Xi — ß\
o-i
2p
X\ — ß\X2 — ß2       ( %2 ~ ß2
CT\
(T2
(T2
Pro ßi = 0, ß2 = 0, a\ = 1, a\ = 1, p = 0 se jedná o standardizované dvourozměrné normální rozložení.
Vrstevnice a graf hustoty standardizovaného dvourozměrného normálního rozložení:
92
Vrstevnice a graf hustoty dvourozměrného normálního rozloženi s parametry ßi = 0, ß2 = 0, o\ = 1, a\ = 1, p = —0,75
Následující tři rozložení- Pearsonovo, Studentovo a Fisher ovo-Snedeco-rovo - jsou odvozena ze standardizovaného normálního rozložení. Mají velký význam především v matematické statistice při konstrukci intervalů spolehlivosti a testování hypotéz. Vyjádření hustot těchto rozložení neuvádíme, je příliš složité - viz např. [3].)
e)  Pearsonovo rozložení chĺ-kvadrát s n stupni volnosti: X ~ x2(n)
Nechť Xi,...,Xn jsou stochasticky nezávislé náhodné veličiny, Xi ~ N(0,1), i = 1,... ,n. Pak náhodná veličina X = Xf + - ■ -+X% ~ x2(n)-
°'25_n—^~vľ--------------------------------
0.15-      /                        >v
0.05-                                                   ^^v.
0                 2                 4                 6                 8
Hustota x2(3)-
f)  Studentovo rozložení s n stupni volnosti: X ~ t(n)
Nechť X\, X2 jsou stochasticky nezávislé náhodné veličiny a nechť dále X\ ~ N(0,1), X2 ~ x2(n)- P&k náhodná veličina
8. Vybraná rozložení diskrétních a spojitých náhodných veličin
Hustota í(3).
g) Fisherovo-Snedecorovo rozložení s ri\ a n2 stupni volnosti:
X ~ F(rii,n2) Necht X!,...,Xn jsou stochasticky nezávislé náhodné veličiny, Xi ~ X2{ní)i i = 1)2. Pak náhodná veličina
X
ŽĹL n2
F(ni,n2).
I
12         3         4
Hustota F(5, 8).
8.7. Příklad
Na automatické lince se plní láhve mlékem. Působením náhodných vlivů množství mléka kolísá v intervalu (980 ml, 1020 ml). Každé množství mléka v tomto intervalu považujeme za stejně možné. Jaká je pravděpodobnost, že v náhodně vybrané láhvi bude aspoň 1000 ml mléka?
Řešení:
X - množství mléka v náhodně vybrané láhvi, X ~ Rs(980,1020),
, (x)= í i   Pro x E (980,1020), \ 0     jinak.
1020
P(X > 1000)
(IX  —     , „ \X\ innn   —   U,0.
40
40'
1000 ~ u'v
1000
94
8.8. Příklad
Doba (v minutách) potřebná k obsloužení zákazníka v prodejně potravin je náhodná veličina, která se řídí rozložením Ex(^). Jaká je pravděpodobnost, že doba potřebná k obsloužení náhodně vybraného zákazníka v této prodejně bude v rozmezí od 3 do 6 minut?
Řešení:
X - doba potřebná k obsloužení náhodně vybraného zákazníka, X ~ Ex(^).
V(x) == <   J
e   3    pro x > 0, jinak.
P(3 < X < 6)
1                         1                           6
-e-^ dx = -(-3) [e_^]3 = -e-2 + e_1 = 0,233.
8.9. Příklad
Výsledky u přijímacích zkoušek na jistou VŠ jsou normálně rozloženy s parametry ß = 550 bodů, a = 100 bodů. S jakou pravděpodobností bude mít náhodně vybraný uchazeč aspoň 600 bodů?
Řešení:
X - výsledek náhodně vybraného uchazeče, X ~ iV(550,1002),
P(X > 600) = 1 - P(X < 600) + P(X = 600) = 1 - P(X < 600) =
600-550N
( X-ß < 600 - ii
a
a
1-P    U <
100
1 - $(0,5) = 1-0,69146 = 0,31.
I
8.10. Příklad
Nechť Xi,X2,X3,X4 jsou stochasticky nezávislé náhodné veličiny, Xj N(0,1), i = 1, 2, 3, 4. Jaké rozložení má transformovaná náhodná veličina
X
Xy/3
y/X.
x!
xi
Řešení:
X ~ í(3), protože Xx ~ X(0,1) a X2 + X2 + X2 ~ X2(3).
Shrnutí kapitoly
Degenerované rozložení popisuje pravděpodobnostní chování konstanty, což je nepochybně patologický případ. Zajímavější je alternativní, geometrické a zvláště binomické rozložení. Všechna tato rozložení souvisejí
95
8. Vybraná rozložení diskrétních a spojitých náhodných veličin
s počty úspěchů či neúspěchů v posloupnosti opakovaných nezávislých pokusů. Hypergeometrické rozložení se vyskytuje v situacích, kdy provádíme výběr bez vracení ze souboru, který obsahuje označené prvky. Rovnoměrné rozložení na dané množině je charakteristické tím, že náhodná veličina, která se jím řídí, nabývá každé hodnoty z této množiny se stejnou pravděpodobností. Podle Poissonova rozložení se chová např. náhodná veličina udávající počet událostí, které nastanou v jednotkovém čase.
Za spojitých rozložení je nejjednodušší rovnoměrné spojité rozložení. Jeho hustota je na daném intervalu konstantní a jinde nulová. Náhodná veličina s exponenciálním rozložením udává dobu čekání na příchod nějaké události, přičemž toto čekání probíhá „bez paměti". Vůbec nejdůležitějším rozložením je normální rozložení, které vzniká např. tak, že k nějaké konstantě se přičítá velké množství nezávislých náhodných vlivů mírně kolísajících kolem nuly. Tím se z konstanty stane náhodná veličina. Grafem normální hustoty pravděpodobnosti je známá Gaussova křivka. Pomocí standardizovaného rozložení lze zavést další tři typy speciálních rozložení, a to Pearsonovo, Studentovo a Fisherovo-Snedecorovo. Nacházejí uplatnění především v matematické statistice.
I
Kontrolní otázky a úkoly
1   (S) Pomocí systému STATISTICA nakreslete grafy hustot a distribučních funkcí uvedených spojitých rozložení. Sledujte vliv parametrů na tvar hustot a distribučních funkcí. Návod: viz příloha B.
2   (S) Pojišťovna zjistila, že 12% pojistných událostí je způsobeno vloupáním. Jaká je pravděpodobnost, že mezi 30 náhodně vybranými pojistnými událostmi bude způsobeno vloupáním nejvýše 6?
3  Doba (v hodinách), která uplyne mezi dvěma naléhavými příjmy v jisté nemocnici, se řídí rozložením Ex(0,5). Jaká je pravděpodobnost, že uplyne více než 5 hodin bez naléhavého příjmu?
4  Jaká je pravděpodobnost, že náhodná veličina X ~ iV(20,16) nabude hodnotu menši než 12 nebo větší než 28?
5  Nechť X ~ Rs(a,b), přičemž
0
X-
t
ť
&(x) = {   ^|f^   pro a < x < b
pro x < a pro a < x pro x > b
Určete a, b. 6 Nechť X\, X2 jsou stochasticky nezávislé náhodné veličiny takové, že Xi ~ N(0,1), i =  1,2. Jaké rozložení má transformovaná náhodná veličina
X = ^ XI
96
9
Číselné charakteristiky náhodných veličin
I
9. Číselné charakteristiky náhodných veličin
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■   spočítat kvantily spojitých náhodných veličin
■   hledat kvantily některých spojitých náhodných veličin ve statistických tabulkách
■   určit střední hodnotu a rozptyl náhodné veličiny
■   spočítat kovarianci a koeficient korelace dvou náhodných veličin
■   využívat vlastností číselných charakteristik náhodných veličin při konkrétních výpočtech
Časová zátěž
Na prostudování této kapitoly budete potřebovat asi 10 hodin studia.
9.1. Motivace
V 7. kapitole jsme se seznámili s funkcionálními charakteristikami náhodných veličin (např. distribuční funkce, pravděpodobnostní funkce, hustota pravděpodobnosti), které plně popisují pravděpodobnostní chování náhodné veličiny. Číselné charakteristiky vystihují pouze některé rysy tohoto chování, např. popisují polohu realizací náhodné veličiny na číselné ose či jejich proměnlivost (variabilitu). Jsou jednodušší než číselné charakteristiky, ale nesou jen částečnou informaci.
I
9.2. Definice
Nechť X je spojitá náhodná veličina aspoň ordinálního charakteru (viz definici 3.2) s distribuční funkcí $(x) a nechť a G (0,1). Číslo Ka(X), které splňuje podmínku
Ka(X)
a = $(Ka(X))=    /    <p(x)dx.
se nazývá Cü-kvantil náhodné veličiny X. Kvantil K0í50(X) se nazývá medián, Ko,25(X) dolní kvartil, K0j5(X) horní kvartil, K0tW(X),..., K0íg0(X) jsou decily, K0toi(X),... ,K0tgg(X) jsou percentily. Kterýkoliv a-kvantil je charakteristikou polohy číselných realizací náhodné veličiny na číselné ose. Jako charakteristika variability slouží kvartilová odchylka q = K0j5(X)—Kot25(X).
(Lze samozřejmě definovat i kvantily diskrétních náhodných veličin, ale zde se zabýváme jenom kvantily spojitých náhodných veličin, které se v praxi nejčastěji používají.)
98
Význam Cü-kvantilu spojité náhodné veličiny ilustruje následující obrázek.
Ka(X)
9.3. Označení
X ~ N(0,1) => Ka(X) =ua,   X ~ x2(n) => Ka(X) = Xl(n), X~t(n) => Ka(X)=ta(n),    X ~ F(n1}n2) => Ka(X) = Fa(n1} n2).
Tyto kvantily najdeme ve statistických tabulkách. Používáme vztahy:
ta(n) = -ti-a(n).
i Fa(ni,n2) =
Fi_a(n2,ni)"
9.4.  Příklad
a)   Nechť U ~ N(0,1). Najděte medián a horní a dolní kvartil.
b)   Určete Xo,o25(25)-
c)   Určete í0,99(30) a í0,05(24).
_ d) Určete F0)975(5,20) a F0)o5(2,10).
Řešení:
ad a)     tí0)5o = 0, «0,25 = —0,67449, «0,75 = 0,67449
adb)     Xo',o25(25) ='l3,12
ad c)     í0)99(30) = 2,4573, r0)o5(24) = -1,7109
ad d)     F0;975(5, 20) = 3,2891, F0)o5(2,10) = 0,05156
9.5.  Věta
Nechť X je spojitá náhodná veličina, Y = g(X) transformovaná náhodná veličina, a G (0,1).
a)   Je-li g všude rostoucí funkce, pak Ka(Y) = g(Ka(X)).
b)   Je-li g všude klesající funkce, pak Ka(Y) = g(Ki_a(X)).
I
9.6. Příklad
Nechť U ~ N(0,1). Najděte devátý decil transformované náhodné veličiny
Y = 3 + 2U.
Řešení:
Funkce y = 3 + 2u je všude rostoucí funkce, tedy K0íg0(Y) = 3 + 2tí0)9o =
3 + 2- 1,28155 = 5,5631.
99
9. Číselné charakteristiky náhodných veličin
Nyní budeme věnovat pozornost číselným charakteristikám polohy a variability náhodné veličiny intervalového či poměrového charakteru. Jak uvidíme, teoretickým protějškem aritmetického průměru m je střední hodnota E (X) a empirického rozptylu s2 teoretický rozptyl D (X). Empirický rozptyl s2 jsme zavedli jako aritmetický průměr kvadrátů centrovaných hodnot. Není tedy překvapivé, že teoretický rozptyl D(X) je střední hodnotou kvadrátů centrovaných hodnot. Naučíme se počítat střední hodnotu a rozptyl transformovaných náhodných veličin a náhodných vektorů. Uvedeme střední hodnoty a rozptyly vybraných typů diskrétních a spojitých rozložení, která jsme poznali v 8. kapitole.
9.7. Definice
Nechť X je náhodná veličina aspoň intervalového charakteru (viz definici 3.2). Její střední hodnotou nazýváme číslo E(X), které je v diskrétním případě zavedeno vztahem
E(X)
DC
X7t(x)
a ve spojitém případě vztahem
E(X)
xip(x) dx
I
za předpokladu, že případná nekonečná suma či integrál vpravo absolutně konverguje. Není-li tato podmínka splněna, pak řekneme, že střední hodnota neexistuje. Transformovaná náhodná veličina X — E(X) se nazývá centrovaná náhodná veličina.
(Střední hodnota je číslo, které charakterizuje polohu realizací náhodné veličiny na číselné ose s přihlédnutím k jejich pravděpodobnostem. V diskrétním případě představuje střední hodnota těžiště soustavy hmotných bodů, jejichž hmotnost je popsána pravděpodobnostní funkcí ir(x) a ve spojitém případě je střední hodnota těžištěm hmotné přímky, na níž je rozprostření hmoty popsáno hustotou pravděpodobnosti <p(x). Střední hodnota je teoretickým protějškem váženého aritmetického průměru z definice 3.20.)
9.8. Příklad
Náhodná veličina X udává počet ok při hodu kostkou. Vypočtěte její střední hodnotu.
Řešení:
\   pro x= 1,2,..., 6 0   jinak.
6                 1
E{X) = J]xtt(x) = -(1 + 2 + 3 + 4 + 5 + 6)
3,5.
x=l
100
9.9. Věta
a) Skalární případ:
•  Nechť X je diskrétní náhodná veličina s pravděpodobnostní funkcí tt(x) a Y = g(X) je transformovaná náhodná veličina. Pak
DC
E(Y) =  Y, 9(xMx),
x=—oc
pokud suma vpravo absolutně konverguje.
•  Nechť X je spojitá náhodná veličina s hustotou pravděpodobnosti <p(x) a Y = g(X) je transformovaná náhodná veličina. Pak
DC
E (Y) =   / g (x) ip (x) dx.
pokud integrál vpravo absolutně konverguje.
b) Vektorový případ:
• Nechť (X\,X2) je diskrétni náhodný vektor se simultánní pravděpodobnostní funkcí tt(xi,x2) a Y = g(Xi,X2) je transformovaná náhodná veličina. Pak
DO                  OC
E(Y)=   Y^     Y   9(xi,x2)7t(x1,x2):
Xl = — OC X2= — oc
pokud suma vpravo absolutně konverguje.
Nechť (Xi,X2) je spojitý náhodný vektor se simultánni hustotou pravděpodobnosti Lp(x\,x2) a Y = g(X\,X2) je transformovaná náhodná veličina. Pak
E(Y) =   /    / g(xi,x2)ip(xi,x2)dxidx2.
pokud integrál vpravo absolutně konverguje.
9.10. Příklad
Nechť X ~ Ex{\), Y = e~~iX, kde 7 > 0 je konstanta. Vypočtěte E(Y).
Řešení:
00
V{x) = { ^~XX   Pr°f > °'        E{Y) =  íe-^Xe-^dx = -^-.
w      1 0          jinak,                              J                           A+ 7
9.11. Definice
Rozptylem náhodné veličiny X, která má střední hodnotu E(X), rozumíme číslo D(X) = E([X — E(X)]2), pokud střední hodnota vpravo existuje. Číslo
9. Číselné charakteristiky náhodných veličin
y/D(X) se nazývá směrodatná odchylka. Transformovaná náhodná veličina
X-E(X)
se nazývá standardizovaná náhodná veličina.
Z věty 9.9 (a) plyne, že v diskrétním případě je rozptyl dán vzorcem
DC
D(X)=    Y, ^ - E(X)]\(x)
x=—oc
a ve spojitém případě vzorcem
D(X) =
[x - E(X)]2p(x) dx
I
(pokud suma či integrál vpravo absolutně konvergují).
(Rozptyl je číslo, které charakterizuje proměnlivost realizací náhodné veličiny kolem její střední hodnoty s přihlédnutím k jejich pravděpodobnostem. Je teoretickým protějškem váženého rozptylu zavedeného v definici 3.20.)
9.12. Příklad
Náhodná veličina X udává počet ok při hodu kostkou. Vypočtěte její rozptyl.
Řešení:
I   pro x =1,2,. 0   jinak.
D(X) = ][>-3,5)2± = .
x=l
35 12
E (X) = 3,5    (viz př. 9.8),
2,92.
9.13. Věta
Uveďme střední hodnoty a rozptyly vybraných typů diskrétních a spojitých rozložení.
X^Dg(ß) => E(X)=ß,D(X) = 0,
X ~ A(u) => E(X) = u, D(X) = i/(l - v),
X ~ Bi(n, u) => E(X) = nu, D(X) = nu{l - u),
X ~ Ge(u) =► E(X) = ±?, D(X) = ^,
X ~ Hg(N,M,n) =* E(X) = §n, D(X) = Mf(l - f )f^,
ra^-l
X ~ Rd(G) => E(X) = 2=i, D(X)
X ~ Po(A) => E(X) = A, L>(X) = A2,
X ~ i?s(a,6) => £(X) = ^, L>(X) - ^=^-
12     :
X~£:r(A) ^ E{X) = \,D{X) = j?,
102
j) X ~ N(fi, a2) => E(X) = 11, D(X) = a2.,
k) X ~ x2(n) => £(X) = n, L>(X) = 2ra.
1) X  ~ í(n)   =>-   E (X)  =  O pro n >  2, pro n =  1 E (X) neexistuje. D(X) = ^2 Pro ^ > 3, pro n = 1, 2 -D(X) neexistuje.
m) X ~ F(m,n2)   =>   E {X) =  ^ pro n2  >  3, pro n2 =  1,2£(I)
rai(ri2-2)(ri2-4)
neexistuje, Ľ(X) = J^Síl-i) Pro n2 > 5, pro n2 = 1, 2, 3, 4 Ľ(X)
neexistuje.
Věnujme se nyní dvěma náhodným veličinám. Budou nás zajímat charakteristiky jejich společné variability a síly těsnosti lineárního vztahu mezi nimi.
Jako motivace pro zavedení těchto charakteristik nám poslouží empirická ko-variance S\2 a empirický koeficient korelace V\2. Empirická kovariance S\2 byla definována jako aritmetický průměr součinů centrovaných hodnot a empirický koeficient korelace V\2 jako aritmetický průměr součinů standardizovaných hodnot. Lze tedy očekávat, že teoretická kovariance C(Xi,X2) bude střední hodnotou součinů centrovaných hodnot a teoretický rozptyl R(Xi,X2) bude střední hodnotou součinů standardizovaných veličin.
Podrobně se seznámíme s řadou vlastností všech výše uvedených číselných charakteristik a využijeme jich při řešení několika příkladů.
Pokud neznáme rozložení pravděpodobnosti náhodné veličiny, ale jenom její střední hodnotu a rozptyl, pak můžeme pomocí tzv. Cebyševovy nerovnosti aspoň odhadnout pravděpodobnost, že tato náhodná veličina se od své střední hodnoty odchýlí o více než í-násobek své směrodatné odchylky.
V závěru kapitoly se soustředíme na vlastnosti střední hodnoty a rozptylu náhodné veličiny s normálním rozložením.
9.14. Definice
Kovariancí náhodných veličin Xi,X2, které mají střední hodnoty E(Xi). E(X2), rozumíme číslo
C(X1,X2) = E{[XX - E{Xl)][X2 - E{X2)})
(pokud střední hodnoty vpravo existují). Z věty 9.9 (b) plyne, že v diskrétním případě je kovariance dána vzorcem
DO                  OC
C(X1,X2)=   J2     J2  [xi-E(Xl)][x2-E(X2)]n(xl,x2)
Xl = — OO X2= — OC
a ve spojitém případě vzorcem
DO       OC
C(X1,X2)=   í   í [xl-E{Xl)][x2-E{X2)]^{xux2)dxldx2
— OO —OC
(pokud dvojná suma či dvojný integrál vpravo absolutně konvergují).
9. Číselné charakteristiky náhodných veličin
I
(Kovariance je číslo, které charakterizuje proměnlivost realizací náhodných veličin X1;X2 kolem jejich středních hodnot s přihlédnutím k jejich pravděpodobnostem. Je-li kovariance kladná (záporná), pak to svědčí o existenci jistého stupně přímé (nepřímé) lineární závislosti mezi realizacemi náhodných veličin Xi,X2. Je-li kovariance nulová, pak říkáme, že náhodné veličiny X\. X2 jsou nekorelované a znamená to, že mezi jejich realizacemi není žádný lineární vztah. Pozor - z nekorelovanosti nevyplývá stochastická nezávislost, zatímco ze stochastické nezávislosti plyne nekorelovanost. Kovariance je teoretickým protějškem vážené kovariance z definice 3.20.)
9.15. Příklad
Diskrétní náhodný vektor (Xi, X2) má simultánní pravděpodobnostní funkci s hodnotami: vr(0,-l) = c, vr(0,0) = vr(0,1) = vr(l,-l) = vr(2,-l) = 0, tt(1,0) = vr(0,1) = vr(2,1) = 2c, vr(2,0) = 3c, ir(x1,x2) = 0 jinak. Určete konstantu c a vypočtěte C(Xi,X2).
Řešení:
Hodnoty simultánní pravděpodobnostní funkce a obou marginálních pravděpodobnostních funkcí uspořádáme do kontingenční tabulky.
		x2			7Ti(Xi)
		-1	0	1	
X\	0	c	0	0	c
	1	0	2c	2c	4c
	2	0	3c	2c	5c
7r2(x2)		c	5c	4c	1
Z normovanosti pravděpodobnostní funkce diskrétního náhodného vektoru (viz věta 7.8, vektorový případ) dostáváme 10c = 1, tedy c = 0,1.
2 S(Xi) = Yl aW^i) = 0 • 0,1 + 1 • 0,4 + 2 • 0,5 = 1,4
£1=0 1
E(X2) =  Y, ^2vr2(x2) = -1 • 0,1 + 0 • 0,5 + 1 • 0,4 = 0,3
X2=— 1
2           1
C(XhX2) =J2   Yl ^ - £(Xi)]N - E(X2)]k(x1,x2)
X-l =0 Xn = — 1
= (0 - 1,4) • (-1 - 0,3) • 0,1 + • • • + (2 - 1,4) • (1 - 0,3) • 0,2 = 0,18.
9.16. Definice
Koeficientem korelace náhodných veličin X1; X2 rozumíme číslo
R(X1,X2) =
E
X1-E(X1)  _ X2-E{X2) ^/Ďix7)      ^D(X2)
pro y/Ď(XÍ) v^X^ > 0, jinak.
104
(Koeficient korelace je číslo, které charakterizuje těsnost lineární závislosti realizací náhodných veličin X1; X2. Cím bližší je 1, tím těsnější je přímá lineární závislost, čím bližší je -1, tím těsnější je nepřímá lineární závislost.)
9.17. Věta
Nechť                   b, &i, b2 jsou reálná čísla, X, Xlr .., Xn, Y1,..., Ym jsou
náhodné veličiny definované na témž pravděpodobnostním prostoru. V následujících vzorcích vždy z existence číselných charakteristik na pravé straně vyplývá existence výrazu na levé straně.
Vlastnosti střední hodnoty
a)   E(a) = a,
b)   E(a + bX) =a + bE(X),
c)   E(X-E(X)) = 0,
/ n        \          n
\i=l        J       i=\
e)  Jsou-li náhodné veličiny Xlr .., Xn stochasticky nezávislé, pak platí
/ n        \          n
E(UX) = UE(Xl).
\í=i     /      %=i
Vlastnosti kovariance
a)   C{ai,X2) = C(Xi,a2) = C(ai,a2) = 0,
b)   C(ai + 61X1, a2 + b2X2) = 6162C(X1,X2),
c)   C(X,X) = D(X),
d)   C(X1,X2) = C(X2,X1),
e)   C{X1,X2) = E{X1X2)-E{X1)E{X2),
(n           m        \         n     m
i=l        j = l       J        i=lj=l
Vlastnosti rozptylu
a)   D (a) = 0,
b)   D(a + bX) = b2D(X),
c)   D{X) = £(X2) - [E{X)]\
d)   D i J2 Xi) = E D(Xí) + 2 E   E   C(Xí, Xj)   (Jsou-li náhodné veli-
\í=l        )        í=l                        í=l j=i+l
/ n        \          n
činy Xi,... , Xra nekorelované, pak D í ^ X» J = ^ D(Xi).)
\i=l       /        í=l
Vlastnosti koeficientu korelace
a)   i?(ai,X2) = i?(Xi,a2) = R(ai,a2) = 0,
b)   R(ai + 61X1, a2 + 62X2) = sgn(bib2)R(X1, X2),
c)   R(X, X) = 1 pro D(X) ^ 0, R(X, X) = 0 jinak,
d)   R(X1,X2) = R(X2,X1)
9. Číselné charakteristiky náhodných veličin
E
C(X1,X2)
pro y/Ď(XÍ)^/Ď{X7) > 0,
e)  R(X1,X2) = {       \^(x7)^(x7)t 0                                jinak,
f)   \R(Xi,X2)\ < 1 a rovnost nastane tehdy a jen tehdy, když mezi veličinami Xi,X2 existuje s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a\,a2 tak, že P(X2 = a\ + 02X1) = 1. (Uvedená nerovnost se nazývá Cauchyova-Schwarzova-Buňakovského nerovnost.)
9.18. Příklad
Vypočtěte koeficient korelace náhodných veličin Xi,X2 z příkladu 9.15.
Řešení:
V příkladu 9.15 byla vypočtena kovariance C(Xi,X2) = 0,18. Stačí tedy vypočítat směrodatné odchylky veličin Xi,X2.
D(X1)=Y/lxi-E(X1)]2ir1(x1)
£1=0
= (0 - 1,4)2 • 0,1 + (1 - 1,4)2 • 0,4 + (2 - 1,4)2 • 0,5 = 0,44 2 D(X2) = J>2 - E(X2)]2-k1(x2) =
£9=0
= (-1 - 0,3)2 • 0,1 + (0 - 0,3)2 • 0,5 + (1 - 0,3)2 • 0,4 = 0,41
R(X1,X2) =
C(X1,X2)
0,18
v^xöv^xä)    VöMVöÄT
= 0,42.
I
9.19. Příklad
Náhodná veličina X má střední hodnotu ß a rozptyl a2. Vypočtěte střední hodnotu a rozptyl centrované náhodné veličiny Y = X — ß a střední hodnotu a rozptyl standardizované náhodné veličiny U = —^.
Řešení:
E(Y) = E(X -ß) = E(X) - E{n) = ß-ß = 0; D(Y) = D(X -/i) = D(X) = a2,
E(U) = E (?—^) = -E(X -ß) = --0 = 0. \     a     J      a                     a
D(U) = D
X~A        1D(X-ß) = ±a2 = l.
a
oc
o*
9.20. Příklad
Náhodné veličiny X, Y jsou náhodné chyby, které vznikají na vstupním zařízení. Mají střední hodnoty E(X) = —2, E(Y) = 4 a rozptyly D(X) = 4,
106
D (Y) = 9. Koeficient korelace těchto chyb je R(X,Y) = —0,5. Chyba na výstupu zařízení souvisí s chybami na vstupu funkční závislostí Z = 3X2 — 2XY + Y2 — 3. Najděte střední hodnotu chyby na výstupu.
Řešení:
E{Z) = E{3X2 - 2XY + Y2 - 3) = 3E{X2) - 2E{XY) + E(Y2) - E(3) =
= 3 {D(X) + [E(X)]2} - 2 [C(X, Y) + E(X)E(Y)] + D(Y) + [E(Y)]2 - 3 =
= 3[D(X) + [E(X)]2] - 2[R(X, Y)y/D(X)y/D(Y) + E(X)E(Y)] + D(Y)+
+ [E{Y)f - 3 = 3(4 + 4) - 2[-0,5 • 2 • 3 + (-2) • 4] + 9 + 16 - 3 =
= 24 + 22 + 25 - 3 = 68.
9.21. Věta
Nechť náhodná veličina X má střední hodnotu ß a rozptyl a2. Pak platí Cebyševova nerovnost
2
Ve>0:P(\X-ß\ > e)<%.
Označíme-li e = ta, pak pro
Vŕ>0: P(\X - ß\ >ta) < —.
(Význam Cebyševovy nerovnosti spočívá v tom, že pokud neznáme rozložení náhodné veličiny, ale známe její střední hodnotu a rozptyl, pak můžeme odhadnout pravděpodobnost, s jakou se od své střední hodnoty odchýlí o více než í-násobek své směrodatné odchylky.)
I
E{X) - ty/Ď(XJ      E(X)      E{X) + ty/Ď{X)
9.22. Příklad
Nechť E{X) = /i, D{X) = a2.
a)   Odhadněte P(\X — /j, > 3a).
b)   Jestliže X ~ N(/j,, a2), vypočtěte P(\X — ß\> 3a).
Řešení:
ad a)    P{\X-ß\ > 3a) < jj = | = 0,T.
(Tento výsledek je znám jako pravidlo 3a a říká, že nejvýše 11,1% realizací
107
9. Číselné charakteristiky náhodných veličin
náhodné veličiny leží vně intervalu (ß — 3a, ß + 3<r).)
ad b) P{\X-p\ >3a) = l-P(-3a<X-ß< 3a) = l-P(-3< ^ < 3) = 1 - $(3) + $(-3) = 2[1 - $(3)] = 2(1 - 0,99865) = 0,0027. (Má-li náhodná veličina normální rozdělení, pak pouze 0,27% realizací leží vně intervalu (ß — 3a,ß + 3a).)
9.23. Věta
a)   Jestliže X ~ N(ß, a2), pak E(X) = ß, D(X) = a2.
b)   Jestliže X ~ N(p, a2) aľ = a + bX, pak Y ~ N (a + bß, b2a2).
c)   Jestliže Xi,..., Xn jsou stochasticky nezávislé náhodné veličiny a nechť
n
Xi ~ N(ßi, a2),i=l,...,n,Y =YJXi, pak
Y
í=i
I
9.24. Příklad
Nechť Xi, X2 jsou stochasticky nezávislé náhodné veličiny, Xj ~ X(0,1), i   =   1,2.   Zjistěte,  jaké  rozložení  má  transformovaná  náhodná  veličina
Y  = 3 + Xi — 2X2, určete jeho parametry a najděte dolní kvartil náhodné veličiny Y.
Řešení:
Y  ~ N(E(Y),D(Y)), přičemž
E(Y) = E{3 + Xľ - 2X2) = 3 + E(Xľ) - 2E(X2) = 3 + 0-2-0 = 3, D(Y) = D(3 + X1- 2X2) = D(X1) + (-2)2Ľ(X2) = 1 + 4-1 = 5,
tedy Y ~ X(3,5). Nyní vypočítáme dolní kvartil. Využijeme toho, že U = ^ ~ X(0,1), tedy K0^{Y) = 3 + ^0,25 = 3-^-0,67449 = 1,4918.
Shrnutí kapitoly
Při zavádění číselných charakteristik náhodných veličin nás motivují číselné charakteristiky znaků, jak jsme je poznali ve 3. kapitole.
Jako charakteristika polohy číselných realizací spojité náhodné veličiny aspoň ordinálního typu slouží a-kvantil a jeho speciální případy: medián, dolní a horní kvartil. Variabilitu charakterizujeme kvartilovou odchylkou. Výpočet kvantilu není příliš jednoduchá záležitost, proto jsou kvantily několika typů rozložení tabelovány nebo je lze získat pomocí speciálního statistického software.
Pro náhodné veličiny intervalového a poměrového typu používáme jako charakteristiku polohy střední hodnotu - teoretický protějšek aritmetického průměru. Pomocí střední hodnoty pak definujeme další číselné charaketris-tiky: rozptyl a jeho druhou odmocninu - směrodatnou odchylku, kova-rianci a koeficient korelace.
108
Řešení konkrétních příkladu velmi usnadňují vzorce, které popisují vlastnosti číselných charakteristik.
Kontrolní otázky a úkoly
1   Pomocí statistických tabulek vypočtěte následující kvantily: «0,95,1*0,10;
V),975
(10)
> Xo,025
(9), í0)9o(8), ío,o5(6), F0;975(5,7), ^055(8,6).
2  Nechť X ~ V(-l,4). Najděte X0,025(X).
3  Nechť Xi,X2 jsou stochasticky nezávislé náhodné veličiny takové, že Xi ~ iV(2,4), X2 ~ N(-1,9). Vypočtěte 99% kvantil transformované náhodné veličiny Y = 2X\ — ZX2 + 5.
4  V zásilce 15 výrobků je 5 nekvalitních. Náhodná veličina X udává počet nekvalitních výrobků mezi čtyřmi náhodně vybranými výrobky. Vypočtěte její střední hodnotu a rozptyl, jestliže výběr byl proveden a) s vracením, b) bez vracení. (Návod: v bodě (a) má X binomické rozložení, v bodě (b) hypergeometrické.)
5   Sledovaná železniční trasa vykazuje velké nerovnosti, takže zatížení jednotlivé vozové nápravy náhodně kolísá, teoreticky spojitým způsobem. Prakticky jsou známy jen částečné informace, takže uvažujeme o diskrétní náhodné veličině X (náhodné zatížení v tunách) s pravděpodobnostní funkcí tt(x) = 0,15 pro x = 6, ir(x) = 0,65 pro x = 30, TT (x) = 0,2 pro x = 70, ir(x) = 0 jinak. Při kalkulaci nákladů se ekonom zajímá o střední opotřebení náprav dané vzorcem Y = 1,15X2. Vypočtěte střední hodnotu opotřebení.
6  Počet různých druhů zboží, které zákazník nakoupí při jedné návštěvě obchodu, je náhodná veličina X. Dlouhodobým sledováním bylo zjištěno, že X nabývá hodnot 0,1, 2, 3, 4 s pravděpodobnostmi 0,25, 0,55, 0,11, 0,07 a 0,02.
a)   Najděte distribuční funkci náhodné veličiny X a nakreslete její graf.
b)   Vypočtěte střední hodnotu náhodné veličiny X.
c)   Vypočtěte rozptyl náhodné veličiny X.
7   Střelec střílí 3 x nezávisle na sobě do terče. Při každém výstřelu se trefí s pravděpodobností |. Za zásah získá 2 body, jinak ztratí 2 body. Vypočtěte střední hodnotu a rozptyl počtu získaných bodů.
8  Uvažme rodinu se třemi dětmi. Předpokládáme, že pravděpodobnost narození chlapce i dívky je stejná. Náhodná veličina X udává počet dívek v této rodině (má binomické rozložení) , transformovaná náhodná veličina Y = — 100X2 + 300X + 500 udává roční náklady (v dolarech) na ošacení dětí. Vypočtěte střední hodnotu náhodné veličiny Y.
9  Náhodná veličina X udává příjem manžela (v tisících dolarů) a náhodná veličina Y udává příjem manželky (v tisících dolarů). Je známa simultánní pravděpodobnostní funkce ir(x,y) diskrétního náhodného vektoru (X,Y): vr(10,10) = 0,2, vr(10,20) = 0,04, vr(10,30) = 0,01, tt(10,40) = 0, vr(20,10) = 0,1, vr(20,20) = 0,36, vr(20,30) = 0,09, tt(20,40) = 0,    vr(30,10) = 0,    vr(30,20) = 0,05,    vr(30,30) = 0,1,
9. Číselné charakteristiky náhodných veličin
7t(30, 40) = 0, vr(40,10) = 0, vr(40, 20) = 0, vr(40, 30) = 0, vr(40, 40) = 0,05, TT (x, y) = 0 jinak.
a)   Vypočtěte korelační koeficient náhodných veličin X, Y.
b)   Vypočtěte střední hodnotu a směrodatnou odchylku náhodné veličiny Z = 0,1X + 0,2V, která vyjadřuje příspěvek obou manželů na důchod. (Náhodná veličina Z vyjadřuje, že příspěvek na důchod činí 10% manželova platu a 20% manželčina platu.)
10   Náhodné veličiny X\,X2 mají kovarianci 12. Vypočtěte kovarianci náhodných veličin Ví = -8 + HXi, V2 = 6 - 4X2.
11   Náhodná veličina X udává výšku v metrech a náhodná veličina Y udává hmotnost v gramech. Jak se změní kovariance a koeficient korelace, jestliže výšku vyjádříme v cm a hmotnost v kg?
12   Náhodná veličina X má střední hodnotu ß a směrodatnou odchylku a. Kolik procent realizací této náhodné veličiny se bude nacházet v intervalu (ß — 2(7, ß + 2<t)?
13   Použijte Cebyševovu nerovnost k odhadu pravděpodobnosti, že při 600 hodech kostkou padne šestka aspoň 75 x a nejvýše 125x.
I
110
10
Zákon velkých čísel a centrální limitní věta
I
10. Zákon velkých čísel a centrální limitní věta
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■   odhadnout pravděpodobnost, s níž se náhodná veličina realizuje v určité vzdálenosti od své střední hodnoty
■   odhadnout pravděpodobnost úspěchu v posloupnosti opakovaných nezávislých pokusů relativní četností tohoto úspěchu
■   aproximovat distribuční funkci binomického rozložení distribuční funkcí standardizovaného normálního rozložení
Časová zátěž
Na prostudování této kapitoly budete potřebovat asi 5 hodin studia.
V 5. kapitole, konkrétně v definici 5.6, jsme se seznámili s empirickým zákonem velkých čísel, který tvrdil, že při mnohonásobném nezávislém opakování téhož náhodného pokusu se relativní četnost jevu blíží pravděpodobnosti tohoto jevu. Jak uvidíme, je empirický zákon velkých čísel speciálním případem obecnějšího zákona velkých čísel. Tento důsledek uvedeme jako Bernoulhovu větu.
I
10.1.  Motivace
Zákon velkých čísel vyjadřuje skutečnost, že s rostoucím počtem nezávislých opakování náhodného pokusu se empirické charakteristiky, které popisují výsledky těchto pokusů, blíží teoretickým charakteristikám, např. relativní četnost úspěchu se blíží pravděpodobnosti úspěchu, četnostní funkce se blíží pravděpodobnostní funkci, hustota četnosti se blíží hustotě pravděpodobnosti apod.
Centrální limitní věta tvrdí, že za jistých podmínek má součet nezávislých náhodných veličin s týmž rozložením přibližně normální rozložení. Normální rozložení je tedy rozložením limitním, k němuž se blíží všechna rozložení, proto hraje velmi důležitou roli v počtu pravděpodobnosti a matematické statistice.
10.2.  Věta
Nechť {Xn}^=i je posloupnost stochasticky nezávislých náhodných veličin, které mají střední hodnoty ß a rozptyly a2. Pak pro posloupnost aritme-
n
tických průměrů {^ Yl ^í}í=i platí: n í=i
neboli
Ve > 0 : P
n
n *-^
Ve > 0 : lim P
n—>oc
ß
<e    > 1
a
ne^
1    n
n *-^
í=i
\i
> e
0.
112
(Uvedená věta se nazývá zákon velkých čísel nebo též Cebyševova věta. Její tvrzení říká, že posloupnost aritmetických průměrů konverguje podle pravděpodobnosti ke střední hodnotě ß. Tedy při dostatečně velkém počtu pokusů lze střední hodnotu odhadnout průměrem výsledků jednotlivých pokusů.)
10.3. Důsledek
Nechť náhodná veličina Yn udává počet úspěchů v posloupnosti n opakovaných nezávislých pokusů, přičemž v každém pokusu nastává úspěch s pravděpodobností v. (Podle definice 8.2 (c) Yn ~ Bi(n, v)). Pak pro posloupnost relativních četností { — }™=1 platí:
Ve > 0 : P
Y
n
<e    > 1
ů(l-ů)
neboli
Ve > 0 : lim P
n—>oc
Y
n
n
•d
ne'
> e
> 1
0.
ine2'
(Tento důsledek Čebyševovy věty se nazývá Bernoulliova věta. Vyjadřuje skutečnost, že posloupnost relativních četností konverguje podle pravděpodobnosti k pravděpodobnosti úspěchu v. Tedy při dostatečně velkém počtu pokusů lze pravděpodobnost úspěchu odhadnout relativní četností úspěchu.)
10.4. Příklad
Při výstupní kontrole bylo zjištěno, že mezi 3000 kontrolovanými výrobky je 12 zmetků. Jaká je pravděpodobnost, že relativní četnost výskytu zmetku se od pravděpodobnosti výskytu zmetku neliší o více než 0, 01?
Řešení:
^3000 - počet zmetků mezi kontrolovanými výrobky, Y3000  ~ Bi(3000, v). 12
3000'
v ř« ^tt. Podle Bernoulliovy věty dostáváme:
Ve > 0 : P
Y
n
<e    > 1
ů(l-ů)
> 1
1
ne'
ine2'
V našem případě e = 0,01, n = 3000, v
12
3000'
tedy
P
Y,
3000
3000
Ů
<0,01    > 1
12   2988 3000 3000
3000 • 0,0001
= 0,872.
Již několikrát jsme se zmínili o tom, že normální rozložení je vůbec nejdůležitější typ rozložení. Centrální limitní věta nám dá odpověď na otázku, proč tomu tak je.
Při praktických výpočtech se často používá důsledek centrální limitní věty, a to Moivreova-Laplaceova věta, která za určitých podmínek umožní nahradit složitý výpočet distribuční funkce binomického rozložení jednoduchým
10. Zákon velkých čísel a centrální limitní věta
hledáním v tabulkách hodnot distribuční funkce standardizovaného normálního rozložení. Pokud však máme k dispozici statistický software, dáme přednost přesnému výpočtu před aproximativním.
10.5. Věta
Nechť {Xn}r^=l je posloupnost stochasticky nezávislých náhodných veličin, které mají všechny totéž rozložení se střední hodnotou ß a rozptylem a2. Pak pro posloupnost standardizovaných součtů
Un
Y^Xi-n/j, í=i
<J\/n
n=l,2,...
platí: Vx G R :   lim P{Un < x)  = $(x), kde $(x) je distribuční funkce
x—>oo
rozložení N(0,1).
(Lindebergova-Lévyova centrální limitní věta říká, že pro dostatečně velká n (praktickz stačí n > 30) lze rozložení součtu stochasticky nezávislých a stejně rozložených náhodných veličin aproximovat normálním rozložením N(nß,na2).)
10.6. Důsledek
Nechť {Yn}r^=l je posloupnost stochasticky nezávislých náhodných veličin, Yn ~ Bi(n, v), n = 1,2,... Pak platí:
I
Vy G R : lim P(Yn < y) = lim P
Yn - nů
<
y — rvd
°°      ^71^(1-1?)  ""  y/nů(l-ů)
y — m9
$
y/nůil-ů)) ''
kde $(x) je distribuční funkce rozložení N{Q, 1).
(Moivreova-Laplaceova věta tvrdí, že za určitých podmínek lze binomické rozložení aproximovat standardizovaným normálním rozložením. Aproximace se považuje za vyhovující, když jsou splněny podmínky ^-j-j- < v < ^-j- a nu(l - v) > 9.)
10.7. Příklad
V určité skupině zaměstnanců je 10% s příjmem, který překračuje celostátní průměr. Kolik zaměstnanců z této skupiny je třeba vybrat, aby s pravděpodobností aspoň 0,95 bylo mezi nimi 8% až 12% zaměstnanců s nadprůměrným příjmem?
Řešení:
X - počet zaměstnanců s nadprůměrným příjmem, Yn ~ Bi(n; 0,1), E(X) =
114
O,In, D {X) = 0,09n,
0,08 < — < 0,12 J = P(0,08n < X < 0,12n) '0,08-0,In      X-0,ln      0,12 - 0,In
p[-^< x~°>ln < ^) « $ (y/ň) _ $ f _v^
15    -   y/ÔfiÔň   -   15 J        \15 J        V    15
= **[*)-1**(-) -°'975
tedy ^ > Mo,975 = 1,96 => \Jn > 29,4 =^ n > 865. Pro splnění podmínek je zapotřebí vybrat aspoň 865 zaměstnanců.
Shrnutí kapitoly
V této kapitole jsme ukázali, že již dříve vyslovený empirický zákon velkých čísel je speciálním případem obecnějšího zákona velkých čísel, který popisuje pravděpodobnostní chování posloupností aritmetických průměrů stochasticky nezávislých náhodných veličin s touž střední hodnotou a rozptylem. Důsledek tohoto zákona (zvaného též Cebyševova věta) jsme uvedli jako Bernoulliovu větu.
Seznámili jsme se též s Lindebergovou-Lévyovou centrální větou, která tvrdí, že za určitých podmínek lze rozložení součtu náhodných veličin s jakýmkoliv rozložením aproximovat normálním rozložením. Toto tvrzení tedy vysvětluje důležitost normálního rozložení. Historicky starší než tato věta je její důsledek uváděný jako Moivreova-Laplaceova věta, která umožňuje aproximovat binomické rozložení normálním rozložením.
Kontrolní otázky a úkoly
1   Pravděpodobnost, že výrobek má 1. jakost, je v = 0,9. Kolik výrobků je třeba zkontrolovat, aby s pravděpodobností aspoň 0,99 bylo zaručeno, že rozdíl relativní četnosti počtu výrobků 1. jakosti a pravděpodobnosti v = 0,9 byl v absolutní hodnotě menší než 0,03? K výpočtu použijte jak Bernoulliovu větu, tak Moivreovu-Laplaceovu větu a výsledky porovnejte.
2  Pravděpodobnost narození chlapce je 0,515. Jaká je pravděpodobnost, že mezi 10 000 novorozenci bude
a)   více děvčat než chlapců.
b)   chlapců od 5 000 do 5 300.
c)   relativní četnost chlapců v mezích od 0,515 do 0,517?
3  Pravděpodobnost zásahu terče jedním výstřelem je 0,4. Kolikrát je třeba vystřelit, aby absolutní hodnota odchylky relativní četnosti zásahů od uvedené pravděpodobnosti byla menší než 0,02 s pravděpodobností aspoň 0,95?
10. Zákon velkých čísel a centrální limitní věta
I
116
11
Základní pojmy matematické statistiky
I
11. Základní pojmy matematické statistiky
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■   definovat náhodné výběry z jednorozměrného i vícerozměrného rozložení pravděpodobností
■   stanovit důležité statistiky pro náhodný výběr z jednorozměrného a dvourozměrného rozložení pravděpodobností
■   popsat vlastnosti těchto statistik
■   využít vlastností statistik odvozených z náhodného výběru z normálního rozložení při výpočtu konkrétních pravděpodobností
Časová zátěž
Pro zvládnutí této kapitoly budete potřebovat asi 7 hodin studia.
Nejprve zavedeme pojem náhodného výběru a vysvětlíme jeho souvislost s datovým souborem. Musíme si však uvědomit následující skutečnost: datový soubor obsahuje konstantní hodnoty znaků, zatímco složkami náhodného výběru jsou náhodné veličiny spojené s nějakým náhodným pokusem.
I
11.1. Definice
a)   Nechť X\,... ,Xn jsou stochasticky nezávislé náhodné veličiny, které mají všechny stejné rozložení L{y). Řekneme, že Xi,..., Xn je náhodný výběr rozsahu n z rozložení L (v). (Číselné realizace X\,..., xn náhodného výběru X\,..., Xn uspořádané do sloupcového vektoru představují datový soubor zavedený v popisné statistice v definici 1.9)
b)   Nechť (Xi,Y\),..., (Xn,Yn) jsou stochasticky nezávislé dvourozměrné náhodné vektory, které mají všechny stejné dvourozměrné rozložení L2(u). Řekneme, že (Xi, Yi),..., (Xn,Yn) je dvourozměrný náhodný výběr rozsahu n z dvourozměrného rozložení L2Íy). (Číselné realizace (xi,yi),..., (xn, yn) náhodného výběru (Xí} Yi),..., (Xn, Yn) uspořádané do matice typu 2 x n představují dvourozměrný datový soubor zavedený v popisné statistice.)
(Analogicky lze definovat p-rozměrný náhodný výběr rozsahu n z p-rozměr-ného rozložení Lp{y).)
V matematické statistice velmi často pracujeme s transformacemi náhodného výběru. Těmto transformovaným náhodným veličinám říkáme statistiky. Zavedeme několik důležitých statistik a upozorníme na jejich souvislost s číselnými charakteristikami znaků, které jsme poznali ve 3. kapitole v popisné statistice.
Protože statistiky jsou náhodnými veličinami, lze počítat jejich střední hodnotu a rozptyl. Ukážeme, jak se chovají tyto číselné charakteristiky některých statistik.
118
11.2. Definice
Libovolná funkce T = T(Xi,... ,Xn) náhodného výběru Xi,... ,Xn (resp. T = T(Xi,Yi,..., Xn, Yn) náhodného výběru (Xi, Yi),..., (Xn, Yn)) se nazývá (výběrová) statistika.
Statistika
se nazývá výběrový průměr.
M=-YX1
S2 =
n
—^{X.-Mf í=i
S=VS2
výběrový rozptyl,
výběrová směrodatná odchylka,
S12 =  —^ Y^{Xt - M^Yi - M2)
n
í=i
výběrová kovariance (přitom M\ = - ^ Xi, M2 = - Yl ^í) a
se nazývá výběrový koeficient korelace.
(Číselné realizace m, s2, s, su, r u statistik M, S2, S, Su, Ru odpovídají číselným charakteristikám znaků v popisné statistice zavedeným definicích 3.6, 3.10 a 3.12, ale u rozptylu, směrodatné odchylky, kovariance a koeficientu korelace je multiplikativní konstanta ^-j-, nikoli ^, jak tomu bylo v popisné statistice.)
11.3. Věta
a)  Nechť Xi,..., Xn je náhodný výběr z rozložení se střední hodnotou p a rozptylem a2. Pak E(M) = p, D(M) = ^, E(S2) = a2, ať jsou hodnoty parametrů p, a2 jakékoli.
b)  Nechť (Xi,Yi),... , (Xn,Yn) je náhodný výběr z dvourozměrného rozložení s kovariancí au a koeficientem korelace p. Pak E(Su) = cu-, ať je hodnota parametru au jakákoli, avšak E(Ru) je rovno p pouze přibližně (shoda je vyhovující pro n > 30), ať je hodnota parametru p jakákoli.
Nyní se budeme zabývat náhodným váběrem z normálního rozložení. Zavedeme několik statistik vzniklých transformací výběrového průměru a výběrového rozptylu (jsou to tzv. pivotové statistiky) a ukážeme, jakým způsobem
I
119
11. Základní pojmy matematické statistiky
se tyto statistiky řídí. V příští kapitole využijeme těchto pivotových statistik při konstrukci intervalů spolehlivosti pro parametry normálních rozložení. V této kapitole nám uvedené vlastnosti poslouží při výpočtu různých pravděpodobností.
11.4. Věta
Nechť Xi,..., Xn je náhodný výběr z rozložení N(ß, a2). Pak platí
a)   Výběrový průměr M a výběrový rozptyl S2 jsou stochasticky nezávislé.
b)   M ~ N(ß, £), tedy U = ^f* ~ N(0,1). (Statistika U slouží ke kon-strukci intervalu spolehlivosti pro ß, když a2 známe.)
c)   K = (n — l)S2a2 ~ x2(n ~ !)• (Statistika K slouží ke konstrukci intervalu spolehlivosti pro a2, když ß neznáme.)
E (^i-M)2
d)   I~1   2-----  ~ x2(n)-  (Tato statistika, která nemá speciální označení,
slouží ke konstrukci intervalu spolehlivosti pro a2, když ß známe.)
e) T =
_  M-ji
V"'
t(n — 1). (Statistika T slouží ke konstrukci intervalu spo-
lehlivosti pro ß, když o   neznáme.)
11.5. Příklad
Hmotnost jedné porce kávy považujeme za náhodnou veličinu s normálním rozložením X ~ N(7g, 0,25 g2). Jaká je pravděpodobnost, že k přípravě 28 porcí kávy postačí dva 100 g balíčky?
Řešení:
Xi,..., X28 je náhodný výběr z N(7, 0,25). Počítáme
KpH-Ksž*^)
P   M <
200
1>8"
|M-7<H-
0,5 V28
0,5 V28
P(U < 1,51) = $(1,51) = 0,9345.
I
S pravděpodobností 93,45% můžeme předpokládat, že k přípravě 28 porcí kávy postačí dva 100 g balíčky.
11.6. Příklad
Odběratel provede kontrolu stejnorodosti dodávky výrobků tak, že změří sledovaný rozměr u 25 náhodně vybraných výrobků. Dodávku přijme, jestliže výběrová směrodatná odchylka se bude realizovat hodnotou menší nebo rovnou 0,2 mm. Je známo, že sledovaný rozměr výrobku má normální rozložení iV(50 mm, 0,2632 mm2). Jaká je pravděpodobnost přijetí dodávky?
120
Řešení:
Xi,..., X25 je náhodný výběr z N(50, 0,2632). Počítáme
P(S < 0,2) = P(S2 < 0,04) = P<
(n-l)S2      (n- 1)0,04
<
a'
o*
tedy číslo 13,879 je Cü-kvantil Pearsonova rozložení %2(24). V tabulkách kvan-tilů Pearsonova rozložení najdeme, že a = 0,05. S pravděpodobností pouhých 5% lze očekávat, že odběratel přijme dodávku.
Přejdeme nyní ke dvěma nezávislým náhodným výběrům z normálního rozložení. I v této situaci nás zajímá rozložení pivotových statistik vzniklých transformací výběrových průměrů a výběrových rozptylů.
11.7. Věta
Nechť Xn,... , Xnii je náhodný výběr z rozložení N(ßi, a2) a X12,..., Xn22 je na něm nezávislý náhodný výběr rozložení N(ß2,a2), přičemž n\ > 2 a n2 > 2. Označme M\, M2 výběrové průměry a Sf, S2 výběrové rozptyly. Pak platí:
a)   Statistiky M\ — M2 (rozdíl výběrových průměrů) a
o2 _ (»i - l)^i2 + (n2 - 1)S2
(vážený průměr výběrových rozptylů) jsou stochasticky nezávislé.
b)   M1-M2~N(fj,1-ij,2£ +
11
n2
), tedy U = (Mi-y)-(^) _ ^(o, 1). 1                             \ Zx+Z2-
V   nl      n2
(Statistika U slouží ke konstrukci intervalu spolehlivosti pro rozdíl středních hodnot ß\ — ß2, když rozptyly a2, a2 známe.)
c)   Jestliže a\ = a\ = a2, pak K = (rai+"2~2)g* ~ x2(ni+n2-2). (Statistika K slouží ke konstrukci intervalu spolehlivosti pro společný rozptyl a2, když střední hodnoty ß\ — ß2 neznáme.)
d)   Jestliže a2 = a2 = a2, pak T = ^~Mf~^-^) ~ t{m + n2-2).

e) F
^7
A
F(ni — l,n2 — 1). (Statistika F slouží ke konstrukci inter-
valu spolehlivosti pro podíl rozptylů ^, když střední hodnoty Ui, a2 neznáme.)
11.8. Příklad
Nechť jsou dány dva nezávislé náhodné výběry, první pochází z rozložení N (2; 1,5) a má rozsah 10, druhý pochází z rozložení iV(3,4) a má rozsah 5. Jaká je pravděpodobnost, že výběrový průměr 1. výběru bude menší než výběrový průměr 2. výběru?
I
121
11. Základní pojmy matematické statistiky
I
Řešení:
P(M1 < M2)
P(Ml - M2 < 0) = (Mi - M2) - (/u
P
= P    [/<
JX2)   <0
(^1 - (J>2)

Z2. ri2
S pravděpodobností 85. průměr 2. výběru.
= P (U < 1,05) = $(1,05) = 0,85314.
je výběrový průměr 1. výběru menší než výběrový
Shrnutí kapitoly
Ústředním pojmem matematické statistiky je pojem náhodného výběru. a to jednorozměrného i vícerozměrného. Transformací jednoho nebo více náhodných výběrů vzniká náhodná veličina zvaná (výběrová) statistika. K nejdůležitějším statistikám patří výběrový průměr, výběrový rozptyl, výběrová směrodatná odchylka, výběrová kovariance, výběrový koeficient korelace.
Jelikož statistika je náhodná veličina, má smysl počítat její střední hodnotu a rozptyl. Ukázali jsme si vlastnosti střední hodnoty a rozptylu výběrového průměru a střední hodnoty výběrového rozptylu, výběrové kovariance a výběrového koeficientu korelace.
Zabývali jsme se rovněž rozložením výběrových statistik pro náhodné výběry z normálních rozložení, tzv. pivotových statistik. Jak uvidíme v dalších kapitolách, lze pomocí těchto pivotových statistik konstruovat intervaly spolehlivosti pro parametry normálních rozložení a testovat hypotézy o těchto rozloženích.
Kontrolní otázky a úkoly
1   Kdy lze posloupnost náhodných veličin X\,..., Xn považovat za náhodný výběr?
2   Uveďte nejdůležitější statistiky odvozené z náhodného výběru, který pochází a) z jednorozměrného rozložení, b) z dvourozměrného rozložení.
3   Jaký je vztah mezi výběrovým rozptylem a rozptylem v popisné statistice?
4  Nechť Xi,... ,XW je náhodný výběr z iV(100,100). Jaké rozložení má výběrový průměr?
5   Předpokládáme, že velký ročník na vysoké škole má výsledky ze statistiky normálně rozloženy kolem střední hodnoty 72 bodů se směrodatnou odchylkou 9 bodů. Vypočtěte pravděpodobnost, že
a)   náhodně vybraný student bude mít výsledek nad 80 bodů
b)   průměr výsledků náhodně vybraných 10 studentů bude nad 80 bodů.
6   Nechť X\,... ,X2o je náhodný výběr z N(ß,a2). Najděte čísla k\, k2 tak, aby platilo P(4 < h) = 0,05 a P(4 > h) = 0,05.
122
12
Bodové a intervalové odhady parametrů a parametrických funkcí
I
12. Bodové a intervalové odhady parametrů a parametrických funkcí
Cíl kapitoly
Po prostudování této kapitoly budete umět:
■   posoudit nestrannost a asymptotickou nestrannost bodových odhadů parametrické funkce a pomocí rozptylu ohodnotit jejich kvalitu
■   sestrojit intervaly spolehlivosti pro parametry jednoho a dvou normálních rozložení
■   stanovit rozsah náhodného výběru tak, aby šířka intervalu spolehlivosti nepřesáhla dané číslo
Časová zátěž
Pro zvládnutí této kapitoly budete potřebovat asi 8 hodin studia.
Jak jsme poznali v předešlé kapitole, náhodný výběr je posloupnost stochasticky nezávislých náhodných veličin se stejným rozložením. Každé rozložení závisí na nějakém parametru nebo i více parametrech. Např. alternativní rozložení závisí na parametru v, exponenciální rozložení na parametru A, normální rozložení na parametrech \i a a2 apod. Tyto parametry neznáme, známe jenom náhodný výběr. Ukážeme si, jak lze na základě znalosti náhodného výběru odhadnout neznámý parametr či jeho funkci, tzv. parametrickou funkci.
Je-li odhadem statistika, hovoříme o bodovém odhadu parametrické funkce. Existují různé typy bodových odhadů, nás budou zajímat odhady nestranné, asymptoticky nestranné a konzistentní.
Je-li odhadem interval, jehož meze jsou statistiky a který s dostatečně velkou pravděpodobností pokrývá neznámou hodnotu parametrické funkce, jedná se o interval spolehlivosti.
I
12.1. Motivace
Vycházíme z náhodného výběru X\,..., Xn z rozložení L{y), které závisí na parametru v. Množinu všech přípustných hodnot tohoto parametru označíme 5. Parametr v neznáme a chceme ho odhadnout pomocí daného náhodného výběru (případně chceme odhadnout nějakou parametrickou funkci h(u)).
Bodovým odhadem parametrické funkce h(u) budeme rozumět statistiku Tn = T(Xi,... ,Xn), která nabývá hodnot blízkých h(u), ať je hodnota parametru v jakákoliv. Existují různé metody, jak konstruovat bodové odhady (např. metoda momentů či metoda maximální věrohodnosti, ale těmi se zde zabývat nebudeme) a také různé typy bodových odhadů. Omezíme se na odhady nestranné a asymptoticky nestranné.
Intervalovým odhadem parametrické funkce h{y) rozumíme interval (D, H). jehož meze jsou statistiky D = D{XÍ)..., Xn), H = H{XÍ)..., Xn) a který s dostatečně velkou pravděpodobností pokrývá h(u), ať je hodnota parametru v jakákoliv. Zaměříme se na intervalové odhady parametrů a parametrických funkcí normálního rozložení.
124
Bodový odhad parametrické funkce by měl mít určité vhodné vlastnosti. Takovou vlastností může být pro jeden odhad nestrannost a pro posloupnost odhadu asymptotická nestrannost či konzistence. Kvalitu nestranného bodového odhadu lze posoudit pomocí rozptylu tohoto odhadu: čím menší rozptyl, tím kvalitnější odhad.
12.2.  Definice
Nechť Xi,... ,Xn je náhodný výběr z rozložení L (u), h(u) je parametrická funkce, T, Ti, T2, .. .jsou statistiky.
a)   Řekneme, že statistika T je nestranným odhadem parametrické funkce h(v), jestliže Ví? G S : E(T) = h(v).
(Význam nestrannosti spočívá v tom, že odhad T nesmí parametrickou funkci h(u) systematicky nadhodnocovat ani podhodnocovat. Není-li tato podmínka splněna, jde o vychýlený odhad.)
b)   Jsou-li Ti, T2 nestranné odhady téže parametrické funkce h(u), pak řekneme, že Ti je lepší odhad než T2, jestliže Ví? G S : D (Ti) < D(T2).
c)   Posloupnost se nazývá posloupnost asymptoticky nestranných odhadů parametrické funkce h(u), jestliže Ví? G S : lim E(Tn) = h(u).
n—>oo
(Význam asymptotické nestrannosti spočívá v tom, že s rostoucím rozsahem výběru klesá vychýlení odhadu. Je zřejmé, že z nestrannosti okamžitě vyplývá asymptotická nestrannost.)
c) Posloupnost se nazývá posloupnost konzistentních odhadů parametrické funkce h{y), jestliže Ví? G Z, Ve > 0 : lim P(\Tn - h{y)\ > e) = 0.
n—>oo
(Význam konzistence spočívá v tom, že s rostoucím rozsahem výběru klesá pravděpodobnost, že se odhad bude realizovat „daleko" od skutečné hodnoty parametrické funkce. Lze ukázat, že z asymptotické nestrannosti vyplývá konzistence, pokud posloupnost rozptylů konverguje kO.)
12.3.  Příklad
Nezávisle opakovaná měření určité konstanty ß jsou charakterizována náhodným výběrem Xi,... ,Xn z rozložení se střední hodnotou E(Xi) = (i
n
a rozptylem D(Xi) = a2, i = 1,... ,n. Uvažme statistiky M = - Y^ Xi a
r __ X\+Xri
í=l
a)   Dokažte, že M a L jsou nestranné odhady střední hodnoty ß.
b)   Zjistěte, který z těchto dvou odhadů je lepší.
Řešení:
ad a)
(Ti             \                       Ti                                            Ti
-Í2Xi)=-Y,E{Xi) = -Y,» = -W = V í=i      /             í=i                          í=i
E{L) = (^Y^j = l-E{Xi+Xn) = l-[E{Xi) +E(Xn)] =
I
125
12. Bodové a intervalové odhady parametrů a parametrických funkcí
ad b)
i=i/               í=i                            í=i
D(L) = Ľ
Al    +   A,;
^(Xi +Xn) = ^[DiXj + D(Xn)}
a2 + a2      a2
4             2
Vidíme tedy, že M je lepší odhad než L pro n > 3.
12.4. Poznámka
Ve větě 11.3, tvrzení (a), bylo uvedeno, že E(S2) = a2, tedy výběrový rozptyl S2 je nestranným odhadem rozptylu a2. (Odtud je také vidět, že ve vzorci pro výběrový rozptyl musí být konstanta -^-j-, nikoli ^, aby platilo E(S2) = a2.) Výběrová směrodatná odchylka S však není nestranným odhadem směrodatné odchylky a. Pak by totiž platilo E(S) = a, ovšem E(S2) = a2, tedy D(S) = E(S2) - [E(S)]2 = a2 - a2 = 0, což je možné jen tak, že S by byla konstanta.
Nyní budeme definovat interval spolehlivosti pro parametrickou funkci, a to jak oboustranný, tak levostranný či pravostranný. Uvedeme doporučený postup při konstrukci intervalu spolehlivosti a ukážeme si, jaký vliv na šířku intervalu spolehlivosti má riziko a rozsah výběru.
I
12.5. Definice
Nechť Xi,... ,Xn je náhodný výběr z rozložení L (v), h(u) je parametrická funkce, a G (0,1), D = D(X\,... ,Xn), H = H(X\,... ,Xn) jsou statistiky.
a)   Interval (D,H) se nazývá 100(1 — a)% (oboustranný) interval spolehlivosti pro parametrickou funkci h(u), jestliže:
W G S :   P (D < h(u) < H) > 1 - a.
b)   Interval (D, oo) se nazývá 100(1—ot)% levostranný interval spolehlivosti pro parametrickou funkci h(u), jestliže:
W G S :   P (D < h(u)) >l-a.
c)   Interval (—oo, H) se nazývá 100(1 — ot)% pravostranný interval spolehlivosti pro parametrickou funkci h(u), jestliže:
W G S :   P(h(u) <H)>l-a.
d)   Číslo a se nazývá riziko (zpravidla a = 0,05, méně často 0,1 či 0,01), číslo 1 — a se nazývá spolehlivost.
126
12.6.  Poznámka
Doporučený postup při konstrukci intervalu spolehlivosti:
a)   Vyjdeme ze statistiky V, která je nestranným bodovým odhadem parametrické funkce h{y).
b)   Najdeme tzv. pivotovou statistiku W, která vznikne transformací statistiky V, je monotónní funkcí h{y) a přitom její rozložení je známé a na h(u) nezávisí. (Při konstrukci intervalů spolehlivosti pro parametry jednoho a dvou normálních rozložení používáme jako pivotové statistiky statistiky M, K, T, F z vět 11.4 a 11.7.)
c)   Pomocí známého rozložení pivotové statistiky W najdeme kvantily wa/2, Wi_a/2, takže platí:
W E S :   P(wa/2 < W < Wi-a/2) >l-a.
d)   Nerovnost wa/2 < W < u>i-a/2 převedeme ekvivalentními úpravami na nerovnost D < h(u) < H.
e)   Statistiky D, H nahradíme jejich číselnými realizacemi d, h a získáme tak 100(1 — ot)% empirický interval spolehlivosti, o němž prohlásíme, že pokrývá h(u) s pravděpodobností aspoň 1 — a. (Tvrzení, že (d, h) pokrývá h(u) s pravděpodobností aspoň 1 — a je třeba chápat takto: jestliže mnohonásobně nezávisle získáme realizace X\,... ,xn náhodného výběru Xi,... ,Xn z rozložení L (v) a pomocí každé této realizace sestrojíme 100(1 — a)% empirický interval spolehlivosti pro h(u), pak podíl počtu těch intervalů, které pokrývají h(u) k počtu všech sestrojených intervalů bude přibližně l — a.)
12.7.  Věta
Nechť (d, h) je 100(1 — ot)% empirický interval spolehlivosti pro h(u) zkonstruovaný pomocí číselných realizací X\,... ,xn náhodného výběru Xi,... ,Xn z rozložení L{y).
a)   Při konstantním riziku klesá šířka h — d s rostoucím rozsahem náhodného výběru.
b)   Při konstantním rozsahu náhodného výběru klesá šířka h—d s rostoucím rizikem.
Nadále se budeme zabývat konstrukcí intervalů spolehlivosti pro parametry normálních rozložení. Vždy pro jednu konkrétní situaci podrobně odvodíme meze intervalu spolehlivosti a pro ostatní situace jen uvedeme přehled vzorců. Těm z vás, kteří mají hlubší zájem o statistiku, lze doporučit, abyste se pokusili uvedené vzorce odvodit a s využitím vlastností příslušných pivotových statistik, jak byly uvedeny ve větách 11.4 a 11.7.
12.8.  Příklad
Nechť X\,... ,Xn je náhodný výběr z rozložení N(ß,a2), přičemž n > 2 a parametry ß, a2 neznáme. Sestrojte 100(1 — ot)% interval spolehlivosti pro střední hodnotu ß a to
a) oboustranný.
127
m
ž
m   I
12. Bodové a intervalové odhady parametrů a parametrických funkcí
b)   levostranný,
c)   pravostranný.
Řešení:
n
h{v) = ß, V = M = \ Y,Xi, W = T = ^ ~ t(n - 1) (viz věta 11.4.
í=l                                         V"
tvrzení (e)), wa/2 = ta/2(n - 1) = -ti_a/2(n - 1), Wi_a/2 = íi-«/20 - 1) ad a) W E E :   l-a< P(-íi_a/2(n - 1) < T < ^.^(n - 1)) =
M — ß
P |  -íl-a/2(rc - 1)  <  -----š----- < *l-a/2(« ~ 1)
- 4=íi-Q/2(n - 1) < ^ < M + 4=íi-a/2(n - 1)
ad b) Vi? G S :   1 - a < P (T < h-a{n - 1)) =
M - ß
= P
S
C Í!_a(n - 1) ) == P [ M - -^h-ain -l)<ß
ad c) W e ~ :   1-a < P(ta(n - 1) < T) = P tta(n - 1) < ^-^
= P[ß<M- -=ta(n -1)) =P[ß<M + -=íi_a(n - 1)
I
Konkrétní aplikace: 10 krát nezávisle na sobě byla změřena jistá konstanta ß. Výsledky měření byly: 2; 1,8; 2,1; 2,4; 1,9; 2,1; 2; 1,8; 2,3; 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru Xi,..., Xw z rozložení N(ß,a2), kde parametry ß, a2 neznáme. Najděte 95% empirický interval spolehlivosti pro ß, a to
a)   oboustranný,
b)   levostranný,
c)   pravostranný.
Řešení:
m = 2,06, s2 = 0,0404, s = 0,2011, a = 0,05, í0,975(9) = 2,2622, ŕ0,95(9) = 1,8331.
ad a) d = m - ^íi_a/2(n - 1) = 2,06 - ^2,2622 = 1,92 h = m + ^íi-a/2(ra - 1) = 2,06 + ^2Ü2,2622 = 2,20 1,92 < ß < 2,20 s pravděpodobností aspoň 0,95.
ad b) d = m —j=ti_a(n — 1) = 2,06
0,2011
1,8331 = 1,94
1,94 < ß s pravděpodobností aspoň 0,95.
ad c) h = m+ -A=ti-a{n - 1) = 2,06
0,2011
1,8331 = 2,18
ß < 2,18 s pravděpodobností aspoň 0,95.
128
Přehled vzorců pro meze 100(1 — a)% empirických intervalů spolehlivosti pro parametry jednoho normálního rozložení. Nechť Xí}... ,Xn je náhodný výběr z rozložení N(ß,a2), přičemž n>2.
a)     Interval spolehlivosti pro ß, když a2 známe Oboustranný: (d,h) = (m - -^Ui_a/2,m + -^Ui_a/2
Levostranný: (d, oo) = (m—y^U\-a,oo\
Pravostranný: (—00, h) = ŕ— 00,m + -j^Ui_a\
b)     Interval spolehlivosti pro ß, když a2 neznáme Oboustranný: (d,h) = (m - -^ti_a/2(n - l),m + -^ti_a/2(n - 1)J
Levostranný: (d, 00) = (m—4=ri_a(n — l),oo)
Pravostranný: (—00, h) = í —00, m + -j^ti-a{n — 1) j
c)      Interval spolehlivosti pro a2, když ß neznáme Oboustranný: (d, h) = (x^-i). j^S)
Levostranný: (d, 00) = ( Jľjf^-1)' °° Pravostranný: (—00, h) = (—co.
(n-l)s2 Xl(n-1)
d)    Interval spolehlivosti pro a2, když ß známe
n                        n
Oboustranný: {d, h) =   | ^—^, %h"
Ľ (^í-m)2 Levostranný: (d, 00) == ( ^—(ňj-)00
Pravostranný: (—00, h) = I —oo.
E {xi-iiy
:=i
X2W
12.10. Příklad
Nechť Xi,..., Xra je náhodný výběr z rozložení iV(/i, 0,04). Jaký musí být minimální rozsah výběru, aby šířka 95% intervalu spolehlivosti pro ß nepřesáhla číslo 0,16?
Řešení:
Podle 12.9 (a) dostáváme:
0,16 >h-d = m+ —=Ui_a/2 - m + —=Ui_a/2 = 2—=ui_a/2 => \/n                        \/n                   \/n
4^i-«/2      4-0,04-l,962      nAM
n > ----------^— =-------------TT2-----= 24,01 => n > 25.
-      0,162                  0,162
I
129
12. Bodové a intervalové odhady parametrů a parametrických funkcí
12.11. Příklad
Jsou dány dva nezávislé náhodné výběry o rozsazích n\ > 2, n2 > 2, první pochází z rozložení N(ßi, a2), druhý z rozložení N(ß2, c2), kde parametry ßi, ß2, er2 neznáme. Sestrojte 100(1 — ot)% interval spolehlivosti pro rozdíl středních hodnot ß\ — ß2-
Řešení:
h[y) = ß, V = Mi — M2, W = 1 =--------------.            --------~ t(n\ + n2 — 2)
s*yň + ň
(viz věta 11.7, tvrzení (d)), wa/2 = ta/2(ni + n2 - 2) = -ti-a/2(ni + n2 - 2). Wi-a/2 = ti_a/2(ni + n2-2).
W G S :   1 - a < P(-íi_a/2(ni + n2 - 2) < T < íi_a/2(ni + n2 - 2)) =
= P ( -íW2(n1+n2 -2) < (Ml"M;)i"(^1i"^2)<r1-a/2(n1+n2-2)>) =
= p(m1-M2-S**   — + — íi_a/2(ni+n2-2) < ^i - M2 < V                        V "-1      "-2
< Mi - M2 + S^/— + —íi-a/2(ni +n2 - 2] n\      n2
Konkrétní aplikace: Ve dvou nádržích se zkoumal obsah chlóru (v g/l). Z první nádrže bylo odebráno 25 vzorků, z druhé nádrže 10 vzorků. Byly vypočteny realizace výběrových průměrů a rozptylů: rri\ = 34,48, m2 = 35,59, s^ = 1,7482, s2, = 1,7121. Hodnoty zjištěné z odebraných vzorků považujeme za realizace dvou nezávislých náhodných výběrů z rozložení N(ßi,a2) a N(ß2, er2). Sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot ß\ — ß2-
Řešení:
2 _   (ni-l)sf+(n2-l)s|   _  24-1,7482+9-1,7121   _ * ~               T11+T12-2                                    33
= 1,7384,  r0)975(33) = 2,035
d = mi-m2- s*W------1-----ri_«/2(^i + n2 - 2)
" ri\      U2
34,46 - 35,59 - ^1,7384^ + -^ • 2,035 = -2,114
I
/ 1        1
h = mi - m,2 + s*W------1-----íi-aM^i + n2 - 2) =
'' ni      n2
1        1
= 34,46 - 35,59 + ^1,7384*/ — + — • 2,035 = -0,106
V   ■"O        1U
-2,114g/l < ßi — ß2 < —0,106 g/l s pravděpodobností aspoň 0,95.
130
12.12. Příklad
Jsou dány dva nezávislé náhodné výběry o rozsazích 771 > 2, 772 > 2, první pochází z rozložení N(ßi,af), druhý z rozložení ÍV(/J2, c^), kde parametry ßi, ß2, o~f, o~\ neznáme. Sestrojte 100(1 — a)% interval spolehlivosti pro podíl
2
rozptylů t-.
Řešení:
fc(i/) = J     F = j,     W = F = || ~ F(m- l,n2- 1) (viz věta 11.7,
tvrzení (e)), wa/2 = Fa/2(ni - l,n2 - 1), Wi-«/2 = ^1-0/2(^1 - l,n2 - 1). W G S :   1 -a < P(Fa/2(m - 1, n2 - 1) < f1 < Fx_aj2{ni - l,n2 - 1)) =
^  I  f1a/2(«l - l,n2 -1)  < -^  < Fí_a/2{ní ~ 1,™2 ~1)
P I ^-------^---------rr < % <
sl                                             1,7482	1,7482	
Si                                            1,7121	1,7121 " 3,6142 "	= 0,28
F^/aím-1,712-1)      F0)975(24,9)		
■S'l                                          1,7482	1,7482	
#2                                           1,7121	1,7121	
^(tH-I, 772-1)          F0;025(24,9)	1	
	Fo,97b(9,24)	
1,7482		
1>7Í21 - 2,76		
f1i-a/2("-i - l,"-2 - 1)   " <j\   " Fa/2(ni - l,n2-1)
Konkrétní aplikace: V předešlém příkladě nyní předpokládáme, že dané dva náhodné výběry pocházejí z rozložení N(ßi,af) a iV(//2,er|). Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů.
Řešení:
d =
h =
2,7027
2
0,28 < t- < 2,76 s pravděpodobností aspoň 0,95.
12.13. Věta
Přehled vzorců pro meze 100(1 — a)% empirických intervalů spolehlivosti pro parametry dvou normálních rozložení. Nechť Xn,... ,Xrail je náhodný výběr z rozložení N(ß\,af) a Xi2,... ,Xn22 je na něm nezávislý náhodný výběr rozložení iV(//2,er|), přičemž n\ > 2 a 772 > 2.
a)     Interval spolehlivosti pro ß\ — ß2, když a\, a\ známe Oboustranný:
(d, h) = [nu -m2-^i+ ^u1_a/2,m1 - m2 - \J^ + 3«i-«/2 Levostranný: (d, 00) = lm1-m2- yj^ + ^«i-«, 00 J
12. Bodové a intervalové odhady parametrů a parametrických funkcí
Pravostranný: (-00, h) = í -00, m1 - m2 - \J^ + ^«i-« J
b)     Interval spolehlivosti pro ß\— ß2, kdyžaf, a\ neznáme, ale víme, že jsou shodné
Oboustranný: \ml - m2 - s*J^ + Mi_a/2(ni + n2 - 2).
m1-m2 + s*a/^- + Mi-a/2(ni + n2 - 2)J
Levostranný: (d, 00) = í mi - m2 - s*a/^ + ^i-«/2(^i + n2 - 2), 00J Pravostranný:
(-00, h) = (-00, mi - m2 + s*y ^- + ^íi-a/2(wi + n2 - 2)J
c)      Interval spolehlivosti pro společný neznámý rozptyl a2 Oboustranný: (d, h) = í-ímámz^ň-------K+»2-2)^
Levostranný: (d, 00) = (^g^g^,oo) Pravostranný: (—00, h) = (—co,
^l-c«/2(ral+ra2-2)' x2a/2(ni+n2-2)
(ni+ri2-2)s1 xl(n1+n2-2)
I
d)    Interval spolehlivosti pro podíl rozptylů -^ Oboustranný: (d, h) =
I
F1-a/2(n1-l,n2-l) ' Fa/2(n1-l,n2-l)
I
Fi_a(rai-l,ra2-l);
oc
Levostranný: (d, 00) = Pravostranný: {-00, h) =
12.14. Poznámka
Není-li v bodě (b) věty 12.13 splněn předpoklad o shodě rozptylů, lze sestrojit aspoň přibližný 100(1 — a)% interval spolehlivosti pro ß\ — ß2. V tomto případě má statistika T přibližně rozložení t(u), kde počet stupňů volnosti
v =
sV2
ni        n2
ni—1             n2—1
I
Není-li v celé číslo, použijeme v tabulkách kvantilů Studentova rozložení lineární interpolaci.
Předpoklad o shodě rozptylů lze ověřit tak, že sestrojíme 100(1 — ot)% interval
2
spolehlivosti pro ^\. Pokud tento interval bude obsahovat 1, lze s pravděpo-
a2
dobností 1 — a považovat rozptyly za shodné.
132
12.15. Věta
Nechť     y  ),...,(    ™ ] je náhodný výběr z rozložení
N.
WW12    o\
ßl\      {  0{      (712
přičemž n > 2. Označíme ß = ß\ — ß2 a zavedeme rozdílový náhodný výběr Z1 = X1-Y1,...,Zn = Xn- Yn. Nechť
1      n                                    _.         n
M=-]>>,      52 = ^-J](^-M)2.
n *-^                        n — 1 -^—'
í=i
í=i
Pak statistika T = ^ ~ t(n - 1), tudíž meze 100(1 — a)% intervalu spo-lehlivosti pro ß jsou M ± -4=ri_a/2(n — !)•
12.16. Příklad
Bylo vybráno šest nových automobilů téže značky a po určité době bylo zjištěno, o kolik mm se sjely jejich pravé a levé přední pneumatiky.
číslo automobilu	1	2	3	4	5	6
pravá pneumatika se sjela 0:	1,8	1,0	2,2	0,9	1,5	1,6
levá pneumatika se sjela 0:	1,5	1,1	2,0	1,1	1,4	1,4
Za předpokladu, že naměřené dvojice hodnot představují číselné realizace náhodného výběru rozsahu 6 z dvourozměrného normálního rozložení
N-
ßl\        (T{      0"12
21VJ' U12  °l " ;
sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot
ßl - ß2-
Řešení:
*i = 0,3, z2 = -0,1, z3 = 0,2, z4 = -0,2, z5 = 0,1, z6 = 0,2, m = 0,0833, s = 0,1941, o; = 0,05.
s                                             0,1941
d = m------=ti-a/2(n - 1) = 0,0833-----L^^r0,975(5) =
\Jn                                              V6
0 1941 = 0,0833 -    '  ^   2,5706 = -0,12
s                                             0,1941
h = m + -^ti_a/2(n - 1) = 0,0833 +             ^0,975 (5) =
\Jn                                              V6
0,1941 = 0,0833 +   '  ^   2,5706 = 0,29.
-0,12 mm < ßi — ß2 < 0,29mm s pravděpodobností aspoň 0,95.
I
133
12. Bodové a intervalové odhady parametrů a parametrických funkcí
Shrnutí kapitoly
Na základě znalosti náhodného výběru aproximujeme neznámou hodnotu parametru či parametrické funkce bodovým odhadem parametrické funkce. Zpravidla požadujeme, aby tento odhad měl jisté žádoucí vlastnosti. K těm patří nestrannost, resp. asymptotická nestrannost či konzistence, pokud pracujeme s posloupností bodových odhadů téže parametrické funkce.
Bodové odhady však mají jednu značnou nevýhodu - nevíme, s jakou pravděpodobností odhadují hodnotu neznámé parametrické funkce. Tuto nevýhodu odtraňují intervalové odhady parametrické funkce: jsou to intervaly, jejichž meze jsou statistiky a které s předem danou dostatečně velkou pravděpodobností pokrývají hodnotu neznámé parametrické funkce. Pokud do vzorců pro meze 100(1 — ot)% intervalu spolehlivosti pro danou parametrickou funkci dosadíme číselné realizace náhodného výběru, dostaneme 100(1 — a)% empirický interval spolehlivosti.
V praxi se nejčastěji používají intervaly spolehlivosti pro parametry normálních rozložení. Proto jsme si uvedly předhled vzorců pro meze 100(1 — a)% empirických intervalů spolehlivosti pro parametry jednoho a dvou normálních rozložení.
I
Kontrolní otázky a úkoly
1   Definujte nestranný odhad a asymptoticky nestranný odhad parametrické funkce. V čem spočívá význam nestrannosti a asymptotické nestrannosti?
2   (S) Přírůstky cen akcií na burze v New Yorku u 10 náhodně vybraných společností dosáhly těchto hodnot: 10, 16, 5, 10, 12, 8, 4, 6, 5, 4. Najděte nestranné bodové odhady střední hodnoty a rozptylu přírůstků cen akcií.
3  Nechť Xi,..., Xn je náhodný výběr z rozložení Rs(0, b), kde b > 0 je neznámý parametr. Jsou definovány statistiky 7\ = Xi + \X2 + |X3 + |X4 a T2 = \{X\ + X2 + X3 + X4). Ukažte, že 7\, T2 jsou nestranné odhady parametru b a určete, který odhad je lepší.
4  Definujte 100(1 — a)% interval spolehlivosti pro parametrickou funkci, a to jak oboustranný, tak jednostranné intervaly spolehlivosti.
5   Jaký vliv na šířku intervalu spolehlivosti má zvýšení rizika při konstantním rozsahu výběru?
6   Jaký vliv na šířku intervalu spolehlivosti má zvětšení rozsahu výběru při konstantním riziku?
7   Hloubka moře se měří přístrojem, jehož systematická chyba je nulová a náhodné chyby měření mají normální rozložení se směrodatnou odchylkou a = lva. Kolik měření je nutno provést, aby se hloubka moře stanovila s chybou nejvýše ±0,25 m při riziku 0,05?
8   U jistého měřícího zařízení má být posouzena jeho přesnost. Proto na něm byla nezávisle změřena délka téhož výrobku. Výsledky měření v cm
134
byly: 15,15; 15,20; 15,04; 15,14; 15,22. Předpokládáme, že tyto výsledky jsou číselné realizace náhodného výběru rozsahu 5 z rozložení N(/j,, a2). Sestrojte 95% empirický interval spolehlivosti pro rozptyl a2.
9 Sponzor televizních pořadů pro děti chce vědět, kolik času stráví děti sledováním televize, protože na těchto informacích závisí typy a počty programů. Náhodným výběrem 100 dětí se zjistilo, že sledování televize věnují týdně průměrně 27,5 h se směrodatnou odchylkou 8 h. Za předpokladu, že počet hodin strávený za týden sledováním televize se řídí normálním rozložením, sestrojte 95% empirický interval spolehlivosti pro střední hodnotu počtu hodin strávených týdně sledováním televize.
10   (S) Na jisté velké americké univerzitě bylo v r. 1969 náhodně vybráno 5 profesorů a nezávisle na tom 5 profesorek a byl zjištěn jejich roční příjem (v tisících dolarů). Muži: 16, 19, 12, 11, 22, ženy: 9, 12, 8, 10, 16. Předpokládáme, že uvedené údaje tvoří realizace dvou nezávislých náhodných výběrů z rozložení N(ßi,a2) a iV(//2,er|).
a)   Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů příjmů mužů a žen.
b)   Pokud bude uvedený interval spolehlivosti obsahovat 1, sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot příjmů mužů a žen. V opačném případě sestrojte aspoň přibližný interval spolehlivosti.
11   (S) Pět mužů se rozhodlo, že budou hubnout. Zjistili svou hmotnost před zahájením diety a po ukončení diety.
Číslo osoby	1	2	3	4	5
Hmotnost před dietou	84	77,5	91,5	84,5	97,5
Hmotnost po dietě	78,5	73,5	88,5	80	97
Za předpokladu, že uvedené údaje jsou číselné realizace náhodného výběru rozsahu 5 z dvourozměrného normálního rozložení
sestrojte 95% empirický interval spolehlivosti pro středních hodnotu úbytku hmotnosti.
135
12. Bodové a intervalové odhady parametrů a parametrických funkcí
I
136
13
Úvod do testování hypotéz a testy o parametrech normálního rozložení
I
13. Úvod do testování hypotéz a testy o parametrech normálního rozložení
Cíl kapitola
Po prostudování této kapitoly budete umět:
■   formulovat nulovou a alternativní hypotézu
■   stanovit testové kritérium a kritický obor pro test nulové hypotézy proti oboustranné alternativě i proti jednostranným alternativám
■   posoudit sílu testu pomocí grafu silofunkce
■   provádět testy hypotéz o parametrech normálního rozložení třemi různými způsoby
Časová zátěž
Pro zvládnutí této kapitoly budete potřebovat asi 8 hodin studia.
V této kapitole se budeme zabývat problémem, jak pomocí statistiky vzniklé transformací daného náhodného výběru rozhodnout, zda naše domněnka o parametru rozložení, z něhož náhodný výběr pochází, je správná. Například známe průměrnou hmotnost automaticky balených potravinářských výrobků určitého druhu zjištěnou před a po seřízení balícího automatu. S pravděpodobností 95% máme prokázat, že střední hodnota hmotnosti balíčků se seřízením automatu změnila. Statistické postupy, které řeší podobné problémy, se nazývají testy hypotéz.
Nejprve objasníme pojmy nulová hypotéza a alternativní hypotéza a vysvětlíme, kdy dojde k chybě 1. druhu či 2. druhu.
13.1. Motivace
Testování hypotéz patří k nejdůležitějším metodám matematické statistiky. Na základě znalosti náhodného výběru umožní s předem danou pravděpodobností ověřovat domněnky o parametrech rozložení, z něhož daný náhodný výběr pochází.
13.2. Definice
Nechť X\,... ,Xn je náhodný výběr z rozložení L{y), kde parametr í) G 5 neznáme. Nechť h{y) je parametrická funkce a c daná reálná konstanta. Tvrzení H0 : h(u) = c se nazývá nulová hypotéza, tvrzení Hi : h(u) ^ c se nazývá oboustranná alternativní hypotéza, tvrzení Hi : h(u) < c se nazývá levostranná alternativní hypotéza, tvrzení Hi : h(u) > c se nazývá pravostranná alternativní hypotéza. Testováním H0 proti H\ rozumíme rozhodovací postup založený na náhodném výběru X\,... ,Xn, s jehož pomocí zamítneme či nezamítneme platnost nulové hypotézy.
I
13.3. Poznámka
Volba alternativní hypotézy není libovolná, ale vyplývá z konkrétní situace. Např. při současné technologii je pravděpodobnost vyrobení zmetku v = 0,01.
a) Po rekonstrukci výrobní linky byla obnovena výroba, přičemž technologie zůstala stejná. Chceme ověřit, zda se změnila kvalita výrobků. Testujeme H0 : v = 0,01 proti H\ : v ^ 0,01.
138
b)   Byly provedeny změny v technologii výroby s cílem zvýšit kvalitu.
V  tomto případě tedy testujeme H0 : v = 0,01 proti H\ : v < 0,01.
c)   Byly provedeny změny v technologii výroby s cílem snížit náklady.
V  této situaci testujeme H0 : v = 0,01 proti H\ : v > 0,01.
13.4. Definice
Při testování H0 proti H\ se můžeme dopustit jedné ze dvou chyb: chyba
1.  druhu spočívá v tom, že H0 zamítneme, ač ve skutečnosti platí a chyba
2.  druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí. Situaci přehledně znázorňuje tabulka:
skutečnost	rozhodnutí	
	H q nezamítáme	Hq zamítáme
H0 platí	správné rozhodnutí	chyba 1. druhu
Hq neplatí	chyba 2. druhu	správné rozhodnutí
Pravděpodobnost chyby 1. druhu se značí a a nazývá se hladina významnosti (většinou bývá a = 0,05, méně často 0,1 či 0,01). Pravděpodobnost chyby 2. druhu se značí ß. Číslo 1 — ß se nazývá síla testu a vyjadřuje pravděpodobnost, s jakou test vypoví, že Hq neplatí. Při daném rozsahu výběru vede snižování a ke růstu ß a obráceně.
Nyní si ukážeme tři způsoby, jimiž lze provést test nulové hypotézy proti alternativní hypotéze. Klasický způsob spočívá v nalezení kritického oboru. Testování pomocí intervalu spolehlivosti navazuje na poznatky získané ve 12. kapitole. Moderní způsob založenýý nap-hodnotě je vhodný především tehdy, máme-li k dispozici statistický software. Všechny tři způsoby použijeme při řešení konkrétnho příkladu.
13.5. Poznámka
Testování Hq proti H\ na hladině významnosti a je možno provádět třemi různými způsoby:
a)   pomocí kritického oboru
b)   pomocí intervalu spolehlivosti
c)   pomocí p-hodnoty.
ad a) Najdeme statistiku T0 = T0(Xi,... ,Xn), kterou nazveme testovým kritériem. Množina hodnot, jichž může testové kritérium nabýt, se rozpadá na dva neslučitelné obory: obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). Tyto dva obory jsou odděleny krytickými hodnotami (pro danou hladinu významnosti a je lze najít ve statistických tabulkách).
Jestliže číselná realizace ío testového krytéria T0 padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti a a znamená to skutečné vyvrácení testované hypotézy. Jestliže t0 padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští.
13. Úvod do testování hypotéz a testy o parametrech normálního rozložení
Pravděpodobnosti chyb 1. a 2. druhu nyní zapíšeme takto:
P(t0 E W\H0 platí) = a,        P(t0 G V\Hľ platí) = ß.
Stanovení kritického oboru pro danou hladinu významnosti a: Označme tm[n (resp. ímax) nejmenší (resp. největší) hodnotu testového kritéria. Kritický obor v případě oboustranné alternativy má tvar
W = (ímin, Ka/2(T)) U (Xi_«/2(T),ŕmax);
kde Ka/2(T) a Ki_a/2{T) jsou kvantily rozložení, jímž se řídí testové kritérium T0, je-li testová hypotéza pravdivá. Kritický obor v případě levostranné alternativy má tvar:
W=(tmin,Ka/2(T)}: v případě pravdostranné alternativy má kritický obor tvar
W={K1_a/2(T),tmSíX).
I
ad b) Sestrojíme 100(1 — a)% empirický interval spolehlivosti pro parametrickou funkci h{y). Pokryje-li tento interval hodnotu c, pak Ho nezamítáme na hladině významnosti a, v opačném případě H0 zamítáme na hladině významnosti a.
Pro test H0 proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti. Pro test H0 proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti. Pro test H0 proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti.
ad c) p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy. Je-li p-hodnota < a, pak H0 zamítáme na hladině významnosti a, je-li p-hodnota > a, pak H0 nezamítáme na hladině významnosti a.
Způsob výpočtu p-hodnoty:
Pro oboustrannou alternativu: p = 2min{P(T0 < to),P(T0 > t0)}- Pro levostrannou alternativu: p = P(T0 < to), pro pravostrannou alternativu: P = P(To>to).
p-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace náhodného výběru X\,... ,Xn podporují H0, je-li pravdivá. Statistické programové systémy poskytují ve svých výstupech p-hodnotu. Její výpočet vyžaduje znalost distribuční funkce rozložení, kterým se řídí testové kritérium T0, je-li Ho pravdivá.
Vzhledem k tomu, že v běžných statistických tabulkách jsou uvedeny pouze hodnoty distribuční funkce standardizovaného normálního rozložení, bez použití speciálního software jsme schopni vypočítat p-hodnotu pouze pro test hypotézy o střední hodnotě normálního rozložení při známém rozptylu.
140
Ilustrace významu p-hodnoty pro test nulové hypotéza proti oboustranné, levostranné a pravostranné alternativě:
- p-hodnota -
p-hodnota
p-hodnota
(Zvonovitá křivka reprezentuje hustotu rozložení, kterým se řídí testové kritérium, je-li nulová hypotéza pravdivá.)
13.6.  Poznámka
Provádíme-li test nulové hypotézy proti alternativní hypotéze pomocí kritického oboru, doporučuje se dodržet následující postup:
1.   Stanovíme nulovou hypotézu a alternativní hypotézu. Přitom je vhodné zvolit jako alternativní hypotézu ten předpoklad, jehož přijetí znamená závažné opatření a mělo by k němu dojít jen s malým rizikem omylu.
2.   Zvolíme hladinu významnosti a. Zpravidla volíme a = 0,05, méně často 0,1 nebo 0,01.
3.   Najdeme vhodné testové kritérium a na základě zjištěných dat vypočítáme jeho realizaci.
4.   Stanovíme kritický obor.
5.   Jestliže realizace testového kritéria padla do kritického oboru, nulovou hypotézu zamítáme na hladině významnosti a. V opačném případě nulovou hypotézu nezamítáme na hladině významnosti a.
13.7.  Příklad
10 x nezávisle na sobě byla změřena jistá konstanta n. Výsledky měření byly: 2; 1,8; 2,1; 2,4; 1,9; 2,1; 2; 1,8; 2,3; 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X\,..., Xw z rozložení N(ß, 0,04). Nějaká teorie tvrdí, že ß = 1,95. Proti nulové hypotéze H0 : ß = 1,95 postavíme oboustrannou alternativu Hi : ß ^ 1,95. Na hladině významnosti 0,05 testujte H0 proti Hi.
Řešení:
m = ^(2 + • • • + 2,2) = 2,06, a2 = 0,04, n=10,a = 0,05, c = 1,95
a)    Test provedeme pomocí kritického oboru.
Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu používáme pivotovou statistiku U = -^^ ~ ÍV(0,1) (viz věta 11.4 (a)). Testové
kritérium tedy bude T0 = -^f^ a bude mít rozložení N(0,1), pokud je H0
pravdivá. Vypočítáme realizaci testového kritéria: ío = 2'060~1'95 = 1,74. Stavbo novíme kritický obor:
W    =    (tmia,Ka/2(T)) U (Xl-a/2(T),ŕmax) = (-oo,tía/2) U (tíi_a/2,oo) =
=      (-00, -tti_«/2) U (ttl-a/2, OO) =  (-00, -tto,975) U (tt0,975, Oo) =
=   (-00, -1,96) U (1,96, 00)
I
141
13. Úvod do testování hypotéz a testy o parametrech normálního rozložení
Protože 1,74 ^ W, Hq nezamítáme na hladině významnosti 0,05.
b)    Test provedeme pomocí intervalu spolehlivosti.
Meze 100(1 — ot)% intervalu spolehlivosti pro střední hodnotu ß při známém
rozptylu a2 jsou (viz věta 12.9 (a)): (d, h) = [m- -j^Ui_a/2,m + -^Ui_a/2)■
V našem případě d = 2,06
0,2
^0,975
2,06
0,2
1,96= 1,936, h= 2,184.
Protože 1,95 G (1,936; 2,184), H0 nezamítáme na hladině významnosti 0,05.
c) Test provedeme pomocí p-hodnoty.
Protože proti nulové hypotéze stavíme oboustrannou alternativu, použijeme
vzorec
p = 2min{P(T0 < tQ),P(TQ > í0)} = 2min{P(T0 < 1,74), P(T0 > 1,74)} =
= 2 min{$(l,74), 1 - $(1,74)} = 2 min{0,95907,1 - 0,95907} = 0,08186
Jelikož 0,08186 > 0,05, Hq nezamítáme na hladině významnosti 0,05.
Nadále se budeme zabývat tastováním hypotéz o parametrech normálního rozložení. Ukážeme si různé typy testů a naučíme se je provádět pomocí kritického oboru.
13.8. Definice
a)   Nechť X\,... ,Xn je náhodný výběr N(ß,a2), kde a2 známe. Nechť n > 2 a c je konstanta. Test H0 : ß = c proti Hi : ß ^ c se nazývá z-test.
b)   Nechť Xi,..., Xn je náhodný výběr N(ß, a2), kde a2 neznáme. Nechť n > 2 a c je konstanta. Test H0 : ß = c proti H\ : ß ^ c se nazývá jednovýběrový t-test.
c)   Nechť Xn,..., Xnií je náhodný výběr z rozložení N(ß\, a2) a Xí2,.... Xn22 je na něm nezávislý náhodný výběr rozložení N(ß2,a2), přičemž ni > 2 a n2 > 2 a a2 neznáme. Nechť c je konstanta. Test H0 : ß\—ß2 = c proti Hi : ßi — ß2 ^ c se nazývá dvouvýběrový t-test.
d) Nechť

Xr Y
je náhodný výběr z rozložení
I
N2
ß2
A
(TU
0"12      ď2
přičemž n > 2 a, žádný parametr neznáme. Nechť c je konstanta. Test H0 : ßi — ß2 = c proti iíi : ß\ — ß2 ^ c se nazývá párový t-test.
e)   Nechť Xn,..., Xraii je náhodný výběr z rozložení N(ß\, a2) a Xi2,..., X„22 je na něm nezávislý náhodný výběr rozložení N(ß2,a2), přičemž
2                                                      2
řii > 2 a i!2 > 2. Test ií0 : -^ = 1 proti Zři : ^ 7^ 1 se nazývá F-test.
f)   Nechť X1;... ,Xra je náhodný výběr N(ß,a2), kde // neznáme. Nechť n > 2 a c je konstanta. Test iío : o2 = c proti íři : a2 ^ c se nazývá teší o rozptylu.
142
13.9. Věta
Návody na provedení výše popsaných šesti typů testů pomocí kritického oboru.
a) Provedení z-testu
Hypotézu Ho : ß = c proti Hi : ß ^ c (resp. Hi : ß < c resp. Hi : ß > c)
zamítáme na hladině významnosti cü, jestliže
\/ň
< tíi_„ resp.
y/ň
> Ul-a)-
y/n,
> u
l-a/2
(resp.
b) Provedení jednovýbérového ŕ-testu
Hypotézu Ho : ß = c proti iíi : ß / c (resp. Hi : ß < c resp. Hi : ß > c)
> ti-a/2(n - 1)
zamítáme na hladině významnosti cü, jestliže
>íl-a(n-l)).
(resp. 22V£ < ti_a(n — 1) resp.
c) Provedení dvouvýbérového ŕ-testu
Hypotézu H0 : ßi~ß2 = c proti íŕi '■ ßi~ß2 / c (resp. Hi : ßi—ß2 < c resp. Hi : ßi — ß2 > c) zamítáme na hladině významnosti cü, jestliže
mi — TO2 — c
i
i
> ŕi_«/2(ni + 772 - 2) (resp. ^ffiq= < ^.„(m+ 712-2) resp.  m^~l > t1-a{n1 + n2-2)).
*V "1      "2
Provedení párového í-t Od náhodného výběru
»1        "9
Xr
z dvourozměrného normální-
d)   Provedení párového í-testu
'x:
Yij>y>\Yn ^
ho rozložení přejdeme k rozdílovému náhodnému výběru Z\ = Xi — Fi,... , Zn = Xn — Yn. Označíme /j = /Ji — /i2- Pak jde o test hypotézy H0 : ß = c proti H\ : ß / c & úloha je pře vedná na jednováběrový í-test.
e)   Provedení F-testu
2                                                                         2                                                                           2
Hypotézu   Ho :  ^ = 1   proti   íŕi :  ^ + 1   (resp.   íŕi :  ^ < 1 resp.
<j2                                                          <j2                                                            <j2
2
Hi : íj > 1) zamítáme na hladině významnosti cü, jestliže
I < Fa/2(m + n2 - 2)
nebo
>
^1-0/2(^1 +772 - 2)
(resp. 4 < Fa(rii + n2 - 2) resp. 4 > Fi_„(77i + n2 - 2)).
f) Provedení testu o rozptylu
Hypotézu H0 :   a2 = c proti íŕi :   a2 / c (resp. íŕi :   <r2 < c resp. iíi : a2 > c) zamítáme na hladině významnosti a, jestliže
(77- l)s:
<
xl/2Ín- 1)
nebo
(77- l)ss
>
XÍ-a/2(n- 1)
(resp.
(n-l)s2
<xl(n-l) resp.
(ra-l)s2
>X?-a(«-l))-
13. Úvod do testování hypotéz a testy o parametrech normálního rozložení
I
13.10. Příklad
Je-li u automatického obráběcího stroje rozptyl délky obráběných součístek větší než 380 ßm2, je třeba stroj znova nastavit. Náhodně jsme vybrali 15 součástek a změřili jejich délku. Výběrový rozptyl zjištěných 15-ti délek činil 680 ßm2. Za předpokladu, že délky se řídí normálním rozložením testujte na hladině významnosti 0,05 hypotézu, že stroj je třeba znova nastavit.
Řešení:
Xi,... ,X15 je náhodný výběr z rozložení N(ß,a2), přičemž s2 = 680ßm2. Testujeme H0 : a2 = 380 ßm2 proti pravostranné alternativě, která má tvar H\ : a2 > 380 ßm2, na hladině významnosti 0,05.
Podle bodu (f) věty 13.9 dostáváme: realizace testového kritéria
(n-l)s2      14-680
380
= 25,05.
Přitom xí-a(n ~ 1) = Xo,95(14) = 23,685. Protože 25,05 > 23,685, H0 zamítáme na hladině významnosti 0,05. Zjištěná data nás tedy opravňují k tomu, abycho stroj znovu seřídili (s rizikem 5%, že budeme provádět zbytečnou práci).
Shrnutí kapitoly
Tvrzení o parametrech rozložení, z něhož pochází daný náhodný výběr, nazýváme nulovou hypotézou. Proti nulové hypotéze stavíme alternativní hypotézu, která říká, co platí, když neplatí nulová hypotéza. Při testování nulové hypotézy proti alternativní hypotéze se můžeme dopustit buď chyby
1.  druhu (nulovou hypotézu zamítneme, ač ve skutečnosti platí) nebo chyby
2.  druhu (nulovou hypotézu nezamítneme, ač ve skutečnosti neplatí). Pravděpodobnost chyby 1. druhu se značí a a nazývá se hladina významnosti testu.
Klasický přístup k testování hypotéz spočívá v nalezení vhodného testového kritéria. Množina hodnot, jichž může testové kritérium nabýt, se rozpadá na obor nezamítnutí nulové hypotézy a na kritický obor. Tyto dva neslučitelné obory jsou odděleny kritickými hodnotami. Pokud se testové kritérium realizuje v kritickém oboru, nulovou hypotézu zamítáme na hladině významnosti a a přijímáme alternativní hypotézu. V opačném případě nulovou hypotézu nezamítáme na hladině významnosti a. Tím jsme ovšem neprokázali její pravdivost, můžeme pouze říci, že naše data nejsou natolik průkazná, abychom mohli nulovou hypotézu zamítnout.
Test nulové hypotézy proti alternativní hypotéze lze též provést pomocí intervalu spolehlivosti a s využitím metod popsaných ve 12. kapitole.
Máme-li k dispozici statistický software, můžeme vypočítat p-hodnotu jako nejmenší možnou hladinu významnosti pro zamítnutí nulové hypotézy.
V praxi se nejčastěji setkáváme s testy hypotéz o parametrech normálního rozložení. K těmto testům patří například z-test, jednovýběrový, párový či dvouvýběrový r-test apod.
144
Kontrolní otázky a úkoly
1   Vysvětlete pojem „nulová hypotéza" a „alternativní hypotéza".
2  V čem spočívá testování nulové hypotézy proti alternativní hypotéze?
3   Kdy se dopustíme chyby 1. druhu (2. druhu)?
4   Co rozumíme testovým kritériem a kritickým oborem?
5   Popište tři způsoby testování hypotéz.
6   Jaké znáte testy o parametrech normálního rozložení?
7   Podle údajů na obalu čokolády by její čistá hmotnost měla být 125 g. Výrobce dostal několik stížností od kupujících, ve kterých tvrdili, že hmotnost čokolád je nižší než deklarovaných 125 g. Z tohoto důvodu oddělení kontroly náhodně vybralo 50 čokolád a zjistilo, že jejich průměrná hmotnost je 122 g a směrodatná odchylka 8,6 g. Za předpokladu, že hmotnost čokolád se řídí normálním rozložením, můžeme na hladině významnosti 0,01 považovat stížnosti kupujících za oprávněné?
8   (S) V restauraci „U bílého koníčka" měřili ve 20 případech čas obsluhy zákazníka. Výsledky v minutách: 6, 8, 11, 4, 7, 6, 10, 6, 9, 8, 5, 12, 13, 10, 9, 8, 7, 11, 10, 5. V restauraci „Zlatý lev" bylo dané pozorování uskutečněno v 15 případech s těmito výsledky: 9, 11, 10, 7, 6, 4, 8, 13, 5, 15, 8, 5, 6, 8, 7. Na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty doby obsluhy jsou v obou restauracích stejné.
9   (S) Na 10 automobilech stejného typu se testovaly dva druhy benzínu lišící se oktanovým číslem. U každého automobilu se při průměrné rychlosti 90 km/h měřil dojezd (tj. dráha, kterou ujede na dané množství benzínu) při použití každého z obou druhů benzínu. Výsledky:
CcLUTicL	1	2	3	4	5	6	7	8	9	10
benzín A	17,5	20,0	18,9	17,9	16,4	18,9	17,2	17,5	18,5	18,2
benzín B	17,8	20,8	19,5	18,3	16,6	19,5	17,5	17,9	19,1	18,6
Za předpokladu, že dojezd se řídí normálním rozložením, testujte na hladině významnosti 0,05 hypotézu, že rozdíl středních hodnot dojezdu při dvou druzích benzínu se neliší.
10  Pevnost vlákna bavlněné příze lze pokládat za náhodnou veličinu s rozložením N(ß,a2). Je-li a2 > 0,36kg2, vznikají potíže při tkaní. Při zkoušce 11 náhodně vybraných vláken byly zjištěny hodnoty jejich pevnosti a vypočten empirický rozptyl s2 = 0,92 kg2. Na hladině významnosti 0,05 je třeba zjistit, zda je příze vyhovující.
11   Normálně rozložená náhodné veličiny představují výsledek měření téže konstanty dvěma různými metodami a jejich neznámé směrodatné odchylky <Ti, (72 charakterizují nespolehlivost těchto metod způsobenou náhodnými chybami. Při realizaci dvou nezávislých náhodných výběrů rozsahu ri\ = 25, ^2 = 31 jsme získali empirické směrodatné odchylky s\ = 0,523, S2 = 0,363. Je možno na hladině významnosti 0,05 považovat obě metody za stejně spolehlivé?
13. Úvod do testování hypotéz a testy o parametrech normálního rozložení
I
146
Príloha A - Statistické tabulky
Příloha A - Statistické tabulky
Distribuční funkce standardizovaného normálního rozložení
u	$(w)		u		$(w)		u		$(w)		u		$(w)	
0,00	0,50000		0,50		0,69146		1,00		0,84134		1,50		0,93319	
0,01	0	50399	0	51	0	69497	1	01	0	84375	1	51	0	93448
0,02	0	50798	0	52	0	69847	1	02	0	84614	1	52	0	93574
0,03	0	51197	0	53	0	70194	1	03	0	84850	1	53	0	93699
0,04	0	51595	0	54	0	70540	1	04	0	85083	1	54	0	93822
0,05	0	51994	0	55	0	70884	1	05	0	85314	1	55	0	93943
0,06	0	52392	0	56	0	71226	1	06	0	85543	1	56	0	94062
0,07	0	52790	0	57	0	71566	1	07	0	85769	1	57	0	94179
0,08	0	53188	0	58	0	71904	1	08	0	85993	1	58	0	94295
0,09	0	53586	0	59	0	72240	1	09	0	86214	1	59	0	94408
0,10	0	53983	0	60	0	72575	1	10	0	86433	1	60	0	94520
0,11	0	54380	0	61	0	72907	1	11	0	86650	1	61	0	94630
0,12	0	54776	0	62	0	73237	1	12	0	86864	1	62	0	94738
0,13	0	55172	0	63	0	73565	1	13	0	87076	1	63	0	94845
0,14	0	55567	0	64	0	73891	1	14	0	87286	1	64	0	94950
0,15	0	55962	0	65	0	74215	1	15	0	87493	1	65	0	95053
0,16	0	56356	0	66	0	74537	1	16	0	87698	1	66	0	95154
0,17	0	56749	0	67	0	74857	1	17	0	87900	1	67	0	95254
0,18	0	57142	0	68	0	75175	1	18	0	88100	1	68	0	95352
0,19	0	57535	0	69	0	75490	1	19	0	88298	1	69	0	95449
0,20	0	57926	0	70	0	75804	1	20	0	88493	1	70	0	95543
0,21	0	58317	0	71	0	76115	1	21	0	88686	1	71	0	95637
0,22	0	58706	0	72	0	76424	1	22	0	88877	1	72	0	95728
0,23	0	59095	0	73	0	76730	1	23	0	89065	1	73	0	95818
0,24	0	59483	0	74	0	77035	1	24	0	89251	1	74	0	95907
0,25	0	59871	0	75	0	77337	1	25	0	89435	1	75	0	95994
0,26	0	60257	0	76	0	77637	1	26	0	89617	1	76	0	96080
0,27	0	60642	0	77	0	77935	1	27	0	89796	1	77	0	96164
0,28	0	61026	0	78	0	78230	1	28	0	89973	1	78	0	96246
0,29	0	61409	0	79	0	78524	1	29	0	90147	1	79	0	96327
0,30	0	61791	0	80	0	78814	1	30	0	90320	1	80	0	96407
0,31	0	62172	0	81	0	79103	1	31	0	90490	1	81	0	96485
0,32	0	62552	0	82	0	79389	1	32	0	90658	1	82	0	96562
0,33	0	62930	0	83	0	79673	1	33	0	90824	1	83	0	96638
0,34	0	63307	0	84	0	79955	1	34	0	90988	1	84	0	96712
0,35	0	63683	0	85	0	80234	1	35	0	91149	1	85	0	96784
0,36	0	64058	0	86	0	80511	1	36	0	91309	1	86	0	96856
0,37	0	64431	0	87	0	80785	1	37	0	91466	1	87	0	96926
0,38	0	64803	0	88	0	81057	1	38	0	91621	1	88	0	96995
0,39	0	65173	0	89	0	81327	1	39	0	91774	1	89	0	97062
0,40	0	65542	0	90	0	81594	1	40	0	91924	1	90	0	97128
0,41	0	65910	0	91	0	81859	1	41	0	92073	1	91	0	97193
0,42	0	66276	0	92	0	82121	1	42	0	92220	1	92	0	97257
0,43	0	66640	0	93	0	82381	1	43	0	92364	1	93	0	97320
0,44	0	67003	0	94	0	82639	1	44	0	92507	1	94	0	97381
0,45	0	67364	0	95	0	82894	1	45	0	92647	1	95	0	97441
0,46	0	67724	0	96	0	83147	1	46	0	92785	1	96	0	97500
0,47	0	68082	0	97	0	83398	1	47	0	92922	1	97	0	97558
0,48	0	68439	0	98	0	83646	1	48	0	93056	1	98	0	97615
0,49	0	68793	0	99	0	83891	1	49	0	93189	1	99	0	97670
$(-«) = 1 - $(u)
148
Distribuční funkce standardizovaného normálního rozložení
u		$(w)		u		$(w)		u		$(w)		u		$(w)	
2,00		0,97725		2,50		0,99379		3,00		0,99865		3,50		0,99977	
2	01	0	97778	2	51	0	99396	3	01	0	99869	3	51	0	99978
2	02	0	97831	2	52	0	99413	3	02	0	99874	3	52	0	99978
2	03	0	97882	2	53	0	99430	3	03	0	99878	3	53	0	99979
2	04	0	97932	2	54	0	99446	3	04	0	99882	3	54	0	99980
2	05	0	97982	2	55	0	99461	3	05	0	99886	3	55	0	99981
2	06	0	98030	2	56	0	99477	3	06	0	99889	3	56	0	99981
2	07	0	98077	2	57	0	99492	3	07	0	99893	3	57	0	99982
2	08	0	98124	2	58	0	99506	3	08	0	99897	3	58	0	99983
2	09	0	98169	2	59	0	99520	3	09	0	99900	3	59	0	99983
2	10	0	98214	2	60	0	99534	3	10	0	99903	3	60	0	99984
2	11	0	98257	2	61	0	99547	3	11	0	99906	3	61	0	99985
2	12	0	98300	2	62	0	99560	3	12	0	99910	3	62	0	99985
2	13	0	98341	2	63	0	99573	3	13	0	99913	3	63	0	99986
2	14	0	98382	2	64	0	99585	3	14	0	99916	3	64	0	99986
2	15	0	98422	2	65	0	99598	3	15	0	99918	3	65	0	99987
2	16	0	98461	2	66	0	99609	3	16	0	99921	3	66	0	99987
2	17	0	98500	2	67	0	99621	3	17	0	99924	3	67	0	99988
2	18	0	98537	2	68	0	99632	3	18	0	99926	3	68	0	99988
2	19	0	98574	2	69	0	99643	3	19	0	99929	3	69	0	99989
2	20	0	98610	2	70	0	99653	3	20	0	99931	3	70	0	99989
2	21	0	98645	2	71	0	99664	3	21	0	99934	3	71	0	99990
2	22	0	98679	2	72	0	99674	3	22	0	99936	3	72	0	99990
2	23	0	98713	2	73	0	99683	3	23	0	99938	3	73	0	99990
2	24	0	98745	2	74	0	99693	3	24	0	99940	3	74	0	99991
2	25	0	98778	2	75	0	99702	3	25	0	99942	3	75	0	99991
2	26	0	98809	2	76	0	99711	3	26	0	99944	3	76	0	99992
2	27	0	98840	2	77	0	99720	3	27	0	99946	3	77	0	99992
2	28	0	98870	2	78	0	99728	3	28	0	99948	3	78	0	99992
2	29	0	98899	2	79	0	99736	3	29	0	99950	3	79	0	99992
2	30	0	98928	2	80	0	99744	3	30	0	99952	3	80	0	99993
2	31	0	98956	2	81	0	99752	3	31	0	99953	3	81	0	99993
2	32	0	98983	2	82	0	99760	3	32	0	99955	3	82	0	99993
2	33	0	99010	2	83	0	99767	3	33	0	99957	3	83	0	99994
2	34	0	99036	2	84	0	99774	3	34	0	99958	3	84	0	99994
2	35	0	99061	2	85	0	99781	3	35	0	99960	3	85	0	99994
2	36	0	99086	2	86	0	99788	3	36	0	99961	3	86	0	99994
2	37	0	99111	2	87	0	99795	3	37	0	99962	3	87	0	99995
2	38	0	99134	2	88	0	99801	3	38	0	99964	3	88	0	99995
2	39	0	99158	2	89	0	99807	3	39	0	99965	3	89	0	99995
2	40	0	99180	2	90	0	99813	3	40	0	99966	3	90	0	99995
2	41	0	99202	2	91	0	99819	3	41	0	99968	3	91	0	99995
2	42	0	99224	2	92	0	99825	3	42	0	99969	3	92	0	99996
2	43	0	99245	2	93	0	99831	3	43	0	99970	3	93	0	99996
2	44	0	99266	2	94	0	99836	3	44	0	99971	3	94	0	99996
2	45	0	99286	2	95	0	99841	3	45	0	99972	3	95	0	99996
2	46	0	99305	2	96	0	99846	3	46	0	99973	3	96	0	99996
2	47	0	99324	2	97	0	99851	3	47	0	99974	3	97	0	99996
2	48	0	99343	2	98	0	99856	3	48	0	99975	3	98	0	99997
2	49	0	99361	2	99	0	99861	3	49	0	99976	3	99	0	99997
$(-«) = 1 - $(u)
149
Příloha A - Statistické tabulky
Kvant ily			standardizovaného normálního							» rozložení					
OL		1-ťa		a		1-ťa		a		1-ťa		a		1-ťa	
0,500		0,00000		0,850		1,03643		0,930		1,47579		0,965		1,81191	
0	510	0	02507	0	860	1	08032	0	931	1	48328	0	966	1	82501
0	520	0	05015	0	870	1	12639	0	932	1	49085	0	967	1	83842
0	530	0	07527	0	880	1	17499	0	933	1	49851	0	968	1	85218
0	540	0	10043	0	890	1	22653	0	934	1	50626	0	969	1	86630
0	550	0	12566	0	900	1	28155	0	935	1	51410	0	970	1	88079
0	560	0	15097	0	901	1	28727	0	936	1	52204	0	971	1	89570
0	570	0	17637	0	902	1	29303	0	937	1	53007	0	972	1	91104
0	580	0	20189	0	903	1	29884	0	938	1	53820	0	973	1	92684
0	590	0	22754	0	904	1	30469	0	939	1	54643	0	974	1	94313
0	600	0	25335	0	905	1	31058	0	940	1	55477	0	975	1	95996
0	610	0	27932	0	906	1	31652	0	941	1	56322	0	976	1	97737
0	620	0	30548	0	907	1	32251	0	942	1	57179	0	977	1	99539
0	630	0	33185	0	908	1	32854	0	943	1	58047	0	978	2	01409
0	640	0	35846	0	909	1	33462	0	944	1	58927	0	979	2	03352
0	650	0	38532	0	910	1	34076	0	945	1	59819	0	980	2	05375
0	660	0	41246	0	911	1	34694	0	946	1	60725	0	981	2	07485
0	670	0	43991	0	912	1	35317	0	947	1	61644	0	982	2	09693
0	680	0	46770	0	913	1	35946	0	948	1	62576	0	983	2	12007
0	690	0	49585	0	914	1	36581	0	949	1	63523	0	984	2	14441
0	700	0	52440	0	915	1	37220	0	950	1	64485	0	985	2	17009
0	710	0	55338	0	916	1	37866	0	951	1	65463	0	986	2	19729
0	720	0	58284	0	917	1	38517	0	952	1	66456	0	987	2	22621
0	730	0	61281	0	918	1	39174	0	953	1	67466	0	988	2	25713
0	740	0	64335	0	919	1	39838	0	954	1	68494	0	989	2	29037
0	750	0	67449	0	920	1	40507	0	955	1	69540	0	990	2	32635
0	760	0	70630	0	921	1	41183	0	956	1	70604	0	991	2	36562
0	770	0	73885	0	922	1	41865	0	957	1	71689	0	992	2	40892
0	780	0	77219	0	923	1	42554	0	958	1	72793	0	993	2	45726
0	790	0	80642	0	924	1	43250	0	959	1	73920	0	994	2	51214
0	800	0	84162	0	925	1	43953	0	960	1	75069	0	995	2	57583
0	810	0	87790	0	926	1	44663	0	961	1	76241	0	996	2	65207
0	820	0	91537	0	927	1	45381	0	962	1	77438	0	997	2	74778
0	830	0	95417	0	928	1	46106	0	963	1	78661	0	998	2	87816
0	840	0	99446	0	929	1	46838	0	964	1	79912	0	999	3	09023
150
Kvantily Pearsonova rozloženi
n	0,001		0,005	a 0,010	0,025	0,050
	0	001	0,005	0,010	0,025	0,050
1	0	000	0,000	0,000	0,001	0,004
2	0	002	0,010	0,020	0,051	0,103
3	0	024	0,072	0,115	0,216	0,352
4	0	091	0,207	0,297	0,484	0,711
5	0	210	0,412	0,554	0,831	1,145
6	0	381	0,676	0,872	1,237	1,635
7	0	598	0,989	1,239	1,690	2,167
8	0	857	1,344	1,646	2,180	2,733
9	1	152	1,735	2,088	2,700	3,325
10	1	479	2,156	2,558	3,247	3,940
11	1	834	2,603	3,053	3,816	4,575
12	2	214	3,074	3,571	4,404	5,226
13	2	617	3,565	4,107	5,009	5,892
14	3	041	4,075	4,660	5,629	6,571
15	3	483	4,601	5,229	6,262	7,261
16	3	942	5,142	5,812	6,908	7,962
17	4	416	5,697	6,408	7,564	8,672
18	4	905	6,265	7,015	8,231	9,390
19	5	407	6,844	7,633	8,907	10,117
20	5	921	7,434	8,260	9,591	10,851
21	6	447	8,034	8,897	10,283	11,591
22	6	983	8,643	9,542	10,982	12,338
23	7	529	9,260	10,196	11,689	13,091
24	8	085	9,886	10,856	12,401	13,848
25	8	649	10,520	11,524	13,120	14,611
26	9	222	11,160	12,198	13,844	15,379
27	9	803	11,808	12,879	14,573	16,151
28	10,391		12,461	13,565	15,308	16,928
29	10,986		13,121	14,256	16,047	17,708
30	11,588		13,787	14,953	16,791	18,493
35	14,688		17,192	18,509	20,569	22,465
40	17,916		20,707	22,164	24,433	26,509
45	21,251		24,311	25,901	28,366	30,612
50	24,674		27,991	29,707	32,357	34,764
55	28,173		31,735	33,570	36,398	38,958
60	31,738		35,534	37,485	40,482	43,188
65	35,362		39,383	41,444	44,603	47,450
70	39,036		43,275	45,442	48,758	51,739
75	42,757		47,206	49,475	52,942	56,054
80	46,520		51,172	53,540	57,153	60,391
85	50,320		55,170	57,634	61,389	64,749
90	54,155		59,196	61,754	65,647	69,126
95	58,022		63,250	65,898	69,925	73,520
100	61,918		67,328	70,065	74,222	77,929
Příloha A - Statistické tabulky
Kvantily Pearsonova rozložení
n	0,950		0,975	a 0,990	0,995	0,999
1	3,841		5,024	6,635	7,879	10,828
2	5,991		7,378	9,210	10,597	13,816
3	7,815		9,348	11,345	12,838	16,266
4	9,488		11,143	13,277	14,860	18,467
5	11,070		12,833	15,086	16,750	20,515
6	12	592	14,449	16,812	18,548	22,458
7	14	067	16,013	18,475	20,278	24,322
8	15	507	17,535	20,090	21,955	26,124
9	16	919	19,023	21,666	23,589	27,877
10	18	307	20,483	23,209	25,188	29,588
11	19	675	21,920	24,725	26,757	31,264
12	21	026	23,337	26,217	28,300	32,909
13	22	362	24,736	27,688	29,819	34,528
14	23	685	26,119	29,141	31,319	36,123
15	24	996	27,488	30,578	32,801	37,697
16	26	296	28,845	32,000	34,267	39,252
17	27	587	30,191	33,409	35,718	40,790
18	28	869	31,526	34,805	37,156	42,312
19	30	144	32,852	36,191	38,582	43,820
20	31	410	34,170	37,566	39,997	45,315
21	32	671	35,479	38,932	41,401	46,797
22	33	924	36,781	40,289	42,796	48,268
23	35	172	38,076	41,638	44,181	49,728
24	36	415	39,364	42,980	45,559	51,179
25	37	652	40,646	44,314	46,928	52,620
26	38	885	41,923	45,642	48,290	54,052
27	40	113	43,195	46,963	49,645	55,476
28	41	337	44,461	48,278	50,993	56,892
29	42	557	45,722	49,588	52,336	58,301
30	43	773	46,979	50,892	53,672	59,703
35	49	802	53,203	57,342	60,275	66,619
40	55	758	59,342	63,691	66,766	73,402
45	61	656	65,410	69,957	73,166	80,077
50	67	505	71,420	76,154	79,490	86,661
55	73	311	77,380	82,292	85,749	93,168
60	79	082	83,298	88,379	91,952	99,607
65	84	821	89,177	94,422	98,105	105,988
70	90	531	95,023	100,425	104,215	112,317
75	96	217	100,839	106,393	110,286	118,599
80	101,879		106,629	112,329	116,321	124,839
85	107,522		112,393	118,236	122,325	131,041
90	113,145		118,136	124,116	128,299	137,208
95	118,752		123,858	129,973	134,247	143,344
100	124,342		129,561	135,807	140,169	149,449
152
Kvantily Studentova rozloženi
n	0,900		0,950		0,975		a 0,990		0,995		0,999	
1	3,0777		6,3138		12,7062		31,8205		63,6567		318,3088	
2	1	8856	2	9200	4,3027		6,9646		9,9248		22,3271	
3	1	6377	2	3534	3	1824	4	5407	5	8409	10,2145	
4	1	5332	2	1318	2	7764	3	7469	4	6041	7,1732	
5	1	4759	2	0150	2	5706	3	3649	4	0321	5	8934
6	1	4398	1	9432	2	4469	3	1427	3	7074	5	2076
7	1	4149	1	8946	2	3646	2	9980	3	4995	4	7853
8	1	3968	1	8595	2	3060	2	8965	3	3554	4	5008
9	1	3830	1	8331	2	2622	2	8214	3	2498	4	2968
10	1	3722	1	8125	2	2281	2	7638	3	1693	4	1437
11	1	3634	1	7959	2	2010	2	7181	3	1058	4	0247
12	1	3562	1	7823	2	1788	2	6810	3	0545	3	9296
13	1	3502	1	7709	2	1604	2	6503	3	0123	3	8520
14	1	3450	1	7613	2	1448	2	6245	2	9768	3	7874
15	1	3406	1	7531	2	1314	2	6025	2	9467	3	7328
16	1	3368	1	7459	2	1199	2	5835	2	9208	3	6862
17	1	3334	1	7396	2	1098	2	5669	2	8982	3	6458
18	1	3304	1	7341	2	1009	2	5524	2	8784	3	6105
19	1	3277	1	7291	2	0930	2	5395	2	8609	3	5794
20	1	3253	1	7247	2	0860	2	5280	2	8453	3	5518
21	1	3232	1	7207	2	0796	2	5176	2	8314	3	5272
22	1	3212	1	7171	2	0739	2	5083	2	8188	3	5050
23	1	3195	1	7139	2	0687	2	4999	2	8073	3	4850
24	1	3178	1	7109	2	0639	2	4922	2	7969	3	4668
25	1	3163	1	7081	2	0595	2	4851	2	7874	3	4502
26	1	3150	1	7056	2	0555	2	4786	2	7787	3	4350
27	1	3137	1	7033	2	0518	2	4727	2	7707	3	4210
28	1	3125	1	7011	2	0484	2	4671	2	7633	3	4082
29	1	3114	1	6991	2	0452	2	4620	2	7564	3	3962
30	1	3104	1	6973	2	0423	2	4573	2	7500	3	3852
oo	1	2816	1	6449	1	9600	2	3263	2	5758	3	0000
Příloha A - Statistické tabulky
Kvantily Fischerova-Snedecorova							roz	ožení	pre	* a =	0,95			
n2	1		2		3		ni 4		5		6		7	
1	161,4500		199,5000		215,7074		224,5832		230,1619		233,9860		236,7684	
2	18,5128		19,0000		19,1643		19,2468		19,2964		19,3295		19,3532	
3	10,1280		9,5521		9,2766		9,1172		9,0135		8,9406		8,8867	
4	7,7086		6	9443	6	5914	6	3882	6	2561	6	1631	6	0942
5	6	6079	5	7861	5	4095	5	1922	5	0503	4	9503	4	8759
6	5	9874	5	1433	4	7571	4	5337	4	3874	4	2839	4	2067
7	5	5914	4	7374	4	3468	4	1203	3	9715	3	8660	3	7870
8	5	3177	4	4590	4	0662	3	8379	3	6875	3	5806	3	5005
9	5	1174	4	2565	3	8625	3	6331	3	4817	3	3738	3	2927
10	4	9646	4	1028	3	7083	3	4780	3	3258	3	2172	3	1355
11	4	8443	3	9823	3	5874	3	3567	3	2039	3	0946	3	0123
12	4	7472	3	8853	3	4903	3	2592	3	1059	2	9961	2	9134
13	4	6672	3	8056	3	4105	3	1791	3	0254	2	9153	2	8321
14	4	6001	3	7389	3	3439	3	1122	2	9582	2	8477	2	7642
15	4	5431	3	6823	3	2874	3	0556	2	9013	2	7905	2	7066
16	4	4940	3	6337	3	2389	3	0069	2	8524	2	7413	2	6572
17	4	4513	3	5915	3	1968	2	9647	2	8100	2	6987	2	6143
18	4	4139	3	5546	3	1599	2	9277	2	7729	2	6613	2	5767
19	4	3807	3	5219	3	1274	2	8951	2	7401	2	6283	2	5435
20	4	3512	3	4928	3	0984	2	8661	2	7109	2	5990	2	5140
21	4	3248	3	4668	3	0725	2	8401	2	6848	2	5727	2	4876
22	4	3009	3	4434	3	0491	2	8167	2	6613	2	5491	2	4638
23	4	2793	3	4221	3	0280	2	7955	2	6400	2	5277	2	4422
24	4	2597	3	4028	3	0088	2	7763	2	6207	2	5082	2	4226
25	4	2417	3	3852	2	9912	2	7587	2	6030	2	4904	2	4047
26	4	2252	3	3690	2	9752	2	7426	2	5868	2	4741	2	3883
27	4	2100	3	3541	2	9604	2	7278	2	5719	2	4591	2	3732
28	4	1960	3	3404	2	9467	2	7141	2	5581	2	4453	2	3593
29	4	1830	3	3277	2	9340	2	7014	2	5454	2	4324	2	3463
30	4	1709	3	3158	2	9223	2	6896	2	5336	2	4205	2	3343
40	4	0847	3	2317	2	8387	2	6060	2	4495	2	3359	2	2490
60	4	0012	3	1504	2	7581	2	5252	2	3683	2	2541	2	1665
80	3	9604	3	1108	2	7188	2	4859	2	3287	2	2142	2	1263
120	3	9201	3	0718	2	6802	2	4472	2	2899	2	1750	2	0868
oo	3	8415	2	9957	2	6049	2	3719	2	2141	2	0986	2	0096
154
Kvantily Fischerova-Snedecorova rozloženi pro a = 0,95
n2	8		9		10		ni 11		12		13		14	
1	238,8827		240,5433		241,8818		242,9835		243,9060		244,6899		245,3640	
2	19,3710		19,3848		19,3959		19,4050		19,4125		19,4189		19,4244	
3	8,8452		8,8123		8,7855		8,7633		8,7446		8,7287		8,7149	
4	6	0410	5	9988	5	9644	5	9358	5	9117	5	8911	5	8733
5	4	8183	4	7725	4	7351	4	7040	4	6777	4	6552	4	6358
6	4	1468	4	0990	4	0600	4	0274	3	9999	3	9764	3	9559
7	3	7257	3	6767	3	6365	3	6030	3	5747	3	5503	3	5292
8	3	4381	3	3881	3	3472	3	3130	3	2839	3	2590	3	2374
9	3	2296	3	1789	3	1373	3	1025	3	0729	3	0475	3	0255
10	3	0717	3	0204	2	9782	2	9430	2	9130	2	8872	2	8647
11	2	9480	2	8962	2	8536	2	8179	2	7876	2	7614	2	7386
12	2	8486	2	7964	2	7534	2	7173	2	6866	2	6602	2	6371
13	2	7669	2	7144	2	6710	2	6347	2	6037	2	5769	2	5536
14	2	6987	2	6458	2	6022	2	5655	2	5342	2	5073	2	4837
15	2	6408	2	5876	2	5437	2	5068	2	4753	2	4481	2	4244
16	2	5911	2	5377	2	4935	2	4564	2	4247	2	3973	2	3733
17	2	5480	2	4943	2	4499	2	4126	2	3807	2	3531	2	3290
18	2	5102	2	4563	2	4117	2	3742	2	3421	2	3143	2	2900
19	2	4768	2	4227	2	3779	2	3402	2	3080	2	2800	2	2556
20	2	4471	2	3928	2	3479	2	3100	2	2776	2	2495	2	2250
21	2	4205	2	3660	2	3210	2	2829	2	2504	2	2222	2	1975
22	2	3965	2	3419	2	2967	2	2585	2	2258	2	1975	2	1727
23	2	3748	2	3201	2	2747	2	2364	2	2036	2	1752	2	1502
24	2	3551	2	3002	2	2547	2	2163	2	1834	2	1548	2	1298
25	2	3371	2	2821	2	2365	2	1979	2	1649	2	1362	2	1111
26	2	3205	2	2655	2	2197	2	1811	2	1479	2	1192	2	0939
27	2	3053	2	2501	2	2043	2	1655	2	1323	2	1035	2	0781
28	2	2913	2	2360	2	1900	2	1512	2	1179	2	0889	2	0635
29	2	2783	2	2229	2	1768	2	1379	2	1045	2	0755	2	0500
30	2	2662	2	2107	2	1646	2	1256	2	0921	2	0630	2	0374
40	2	1802	2	1240	2	0772	2	0376	2	0035	1	9738	1	9476
60	2	0970	2	0401	1	9926	1	9522	1	9174	1	8870	1	8602
80	2	0564	1	9991	1	9512	1	9105	1	8753	1	8445	1	8174
120	2	0164	1	9588	1	9105	1	8693	1	8337	1	8026	1	7750
oo	1	9384	1	8799	1	8307	1	7886	1	7522	1	7202	1	6918
Příloha A - Statistické tabulky
Kvantily Fischerova-Snedecorova							roz	ožení	pre	* a =	0,95			
n2	15		16		17		ni 18		19		20		25	
1	245,9499		246,4639		246,9184		247,3232		247,6861		248,0131		249,2601	
2	19,4291		19,4333		19,4370		19,4402		19,4431		19,4458		19,4558	
3	8,7029		8,6923		8,6829		8,6745		8,6670		8,6602		8,6341	
4	5	8578	5	8441	5	8320	5	8211	5	8114	5	8025	5	7687
5	4	6188	4	6038	4	5904	4	5785	4	5678	4	5581	4	5209
6	3	9381	3	9223	3	9083	3	8957	3	8844	3	8742	3	8348
7	3	5107	3	4944	3	4799	3	4669	3	4551	3	4445	3	4036
8	3	2184	3	2016	3	1867	3	1733	3	1613	3	1503	3	1081
9	3	0061	2	9890	2	9737	2	9600	2	9477	2	9365	2	8932
10	2	8450	2	8276	2	8120	2	7980	2	7854	2	7740	2	7298
11	2	7186	2	7009	2	6851	2	6709	2	6581	2	6464	2	6014
12	2	6169	2	5989	2	5828	2	5684	2	5554	2	5436	2	4977
13	2	5331	2	5149	2	4987	2	4841	2	4709	2	4589	2	4123
14	2	4630	2	4446	2	4282	2	4134	2	4000	2	3879	2	3407
15	2	4034	2	3849	2	3683	2	3533	2	3398	2	3275	2	2797
16	2	3522	2	3335	2	3167	2	3016	2	2880	2	2756	2	2272
17	2	3077	2	2888	2	2719	2	2567	2	2429	2	2304	2	1815
18	2	2686	2	2496	2	2325	2	2172	2	2033	2	1906	2	1413
19	2	2341	2	2149	2	1977	2	1823	2	1683	2	1555	2	1057
20	2	2033	2	1840	2	1667	2	1511	2	1370	2	1242	2	0739
21	2	1757	2	1563	2	1389	2	1232	2	1090	2	0960	2	0454
22	2	1508	2	1313	2	1138	2	0980	2	0837	2	0707	2	0196
23	2	1282	2	1086	2	0910	2	0751	2	0608	2	0476	1	9963
24	2	1077	2	0880	2	0703	2	0543	2	0399	2	0267	1	9750
25	2	0889	2	0691	2	0513	2	0353	2	0207	2	0075	1	9554
26	2	0716	2	0518	2	0339	2	0178	2	0032	1	9898	1	9375
27	2	0558	2	0358	2	0179	2	0017	1	9870	1	9736	1	9210
28	2	0411	2	0210	2	0030	1	9868	1	9720	1	9586	1	9057
29	2	0275	2	0073	1	9893	1	9730	1	9581	1	9446	1	8915
30	2	0148	1	9946	1	9765	1	9601	1	9452	1	9317	1	8782
40	1	9245	1	9037	1	8851	1	8682	1	8529	1	8389	1	7835
60	1	8364	1	8151	1	7959	1	7784	1	7625	1	7480	1	6902
80	1	7932	1	7716	1	7520	1	7342	1	7180	1	7032	1	6440
120	1	7505	1	7285	1	7085	1	6904	1	6739	1	6587	1	5980
oo	1	6640	1	6435	1	6228	1	6038	1	5865	1	5705	1	5061
156
Kvantily Fischerova-Snedecorova rozloženi pro a = 0,95
n2	30		40		n 60		i 80		120		DO	
1	250,0952		251,1432		252,1957		252,7237		253,2529		254,3100	
2	19,4624		19,4707		19,4791		19,4832		19,4874		19,4960	
3	8,6166		8,5944		8,5720		8,5607		8,5494		8,5264	
4	5	7459	5	7170	5	6877	5	6730	5	6581	5	6281
5	4	4957	4	4638	4	4314	4	4150	4	3985	4	3650
6	3	8082	3	7743	3	7398	3	7223	3	7047	3	6689
7	3	3758	3	3404	3	3043	3	2860	3	2674	3	2298
8	3	0794	3	0428	3	0053	2	9862	2	9669	2	9276
9	2	8637	2	8259	2	7872	2	7675	2	7475	2	7067
10	2	6996	2	6609	2	6211	2	6008	2	5801	2	5379
11	2	5705	2	5309	2	4901	2	4692	2	4480	2	4045
12	2	4663	2	4259	2	3842	2	3628	2	3410	2	2962
13	2	3803	2	3392	2	2966	2	2747	2	2524	2	2064
14	2	3082	2	2664	2	2229	2	2006	2	1778	2	1307
15	2	2468	2	2043	2	1601	2	1373	2	1141	2	0658
16	2	1938	2	1507	2	1058	2	0826	2	0589	2	0096
17	2	1477	2	1040	2	0584	2	0348	2	0107	1	9604
18	2	1071	2	0629	2	0166	1	9927	1	9681	1	9168
19	2	0712	2	0264	1	9795	1	9552	1	9302	1	8780
20	2	0391	1	9938	1	9464	1	9217	1	8963	1	8432
21	2	0102	1	9645	1	9165	1	8915	1	8657	1	8117
22	1	9842	1	9380	1	8894	1	8641	1	8380	1	7831
23	1	9605	1	9139	1	8648	1	8392	1	8128	1	7570
24	1	9390	1	8920	1	8424	1	8164	1	7896	1	7330
25	1	9192	1	8718	1	8217	1	7955	1	7684	1	7110
26	1	9010	1	8533	1	8027	1	7762	1	7488	1	6906
27	1	8842	1	8361	1	7851	1	7584	1	7306	1	6717
28	1	8687	1	8203	1	7689	1	7418	1	7138	1	6541
29	1	8543	1	8055	1	7537	1	7264	1	6981	1	6376
30	1	8409	1	7918	1	7396	1	7121	1	6835	1	6223
40	1	7444	1	6928	1	6373	1	6077	1	5766	1	5089
60	1	6491	1	5943	1	5343	1	5019	1	4673	1	3893
80	1	6017	1	5449	1	4821	1	4477	1	4107	1	3247
120	1	5543	1	4952	1	4290	1	3922	1	3519	1	2539
oo	1	4591	1	3940	1	3180	1	2735	1	2214	1	0000
Příloha A - Statistické tabulky
Kvantily Fischerova-Snedecorova				rozložení	pre	* a =	0,975			
n2	1	2	3	ni 4	5		6		7	
1	647,7890	799,5000	864,1630	899,5833	921,8479		937,1111		948,2169	
2	38,5063	39,0000	39,1655	39,2484	39,2982		39,3315		39,3552	
3	17,4434	16,0441	15,4392	15,1010	14,8848		14,7347		14,6244	
4	12,2179	10,6491	9,9792	9,6045	9,3645		9,1973		9,0741	
5	10,0070	8,4336	7,7636	7,3879	7	1464	6	9777	6	8531
6	8,8131	7,2599	6,5988	6,2272	5	9876	5	8198	5	6955
7	8,0727	6,5415	5,8898	5,5226	5	2852	5	1186	4	9949
8	7,5709	6,0595	5,4160	5,0526	4	8173	4	6517	4	5286
9	7,2093	5,7147	5,0781	4,7181	4	4844	4	3197	4	1970
10	6,9367	5,4564	4,8256	4,4683	4	2361	4	0721	3	9498
11	6,7241	5,2559	4,6300	4,2751	4	0440	3	8807	3	7586
12	6,5538	5,0959	4,4742	4,1212	3	8911	3	7283	3	6065
13	6,4143	4,9653	4,3472	3,9959	3	7667	3	6043	3	4827
14	6,2979	4,8567	4,2417	3,8919	3	6634	3	5014	3	3799
15	6,1995	4,7650	4,1528	3,8043	3	5764	3	4147	3	2934
16	6,1151	4,6867	4,0768	3,7294	3	5021	3	3406	3	2194
17	6,0420	4,6189	4,0112	3,6648	3	4379	3	2767	3	1556
18	5,9781	4,5597	3,9539	3,6083	3	3820	3	2209	3	0999
19	5,9216	4,5075	3,9034	3,5587	3	3327	3	1718	3	0509
20	5,8715	4,4613	3,8587	3,5147	3	2891	3	1283	3	0074
21	5,8266	4,4199	3,8188	3,4754	3	2501	3	0895	2	9686
22	5,7863	4,3828	3,7829	3,4401	3	2151	3	0546	2	9338
23	5,7498	4,3492	3,7505	3,4083	3	1835	3	0232	2	9023
24	5,7166	4,3187	3,7211	3,3794	3	1548	2	9946	2	8738
25	5,6864	4,2909	3,6943	3,3530	3	1287	2	9685	2	8478
26	5,6586	4,2655	3,6697	3,3289	3	1048	2	9447	2	8240
27	5,6331	4,2421	3,6472	3,3067	3	0828	2	9228	2	8021
28	5,6096	4,2205	3,6264	3,2863	3	0626	2	9027	2	7820
29	5,5878	4,2006	3,6072	3,2674	3	0438	2	8840	2	7633
30	5,5675	4,1821	3,5894	3,2499	3	0265	2	8667	2	7460
40	5,4239	4,0510	3,4633	3,1261	2	9037	2	7444	2	6238
60	5,2856	3,9253	3,3425	3,0077	2	7863	2	6274	2	5068
80	5,2184	3,8643	3,2841	2,9504	2	7295	2	5708	2	4502
120	5,1523	3,8046	3,2269	2,8943	2	6740	2	5154	2	3948
oo	5,0239	3,6889	3,1161	2,7858	2	5665	2	4082	2	2875
158
Kvantily Fischerova-Snedecorova rozloženi pro a = 0,975
n2	8		9		10		ni 11		12		13		14	
1	956,6562		963,2846		968,6274		973,0252		976,7080		979,8368		982,5278	
2	39,3730		39,3869		39,3980		39,4071		39,4146		39,4210		39,4265	
3	14,5399		14,4731		14,4189		14,3742		14,3366		14,3045		14,2768	
4	8,9796		8,9047		8,8439		8,7935		8,7512		8,7150		8,6838	
5	6	7572	6	6811	6	6192	6	5678	6	5245	6	4876	6	4556
6	5	5996	5	5234	5	4613	5	4098	5	3662	5	3290	5	2968
7	4	8993	4	8232	4	7611	4	7095	4	6658	4	6285	4	5961
8	4	4333	4	3572	4	2951	4	2434	4	1997	4	1622	4	1297
9	4	1020	4	0260	3	9639	3	9121	3	8682	3	8306	3	7980
10	3	8549	3	7790	3	7168	3	6649	3	6209	3	5832	3	5504
11	3	6638	3	5879	3	5257	3	4737	3	4296	3	3917	3	3588
12	3	5118	3	4358	3	3736	3	3215	3	2773	3	2393	3	2062
13	3	3880	3	3120	3	2497	3	1975	3	1532	3	1150	3	0819
14	3	2853	3	2093	3	1469	3	0946	3	0502	3	0119	2	9786
15	3	1987	3	1227	3	0602	3	0078	2	9633	2	9249	2	8915
16	3	1248	3	0488	2	9862	2	9337	2	8890	2	8506	2	8170
17	3	0610	2	9849	2	9222	2	8696	2	8249	2	7863	2	7526
18	3	0053	2	9291	2	8664	2	8137	2	7689	2	7302	2	6964
19	2	9563	2	8801	2	8172	2	7645	2	7196	2	6808	2	6469
20	2	9128	2	8365	2	7737	2	7209	2	6758	2	6369	2	6030
21	2	8740	2	7977	2	7348	2	6819	2	6368	2	5978	2	5638
22	2	8392	2	7628	2	6998	2	6469	2	6017	2	5626	2	5285
23	2	8077	2	7313	2	6682	2	6152	2	5699	2	5308	2	4966
24	2	7791	2	7027	2	6396	2	5865	2	5411	2	5019	2	4677
25	2	7531	2	6766	2	6135	2	5603	2	5149	2	4756	2	4413
26	2	7293	2	6528	2	5896	2	5363	2	4908	2	4515	2	4171
27	2	7074	2	6309	2	5676	2	5143	2	4688	2	4293	2	3949
28	2	6872	2	6106	2	5473	2	4940	2	4484	2	4089	2	3743
29	2	6686	2	5919	2	5286	2	4752	2	4295	2	3900	2	3554
30	2	6513	2	5746	2	5112	2	4577	2	4120	2	3724	2	3378
40	2	5289	2	4519	2	3882	2	3343	2	2882	2	2481	2	2130
60	2	4117	2	3344	2	2702	2	2159	2	1692	2	1286	2	0929
80	2	3549	2	2775	2	2130	2	1584	2	1115	2	0706	2	0346
120	2	2994	2	2217	2	1570	2	1021	2	0548	2	0136	1	9773
oo	2	1918	2	1136	2	0483	1	9927	1	9447	1	9027	1	8656
Příloha A - Statistické tabulky
Kvantily Fischerova-Snedecorova							roz	ožení	pre	* a =	0,975			
n2	15		16		17		ni 18		19		20		25	
1	984,8668		986,9187		988,7331		990,3490		991,7973		993,1028		998,0808	
2	39,4313		39,4354		39,4391		39,4424		39,4453		39,4479		39,4579	
3	14,2527		14,2315		14,2127		14,1960		14,1810		14,1674		14,1155	
4	8,6565		8,6326		8,6113		8,5924		8,5753		8,5599		8,5010	
5	6	4277	6	4032	6	3814	6	3619	6	3444	6	3286	6	2679
6	5	2687	5	2439	5	2218	5	2021	5	1844	5	1684	5	1069
7	4	5678	4	5428	4	5206	4	5008	4	4829	4	4667	4	4045
8	4	1012	4	0761	4	0538	4	0338	4	0158	3	9995	3	9367
9	3	7694	3	7441	3	7216	3	7015	3	6833	3	6669	3	6035
10	3	5217	3	4963	3	4737	3	4534	3	4351	3	4185	3	3546
11	3	3299	3	3044	3	2816	3	2612	3	2428	3	2261	3	1616
12	3	1772	3	1515	3	1286	3	1081	3	0896	3	0728	3	0077
13	3	0527	3	0269	3	0039	2	9832	2	9646	2	9477	2	8821
14	2	9493	2	9234	2	9003	2	8795	2	8607	2	8437	2	7777
15	2	8621	2	8360	2	8128	2	7919	2	7730	2	7559	2	6894
16	2	7875	2	7614	2	7380	2	7170	2	6980	2	6808	2	6138
17	2	7230	2	6968	2	6733	2	6522	2	6331	2	6158	2	5484
18	2	6667	2	6404	2	6168	2	5956	2	5764	2	5590	2	4912
19	2	6171	2	5907	2	5670	2	5457	2	5265	2	5089	2	4408
20	2	5731	2	5465	2	5228	2	5014	2	4821	2	4645	2	3959
21	2	5338	2	5071	2	4833	2	4618	2	4424	2	4247	2	3558
22	2	4984	2	4717	2	4478	2	4262	2	4067	2	3890	2	3198
23	2	4665	2	4396	2	4157	2	3940	2	3745	2	3567	2	2871
24	2	4374	2	4105	2	3865	2	3648	2	3452	2	3273	2	2574
25	2	4110	2	3840	2	3599	2	3381	2	3184	2	3005	2	2303
26	2	3867	2	3597	2	3355	2	3137	2	2939	2	2759	2	2054
27	2	3644	2	3373	2	3131	2	2912	2	2713	2	2533	2	1826
28	2	3438	2	3167	2	2924	2	2704	2	2505	2	2324	2	1615
29	2	3248	2	2976	2	2732	2	2512	2	2313	2	2131	2	1419
30	2	3072	2	2799	2	2554	2	2334	2	2134	2	1952	2	1237
40	2	1819	2	1542	2	1293	2	1068	2	0864	2	0677	1	9943
60	2	0613	2	0330	2	0076	1	9846	1	9636	1	9445	1	8687
80	2	0026	1	9741	1	9483	1	9250	1	9037	1	8843	1	8071
120	1	9450	1	9161	1	8900	1	8663	1	8447	1	8249	1	7462
oo	1	8326	1	8028	1	7759	1	7515	1	7291	1	7085	1	6259
160
Kvantily Fischerova-Snedecorova rozloženi pro a = 0,975
					ni							
n2	30		40		60		80		120		DO	
1	1001,4140		1005,5980		1009,8000		1011,9080		1014,0200		1018,3000	
2	39,4646		39,4729		39,4812		39,4854		39,4896		39,4980	
3	14,0805		14,0365		13,9921		13,9697		13,9473		13,9020	
4	8,4613		8,4111		8,3604		8,3349		8,3092		8,2573	
5	6	2269	6	1750	6	1225	6	0960	6	0693	6	0153
6	5	0652	5	0125	4	9589	4	9318	4	9044	4	8491
7	4	3624	4	3089	4	2544	4	2268	4	1989	4	1423
8	3	8940	3	8398	3	7844	3	7563	3	7279	3	6702
9	3	5604	3	5055	3	4493	3	4207	3	3918	3	3329
10	3	3110	3	2554	3	1984	3	1694	3	1399	3	0798
11	3	1176	3	0613	3	0035	2	9740	2	9441	2	8828
12	2	9633	2	9063	2	8478	2	8178	2	7874	2	7249
13	2	8372	2	7797	2	7204	2	6900	2	6590	2	5955
14	2	7324	2	6742	2	6142	2	5833	2	5519	2	4872
15	2	6437	2	5850	2	5242	2	4930	2	4611	2	3953
16	2	5678	2	5085	2	4471	2	4154	2	3831	2	3163
17	2	5020	2	4422	2	3801	2	3481	2	3153	2	2474
18	2	4445	2	3842	2	3214	2	2890	2	2558	2	1869
19	2	3937	2	3329	2	2696	2	2368	2	2032	2	1333
20	2	3486	2	2873	2	2234	2	1902	2	1562	2	0853
21	2	3082	2	2465	2	1819	2	1485	2	1141	2	0422
22	2	2718	2	2097	2	1446	2	1108	2	0760	2	0032
23	2	2389	2	1763	2	1107	2	0766	2	0415	1	9677
24	2	2090	2	1460	2	0799	2	0454	2	0099	1	9353
25	2	1816	2	1183	2	0516	2	0169	1	9811	1	9055
26	2	1565	2	0928	2	0257	1	9907	1	9545	1	8781
27	2	1334	2	0693	2	0018	1	9665	1	9299	1	8527
28	2	1121	2	0477	1	9797	1	9441	1	9072	1	8291
29	2	0923	2	0276	1	9591	1	9232	1	8861	1	8072
30	2	0739	2	0089	1	9400	1	9039	1	8664	1	7867
40	1	9429	1	8752	1	8028	1	7644	1	7242	1	6371
60	1	8152	1	7440	1	6668	1	6252	1	5810	1	4821
80	1	7523	1	6790	1	5987	1	5549	1	5079	1	3997
120	1	6899	1	6141	1	5299	1	4834	1	4327	1	3104
oo	1	5660	1	4835	1	3883	1	3329	1	2684	1	0000
Příloha A - Statistické tabulky
162
Príloha B - Základní informace o programu STATISTICA 6
Příloha B - Základní informace o programu STATISTICA 6
Systém má modulární stavbu. V multilicenci pro Masarykovu univerzitu jsou k dispozici moduly: Basic Statistics/Tables, Multiple Regression, ANOVA, Nonpara-metrics, Distribution Fitting, Advanced Linear / Nonlinear Models, Multivariate Explorartory Techniques, Industrial Statistics & Six Sigma.
Velké množství informací o systému STATISTICA lze najít na webové stránce společnosti StatSoft, která je jejím distributorem v České republice (internetová adresa je www.statsoft.cz). Z této stránky vede rovněž odkaz na elektronickou učebnici statistiky.
STATISTICA 6 má několik typů oken:
■   spreadsheet (datové okno, má příponu sta, jeho obsah však lze exportovat i v jiných formátech). Do datového okna lze načítat datové soubory nejrůznějších typů (např. z tabulkových procesorů, databázové soubory, ASCII soubory).
■   workbook (má příponu stw). Do workbooku ukládají výstupy, tj. tabulky a grafy. Skládá se ze dvou oken, v levém okně je znázorněna stromová struktura výstupů, v pravém jsou samotné výstupy. V levém okně se lze pohybovat myší nebo kurzorem, mazat, přesouvat, editovat apod. Výstupy mohou sloužit jako vstupy pro další analýzy a grafy.
■   report (má příponu str, lze ho uložit i ve formátu rtf, txt či htm). Pokud požadujeme, aby se výstupy ukládaly nejen do workbooku, ale i do reportu, postupujeme takto: Tools - Options - Output Manager - zaškrtneme Also send to Report Window - OK. Report se podobně jako workbook skládá ze dvou oken. Do reportu můžeme vkládat vlastní text, vysvětlující komentáře, poznámky apod. Tabulky a grafy lze v reportu i workbooku dále upravovat.
■   okno grafů (přípona stg, lze ho uložit i jako bmp, jpg, png a wmf). Získá se tak, že ve workbooku klikneme pravým tlačítkem na graf a vybereme Clone Graph.
■   programovací okno (přípona svb). Slouží pro zápis programů v jazyku STATISTICA Visual Basic. Mezi jednotlivými typy oken se přepínáme pomocí položky Window v hlavním menu.
164
1.    Bodové zpracovaní četností
1.   Zapište do datového okna programu STATISTIC A datový soubor, který bude obsahovat známky z matematiky, angličtiny a údaje o pohlaví dvaceti studentů (viz příklad 1.10).
Návod: File - New - Number of variables 3, Number of cases 20, OK.
2.   Znaky nazvěte X, Y, Z, vytvořte jim návěští (X - známka z matematiky, Y
-  známka z angličtiny, Z - pohlaví studenta) a popište, co znamenají jednotlivé varianty (u znaků X a Y: 1 - výborně, 2 - velmi dobře, 3 - dobře, 4 - neprospěl, u znaku Z: 0 - žena, 1 - muž). Soubor uložte pod názvem znamky.sta.
Návod: Kurzor nastavíme na Varl - 2x klikneme myší - Name X - Long Name známka z matematiky, Text label - 1 výborně, 2 velmi dobře, 3 dobře, 4 neprospěl, OK. U proměnné Y lze text label okopírovat z proměnné X -v Text Labels Editor zvolíme Copy from variable X.
Přepínání mezi číselnými hodnotami a jejich textovým popisem se děje pomocí tlačítka s obrázkem štítku.
3.   U znaků X a Y vypočtěte absolutní četnosti, relativní četnosti a relativní kumulativní četnosti. Návod: Statistics - Basic Statistics/Tables - Frequency tables - OK - Variables X, Y, OK - Summary. Všechny tři tabulky se uloží do workbooku a listovat v nich můžeme pomocí stromové struktury v levém okně.
4.   Vytvořte sloupkový diagram absolutních četností znaků X a Y.
Návod: Graphs - Histograms - Variables X, Y - OK - vypneme Normal fit
- Advanced - zaškrtneme Breaks between Columns, OK.
Vytvořte výsečový diagram absolutních četností znaků X a Y.
Návod: Graphs - 2D Graphs - Pie Charts - Variables X, Y - OK - Advanced
- Pie legend Text and Percent (nebo Text and Value) - OK. Vytvořte polygon absolutních četností znaků X a Y.
Návod: ve workbooku vstoupíme do tabulky rozložení četností proměnné X. Pomocí Edit - Delete - Cases vymažeme řádek označený Missing. Nastavíme se kurzorem na Count - Graphs - Graphs of Block Data - Line Plot:Entire Columns. Vykreslí se polygon četností.
5.   Vytvořte graf empirické distribuční funkce znaku X.
Návod: Při tvorbě histogramu zadáme v Advanced volbu Showing Type Cumulative, Y axis % - 2 x klikneme myší na pozadí grafu - otevře se okno All Options - vybereme Plot: Bars - Type Rectangles. V tomto grafu jsou však svislé čáry až k vodorovné ose. Lze použít i jiný typ grafu: vytvoříme nový datový soubor, který bude mít dvě proměnné a případů o dva víc než je počet variant znaku X. Do 1. proměnné zapíšeme do 1. řádku hodnotu o 1 menší než je 1. varianta znaku X, pak varianty znaku X a nakonec hodnotu o 1 větší než je poslední varianta znaku X. Do 2. proměnné zapíšeme 0, pak relativní kumulativní četnosti znaku X (v procentech) a nakonec 100. Graphs - Scatterplots -Variables VI, V2 - OK - vypneme Linear fit - OK -2x klikneme na pozadí grafu - Plot:General - vypneme Markers, zaškrtneme Line - Line Type: Step - OK.
Příloha B - Základní informace o programu STATISTICA 6
Vytvořte graf četnostní funkce znaku X.
Návod: Při tvorbě histogramu zadáme v Advanced Y axis % - 2 x klikneme myší na pozadí grafu - vybereme Plot General - zaškrtneme Markers -vybereme Plot:Bars - Type Lines.
6.   Z datového souboru vyberte pouze ženy (pouze muže) a úkol 3 proveďte pro ženy (pro muže). Návod: Statistics - Basic Statistics/Tables - Frequency tables - OK - Variables X, Y, OK - Select Cases - zaškrtneme Selection Conditions - Include cases - zaškrtneme Specific, selected by Z = 0, OK.
7.   Nadále pracujte s celým datovým souborem. Vytvořte kontingenční tabulku absolutních četností znaků X a Y a graf simultánní četností funkce. Návod: Statistics - Basic Statistics/Tables - Tables and banners - OK -Select cases - All - OK - Specify tables - List 1 X, List 2 Y, OK, Summary. Vytvoření grafu simultánní četnostní funkce: Návrat do Crosstabulation Tables Result - 3D histograms - vybereme Axis Scaling - Mode Manual - Minimum 0 (a totéž provedeme pro Axis Y) - dále vybereme Graph Layout - Type - Spikes - OK. Graf lze natáčet pomocí Point of View.
Vytvořte kontingenční tabulku sloupcově a řádkově podmíněných relativních četností znaků X a Y.
Návod: Návrat do Crosstabulation Tables Result - Options - zaškrtneme ve sloupci Compute tables volbu Percentages of column counts (resp. Percentages of row counts).
166
B.2.    Intervalové zpracování četností
1.   Zapište do datového okna programu STATISTIC A datový soubor, který bude obsahovat údaje o mezi plasticity oceli a mezi pevnosti (viz příklad 2.13). Proměnným X a Y vytvořte návěští „mez plasticity" a „mez pevnosti". Soubor pak uložte pod názvem ocel.sta.
Návod: viz 1. cvičení, bod 1.
2.   Pro X a Y použijeme intervalové zpracování četností. Pro aplikaci Sturger-sova pravidla potřebujeme znát počet variant proměnné X a Y.
Návod: Zjištění absolutních četností - viz 1. cvičení, bod 3. Zjištění počtu variant: ve workbooku se nastavíme kurzorem na sloupec Count - 2 x klikneme myší - vybereme Values/Stats - ve výstupní tabulce se objeví mj. N. Počet variant je N—1. (X má 50 variant, Y má 52 variant, v obou případech volíme 7 třídicích intervalů.) Dále musíme zjistit minimum a maximum, abychom vhodně stanovili třídicí intervaly.
Návod: Statistics - Basic Statistics/Tables - Descriptive statistics - Variables X, Y - zaškrtneme Minimum & maximum - Summary. (Pro X je minimum 33 a maximum 160, tedy vhodná volba třídicích intervalů je (30,50), 50, 70),. .., (150,170) - viz příklad 2.13, pro Y je minimum 52 a maximum 189, tedy třídicí intervaly zvolíme (50, 70), 70, 90, ... 170,190) - viz příklad 2.19.)
3.   Vytvořte histogram pro X a pro Y.
Návod: Graphs - Histograms - Variables X - vypneme Normal fit - Advanced - zaškrtneme Boundaries - Specify Boundaries - 50 70 90 110 130 150 170 OK - Y Axis %. 2 x klikneme na pozadí grafu a ve volbě All Options můžeme měnit různé vlastnosti grafu.
Upozornění: STATISTICA v histogramu znázorňuje relativní četnost výškou obdélníku, nikoliv jeho plochou, což není v souladu s definicí 2.14.
4.   Proveďte zakódování hodnot proměnných X a Y do příslušných třídicích intervalů.
Návod: Insert - Add Variables - 2 - After Y - OK - přejmenujeme je na RX a RY. Nastavíme se kurzorem na RX - Data - Recode - vyplníme podmínky pro všech 7 kategorií. (Pozor - podmínky se musí psát ve tvaru X>30 and X<=50 atd.). Pak klepneme na OK. Analogicky pro Y.
5.   Vytvořte graf intervalové empirické distribuční funkce pro X.
Návod: Vytvoříme Frequency table pro RX. Před 1. případ vložíme řádek, kde do Category napíšeme 0 a do Cumulative Count také 0. Nastavíme se kurzorem na Cumulative Percent - Graphs - Graphs of Block Data - Custom Graph from Block by Column - Line Plots (Variables) - OK. 2 x klikneme na pozadí grafu - Plot: General - vypneme Markers - Axis: Scaling - Mode Manual - Minimum 1, Maximum 9 - Axis: Custom Units - Position 1, Text 30 atd až Position 9, Text 190 - OK.
6.   Sestavte kontingenční tabulky absolutních četností (relativních četností, sloupcově a řádkově podmíněných relativních četností) dvourozměrných třídících intervalů pro (X,Y).
Návod: Viz úkol č. 6 ve cvičení 1, kde budeme pracovat s proměnnými RX aRY.
167
Příloha B - Základní informace o programu STATISTICA 6
B.3.   Výpočet číselných charakteristik jednorozměrného a dvourozměrného souboru, regresní přímka
1.   Načtěte soubor znamky.sta. Pro známky z matematiky a angličtiny vypočtěte medián, dolní a horní kvartil a kvartilovou odchylku. Výsledky porovnejte s příkladem 3.5.
Návod: Stastistics - Basic Statistics/Tables - Descriptive Statistics - OK -Variables X, Y, OK - zaškrtneme Median, Lower & upper quartiles, Quartile range - Summary.
2.   Načtěte soubor ocel.sta. Pro mez plasticity a mez pevnosti vypočtěte aritmetické průměry, směrodatné odchylky a rozptyly. Výsledky porovnejte s příkladem 3.17.
Návod: Návod: Stastistics - Basic Statistics/Tables - Descriptive Statistics - OK - Variables X, Y, OK - zaškrtneme Mean, Standard Deviation, Variance - Summary.
Vysvětlení: Rozptyl a směrodatná odchylka vyjdou ve STATISTICE jinak než v příklad 3.17, protože STATISTICA ve vzorci pro výpočet rozptylu nepoužívá 1/n, ale l/(n — 1) - bude objasněno později v matematické statistice.
3.   Nakreslete dvourozměrný tečkový diagram pro (X,Y).
Návod: Graphs - Scatterplots - Variables X,Y - OK - vypneme Linear fit -OK.
4.   Vypočtěte kovarianci a koeficient korelace meze plasticity a meze pevnosti. Výsledky porovnejte s příkladem 3.17.
Návod: Statistics - Multiple Regression - Variables Independent X, Dependent Y - OK - OK - Residuals/assumption-prediction - Descriptive statistics - Covariances. Pro získání korelačního koeficientu zvolíme Correlation místo Covariances.
Vysvětlení: Kovariance vyjde ve STATISTICE jinak než v příkladu 3.17, protože ve STATISTICE se ve vzorci pro výpočet kovariance nepoužívá 1/n. ale l/(n — 1) - bude objasněno později.
5.   Určete koeficienty regresní přímky meze pevnosti na mez plasticity a stanovte index determinace. Určete regresní odhad meze pevnosti, je-li mez plasticity 110. Nakreslete regresní přímku do dvourozměrného tečkového diagramu.
Návod: V tabulce Multiple Regression zvolíme Variables Independent X, Dependent Y - OK - Summary:Regression results. Ve výstupní tabulce najdeme koeficient &o ve sloupci B na řádku označeném Intercept, koeficient b\ ve sloupci B na řádku označeném X, index determinace pod označením R2. Pro výpočet predikované hodnoty zvolíme Residuals/assumption/prediction Predict dependent variable X:110 - OK. Ve výstupní tabulce je hledaná hodnota označena jako Predictd.
Nakreslení regresní přímky: Návrat do Multiple Regression - Residuals / assumption / prediction - Perform residuals analysis - Scatterplots - Bivariate correlation - X, Y - OK. Jiný způsob: Do dvourozměrného tečkového diagramu nakreslíme regresní přímku tak, že v tabulce 2D Scatterplots zvolíme Fit Linear, OK.
168
B.4. Výpočty pravdepodobností s využitím distribuční funkce binomického rozložení
Označme X náhodnou veličinu. Její distribuční funkci zavedeme vztahem $(a;) = P (X < x). Pokud náhodná veličina X nabývá pouze konečně nebo spočetně mnoha hodnot, lze pomocí $(a;) vyjádřit následující pravděpodobnosti:
a)   P(X = x) = P(X <x)- P{X <x-l) = $(x) - $(a; - 1);
b)   P{X >x) = l- P{X <x) = l- P{X < x - 1) = 1 - $(a; - 1);
c)   P{xi < X < x2) = P{xi - 1 < X < x2) = ^(x2) - $(aľi - 1).
STATISTICA poskytuje hodnoty distribučních funkcí mnoha rozložení. Omezíme se na binomické rozložení (funkce IBinom(a;, p, n), kde x ... počet úspěchů, p ... pravděpodobnost úspěchu v jednom pokusu, n ... celkový počet pokusů).
Vzorový příklad na binomické rozložení: Pojišťovna zjistila, že 12% pojistných událostí je způsobeno vloupáním. Jaká je pravděpodobnost, že mezi 30 náhodně vybranými pojistnými událostmi bude způsobeno vloupáním a) nejvýše 6, b) aspoň 6, c) právě 6, d) od dvou do pěti?
Řešení:
X ... počet pojistných událostí způsobených vloupáním , n = 30, p = 0,12.
ad a) P{X < 6) = $(6) = 0,9393,
ad b) P{X > 6) = 1 - P{X < 5) = 1 - $(5) = 0,1431,
ad c) P{X = 6) = $(6) - $(5) = 0,0825,
ad d) P(2 < X < 5) = $(5) - $(1) = 0,7469.
Postup ve STATISTICE: Otevřeme nový datový soubor se čtyřmi proměnnými a o jednom případu.
Řešení:
Do Long Name 1. proměnné napíšeme =IBinom(6;0,12;30).
Do Long Name 2. proměnné napíšeme =l-IBinom(5;0,12;30).
Do Long Name 3. proměnné napíšeme =IBinom(6;0,12;30)-IBinom(5;0,12;30).
Do Long Name 4. proměnné napíšeme =IBinom(5;0,12;30)-IBinom(l;0,12;30).
(Do Lange Name proměnné vstoupíme tak, že v datovém okně 2 x klikneme myší
na název proměnné.)
Kreslení grafů distribuční funkce a pravděpodobnostní funkce binomického rozložení
Vzorový příklad: Nakreslete graf distribuční funkce a pravděpodobnostní funkce náhodné veličiny X ~ Bi(12; 0,3).
Postup ve STATISTICE: Vytvoříme nový datový soubor o 3 proměnných a 13 případech. První proměnnou nazveme X a uložíme do ní hodnoty 0, 1,..., 12 (do Long Name napíšeme =v0—1). Druhou proměnnou nazveme DF a uložíme do ní hodnoty distribuční funkce (do Long Name napíšeme příkaz =IBinom(x;0,3;12)). Třetí proměnnou nazveme PF a uložíme do ní hodnoty pravděpodobnostní funkce (do Long Name napíšeme příkaz =Binom(x;0,3;12)).
Graf distribuční funkce: Graphs - Scatterplots - Variables X, DF - OK - vypneme Linear fit - OK - 2 x klikneme na pozadí grafu - Plot: General - zaškrtneme Line - Line Type: Step - OK.
Příloha B - Základní informace o programu STATISTICA 6
Graf pravděpodobnostní funkce: Graphs OK - vypneme Linear fit - OK.
Scatterplots - Variables X, PF
Podle tohoto návodu nakreslete grafy distribučních a pravděpodobnostních funkcí binomického rozložení pro různá nap, např. n = 5, p = 0,5 (resp. 0,75) apod. Sledujte vliv parametrů na vzhled grafů.
170
B.5. Grafy hustot a distribučních funkcí, výpočet kvan-tilů
STATISTICA umí kreslit grafy hustot a distribučních funkcí mnoha spojitých rozložení a počítat kvantily těchto rozložení. Slouží k tomu Probability Calculator v menu Statistics. Zaměříme se na rozložení uvedená definici 8.6.
1.   Rovnoměrné spojité rozložení Rs(0,1)
Statistics - Probability Calculator - Distributions - Beta - shape I - napíšeme 1, shape 2 - napíšeme 1. STATISTICA vykreslí graf hustoty a distribuční funkce. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku Beta objeví hodnota tohoto kvantilu.
2.   Exponenciální rozložení Ex(\)
Ve volbě Distributions vybereme Exponential a do okénka lambda napíšeme patřičnou hodnotu. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku exp objeví hodnota tohoto kvantilu.
3.   Normální rozložení N(ß, a2)
Ve volbě Distributions vybereme Z (Normal), do okénka mean napíšeme hodnotu ß a do okénka st. dev. napíšeme hodnotu a. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku X objeví hodnota tohoto kvantilu.
4.   Pearsonovo rozložení chĺ-kvadrát s n stupni volnosti x2(n)
Ve volbě Distributions vybereme Chi 2 a do okénka df napíšeme patřičný počet stupňů volnosti. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku Chi 2 objeví hodnota tohoto kvantilu.
5.   Studentovo rozložení s n stupni volnosti t(n) Ve volbě Distributions vybereme t (Student) a do okénka df napíšeme patřičný počet stupňů volnosti. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku t objeví hodnota tohoto kvantilu.
6.   Fisherovo-Snedecorovo rozložení s n\ ari2 stupni volnosti F (ni, 122)
Ve volbě Distributions vybereme F (Fisher) a do okének dfl a df2 napíšeme počet stupňů volnosti čitatele a jmenovatele. Hodnotu a-kvantilu zjistíme tak, že do okénka označeného p napíšeme dané a a po kliknutí na Compute se v okénku F objeví hodnota tohoto kvantilu.
171
Příloha B - Základní informace o programu STATISTICA 6
B.6.    Intervaly spolehlivosti pro parametry normálního rozložení
1.   Interval spolehlivosti pro střední hodnotu, když neznáme rozptyl: pro tuto situaci umí STATISTICA vypočítat meze intervalu spolehlivosti sama.
Příklad: Při kontrole pěti balíčků cukru o deklarované hmotnosti 1000 g byly zjištěny tyto odchylky: —3, 2, —2, 0, 1. Odchylky považujeme za realizace náhodného výběru rozsahu 5 z rozložení N(/j,,a2). Sestrojte 90% interval spolehlivosti pro ß.
Návod: Vytvoříme nový datový soubor o jedné proměnné a pěti případech. Zapíšeme do něj uvedené odchylky. Statistics - Basic Statistics/Tables -Descriptive statistics - OK - Advanced - Variables vi, OK, zaškrtněte Conf. limits for mean - Interval 90%, Summary.
2.   Ve všech ostatních případech postupujeme podle vzorců uvedených ve větách 12.9 a 12.13. Uveďme postup pro situaci, kdy hledáme interval spolehlivosti pro rozdíl středních hodnot dvou nezávislých normálně rozložených náhodných výběrů, když neznáme rozptyly, ale víme, že jsou shodné.
Příklad: Na jisté velké americké univerzitě bylo v r. 1969 náhodně vybráno 5 profesorek a nezávisle na tom 5 profesorů a byl zjištěn jejich roční příjem v tisících dolarů. Ženy: 9 12 8 10 16, muži: 16 19 12 11 22. Předpokládáme, že uvedené hodnoty jsou realizace dvou nezávislých náhodných výběrů, první z rozložení N(/j,i,a2), druhý z rozložení N(/j,2,(t2)- Sestrojte 95% interval spolehlivosti pro rozdíl středních hodnot.
Návod: Vytvoříme nový datový soubor o čtyřech proměnných (Plat, Sex, HorniMez, DolniMez) a 10 případech. Do proměnné Plat napíšeme příjmy žen, pak příjmy mužů. Do proměnné Sex napíšeme 5 x jedničku a 5 x dvojku (l=žena, 2=muž). Pomocí Descriptive statistics zjistíme průměry a rozptyly platů žen a mužů. (Výběr žen či mužů: viz cvičení 1, úkol 5.). Výsledky: m\ = 11, s\ = 10, ri\ = 5, ni2 = 16, s\ = 21,5, ri2 = 5. Do Long Name proměnné DolniMez napíšeme vzorec pro dolní mez (viz věta 12.13
(b)):
=ll-16-sqrt((4*10+4*21,5)/8)*sqrt(l/5+l/5)*VStudent(0,975;8) Do proměnné DolniMez se 10 x uloží hodnota —10,79. Do Long Name proměnné HorniMez napíšeme vzorec pro horní mez (viz věta 12.13 (b)):
=ll-16+sqrt((4*10+4*21,5)/8)*sqrt(l/5+l/5)*VStudent(0,975;8) Do proměnné HorniMez se 10x uloží hodnota 0,79. Znamená to, že s pravděpodobností aspoň 0,95 leží rozdíl středních hodnot platů žen a mužů v intervalu (—10,79; 0,79). Tento výsledek však nemá praktický význam, protože rozsahy obou výběrů byly příliš malé.
Příklad: Vyřešte pomocí STATISTIKY příklad 12.16.
Návod: Vytvoříme nový datový soubor o třech proměnných (Leva, Pravá, Rozdil) a šesti případech. Do prvních dvou proměnných zapíšeme zjištěné hodnoty. Do LongName proměnné Rozdil napíšeme =Leva - Pravá a nyní postupujeme stejně jako v úkolu 1.
172
B.7. žení
Testování hypotéz o parametrech normálního rozlo-
Jednovýběrový ť-test
Příklad: Při kontrole balicího automatu, který má plnit cukrem balíčky o hmotnosti 1000 g, byly při přesném převážení pěti balíčků zjištěny tyto odchylky (v gramech) od požadované hodnoty: 3, —2, 2, 0, 1. Na hladině významnosti 0,05 testujte hypotézu, že automat nemá systematickou odchylku od požadované hodnoty. Návod pro provedení ť-testu: Vytvořte soubor o jedné proměnné X a pěti případech. Do X zapište naměřené hodnoty. V menu Basic Statistics/Tables vyberte volbu t-test, single sample, OK, Variables X, zaškrtněte Test all means agains 0, Summary. Ve výstupní tabulce najdete hodnotu testového kritéria a p-hodnotu. Pokud p-hodnota nabude hodnoty < a, pak se nulovou hypotézu zamítá na hladině významnosti a.
Dvouvýběrový ť-test
Příklad: Na jisté velké americké univerzitě bylo v r. 1969 náhodně vybráno 5
profesorů a nezávisle na tom 5 profesorek a byl zjištěn jejich roční příjem v tisících
dolarů.
Ženy:	9	12	8	10	16
Muži:	16	19	12	11	22
Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota příjmu žen je stejná jako střední hodnota příjmu mužů.
Návod: Vytvořte soubor o dvou proměnných (Plat a Sex) a 10 případech. Do proměnné Plat napište příjmy žen a mužů a do proměnné Sex dejte 5 x jedničku a 5x dvojku. V menu Basic Statistics/Tables vyberte volbu t-test, independent, by groups, OK, Variables - Grouping Sex, Dependent Plat, OK, Summary T-tests. Ve výstupní tabulce se nejprve podívejte na p-hodnotu pro test homogenity rozptylů. Je-li větší než zvolená hladinu významnosti, zjistěte hodnotu testového kritéria a p-hodnotu pro test shody středních hodnot. V opačném případě zaškrtněte v Options volbu t-test with separate variance estimates.
Párový ť-test
Příklad: Na hladině významnosti 0,05 rozhodněte, zda se u osobního vozu určité značky při správném seřízení geometrie vozu sjíždějí obě přední pneumatiky stejně rychle. Bylo vybráno šest nových vozů a po určité době bylo zjištěno, o kolik mm se sjely jejich levé a pravé přední pneumatiky.
číslo automobilu	1	2	3	4	5	6
pravá pneumatika	1,8	1,0	2,2	0,9	1,5	1,6
levá pneumatika	1,5	1,1	2,0	1,1	1,4	1,4
Návod: Vytvořte soubor o dvou proměnných (Leva a Pravá) a šesti případech. V menu Basic Statistics/Tables vyberte volbu t-test, dependent samples, OK, Variables Leva, Pravá - Summary.
173
Příloha B - Základní informace o programu STATISTICA 6
174
Učební text, který jste právě dočetli, byl určen k prvnímu seznámení s matematickou disciplinou nazývanou statistika. Autorským záměrem bylo ukázat vám, že statistika ve své popisné formě dokáže pomoci několika výstižných charakteristik zpřehlednit informace obsažené ve velkých datových souborech, zatímco ve své induktivní formě založené na počtu pravděpodobnosti slouží především jako nástroj rozhodování v situacích ovlivněných náhodou, kdy na základě znalosti náhodného výběru z určitého rozložení pravděpodobnosti usuzuje na vlastnosti tohoto rozložení.
V současnosti je statistika velice rozvinutá a důležitá věda, která se neustále doplňuje a rozšiřuje o nové poznatky. Z tohoto důvodu může být tento učební text jen značně omezeným úvodem, který však má dostatečnou oporu v obecných statistických principech. V seznamu literatury samozřejmě najdete knihy, které vám poslouží při prohlubování a rozšiřování vašich statistických znalosti, bez nichž se dnes neobejde žádný absolvent ekonomicky zaměřené vysoké školy. Od ekonoma se totiž očekává, že bude rozhodovat nejenom na základě svých zkušenosti, ale především na základě matematických a statistických analýz. Proto musí být schopen sám provést jednodušší analýzy a u těch složitějších najít společnou řeč se statistiky, aby jim mohl zadávat úkoly a správně interpretovat výsledky těchto analýz.
Jak jste již zjistili, použiti statistického programového systému STAT1STICA osvobozuje uživatele od namáhavých úkonů, jako je vyhledávání v datech, jejich třídění, sumarizace a grafické znázornění. Dbejte však na to, aby data byla do počítače vkládána pečlivě a vždy byla podrobena kontrole. Např. je užitečné pro každou proměnnou vypočítat minimum, maximum, medián, kvartilovou odchylku, vykreslit sloupkový diagram, dvourozměrný tečkový diagram apod. Při zpracování dat rozhodně používejte jen ty metody, kterým dobře rozumíte a jejichž výsledky umíte interpretovat. Systém STAT1STICA obsahuje velké množství metod, jejichž neadekvátní aplikace může vést k zavádějícím či dokonce chybným závěrům.
Po úspěšném zvládnuti předmětu „Statistika" se před vámi otevírají značné možnosti, jak efektivně získávat informace obsažené v datech a využívat je ve své každodenní práci.