2. Základní pojmy matematické statistiky.

                                        Diagnostické grafy.


2.1. Motivace: Matematická statistika je věda, která analyzuje a interpretuje data především za
účelem získání předpovědi a zlepšení rozhodování v různých oborech lidské činnosti. Přitom se řídí
principem statistické indukce, tj. na základě znalostí o náhodném výběru z určitého rozložení
pravděpodobností se snaží učinit závěry o vlastnostech tohoto rozložení.

Ústředním pojmem matematické statistiky je tedy pojem náhodného výběru.


2.2. Definice:

Definice náhodného výběru:

a)     Nechť X[1], ..., X[n] jsou stochasticky nezávislé náhodné veličiny, které mají všechny
stejné rozložení L( ). Řekneme, že X[1], ..., X[n ] je náhodný výběr rozsahu n z rozložení L( ).
(Číselné realizace x[1], ..., x[n] náhodného výběru X[1], ..., X[n] uspořádané do sloupcového
vektoru odpovídají datovému souboru zavedenému v popisné statistice.)

b)     Nechť (X[1],Y[1]), ..., (X[n],Y[n]) jsou stochasticky nezávislé dvourozměrné náhodné
vektory, které mají všechny stejné dvourozměrné rozložení L[2]( ). Řekneme, že (X[1],Y[1]), ...,
(X[n],Y[n]) je dvourozměrný náhodný výběr rozsahu n z dvourozměrného rozložení L[2]( ). (Číselné
realizace (x[1],y[1]), ..., (x[n],y[n]) náhodného výběru (X[1],Y[1]), ..., (X[n],Y[n]) uspořádané
do matice typu n x 2 odpovídají dvourozměrnému datovému souboru zavedenému v popisné statistice.)

c)      Analogicky lze definovat p-rozměrný náhodný výběr rozsahu n z p-rozměrného rozložení L[p](
).


Definice statistiky:

Libovolná funkce T = T(X[1], ..., X[n]) náhodného výběru X[1], ..., X[n] (resp. T = T(X[1],Y[1],
..., X[n],Y[n]) náhodného výběru (X[1],Y[1]), ..., (X[n],Y[n])) se nazývá (výběrová) statistika.

2.3. Důsledek:

Nechť X[1], ..., X[n] je náhodný výběr z rozložení s distribuční funkcí Φ(x). Pak simultánní
distribuční funkce náhodného vektoru (X[1], ..., X[n]) je Φ(x[1]) … Φ(x[n]).


2.4. Definice:

Definice důležitých statistik:

a) Nechť X[1], ..., X[n] je náhodný výběr, n ≥ 2.

M =  … výběrový průměr,

S^2 =  … výběrový rozptyl,

S =  … výběrová směrodatná odchylka

Pro libovolné, ale pevně dané reálné číslo x je statistikou též hodnota výběrové distribuční funkce

 b) Nechť je dáno r ≥ 2 stochasticky nezávislých náhodných výběrů o rozsazích

n[1] ≥ 2, …, n[r] ≥ 2. Celkový rozsah je . Označme M[1], …, M[r] výběrové průměry a S[1]^2, …,
S[r]^2 výběrové rozptyly jednotlivých výběrů. Nechť c[1], …, c[r] jsou reálné konstanty, aspoň
jedna nenulová.

… lineární kombinace výběrových průměrů,

… vážený průměr výběrových rozptylů.

c) Nechť (X[1],Y[1]), ..., (X[n],Y[n]) je náhodný výběr z dvourozměrného rozložení . Označme ,
výběrové průměry, , výběrové rozptyly.

S[12] = …  výběrová kovariance,

R[12] =  … výběrový koeficient korelace.

Pro libovolnou, ale pevně zvolenou dvojici reálných čísel x,y je statistikou též hodnota výběrové
simultánní distribuční funkce .


Upozornění: Číselné realizace statistik M, S^2, S, S[12], R[12] odpovídají číselným
charakteristikám m, s^2, s, s[12], r[12] zavedeným v popisné statistice, ale u rozptylu, směrodatné
odchylky, kovariance a koeficientu korelace je multiplikativní konstanta , nikoliv , jak tomu bylo
v popisné statistice. Jak uvidíme později, uvedené číselné realizace mohou být považovány za odhady
číselných realizací náhodných veličin zavedených v počtu pravděpodobnosti.


                     Charakteristika

                     vlastnosti

                                    Počet

                                    pravděpodobnosti

                                                         Matematická

                                                         statistika

                                                                    Popisná

                                                                    statistika

                     poloha

                                    E(X) = μ

                                                         M

                                                                    m

                     variabilita

                                    D(X) = σ^2

                                                         S^2

                     variabilita

                                                         S

                     společná

                     variabilita

                                    C(X[1], X[2]) = σ[12]

                                                         S[12]

                     těsnost vztahu

                                    R(X[1], X[2]) = ρ

                                                         R[12]

                                                                    r[12]

                     rozložení

                                    Ф(x)

                                                         F[n](x)

                                                                    F(x)


2.5. Příklad:

(Výpočet realizací výběrového průměru, výběrového rozptylu a hodnot výběrové distribuční funkce):

Desetkrát nezávisle na sobě byla změřena jistá konstanta μ. Výsledky měření byly: 2  1,8  2,1  2,4
1,9  2,1  2  1,8  2,3  2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X[1],
..., X[10]. Vypočtěte realizaci m výběrového průměru M, realizaci s^2 výběrového rozptylu S^2,
realizaci s výběrové směrodatné odchylky S a hodnoty výběrové distribuční funkce F[10](x).

Řešení:

Pro usnadnění výpočtu hodnot výběrové distribuční funkce F[10](x) uspořádáme měření podle
velikosti: 1,8  1,8  1,9  2  2  2,1  2,1  2,2  2,3  2,4.


2.6. Příklad:

(Výpočet realizace výběrového koeficientu korelace):

U 11 náhodně vybraných aut jisté značky bylo zjišťováno jejich stáří (náhodná veličina X –
v letech) a cena (náhodná veličina Y – v tisících Kč). Výsledky:

(5, 85), (4, 103), (6, 70), (5, 82), (5, 89), (5, 98), (6, 66), (6, 95), (2, 169),

(7, 70), (7, 48). Vypočtěte a interpretujte číselnou realizaci r[12] výběrového koeficientu
korelace R[12].

Řešení:

Mezi náhodnými veličinami X a Y existuje silná nepřímá lineární závislost. Čím starší auto, tím
nižší cena.


2.7. Věta:

Vlastnosti důležitých statistik


a) Případ jednoho náhodného výběru: Nechť X[1], ..., X[n ]je náhodný výběr z rozložení se střední
hodnotou μ, rozptylem σ^2 a distribuční funkcí Φ(x). Nechť n ≥ 2. Označme M[n] výběrový průměr,
S[n]^2 výběrový rozptyl a pro libovolné, ale pevně dané  označme F[n](x) hodnotu výběrové
distribuční funkce. Pak pro libovolné hodnoty parametrů μ , σ^2 a libovolné, ale pevně dané reálné
číslo x platí:

E(M[n]) = μ,

D(M[n]) = ,

E(S[n]^2) = σ^2,

D(S[n]^2) = , kde γ[4] je 4. centrální moment,

E(F[n](x)) = Ф(x),


b) Případ r ≥ 2 stochasticky nezávislých náhodných výběrů: Nechť , ...,  je r stochasticky
nezávislých náhodných výběrů o rozsazích

n[1] ≥ 2, ..., n[r] ≥ 2 z rozložení se středními hodnotami μ[1], ..., μ[r] a rozptylem σ^2. Celkový
rozsah je . Nechť c[1], ..., c[r] jsou reálné konstanty, aspoň jedna nenulová. Pak pro libovolné
hodnoty parametrů μ[1], …, μ[r] a σ^2 platí:

,

E(S[*]^2) = σ^2.


c) Případ jednoho náhodného výběru z dvourozměrného rozložení: Nechť (X[1],Y[1]), ..., (X[n],Y[n])
je náhodný výběr z dvourozměrného rozložení s kovariancí σ[12] a koeficientem korelace ρ. Pak pro
libovolné hodnoty parametrů  σ[12 ]a ρ platí:

E(S[12]) = σ[12],

E(R[12]) ≈ ρ  (shoda je vyhovující pro n  ≥ 30).


2.8. Poznámka:

Metody matematické statistiky často slouží k vyhodnocování výsledků pokusů. Aby mohl být pokus
správně vyhodnocen, musí být dobře naplánován. Uvedeme zde nejjednodušší typy uspořádání pokusů

Předpokládejme například, že sledujeme hmotnostní přírůstky selat téhož plemene při různých
výkrmných dietách.


a) Jednoduché pozorování: Náhodná veličina X je pozorována za týchž podmínek. Situace je
charakterizována jedním náhodným výběrem X[1], ..., X[n].

Náhodně vylosujeme n selat téhož plemene, podrobíme je jediné výkrmné dietě a zjistíme u každého
selete hmotnostní přírůstek. Tím dostaneme realizaci jednoho náhodného výběru.


b) Dvojné pozorování: Náhodná veličina X je pozorována za dvojích různých podmínek. Existují dvě
odlišná uspořádání tohoto pokusu.

     Dvouvýběrové porovnávání: situace je charakterizována dvěma nezávislými náhodnými výběry a .

Náhodně vylosujeme n[1 ]a n[2] selat téhož plemene, náhodně je rozdělíme na dva soubory o n[1 ]a
n[2] jedincích, první podrobíme výkrmné dietě č. 1 a druhý výkrmné dietě číslo 2. Tak dostaneme
realizace dvou nezávislých náhodných výběrů.

    Párové porovnávání: situace je charakterizována jedním náhodným výběrem  z dvourozměrného
rozložení. Přejdeme k rozdílovému náhodnému výběru Z[i] = X[i1] – X[i2], i = 1, …, n a tím
dostaneme jednoduché pozorování.

Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme dva sourozence a
náhodně jim přiřadíme první a druhou výkrmnou dietu. Tak dostaneme realizaci jednoho dvourozměrného
náhodného výběru, kde první složka odpovídá první dietě a druhá složka druhé dietě.

(Párové porovnávání je efektivnější, protože skutečný rozdíl v účinnosti obou diet je překrýván
pouze náhodnými vlivy při samotném krmení a trvání, kdežto vliv různých dědičných vloh, který byl
losováním znárodněn, je u sourozeneckého páru selat částečně vyloučen.)


c) Mnohonásobné pozorování: Náhodná veličina X je pozorována za r ≥ 3 různých podmínek. Existují
dvě odlišná uspořádání tohoto pokusu.

     Mnohovýběrové porovnávání: situace je charakterizována r nezávislými náhodnými výběry až .

Náhodně vylosujeme n[1 ], n[2], …, n[r] selat téhož plemene, náhodně je rozdělíme na r souborů o
n[1 ], n[2], …, n[r] jedincích, první podrobíme výkrmné dietě č. 1, druhý výkrmné dietě číslo 2
atd. až r-tý podrobíme výkrmné dietě číslo r. Tak dostaneme realizace r nezávislých náhodných
výběrů.

     Blokové porovnávání: situace je charakterizována jedním náhodným výběrem  z r-rozměrného
rozložení.

Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme r sourozenců a
náhodně jim přiřadíme první až r-tou výkrmnou dietu. Tak dostaneme realizaci jednoho r-rozměrného
náhodného výběru, kde první složka odpovídá první dietě , druhá složka druhé dietě atd. až r-tá
složka odpovídá r-té dietě.


2.9. Motivace:

Diagnostické grafy slouží především k tomu, aby nám pomohly orientačně posoudit povahu dat a určit
směr další statistické analýzy. Při zpracování dat se často předpokládá splnění určitých podmínek.
V případě jednoho náhodného výběru je to především normalita (posuzujeme ji pomocí NP plotu či
histogramu) a nepřítomnost vybočujících hodnot (odhalí je krabicový diagram).


2.10. Krabicový diagram

Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních
hodnot.

Způsob konstrukce


Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu
(x[0,75 ]+ 1,5q, x[0,75 ]+ 3q) či v intervalu (x[0,25 ]- 3q, x[0,25 ]– 1,5q).

Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x[0,75 ]+ 3q, ∞) či v intervalu  (-∞,
x[0,25 ]- 3q).


Příklad na krabicový diagram

U 30 domácností byl zjišťován počet členů.


Počet členů

                1

                 2

                  3

                   4

                     5

                      6

Počet domácností

                2

                 6

                  4

                   10

                     5

                      3


Pro tyto údaje sestrojte krabicový diagram.


Řešení:

Připomeneme nejprve definici α-kvantilu. Je-li α , pak α-kvantil x[α] je číslo, které rozděluje
uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek
obsahující aspoň podíl 1 – α všech dat. Pro výpočet α-kvantilu slouží algoritmus:


nα =[ ]


Pro speciálně zvolená α užíváme názvů: x[0,50] – medián, x[0,25] – dolní kvartil, x[0,75] – horní
kvartil, x[0,1], ..., x[0,9] – decily, x[0,01], ..., x[0,99] – percentily. Jako charakteristika
variability slouží kvartilová odchylka: q = x[0,75] – x[0,25].


V našem případě rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky.


α

    nα

        c


                        x[α]

0,25

    7,5

        8

          x[(c)]=x[(8)]

                        2

0,50

    15

        15

                        4

0,75

    22,5

        23

          x[(c)]=x[(23)]

                        5


Dolní kvartil je 2, tedy aspoň čtvrtina domácností má aspoň dva členy.

Medián je 4, tedy aspoň polovina domácností má aspoň 4 členy.

Horní kvartil je 5, tedy aspoň tři čtvrtiny domácností mají aspoň 5 členů.


Vypočteme kvartilovou odchylku: q = x[0,75] – x[0,25] = 5 – 2 = 3.

Dolní vnitřní hradba: x[0,25] – 1,5q = 2 – 1,5.3 = -2,5

Horní vnitřní hradba: x[0,75] + 1,5q = 5 + 1,5.3 = 9,5

Nakonec sestrojíme krabicový diagram:

Vidíme, že datový soubor vykazuje určitou nesymetrii – medián je posunut směrem k hornímu kvartilu,
soubor je tedy záporně sešikmen. V souboru se nevyskytují žádné odlehlé ani extrémní hodnoty.


2.11. Pravděpodobnostně – pravděpodobnostní graf (P – P plot)

Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení (např. STATISTICA
nabízí 8 typů rozložení: beta, exponenciální, Gumbelovo, gamma, log-normální, normální, Rayleighovo
a Weibulovo).

Vypočtou se standardizované hodnoty , j = 1, ..., n. Na vodorovnou osu se vynesou hodnoty
teoretické distribuční funkce Φ(z[(j)]) a na svislou osu hodnoty empirické distribuční funkce
F(z[(j)]) = j/n. (Jsou-li některé hodnoty x[(1)] ≤ ... ≤ x[(n)] stejné, pak za j bereme průměrné
pořadí odpovídající takové skupince.) Pokud se body (Φ(z[(j)]), F(z[(j)])) řadí kolem hlavní
diagonály čtverce [0,1] x [0,1], lze usuzovat na dobrou shodu empirického a teoretického rozložení.


Pro posouzení normality dat se používá normální pravděpodobnostní graf (N – P plot): na vodorovnou
osu vynášíme uspořádané hodnoty x[(1)] ≤ ... ≤ x[(n)] a na svislou osu kvantily , kde  (jsou-li
některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající takové skupince).

Pocházejí-li data z normálního rozložení, pak dvojice  budou ležet na přímce.

Pocházejí-li data z rozložení s kladnou šikmostí, pak dvojice  se budou řadit do konkávní křivky.

Pocházejí-li data z rozložení se zápornou šikmostí, pak dvojice  se budou řadit do konvexní křivky.


Příklad na N – P plot:

Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2  1,8  2,1  2,4  1,9
2,1  2  1,8  2,3  2,2. Pomocí normálního pravděpodobnostního grafu posuďte, zda se tato data řídí
normálním rozložením.


Řešení:


                           usp. hodnoty

                                          1,8

                                             1,8

                                                1,9

                                                   2

                                                      2

                                                         2,1

                                                            2,1

                                                               2,2

                                                                  2,3

                                                                     2,4

                           pořadí

                                          1

                                             2

                                                3

                                                   4

                                                      5

                                                         6

                                                            7

                                                               8

                                                                  9

                                                                     10

                           průměrné pořadí

                                          1,5

                                             1,5

                                                3

                                                   4,5

                                                      4,5

                                                         6,5

                                                            6,5

                                                               8

                                                                  9

                                                                     10


Vektor hodnot průměrného pořadí: j = (1,5  3  4,5  6,5  8  9  10),

vektor hodnot ,

vektor kvantilů .

Normální pravděpodobnostní graf

Protože dvojice  téměř leží na přímce, lze usoudit, že data pocházejí z normálního rozložení.


2.12. Histogram

Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického
rozložení. (Ve STATISTICE je pojem histogramu širší, skrývá se za ním i sloupkový diagram.)

Způsob konstrukce ve STATISTICE: na vodorovnou osu se vynášejí třídicí intervaly (implicitně 10,
jejich počet lze změnit, stejně tak i meze třídicích intervalů) či varianty znaku a na svislou osu
absolutní nebo relativní četnosti třídicích intervalů či variant. Do histogramu se zakreslí tvar
hustoty (či pravděpodobnostní funkce) vybraného teoretického rozložení.


Příklad na histogram

U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč).


                                        Výdaje

                                        Počet dom.

                                                  7

                                                   16

                                                     27

                                                       14

                                                         4

                                                          2


Nakreslete histogram.


Řešení:

Histogram s proloženou hustotou pravděpodobnosti normálního rozložení

Vidíme, že tvar histogramu se poněkud odchyluje od tvaru hustoty pravděpodobnosti normálního
rozložení. Malé hodnoty jsou četnější než velké – datový soubor je kladně sešikmen.


Vlastnosti rozložení četností datového souboru se projeví ve vzhledu histogramu, N–P plotu a
krabicového diagramu, jak vidíme na na následujícím obrázku: