M5VM05 Statistické modelování 1. Průzkumová analýza dat
Jan Koláček (kolacek@math.muni.cz)
Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
1/37
Průzkumová analýza jednorozměrných dat
Průzkumová analýza dat je odvětví statistiky, které pomocí různých postupů odhaluje zvláštnosti v datech. Při zpracování dat se často používají metody, které jsou založeny na předpokladu, že data pocházejí z nějakého konkrétního rozložení, nejčastěji normálního. Tento předpoklad nemusí být vždy splněn, protože data
mohou pocházet z jiného rozložení mohou být zatížena hrubými chybami mohou pocházet ze směsi několika rozložení.
Proto je důležité provést průzkumovou analýzu dat, abychom se vyvarovali neadekvátního použití statistických metod.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
2/37
Funkcionální charakteristiky datového souboru
Označení
Na množině objektů {či,...,£n} zjišťujeme hodnoty znaku X. Hodnotu znaku X na objektu £j označíme X\,i = 1,... ,n. V teorii pravděpodobnosti se jim také říká realizace náhodné veličiny X. Tyto hodnoty zaznamenáme do jednorozměrného datového souboru:
Uspořádané hodnoty       < X(2) < ... < x^ tvoří uspořádaný datový soubor:
x(-) = (*(1)/- • -/*(n))'-
Vektor
x
[.] — (*[!]/• • - rx[r])''
kde x^j < ... < Xjr], r <n, jsou navzájem různé hodnoty znaku X, se nazývá vektor variant.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
3/37
Bodové rozložení četností
indikátor množiny :
/1   x G B,
h (x) =
0   x é B.
Pro datový soubor x = {x\,... ,xn)ř definujeme následující pojmy 9 absolutní četnost varianty x^y
n
ni = ĽI{xij]}^
i=l
9 relativní četnost varianty x^y
V] z J n
• absolutní kumulativní četnost prvních j variant:
Nj = rt\ + ... + tij
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
4/37
relativní kumulativní četnost prvních j variant:
N;
9 četnost ní funkce
p(x) = h   Prox = x{j], j = l,...,r 1 0 jinak
• empirická distribuční funkce :
n
i=l
Absolutní či relativní četnosti znázorňujeme graficky např. pomocí sloupkového diagramu či polygonu četností.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
5/37
Příklad
U 30 domácností byl zjišťován počet členů.
Počet členů_1    2   3    4    5 6
Počet domácností   2   6   4    10   5 3
Vytvořte tabulku rozložení četností. Nakreslete grafy četnostní funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností počtu členů domácnosti. Řešení. Tabulka rozložení četností:
X	\í.	m	Pj		
1		2	2/30	2	2/30
2		6	6/30	8	8/30
3		4	4/30	12	12/30
4		10	10/30	22	22/30
5		5	5/30	27	27/30
6		3	3/30	30	1
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
6/37
Příklad — pokračování
cd ü
C
3
co o c
-t—»
(d
>ü
-I—'
o c "O
o
(d ü
-xĺ C
'E >ü
-t—» w
TD
O i_
Q_
E
cd
-I—'
O
c
"O
o
počet členů domácnosti
počet členů domácnosti
Obr. : Graf četnost n f funkce
Obr. : Graf empirické distribuční f u n kce
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
7/
Příklad — pokračování
CD Q.
3 4 počet členů domácnosti
-CO
> o
o
N O
cl
-t—>
CĽ
>o o Cl
počet členů domácnosti
Obr. : Sloupkový diagram
Obr. : Polygon četností
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
8/
Intervalové rozložení četností
třídicí intervaly {u\, 112),..., {uľ, ur+\ doporučuje se volit r blízke y/ň.
Cetnostní hustota j-tého třídicího intervalu je definována vztahem
h dj
kde dj = Uj+i — Uj. Soustava obdélníků sestrojených nad třídicími intervaly, jejich plochy jsou rovny relativním četnostem, se nazývá histogram .
hustota četnosti
1 0 jinak
(grafem hustoty četnosti je schodovitá čára shora omezující histogram) Intervalová empirická distribuční funkce :
X
F(x) =  í f(t)dt.
Jan Koláček (PřF MU)
00
M5VM05 Statistické modelování
Příklad
U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč).
Výdaje_(35,65)     (65,95)     (95,125)     (125,155)     (155,185) (185,215)
Počet domácností        7 16 27 14 4 2
Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce.
Řešení. Tabulka rozložení četností
(Uj, Uj+i)	rij	Pj		fj	Ni	
(35,65)	7	7/70	V	'2100	7	7/70
(65,95)	16	16/70	!6	/2100	23	23/70
(95,125)	27	27/70	2ľ'	/2100	50	50/70
(125,155)	14	14/70	14	/2100	64	64/70
(155,185)	4	4/70	4/	'2100	68	68/70
(185,215)	2	2/70	2/	'2100	70	1
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Příklad — pokračování
i-1-1-1 i-1-1-1-1-1-1-1-1
50 100 150 200 5 35 65 95 125        155        185        215 235
výdaje výdaje
Obr. : Histogram Obr. : Graf intervalové empirické
distribuční funkce
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Číselné charakteristiky datového souboru
Znaky nominálního typu
Nominální škála klasifikuje objekty do určitých předem vymezených tříd či kategorií. Hodnoty v nominální škále se dají vyjádřit slovně a mezi různými hodnotami není definováno žádné uspořádání. Pokud jsou hodnoty nominální škály někdy označovány číselně, mějme na paměti, že toto číslo je pouze jakousi zkratkou (kódem) slovní hodnoty. O znacích měřených v nominální škále hovoříme jako o znacích nominálního typu.
Příklady znaků nominálního typu mohou být např.:
o pohlaví (s možnými hodnotami mužské, ženské)
• barva očí (modrá, hnědá, černá)
o výsledek léčby (uzdraven, zemřel)
a národnost (česká, slovenská, polská, německá, ...)
Charakteristikou polohy je modus - nejčetnější varianta či střed nejčetnějšího intervalu. (Modus je jediná charakteristika polohy vhodná pro nominální veličiny).
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
12/37
Číselné charakteristiky datového souboru
Znaky ordinálního typu Znaky ordinálního typu lze podle sledované vlastnosti nejen rozlišovat, ale také uspořádat ve smyslu vztahů „je větší", „je menší" nebo „předchází", „následuje", aniž bychom však byli schopni vyjádřit číselně vzdálenost mezi větším a menším či mezi předcházejícím a následujícím.
Znaky ordinálního typu mohou být např.:
• dosažené vzdělání (základní, střední, vysokoškolské)
• prospěch ve školním předmětu (výborně, velmi dobře, dobře, nevyhověl) o stav pacienta (vyléčen, remise, recidiva)
• hodnocení funkce technických zařízení (stupně závažnosti poruchy jaderné elektrárny)
a hodnocení postojů v sociologických průzkumech (škála má hodnoty např. souhlasím, spíše souhlasím, spíše nesouhlasím, nesouhlasím)
• četnost výskytu (často, občas, zřídka, nikdy) Vhodnou charakteristikou polohy je #-kvantil .
Je-li oc £ (0;1), pak #-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl oc všech dat a na horní úsek obsahující aspoň podíl 1 — oc všech dat.
Jan Koláček (PřF MU) M5VM05 Statistické modelování 13 / 37
Číselné charakteristiky datového souboru
Pro výpočet #-kvantilu slouží algoritmus:
noc = <
celé číslo c necelé číslo
_ *(c)+*(c+l)
zaokrouhlíme nahoru na nejbližší celé číslo
xoc x[c)
Pro speciálně zvolená oc užíváme názvů:
9 x0,50 ~ nnedián
9 x0,25 ~ dolní kvartil
9 x0,75 ~ horní kvartil
« xq,1/ • • • /xo,9 ~ decily
9 xo,oi/ - • • /xo,99 ~ percentily. Jako charakteristika variability slouží kvartilová odchylka
9 — *o,75 — x0,25
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Příklad
Během semestru se studenti podrobili písemnému testu z matematiky, v němž bylo možno získat 0 až 10 bodů. Výsledky jsou uvedeny v tabulce:
Počet bodů        0123456789 10 Počet studentů    1    4   6   7    11    15    19    17    12   6 3~~
Zjistěte modus, medián, l.decil, 9. decil a kvartilovou odchylku počtu bodů.
Řešení. Modus je nejčetnější varianta znaku, v tomto případě tedy 6. Vypočtěme rozsah datového souboru: n = l+ 4+ -- -+ 3 = 101. Výpočty uspořádáme do tabulky.
a.	na.	c	
0,50	50,5	51	6
0,10	10,1	11	2
0,90	90,9	91	8
0,25	25,25	26	4
0,75	75,75	76	7
Kvartilová odchylka: q = 7 — 4 = 3.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
15/37
Znaky intervalového a poměrového typu
U znaků intervalového typu lze stanovit vzdálenost mezi hodnotami měřené veličiny. Je zde definována jednotka měření, avšak nula je definována pouze relativně. To nám dovoluje proto počítat s rozdíly naměřených hodnot, nikoliv s jejich podíly. Typickým příkladem je teplota, která se dá měřit v různých stupnicích (Celsiova, Fahrenheitova).
U znaků poměrového typu lze určit nejen rozdíly (intervaly) mezi hodnotami, ale i podíly hodnot, nebot tyto znaky mají nulu stanovenu absolutně a jednoznačně. Charakteristiky polohy:
• Aritmetický průměr x:
U poměrových znaků, které nabývají pouze kladných hodnot, lze použít • geometrický průměr:
(i)
\/X\ •... • xn
(2)
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
16/37
Znaky intervalového a poměrového typu
Charakteristiky variability
roz
ptyl :
1 n
směrodatná odchylka
s = v s2
koeficient variace (pro poměrové znaky)
s
Rozptyl se zpravidla počítá podle vzorce s2 = ^ ^ x? — x2
z=l
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Znaky intervalového a poměrového typu
Známe-li absolutní či relativní četnosti variant x^j,... ,X[rj, můžeme spočítat • vážený průměr:
nebo
1 r
* = ň Ľ nix\j] (6)
i=1
• vážený rozptyl :
1 r
s2 = -Lnj(x\j]-*)2 (7)
r
Vážený rozptyl se zpravidla počítá podle vzorce s2 = ^ ^        — x2.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
18 / 37
Znaky intervalového a poměrového typu
Aritmetický průměr a rozptyl jsou speciální případy tzv. momentů. V následující definici obecně zavedeme fc-tý počáteční a centrální moment.
• fc-tý počáteční moment:
1 n
mfk = -J^ x\,   kdefc = l,2,... (8)
• fc-tý centrální moment:
1 n
m^ — — Y^(xz- — m)k,   kdefc=l,2,... (9)
n ,
i=i
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
19 / 37
Znaky intervalového a poměrového typu
Pomoci 3. a 4. centrálního momentu se definuje šikmost a špičatost
• šikmost:
Sikmost měří nesouměrnost rozložení četností kolem průměru • špičatost:
= —r - 3
Špičatost měří koncentraci rozložení četností kolem průměru.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Příklad
Pro údaje z příkladu o domácnostech vypočtěte průměr a rozptyl počtu členů domácnosti. Řešení
x=^(l.2 + 2-6 + 3-4 + 4-10 + 5-5 + 6-3) = =3,63
s2 = ^(12 . 2 + 22 . 6 + 32 . 4 + 42.1o + 5+5 + 62-3)- (^) =i$ = 1,965
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Příklad
Nechť x je průměr a s\ rozptyl hodnot X\,... ,xn. Nechť a,b jsou reálné konstanty. Položme yi = a + bx\, Vypočtěte průměr y a rozptyl hodnot
y i / • • • / y n ■
Řešení
y = \ E 3/z = \ E (0 +      =a + bTi L*i = a + bx,
i=l i=l i=l
Š = \í (y, - y)2 = \ Ľ (« +    - a - bx)2 = b2\ E (Xi - x)2 = b2s\.
i=l i=l i=l
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
22 / 37
Diagnostické grafy
Krabicový diagram (Box plot)
Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Můžete se setkat i z názvem box plot.
Krabicový diagram je specifikován těmito pojmy: • Dolní vnitřní hradba :
Horní vnitřní hradba :
Dolní vnější hradba : Horní vnější hradba :
*o,25 - 1/ 5q
xo,25 — 3q
x0,75 + 3íJ
Odlehlá hodnota je hodnota, která leží mezi vnitřními a vnějšími hradbami Extrémní hodnota je hodnota, která leží za vnějšími hradbami.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
23 / 37
Diagnostické grafy
Způsob konstrukce krabicového diagramu:
dolní kvartil
*0.25
horní kvartil
*0.75
O   O o odlehlá pozorovaní
medián
*0.5
horní vnitřní hradba xq.75 +1-5 q
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Příklad
Pro data z příkladu o domácnostech sestrojte krabicový diagram.
Počet členů_1    2   3    4    5 6
Počet domácností   2   6   4    10   5 3
Řešení.
Rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky.
a	na.	c		"X-a
0,25	7,5	8	x(c) — x(8)	2
0,50	15	15	x(15)+x(16) 2	4
0,75	22,5	23	x(c) = x(23)	5
q = 5-2 = 3
Dolní vnitřní hradba: Xq,25 — 1,5íj = 2 — 1,5.3 = —2,5 Horní vnitřní hradba: Xq/75 + 1,5^ = 5 + 1,5.3 = 9,5
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
25/
Příklad
Obr. : Krabicový diagram
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
26
Diagnostické grafy
Normál probability plot (N-P plot)
N-P plot konstruujeme tak, že na vodorovnou osu vynášíme uspořádané hodnoty *(l) < • • • < x (n) a na svislou osu kvantily normálního rozdělení kde
_ 3J~1
Jsou-li některé hodnoty < • • • < x^ stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.
• Pocházejí-li data z normálního rozložení, pak budou všechny dvojice
• Pro data z rozložení s kladnou šikmostí se budou dvojice [x^yu^ řadit do konkávni křivky.
o Pro data z rozložení se zápornou šikmostí se budou dvojice (x^yu^ řadit do konvexní křivky.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
27/37
Diagnostické grafy
Quantile - quantile plot (Q-Q plot)
Q-Q plot konstruujeme tak, že na svislou osu vynášíme uspořádané hodnoty < • • • < x(n) a na vodorovnou osu kvantily Xa.(X) vybraného rozložení, kde
] ~ ^adi
J    n + nadj
přičemž ra^ a n^j jsou korigující faktory < 0,5. Implicitně se klade r^j = 0,375 a nadj = 0,25. Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadují z dat, nebo se volí na základě teoretického modelu. Body (X^.(X),x^) se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím lepší je soulad mezi empirickým a teoretickým rozložením.
Jsou-li některé hodnoty x^ < • • • < x^ stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
28 / 37
Příklad
Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2   1,8   2,1   2,4   1,9   2,1   2   1,8   2,3 2,2.
Pomocí N-P plotu a Q-Q plotu ověřte, zda se tato data řídí normálním rozložením. Řešení
usp. hod noty	1,8	1,8	1,9	2	2	2,1	2,1	2,2	2,3	2,4
pořadí	1	2	3	4	5	6	7	8	9	10
průměrné pořadí	1,5	1,5	3	4,5	4,5	6,5	6,5	8	9	10
• N-P plot:
/ = (1,5; 3; 4,5; 6,5; 8; 9; 10)
a. = Jg_ = (0,1129; 0,2581; 0,4032; 0,5968; 0,7419; 0,8387; 0,9355) ua. = (-1,2112; -0,6493; -0,245; 0,245; 0,6493; 0,9892; 1,5179)
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Příklad
Q-Q plot:
j =(1,5; 3; 4,5; 6,5; 8; 9; 10)
- = (0,1098; 0,2561; 0,4024; 0,5976; 0,7439; 0,8415; 0,939)
aj ~ n+0,25
ua. = (-1,2278; -0,6554; -0,247; 0,247; 0,6554; 1,0005; 1,566)
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
30 / 37
Diagnostické grafy
Probability - probability plot (P-P plot) Spočtou se standardizované hodnoty
X X
^(j) ~      '     ]      \f . . . fľl.
Na vodorovnou osu se vynesou hodnoty teoretické distribuční funkce O(z^) a na
svislou osu hodnoty empirické distribuční funkce F(z^) = j/n. Pokud se body
(<E>(zy)),F(zy))) řadí kolem hlavní diagonály čtverce (0,1) x (0,1), lze usuzovat na dobrou shodu empirického a teoretického rozložení.
Jsou-li některé hodnoty < ... < stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
31/37
Diagnostické grafy
Histogram
Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. Např. normálního, Pearsonova, Studentova a jiných.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
32
Diagnostické grafy
Vzhled diagnostických grafů pro rozložení s různou šikmostí
Vlastnosti rozložení četností datového souboru se projeví ve vzhledu histogramu,
N-P plotu a krabicového diagramu, jak ukazují následující obrázky:
Rozložení s kladnou Normální rozložení        Rozložení se zápornou
šikmostí šikmostí
Obr. : Histogramy
Obr. : N-P plot
Obr. : Box plot
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Úlohy k procvičení
Příklad 1
U 20 studentů 1. ročníku byla zjišťována známka z matematiky na prvním zkušebním termínu.
Známka 12   3 4
Počet studentů    7   3   2 8
Vytvořte tabulku rozložení četností Nakreslete grafy četnostní funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností známek.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
35 / 37
Úlohy k procvičení
Příklad 2
U 60 vzorků oceli byla zjišťována mez plasticity.
Mez plasticity     (30,50)     (50,70)     (70,90)     (90,110)     (110,130)      (130,150) (150,170) Počet vzorků 8 4 13 15 9 7 4
Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce.
Příklad 3 |
Pro údaje z příkladu 2 vypočtěte průměr a rozptyl meze plasticity. I
/ž = 96,67, s2 = 1148,897 I
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
36 / 37
Úlohy k procvičení
Příklad 4
V datovém souboru, z něhož byl vypočten průměr 110 a rozptyl 800, byly zjištěny 2 chyby: místo 85 má být 95 a místo 120 má být 150. Ostatních 18 údajů je správných. Opravte průměr a rozptyl.
[x = 112, s2 = 85iy
Příklad 5 i
Pro údaje z příkladu 1 sestrojte krabicový diagram. I [x0,50 = 2,5, Xo,25 = 1/ xo,75 = 4, g = 3, dolní vnitřní hradba = —3,5, ňorn/l vnitřní hradba = 8,5/
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
37/37