1
DATA ® INFORMACE
Statistická analýza je založena na zhušťování informace – tj. jak s co nejmenšího množství vhodně
zvolených údajů vytěžit maximum relevantních informací.
1.prvotní zápis – údaje v té podobě, jak jsou naměřeny
2.tříděný soubor – jednotlivá měřená data jsou tříděna do tříd
3.statistické charakteristiky – speciální veličiny, které podávají koncentrovanou formou informaci
o podstatných statistických vlastnostech studovaného souboru

2
STATISTICKÉ CHARAKTERISTIKY


3
STATISTICKÉ CHARAKTERISTIKY
•Typy charakteristik:
•1. polohy –       reprezentace souboru na číselné ose
*
*
*
•

4
STATISTICKÉ CHARAKTERISTIKY
•Typy charakteristik:
•2. variability – rozptýlení hodnot po číselné ose navzájem a   vůči charakteristice polohy
•
*
•

5
STATISTICKÉ CHARAKTERISTIKY
•Typy charakteristik:
•3. tvaru – rozložení četností hodnot
•
•
*
•

6
CHARAKTERISTIKY POLOHY
* ARITMETICKÝ PRŮMĚR – hodnota reprezentující všechny hodnoty souboru s nejmenší chybou
•
* MEDIÁN – 50% kvantil, prostřední hodnota vzestupně uspořádaného souboru
•
* MODUS – nejčastěji se vyskytující hodnota v souboru

7
ARITMETICKÝ PRŮMĚR
* základní statistická MOMENTOVÁ charakteristika polohy
* je to hodnota, která reprezentuje VŠECHNY hodnoty souboru s nejmenší chybou
* fyzikálně je možné jej považovat za těžiště souboru
>

8
MEDIÁN
* základní statistická KVANTILOVÁ  charakteristika polohy
* je to hodnota, která reprezentuje PROSTŘEDNÍ PRVEK VZESTUPNĚ USPOŘÁDANÉHO SOUBORU
>

9
MODUS
* nejčastěji se vyskytující hodnota souboru
* existují soubory:
* amodální – bez modu (všechny prvky souboru mají stejnou četnost)
* unimodální – jeden modus
* polymodální – dva a více modů
* nemá příliš velkou vypovídací schopnost

10
POUŽITÍ PRŮMĚRU A MEDIÁNU
Soubor bez extrémních hodnot:
Soubor s extrémními hodnotami:

11
CHARAKTERISTIKY VARIABILITY
* informují o tom, jak jsou jednotlivé hodnoty souboru rozptýleny, tj. jak se jednotlivé hodnoty
znaku liší vzhledem k sobě navzájem nebo vzhledem ke střední hodnotě
* existují dva typy:
*   absolutní - mají rozměr studované veličiny
*   relativní (poměrné) - bez rozměru nebo v procentech. Jsou vhodné pro porovnání  variability
různých souborů

12
CHARAKTERISTIKY VARIABILITY
* variační rozpětí – rozdíl maximální a minimální hodnoty
* rozptyl – základní momentová míra variability, průměr odchylek od průměru
* směrodatná odchylka – odmocnina z rozptylu, využívaná hlavně pro popis souborů
* variační koeficient – relativní míra variability užívaná ke srovnání variability různých souborů
* kvantilové odchylky – kvantilová míra variability počítaná obvykle z kvartilů nebo decilů
* interkvartilové rozpětí – rozdíl horního a dolního kvartilu

13
ROZPTYL
Rozptyl je základní mírou variability. Je  to aritmetický průměr čtverců odchylek od průměru a je
tedy konstruován k vyjádření variability hodnot kolem  průměru, ale vyjadřuje i vzájemnou odlišnost
hodnot znaku.

14
ROZPTYL
pro ZS:
pro VS:
pro tříděný soubor:
>

15
SMĚRODATNÁ ODCHYLKA
je odmocnina z rozptylu. Rozměr směrodatné odchylky je stejný jako rozměr veličiny, což je její
hlavní výhodou oproti rozptylu pro účely popisné statistiky.

16
VARIAČNÍ KOEFICIENT
je relativní  mírou variability a používá se k vzájemnému porovnávání variability různých souborů.
>

17
KVANTILOVÉ MÍRY VARIABILITY
Kvantilové odchylky jsou horší mírou variability než momentové charakteristiky. Používají se tam,
kde nelze použít momentové charakteristiky (silně nenormální rozdělení, výskyt extrémních hodnot,
apod.)
Kvartilová odchylka:
Interkvartilové rozpětí:
>

18
CHARAKTERISTIKY TVARU
•měří odchylku v rozložení četností hodnot oproti danému referenčnímu rozdělení četností (obvykle
normálnímu): Skládá se ze dvou složek:
*   nesouměrnosti (šikmosti, asymetrie)
*   špičatosti (zahrocenosti, excesu)

19
NESOUMĚRNOST
se projevuje tím, že v souboru je více hodnot menších než větších ve srovnání se střední hodnotou
(levostranná nesouměrnost) nebo více hodnot větších než menších ve srovnání se střední hodnotou
(pravostranná nesouměrnost).

20
NESOUMĚRNOST
měříme koeficientem nesouměrnosti
A > 0
A = 0
A < 0

21
NESOUMĚRNOST
Souměrné rozdělení:
Průměr = medián = modus
A = 0

22
NESOUMĚRNOST
modus medián průměr
Levostranné (doprava sešikmené) rozdělení

23
NESOUMĚRNOST
průměr medián              modus
Pravostranné (doleva sešikmené) rozdělení
A < 0

24
ŠPIČATOST
je mírou koncentrace dat kolem určité hodnoty nebo skupiny hodnot ve srovnání s určitým definovaným
rozdělením veličiny (např. normálním). Rozlišujeme rozdělení:
*   ploché – koncentrace dat kolem určité hodnoty je NIŽŠÍ než odpovídá definovanému rozdělení
(tedy četnosti kolem této hodnoty jsou nižší)
*   špičaté - koncentrace dat kolem určité hodnoty je VYŠŠÍ než odpovídá definovanému
rozdělení(tedy četnosti kolem této hodnoty jsou vyšší)
*   odpovídající danému definovanému rozdělení (např. normální)

25
ŠPIČATOST
odpovídající danému rozdělení
špičaté
ploché

26
ŠPIČATOST
Mírou špičatosti je koeficient špičatosti:
Pro normální rozdělení platí:
E  =  0 (3)  normálně zahrocené
E  <  0  (3) ploché
E  >  0 (3) špičaté

27
BODOVÉ ODHADY
ZÁKLADNÍCH PARAMETRŮ
Odhad střední hodnoty:
Odhad rozptylu:
korekce vychýlení

28
BODOVÉ ODHADY
ZÁKLADNÍCH PARAMETRŮ
hodnoty výběrového souboru
hustota pravděpodobnosti základního souboru
m
tato vzdálenost je pro jeden konkrétní výběr neznámá, není možné určit spolehlivost konkrétního
odhadu
>

29
INTERVALOVÉ ODHADY PARAMETRŮ ZS
Interval spolehlivosti pro parametr  t  při hladině významnosti aÎ(0,1) je určen statistikami T1 a
T2:.
toto je bodový odhad neznámé střední hodnoty m vypočítaný z prvků výběru – nevíme nic o jeho vztahu
ke skutečné střední hodnotě
T1
T2
toto je intervalový odhad neznámé střední hodnoty  - předpokládáme, že s pravděpodobností P =1-a
leží m kdekoli v tomto úseku číselné osy
>

30
INTERVALOVÉ ODHADY PARAMETRŮ ZS
T1
T2
P = 1 - a = 1 – (a1 + a2)
a1
a2
t
T
t
a1 a a2 představují statistické riziko, že skutečná hodnota parametru t bude ležet mimo hranice
T1 a T2

31
JEDNOSTRANNÉ
INTERVALOVÉ ODHADY
levostranný odhad
pravostranný odhad

32
POROVNÁNÍ JEDNOSTRANNÉHO A ODOUSTRANNÉHO ODHADU
T1
oboustranný intervalový odhad
P = 1 - a = 1 – (a1 + a2)
a1
a2
t
T
T2
jednostranný  intervalový odhad  P = 1 - a
T1
a

33
HLADINA VÝZNAMNOSTI a
V INTERVALOVÝCH ODHADECH
m
tyto intervaly spolehlivosti „obsahují“ střední hodnotu (jsou tedy „správné“), těch (při
opakovaných výběrech) bude nejméně (1- a).100 %
tento interval spolehlivosti „neobsahuje“ střední hodnotu (je tedy „chybný“), těchto intervalů se
objeví nejvýše (100a) %

34
INTERVAL SPOLEHLIVOSTI
STŘEDNÍ HODNOTY m
Œ je známa směrodatná odchylka s základního souboru nebo je používán velký výběr (nad 30 prvků)
za/2  je kvantil normovaného normálního rozdělení pro hladinu významnosti a/2
dolní hranice
horní hranice
v případě velkého výběru lze použít místo s výběrovou směrodatnou odchylku S

35
INTERVAL SPOLEHLIVOSTI
STŘEDNÍ HODNOTY m
� není známa směrodatná odchylka s základního souboru  a je používán malý výběr (do 30 prvků)
ta/2,n-1  je kvantil Studentova t-rozdělení pro hladinu významnosti a/2 a (n-1) stupňů volnosti
Platí, že veličina                   má t-rozdělení s k =( n – 1) stupni volnosti
ß

36
INTERVAL SPOLEHLIVOSTI
STŘEDNÍ HODNOTY m
Ž velikost základního souboru je známa (N) a výběrový soubor je relativně velký (n > 5 % N)
Používá se korekce na konečný základní soubor:
Účelem korekce je zmenšit standardní chybu

37
INTERVAL SPOLEHLIVOSTI
STŘEDNÍ HODNOTY m
� jednostranné intervaly
Jednostranné intervaly se počítají podle stejných vztahů jako oboustranné, pouze hladina
významnosti je a místo a/2 (veškeré statistické riziko „chybného“ intervalu je na jedné straně)

38
FAKTORY OVLIVŇUJÍCÍ VELIKOST INTERVALU SPOLEHLIVOSTI (IS)
* velikost výběru (čím větší výběr, tím užší IS)
* hladina význanosti a(čím vyšší hodnota a, tím užší interval – nižší hladina významnosti (např.
0,01 místo 0,05) znamená požadavek vyšší spolehlivosti určení IS  - pokud určíme a =0,01,
požadujeme spolehlivost IS P=99%, pokud určíme a =0,05, požadujeme spolehlivost IS P=95%, IS musí
být širší pro P=99% než pro P=95%, protože musíme zaručit vyšší spolehlivost)
* variabilita (čím vyšší hodnota směrodatné odchylky, tím širší IS)
* použitý vzorec (pokud používáme t-rozdělení, je IS širší než při použití N(0,1), rozdíl je
markantnější u malých výběrů)

39
FAKTORY OVLIVŇUJÍCÍ VELIKOST INTERVALU SPOLEHLIVOSTI


40
INTERVAL SPOLEHLIVOSTI SMĚRODATNÉ ODCHYLKY  s
Výpočet intervalu spolehlivosti směrodatné odchylky využívá c2-rozdělení a je nesouměrný –
nesouměrnost je vyšší u odhadů vycházejících z malých výběrů.
Œ pro malé výběry

41
INTERVAL SPOLEHLIVOSTI SMĚRODATNÉ ODCHYLKY  s
Výpočet intervalu spolehlivosti směrodatné odchylky pro velké výběry využívá normovaného normálního
rozdělení  a je souměrný.
� pro velké výběry (nad 30 prvků)

42
INTERVALY SPOLEHLIVOSTI –
PROVEDENÍ V EXCELU
Œ interval spolehlivosti střední hodnoty
a) pomocí doplňku Analýza dat
rozsah dat výběru
musí být zatrženo !!
hodnota 100.(1-a)%

43
INTERVALY SPOLEHLIVOSTI –
PROVEDENÍ V EXCELU
� pomocí funkce CONFIDENCE
hodnota a
směrodatná odchylka (např. vypočítaná  pomocí modulu „Popisná statistika“
velikost výběru
Způsob Œ počítá interval spolehlivosti podle vzorce
Způsob � počítá interval spolehlivosti podle vzorce

44
*


45
VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR
Vícerozměrný statistický soubor je množina C souběžných realizací určitého počtu veličin X1, X2, …,
Xm.
Množina C vznikne získáním hodnot znaků X1, X2, …, Xm na prvcích množiny n. C je potom množina
uspořádaných m-tic hodnot [x1, x2, …, xm] znaků X1, X2, …, Xm.
>
n-tý OBJEKT
m-tá VELIČINA

46
STATISTICKÁ ZÁVISLOST
D:\výuka 2003-2004 ZS\aplikovaná analýza dat\obrázky statistika\obrázky kupka\14-08-03\4-3.bmp

47
STATISTICKÁ ZÁVISLOST
D:\výuka 2003-2004 ZS\aplikovaná analýza dat\obrázky statistika\obrázky kupka\14-08-03\4-4.bmp
pokud měříme v příliš malém intervalu, nemusí se závislost prokázat!!

48
STATISTICKÁ ZÁVISLOST
D:\výuka 2003-2004 ZS\aplikovaná analýza dat\obrázky statistika\obrázky kupka\14-08-03\4-5.bmp
jedna proměnná je násobkem druhé – v tom případě je možné jednu proměnnou z analýzy vyloučit bez
ztráty informace

49
STATISTICKÁ ZÁVISLOST
* korelace – popisuje vliv změny úrovně jednoho znaku na změnu úrovně jiných znaků a platí pro
kvantitativní (měřené) znaky;
* kontingence – popisuje závislost kvalitativních (slovních, popisných) znaků, které mají více než
dvě alternativy, tzv. množných znaků (např. druh dřeviny, národnost, apod.);
* asociace - popisuje závislost kvalitativních (slovních, popisných) znaků, které mají pouze dvě
alternativy, tzv. alternativních znaků (např. pohlaví, odpovědi typu ano/ne, …).

50
KORELACE
 typy podle počtu korelovaných znaků
*  jednoduchá – popisuje vztah dvou znaků,
*  mnohonásobná – popisuje vztahy více než dvou znaků,
* parciální – popisuje závislost dvou znaků ve vícerozměrném statistickém souboru při vyloučení
vlivu ostatních znaků na tuto závislost·

51
KORELACE
typy podle smyslu změny hodnot
* kladná – se zvyšováním hodnot jednoho znaku se zvyšují i hodnoty druhého znaku
* záporná - se zvyšováním hodnot jednoho znaku se zmenšují hodnoty druhého znaku

52
KORELACE
typy podle tvaru závislosti
*   přímková (lineární) – grafickým obrazem závislosti je přímka (lineární trend)
*   křivková (nelineární) – grafickým obrazem závislosti je křivka (nelineární trend)

53
KORELAČNÍ POČET
         korelační analýza
* zjišťuje existenci závislosti a její druhy,
* měří těsnost závislosti,
* ověřuje hypotézy o statistické významnosti závislosti;

          regresní analýza
* zabývá se vytvořením vhodného matematického modelu závislosti,
* stanoví parametry tohoto modelu,
* ověřuje hypotézy o vhodnosti a důležitých vlastnostech modelu.

54
KORELAČNÍ KOEFICIENT
PRO JEDNODUCHOU KORELACI
párový - zvláštní případ vícenásobného korelačního koeficientu, kdy vyjadřuje míru lineární
stochastické závislosti mezi náhodnými veličinami Xi a Xj,
*         Pearsonův
*         Spearmanův (korelace pořadí)

55
PEARSONŮV KORELAČNÍ KOEFICIENT (r)
>
= normovaná kovariance
podmínkou je dodržení dvourozměného normálního rozdělení

56
PEARSONŮV KORELAČNÍ KOEFICIENT (r)
* míra intenzity vztahu mezi složkami vícerozměrného souboru
* je mírou intenzity lineární závislosti
* je vždy nezáporná
* její limitou je součin směrodatných odchylek
* je symetrickou funkcí svých argumentů
* její velikost je závislá na měřítku argumentů Þ nutnost normování
KOVARIANCE:
>

57
PEARSONŮV KORELAČNÍ KOEFICIENT (r)
Základní vlastnosti Pearsonova korelačního koeficientu:
* je to bezrozměrná míra lineární korelace;
* nabývá hodnoty 0 – 1 pro kladnou korelaci,  0 – (-1) pro zápornou korelaci;
* hodnota 0 znamená, že mezi posuzovanými veličinami není žádný lineární vztah (může být
nelineární) nebo tento vztah zůstal na základě dat, které máme k dispozici, neprokázán;
* hodnota 1 nebo (-1) indikuje funkční závislost;
* hodnota korelačního koeficientu je stejná pro závislost x1 na x2 i pro opačnou závislost x2 na
x1.

58
REGRESNÍ ANALÝZA
Základní úlohou regresní analýzy je nalezení vhodného  modelu studované závislosti.
Snažíme se nahradit každou měřenou (experimentální, empirickou, zjištěnou) hodnotu závisle proměnné
(vysvětlované proměnné) Y  hodnotou teoretickou (modelovou, vyrovnanou, predikovanou), tj. hodnotou
ležící na spojité funkci (modelu) nezávisle proměnné (vysvětlující proměnné) X (X)

59
REGRESNÍ ANALÝZA
měřené hodnoty
modelové (vypočítané) hodnoty

60
REGRESNÍ MODEL
   závisle                          nezávisle proměnná                       regresní    náhodná
proměnná                                                                              parametry
chyba
y = X b + e

61
REGRESNÍ MODEL


62
TEST VÝZNAMNOSTI REGRESNÍHO MODELU – co testujeme
Y = b0 + b1x1 + b2x2 + b3x3 + … + bmxm
Testujeme MODEL JAKO CELEK (zda příslušná kombinace nezávisle proměnných statisticky významně
zpřesní odhad závisle proměnné oproti použití jejího průměru)
Testujeme JEDNOTLIVÉ PARAMETRY (jestliže je daný parametr nevýznamný, příslušná proměnná xj nijak
nepřispívá ke zpřesnění odhadu závisle proměnné a je v modelu zbytečná).

63
TEST VÝZNAMNOSTI REGRESNÍHO MODELU JAKO CELKU
1.Test významnosti korelačního koeficientu
2.Pomocí analýzy rozptylu
Testové kritérium F se porovná s kritickou hodnotou Fa;m-1;n-m.

64
TEST VÝZNAMNOSTI REGRESNÍCH PARAMETRŮ
H0: bj = 0, tj. j-tý regresní parametr je nevýznamný
 pro bj = 0
Pokud platí, že ½t½> ta2;n-m, potom je j-tý regresní parametr statisticky významný a příslušná
proměnná musí zůstat v modelu.