Jednoduchá korelační analýza
Motivace
Uvažme náhodné veličiny X, Y, které jsou aspoň ordinálního typu. Tyto náhodné veličiny mohou
mít různý vztah:
- Deterministická (funkční) závislost: jedna náhodná veličina je spjata s druhou náhodnou veličinou
funkční závislostí vyjádřenou předpisem Y = g(X), např. X – poloměr náhodně vybrané
sériově vyráběné kuličky do kuličkových ložisek, Y = 3
X
3
4
π - objem této kuličky. Každé realizaci
náhodné veličiny X (vysvětlující proměnná) je přiřazena právě jedna realizace náhodné
veličiny Y (vysvětlovaná proměnná).
funkční závislost
0
10
20
0 2 4 6 8 10
vysvětlující proměnná
výsvětlovaná
proměnná
- Stochastická závislost: jedna náhodná veličina ovlivňuje v různé míře druhou náhodnou veličinu,
např. X – věk pracovníka v letech, Y – počet dnů absence za rok. Každé realizaci náhodné
veličiny X může být přiřazeno více realizací náhodné veličiny Y. Závislost může být
jednostranná i oboustranná.
stochastická závislost
0
10
20
0 2 4 6 8 10
vysvětlující proměnná
výsvětlovaná
proměnná
- Stochastická nezávislost: náhodné veličiny se navzájem neovlivňují, např. házíme-li naráz
dvěma kostkami a označíme X – počet ok padlých na jedné kostce, Y – počet ok padlých na
druhé kostce, pak náhodné veličiny X, Y jsou stochasticky nezávislé.
nezávislost
0
2,5
5
7,5
10
0 2 4 6 8 10
vysvětlující proměnná
výsvětlovaná
proměnná
X a Y jsou stochasticky nezávislé, když platí: ( ) ( ) ( ) ( )yxy,x:Ry,x 21
2
ΦΦ=Φ∈∀
X a Y jsou nekorelované, když platí C(X, Y) = 0 (tj. mezi X a Y není žádný lineární vztah).
Ze stochastické nezávislosti vyplývá nekorelovanost, avšak z nekorelovanosti nevyplývá
stochastická nezávislost.
Osnova:
- Spearmanův koeficient pořadové korelace
- testování pořadové nezávislosti
- Pearsonův koeficient korelace a výběrový koeficient korelace
- testování nezávislosti
- porovnání koeficientu korelace s danou konstantou
- porovnání dvou koeficientů korelace
- interval spolehlivosti pro koeficient korelace
Korelační analýza:
• zkoumá, zda existuje závislost mezi dvěma náhodnými veličinami X, Y, které jsou buď
ordinálního nebo intervalového či poměrového typu. Důležité – nelze se spokojit s formálním
matematickým popisem závislosti, závislost musí být logicky zdůvodnitelná!
• pomocí Pearsonova či Spearmanova koeficientu korelace měří těsnost této závislosti
• pro náhodné veličiny intervalového a poměrového typu je založena na předpokladu, že
dvourozměrný náhodný vektor 





Y
X
se řídí dvourozměrným normálním rozložením
N2
















σσρσ
σρσσ






µ
µ
2
221
21
2
1
2
1
, , kde
µ1 = E(X), µ2 = E(Y), σ1
2
= D(X), σ2
2
= D(Y), ρ = R(X,Y)
• při výraznějším porušení předpokladu dvourozměrné normality doporučuje použití metod,
které jsou určeny pro náhodné veličiny ordinálního typu
Spearmanův koeficient pořadové korelace
Charles Edward Spearman (1863 – 1945): Britský psycholog a statistik, zakladatel faktorové
analýzy
Nechť X,Y jsou náhodné veličiny ordinálního typu (tj. obsahová interpretace je možná jenom u
relace rovnosti a relace uspořádání).
Pořídíme dvourozměrný náhodný výběr (X1, Y1), ..., (Xn, Yn) z rozložení, jímž se řídí náhodný
vektor (X, Y). Označíme Ri pořadí náhodné veličiny Xi a Qi pořadí náhodné veličiny Yi,
i = 1, ..., n.
Spearmanův koeficient pořadové korelace:
( )
( )∑
=
−
−
−=
n
1i
2
ii2S
QR
1nn
6
1r .
Tento koeficient nabývá hodnot mezi –1 a 1. Čím je bližší 1, tím je silnější přímá pořadová závislost
mezi veličinami X a Y, čím je bližší –1, tím je silnější nepřímá pořadová závislost mezi
veličinami X a Y. Teoretická hodnota Spearmanova koeficientu se značí ρS.
Vlastnosti Spearmanova koeficientu pořadové korelace
Pro Spearmanův koeficient pořadové korelace platí 1r1 S ≤≤− . Čím je bližší 1, tím je silnější přímá pořadová závislost mezi
veličinami X a Y, čím je bližší –1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y.
Je-li 1rS = resp. 1rS −= , pak realizace ( ) n,,1i,y,x ii K= daného náhodného výběru leží na nějaké rostoucí resp. klesající funk-
ci.
Hodnoty rS se nezmění, když u x-ových a y-ových hodnot provedeme současně vzestupnou či sestupnou transformaci.
Hodnoty rS se vynásobí -1, když u x-ových hodnot provedeme vzestupnou transformaci a u y-ových sestupnou transformaci
či naopak.
Koeficient je symetrický.
Koeficient je rezistentní vůči odlehlým hodnotám.
Význam absolutní hodnoty Spearmanova koeficientu:
mezi 0 až 0,1 … zanedbatelná pořadová závislost,
mezi 0,1 až 0,3 … slabá pořadová závislost,
mezi 0,3 až 0,7 … střední pořadová závislost,
mezi 0,7 až 1 … silná pořadová závislost.
Spearmanův koeficient pořadové korelace se používá v situacích, kdy
- zkoumaná data mají ordinální charakter
- nelze předpokládat, že vztah mezi veličinami X, Y je lineární
- náhodný výběr nepochází z dvourozměrného normálního rozložení
Testování nezávislosti ordinálních veličin
Na hladině významnosti α testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny
proti
- oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny
- levostranné alternativě H1: mezi X a Y existuje nepřímá pořadová závislost
- pravostranné alternativě H1: mezi X a Y existuje přímá pořadová závislost).
Jako testová statistika slouží Spearmanův koeficient pořadové korelace rS.
Nulovou hypotézu zamítáme na hladině významnosti α ve prospěch
- oboustranné alternativy, když │rS│≥ rS,1-α/2(n)
- levostranné alternativy, když rS ≤ - rS,1-α(n)
- pravostranné alternativy, když rS ≥ rS,1-α(n),
kde rS,1-α(n) je kritická hodnota, kterou pro α = 0,05 nebo 0,01 a n ≤ 30 najdeme v tabulkách.
Asymptotické varianty testu
Pro n > 20 lze použít testovou statistiku 2
S
S
0
r1
2nr
T
−
−
= , která se v případě platnosti nulové hypotézy asymptoticky
řídí rozložením t(n-2).
Kritický obor pro oboustrannou alternativu: ( ) ( ) )( ∞−∪−−∞−= α−α− ,2nt2nt,W 2/12/1
Kritický obor pro levostrannou alternativu:
( )( 2nt,W 1 −−∞−= α−
Kritický obor pro pravostrannou alternativu:
( ) )∞−= α− ,2ntW 1 .
Hypotézu o pořadové nezávislosti náhodných veličin X, Y zamítáme na asymptotické hladině významnosti
α, když t0 ∈ W.
Upozornění: Systém STATISTICA používá tuto variantu testu pořadové nezávislosti bez ohledu na rozsah
náhodného výběru.
Pro n > 30 lze použít testovou statistiku 1nrs
− . Platí-li H0, pak 1nrs
− ≈ N(0, 1). Nulovou hypotézu
tedy zamítáme na asymptotické hladině významnosti α ve prospěch
oboustranné alternativy, když ( )∞∪−∞−∈− α−α− ,uu,1nr 2/12/1S
,
levostranné alternativy, když ( α−−∞−∈− 1S u,1nr ,
pravostranné alternativy, když )∞∈− α− ,u1nr 1S
Příklad na testování pořadové nezávislosti (jsou známa pořadí):
Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší
pořadí dostal nejtěžší případ.
Číslo pacienta 1 2 3 4 5 6 7
Hodnocení 1. lékaře 4 1 6 5 3 2 7
Hodnocení 2. lékaře 4 2 5 6 1 3 7
Vypočtěte Spearmanův koeficient a na hladině významnosti 0,05 testujte hypotézu, že hodnocení
obou lékařů jsou pořadově nezávislá.
Řešení:
Na hladině významnosti 0,05 testujeme H0: X, Y jsou pořadově nezávislé náhodné veličiny proti
oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny. V tomto příkladě přímo
známe pořadí Ri (tj. hodnocení 1. lékaře) a pořadí Qi (tj. hodnocení 2. lékaře). Vypočteme
( )
( ) ( ) ( ) ( ) ( ) ( ) ( )[ ] 857,077321365562144
177
6
1r
2222222
2S =−+−+−+−+−+−+−
−
−= .
Kritická hodnota: rS,0,975(7) = 0,745. Protože 0,857 ≥ 0,745, nulovou hypotézu zamítáme na hladině
významnosti 0,05.
Výpočet pomocí systému STATISTICA
Vytvoříme datový soubor o dvou proměnných X (hodnocení 1. lékaře), Y (hodnocení 2. lékaře) a sedmi případech. Do
proměnných X a Y zapíšeme zjištěná hodnocení.
1
X
2
Y
1
2
3
4
5
6
7
4 4
1 2
6 5
5 6
3 1
2 3
7 7
Statistiky – Neparametrické statistiky – Korelace – OK – vybereme Vytvořit detailní report - Proměnné X, Y – OK –
Spearmanův koef. R. Dostaneme tabulku
Spearmanovy korelace (dva lekari.sta)
ChD vynechány párově
Označ. korelace jsou významné na hl. p <,05000
Dvojice proměnných
Počet
plat.
Spearman
R
t(N-2) Úroveň p
X & Y 7 0,857143 3,721042 0,013697
Spearmanův koeficient pořadové korelace nabývá hodnoty 0,857, testová statistika se realizuje hodnotou 3,721, odpovídající
p-hodnota je 0,0137, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o pořadové nezávislosti hodnocení
dvou lékařů ve prospěch oboustranné alternativy.
Příklad na testování pořadové nezávislosti (pořadí musíme stanovit):
Jsou dány realizace náhodného výběru z dvourozměrného rozložení, kterým se řídí náhodný vektor (X,Y): (2,5 13,4), (3,4
15,2), (1,3 11,8), (5,8 13,1), (3,6 14,5). Na hladině významnosti 0,05 testujte hypotézu, že náhodné veličiny jsou pořadově
nezávislé proti oboustranné alternativě.
Řešení:
xi 2,5 3,4 1,3 5,8 3,6
yi 13,4 15,2 11,8 13,1 14,5
Ri 2 3 1 5 4
Qi 3 5 1 2 4
(Ri-Qi)2
1 4 0 9 0
Testová statistika:
( )
( ) 3,014
245
6
1QR
1nn
6
1r
n
1i
2
ii2S
=
⋅
−=−
−
−= ∑
=
Kritická hodnota: pro n = 5 a α = 0,05 je kritická hodnota 0,9. Protože testová statistika se realizuje hodnotou 0,3, hypotézu
o pořadové nezávislosti veličin X a Y nezamítáme na hladině významnosti 0,05.
Výpočet pomocí systému STATISTICA
Postupujeme úplně stejně jako v předešlém případě. Výstupní tabulka má tvar:
Spearmanovy korelace (poradova korelace.sta)
ChD vynechány párově
Označ. korelace jsou významné na hl. p <,05000
Dvojice proměnných
Počet
plat.
Spearman
R
t(N-2) Úroveň p
X & Y 5 0,300000 0,544705 0,623838
Pearsonův koeficient korelace
Karl Pearson (1857 – 1936): Britský statistik
Číslo
( )
( )
jinak0
0)Y(D)X(Dpro
)Y(D)X(D
YX,C
)Y(D
)Y(EY
)X(D
)X(EX
E
Y,XR





>=




 −
⋅
−
=
se nazývá Pearsonův koeficient korelace.
(Pro výpočet Pearsonova koeficentu korelace musíme znát simultánní distribuční funkci Φ(x,y)
v obecném případě resp. simultánní hustotu pravděpodobnosti φ(x,y) ve spojitém případě resp.
simultánní pravděpodobnostní funkci π(x,y) v diskrétním případě.)
Vlastnosti Pearsonova koeficientu korelace
a) R(a1, Y) = R(X, a2) = R(a1, a2) = 0
b) R(a1 + b1X, a2 + b2Y) = sgn(b1b2) R(X, Y) =
( )
( )


<−
>
0bbproY,XR
0bbproY,XR
21
21
c) R(X, X) = 1 pro D(X) ≠ 0, R(X, X) = 0 jinak
d) R(X, Y) = R(Y, X)
e) 1)Y,X(R ≤ a rovnost nastane tehdy a jen tehdy, když mezi veličinami X, Y existuje
s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a, b tak, že pravděpodobnost
P(Y = a + bX) = 1. Přitom R(X, Y) = 1, když b > 0 a R(X, Y) = -1, když b < 0.
(Uvedená nerovnost se na zývá Cauchyova – Schwarzova – Buňakovského nerovnost.)
Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu
veličin X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace
je nulový.
Ilustrace:
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
-1
-0.9
-0.8
-0.7
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
0
Definice nekorelovanosti
Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X
a Y neexistuje žádná lineární závislost. Jsou-li náhodné veličiny X,Y stochasticky nezávislé, pak
jsou samozřejmě i nekorelované.)
Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že
s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají
hodnoty veličiny Y.)
Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že
s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou
hodnoty veličiny Y.)
Výběrový koeficient korelace
Nechť (X1, Y1), ..., (Xn, Yn) náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční
funkcí Φ(x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit:
výběrové průměry ∑
=
=
n
1i
i1 X
n
1
M , ∑
=
=
n
1i
i2 Y
n
1
M ,
výběrové rozptyly ( )∑
=
−
−
=
n
1i
2
1i
2
1 MX
1n
1
S , ( )∑
=
−
−
=
n
1i
2
2i
2
2 MY
1n
1
S ,
výběrovou kovarianci ( )( )∑
=
−−
−
=
n
1i
2i1i12 MYMX
1n
1
S a s jejich pomocí zavedeme
výběrový koeficient korelace





>=
−
⋅
−
−=
∑
=
jinak0
0SSpro
SS
S
S
MY
S
MX
1n
1
R
21
21
12
n
1i
2
2
1
1
12
. Vlastnosti
Pearsonova koeficientu korelace se přenášejí i na výběrový koeficient korelace.
(Spearmanův koeficient pořadové korelace odpovídá Pearsonovu koeficientu korelace aplikovanému
na pořadí.)
Příklad: Výpočet realizace výběrového koeficientu korelace
U 65 zaměstnanců jisté firmy byla zjišťována délka praxe v letech (veličina X) a výška prémií
v Kč (veličina Y). Dvourozměrné rozložení četností je dáno kontingenční tabulkou:
yx
1250 1750 2250 2750 3250 3750 4250
12,5 5 3 0 0 0 0 0
17,5 2 4 4 0 0 0 0
22,5 0 1 6 7 4 0 0
27,5 0 0 1 3 7 1 0
32,5 0 0 0 1 10 5 1
Vypočtěte realizaci r12 výběrového koeficientu korelace R12 a interpretujte jeho hodnotu. Pro
úsporu času máte uvedeny následující součty:
498562500yn,40456xn,172750yn,5,1562xn
7
1k
2
]k[k.
5
1j
2
]j[.j
7
1k
]k[k.
5
1j
]j[.j
==== ∑∑∑∑
====
,
∑∑
= =
=
5
1j
7
1k
]k[]j[jk
4446875yxn
Řešení:
Známe tyto součty:
498562500yn,40456xn,172750yn,5,1562xn
7
1k
2
]k[k.
5
1j
2
]j[.j
7
1k
]k[k.
5
1j
]j[.j
==== ∑∑∑∑
====
,
∑∑
= =
=
5
1j
7
1k
]k[]j[jk
4446875yxn
Vypočteme
průměrnou délku praxe: 038,24
65
5,1562
m1 == ,
průměrnou výšku prémií: 692,2657
65
172750
m2 ==
rozptyl délky praxe: 25,45
65
5,1562
6540456
64
1
s
2
2
1 =













⋅−=
rozptyl výše prémií: 616346
65
172750
65498562500
64
1
s
2
2
2 =













⋅−=
kovariance délky praxe a výše prémií: 4,4597
65
172750
65
5,1562
654446875
64
1
s12
=





⋅⋅−=
koeficient korelace délky praxe a výše prémií: 8705,0
61634625,45
4,4597
r12
==
Pearsonův koeficient korelace dvourozměrného normálního rozložení
Jak bylo uvedeno v motivaci, korelační analýza předpokládá, že daný náhodný výběr pochází
z dvourozměrného normálního rozložení. Proč je tento předpoklad tak důležitý? Odpověď poskytne
následující věta.
Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou
( ) ( ) 













σ
µ−
+
σ
µ−
σ
µ−
ρ−





σ
µ−
ρ−
−
ρ−σπσ
=ϕ
2
2
2
2
2
1
1
2
1
1
2
yyx
2
x
12
1
2
21
e
12
1
y,x , přičemž µ1 = E(X), µ2 = E(Y), σ1
2
= D(X),
σ2
2
= D(Y), ρ = R(X,Y).
Marginální hustoty jsou: ( ) ( )
( )
2
1
2
1
2
x
1
1
e
2
1
...dyy,xx σ
µ−
−∞
∞− πσ
==ϕ=ϕ ∫ ,
( ) ( )
( )
2
2
2
2
2
y
2
2
e
2
1
...dxy,xy σ
µ−
−∞
∞− πσ
==ϕ=ϕ ∫ .
Je-li ρ = 0, pak pro ( ) ( ) ( ) ( )yxy,x:Ry,x 21
2
ϕϕ=ϕ∈∀ , tedy náhodné veličiny X, Y jsou stochasticky
nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného
vektoru je ekvivalentní jejich nekorelovanosti. Pro jiná dvourozměrná rozložení to ne-
platí!
Upozornění: nadále budeme předpokládat, že (X1, Y1), ..., (Xn, Yn) je náhodný výběr rozsahu n z dvourozměrného
normálního rozložení N2
















σσρσ
σρσσ






µ
µ
2
221
21
2
1
2
1
, .
Předpoklad dvourozměrné normality lze orientačně ověřit pomocí dvourozměrného tečkového diagramu: tečky by měly
zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou
totiž elipsy:
Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry µ1 = 0, µ2 = 0, σ1
2
= 1, σ2
2
= 1, ρ = -0,75:
Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1-α)% elipsu konstantní hustoty pravděpodobnosti.
Bude-li více než 100α% teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa
elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé
lineární závislosti.
Testování hypotézy o nezávislosti
Na hladině významnosti α testujeme H0: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. ρ = 0) proti
- oboustranné alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. ρ ≠ 0)
- levostranné alternativě H1: X, Y jsou záporně korelované náhodné veličiny (tj. ρ < 0)
- pravostranné alternativě H1: X, Y jsou kladně korelované náhodné veličiny (tj. ρ > 0).
Testová statistika má tvar: 2
12
12
0
R1
2nR
T
−
−
= .
Platí-li nulová hypotéza, pak T0 ~ t(n-2).
Kritický obor pro test H0 proti
- oboustranné alternativě: ( )( ( ) )∞−∪−−∞−= α−α− ,2nt2nt,W 2/12/1
,
- levostranné alternativě: ( )( 2nt,W 1 −−∞−= α−
,
- pravostranné alternativě: ( ) )∞−= α− ,2ntW 1
.
H0 zamítáme na hladině významnosti α, když Wt0 ∈ .
Příklad: Testování hypotézy o nezávislosti proti oboustranné alternativě
V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet
zhotovených výrobků (náhodná veličina Y):
X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15
Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81.
Předpokládejte, že data pocházejí z dvourozměrného normálního rozložení. Vypočtěte výběrový koeficient korelace mezi X
a Y a na hladině 0,01 testujte hypotézu o nezávislosti X a Y proti oboustranné alternativě.
Řešení:
Vypočteme realizace
výběrových průměrů: m1 = ∑=
n
1i
ix
n
1
= 18,267, m2 = ∑=
n
1i
iy
n
1
= 83,6,
výběrových rozptylů: s1
2
= ( )∑=
−
−
n
1i
2
1i mx
1n
1
= 5,6381, s2
2
= ( )∑=
−
−
n
1i
2
2i my
1n
1
= 121,4,
výběrové kovariance: s12 = ( )( )∑=
−−
−
n
1i
2i1i mymx
1n
1
= 24,2571,
výběrového koeficientu korelace:
21
12
12
ss
s
r = = 0,927.
Realizace testové statistiky: 2
12
12
0
r1
2nr
t
−
−
= = 8,912,
kritický obor ( )( ( ) ) ( )∞∪−∞−=∞∪−∞−= ,012,3012,3,,13t13t,W 995,0995,0 .
Protože Wt0 ∈ , hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. S rizikem omylu nejvýše 1%
jsme tedy prokázali, že mezi počtem směn odpracovaných za měsíc a počtem zhotovených výrobků existuje závislost.
Výpočet pomocí systému STATISTICA
Vytvoříme datový soubor o dvou proměnných X, Y a 15 případech. Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného
tečkového diagramu: Grafy – Bodové grafy – Proměnné X, Y – OK – odškrtneme Typ proložení Lineární – na
záložce Detaily zaškrtneme Elipsa Normální - OK.
10 15 20 25 30
x
50
60
70
80
90
100
110
120
y
Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměn. – X, Y – OK – na záložce Možnosti
vybereme Zobrazit detailní tabulku výsledků – Výpočet.
Korelace (smeny a vyrobky.sta)
Označ. korelace jsou významné na hlad. p < ,05000
(Celé případy vynechány u ChD)
Prom. X &
prom. Y
Průměr Sm.Odch. r(X,Y) r2 t p N Konst.
záv.: Y
Směr.
záv: Y
Konst.
záv.: X
Směrnic
záv.: X
X
X
X
Y
Y
X
Y
Y
18,26667 2,37447
18,26667 2,37447 1,000000 1,000000 15 0,000000 1,000000 0,000000 1,000000
18,26667 2,37447
83,60000 11,01817 0,927180 0,859663 8,923795 0,000001 15 5,010135 4,302365 1,562407 0,199812
83,60000 11,01817
18,26667 2,37447 0,927180 0,859663 8,923795 0,000001 15 1,562407 0,199812 5,010135 4,302365
83,60000 11,01817
83,60000 11,01817 1,000000 1,000000 15 0,000000 1,000000 0,000000 1,000000
Výběrový koeficient korelace se realizoval hodnotou 0,92718, testová statistika nabyla hodnoty 8,924, odpovídající phodnota
je 0,000001, tedy na hladině významnosti 0,01 zamítáme hypotézu o nezávislosti veličin X, Y.
Příklad: Testování hypotézy o nezávislosti proti levostranné alternativě
Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi věkem zaměstnance (náhodná veličina X) a
počtem dní absence za rok (náhodná veličina Y). Proto náhodně vybral údaje o 10 zaměstnancích:
X 27 61 37 23 46 58 29 36 64 40
Y 15 6 10 18 9 7 14 11 5 8
Na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny proti alternativě, že X, Y jsou záporně
korelované náhodné veličiny.
Řešení:
Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu.
-20 0 20 40 60 80 100
X
-10
-5
0
5
10
15
20
25
30
Y
Vzhled diagramu svědčí o tom, že předpoklad je oprávněný.
Na hladině významnosti 0,05 testujeme H0: ρ = 0 proti H1: ρ < 0. Vypočítáme r12 = -0,9325, tedy mezi věkem pracovníka a
počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost.
Realizace testové statistiky: 3053,7
r1
2nr
t
2
12
12
0 −=
−
−
= ,
kritický obor ( )( ( 8595,1,8t,W 95,0 −∞−=−∞−= .
Jelikož Wt0 ∈ , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y ve prospěch levostranné alternativy.
S rizikem omylu nejvýše 5% jsme prokázali, že mezi věkem pracovníka a počtem dnů absence za rok existuje nepřímá
lineární závislost.
Výpočet pomocí systému STATISTICA
Můžeme využít toho, že již známe r12. Statistiky – Pravděpodobnostní kalkulátor – Korelace –
vyplníme n = 10, r = -0,9325, odškrtneme Dvojité, zaškrtneme Výpočet p z r – Výpočet.
V okénku p se objeví hodnota 0,000041, tedy na hladině významnosti 0,05 zamítáme hypotézu o
nezávislosti veličin X a Y ve prospěch levostranné alternativy.
Příklad: Testování hypotézy o nezávislosti proti pravostranné alternativě
Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru.
Číslo studenta 1 2 3 4 5 6 7 8
Počet bodů v 1. testu 80 50 36 58 42 60 56 68
Počet bodů ve 2. testu 65 60 35 39 48 44 48 61
Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně korelované.
Řešení:
Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru z dvourozměrného normálního
rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového diagramu. Tečky by měly vytvořit elipsovitý
obrazec.
0 20 40 60 80 100 120
X
0
20
40
60
80
100
Y
Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat
určitý stupeň přímé lineární závislosti.
Na hladině významnosti 0,05 testujeme H0: ρ = 0 proti pravostranné alternativě H1: ρ > 0.
Výpočtem zjistíme: r12 = 0,6668, t0 = 2,1917. Stanovíme kritický obor: ( ) ) )∞=∞= ;9432,1;6tW 95,0 . Jelikož Wt0 ∈ , zamítáme
na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y ve prospěch pravostranné alternativy. S rizikem omylu
nejvýše 5% jsme prokázali, že mezi výsledky 1. a 2. testu existuje přímá lineární závislost.
Výpočet pomocí systému STATISTICA
Můžeme využít toho, že již známe r12. Statistiky – Pravděpodobnostní kalkulátor – Korelace –
vyplníme n = 8, r = 0,6668, odškrtneme Dvojité, zaškrtneme Výpočet p z r – Výpočet. V okénku
p se objeví hodnota 0,035455, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti
veličin X a Y ve prospěch pravostranné alternativy.
Postup při nesplnění předpokladu dvourozměrné normality
Máme k dispozici realizace náhodného výběru rozsahu 12 z dvourozměrného rozložení:
X 1 3 4 5 6 8 10 11 13 14 16 17
Y 13 15 18 16 23 31 39 56 45 43 37 0
Na hladině významnosti 0,05 testujte hypotézu, že náhodné veličiny X, Y jsou nezávislé proti oboustranné alternativě.
Řešení:
Na hladině významnosti 0,05 testujeme H0: ρ = 0 proti oboustranné alternativě H1: ρ ≠ 0. Pokud neověříme předpoklad
dvourozměrné normality, obvyklým způsobem vypočteme realizaci výběrového koeficientu korelace r12 = 0,3729 a realizaci
testové statistiky t0 = 1,271. Stanovíme kritický obor: ( )( ( ) ) ( )∞∪−∞−=∞∪−∞−= ,2281,22281,2,,10t10t,W 975,0975,0 . Protože
Wt0 ∉ , nezamítáme na hladině významnosti 0,05 hypotézu o nezávislosti náhodných veličin X a Y.
Nyní budeme testovat hypotézu o normalitě náhodné veličiny X a náhodné veličiny Y. Grafické ověření pomocí N-P grafů:
N-P graf pro veličinu X
0 2 4 6 8 10 12 14 16 18
Pozorovaná hodnota
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
Očekávanánormálníhodnota
N-P graf pro veličinu Y
-10 0 10 20 30 40 50 60
Pozorovaná hodnota
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0Očekávanánormálníhodnota
Vzhled grafů svědčí ve prospěch normality.
Testování pomocí Lilieforsovy varianty K - S testu a S – W testu:
Testy normality
Proměnná
N max D Lilliefors
p
W p
X
Y
12 0,130669 p > .20 0,956714 0,736098
12 0,145742 p > .20 0,968954 0,899540
V obou případech hypotézu o normalitě nezamítáme na hladině významnosti 0,05.
Ověření dvourozměrné normality pomocí dvourozměrného tečkového diagramu:
0 2 4 6 8 10 12 14 16 18
X
-10
0
10
20
30
40
50
60
Y
Dvourozměrná normalita je silně porušena, tečky nevyplňují vnitřek elipsovitého obrazce.
Přejdeme tedy k testování hypotézy o pořadové nezávislosti.
Testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě
H1: X, Y jsou pořadově závislé náhodné veličiny.
Vypočítáme Spearmanův koeficient pořadové korelace.
X 1 3 4 5 6 8 10 11 13 14 16 17
Y 13 15 18 16 23 31 39 56 45 43 37 0
Ri 1 2 3 4 5 6 7 8 9 10 11 12
Qi 2 3 5 4 6 7 9 12 11 10 8 1
( )
( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
( ) 4336,0162
286
1
1121904164110411
14312
6
1
1128111010119128
97766544533221
11212
6
1r 22222
2222222
2S
=⋅−=+++++++++++
⋅
−=
=





−+−+−+−+−+
+−+−+−+−+−+−+−
−
−=
Stanovíme kritický obor:
( ) ( ) ( ) ( ) 1,5804,05804,0,11,12r12r,11,nrnr,1W 975,0,S975,0,S2/1,S2/1,S
∪−−=∪−−=∪−−= α−α−
.
Testová statistika se nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině
významnosti 0,05.
Porovnání koeficientu korelace s danou konstantou
Nechť c je reálná konstanta. Testujeme H0: ρ = c proti H1: ρ ≠ c. (Tento test se provádí např. tehdy, když experimentátor
porovnává vlastnosti svých dat s vlastnostmi uváděnými v literatuře.) Test je založen na statis-
tice
( )
3n
1n2
c
c1
c1
ln
2
1
ZU −





−
−
−
+
−= , která má za platnosti H0 pro n ≥ 10 asymptoticky rozložení
N(0,1), přičemž
12
12
R1
R1
ln
2
1
Z
−
+
= je tzv. Fisherova Z-transformace. Kritický obor pro test H0 proti oboustranné
alternativě tedy je ( )∞∪−∞−= α−α−
,uu,W 2/12/1
. H0 zamítáme na asymptotické hladině významnosti
α, když WU ∈ .
Příklad: U 600 vzorků rudy byl stanoven obsah železa dvěma analytickými metodami s výběrovým koeficientem
korelace 0,85. V literatuře se uvádí, že koeficient korelace těchto dvou metod má být 0,9. Na asymptotické
hladině významnosti 0,05 testujte hypotézu
H0: ρ = 0,9 proti H1: ρ ≠ 0,9.
Řešení: 2562,1
85,01
85,01
ln
2
1
Z =
−
+
= ,
( )
2976,53600
16002
9,0
9,01
9,01
ln
2
1
2562,1U −=−





−
−
−
+
−= ,
Výpočet pomocí systému STATISTICA (pouze přibližný):
Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma korelačními
koeficienty. Do políčka r1 napíšeme 0,85, do políčka N1 napíšeme 600, do políčka r2 napíšeme 0,9, do políčka N2 napíšeme
32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme p-hodnotu 0,0000, tedy zamítáme nulovou hypotézu na
asymptotické hladině významnosti 0,05.
Upozornění: Pokud bychom chtěli pomocí systému STATISTICA provést přesnější test s využitím statistiky U, můžeme
vypočítat Fisherovu Z- transformaci pomocí Pravděpodobnostního kalkulátoru – Korelace, kde zadáme realizaci výběrového
koeficientu korelace, rozsah výběru. Zajímá nás Fisher z.
Porovnání dvou korelačních koeficientů
Nechť jsou dány dva nezávislé náhodné výběry o rozsazích n a n*
z dvourozměrných normálních rozložení s korelačními
koeficienty ρ a ρ*
. Testujeme H0: ρ = ρ*
proti H1: ρ ≠ ρ*
.
Označme R12 výběrový korelační koeficient 1. výběru a R12
*
výběrový korelační koeficient 2. výběru.
Položme
12
12
R1
R1
ln
2
1
Z
−
+
= a *
12
*
12*
R1
R1
ln
2
1
Z
−
+
= .
Platí-li H0, pak testová statistika
3n
1
3n
1
*
*
ZZ
U
−−
+
−
= má asymptoticky rozložení N(0,1).
Kritický obor pro test H0 proti oboustranné alternativě tedy je ( )∞∪−∞−= α−α− ,uu,W 2/12/1 .
H0 zamítáme na asymptotické hladině významnosti α, když WU ∈ .
Příklad: Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů trpících určitou ledvinovou chorobou.
U 100 zdravých jedinců činil výběrový korelační koeficient mezi koncentracemi obou látek 0,65 a u 142 osob trpících
zmíněnou chorobou byl 0,37. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že korelační koeficienty
v obou skupinách se neliší.
Řešení: 3884,0
37,01
37,01
ln
2
1
Z,7753,0
65,01
65,01
ln
2
1
Z *
=
−
+
==
−
+
= , 9242,2
3884,07753,0
U
3142
1
3100
1
=
+
−
=
−−
, u0,975 = 1,96, ( )∞∪−∞−= ,96,196,1,W .
Protože WU ∈ , H0 zamítáme na asymptotické hladině významnosti 0,05.
Výpočet pomocí systému STATISTICA:
Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl
mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,65, do políčka N1 napíšeme 100,
do políčka r2 napíšeme 0,37, do políčka N2 napíšeme 142 - Výpočet. Dostaneme p-hodnotu
0,0038, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05.
Interval spolehlivosti pro korelační koeficient
Jestliže dvourozměrný náhodný výběr rozsahu n pochází z dvourozměrného normálního rozložení, jehož korelační koeficient
se příliš neliší od nuly (je splněna podmínka│ρ│ < 0,5) a rozsah výběru je dostatečně velký (n ≥ 100), lze odvodit, že
100(1-α)% interval spolehlivosti pro ρ má meze
3n
R1
uR
2
12
2/112
−
−
± α− .
Nejsou-li uvedené podmínky splněny, pak nelze tento vzorec použít, protože rozložení výběrového korelačního koeficientu
je příliš zešikmené. V takovém případě využijeme toho, že náhodná veličina
12
12
R1
R1
ln
2
1
Z
−
+
= má i při malém rozsahu
výběru přibližně normální rozložení se střední hodnotou ( )
( )1n21
1
ln
2
1
ZE
−
ρ
+
ρ−
ρ+
= (2. sčítanec lze při větším n zanedbat)
a rozptylem ( )
3n
1
ZD
−
= . Standardizací veličiny Z dostaneme veličinu
)Z(D
)Z(EZ
U
−
= , která má asymptoticky
rozložení N(0,1). Tudíž 100(1-α)% asymptotický interval spolehlivosti pro
ρ−
ρ+
1
1
ln
2
1
bude mít meze
3n
u
Z 2/1
−
± α−
.
Interval spolehlivosti pro ρ pak dostaneme zpětnou transformací.
Poznámka: Jelikož Z = arctgh R12, dostáváme R12 = tgh Z a meze intervalu spolehlivosti pro ρ můžeme psát ve tvaru






−
± α−
3n
u
Ztgh 2/1
, přičemž xx
xx
ee
ee
xtgh −
−
+
−
= .
Příklad: Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi počtem dní absence za rok (veličina
Y) a věkem pracovníka (veličina X). Proto náhodně vybral údaje o 10 pracovnících.
Č.prac. 1 2 3 4 5 6 7 8 9 10
X 27 61 37 23 46 58 29 36 64 40
Y 15 6 10 18 9 7 14 11 5 8
Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 10 z dvourozměrného normálního rozložení,
vypočtěte výběrový korelační koeficient a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé
náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný korelační koeficient ρ.
Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu.
-20 0 20 40 60 80 100
X
-10
-5
0
5
10
15
20
25
30
Y
Vzhled diagramu svědčí o tom, že předpoklad je oprávněný.
Testujeme H0: ρ = 0 proti H1: ρ ≠ 0. Vypočítáme R12 = -0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti
existuje silná nepřímá lineární závislost. Testová statistika: T = -7,3053, kvantil t0,975(8) = 2,306, kritický obor
( )∞∪−∞−= ,306,2306,2,W . Jelikož WT ∈ , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y.
Výpočet pomocí systému STATISTICA:
Ve STATISTICE vypočteme meze 100(1-α)% asymptotického intervalu spolehlivosti pro koeficient
korelace ρ tak, že otevřeme nový datový soubor se dvěma proměnnými (pojmenujeme je
DM a HM) a jedním případem.
Do Dlouhého jména proměnné DM zapíšeme příkaz
= TanH(0,5*log((1-0,9325)/(1+0,9325))-VNormal(0,975;0;1)/sqrt(7))
a do Dlouhého jména proměnné HM zapíšeme příkaz
= TanH(0,5*log((1-0,9325)/(1+0,9325))+VNormal(0,975;0;1)/sqrt(7))
1
DM
2
HM
1 -0,98425 -0,73358
95% asymptotický interval spolehlivosti pro koeficient korelace ρ má tedy meze –0,98425 a -
0,73358. (Protože nepokrývá hodnotu 0, zamítáme hypotézu o nezávislosti veličin X, Y na
asymptotické hladině významnosti 0,05.)
r12 = 0,82, rS = 0,82 r12 = 0,82, rS = 0,69
r12 = 0,82, rS = 0,99 r12 = 0,82, rS = 0,5
r12 = 0, rS = 0 r12 = -0,77, rS = -1
Ilustrace vlastností Pearsonova a Spearmanova koeficientu korelace
r12 = 0, rS = 0 r12 = -0,77, rS = -1
3. obrázek ukazuje odolnost Spearmanova koeficientu vůči odlehlým hodnotám.
6. obrázek dokumentuje schopnost Spearmanova koeficientu měřit monotónní vztahy.
Využití modulu „Analýza síly testu“ v systému STATISTICA
Testujeme-li na hladině významnosti α nulovou hypotézu (v našem případě H0: ρ = 0) proti alternativní hypotéze (v našem
případě H1: ρ ≠ 0), můžeme se dopustit jedné ze dvou chyb: chyba 1. druhu spočívá v tom, že H0 zamítneme, ač ve
skutečnosti platí a chyba 2. druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí.
Pravděpodobnost chyby 1. druhu se značí α a nazývá se hladina významnosti testu.
Pravděpodobnost chyby 2. druhu se značí β.
Číslo 1 – β se nazývá síla testu a vyjadřuje pravděpodobnost, s jakou test vypoví, že H0 neplatí.
Modul „Analýza síly testu“ nám umožní vyřešit tři úkoly:
a) pro daný korelační koeficient ρ a danou hladinu významnosti α stanovit, jaký musí být rozsah výběru n, aby síla testu byla
aspoň rovna danému číslu 1 – β
b) pro dané ρ, α, n vypočítat sílu testu 1 – β
c) pro daný výběrový koeficient korelace r a dané α určit meze 100(1- α)% intervalu spolehlivosti pro ρ.
Ad a) Stanovení rozsahu výběru
Předpokládáme, že náhodný výběr (X1, Y1), ..., (Xn, Yn) pochází z dvourozměrného normálního rozložení rozložení s koeficientem
korelace ρ = 0,3. Jak velký musí být rozsah tohoto výběru, aby test H0: ρ = 0 proti H1: ρ ≠ 0 měl sílu 0,8, je-li hladina
významnosti α = 0,05?
Statistiky – Analýza síly testu – Výpočet velikosti vzorku – Jedna korelace, t-test – OK – Ró: 0,3, Alfa: 0,05, Požadovaná
síla: 0,8 – OK – Vypočítat N.
Zjistíme, že minimální velikost výběru je 84.
Ad b) Výpočet síly testu
Předpokládáme, že náhodný výběr (X1, Y1), ..., (X25, Y25) pochází z dvourozměrného normálního rozložení s koeficientem
korelace ρ, který je neznámý. Výběrový koeficient korelace nabyl hodnoty -0,56. Na hladině významnosti α = 0,05 testujeme
H0: ρ = 0 proti H1: ρ ≠ 0. Jaká je síla testu?
Statistiky – Analýza síly testu – Výpočet síly testu - Jedna korelace, t-test – OK – Ró: -0,56, N: 25, Alfa: 0,05 – OK – Výpočetní
algoritmus: zaškrtneme t-statistika – Vypočítat sílu.
Zjistíme, že síla testu je 0,8582.
Ad c) Nalezení intervalu spolehlivosti
Předpokládáme, že náhodný výběr (X1, Y1), ..., (X25, Y25) pochází z dvourozměrného normálního rozložení s koeficientem
korelace ρ, který je neznámý. Výběrový koeficient korelace nabyl hodnoty -0,56. Najděte 95% interval spolehlivosti pro ρ.
Statistiky – Analýza síly testu – Odhad intervalu - Jedna korelace, t-test – OK – Pozorované R: -0,56, N: 25, Spolehlivost:
0,95 – Výpočetní algoritmus: zaškrtneme Fisherovo Z (původní) – Vypočítat.
Zjistíme, že Dolní mez = -0,7821, Horní mez = -0,2117.