Korelační analýza


Motivace

Uvažme náhodné veličiny X, Y, které jsou aspoň ordinálního typu. Tyto náhodné veličiny mohou mít
různý vztah:


-         Deterministická (funkční) závislost: jedna náhodná veličina je spjata s druhou náhodnou
veličinou funkční závislostí vyjádřenou předpisem          Y = g(X), např. X – poloměr náhodně
vybrané sériově vyráběné kuličky do kuličkových ložisek, Y =  - objem této kuličky. Každé realizaci
náhodné veličiny X (vysvětlující proměnná) je přiřazena právě jedna realizace náhodné veličiny Y
(vysvětlovaná proměnná).


-         Stochastická závislost: jedna náhodná veličina ovlivňuje v různé míře druhou náhodnou
veličinu, např. X – věk pracovníka v letech, Y – počet dnů absence za rok. Každé realizaci náhodné
veličiny X může být přiřazeno více realizací náhodné veličiny Y. Závislost může být jednostranná i
oboustranná.


-         Stochastická nezávislost: náhodné veličiny se navzájem neovlivňují, např. házíme-li naráz
dvěma kostkami a označíme X – počet ok padlých na jedné kostce, Y – počet ok padlých na druhé
kostce, pak náhodné veličiny X, Y jsou stochasticky nezávislé.


X a Y jsou stochasticky nezávislé, když platí:

X a Y jsou nekorelované, když platí C(X, Y) = 0 (tj. mezi X a Y není žádný lineární vztah).

Ze stochastické nezávislosti vyplývá nekorelovanost, avšak z nekorelovanosti nevyplývá stochastická
nezávislost.


Korelační analýza:

·        zkoumá, zda existuje závislost mezi dvěma náhodnými veličinami X, Y, které jsou buď
ordinálního nebo intervalového či poměrového typu. Důležité – nelze se spokojit s formálním
matematickým popisem závislosti, závislost musí být logicky zdůvodnitelná!

·        pomocí Pearsonova či Spearmanova koeficientu korelace měří těsnost této závislosti

·        pro náhodné veličiny intervalového a poměrového typu je založena na předpokladu, že
dvourozměrný náhodný vektor  se řídí dvourozměrným normálním rozložením N[2] , kde

      μ[1] = E(X), μ[2] = E(Y), σ[1]^2 = D(X),  σ[2]^2 = D(Y), ρ = R(X,Y)

·        při výraznějším porušení předpokladu dvourozměrné normality doporučuje použití metod,
které jsou určeny pro náhodné veličiny ordinálního typu


Spearmanův koeficient pořadové korelace

Charles Edward Spearman (1863 – 1945): Britský psycholog a statistik, zakladatel faktorové analýzy


Nechť X,Y jsou náhodné veličiny ordinálního typu (tj. obsahová interpretace je možná jenom u relace
rovnosti a relace uspořádání).

Pořídíme dvourozměrný náhodný výběr (X[1], Y[1]), ..., (X[n], Y[n]) z rozložení, jímž se řídí
náhodný vektor (X, Y). Označíme R[i] pořadí náhodné veličiny X[i] a Q[i] pořadí náhodné veličiny
Y[i], i = 1, ..., n.

Spearmanův koeficient pořadové korelace: .

Tento koeficient nabývá hodnot mezi –1 a 1.  Čím je bližší 1, tím je silnější přímá pořadová
závislost mezi veličinami X a Y, čím je bližší –1, tím je silnější nepřímá pořadová závislost mezi
veličinami X a Y. Teoretická hodnota Spearmanova koeficientu se značí ρ[S].


Testování nezávislosti ordinálních veličin

Na hladině významnosti α testujeme hypotézu  H[0]: X, Y jsou pořadově nezávislé náhodné veličiny
proti

-    oboustranné alternativě H[1]: X, Y jsou pořadově závislé náhodné veličiny

-         levostranné alternativě H[1]: mezi X a Y existuje nepřímá pořadová závislost

-         pravostranné alternativě H[1]: mezi X a Y existuje přímá pořadová závislost).

Jako testová statistika slouží  Spearmanův koeficient pořadové korelace r[S].

Nulovou hypotézu zamítáme na hladině významnosti α ve prospěch

-         oboustranné alternativy, když │r[S]│≥ r[S,1-α](n)

-         levostranné alternativy, když r[S]  ≤ - r[S,1-2α](n)

-         pravostranné alternativy, když r[S] ≥ r[S,1-2α](n),

kde r[S,1-α](n) je kritická hodnota, kterou pro α = 0,05 nebo 0,01 a n ≤ 30 najdeme v tabulkách.
Pozor – kritické hodnoty pro jednostranné alternativy se v běžně dostupných tabulkách nenajdou.


Asymptotické varianty testu

Pro n > 20 lze použít testovou statistiku , která se v případě platnosti nulové hypotézy
asymptoticky řídí rozložením t(n-2).

Kritický obor pro oboustrannou alternativu:

Kritický obor pro levostrannou alternativu:

Kritický obor pro pravostrannou alternativu:

.

Hypotézu o pořadové nezávislosti náhodných veličin X, Y zamítáme na asymptotické hladině
významnosti α, když t[0]  W.

Upozornění: Systém STATISTICA používá tuto variantu testu pořadové nezávislosti bez ohledu na
rozsah náhodného výběru.

Pro n > 30 lze použít testovou statistiku [.] Platí-li H[0], pak [] ≈ N(0, 1). Nulovou hypotézu
tedy zamítáme na asymptotické hladině významnosti α ve prospěch

oboustranné alternativy, když  ,

levostranné alternativy, když ,

pravostranné alternativy, když


Příklad na testování pořadové nezávislosti (jsou známa pořadí):

Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší
pořadí dostal nejtěžší případ.


                                    Číslo pacienta

                                                       1

                                                        2

                                                         3

                                                          4

                                                           5

                                                            6

                                                             7

                                    Hodnocení 1. lékaře

                                                       4

                                                        1

                                                         6

                                                          5

                                                           3

                                                            2

                                                             7

                                    Hodnocení 2. lékaře

                                                       4

                                                        2

                                                         5

                                                          6

                                                           1

                                                            3

                                                             7


Vypočtěte Spearmanův koeficient a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou
lékařů jsou pořadově nezávislá.

Řešení:

Na hladině významnosti 0,05 testujeme H[0]: X, Y jsou pořadově nezávislé náhodné veličiny proti
oboustranné alternativě H[1]: X, Y jsou pořadově závislé náhodné veličiny. V tomto příkladě přímo
známe pořadí R[i ](tj. hodnocení 1. lékaře) a pořadí Q[i] (tj. hodnocení 2. lékaře). Vypočteme

.

Kritická hodnota: r[S,0,95](7) = 0,745. Protože 0,857 ≥ 0,745, nulovou hypotézu zamítáme na hladině
významnosti 0,05.


Výpočet pomocí systému STATISTICA

Vytvoříme datový soubor o dvou proměnných X (hodnocení 1. lékaře), Y (hodnocení 2. lékaře) a sedmi
případech. Do proměnných X a Y zapíšeme zjištěná hodnocení.


Statistiky – Neparametrické statistiky – Korelace – OK – vybereme Vytvořit detailní report -
Proměnné X, Y – OK – Spearmanův koef. R. Dostaneme tabulku


Spearmanův koeficient pořadové korelace nabývá hodnoty 0,857, testová statistika se realizuje
hodnotou 3,721, odpovídající p-hodnota je 0,0137, tedy na asymptotické hladině významnosti 0,05
zamítáme hypotézu o pořadové nezávislosti hodnocení dvou lékařů ve prospěch oboustranné
alternativy.


Příklad na testování pořadové nezávislosti (pořadí musíme stanovit):

Jsou dány realizace náhodného výběru z dvourozměrného rozložení, kterým se řídí náhodný vektor
(X,Y): (2,5  13,4), (3,4  15,2), (1,3  11,8), (5,8  13,1), (3,6  14,5). Na hladině významnosti 0,05
testujte hypotézu, že náhodné veličiny jsou pořadově nezávislé proti oboustranné alternativě.

Řešení:

                                 x[i]

                                              2,5

                                                  3,4

                                                      1,3

                                                          5,8

                                                              3,6

                                 y[i]

                                              13,4

                                                  15,2

                                                      11,8

                                                          13,1

                                                              14,5

                                 R[i]

                                              2

                                                  3

                                                      1

                                                          5

                                                              4

                                 Q[i]

                                              3

                                                  5

                                                      1

                                                          2

                                                              4

                                 (R[i]-Q[i])^2

                                              1

                                                  4

                                                      0

                                                          9

                                                              0


Testová statistika:

Kritická hodnota: pro n = 5 a α = 0,05 je kritická hodnota 0,9. Protože testová statistika se
realizuje hodnotou 0,3, hypotézu o pořadové nezávislosti veličin X a Y nezamítáme na hladině
významnosti 0,05.


Výpočet pomocí systému STATISTICA

Postupujeme úplně stejně jako v předešlém případě. Výstupní tabulka má tvar:


Spearmanův koeficient pořadové korelace nabývá hodnoty 0,3, testová statistika se realizuje
hodnotou 0,5447, odpovídající p-hodnota je 0,6238, tedy na asymptotické hladině významnosti 0,05
nezamítáme hypotézu o pořadové nezávislosti veličin X, Y.


Pearsonův koeficient korelace

Karl Pearson (1857 – 1936): Britský statistik


Číslo


se nazývá Pearsonův koeficient korelace.

(Pro výpočet Pearsonova koeficentu korelace musíme znát simultánní distribuční funkci Φ(x,y)
v obecném případě resp. simultánní hustotu pravděpodobnosti φ(x,y) ve spojitém případě resp.
simultánní pravděpodobnostní funkci π(x,y) v diskrétním případě.)


Vlastnosti Pearsonova koeficientu korelace

a)     R(a[1], Y) = R(X, a[2]) = R(a[1], a[2]) = 0

b)    R(a[1] + b[1]X, a[2] + b[2]Y) = sgn(b[1]b[2]) R(X, Y) =

c)     R(X, X) = 1 pro D(X) ≠ 0, R(X, X) = 0 jinak

d)    R(X, Y) = R(Y, X)

e)      a rovnost nastane tehdy a jen tehdy, když mezi veličinami X, Y existuje s pravděpodobností
1 úplná lineární závislost, tj. existují konstanty a, b tak, že pravděpodobnost P(Y = a + bX) = 1.
Přitom R(X, Y) = 1, když b > 0 a R(X, Y) = -1, když b < 0. (Uvedená nerovnost se nazývá Cauchyova –
Schwarzova – Buňakovského nerovnost.)


Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního
vztahu veličin X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův
koeficient korelace je nulový.


Ilustrace:


Definice nekorelovanosti

Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y
neexistuje žádná lineární závislost.)

Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že
s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty
veličiny Y.)

Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že
s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty
veličiny Y.)


Výběrový koeficient korelace

Nechť (X[1], Y[1]), ..., (X[n], Y[n]) náhodný výběr rozsahu n z dvourozměrného rozložení daného
distribuční funkcí Φ(x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit:

výběrové průměry , ,

výběrové rozptyly , ,

výběrovou kovarianci  a s jejich pomocí zavedeme
výběrový koeficient korelace  . Vlastnosti Pearsonova koeficientu korelace se přenášejí i na
výběrový koeficient korelace.

(Spearmanův koeficient pořadové korelace odpovídá Pearsonovu koeficientu korelace aplikovanému na
pořadí.)


Příklad: Výpočet realizace výběrového koeficientu korelace

U 65 zaměstnanců jisté firmy byla zjišťována délka praxe v letech (veličina  X) a výška prémií v Kč
(veličina Y). Dvourozměrné rozložení četností je dáno kontingenční tabulkou:


                      x

                                                                           y

                          1250

                              1750

                                  2250

                                      2750

                                          3250

                                              3750

                                                  4250

                      12,5

                          5

                              3

                                  0

                                      0

                                          0

                                              0

                                                  0

                      17,5

                          2

                              4

                                  4

                                      0

                                          0

                                              0

                                                  0

                      22,5

                          0

                              1

                                  6

                                      7

                                          4

                                              0

                                                  0

                      27,5

                          0

                              0

                                  1

                                      3

                                          7

                                              1

                                                  0

                      32,5

                          0

                              0

                                  0

                                      1

                                          10

                                              5

                                                  1


Vypočtěte realizaci r[12] výběrového koeficientu korelace R[12] a interpretujte jeho hodnotu. Pro
úsporu času máte uvedeny následující součty:

,

Řešení:

Vypočteme

průměrnou délku praxe: ,

průměrnou výšku prémií:

rozptyl délky praxe:

rozptyl výše prémií:

kovariance délky praxe a výše prémií:

koeficient korelace délky praxe a výše prémií:

Hodnota koeficientu korelace svědčí o tom, že mezi délkou praxe a výškou prémií existuje dosti
silná přímá lineární závislost – čím delší praxe, tím vyšší prémie.


Pearsonův koeficient korelace dvourozměrného normálního rozložení

Jak bylo uvedeno v motivaci, korelační analýza předpokládá, že daný náhodný výběr pochází
z dvourozměrného normálního rozložení. Proč je tento předpoklad tak důležitý? Odpověď poskytne
následující věta.


Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou

,

přičemž μ[1] = E(X), μ[2] = E(Y), σ[1]^2 = D(X),  σ[2]^2 = D(Y), ρ = R(X,Y).

Marginální hustoty jsou:

,

.

Je-li ρ = 0, pak pro , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy:
stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich
nekorelovanosti. Pro jiná dvourozměrná rozložení to neplatí!


Upozornění: nadále budeme předpokládat, že (X[1], Y[1]), ..., (X[n], Y[n]) je náhodný výběr rozsahu
n z dvourozměrného normálního rozložení N[2] .

Předpoklad dvourozměrné normality lze orientačně ověřit pomocí dvourozměrného tečkového diagramu:
tečky by měly zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty
dvourozměrného normálního rozložení jsou totiž elipsy:

Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry μ[1] = 0, μ[2] = 0,
σ[1]^2 = 1, σ[2]^2 = 1, ρ = -0,75:


Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1-α)% elipsu konstantní hustoty
pravděpodobnosti. Bude-li více než 100α% teček ležet vně této elipsy, svědčí to o porušení
dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou směrnici, znamená to,
že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé lineární závislosti.


Testování hypotézy o nezávislosti

Na hladině významnosti α testujeme H[0]: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. ρ =
0) proti

- oboustranné alternativě H[1]: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. ρ ≠ 0)

- levostranné alternativě H[1]: X, Y jsou záporně korelované náhodné veličiny (tj. ρ < 0)

- pravostranné alternativě H[1]: X, Y jsou kladně korelované náhodné veličiny (tj. ρ > 0).

Testová statistika má tvar: .

Platí-li nulová hypotéza, pak T[0] ~ t(n-2).

Kritický obor pro test H[0] proti

- oboustranné alternativě: ,

- levostranné alternativě: ,

- pravostranné alternativě: .

H[0] zamítáme na hladině významnosti α, když .


Příklad: Testování hypotézy o nezávislosti proti oboustranné alternativě

V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina
X) a počet zhotovených výrobků (náhodná veličina Y):

X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15

Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81.

Orientačně ověřte dvourozměrnou normalitu dat, vypočtěte výběrový koeficient korelace mezi X a Y a
na hladině 0,01 testujte hypotézu o nezávislosti X a Y proti oboustranné alternativě.

Řešení: Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu.

Vidíme, že předpoklad dvourozměrné normality je oprávněný.

Vypočteme realizace

výběrových průměrů: m[1] =  = 18,267, m[2] =  = 83,6,

výběrových rozptylů: s[1]^2 =  = 5,6381, s[2]^2 =  = 121,4,

výběrové kovariance: s[12] =  = 24,2571,

výběrového koeficientu korelace:  = 0,927.

Realizace testové statistiky:  = 8,912,

kritický obor .

Protože , hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. S rizikem
omylu nejvýše 1% jsme tedy prokázali, že mezi počtem směn odpracovaných za měsíc a počtem
zhotovených výrobků existuje závislost.


Výpočet pomocí systému STATISTICA

Vytvoříme datový soubor o dvou proměnných X, Y a 15 případech. Dvourozměrnou normalitu dat ověříme
pomocí dvourozměrného tečkového diagramu – viz výše.

Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměn. – X, Y – OK –
na záložce Možnosti vybereme Zobrazit detailní tabulku výsledků – Výpočet.


Výběrový koeficient korelace se realizoval hodnotou 0,92718, testová statistika nabyla hodnoty
8,924, odpovídající p-hodnota je 0,000001, tedy na hladině významnosti 0,01 zamítáme hypotézu o
nezávislosti veličin X, Y.


Příklad: Testování hypotézy o nezávislosti proti levostranné alternativě

Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi věkem zaměstnance
(náhodná veličina X) a počtem dní absence za rok (náhodná veličina Y). Proto náhodně vybral údaje o
10 zaměstnancích:

X       27     61     37     23     46     58     29     36     64     40

Y       15     6       10     18     9       7       14     11     5       8

Na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny proti
alternativě, že X, Y jsou záporně korelované náhodné veličiny.


Řešení:

Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového
diagramu.


Vzhled diagramu svědčí o tom, že předpoklad je oprávněný.

Na hladině významnosti 0,05 testujeme H[0]: ρ = 0 proti H[1]: ρ < 0.

Vypočítáme r[12] = -0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje
silná nepřímá lineární závislost.

Realizace testové statistiky: ,

kritický obor .

Jelikož , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y ve prospěch
levostranné alternativy. S rizikem omylu nejvýše 5% jsme prokázali, že mezi věkem pracovníka a
počtem dnů absence za rok existuje nepřímá lineární závislost.


Výpočet pomocí systému STATISTICA

Můžeme využít toho, že již známe r[12]. Statistiky – Pravděpodobnostní kalkulátor – Korelace –
vyplníme n = 10, r = -0,9325, odškrtneme Dvojité, zaškrtneme Výpočet p z r – Výpočet. V okénku p se
objeví hodnota 0,000041, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin
X a Y ve prospěch levostranné alternativy.


Příklad: Testování hypotézy o nezávislosti proti pravostranné alternativě

Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů
určitého oboru.


Číslo studenta

                      1

                        2

                          3

                            4

                              5

                                6

                                  7

                                    8

Počet bodů v 1. testu

                      80

                        50

                          36

                            58

                              42

                                60

                                  56

                                    68

Počet bodů ve 2. testu

                      65

                        60

                          35

                            39

                              48

                                44

                                  48

                                    61


Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně korelované.

Řešení:

Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru
z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového
diagramu. Tečky by měly vytvořit elipsovitý obrazec.


Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a
2. testu bude existovat určitý stupeň přímé lineární závislosti.

Na hladině významnosti 0,05 testujeme H[0]: ρ = 0 proti pravostranné alternativě H[1]: ρ > 0.

Výpočtem zjistíme: r[12] = 0,6668, t[0] = 2,1917. Stanovíme kritický obor: . Jelikož , zamítáme na
hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y ve prospěch pravostranné
alternativy. S rizikem omylu nejvýše 5% jsme prokázali, že mezi výsledky 1. a 2. testu existuje
přímá lineární závislost.


Výpočet pomocí systému STATISTICA

Můžeme využít toho, že již známe r[12]. Statistiky – Pravděpodobnostní kalkulátor – Korelace –
vyplníme n = 8, r = 0,6668, odškrtneme Dvojité, zaškrtneme Výpočet p z r – Výpočet. V okénku p se
objeví hodnota 0,035455, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin
X a Y ve prospěch pravostranné alternativy.


Postup při nesplnění předpokladu dvourozměrné normality

Máme k dispozici realizace náhodného výběru rozsahu 12 z dvourozměrného rozložení:

X  1   3       4       5       6       8       10     11     13     14     16     17

Y  13 15     18     16     23     31     39     56     45     43     37     0

Na hladině významnosti 0,05 testujte hypotézu, že náhodné veličiny X, Y jsou nezávislé proti
oboustranné alternativě.

Řešení:

Na hladině významnosti 0,05 testujeme H[0]: ρ = 0 proti oboustranné alternativě H[1]: ρ ≠ 0. Pokud
neověříme předpoklad dvourozměrné normality, obvyklým způsobem vypočteme realizaci výběrového
koeficientu korelace r[12] = 0,3729 a realizaci testové statistiky t[0] = 1,271. Stanovíme kritický
obor: . Protože , nezamítáme na hladině významnosti 0,05 hypotézu o nezávislosti náhodných veličin
X a Y.


Nyní budeme testovat hypotézu o normalitě náhodné veličiny X a náhodné veličiny Y. Grafické ověření
pomocí N-P grafů:

N-P graf pro veličinu X

                       N-P graf pro veličinu Y


Vzhled grafů svědčí ve prospěch normality.


Testování pomocí Lilieforsovy varianty K - S testu a S – W testu:

V obou případech hypotézu o normalitě nezamítáme na hladině významnosti 0,05.

Ověření dvourozměrné normality pomocí dvourozměrného tečkového diagramu:


Dvourozměrná normalita je silně porušena, tečky nevyplňují vnitřek elipsovitého obrazce. Přejdeme
tedy k testování hypotézy o pořadové nezávislosti: Testujeme hypotézu
H[0]: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H[1]: X, Y jsou
pořadově závislé náhodné veličiny.


Vypočítáme Spearmanův koeficient pořadové korelace.

X  1     3          4          5          6          8          10        11        13
14        16        17

Y  13   15        18        16        23        31        39        56        45        43
37        0

R[i]  1     2          3          4         5          6          7          8          9
10        11        12

Q[i]  2     3          5          4         6          7          9         12         11
10        8          1


Stanovíme kritický obor: Testová statistika se nerealizuje v kritickém oboru, nulovou hypotézu
nezamítáme na hladině významnosti 0,05.


Porovnání koeficientu korelace s danou konstantou

Nechť c je reálná konstanta. Testujeme H[0]: ρ = c proti H[1]: ρ ≠ c. (Tento test se provádí např.
tehdy, když experimentátor porovnává vlastnosti svých dat s vlastnostmi uváděnými v literatuře.)
Test je založen na statistice , která má za platnosti H[0] pro n ≥ 10 asymptoticky rozložení
N(0,1), přičemž  je tzv. Fisherova Z-transformace. Kritický obor pro test H[0] proti oboustranné
alternativě tedy je . H[0] zamítáme na asymptotické hladině významnosti α, když .


Příklad: U 600 vzorků rudy byl stanoven obsah železa dvěma analytickými metodami s výběrovým
koeficientem korelace 0,85. V literatuře se uvádí, že koeficient korelace těchto dvou metod má být
0,9. Na asymptotické hladině významnosti 0,05 testujte hypotézu
H[0]: ρ = 0,9 proti H[1]: ρ ≠ 0,9.

Řešení: , , u[0,975 ]= 1,96, . Protože , H[0] zamítáme na asymptotické hladině významnosti 0,05.


Výpočet pomocí systému STATISTICA (pouze přibližný):

Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl
mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,85, do políčka N1 napíšeme 600, do
políčka r2 napíšeme 0,9, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet.
Dostaneme p-hodnotu 0,0000, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti
0,05.


Upozornění: Pokud bychom chtěli pomocí systému STATISTICA provést přesnější test s využitím
statistiky U, můžeme vypočítat Fisherovu Z- transformaci pomocí Pravděpodobnostního kalkulátoru –
Korelace, kde zadáme realizaci výběrového koeficientu korelace, rozsah výběru. Zajímá nás Fisher z.


Porovnání dvou korelačních koeficientů

Nechť jsou dány dva nezávislé náhodné výběry o rozsazích n a n^* z dvourozměrných normálních
rozložení s korelačními koeficienty ρ a ρ^*. Testujeme H[0]: ρ = ρ^* proti H[1]: ρ ≠ ρ^*. Označme
R[12] výběrový korelační koeficient 1. výběru a R[12]^* výběrový korelační koeficient 2. výběru.
Položme  a . Platí-li H[0], pak testová statistika  má asymptoticky rozložení N(0,1). Kritický obor
pro test H[0] proti oboustranné alternativě tedy je . H[0] zamítáme na asymptotické hladině
významnosti α, když .


Příklad: Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů trpících
určitou ledvinovou chorobou. U 100 zdravých jedinců činil výběrový korelační koeficient mezi
koncentracemi obou látek 0,65 a u 142 osob trpících zmíněnou chorobou byl 0,37. Na asymptotické
hladině významnosti 0,05 testujte hypotézu, že korelační koeficienty v obou skupinách se neliší.

Řešení: , , u[0,975 ]= 1,96, . Protože , H[0] zamítáme na asymptotické hladině významnosti 0,05.


Výpočet pomocí systému STATISTICA:

Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl
mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,65, do políčka N1 napíšeme 100, do
políčka r2 napíšeme 0,37, do políčka N2 napíšeme 142 - Výpočet. Dostaneme p-hodnotu 0,0038, tedy
zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05.


Interval spolehlivosti pro korelační koeficient

Jestliže dvourozměrný náhodný výběr rozsahu n pochází z dvourozměrného normálního rozložení, jehož
korelační koeficient se příliš neliší od nuly (je splněna podmínka│ρ│ < 0,5) a rozsah výběru je
dostatečně velký (n ≥ 100), lze odvodit, že 100(1-α)% interval spolehlivosti pro ρ má meze .

Nejsou-li uvedené podmínky splněny, pak nelze tento vzorec použít, protože rozložení výběrového
korelačního koeficientu je příliš zešikmené. V takovém případě využijeme toho, že náhodná veličina
 má i při malém rozsahu výběru přibližně normální rozložení se střední hodnotou  (2. sčítanec lze
při větším n zanedbat) a rozptylem . Standardizací veličiny Z dostaneme veličinu , která má
asymptoticky rozložení N(0,1). Tudíž 100(1-α)% asymptotický interval spolehlivosti pro  bude mít
meze . Interval spolehlivosti pro ρ pak dostaneme zpětnou transformací.


Poznámka: Jelikož Z = arctgh R[12], dostáváme R[12] = tgh Z a meze intervalu spolehlivosti pro ρ
můžeme psát ve tvaru , přičemž .


Příklad: Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi počtem dní
absence za rok (veličina Y) a věkem pracovníka (veličina X). Proto náhodně vybral údaje o 10
pracovnících.


                                    Č.prac.

                                           1

                                             2

                                               3

                                                 4

                                                   5

                                                     6

                                                       7

                                                         8

                                                           9

                                                             10

                                    X

                                           27

                                             61

                                               37

                                                 23

                                                   46

                                                     58

                                                       29

                                                         36

                                                           64

                                                             40

                                    Y

                                           15

                                             6

                                               10

                                                 18

                                                   9

                                                     7

                                                       14

                                                         11

                                                           5

                                                             8


Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 10
z dvourozměrného normálního rozložení, vypočtěte výběrový korelační koeficient a na hladině
významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95%
asymptotický interval spolehlivosti pro skutečný korelační koeficient ρ.


Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového
diagramu.


Vzhled diagramu svědčí o tom, že předpoklad je oprávněný.

Testujeme H[0]: ρ = 0 proti H[1]: ρ ≠ 0. Vypočítáme R[12] = -0,9325, tedy mezi věkem pracovníka a
počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Testová statistika: T =
-7,3053, kvantil t[0,975](8) = 2,306, kritický obor . Jelikož , zamítáme na hladině významnosti
0,05 hypotézu o nezávislosti veličin X a Y.

Vypočítáme . Meze 95% asymptotického intervalu spolehlivosti pro ρ jsou , tedy -0,9842  < ρ <
-0,7336 s pravděpodobností přibližně 0,95.


Výpočet pomocí systému STATISTICA:

Ve STATISTICE vypočteme meze 100(1-α)% asymptotického intervalu spolehlivosti pro koeficient
korelace ρ tak, že otevřeme nový datový soubor se dvěma proměnnými (pojmenujeme je DM a HM) a
jedním případem.

Do Dlouhého jména proměnné DM zapíšeme příkaz

= TanH(0,5*log((1-0,9325)/(1+0,9325))-VNormal(0,975;0;1)/sqrt(7))

a do Dlouhého jména proměnné HM zapíšeme příkaz

= TanH(0,5*log((1-0,9325)/(1+0,9325))+VNormal(0,975;0;1)/sqrt(7))


95% asymptotický interval spolehlivosti pro koeficient korelace ρ má tedy meze –0,98425 a -0,73358.
(Protože nepokrývá hodnotu 0, zamítáme hypotézu o nezávislosti veličin X, Y na asymptotické
hladině významnosti 0,05.)


Vztah mezi koeficienty korelace r[12] a r[S]

r[12 ]= 0,82, r[S ] = 0,82

                          r[12] = 0,82, r[S] = 0,69

r[12] = 0,82, r[S] = 0,99

                          r[12] = 0,82, r[S] = 0,5

r[12] = 0, r[S] = 0

                          r[12] = -0,77, r[S] = -1


3. obrázek ukazuje odolnost Spearmanova koeficientu vůči odlehlým hodnotám.

6. obrázek dokumentuje schopnost Spearmanova koeficientu měřit monotónní vztahy.

Jestliže náhodný vektor (X, Y) má dvourozměrné normální rozložení s Pearsonovým koeficientem
korelace ρ a Spearmanovým koeficientem korelace ρ[S], pak ρ ≈ 2 sin(0,523ρ[S]).