11. Testování nezávislosti náhodných veličin


11.1. Motivace: Při zpracování dat se velmi často setkáme s úkolem zjistit, zda dvě náhodné
veličiny jsou stochasticky nezávislé. Testování hypotézy o nezávislosti se provádí různými způsoby
podle toho, jakého typu jsou dané náhodné veličiny – zda jsou nominální, ordinální, intervalové či
poměrové. Nominální náhodné veličiny umožňují obsahovou interpretaci pouze u relace rovnosti,
ordinální navíc ještě u relace uspořádání, intervalové pak navíc u operace rozdílu a poměrové i u
operace podílu.

Např. nás může zajímat, zda ve sledované populaci je barva očí a barva vlasů nezávislá nebo zda
počet dnů absence a věk pracovníka jsou nezávislé.

Zpravidla chceme také zjistit intenzitu případné závislosti sledovaných dvou veličin. K tomuto
účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od -1 do 1). Čím
je takový koeficient bližší 1 (resp. -1), tím je závislost mezi danými dvěma veličinami silnější a
čím je bližší 0, tím je slabší.


11.2. Definice (definice kontingenční tabulky)

Nechť X,Y jsou dvě nominální náhodné veličiny (tj. obsahová interpretace je možná jenom u relace
rovnosti). Nechť X nabývá variant x[[1]], ..., x[[r]] a Y nabývá variant y[[1]], ..., y[[s]].

Označme:

 … simultánní pravděpodobnost dvojice variant (x[[j]], y[[k]])

 … marginální pravděpodobnost varianty x[[j]]

 … marginální pravděpodobnost varianty y[[k]]

Simultánní a marginální pravděpodobnosti zapíšeme do kontingenční tabulky:


 y

      y[[1]]

            ...

               y[[s]]

                     π[j.]

x

 π[jk]

x[[1]]

      π[11]

            ...

               π[1s]

                     π[1.]

...

      ...

            ...

               ...

                     ...

x[[r]]

      π[r1]

            ...

               π[rs]

                     π[r.]

π[.k]

      π[.1]

            ...

               π[.s]

                     1


Nyní pořídíme dvourozměrný náhodný výběr rozsahu n z rozložení, kterým se řídí dvourozměrný
diskrétní náhodný vektor (X, Y). Zjištěné absolutní simultánní četnosti n[jk] dvojice variant
(x[[j]], y[[k]]) uspořádáme do kontingenční tabulky:


 y

      y[[1]]

            ...

               y[[s]]

                     n[j.]

x

 n[jk]

x[[1]]

      n[11]

            ...

               n[1s]

                     n[1.]

...

      ...

            ...

               ...

                     ...

x[[r]]

      n[r1]

            ...

               n[rs]

                     n[r.]

n[.k]

      n[.1]

            ...

               n[.s]

                     n


n[j.] =  n[j1] + ... + n[js] je marginální absolutní četnost varianty x[[j]]

n[.k] = n[1k] + ... + n[rk] je marginální absolutní četnost varianty y[[k]]


Simultánní pravděpodobnost π[jk] odhadneme pomocí simultánní relativní četnosti , marginální
pravděpodobnosti π[j.] a π[.k] odhadneme pomocí marginálních relativních četností  a .


11.3. Věta (věta o testové statistice K)

Testujeme nulovou hypotézu H[0]: X, Y jsou stochasticky nezávislé náhodné veličiny proti
alternativě H[1]: X, Y nejsou stochasticky nezávislé náhodné veličiny.

Kdyby náhodné veličiny X, Y byly stochasticky nezávislé, pak by platil multiplikativní vztah

, : π[jk] = π[j.] π[.k] neboli , tj. . Číslo  se nazývá teoretická četnost dvojice variant (x[[j]],
y[[k]]).

Testová statistika: .

Platí-li H[0], pak K se asymptoticky řídí rozložením χ^2((r-1)(s-1)).

Kritický obor: .

Hypotézu o nezávislosti veličin X, Y tedy zamítáme na asymptotické hladině významnosti α, když K ≥
χ^2[1-α]((r-1)(s-1)).


11.4. Poznámka (podmínky dobré aproximace)

Rozložení statistiky K lze aproximovat rozložením χ^2((r-1)(s-1)), pokud teoretické četnosti  aspoň
v 80% případů nabývají hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2. Není-li splněna
podmínka dobré aproximace, doporučuje se slučování některých variant.


11.5. Definice (definice Cramérova koeficientu, význam jeho hodnot)

Cramérův koeficient: , kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je 1,
tím je těsnější závislost mezi X a Y, čím blíže je 0, tím je tato závislost volnější.

Význam hodnot Cramérova koeficientu:

mezi 0 až 0,1 … zanedbatelná závislost,

mezi 0,1 až 0,3 … slabá závislost,

mezi 0,3 až 0,7 … střední závislost,

mezi 0,7 až 1 … silná závislost.


Carl Harald Cramér (1893 – 1985): Švédský matematik


11.6. Příklad: V sociologickém průzkumu byl z uchazečů o studium na vysokých školách pořízen
náhodný výběr rozsahu 360. Mimo jiné se zjišťovala sociální skupina, ze které uchazeč pochází a typ
školy, na kterou se hlásí. Výsledky jsou zaznamenány v kontingenční tabulce:


                                             Typ školy

                                         Sociální skupina

                                               n[j.]

                                                 I

                                                II

                                                III

                                                IV

                                            univerzitní

                                                50

                                                30

                                                10

                                                50

                                                140

                                             technický

                                                30

                                                50

                                                20

                                                10

                                                110

                                            ekonomický

                                                10

                                                20

                                                30

                                                50

                                                110

                                               n[.k]

                                                90

                                                100

                                                60

                                                110

                                                360


Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti typu školy a sociální
skupiny. Vypočtěte Cramérův koeficient.

Řešení:

Nejprve vypočteme všech 12 teoretických četností:

Vidíme, že podmínky dobré aproximace jsou splněny, všechny teoretické četnosti převyšují číslo 5.

Nyní dosadíme do vzorce pro testovou statistiku K:

, r = 3, s = 4, χ^2[0,95](6) = 12,6. Protože K ≥ 12,6, hypotézu o nezávislosti typu školy a
sociální skupiny zamítáme na asymptotické hladině významnosti 0,05. Cramérův koeficient: . Hodnota
Cramérova koeficientu svědčí o tom, že mezi veličinami X a Y existuje středně silná závislost.


Výpočet pomocí systému STATISTICA:

Vytvoříme nový datový soubor o třech proměnných (X - sociální skupina, Y – typ školy, četnost) a 12
případech:


Statistiky – Základní statistiky/tabulky – OK – Specif. Tabulky – List 1 X, List 2 Y – OK, zapneme
proměnnou vah četnost – OK, Výpočet – na záložce Možnosti zaškrtneme Očekávané četnosti. Dostaneme
kontingenční tabulku teoretických četností:


Všechny teoretické četnosti jsou větší než 5, podmínky dobré aproximace jsou splněny. V záhlaví
tabulky je uvedena hodnota testové statistiky K = 76,8359, počet stupňů volnosti 6 a odpovídající
p-hodnota. Je velmi blízká 0, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o
nezávislosti typu školy a sociální skupiny.

Hodnotu testové statistiky a Cramérův koeficient dostaneme také tak, že na na záložce Možnosti
zaškrtneme Pearsonův & M-V chí kvadrát a Cramérovo V a na záložce Detailní výsledky vybereme
Detailní 2 rozm. tabulky.


11.7. Definice (definice čtyřpolní kontingenční tabulky)

Nechť r = s = 2. Pak hovoříme o čtyřpolní kontingenční tabulce a používáme označení: n[11] = a,
n[12] = b, n[21] = c, n[22] = d.


                                                 X

                                                 Y

                                               n[j.]

                                              y[[1]]

                                              y[[2]]

                                              x[[1]]

                                                 a

                                                 b

                                                a+b

                                              x[[2]]

                                                 c

                                                 d

                                                c+d

                                               n[.k]

                                                a+c

                                                b+d

                                                 n


Testová statistika K pro čtyřpolní kontingenční tabulku se dá zjednodušit do tvaru:


Kritický obor:


11.8. Věta (věta o testové statistice K pro čtyřpolní tabulky)

Testová statistika K pro čtyřpolní kontingenční tabulku se dá zjednodušit do tvaru:

Kritický obor: . Hypotézu o nezávislosti náhodných veličin X, Y tedy zamítáme na asymptotické
hladině významnosti α, když K W.


11.9. Poznámka: U čtyřpolní KT lze rovněž použít následující podmínky dobré aproximace:  a + b > 5,
c + d > (a + c)/3.


11.10. Příklad: U 125 uchazečů o studium na jistou fakultu byl hodnocen dojem, jakým zapůsobili na
komisi u ústní přijímací zkoušky. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že
přijetí na fakultu nezávisí na dojmu u přijímací zkoušky.


                                              přijetí

                                               dojem

                                               n[j.]

                                               dobrý

                                              špatný

                                               ano[]

                                                17

                                                11

                                                28

                                                ne

                                                39

                                                58

                                                97

                                               n[.k]

                                                56

                                                69

                                                125


Řešení:

Ověříme splnění podmínek dobré aproximace:

a + b = 28 > 5, c + d = 97 > (a + c)/3 = 56/3 = 18,66 – v pořádku

Dosadíme do zjednodušeného vzorce pro testovou statistiku K:

Kritický obor: .

Protože testová statistika se nerealizuje k kritickém oboru, nulovou hypotézu nezamítáme na
asymptotické hladině významnosti 0,05.


11.11. Definice (definice podílu šancí)

Ve čtyřpolních tabulkách používáme charakteristiku , která se nazývá podíl šancí (odds ratio).
Můžeme si představit, že pokus se provádí za dvojích různých okolností a může skončit buď úspěchem
nebo neúspěchem.


Výsledek pokusu

                                                                                                  okolnosti

                                                                                                                                           n[j.]

                                                                                                      I

                                                                                                                                        II

                                             úspěch[]

                                                                                                      a

                                                                                                                                         b

                                                                                                                                            a+b

                                             neúspěch

                                                                                                      c

                                                                                                                                         d

                                                                                                                                            c+d

                                               n[.k]

                                                                                                     a+c

                                                                                                                                        b+d

                                                                                                                                             n


Poměr počtu úspěchů k počtu neúspěchů (tzv. šance) za 1. okolností je , za druhých okolností je .
Podíl šancí je .


11.12. Věta (asymptotický interval spolehlivosti pro podíl šancí a jeho využití k testování
hypotézy o nezávislosti)

Asymptotický 100(1-α)% interval spolehlivosti pro skutečný podíl šancí má meze:

, .

Jestliže interval spolehlivosti neobsahuje 1, pak hypotézu o nezávislosti zamítneme na asymptotické
hladině významnosti α.


11.13. Příklad: Pro údaje z příkladu 11.10. vypočtěte a interpretujte podíl šancí, sestrojte 95%
asymptotický interval spolehlivosti pro podíl šancí a s jeho pomocí testujte hypotézu, že přijetí
na fakultu nezávisí na dojmu u přijímací zkoušky.

Řešení:

. Podíl šancí nám říká, že uchazeč, který zapůsobil na komisi dobrým dojmem, má asi 2,3 x větší
šanci na přijetí než uchazeč, který zapůsobil špatným dojmem. Provedeme další pomocné výpočty:

Dosadíme do vzorců pro meze asymptotického intervalu spolehlivosti pro podíl šancí:

Po odlogaritmování dostaneme:

Protože interval (0,972; 5,433) obsahuje číslo 1, na asymptotické hladině významnosti 0,05
nezamítáme hypotézu o nezávislosti dojmu u přijímací zkoušky a přijetí na fakultu.


Výpočet pomocí systému STATISTICA:

Dolní a horní mez intervalu spolehlivosti pro OR zjistíme pomocí STATISTIKY. Vytvoříme datový
soubor o dvou proměnných DM a HM  a jednom případu. Do Dlouhého jména proměnné DM napíšeme vzorec
pro dolní mez:

=exp(log(2,298)-sqrt(1/17+1/11+1/39+1/58)*VNormal(0,975;0;1))

a analogicky  do Do Dlouhého jména proměnné HM napíšeme vzorec pro horní mez:

=exp(log(2,298)+sqrt(1/17+1/11+1/39+1/58)*VNormal(0,975;0;1))


11.14. Poznámka: Pro čtyřpolní tabulku navrhl R. A. Fisher přesný (exaktní) test nezávislosti známý
jako Fisherův faktoriálový test. (Je popsán např. v knize K. Zvára: Biostatistika, Karolinum, Praha
1998.) Jestliže p-hodnota pro tento test ≤ α, pak hypotézu o nezávislosti zamítáme na hladině
významnosti α.


11.15. Definice (definice Spearmanova koeficientu pořadové korelace, význam jeho hodnot)

Nechť X,Y jsou náhodné veličiny aspoň ordinálního typu. Pořídíme dvourozměrný náhodný výběr (X[1],
Y[1]), ..., (X[n], Y[n]) z rozložení, jímž se řídí náhodný vektor (X, Y). Označíme R[i] pořadí
náhodné veličiny X[i] a Q[i] pořadí náhodné veličiny Y[i], i = 1, ..., n.

Spearmanův koeficient pořadové korelace: .

Tento koeficient nabývá hodnot mezi –1 a 1.  Čím je bližší 1, tím je silnější přímá pořadová
závislost mezi veličinami X a Y, čím je bližší –1, tím je silnější nepřímá pořadová závislost mezi
veličinami X a Y.

Charles Edward Spearman (1863 – 1945): Britský psycholog a statistik, zakladatel faktorové analýzy

11.16. Věta (věta o testování hypotézy o pořadové nezávislosti veličin X, Y)

Na hladině významnosti α testujeme hypotézu  H[0]: X, Y jsou pořadově nezávislé náhodné veličiny
proti

-    oboustranné alternativě H[1]: X, Y jsou pořadově závislé náhodné veličiny

-         levostranné alternativě H[1]: mezi X a Y existuje nepřímá pořadová závislost

-         pravostranné alternativě H[1]: mezi X a Y existuje přímá pořadová závislost).

Jako testová statistika slouží  Spearmanův koeficient pořadové korelace r[S].

Nulovou hypotézu zamítáme na hladině významnosti α ve prospěch

-         oboustranné alternativy, když │r[S]│≥ r[S,1-α](n)

-         levostranné alternativy, když r[S]  ≤ - r[S,1-2α](n)

-         pravostranné alternativy, když r[S] ≥ r[S,1-2α](n),

kde r[S,1-α](n) je kritická hodnota, kterou pro α = 0,05 nebo 0,01 a n ≤ 30 najdeme v tabulkách.
Pozor – kritické hodnoty pro jednostranné alternativy se v běžně dostupných tabulkách nenajdou.


11.17. Věta (asymptotická varianta testu)

Pro n > 20 lze použít testovou statistiku , která se v případě platnosti nulové hypotézy
asymptoticky řídí rozložením t(n-2).

Kritický obor pro oboustrannou alternativu:

Kritický obor pro levostrannou alternativu:

Kritický obor pro pravostrannou alternativu:

.

Hypotézu o pořadové nezávislosti náhodných veličin X, Y zamítáme na asymptotické hladině
významnosti α, když t[0]  W.

Upozornění: Systém STATISTICA používá tuto variantu testu pořadové nezávislosti bez ohledu na
rozsah náhodného výběru.

Pro n > 30 lze použít testovou statistiku [.] Platí-li H[0], pak [] ≈ N(0, 1). Nulovou hypotézu
tedy zamítáme na asymptotické hladině významnosti α ve prospěch

oboustranné alternativy, když  ,

levostranné alternativy, když ,

pravostranné alternativy, když


11.18. Příklad: Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali
tak, že nejvyšší pořadí dostal nejtěžší případ.


                                    Číslo pacienta

                                                       1

                                                        2

                                                         3

                                                          4

                                                           5

                                                            6

                                                             7

                                    Hodnocení 1. lékaře

                                                       4

                                                        1

                                                         6

                                                          5

                                                           3

                                                            2

                                                             7

                                    Hodnocení 2. lékaře

                                                       4

                                                        2

                                                         5

                                                          6

                                                           1

                                                            3

                                                             7


Vypočtěte Spearmanův koeficient r[S] a na hladině významnosti 0,05 testujte hypotézu, že hodnocení
obou lékařů jsou pořadově nezávislá.

Řešení: .

Kritická hodnota: r[S,0,95](7) = 0,745. Protože 0,857 ≥ 0,745, nulovou hypotézu zamítáme na hladině
významnosti 0,05.


Výpočet pomocí systému STATISTICA

Vytvoříme datový soubor o dvou proměnných X (hodnocení 1. lékaře), Y (hodnocení 2. lékaře) a sedmi
případech. Do proměnných X a Y zapíšeme zjištěná hodnocení.


Statistiky – Neparametrické statistiky – Korelace – OK – vybereme Vytvořit detailní report -
Proměnné X, Y – OK – Spearmanův koef. R. Dostaneme tabulku


Spearmanův koeficient pořadové korelace nabývá hodnoty 0,857, testová statistika se realizuje
hodnotou 3,721, odpovídající p-hodnota je 0,0137, tedy na asymptotické hladině významnosti 0,05
zamítáme hypotézu o pořadové nezávislosti hodnocení dvou lékařů ve prospěch oboustranné
alternativy.


11.19. Definice (definice Pearsonova koeficientu korelace)

Nechť (X, Y) je náhodný vektor, přičemž náhodné veličiny X, Y jsou aspoň intervalového typu. Číslo


se nazývá Pearsonův koeficient korelace.

(Pro výpočet Pearsonova koeficentu korelace musíme znát simultánní distribuční funkci Φ(x,y)
v obecném případě resp. simultánní hustotu pravděpodobnosti φ(x,y) ve spojitém případě resp.
simultánní pravděpodobnostní funkci π(x,y) v diskrétním případě.)


11.20. Věta (věta o vlastnostech koeficientu korelace)

a)     R(a[1], Y) = R(X, a[2]) = R(a[1], a[2]) = 0

b)    R(a[1] + b[1]X, a[2] + b[2]Y) = sgn(b[1]b[2]) R(X, Y) =

c)     R(X, X) = 1 pro D(X) ≠ 0, R(X, X) = 0 jinak

d)    R(X, Y) = R(Y, X)

e)      a rovnost nastane tehdy a jen tehdy, když mezi veličinami X, Y existuje s pravděpodobností
1 úplná lineární závislost, tj. existují konstanty a, b tak, že pravděpodobnost P(Y = a + bX) = 1.
Přitom R(X, Y) = 1, když b > 0 a R(X, Y) = -1, když b < 0. (Uvedená nerovnost se nazývá Cauchyova –
Schwarzova – Buňakovského nerovnost.)


(Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti
lineárního vztahu veličin X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že
Pearsonův koeficient korelace je nulový.)


Ilustrace:


Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y
neexistuje žádná lineární závislost.)

Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že
s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty
veličiny Y.)

Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že
s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty
veličiny Y.)


11.21. Definice (definice výběrového koeficientu korelace)

Nechť (X[1], Y[1]), ..., (X[n], Y[n]) náhodný výběr rozsahu n z dvourozměrného rozložení daného
distribuční funkcí Φ(x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit:

výběrové průměry , ,

výběrové rozptyly , ,

výběrovou kovarianci  a s jejich pomocí zavedeme
výběrový koeficient korelace  .


11.22. Poznámka: Vlastnosti Pearsonova koeficientu korelace uvedené v 11.20. se přenášejí i na
výběrový koeficient korelace.


11.23. Věta (věta o koeficientu korelace dvourozměrného normálního rozložení)

Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou

,

přičemž μ[1] = E(X), μ[2] = E(Y), σ[1]^2 = D(X),  σ[2]^2 = D(Y), ρ = R(X,Y).

Marginální hustoty jsou:

,

.

Je-li ρ = 0, pak pro , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy:
stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich
nekorelovanosti. Pro jiná dvourozměrná rozložení to neplatí!


Upozornění: nadále budeme předpokládat, že (X[1], Y[1]), ..., (X[n], Y[n]) je náhodný výběr rozsahu
n z dvourozměrného normálního rozložení N[2] .


11.24. Věta (testování hypotézy o nezávislosti)

Na hladině významnosti α testujeme H[0]: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. ρ =
0) proti

- oboustranné alternativě H[1]: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. ρ ≠ 0)

- levostranné alternativě H[1]: X, Y jsou záporně korelované náhodné veličiny (tj. ρ < 0)

- pravostranné alternativě H[1]: X, Y jsou kladně korelované náhodné veličiny (tj. ρ > 0).

Testová statistika má tvar: .

Platí-li nulová hypotéza, pak T[0] ~ t(n-2).

Kritický obor pro test H[0] proti

- oboustranné alternativě: ,

- levostranné alternativě: ,

- pravostranné alternativě: .

H[0] zamítáme na hladině významnosti α, když .


11.25. Příklad: Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných
studentů určitého oboru.


Číslo studenta

                      1

                        2

                          3

                            4

                              5

                                6

                                  7

                                    8

Počet bodů v 1. testu

                      80

                        50

                          36

                            58

                              42

                                60

                                  56

                                    68

Počet bodů ve 2. testu

                      65

                        60

                          35

                            39

                              48

                                44

                                  48

                                    61


Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně korelované.

Řešení:

Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru
z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového
diagramu. Tečky by měly vytvořit elipsovitý obrazec, protože vrstevnice hustoty  dvourozměrného
normálního rozložení jsou elipsy.


Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a
2. testu bude existovat určitý stupeň přímé lineární závislosti.

Testujeme H[0]: ρ = 0 proti pravostranné alternativě H[1]: ρ > 0.

Výpočtem zjistíme: R[12] = 0,6668, T = 2,1917. V tabulkách najdeme t[0,95](6) = 1,9432. Kritický
obor: . Protože , hypotézu o neexistenci kladné korelace výsledků z 1. a 2. testu zamítáme na
hladině významnosti 0,05.


Výpočet pomocí systému STATISTICA

a) Vytvoříme datový soubor o dvou proměnných X, Y a 8 případech. Dvourozměrnou normalitu dat
ověříme pomocí dvourozměrného tečkového diagramu – viz výše.

Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměn. – X, Y – OK –
na záložce Možnosti vybereme Zobrazit detailní tabulku výsledků – Výpočet.


Výběrový koeficient korelace se realizoval hodnotou 0,6668, testová statistika nabyla hodnoty
2,1917, odpovídající p-hodnota pro oboustranný test je 0,0709, tedy pro jednostranný test je
0,035045. Na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X, Y ve prospěch
pravostranné alternativy.


b) Můžeme využít toho, že již známe r[12]. Statistiky – Pravděpodobnostní kalkulátor – Korelace –
vyplníme n = 8, r = 0,6668, odškrtneme Dvojité, zaškrtneme Výpočet p z r – Výpočet. V okénku p se
objeví hodnota 0,035455, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin
X a Y ve prospěch pravostranné alternativy.


11.26. Věta (test o porovnání koeficientu korelace s danou konstantou)

Nechť c je reálná konstanta. Testujeme H[0]: ρ = c proti H[1]: ρ ≠ c. (Tento test se provádí např.
tehdy, když experimentátor porovnává vlastnosti svých dat s vlastnostmi uváděnými v literatuře.)
Test je založen na statistice , která má za platnosti H[0] pro n ≥ 10 asymptoticky rozložení
N(0,1), přičemž  je tzv. Fisherova Z-transformace. Kritický obor pro test H[0] proti oboustranné
alternativě tedy je . H[0] zamítáme na asymptotické hladině významnosti α, když .


11.27. Příklad: U 600 vzorků rudy byl stanoven obsah železa dvěma analytickými metodami s výběrovým
koeficientem korelace 0,85. V literatuře se uvádí, že koeficient korelace těchto dvou metod má být
0,9. Na asymptotické hladině významnosti 0,05 testujte hypotézu
H[0]: ρ = 0,9 proti H[1]: ρ ≠ 0,9.

Řešení:

, , u[0,975 ]= 1,96, . Protože , H[0] zamítáme na asymptotické hladině významnosti 0,05.


Výpočet pomocí systému STATISTICA (pouze přibližný):

Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl
mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,85, do políčka N1 napíšeme 600, do
políčka r2 napíšeme 0,9, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet.
Dostaneme p-hodnotu 0,0000, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti
0,05.


Upozornění: Pokud bychom chtěli pomocí systému STATISTICA provést přesnější test s využitím
statistiky U, můžeme vypočítat Fisherovu Z- transformaci pomocí Pravděpodobnostního kalkulátoru –
Korelace, kde zadáme realizaci výběrového koeficientu korelace, rozsah výběru. Zajímá nás Fisher z.


11.28. Věta (test o porovnání dvou koeficientů korelace)

Nechť jsou dány dva nezávislé náhodné výběry o rozsazích n a n^* z dvourozměrných normálních
rozložení s korelačními koeficienty ρ a ρ^*. Testujeme H[0]: ρ = ρ^* proti H[1]: ρ ≠ ρ^*. Označme
R[12] výběrový korelační koeficient 1. výběru a R[12]^* výběrový korelační koeficient 2. výběru.
Položme  a . Platí-li H[0], pak testová statistika  má asymptoticky rozložení N(0,1). Kritický obor
pro test H[0] proti oboustranné alternativě tedy je . H[0] zamítáme na asymptotické hladině
významnosti α, když .


11.29. Příklad: Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů
trpících určitou ledvinovou chorobou. U 100 zdravých jedinců činil výběrový korelační koeficient
mezi koncentracemi obou látek 0,65 a u 142 osob trpících zmíněnou chorobou byl 0,37. Na
asymptotické hladině významnosti 0,05 testujte hypotézu, že korelační koeficienty v obou skupinách
se neliší.


Řešení:

, , u[0,975 ]= 1,96, . Protože , H[0] zamítáme na asymptotické hladině významnosti 0,05.


Výpočet pomocí systému STATISTICA:

Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl
mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,65, do políčka N1 napíšeme 100, do
políčka r2 napíšeme 0,37, do políčka N2 napíšeme 142 - Výpočet. Dostaneme p-hodnotu 0,0038, tedy
zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05.


11.30. Věta (věta o asymptotickém intervalu spolehlivosti pro koeficient korelace)

Nechť dvourozměrný náhodný výběr rozsahu n pochází z dvourozměrného normálního rozložení
s koeficientem korelace ρ. Meze 100(1-α)% asymptotického intervalu spolehlivosti pro ρ jsou:

  , přičemž , .


11.31. Příklad: Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi počtem
dní absence za rok (veličina Y) a věkem pracovníka (veličina X). Proto náhodně vybral údaje o 10
pracovnících.


                                    Č.prac.

                                           1

                                             2

                                               3

                                                 4

                                                   5

                                                     6

                                                       7

                                                         8

                                                           9

                                                             10

                                    X

                                           27

                                             61

                                               37

                                                 23

                                                   46

                                                     58

                                                       29

                                                         36

                                                           64

                                                             40

                                    Y

                                           15

                                             6

                                               10

                                                 18

                                                   9

                                                     7

                                                       14

                                                         11

                                                           5

                                                             8


Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 10
z dvourozměrného normálního rozložení, vypočtěte výběrový korelační koeficient a na hladině
významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95%
asymptotický interval spolehlivosti pro skutečný korelační koeficient ρ.

Řešení:

Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového
diagramu.


Vzhled diagramu svědčí o tom, že předpoklad je oprávněný.

Testujeme H[0]: ρ = 0 proti H[1]: ρ ≠ 0. Vypočítáme R[12] = -0,9325, tedy mezi věkem pracovníka a
počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Testová statistika: T =
-7,3053, kvantil t[0,975](8) = 2,306, kritický obor . Jelikož , zamítáme na hladině významnosti
0,05 hypotézu o nezávislosti veličin X a Y.

Vypočítáme . Meze 95% asymptotického intervalu spolehlivosti pro ρ jsou , tedy -0,9842  < ρ <
-0,7336 s pravděpodobností přibližně 0,95.