PSY117
Statistická analýza dat v psychologii
Přednáška 11 2016
TESTY PRO KATEGORICKÉ PROMĚNNÉ – NEPARAMETRICKÉ METODY
... a to mělo, jak sám vidíte, nedozírné následky.
Smrť

Analýza četností hodnot
kategorických (=O, N) proměnných
oVýzkumné otázky…
nLiší se preference politických stran?
nLiší se poměrné zastoupení kuřáků mezi ženami a muži?
nSouvisí nějak individuální volební preference s odhadem měsíčního příjmu respondenta?
oOtázky směřují
nbuď k rozdílu četností různých jevů v rámci jedné proměnné (četnost různých jevů v populaci),
nk rozdílu četností jevu mezi různými proměnnými (četnost jevu v různých populacích),
nNebo k pravděpodobnosti výskytu dvou (či více) jevů současně.
AJ: frequency, relative frequency, expected frequency, residuals, Chi-square

c2 test dobré shody
oLiší se empirické četnosti nějakých jevů od teoreticky očekávaných četností?
nPreference politických stran ve volbách…
nTedy jedna nominální proměnná, jeden výběr
oTestujeme p rozdílu mezi empirickými-pozorovanými (fo) a očekávanými (fe) četnostmi
oMírou rozdílu je hodnota c2, která má rozložení c2 s n=k-1 stupni volnosti a průměrem n
n
o
oH0: c2 = n  vs. H1: c2 > n
n
n
nk je počet kategorií, n velikost vzorku, ni četnost kat. i,
n pi  teoretická p-nost jevu v kategorii i;
oPro získání pravděpodobnosti c2 CHISQ.DIST(c2; df; 1); CHISQ.INV(p; df)
oOčekávané četnosti stanavujeme na základě teoretického předpokladu.
oni a npi  vždy jako četnosti; nikdy ne procenta (ztráta informace o velikosti vzorku)
AJ: Chi-square goodness-of-fit test, observed (empirical) frequency vs. expected frequency

Rozdělení c2
http://upload.wikimedia.org/wikipedia/commons/thumb/3/35/Chi-square_pdf.svg/1000px-Chi-square_pdf.s
vg.png
http://upload.wikimedia.org/wikipedia/en/thumb/e/e2/Chi-square_distributionCDF.svg/1000px-Chi-squar
e_distributionCDF.svg.png

Ve kterém městě byste žili nejraději?
Kategorie
n
p
np
(n-np)^2/np
Paříž
28
0,2
28
0
New York
28
0,2
28
0
Londýn
28
0,2
28
0
L.A.
28
0,2
28
0
Tokio
28
0,2
28
0
Celkem
140
1
140
0
Chi2
0
P(c2 > 0 | c2 = 4)≈1

Ve kterém městě byste žili nejraději?
Kategorie
n
p
np
(n-np)^2/np
Paříž
38
0,2
28
3,57
New York
37
0,2
28
2,89
Londýn
22
0,2
28
1,29
L.A.
25
0,2
28
0,32
Tokio
18
0,2
28
3,57
Celkem
140
1
140
11,64
Chi2
11,64
P(c2 > 11,64 | c2 = 4)=1-CHISQ.DIST(11,64; 4; 1)=0,02

Závislost kategorických proměnných
oJaká je souvislost preference politické strany a úrovně hrubého příjmu voliče?
oJaká je pravděpodobnost společného výskytu dvou jevů z x  a y možných?
oKontingenční tabulka … řádky x sloupce = r x s; i  x j
oVe těle tabulky jsou četnosti jednotlivých kombinací, v okrajích tzv. marginální četnosti – sumy
sloupců nebo řádků. Tedy n12 znamená počet osob ve druhém sloupci prvního řádku; počet osob, u
nichž nastal jev A1 a současně B2.
Kategorie
B1
B2
...
Bs
Řádkové součty
A1
n11
n12
...
n1s
n1.
A2
n21
n22
...
n2s
n2.
...
...
...
...
...
...
Ar
ni1
ni2
...
nij
ni.
Sloupcové součty
n.1
n.2
...
n.j
n
AJ: contingency table (crosstabulation, ctosstab), marginal frequencies

Závislost kategorických proměnných
oc2 test nezávislosti(homogenity)
oOčekávané četnosti fe: mij (očekávaná četnost v i-j-té buňce)(i – řádky, j –sloupce)
oTestová statistika je c2
oStupně volnosti: df = (i-1)*(j-1)
Kategorie
B1
B2
...
Bs
Řádkové součty
A1
n11
n12
...
n1s
n1.
A2
n21
n22
...
n2s
n2.
...
...
...
...
...
...
Ar
ni1
ni2
...
nij
ni.
Sloupcové součty
n.1
n.2
...
n.j
n

Př. c2 test nezávislosti(homogenity)
Vztah bydliště a počtu holínek
Pozorované
Řádková %
0
1
>2
Řádkové součty
Velkoměsto
10
67%
1
7%
4
27%
15
Maloměsto
15
43%
19
54%
1
3%
35
Vesnice
15
30%
20
40%
15
30%
50
Sloupcové součty
40
40
20
100
Očekávané/ dílčí c2
0
1
>2
Řádkové součty
Velkoměsto
6/  2,7
6/     4,2
3/    0,3
15
Maloměsto
14/ 0,1
14/ 1,8
7/  5,1
35
Vesnice
20/ 1,3
20/   0
10/ 2,5
50
Sloupcové součty
40
40
20
100
c2=17,9   df=(3-1)*(3-1)=4   P(c2 > 17,9 | c2 = 4)=0,001

Síla vztahu v kontingenční tabulce
AJ: strength of association, contingency coefficient, standardized residuals


Pozorované
Řádková %
St. rezidua
0
1
>2
Řádkové součty
Velkoměsto
10
67%
1,6
1
7%
-2,0
4
27%
0,6
15
Maloměsto
15
43%
0,3
19
54%
1,3
1
3%
-2,3
35
Vesnice
15
30%
-1,1
20
40%
0
15
30%
1,6
50
Sloupcové součty
40
40
20
100
kontingenční koeficient C = √(17,9/(17,9+100))=0,4
Cramérovo V =√(17,9/(100*2))=0,3

Testy středních hodnot pro ordinální proměnné – neparametrické metody
oMetody užívající parametrů normálního rozložení  (m, s) mají svá omezení, když…
ndata pochází z rozložení, které se od normálního výrazně liší (tvar, či odlehlé hodnoty)
ndata mají spíše ordinální charakter; nebo se jedná o krátké intervalové škály
oNeparametrické metody
njsou robustní vůči rozložení dat…
nmají nižší sílu testu (tj. vyšší požadavky na velikost vzorku)
oTesty pro mediány
nPro jeden výběr: znaménkový test, Wilcoxonův test
nPro párové srovnání: Wilcoxonův test
nPro 2 nezávislé výběry: Mann-Whitney U, Kolmogorov-Smirnov Z
n
Non-parametric, robust, data assumptions, sign test

Jeden výběr, znaménkový test
oH: Je medián roven k?     H0: Md = k;  H1: Md ≠ k
oPlatí-li H0, mělo by nad i pod hypotetizovaným mediánem být stejné množství případů
oAsymptotický test pomocí normálního rozložení:
nZ+ (Z− ) je počet hodnot vyšších (nižších) než hypotetizovaný medián
nHodnoty rovné mediánu ignorujeme a odečítáme z n
nPlatí-li H0,  Z + = Z −  a  Z + + Z − = n.
nTestová statistika z = (2Z+ – n)/√n  má asymptoticky normální rozložení, (přesně má binomické
rozložení).
nP=2*(1–NORM.S.DIST(z))
o
oJedná se tedy o alternativu t-testu pro jeden výběr;
oPro závislé výběry (=párové srovnání) spočítáme di = xi – yi a znaménkovým testem testujeme H0:
Mdd = 0.

s. 282 v Sheskinovi

Neparametrické testy pro nezávislé výběry
oMediánový test
nJe–li společný medián dvou výběrů shodný, leží na jedné straně Md 50% každého výběru.
nUrčíme Md pro celý soubor; pokud platí H0, četnosti hodnot ležících nad i pod Md by měly být
stejné pro x i y.
nPokud H0 neplatí, budou četnosti výrazně asymetrické, v „diagonále“.
nPři n>30 lze užít asymptoticky normálně rozloženou testovou statistiku z:
Sk A
Sk B
∑
<Md
a
b
a+b
>Md
c
d
c+d
∑
a+c
b+d
n
Silnější alternativou je Wilcoxonův test pro nezávislé výběry nebo Mann-Whitney U, popřípadě další.

Shrnutí
oPro nominální data máme testy založené na chí-kvadrátu
nTest dobré shody
nTest nezávislosti/homogenity
oPro ordinální data a výrazně nenormálně rozložená intervalová máme „neparametrické“ testy
nJejich primitivní verze jsem si ukázali
n„Pojmenované“ testy je zpřesňují
n