Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Spojitá a kategoriální data
Základní popisné statistiky
Grafický popis dat
V. Základní typy dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Realitu můžeme popisovat různými typy dat, každý z nich
se specifickými vlastnostmi, výhodami, nevýhodami a
vlastní sadou využitelných statistických metod - od
binárních přes kategoriální, ordinální až po spojitá data
roste míra informace v nich obsažené.
 Základním přístupem k popisné analýze dat je tvorba
frekvenčních tabulek a jejich grafických reprezentací –
histogramů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?
– různé typy dat znamenají různou informaci
Kolikrát ?
Podíl
hodnot
větší/menší
než
specifikovaná
hodnota
?
O kolik ?
Větší, menší ?
Rovná se ?
Procenta
odvozené
hodnoty
Data poměrová
Data intervalová
Data ordinální
Data nominální
Spojitá
data
Diskrétní
data
Kategoriální otázky
Otázky „Ano/Ne“
Samotná znalost typu dat ale na dosažení informace nestačí ………….
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?
– různé typy dat znamenají různou informaci
PRŮMĚR
MEDIÁN
MODUS
Data poměrová
Data intervalová
Data ordinální
Data nominální
Spojitá
data
Diskrétní
data
Statistika středu
X
Y = f
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
N: 100 dětí (hemofiliků)
x: znak: počet krvácivých epizod za měsíc
n(x) – absolutní četnost x
p(x) – relativní četnost; p(x) = n(x) / n
N(x) – kumulativní četnost hodnot nepřevyšujících x;
N(x) = Σ n(t)
F(x) – kumulativní relativní četnost hodnot
nepřevyšujících x; F(x) = N(x) / n
Jak vznikají informace ?
- frekvenční tabulka jako základní nástroj popisu
Primární data Frekvenční sumarizace
x n(x) p(x) N(x) F(x)
0 20 0,2 20 0,2
1 10 0,1 30 0,3
2 30 0,3 60 0,6
3 40 0,4 100 1,0
0
0
1
2
1
1
3
1
1
2
.
.
.
.
.
.
n = 100
Počtyepizodpron=100hemofiliků
t ≤ x
DISKRÉTNÍ DATA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?
- frekvenční tabulka jako základní nástroj popisu
Příklad: x: koncentrace látky v
krvi n = 100 pacientů
Primární data
Frekvenční sumarizace
n = 100 opakovaných měření (100 pacientů)
x: koncentrace sledované látky v krvi (20 – 100 jednotek)
d(l) – šířka intervalu
n(l) – absolutní četnost
n(l) / n – intervalová relativní četnost
N(x’’) – intervalová kumulativní četnost do horní hranice X’’
F(x’’) – intervalová relativní kumulativní četnost do horní
hranice X’’
interv d(l
)
n(l) n(l)/n N(x’’) F(x’’)
<20, 40) 20 20 0,2 20 0,2
<40, 60) 20 10 0,1 30 0,3
<60, 80) 20 40 0,4 70 0,7
<80, 100) 20 30 0,3 100 1,0
1,21
1,48
1,56
0,31
1,21
1,33
0,33
.
.
.
n = 100
Hodnotypron=100osob
SPOJITÁ DATA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?
- frekvenční sumarizace spojitých dat
x
0
1
20 40 60 80 100
x
F(x)
Intervalová
relativní
kumulativní
četnost
Histogram Výběrová distribuční funkce
0.000
0.005
0.010
0.015
0.020
0.025
f(x)=
Intervalová
hustota
četnosti
20 40 60 80 100
Plocha: n(l) / n
n(l) / n
d(l)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Výběrové rozložení hodnot lze modelově popsat
a definovat tak pravděpodobnost výskytu X
f(x)
x
f(x)
x
f(x)
x
ϕ(x)
ϕ(x)
ϕ(x)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?
- frekvenční sumarizace spojitých dat
Grafické výstupy z frekvenční tabulky – spojitá data
f(x)
x
0
1
20 40 60 80 100
F(x)
x
KVANTIL
0
0.005
0.01
0.015
0.02
0.025
20 40 60 80 100
Uspořádání čísel podle
velikosti a konstrukce
rozložení umožňuje
pravděpodobnostní
zařazení každé
jednotlivé hodnoty
X0.1; X0.9; X0.5; Xθ
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Normální rozložení jako statistický model
Aplikace modelových rozložení
Přehled modelových rozložení
VI. Modelová rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Klasickým postupem statistické analýzy je na základě
vzorku cílové populace identifikovat typ a charakteristiky
modelového rozložení dat, využít jeho matematického
modelu k popisu reality a získané výsledky zobecnit na
hodnocenou cílovou populaci.
 Využití tohoto přístupu je možné pouze v případě shody
reálných dat s modelovým rozložením, v opačném případě
hrozí získání zavádějících výsledků.
 Nejklasičtějším modelovým rozložením, od něhož je
odvozena celá řada statistických analýz je tzv. normální
rozložení, známé též jako Gaussova křivka.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Rozložení hodnot jako model: Normální
rozložení
N (µ,σ)
ϕ(x)
µ
N (0,1)
ϕ(z)
0
Tabelovaná
podoba
Standardizovaná forma
x
z
z = x - µ
σ
2
2
2
)(
.
2.
1
)( σ
µ
πσ
ϕ
−
−
=
x
ex
2
2
.
.2
1
)(
z
ez
−
=
π
ϕ
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Parametry charakterizující normální rozložení a
jejich význam
ϕ(x)
x
mediánprůměrµ ~ x
průměr - ukazatel středu
σ2 ~ s2
rozptyl
xi x
a)
b)
µ
σ ~ s
směrodatná odchylka
Pravidlo ± 3s
koeficient variance
c)
d)
2
ss =
xsc =
1
)( 2
2
−
−Σ
=
n
xx
s i
E (x) ~ x ~ µ
D (x) ~ s2 ~ σ2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Rozložení Parametry Stručný popis
Normální
Průměr (µ)
Rozptyl (σ2)
Symetrická funkce popisující intervalovou
hustotu četnosti; nejpravděpodobnější jsou
průměrné hodnoty znaku v populaci.
Log-
normální
Medián
Geometrický průměr
Rozptyl (σ2)
Funkce intervalové hustoty četnosti, která po
logaritmické transformaci nabude tvaru
normálního rozložení.
Weibullovo
α - parametr tvaru
β - parametr rozsahu hodnot
Změnou parametru a lze modelovat distribuci
doby přežití, např. stresovaného organismu.
Rozložení využívané i jako model k odhahu
LC50 nebo EC50 u testů toxicity.
Rovnoměrné
Medián
Geometrický průměr
Rozptyl (σ2)
Funkce intervalové hustoty četnosti, která po
logaritmické transformaci nabude tvaru
normálního rozložení.
Triangulární
f(x) = [b - ABS (x - a)] / b2
a - b < x < a + b
Pravděpodobnostní funkce pro typ rozložení,
kdy jsou střední hodnoty výrazně
pravděpodobnější než hodnoty okrajové.
Gamma
Parametry distribuční funkce:
α - parametr tvaru
β - parametr rozsahu hodnot
Umožňuje flexibilně modelování distribučních
funkcí nejrůznějších tvarů. Např. χ2 rozložení
je rozložení typu Gamma. Gamma rozložení
s a = 1 je známo jako exponenciální rozložení.
Stručný přehled modelových rozložení I.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Stručný přehled modelových rozložení II.Rozložení Parametry Stručný popis
Beta
Parametry distribuční
funkce:
α - parametr tvaru
β - parametr rozsahu
hodnot
Pravděpodobnostní funkce pro proměnnou
omezenou rozsahem do intervalu [0; 1]. Je
matematicky komplikovanější, ale velmi
flexibilní při popisu změn hodnot proměnné
v ohraničeném intervalu.
Studentovo
Stupně volnosti uvažuje
velikost vzorku
Průměr
Rozptyl
Simuluje normální rozložení pro menší vzorky
čísel. Pro větší soubory (n > 100) se limitně
blíží k normálnímu rozložení.
Pearsonovo
Stupně volnosti uvažuje
velikost vzorku
Slouží především k porovnání četností jevů ve
dvou a více kategoriích.
Používá se k modelování rozložení odhadu
rozptylu normálně rozložených dat.
Fisher-
Snedecorovo
Dvojí stupně volnosti uvažuje
velikost dvou
vzorků
Používá se k testování hodnot průměrů - F test
pro porovnání dvou výběrových rozptylů; F
test, ANOVA atd.
Stručný přehled modelových rozložení II.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Popisné statistiky dat
Vizualizace dat
VII. Popisná statistika dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Popisná analýza dat je po vizualizaci dat dalším krokem v
procesu statistického hodnocení. Poskytuje představu o
rozsazích hodnocených dat a umožňuje vyhodnotit,
srovnámí s literárními údaji nebo dosavadní zkušeností,
jejich realističnost.
 Již při výběru vhodné popisné statistiky se uplatňuje
znalost rozložení dat. Některé popisné statistiky, odvozené
od modelových rozložení, je možné využít pouze v
případě, že data mají dané modelové rozložení. Typickým
příkladem je průměr a směrodatná odchylka, jejichž
předpokladem je přítomnost normálního rozložení.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Typy proměnných
 Kvalitativní/kategorická
 binární - ano/ne
 nominální - A,B,C … několik kategorií
 ordinální- 1<2<3 …několik kategorií a můžeme se ptát, která je
větší
 Kvantitativní
 nespojitá – čísla, která však nemohou nabývat všech hodnot (např.
počet porodů)
 spojitá – teoreticky jsou možné všechny hodnoty (např. krevní tlak)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Frekvenční rozložení
Kategorie Četnost
B 5
C 8
D 1
Kvalitativní data
Tabulka s četností jednotlivých
kategorií.
Kvantitativní data
Četnost hodnot rozložení v
jednotlivých intervalech.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Parametry rozložení
 Soubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení
 Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele:
 Středu (medián, průměr, geometrický průměr)
 Šířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka)
 Tvaru rozložení (skewness, kurtosis)
 Kvantily rozložení – kolik % řady dat leží nad a pod kvantilem
ϕ(x)
x
MediánPrůměr
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Populace a vzorek
 Populace představuje veškeré možné objekty vzorkování, např. veškeré
obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné
parametry rozložení
 Z populace je prováděno vzorkování za účelem získání reprezentativního
vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je
také velikost vzorku, ze vzorku získáme odhady parametrů rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Ukazatele středu rozložení I
 Průměr – vhodný ukazatel středu u normálního/symetrického rozložení, kde
xi jsou jednotlivé hodnoty a n jejich počet
 Medián – jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina
pod mediánem
 V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné
∑=
==
n
i
i
n
x
xxE
1
)(
ϕ(x)
Medián
x
Průměr
ϕ(x)
x
MediánPrůměr
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Ukazatele šířky rozložení
 Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky
jednotlivých hodnot od průměru.
 Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v
případě symetrického/normálního rozložení
 Směrodatná odchylka je druhá odmocnina z rozptylu
 Koeficient variance - podíl SD ku průměru (u normálního rozložení
by se 95% hodnot mělo vejít do průměr 3 SD), pokud je SD větší
než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty
v rozložení – ukazatel problémů s normalitou dat
1-n
)(x 2
i2 ∑ −
=
x
s
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Ukazatele tvaru rozložení
 Skewness – ukazatel „šikmosti“ rozložení, asymetrie rozložení
 Kurtosis – ukazatel „špičatosti/plochosti“ rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Další parametry rozložení
 Počet hodnot – důležitý ukazatel, znamená jak moc lze na data spoléhat
 Střední chyba odhadu průměru - je založena na směrodatné odchylce
rozložení a počtu hodnot, vlastně jde o směrodatnou odchylku rozložení
průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot
rozložení, tím je náš odhad skutečného průměru přesnější.
 Suma hodnot
 Modus – nejčastější hodnota, vhodný např. při kategoriálních datech
 Minimum, maximum
 Rozsah hodnot
 Harmonický průměr - převrácená hodnota průměru převrácených hodnot
(vždy platí harmonický průměr < geometrický průměr < aritmetický průměr)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Princip statistického testování hypotéz
Pojmy statistických testů
Normalita dat a její význam pro testování
IX. Základy testování hypotéz
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Testování hypotéz je po popisné statistice druhým hlavním směrem
statistických analýz. Při testování pokládáme hypotézy, které se snažíme s
určitou pravděpodobností potvrdit nebo vyvrátit.
 Tzv. nulovou hypotézu lze nejlépe popsat jako situaci, kdy předpokládáme vliv
náhody (rozdíl mezi skupinami je pouhá náhoda, vztah dvou proměnných je
pouhá náhoda apod.), alternativní hypotéza předpokládá vliv nenáhodného
faktoru.
 Výsledkem statistického testu je v zásadě pravděpodobnost nakolik je
hodnocený jev náhodný nebo ne, při překročení určité hranice (nejčastěji
méně než 5% pravděpodobnost, že jev je pouhá náhoda) deklarujeme, že
pravděpodobnost náhody je pro nás dostatečně nízká abychom jev prohlásili
za nenáhodný
 Statistická významnost je ovlivnitelná velikostí vzorku a tak je pouze indicií k
prohlášení např. rozdílu dvou skupin pacientů za skutečně významný. V ideální
situaci je nezbytné aby rozdíl byl významný nejenom statisticky (=nenáhodný),
ale i prakticky (=nejde pouze o artefakt velikosti vzorku).
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Princip testování hypotéz
Cílová
populace
Vzorek Reprezentativnost ?
Závěr ?
Interpretace
 Formulace hypotézy
 Výběr cílové populace a z ní reprezentativního vzorku
 Měření sledovaných parametrů
 Použití odpovídajícího testu závěr testu
 Interpretace výsledků
Měření parametrů
Testy hypotéz
?
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Statistické testování – základní pojmy
Nulová hypotéza HO
Alternativní hypotéza HA
Testová statistika
Kritický obor testové statistiky
0 T
Pozorovaná hodnota – Očekávaná hodnota
Variabilita dat
Testová statistika =
HO: sledovaný efekt je nulový
HA: sledovaný efekt je různý mezi skupinami
* Velikost vzorku
Statistické testování
odpovídá na otázku zda
je pozorovaný rozdíl
náhodný či nikoliv. K
odpovědi na otázku je
využit statistický model
– testová statistika.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Možné chyby při testování hypotéz
Závěr testu
Hypotézu
nezamítáme
Hypotézu
zamítáme
β 1- β
1- α α
Skutečnost
H0
Platí
H0
Neplatí
 I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při
rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby.
Správné rozhodnutí
Správné rozhodnutí
Chyba II. druhu
Chyba I. druhu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Význam chyb při testování hypotéz
Pravděpodobnost chyby 1. druhu
α Pravděpodobnost nesprávného
zamítnutí nulové hypotézy
Pravděpodobnost chyby 2. druhu
β Pravděpodobnost nerozpoznání
neplatné nulové hypotézy
Síla testu
1-β
Pravděpodobnostně vyjádřená
schopnost rozpoznat neplatnost
hypotézy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Parametrické vs. neparametrické testy
Parametrické testy
Neparametrické testy
• Mají předpoklady o rozložení vstupujících dat (např. normální rozložení)
• Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy
neparametrické
• Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich
síla testu prudce klesá a výsledek testu může být zcela chybný a
nesmyslný
• Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při
asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném
rozložení
• Snížená síla těchto testů je způsobena redukcí informační hodnoty
původních dat, kdy neparametrické testy nevyužívají původní hodnoty,
ale nejčastěji pouze jejich pořadí
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
One-sample vs. two sample testy
One – sample testy
Two – sample testy
• Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční
hodnotou (popřípadě se statistickým parametrem cílové populace)
• V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem
(referenční hodnota, hodnota cílové populace)
• Otázka položená v testu může být vztažena k průměru, rozptylu, podílu
hodnot i dalším statistickým parametrům popisujícím vzorek
• Srovnávají navzájem dva vzorky (two sample, dvouvýběrové vzorky)
• V testu jsou srovnávány dvě rozložení hodnot
• Otázka položená v testu může být opět vztažena k průměru, rozptylu,
podílu hodnot i dalším statistickým parametrům popisujícím vzorek
• Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více
skupin dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
One-tailed vs. Two-tailed testy
One – tailed testy
Two – tailed testy
• Hypotéza testu je postavena asymetricky,
tedy ptáme se na větší než/ menší než
• Test může mít pouze dvojí výstup – jedna
z hodnot je větší (menší) než druhá a
všechny ostatní případy
• Hypotéza testu se ptá na otázku rovná
se/nerovná se
• Test může mít trojí výstup – menší - rovná
se – větší než
• Situace nerovná se je tedy souhrnem dvou
možných výstupů testu (menší+větší)
Kritický obor
Kritický obor
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Nepárový vs. párový design
Nepárový design
Párový design
• Skupiny srovnávaných dat jsou na sobě zcela
nezávislé (též nezávislý, independent
design), např. lidé z různých zemí, nezávislé
skupiny pacientů s odlišnou léčbou atd.
• Při výpočtu je nezbytné brát v úvahu
charakteristiky obou skupin dat
• Mezi objekty v srovnávaných skupinách
existuje vazba, daná např. člověkem před a
po operaci, reakce stejného kmene krys atd.
• Vazba může být buď přímo dána nebo pouze
předpokládána (v tom případě je nutné ji
ověřit)
• Test je v podstatě prováděn na diferencích
skupin, nikoliv na jejich původních datech
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Statistické testy a normalita dat
 Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na
předpokladu nějakého rozložení) – např. t-testy
 Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro
výpočet (t-rozložení) a test tak může lhát
 Řešením je tedy:
 Transformace dat za účelem dosažení normality jejich rozložení
 Neparametrické testy – tyto testy nemají žádné předpoklady o rozložení dat
Typ srovnání Parametrický test Neparametrický test
2 skupiny dat nepárově: Nepárový t-test Mann Whitney test
2 skupiny dat párově: Párový t-test Wilcoxon test, sign test
Více skupin nepárově: ANOVA Kruskal- Wallis test
Korelace: Pearsonův koeficient Spearmanův koeficient
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Testy normality
 Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a normálním
rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např.
bimodalitu některé testy neodhalí.
145 155 165 175 185 195 205 215
0
50
100
150
200
250
•Test dobré shody
V testu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě
histogramu), tyto intervaly jsou normalizovány (převedeny na normální rozložení)
a podle obecných vzorců normálního rozložení jsou k nim dopočítány očekávané
hodnoty v intervalech, pokud by rozložení bylo normální. Pozorované
normalizované četnosti jsou poté srovnány s očekávanými četnostmi pomocí χ2
testu dobré shody. Test dává dobré výsledky, ale je náročný na n, tedy množství
dat, aby bylo možné vytvořit dostatečný počet tříd hodnot.
•Kolgomorov Smirnov test
Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše
se symetrií hodnot než přímo s normalitou. Jde o neparametrický test pro
srovnání rozdílu dvou rozložení. Je založen na zjištění rozdílu mezi reálným
kumulativním rozložením (vzorek) a teoretickým kumulativním rozložením. Měl by
být počítán pouze v případě, že známe průměr a směrodatnou odchylku
hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho
modifikace – Lilieforsův test.
•Shapiro-Wilk`s test
Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou
testu, zvláště ve srovnání s alternativními typy testů, je zaměřen na testování
symetrie.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jednovýběrový t-test
Jednovýběrový test rozptylu
X. Statistické testy o
parametrech jednoho výběrů
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Jednovýběrové statistické testy srovnávají některou
popisnou statistiku vzorku (průměr, směrodatnou
odchylku) s jediným číslem, jehož význam je ze statistické
hlediska hodnota cílové populace
 Z hlediska statistické teorie jde o ověření, zda daný vzorek
pochází z testované cílové populace.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
“One sample“ testy I
H0 HA Testová statistika Interval spolehlivosti
t t > t
t t < t
t |t| > t
Průměr – cílová vs. výběrová populace
n
s
μx
t
−
=
(n-1)
1-α
(n-1)
α
(n-1)
1-α/2
µ≤x
µ≥x
µ=x µ≠x
µ<x
µ>x
V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou
populací. Pro parametrické testy musí mít datový soubor normální rozložení.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
“One sample“ testy II
Rozptyl – cílová vs. výběrová populace
H0 HA Testová statistika Interval spolehlivosti
2
2
2
σ
1).s(n
χ
−
=
2
χ
2
χ
2
χ
2
-1
2
χχ α>
22
χχ α<
2
/2
2
χχ α<
2
2/-1
2
χχ α>
(n-1)
nebo
(n-1)
22
σ≤s
22
σ≥s
22
σ=s 22
σ≠s
22
σ<s
22
σ>s
V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou
populací. Pro parametrické testy musí mít datový soubor normální rozložení.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrový párový a nepárový t-test
Neparametrické alternativy t-testu
XI. Statistické testy o
parametrech dvou výběrů
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Jedním z nejčastějších úkolů statistické analýzy dat je
srovnání spojitých dat ve dvou skupinách pacientů. Na
výběr je celá škála testů, výběr konkrétního testu se pak
odvíjí od toho, zda je o srovnání párové nebo nepárové a
zda je vhodné použít test parametrický (má předpoklady o
rozložení dat) nebo neparametrický (nemá předpoklady o
rozložení dat, nicméně má nižší vypovídací sílu).
 Nejznámějšími testy z této skupiny jsou tzv. t-testy
používané pro srovnání průměrů dvou skupin hodnot
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrové testy: párové a nepárové I
 Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich
základním dělením je podle designu experimentu na testy párové a
nepárové.
 Základním testem pro srovnání dvou
nezávislých rozložení spojitých čísel
je nepárový two-sample t-test
 Základním testem pro srovnání dvou
závislých rozložení spojitých čísel je
párový two-sample t-test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrové testy: párové a nepárové II
Data
Nezávislé uspořádání
Párové uspořádání
……….
……….
……….
X1 X2
X1- X2 = D
……….
……….
X1 X2
Design uspořádání
zásadně ovlivňuje interpretaci parametrů
2
Ds
D
n
0D:H0 =
(n = n2 = n1)
210 μμ:H =
2
1
2
1
s
x
n
2
2
2
2
s
x
n
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Předpoklady nepárového dvouvýběrového
t-testu
 Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací
 Nezávislost obou srovnávaných vzorků
 Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem
nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita
může být testována testy normality
 Rozptyl v obou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je
testován několika možnými testy – Levenův test nebo F-test.
 Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické
srovnání a ověření předpokladů normality a homogenity rozptylu – nenahradí statistické
testy, ale poskytne prvotní představu.
0
ϕ(x)
μ
| | |
•
•
| |
•
•
X
Varianta 1 Varianta 2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Nepárový dvouvýběrový t-test – výpočet I
1. nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné,
two tailed test
2. prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a
nehomogenita rozptylu, provést F –test
F-test pro srovnání dvou výběrových
rozptylů
•Používá se pro srovnání rozptylu
dvou skupin hodnot, často za
účelem ověření homogenity
rozptylu těchto skupin dat.
• V případě ověření homogenity je testována hypotéza shody rozptylů (two tailed); v případě
shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t-testu, v opačném případě
není vhodné test počítat.
H0 HA Testová statistika
2
2
2
1 σσ ≤
2
2
2
1 σσ ≥ 2
2
2
1 σσ <
2
2
2
1 σσ >
2
2
2
1 σσ = 2
2
2
1 σσ ≠
2
2
2
1
s
s
F =
2
1
2
2
s
s
F =
( )
( )2
2
2
1
2
2
2
1
;min
;max
ss
ss
F =
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Nepárový dvouvýběrový t-test – výpočet II
3. Výpočet testové statistiky (stupně volnosti jsou ):
4. výsledné t srovnáme s tabulární hodnotou t pro dané stupně volnosti a α
(obvykle α=0,05)
5. Lze spočítat interval spolehlivosti pro rozdíl průměrů (např. 95%), počet
stupňů volnosti a s2 odpovídají předchozím vzorcům
( ) ( )
2
11
21
2
22
2
112
−+
−+−
=
nn
snsn
s
221 −+= nnυ
vážený odhad
rozptylu
2
1 2 0,975 1 2 1 2 0,975
1 2
1 1
( ) ( ) ( )x x t SE x x x x t s
n n
 
− ± − = − ± + 
 






+
−
==
21
2
21
11)(
_
nn
s
xx
ěrůrozdílprůoSE
průrůměRozdíl
t
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrový t-test - příklad
Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou zvýšenou dávkou potravy.
Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy pak 24 ovcí.
• Vlastní experiment byl prováděn tak, že na začátku máme 54 ovcí (ideálně stejného plemene, stejně staré atd.), které náhodně
rozdělíme do dvou skupin (náhodné rozdělování objektů do pokusných skupin je objektem celého specializovaného odvětví statistiky
nazývaného randomizace). Poté co experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využití nepárového t-testu.
Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na kterých můžeme posoudit normalitu a
homogenitu rozptylu, kromě okometrického pohledu můžeme pro ověření normality použít testy normality, pro ověření homogenity
rozptylu pak F-test
• Pokud platí všechny předpoklady Two sample nepárového t-testu, můžeme spočítat testovou charakteristiku, výsledné t je 2,43 s 52
stupni volnosti, podle tabulek je a t0,975 (52)= 2,01, tedy t> t0,975 (52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost
je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou.
• Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91
kg. To, že konfidenční interval nezahrnuje 0 je dalším potvrzením, že mezi skupinami je významný rozdíl – jde o další způsob testování
významnosti rozdílů mezi skupinami dat – nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě
zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0).
( ) ( )
2
11
21
2
22
2
112
−+
−+−
=
nn
snsn
s 221 −+= nnυ
2
1 2 0,975 1 2 1 2 0,975
1 2
1 1
( ) ( ) ( )x x t SE x x x x t s
n n
 
− ± − = − ± + 
 






+
−
==
21
2
21
11)(
_
nn
s
xx
ěrůrozdílprůoSE
průrůměRozdíl
t
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Neparametrické alternativy nepárového t-testu
X1 X2 ALL
Rank
ALL
X1
rank
X2 rank
27 25 25 5 6 5
35 29 29 7,5 11 7,5
38 31 31 9 13 9
37 23 23 4 12 4
39 18 18 2 14 2
29 17 17 1 7,5 1
41 32 32 10 15 10
19 19 3 3
27 6
35 11
38 13
37 12
39 14
29 7,5
41 15
Mann Whitney U-test
•Stejně jako řada jiných neparametrických testů počítá i
tento test s pořadím dat v souborech namísto
s originálními daty. Jde o neparametrickou obdobu
nepárového t-testu a z těchto neparametrických testů
má nejvyšší sílu testu (95% párového t-testu).
•V případě Mann-Whitney testu jsou nejprve čísla obou
souborů sloučena a je vytvořeno jejich pořadí v tomto
sloučeném souboru, pak jsou hodnoty vráceny do
původních souborů a nadále se pracuje již jen s jejich
pořadím.
•Pro oba soubory je tedy vytvořen součet pořadí a
menší z obou součtů je porovnán s kritickou hodnotou
testu, pokud je tato hodnota menší než kritická hodnota
testu, zamítáme nulovou hypotézu shody distribučních
funkcí obou skupin.
•Podobným způsobem je počítán i Wilcoxon rank sum
test (pozor, existuje ještě Wilcoxnův párový test!!!)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Mann – Whitney U test - příklad
 17 štěňat bylo trénováno v chození na záchod metodou pozitivního
posilování (pochvala, když jde na záchod venku) nebo negativního
(trest, když jde na záchod doma). Jako parametr bylo měřeno, za
kolik dní je štěně vycvičeno.
 nulová hypotéza je, že není rozdíl v metodách tréninku, tedy, že
oběma metodami je štěně vycvičeno za stejnou dobu.
 po srovnání rozložení + malý počet hodnot je vhodné použít
neparametrický test
 je vytvořeno pořadí sloučených hodnot
 pořadí hodnot v jednotlivých skupinách dat je sečteno a menší ze
součtů je použit pro srovnání s kritickou hodnotou testu
 výsledkem testu je p<α, nulovou hypotézu tedy zamítáme a
výsledkem testu je, že pozitivní působení při výcviku štěňat dává
lepší výsledky
pozitivne
negativne
30
35
40
45
50
55
60
65
70
75
80
délkavýcviku
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Párové dvouvýběrové testy – předpoklady
 Skupiny dat jsou spojeny přes objekt měření, příkladem může být měření parametrů
pacienta před léčbou a po léčbě (nemusí jít přímo o stejný objekt, dalším příkladem mohou
být např. krysy ze stejné linie).
 Oba soubory musí mít shodný počet hodnot, protože všechna měření v jednom souboru
musí být spárována s měřením v druhém souboru. Při vlastním výpočtu se potom počítá se
změnou hodnot (diferencí) subjektů v obou souborech.
 Před párovým testem je vhodné ověřit si zda existuje vazba mezi oběma skupinami –
vynesení do grafu, korelace.
Existuje několik možných designů experimentu, stručně lze sumarizovat:
1. pokus je párový a jako párový se projeví
2. párové provedení pokusu – párově se neprojeví
• možná párovost není
• špatně provedený pokus – malé n, velká variabilita, špatný výběr jedinců
3. čekali jsme nezávislé a jsou
4. čekali jsem nezávislé a nejsou
• vazba
• náhoda
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Párový dvouvýběrový t-test
 Tento test nemá žádné předpoklady o rozložení vstupních dat, protože je počítán až na základě jejich diferencí.
 Tyto diference by měly být normálně rozloženy a otázkou v párovém t-testu je, zda se průměrná hodnota diferencí
rovná nějakému číslu, typicky jde o srovnání s nulou jako důkaz neexistence změny mezi oběma spárovanými
skupinami.
 V podstatě jde o one sample t-test, kde místo rozdílu průměru vzorku a cílové populace je uveden průměr diferencí
a srovnávané číslo (0 v případě otázky, zda není rozdíl mezi vzorky).
 Pro srovnání s 0 (testovou statistikou je t rozložení):
 Někdy je obtížné rozhodnout, zda jde nebo nejde o párové uspořádání, párový test by měl být použit pouze v
případě, že můžeme potvrdit vazbu (korelace, vynesení do grafu), jedním z důvodů proč toto ověřovat je fakt, že v
případě párového t-testu není nutné brát ohled na variabilitu původních dvou souborů, tento předpoklad však platí
pouze v případě vazby mezi proměnnými. Výpočet obou typů testů se vlastně liší v použité s, jednou jde o s
diferencí, v druhém případě o složený odhad rozptylu obou souborů.
 Zda je párové uspořádání efektivnější lze určit na základě:
 Síly vazby
 Je-li sD výrazně menší než sx1-x2
 Závislost je možné rozepsat pomocí vzorce:
 v případě Cov=0, tedy v případě neexistence vazby pak sD
2 odpovídá součtu původních rozptylů, tedy přibližně Sx1-x2.
D
t n
s
= 1nυ= −
1 2
2 2 2
1 22 ( ; )D x xs Cov x xσ σ≅ + −
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Párový dvouvýběrový t-test – příklad
Byl prováděn pokus s dietou 11 diabetických psů, každý pes byl vystaven dvěma dietám s odlišným typem sacharidů
(snadno vstřebatelné X pozvolna se rozkládající na glukózu), hodnoty krevní glukózy v průběhu jednotlivých diet
mají být srovnány pro zjištění vlivu diety na hladinu krevní glukózy. Protože každý pes absolvoval obě diety, jde o
párové uspořádání, kdy výsledky hodnoty v obou pokusech jsou spojeny přes pokusné zvíře.
pes1
pes2
pes3
pes4
pes5
pes6
pes7
pes8
pes9
pes10
pes11
low high
4
6
8
10
12
14
16
18
20
22
24
1. Nulová hypotéza zní, že skutečný průměrný rozdíl mezi oběma dietami je 0, alternativní
hypotéza zní, že to není 0.
2. Pro každého psa je spočítán rozdíl mezi jeho hladinou glukózy při obou dietách a měly by
být ověřeny předpoklady pro one sample t-test – tedy alespoň přibližně normální rozložení.
3. Je spočítána testová charakteristika, výpočet vlastně probíhá jako one-sample t-test, kde je
zjišťována významnost průměru diferencí obou souborů jako rozdíl mezi touto hodnotou a
nulou (nula je hodnota, kterou by průměrná diference měla nabývat, pokud platí nulová
hypotéza). T=4.37 s 10 stupni volnosti, skutečná hodnota p=0,0014 a tedy na hladině
p=0,05 můžeme nulovou hypotézu zamítnou
4. Závěrem můžeme říci, že nulová hypotéza neexistence rozdílu mezi oběma dietami byla
zamítnuta, což znamená, že high-fibre dieta má významný vliv na snížení hladiny krevní
glukózy.
_ _ _ _
( )
rozdíl průměru vzorku a populace x x
t n
sSE průměru s
n
µ µ− −
= = =
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Neparametrická obdoba párového t-testu
Wilcoxon test
 Jsou vytvořeny diference mezi soubory, je vytvořeno jejich pořadí bez ohledu na znaménko a poté
je sečteno pořadí kladných a pořadí záporných rozdílů. Menší z těchto dvou hodnot je srovnána
s kritickou hodnotou testu a pokud je menší než kritická hodnota testu, pak zamítáme hypotézu
shody obou souborů hodnot. Pro test existuje aproximace na normální rozložení, ale pouze pro
velká n>25.
Před
zásahem
Po
zásahu
Změna
Absolutní
pořadí
6 2 4 10
2,5 3 -0,5 1,5
6,3 5 1,3 6
8,1 9 -0,9 5
1,5 2 -0,5 1,5
3,4 4 -0,6 3
2,5 1 1,5 8
1,11 2 0,89 4
2,6 4 -1,4 7
1 3 -2 9
( )
( )( )
1
_ _
4
1 2 1
24
n n
Menší suma diferencí
t
n n n
+
−
=
+ +
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Wilcoxonův test – příklad I
člověk A B diference pořadí
1 142 138 4 4,5
2 140 136 4 4,5
3 144 147 -3 3
4 144 139 5 7
5 142 143 -1 1
6 146 141 5 7
7 149 143 6 9,5
8 150 145 5 7
9 142 136 6 9,5
10 148 146 2 2
A…….parametr krve před podáním léku
B…….parametr krve po podání léku
W+ ……  pořadí kladných rozdílů = 51
W- …… = 4
W = min(W+;W-) = 4
počet párů = n = 10
Pokud je W menší než kritická hodnota testu, pak zamítáme hypotézu shody distribučních funkcí obou skupin.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Wilcoxonův test – příklad II
Byla testována nová dieta pro laboratorní krysy, při pokusu byl zjišťován její vliv na
různých liniích krys, bylo proto zvoleno párové uspořádání kdy krysy v obou
dietách jsou spojeny přes svoji linii, tj. na začátku byly dvojice krys stejné linie,
jedna z nich byla náhodně přiřazena k dietě, druhá z dvojice pak do druhé diety.
1. nulová hypotéza je, že váha krys není ovlivněna použitou dietou, alternativní, že
ovlivnění dietou existuje
2. spočítáme diference – tyto diference jsou nenormální a proto je vhodné využít
neparametrický test
3. Spočítáme sumu pořadí kladných a záporných diferencí, zde je menší suma
záporných diferencí – 31
4. výsledkem výpočtu je p>0,05 a tedy nemáme dostatečné důkazy pro zamítnutí
nulové hypotézy, nelze říci, že by nová dieta byla efektivnější než stará
5. pro doplnění výsledků je vhodné zjistit také skutečnou velikost rozdílu hmotností
ve skupinách, např. ve formě mediánu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrové testy: schéma analýzy
Nezávislé uspořádání
neparametrické
testy
testy:
ANO
NE
ANO t-test
nezávislý
aproximace
Man - Whitney
Mediánový test
normalit
a
?
homogenita
rozptylu
?
NE
transformace
NE
χ2 test
Kolmogorov-Smirnov test
Shapiro-Wilks test
F-test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrové testy: schéma analýzy
Párové uspořádání
neparametrické
testy
testy:
ANODiference
D
t-test
párový
Znaménkový
test
Wilcoxonův test
normalita
?
NE
transformace
NE
c2 test
Kolmogorov-Smirnov test
Shapiro-Wilks test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test dobré shody
Fisherův přesný test
McNemar test
Odds ratio a relativní riziko
XIII. Kontingenční tabulky
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi
dvěma kategoriálními proměnnými. Základním způsobem testování
je tzv. chi-square test, který srovnává pozorované četnosti
kombinací kategorií oproti očekávaným četnostem, které vychází z
teoretické situace, kdy je vztah mezi proměnnými náhodný.
 Test dobré shody je využíván také pro srovnání pozorovaných
četností proti očekávaným četnostem daným určitým pravidlem
(typickým příkladem je Hardy-Weinbergova rovnováha v genetice)
 Specifickým typem výstupů odvozených z kontingenčních tabulek
jsou tzv. odds ratia a relativní rizika, využívaná často v medicíně pro
identifikaci a popis rizikových skupin pacientů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test dobré shody - základní teorie
Binomické jevy (1/0)
χ
2
)1(
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost= +
2 pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
I. jev 1 II. jev 2
- 2-
0
1
Příklad 10 000 lidí hází mincí rub: 4 000 případů (R)
líc: 6 000 případů (L)
Lze výsledek považovat za statisticky významně odlišný
(nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ?
Rozdíl je vysoce statisticky významný (p << 0,001]
( ) ( ) 400
5000
50006000
5000
50004000
22
2
)1(
=
−
+
−
=χ
Tabulková hodnota: )195,0(84,3)1(
2
)95,0(
ανχ −===
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kontingenční tabulky: příklad
FA = 102 * 30 / 166 = 18,43
FB = 102 * 136 / 166 = 83,57
FC = 11,57
FD = 52,43
( ) ( ) ( ) ( ) 423,0
43,52
43,5254
57,11
57,1110
57,83
57,8382
43,18
43,1820
2222
2
)1( =
−
+
−
+
−
+
−
=χ 84,3423,0 )1(2
95,0 =< χ
Ano Ne Σ
Ano 20 82 102
Ne 10 54 64
Σ 30 136 166
gen 
Kontingenční tabulka v obrázku
c: 49%
d: 33%
a: 12%
b: 6%
Gen: ANO Gen: NE
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
R x C kontingenční tabulka
Výběr: N lidí ze sociologického průzkumu (delikventi)
Jev A: Původ z rozvrácených rodin
Jev B: Stupeň zločinnosti I < II < III < IV
I. II. III. IV. Σ
číslo 1ANO a b c d
NE e f g h
Σ
A B
číslo2
Stupně volnosti:
(R-1) * (C-1) = 1 * 3 = 3 N
čísločíslo
Fa
21⋅
=
)(2
)1(
ν
αχ −Tabulky:
Očekávané četnosti:
ea
a
pa
+
=
fb
b
pb
+
=
gc
c
pc
+
=
hd
d
pd
+
=
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test dobré shody: příklad I
H0: Pozorovaná frekvence pro jednotlivé barvy květů jsou vzorkem populace mající poměr mezi
žlutými a červenými květy 3 :1.
Součet frekvencí u obou barev květů (fi) se rovná 100 a pozorované frekvence u kategorií barvy
budou srovnány s očekávanými frekvencemi (uvedeny v závorkách):
Ověřte na datech z pokusu se 100 květinkami určitého druhu, že barva květů se geneticky štěpí v
poměru žlutá : červená = 3 : 1.
Kategorie barvy
Žlutá Červená n
f poz. 84 16 100
f oček. 75 25
St. volnosti = n = k - 1 = 1
( ) ( ) ( ) 320,4
25
2516
75
7584
22
.
2
..2
=
−
+
−
=
−
= ∑
oč
očpoz
f
ff
χ
Zamítáme hypotézu shody srovnávaných četností
Při testování H0 jsme použili matematický zápis (0,025 < P < 0,05). Z tabulek χ2 rozložení vidíme, že
pravděpodobnost překročení hranice 2,706 je 0,1 (10 %), což může být stručně zapsáno jako
P (χ2 ≥ 2,706) = 0,10.
Dále lze zjistit pro P (χ2 ≥ 3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové statistiky χ2 = 4,320.
Pro tento případ lze tedy psát 0,025 < P (χ2 ≥ 4,320) < 0,05; a jednodušeji 0,025 < P < 0,05. Jde v podstatě o
přibližné určení hranic chyby 1. druhu.