I. Statistika ve vědecké praxi
Pozice statistické analýzy ve vědě a klinické praxi
Význam statistických výstupů
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Statistická analýza biologických dat je jedním z nástrojů, s jejichž pomocí se snažíme zjistit odpovědi na naše otázky týkající se pochopení živé přírody. Jako každý nástroj je i statistickou analýzu nezbytné na jedné straně korektně využívat a na druhou stranu nepřeceňovat její možnosti.
• Klíčovým faktem při statistické analýze dat je nahlížení na realitu prostřednictvím vzorku a přijmutí toho, že výsledky naší analýzy jsou jen tak dobré, jak dobrý je náš vzorek. Reprezentativnost a náhodnost vzorku spolu s jeho velikostí jsou důležité faktory ovlivňující věrohodnost našich závěrů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Výzkum, realita, statistika
• Výzkum je naším způsobem porozumění realitě
• Ale jak přesné a pravdivé je naše porozumění?
Statistika je
jedním z nástrojů vnášejících do našich výsledků určitou spolehlivost.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
• Naše realita je variabilní a statistika je vědou zabývající se variabilitou
• Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě
• V případě deterministického světa by statistická analýza nebyla potřebná
Biostatistika - různé přístupy k variabilitě
/v\/ Data
chyba
2.1
2.8
3.2 1,2 5,2
2.9
Včjriííljilita znaku v popude;
A
165 cm 140 cm 182 cm 163 cm rozptyl znaku, přirozená variabilita
1 modelovaných dat j
y • i
•>* * • i
x •
• chyba = nepřesnost modelu i
y
čas
fluktuace, časová proměnlivost
DRUH 1 15
DRUH 2 30
DRUH 3 40
DRUH 4 14
biodiverzita
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Pojem VARIABILITA má mnoho významů.........
.... a ty určují přístup k jejímu hodnocení
Maskování a minimalizace vlivu
Respektování a odhadování vlivu
Přímé využití k predikcím chování systému
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistika - význam a definice
WWW.WIKIPEDIA.ORG:
Statistika je matematickou vědou zabývající se shromážděním, analýzou, interpretací, vysvětlením a prezentací dat. Může být aplikována v širokém spektru vědeckých disciplín od přírodních až po sociální vědy. Statistika je využívána i jako podklad pro rozhodování, kdy nicméně může být záměrně i
nevědomky zneužita.
Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování. Statistika funguje korektně pouze poku d jsou splněny předpoklady jejích metod a modelů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Co může statistika říci o naší realitě?
Možnosti
Realita
Vzorek
Data
t
Informace
Statistika
Znalost t
Pochopení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistika není schopna činit závěry o jevech neobsažených v našem vzorku.
Statistika je nasazena v procesu získání informací z vzorkovaných dat a je
podporou v získání naší znalosti a pochopení problému.
Statistika není náhradou naší inteligence !!!
Cílová populace
• Cílová populace -klíčový pojem statistického zpracování
o Skupina objektů o nichž se chceme něco dozvědět (např. pacienti s danou diagnózou, všichni lidé nad 60 let, měření hemoglobinu v dané laboratoři)
o Musí být definována ještě před zahájením sběru dat
o Na cílové populaci probíhá vzorkování dat, které musí cílovou populaci dobře (reprezentativně) charakterizovat
Cílová populace Klíčové faktory Design Vzorkování a
Statistika a zobecnění výsledků
Neznámá
cílová
populace
Vzorek
Analýza
Díky zobecnění výsledků známe vlastnosti cílové populace
•
Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci
Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vzorkování a jeho význam ve statistice
Statistika hovořío realitě prostřednictvím vzorku!!!
o Statistické předpoklady korektního vzorkování
Representativnost: struktura vzorku musí maximálně reflektovat realitu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Velikost vzorku a přesnost statistických výstupů
Existuje skutečné rozložení a skutečný průměr měřené proměnné
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Z jednoho měření nezjistíme nic .Vzorek: ^ —► ?????
Vzorek určité velikosti poskytuje odhad reálné hodn oty s definovanou spolehlivostí
Vzorek:
Odhad
průměru atd.
Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný.
Různá role statistiky při různě velkém vzorku
Malá data Velká data Obrovská data
uchopit
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Přístup biostatistiky
Pacient Clovek aLeu aTyA aSeA aNeuA aLyA
aTy
aLy
aHtc aCLsk aCLNeus aCLOZ aCLNeuO
7,B
O,B
4,4
D,O
i,s
O,i
2,i
2,2
i,B
B,a
D,a
a,B
Da 3a
D,a
3,3
4,i
ata
4,0
7,2
2,2
3,s
B,4
s,D
a,3
a,a
a,2
iO,O
B,O
7,2
iO,3
D,O
7,2
iO,s
i7,O
0.8
0.6 0.4 0.2 0.0
O,4
O,i
O,B
O,7
O,3
O,i
O,2
O,7
O,i
O,i
O,i
O,2
3,a
O,2
O,s
I,S
4,B
2,3
2,7
i,i
4,a
D,O
i,i
D,7
B,3
2,2
D,3
B,O
3,3
7,7
s,O
O,i
4,O
4,i
O,7
B,i
B,3
2,B
s,3
a,O
O,s
D,B
s,s
3,7
3,s
i|3 í
D,4
i3,a
7,2
I i ^ 600
I_I ljSOO
I j 2^ 000
I I 2,200
I I 2,400
I I 2,600
I I 2,800
I I 3,000
I I 3,200
I I 3,400
I 1 above
'tí)
? Ü f. Ú
0 100 200 300 400
Schopnost: vidět data - komunikovat - interpretovat - prodávat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
aSe
aNeu
A
A
A
A
A
cell.10 I
cell.10 I
cell.10 I
cell.10 I
cell.10 I
mV.s.10
3
4
33
72
4
2
s
Ds
BB
24
33
aD
s
3
4
3
D2
DD
40
22
77
ii
4
B,i
D
Da
B4
3D 0,3
3,B
3,a
2,i
33
i03
i2
D
37
si
i4
B
32
i37
DD
0
iB
7
s
is
7D
7,4
0,B
34
iDi
20
s
3
72
40
77
2i
a
B
i0
B7
i,i
32
i20
22
i0
3,3
DD
2,0
,3
2s
si
37
ii
i0
B0
70
30
32
iii
3s
i2
2
7B
7s
i7
2D
3BB
3a
i3
B,s
D7
Ds
3a
0,i
3,a
3,a
2,7
20
234
4a
i4
7
B7
74
2B
30
iDB
Di
iD
7
D7
B4
3D
3D
i2a
D2
iB
2,2
i0
DB
BB
34
0,2
i,2
i,D
0,7
33
4B
DD
i7
3
7s
si
i0
30
isa
DB
is
D
2
s0
s2
i3
2B
i0i
B
s,s
ii
72
s3
i2
i,0
B,3
7,3
i,i
44
2Bs
a
2
2
BB
Bs
2s
42
iBs
i3
3
7
s3
a0
s
D4
isi
iD
4
a,B
7D
7B
23
0,i
7,2
i7
D
ia
B
2
7s
s0
is
24
7
s,2
72
73
2D
0,i
D,a
2B
s
sD
sB
3
2a
a
74
7D
2i
30
i0
ii,a
Di
D2
47
0,i
B,i
3i
ii
3
D3
DB
2a
32
i2
3B
D0
7B
s
33
i3
ii,s
22
D4
7B
iB
2,B
B,4
34
i4
s2
s3
iB
40
iD
s
72
s0
4
Experimentální design: nezbytná výbava biologa
Účel analýzy:
Popisný
cílová populace <..................
výběr dle optimálního plánu
reprezentativní vzorek n jedinců (faktor F)
••O
měření znaku
OO00OOO0O0
*Variabilita "hodnot* ve výběrovém souboru
VÝSLEDKY ....................
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
>LU >
N
Reprezentativnost
Spolehlivost Přesnost
4)
oOO ... analyzovaný znak
cílové populace (X)
••O ... jiný významný
faktor charakterizující
cílovou populaci (F)
Experimentální design: nezbytná výbava biologa
Účel analýzy:
Srovnávací (2 ramena)
cílová populace
v\ /17
výběr subjektů pro vstup do hodnocení / studie
-Y-
RANDOMIZACE
vzájemně srovnatelné vzorky (faktor F)
rameno A
měření znaku X
rameno B
OooOO 0O0O0
<.........................................► <.........................................\
variabilita hodnot X variabilita hodnot X
v rameni A v rameni B
\ /
VÝSLEDKY................................
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
x
A
n e
m
a
r
z o
r
r
cf i e
m
a
r
oOO ... analyzovaný znak
cílové populace (X)
••O ... jiný významný
faktor charakterizující
cílovou populaci (F)
■
Srovnatelnost
Spolehlivost Přesnost
Praktická a statistická významnost
•
•
Samotná statistická významnost nemá žádný reálný význam, je pouze měřítkem náhodnosti hodnoceného jevu
Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné hodnoty
Praktická významnost
ANO NE
Statistická významnost ANO OK, praktická i statistická významnost je ve shodě, jednoznačný závěr Významný výsledek je statistický artefakt velkého vzorku, prakticky nevyužitelné
NE Výsledek může být pouhá náhoda, neprůkazný výsledek OK, praktická i statistická významnost je ve shodě, jednoznačný závěr
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Obecné schéma využití statistické analýzy
Experimentální design Jak velký vzorek je nezbytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace. Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku. Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy. Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod. Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat. Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému.
Vzorkování
Uložení a management dat
Vizualizace dat
Popisná analýza
Testování hypotéz
Modelování Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů.
m m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita jjj^ J. Jarkovský, L. Dušek
Stochastické modelování: predikce neurčitých
jevů
Prospektivně - modelově - postihuje chování jevu při respektování variability
Pravděpodobnostní vztahy
Anamnéza x Výsledek vyšetření pacienta
Karcinom Benigní léze Benigní riziková Zdravá
Pozitivní anamnéza 2,22 34,44 0,00 63,33 100%
Negativní anamnéza 1,06 28,23 0,96 69,75 100%
p < 0.05
Vícerozměrná diskriminace
Znak Xi
-,o6 * O w , ;' O 6 O cQ}\
Znak X2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Stochastické modelování: predikce neurčitých
jevů
n
« 8 © O ^ »fl)
1,0
0,8
0,6
0,4
0,2
0,0 ^
-4,0
-2,0
0,0
2,0
1,0
0,8 0,6
0,4
0,2
4,0 0,0
Age = 55 years
0 10 20 30 40 50 60 70 80
Osa X
Parametr nebo kombinace parametrů
Data konkrétních pacientů (subjektů) k přímému hodnocení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Stochastické modelování: predikce neurčitých
Stádium I - II
Stádium III - IV
1.0
1.0
% Grade = 2 O Grade = 1
0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
Inde x Mitosis / (Apoptosis + 0.5)
Schopnost: vytvářet prakticky využitelné nástroje
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
jevů
Maligní lymfomy: Pravděpodobnost časného relapsu
Klíčový význam korektního uložení získaných dat
Pravidla pro ukládání dat Čištění dat před analýzou
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita , _ ^ J. Jarkovský, L. Dušek
IBA
Anotace
• Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové" tabulky umožňující jejich zpracování v libovolné aplikaci.
• Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezeno ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
DATA - ukázka uspořádání datového souboru
Parametry (znaky)
Pacient Clovek aLeu aTy% aSe% aNeu% aLy% aTy aSe aNeu aLy aHtc aCLsk aCLNeus aCLOZ aCLNeuO
cell.10G/ % % % % cell.10G/ cell.10G/ cell.10G/ cell.10G/ % mV.s.10S mV.s.10S mV.s.10S mV.s.10S
S 1 4 SS ľ2 S2
4 2 ľ,G B 5B GG 24 0,G 4,4 5,0 1,B SS 95 19 4B 10
B S 4 S 52 55 40 0,1 2,1 2,2 1,G 22 ľľ S5 SS 15
11 4 G,1 5 59 G4 S5 0,S S,G S,9 2,1 SS 10S 2G 49 1S
12 5 G,9 S B5 BB 9 0,2 5,9 G,1 0,G Sľ B1 1S 45 ľ
14 G 5,9 15 55 ľ0 19 0,9 S,S 4,1 1,1 S2 1Sľ SS G1 15
1G ľ B 1B ľ5 9S ľ 1,4 G,0 ľ,4 0,G S4 151 20 59 B
20 B 9,G S ľ2 ľ5 2S 0,S G,9 ľ,2 2,2 40 ľľ 11 SB 5
21 9 G 10 Gľ ľľ 19 0,G 4,0 4,G 1,1 S2 120 2G 52 11
22 10 S,S 4 55 59 S9 0,1 1,B 2,0 1,S 2B B1 42 24 12
Sľ 11 S,B 10 G0 ľ0 S0 0,4 2,S 2,ľ 1,1 S2 111 42 29 11
SB 12 G,4 2 ľG ľB 1ľ 0,1 4,9 5,0 1,1 25 SGG ľS 115 2S
S9 1S G,B 1 5ľ 5B S9 0,1 S,9 S,9 2,ľ 20 2S4 59 ľ1 1B
49 14 B,5 ľ Gľ ľ4 2G 0,G 5,ľ G,S 2,2 S0 15G 25 10B 1ľ
51 15 9,S ľ 5ľ G4 S5 0,ľ 5,S G,0 S,S S5 129 21 2S 4
52 1G 2,2 10 5G GG S4 0,2 1,2 1,5 0,ľ SS 4G S0 12 B
55 1ľ 9,9 S ľB B1 10 0,S ľ,ľ B,0 0,1 S0 1B9 24 140 1B
5G 1B 5 2 B0 B2 1S 0,1 4,0 4,1 0,ľ 2G 101 25 54 1S
G 1 B,B 11 ľ2 BS 12 1,0 G,S ľ,S 1,1 44 2GB SG,G 145 19,9
9 2 9,2 2 GG GB 2B 0,2 G,1 G,S 2,G 42 1GB 2G,9 ľG 12,2
1S S 10,0 ľ BS 90 B 0,ľ B,S 9,0 0,B 54 1B1 20,1 B1 9
15 4 9,G 1 ľ5 ľG 2S 0,1 ľ,2 ľ,S 2,2 45 S4S 4ľ 124 1G,9
1ľ 5 G,0 45 40 21
19 G ľ,2 2 ľB B0 1B 0,1 5,G 5,B 1,S 44 10S 1ľ,B GS 10,9
24 ľ B,2 1 ľ2 ľS 25 0,1 5,9 G,0 2,1 41 209 S4,9 5ľ 9,G
2G B 10,S 1 B5 BG S 0,1 B,B B,9 0,S 41 SG4 41,1 112 12,G
29 9 5,0 1 ľ4 ľ5 21 0,1 S,ľ S,B 1,1 S9 BS 22,1 S2 B,5
S0 10 11,9 1 51 52 4ľ 0,1 G,1 G,2 5,G SS BS 1S,4 52 B,4
S1 11 ľ,2 S 5S 5G 29 0,2 S,B 4,0 2,1 2B 109 2ľ,1 GS 15,5
S2 12 10,B SG 50 ľG B S,9 5,4 9,S 0,9 2ľ 14G 15,ľ 10G 11,4
SS 1S 11,B 22 54 ľG 1G 2,G G,4 9,0 1,9 45 24G 2ľ,4 GS ľ
S4 14 1ľ,0 1 B2 BS 1G 0,2 1S,9 14,1 2,ľ S4 440 S1,2 119 B,4
40 15 10,0 B ľ2 B0 4 0,B ľ,2 B,0 0,4 Sľ 1ľG 22,0 52 G,5
Vytvořil Institut biostatistiky a analýz, M J. Jarkovský, L. Dušek
asarykova univerzita
• Správné a přehledné uložení dat je základem jejich pozdější analýzy
• Je vhodné rozmyslet si předem jak budou data ukládána
• Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě
• Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky
o Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce
o Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.)
o Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty
o Komentáře jsou uloženy v samostatných sloupcích
o U textových dat nezbytné kontrolovat překlepy v názvech kategorií
o Specifickým typem dat jsou datumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy v korektním formátu
• Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku
• Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office
YL
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
IBA
• MS Excel
a Kontingenční tabulky - rychlá sumarizace rozsáhlých tabulek a Možnost výpočtů a grafových výstupů přímo v aplikaci a Visual Basic -složitější aplikace
- Omezení tabulky na 256x65536 buněk (do verze 2003)
- Omezená kontrola chyb při zadávání
•
MS Access
a Plnohodnotná databáze vhodná pro velké množství dat, řádky omezeny v podstatě jen dostupnou pamětí
b Kontrola typu dat
a Relace tabulek - omezení velikosti souboru
a Visual Basic a formuláře - složitější aplikace
- Omezení tabulky na 255 sloupců
- Výpočty a grafy jsou složitější než v Excelu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Správa a práce s tabulárními daty
Řazení dat, výběry z dat, přehledy dat
Formátování a přehledné zobrazení dat
Zobrazení dat ve formě grafů
Různé druhy výpočtů pomocí zabudovaných funkcí
Tvorba tiskových sestav
Makra - zautomatizování častých činností
Tvorba aplikací (Visual Basic for Aplications)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Import a export dat
• Import dat
o Manuálni zadávání
o import - podpora importu ze starších verzí Excelu, textových souborů, databází apod.
o kopírování přes schránku Windows - vkládání z nejrůznějších aplikací - MS Office, Statistica atd.
o využití textových souborů jako kompatibilního formátu pro přenos dat mezi různými aplikacemi
• Export dat
o Ukládáním souborů ve formátech podporovaných jinými SW, časté jsou textové soubory, dbf soubory nebo starší verze Excelu
o Přímé kopírování přes schránku Windows
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Tipy a triky
• Výběr buněk
o CTRL+A -výběr celého listu
o CTRL + klepnutí myší do buňky -výběr jednotlivých buněk
o SHIFT + klepnutí myší na jinou buňku - výběr bloku buněk
o SHIFT + šipky - výběr sousedních buněk ve směru šipky
o SHIFT+CTRL+END (HOME) - výběr do konce (začátku) oblasti dat v listu
o SHIFT+CTRL+šipky - výběr souvislého řádku nebo sloupce buněk
o SHIFT + klepnutí na objekty - výběr více objektů
• Kopírovania vkládání
o CTRL+C - zkopírování označené oblasti buněk
o CTRL+V - vložení obsahu schránky - oblast buněk, objekt, data z jiné aplikace
• Myš a okraje buňky
o Chycení myší za okraj umožňuje přesun buňky nebo bloku buněk
o Při chycení čtverečku v pravém dolním rohu výběru je tažením možno vyplnit více buněk hodnotami původní buňky (ve vzorcích se mění relativní odkazy, je také možné vyplnění hodnotami ze seznamu -např. po sobě jsoucí názvy měsíců.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Databázová struktura dat v Excelu
Sloupce tabulky = parametry záznamů, hlavička udává obsah sloupce - stejný údaj v celém sloupci
Jednotlivé záznamy .—\ (taxon, lokalita atd.) J^""^
\3
Formát Nástroje Data Okno Nápověda Nápověda - zadejte (
* ífe a - ^>-n . | % x . m ii a # 100% .
A B C D E F G H
1 Číslo Značka Společ Pohlaví Délka Váha P. anguillae
2 1 1 1 m 27,5 23,0 2 2
3 2 2 2 34,0 62,5 0 2
4 3 5 3 58,0 230,0 0 0
5 4 6 4 42,0 155,0 0 0
6 5 , 7 5 44,0 149,8 0 0
7 6 8 6 56,0 323,0 0 1
8 7 9 7 m 48,5 178,2 0 0
9 8 10 8 30,5 47,7 4 6
10 9 11 9 47,0 175,9 5 14
11 10 12 10 40,0 85,1 5 9
12 11 14 11 40,0 101,0 0 0
13 12 15 12 31,0 84,0 15 9
14 13 18 13 f? 22,0 9,0 0 0
15 14 17 14 42,0 108,0 1 3
16 15 18 15 44,0 130,0 0 0
17 16 19 16 37,0 85,0 2 5
18 17 20 17 50,0 212,0 1 8
H 4 ► N|\data / společenstva / List? / ListlO / List 12 / ListlJ /Lblll
Připraven
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Automatický zadávací formulář
• Slouží k usnadnění zadávání dat do databázových tabulek
• Načítá automaticky hlavičky sloupců jako zadávané položky
Nový záznam
Názvy sloupcU
Obsah dané buňky - editovatelný
Vyhledávání
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
• Vytváříse z hodnot buněk v daném sloupci a umožňují vložit hodnotu výběrem ze seznamu již zadaných hodnot - usnadnění zadávání
Taxon
Sloupec z nějž je seznam vytvořen a pro který platí
Abundance
Lokalita
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
etc.
Buňka, do níž se vloží vybraná hodnota
• Umožňuje ověřit typ, rozsah nebo povolit pouze určitý seznam hodnot zadávaných do sloupce databázové tabulky
komunikace s uživatelem
/> <\
Co je povoleno - definiční obory čísel, seznamy, vzorce atd.
Rozsahy hodnot, načtení seznamů apod.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
Skupiny hodnot zachovávající logické pořadí, některé jsou zabudované (např. dny v týdnu, měsíce v roce), další je možné uživatelsky vytvořit, slouží pro účely řazení a automatického vyplňování
dat
Existující seznamy
Výběr buněk pro nový seznam
Načtení nového seznamu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
Řazení dat je nejjednodušším způsobem jejich zpřehlednění, užitečným hlavně u menších/výsledkových tabulek
t
» \ Zkontrolujte, zda seřazení nezničívazby mezi buňkami = kontrola oblasti, kterou řadíte.
Podle čeho řadit
Další možnosti - řazení řádků, řazení podle seznamu
Směr řazení - vzestupně, sestupně
Využít první řádek oblasti jako záhlaví
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
Pomocí automatického filtru je snadné vybírat úseky dat pro další zpracování na základě hodnot ve sloupcích databázové tabulky, výběr je možný i podle více sloupců (např. určitá skupina pacientů)
Funkce automaticky rozezná hlavičky sloupců v souvislé oblasti buněk • U sloupců použitých pro filtraci jsou rozbalovací seznamy zbarveny modře Výhodné pro čištění dat (vyhledávání překlepů, kombinace textu a čísel)
•
•
Výběr hodnot pro filtraci
Rozbalení seznamu hodnot nalezených ve sloupci
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Typy grafické vizualizace Rizika desinterpretace grafického zobrazení dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita , _ ^ J. Jarkovský, L. Dušek
IBA
Anotace
• Prvním krokem v analýze dat je jejich vizualizace. Různé typy dat nám umožňující získání představy o rozložení dat, zastoupení kategorií i vztazích proměnných navzájem. Prostřednictvím vizualizace získáváme vhled do dat a začínáme vytvářet hypotézy o zákonitostech panujících mezi proměnnými v hodnoceném souboru dat.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
1. Výskyt kategorií (1, 2, 3,)
Koláčový (výsečový) graf
Sloupcový graf
□ Řada2
Sloupcový graf
□ Řada2
ty tč o p
40
20
%
D
100
50
n
2. Vývoj hodnot (v čase) Y vs. X (t)
Řada
30
Y
15
Spojnicový graf
1 2 3 10 20 X
Bodový graf
Řada
Y
30
15
Y
30
15
0 5 10 15 20 25 X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
40%
30%
30%
1
□ 2
□ 3
1
40%
2 D3 30%]
Plošný graf
□ Řada2
2 3 10 20 X
0
0
1
2
3
1
2
3
0
0
0
1
3. Vztahy mezi proměnnými - korelace
X1
X1
Bodový - korelační diagram
Řada2
X1
1 2 3 10 20
X2
Řada2
X1
1 2 3 10 20
X2
Řada2
0 5 10 15 20 25
X2
Řada2
•I
J
X2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Bodový - korelační diagram
.■irilhl
0 0 8 o*" 0 oaf 0*8° * 03 ^ o' ^ 0 "q 00 0 0 0 0 o) 00 0 0 % liJjL
0 o 0 o ° 0 o <*> 0 u □ 0 ° 0 0° ° 0 ° o ° 00 »°° • „ ä o " 0 í ° 0 000 B * 0 iiIiiIm
0 o °o o o ° ' * 0^° 0 0° 0 0 „ 0 0 On 0 °o ° 0 o » o «0 0 o°°° .ikk___
0 0°* ° 00j » ■> tb od T ° & 0 D 0 □ 0 0 0 °o 0 ° 0 8 o „ o° ° . ° ° ° ° 0 0 „ °o° oP o °° °o o°?r:^ lllliLi-
30
30
15
15
0
0
30
30
15
15
0
0
2
3
10 20
Grafická prezentace dat - umění komunikace
4. Kvantitativní hodnoty parametru(ů) - X - v rámci kategorií A, B, C
i >*■— „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane <{> pravděpodobnost lze zkoumat retrospektivně i prospektivně
pravděpodobnost výskytu ▲
plocha = pravděpodobnost výskytu
+
0 1 2 3 4 5 x počet chlapců v rodině s X dětmi
x
výška postavy
Vytvořil Institut biostatistiky a analýz, Masaryko a univerzita J. Jarkovský, L. Dušek
V. Základní typy dat
Spojitá a kategoriální data Základní pop isné statistiky Grafický popis dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené.
• Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací -histogramů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Jak vznikají informace ? -ruzne typy dat znamenají různou informaci
Data poměrová
Data intervalová
O kolik ?
Data ordinální
Data nominální
Spojitá
Kategoriální otázky
Diskrétní data
Otázky „Ano/Ne"
Podíl hodnot větší/menši než
specifikovaná
hodnota
?
Procenta odvozené hodnoty
Samotná znalost typu dat ale na dosažení informace nestačí.............
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Jak vznikají informace ? -různé typy dat znamenaj í různou informaci
Statistika středu
Data poměrová
PRŮMĚR 1 Spoji
data
Y = f
Data intervalová
Data ordinální
MEDIÁN
X
Data nominální
MODUS
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Y: frekvence absolutní / relativní
y
B
1
y
■
IIP IIP IIP
■ ■ ■ ■ P
I II III IV V
x
A**
X: měřený znak
Diskrétní data
Spojitá data
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Odvozená data: Pozor na odvozené indexy
Příklad I:
Příklad II:
Znak X: Hmotnost Znak Y: Plocha
X: Průměrný počet výrobků v prodejně
Y: Odhad prostoru průměrně nabízeného k vystavení výrobku
průměr : (min - max)
X: 1,2 : (1,15 -1,24) Y: 1,8 : (1,75 - 1,84)
+ I - 3,8 %
+ I - 2,5 %
X/Y = 0,667 :
(JL15
1,84
1,24)
1,75
+ I - 6,2 %
Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená
Vytvořil Institut biostatistiky a analýz, Masaryko 'a univerzita J. Jarkovský, L. Dušek
II
8
CL
"O O .N
Q.
O CL.
DISKRÉTNÍ DATA
Primární data
0
0
1
2 1 1 S 1
1
2
n = 100
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Frekvenční sumarizace
N: 100 dětí (hemofiliků)
x: znak: počet krvácivých epizod za měsíc
x n(x) Pix) Nix) Fix)
0 ZO 0,2 20 O,Z
l l0 0,l B0 0,B
Z B0 0,B SO 0,6
B 4O 0,4 l00 l,0
n(x) - absolutní četnost x p(x) - relativní četnost; p(x) = n(x) / n N(x) - kumulativní četnost hodnot n epřevyšujících x N(x) = 2 n(t)
t L x
F(x) - kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n
n(x)
0 12 3
x
p(x)
0 12 3
x
N(x)
0123
x
F(x)
0 12 3 x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
SPOJITÁ DATA
Příklad: x: koncentrace látky v krvi n = 100 pacientů
O co O
II
Q.
Primární data
1,21 1,48 1,56 0,31 1,21
1,33 0,33
Frekvenční sumarizace
n = 100 opakovaných měření (100 pacientU)
x: koncentrace sledované látky v krvi (20 - 100 jednotek)
interv ) n(l) n(l)/n N(x'') F(x'')
<20, 40) 20 20 0,2 20 0,2
<40, 60) 20 10 0,1 30 0,3
<60, 80) 20 40 0,4 70 0,7
<80, 100) 20 30 0,3 100 1,0
n = 100
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
d(l) - šířka intervalu n(l) - absolutní četnost n(l) / n - intervalová relativní četnost N(x'') - interval ová kumu lativní četnost do horní hranice X'1 F(x'') - intervalová relativní ku mulativn í četnost do horní hranice X''
Histogram
Výběrová distribuční funkce
Plocha: n(l) / n
0.025 0.020 0.015 0.010 0.005 0.000 -f
1-\
20 40 60 80 100
x
0
20 40 60 80 100
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
1
Počet zvolených tříd a velikost souboru určují kvalitu výstupu
5 H 4 3 2 1 0
k = 10 tříd
■
8 7 6 5 4 3 2 1 0
k = 5 tříd
1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
2 3 4 5
5 4 3 2 1
0 J
k = 20 tříd
1,0
2,0
3,0
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
4,0
5,0
1
Histogram vyjadřuje tvar výběrového rozložení
f(x)
f(x)
i i
n I I I I
x
I_I
x
f(x)
_llllllllllllll
I
f(x)
I
llllllllllllll I
f(x)
1_
x
1 11 —1
■1 — 11 r" ■
x
JIH
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Příklad: věk účastníků vážných dopravních nehod
3
>
O
O i-
O Q.
350 300 250 200 150 100
50 0
0
35 i 30 25 20
15 H
10 5 0
0
Správný histogram ?
td
1020
30 40 50
Věk (roky)
60
70 80
Správný histogram ?
Věk
0 -4
5 -9 10 -15 16 -19 20 -24
25 - 59
> 60
10 20 30 40 50 60 70 80 Věk (roky)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
f
28
46 58 20 114
316 103
66) ? Z x - // g 9 P (x > 66 )= 1 - P (x < 66) a platí, že P (X < x) = F (x ) tedy P(x > 66) = 1 - P(x < 66) = 1 - P(< 66-60) = 1 - f(0,6) = 0,27425 s 10 Kolik kostí mělo zřejmě délku větší než 66 cm ? p(x>66)*n=0,27425*2000=548 Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ? P(60 < x < 66)= P 60 - 60 < Z < 66 -60 F .10 10 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek (0,6)-F(0)= 0,22575 ||^ 22,6% kostí leží v rozsahu 60-66cm Stručný přehled modelových rozložení I. Rozložení Parametry Stručný popis Normální Průměr Rozptyl (ct2) Symetrická funkce popisující intervalovou hustotu četnosti; nej pravděpodobnějš í jsou prUměrné hodnoty znaku v populaci. Log-normální Medián Geometrický průměr Rozptyl (ct2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Weibullovo a - parametr tvaru P - parametr rozsahu hodnot Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. Rozložení využívané i jako model k odhahu LC50 nebo EC50 u testU toxicity. Rovnoměrné Medián Geometrický průměr Rozptyl (ct2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Triangulární f(x) = [b - ABS (x - a)] / b2 a - b < x < a + b Pravděpodobnostní funkce pro typ rozložení, kdy jsou střední hodnoty výrazně pravděpodobnější než hodnoty okrajové. Gamma Parametry distribuční funkce: a - parametr tvaru P - parametr rozsahu hodnot Umožňuje flexibilně modelován í distribučních funkcí nejrUznějších tvarU. N apř. x2 rozložení je rozložení typu Gamma. Gamma rozložení s a = 1 je známo jako exponenciální rozložení. .. . J. Jarkovský, L. Dušek Stručný přehled modelových rozložení II. Rozložení Parametry Stručnýpopis Beta Parametry distribuční funkce: a - parametr tvaru P - parametr rozsahu hodnot Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do inte rvalu [0; 1]. Je matematicky komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné v ohraničeném intervalu. Studentovo Stupně volnosti -uvažuje velikost vzorku Průměr Rozptyl Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k normálnímu rozložení. Pearsonovo Stupně volnosti -uvažuje velikost vzorku Slouží především k porovnání četností jevů ve dvou a více kat egoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat. Fisher-Snedecorovo Dvojí stupně volnosti -uvažuje velikost dvou vzorků Používá se k testování hodnot průměrů -F test pro porovnání dv ou výběrových rozptylů; F test, ANOVA atd. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita jjj^ J. Jarkovský, L. Dušek Medián Průměr x U asymetrických rozložení je medián velmi vhodným alternativním ukazatelem středu Medián - frekvenční střed Iv • • • x Průměr - těžiště osy x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Medián Průměr EXP (Y) = Geometrický průměr X Medián = Průměr — Y = y — i= 1 n Y ± Standardní chyba Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu _ogaritmická transformace Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění p roporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient v ariance, ačkoli mají různý průměr. Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale ta ké vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logaritmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = ln (X+1). Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometr ický průměr původních dat. MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Transformace dat - legitimní úprava rozložení Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu Odmocninová transformace Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných poku sech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci: Y = Vx nebo Y = Vx + 1 nebo Y= Vx +V x+1 Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecn ě jestliže s2x = k (výběrový průměr). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Transformace dat - legitimní úprava rozložení Arcsin transformace Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi n hodnocenými jedine i - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze so uborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace vš ak není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je: ,— Y = arcsin ^p - tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový poč et jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit x . x +1 arcsin J-+ arcsin - \n+1 \n+1 transformaci: 1 Y 2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek VII. Popisná statistika dat Popisné statistiky dat Vizualizace dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita , _ ^ J. Jarkovský, L. Dušek IBA Anotace • Popisná analýza dat je po vizualizaci dat dalším krokem v procesu statistického hodnocení. Poskytuje představu o rozsazích hodnocených dat a umožňuje vyhodnotit, srovnámís literárními údaji nebo dosavadní zkušeností, jejich realističnost. • Již při výběru vhodné popisné statistiky se uplatňuje znalost rozložení dat. Některé popisné statistiky, odvozené od modelových rozložení, je možné využít pouze v případě, že data mají dané modelové rozložení. Typickým příkladem je průměr a směrodatná odchylka, jejichž předpokladem je přítomnost normálního rozložení. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Typy proměnných • Kvalitativní/kategorická o binární - ano/ne o nominální - A,B,C ...několik kategorií o ordinální-1<2<3 ..několik kategorií a můžeme se ptát, která je VětSI • Kvantitativní o nespojitá - čísla, která vSak nemohou nabývat vSech hodnot (např. počet porodů) o spojitá - teoreticky jsou možné vSechny hodnoty (např. krevní tlak) IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řada dat a její vlastnosti IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kategorie Četnost B S C B D 1 Kvalitativní data Tabulka s četností jednotlivých kategorií. Kvantitativní data Četnost hodnot rozl ožení v jednotlivých intervalech. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametry • Soubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení • Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele: o Středu (medián, průměr, geometrický průměr) o Šířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka) o Tvaru rozložení (skewness, kurtosis) o Kvantily rozložení - kolik % řady dat leží nad a pod kvantilem YL Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek IBA Populace a vzorek • Populace představuje veškeré možné objekty vzorkování, např. veškeré obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné parametry rozložení • Z populace je prováděno vzorkování za účelem získání reprezentativního vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je také velikost vzorku, ze vzorku získáme odhady parametrů rozložení í i i Populace Sample Průměr, SD atd. Odhad průměru, SD YL IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Průměr -vhodný ukazatel středu u normálního/symetrického rozložení, kde xi jsou jednotlivé hodnoty a n jejich počet E (x) = x = V — n i=1 • Medián - jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem • V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele středu rozložení II. • Geometrický průměr - antilogaritmus průměru logaritmovaných dat, je vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu • Takto asymetrická data je možné převést logaritmickou transformací na normální rozložení log Průměr (logaritmovaných dat) t Průměr Medián, geometrický průměr Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele šířky rozložení • • • • Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. 2 Y (xi -x)2 2 S = n-1 Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení Směrodatná odchylka je druhá odmocnina z rozptylu Koeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr 4-3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty v rozložení - ukazatel problémů s normalitou dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • • Skewness - ukazatel „šikmosti" rozložení, asymetrie rozložení Kurtosis- ukazatel „špičatosti/plochosti" rozložení skewness>0 skewness<0 kurtosis<0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek kurtosis>0 Další parametry rozložení • w Počet hodnot - důležitý ukazatel, znamená jak moc lze na data spoléhat • Střední chyba odhadu průměru - je založena na směrodatné odchylce rozloženia počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozloženi, tím je náš odhad skutečného průměru přesnější. Suma hodnot Modus -nejčastější hodnota, vhodný např. při kategoriálních datech Minimum, maximum Rozsah hodnot Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr) ML IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Bodové a intervalové odhady Význam intervalu spolehlivosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita , _ ^ J. Jarkovský, L. Dušek IBA Anotace • Dva základní přístupy statistického hodnocení jsou popis dat a testování hypotéz. Při popisu dat je třeba si uvědomit, že popisné statistiky získané ze vzorku nejsou skutečnou hodnotou v cílové populaci, ale pouze jejím odhadem. Přesnost odhadu závisí jednak na variabilitě dat, jednak na velikosti vzorku, při navzorkování celé cílové populace by výsledná popisná statistika již byla přesnou hodnotou, nikoliv odhadem. • Odhady a s nimy související intervaly spolehlivosti jsou univerzálním statistickým postupem a je možné je dopočítat k libovolné popisné statistice. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika v průzkumném studiu INTERVAL SPOLEHLIVOSTI velmi užitečná míra věrohodnosti odhadů ODHADY Bodové Číslo (chyba) (Odhad parametru) Intervalové Interval pravděpodobných hodnot Spolehlivost (Pravděpodobnostní interpretace) Obecný tvar: Odhadovaný parametr P (L < Odhad < L2) t 1 - a/2 Kvantil ± modelového x SE (odhadu) rozložení KV pro (1 - a/2) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Cílová populace
0,95
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Interval spolehlivosti
a) pro a2:
b) pro a:
(n -1)
2 (n-1)
X «/2
2
x2 (l-a 2)
(n-1)
(n-1)
2 (n-l)
(n-1)
x2 ((-a 2)
(n-1)
c) pro a/Vn :
(n-1)
2 (n-l)
(n -1)
2 (n-l)
nx (l-*/2)
-směrodatná odchylka odhadu průměru (S.E .)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Interval spolehlivosti pro odhad rozptylu: příklad
Příklad: měření produkce metabolitu (x) u buněk dvou nádorových linií
Linie 1 n = 50
s2(x) = 10 (mg/ml)2 s(x) = 3,16 mg/ml x = 2 mg/ml sx = 0,447 mg/ml
95% IS
49 *
77,22
10 závěr testu Interpretace výsledků
Cílová populace
Závěr ? Interpretace
^> ^ Reprezentativnost ? ^
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Testy hypotéz
Měření parametrů
Nulová hypotéza HO
HO: sledovaný efekt je nulový
Alternativní hypotéza HA sledovaný efekt je různý mezi skupinami
Testová statistika
Testová statistika =
Pozorovaná hodnota - Očekávaná hodnota
Variabilita dat
*\ Velikost vzorku
Kritický obor testové statistiky
0
T
Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model -testová statistika.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Co znamená náhodný rozdíl?
Mnohokrát
Rozložení možných náhodných rozdílů
Je tu rozdíl?
Jak by vypadal., rozdíl, kdyby byl náhodný?
Nasimulujme si ho !!! ©
X1
X2
0
tt t
Rozdíl ?
Kde leží skutečný rozdíl?
Jak moc je pravděpodobné,že je náhodný?
Možné chyby při testování hypotéz
•
I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby.
Správné rozhodnutí
Závěr testu
Hypotézu nezamítáme
1- a
Hypotézu zamítáme
a
1- P
Chyba I. druhu
Správné rozhodnutí
Chyba II. druhu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Význam chyb při testování hypotéz
Pravděpodobnost chyby 1. druhu
a
v-\ Pravděpodobnost nesprávného
-' zamítnutí nulové hypotézy
Pravděpodobnost chyby 2. druhu
Pravděpodobnost nerozpoznání neplatné nulové hypotézy
Síla testu
Pravděpodobnostně vyjádřená schopnost rozpoznat neplatnost hypotézy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Parametrické vs. neparametrické testy
Parametrické testy
• Mají předpoklady o rozložení vstupujících dat (např. normální rozložení)
• Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy nepa rametrické
• Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný
Neparametrické testy
• Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hod notách, či nedetekovatelném rozložení
• Snížená síla těchto testů je způsobena redukcí informační hodnoty půvo dních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
One-sample vs. two sample testy
One - sample testy
• Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční hodn otou (popřípadě se statistickým parametrem cílové populace)
• V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace)
• Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodn ot i dalším statistickým parametrům popisujícím vzorek
Two - sample testy
• Srovnávají navzájem dva vzorky (two sample, dvouvýběrové vzorky)
• V testu jsou srovn ávány dvě rozložení hodnot
• Otázka položená v testu může být opět vztažena k průměru, rozptylu, podíl u hodnot i dalším statistickým parametrům popisujícím vzorek
• Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
One-tailed vs. Two-tailed testy
One - tailed testy
• Hypotéza testu je postavena asymetricky, tedy ptáme se na většínež/ menšínež
• Test může mít pouze dvojí výstup - jedna z hodnot je větší (menší) než druhá a všechny ostatní případy
Two - tailed testy
• Hypotéza testu se ptá na otázku rovná se/nerovná se
• Test může mít trojí výstup - menší - rovná se - větší než
• Situace nerovná se je tedy souhrnem dvou možných výstupů testu (menší+větší)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Kritický obor
Kritický obor
Nepárový vs. párový design
Nepárový design
• Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např. lidé z různých z emí, nezávislé skupiny pacientů s odlišnou léčbou atd.
• Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat
Párový design
• Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci, reakce stejného kmene krys atd.
• Vazba může být buď přímo dána nebo pouze předpokládána (v tom přípa dě je nutné ji ověřit)
• Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich původních datech
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistické testy a normalita dat
•
•
Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu nějakého rozložení) -např. t-testy
Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet (t-rozložení) a test tak může lhát
•
Řešením je tedy:
o Transformace dat za účelem dosažení normality jejich rozložení
o Neparametrické testy - tyto testy nemají žádné předpoklady o rozložení dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
250
200
150
100
50
Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí.
•Test dobré shody
Vtestu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě histogramu), tyto intervaly jsou normalizovány (převedeny na normální rozložení) a podle obecných vzorců normálního rozložení jsou knim dopočítány očeká vané hodnoty vintervalech, pokud by rozložení bylo normální. Pozorované normalizované četnosti jsou poté srovnány sočekávanými četnostmi pomocí x 2 testu dobré shody. Test dává dobré výsledky, ale je náročný na n, tedy množství dat, aby bylo možné vytvořit dostatečný počet tříd hodnot.
•Kolgomorov Smirnov test
Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše se symetrií hodnot než přímo s normalitou. Jde o neparametrický test pro srovnání rozdílu dvou rozložení. Je založen na zjištění rozdílu mezi reálným kumulativním rozložením (vzorek) a teoretickým kumulativním rozložením. Měl by být počítán pouze vpřípadě, že známe průměr a směrodatnou odchylku hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho modifikace - Lilieforsův test.
•Shapiro-Wilk^s test
Jde o neparametrický test použitelný i při velmi malých n (10) sdobrou sílou testu, zvláště ve srovnání s alternativními typy testů, je zaměřen na testování symetrie.
145 155 165 175 185 195 205 215
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0
Šikmost a špičatost jako testy normality
•
Parametry normálního rozložení, skewness a kurtosis mohou být využity pro testování normality, ale pouze pro velké vzorky (šikmost -100, špičatost -500).
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Grafická diagnostika normality
Rootgram
Rootgram
2.5 2
1.5 1
0.5 0
-0.5 -1
-1.5 -2
11
0
20
40
Zn
60
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0.6 0.4 0.2 0
-0.2 -0.4 -0.6
-0.8
-1
íl
11
80 0 5 10 15 20 25 30
Pb
Grafická diagnostika normality
Hanging Histobars.
Hanging Histobars.
0,32
0,12
-0,8
-0,28
-0,48
0
0,2
0,15
0,1
0,05 0
-0, 05
-0,1
0
-50 -10
10
30 Zn
50
70 90
-50
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
10
20 Pb
30
Grafická diagnostika normality
n .
o
Normal Probability Plot
ee,e
es
es
so t
so
20 •
s •
i •
0,1.
2o
4o Zn
so
so
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
n .
ee,e ee es so so
2o s
i
Grafická diagnostika normality
Frequency Histogram
Frequency Histogram
0,8
0,6
0,4
0,2
0
20
40 Zn
60 80
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0,3 0,25
0,2
0,15 0,1
0,05
0 5 10 15 20 25 30
Pb
X. Statistické testy o parametrech jednoho výběrů
Jednovýběrový t-test Jednovýběrový test rozptylu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Jednovýběrové statistické testy srovnávají některou popisnou statistiku vzorku (průměr, směrodatnou odchylku) s jediným číslem, jehož význam je ze statistické hlediska hodnota cílové populace
• Z hlediska statistické teorie jde o ověření, zda daný vzorek pochází z testovanécílovépopulace.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
"One sample" testy I
Vpřípadě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení.
I ^ Průměr - cílová vs. výběrová populace_
s
Ho Ha Testová statistika Interval spolehlivosti
x < // x > i t t > vr
x > | x < i t t < ta ™
x = i x ^ i t
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vpřípadě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení.
CZ^ Rozptyl - cílová vs. výběrová populace
Ho Ha Testová statistika Interval spolehlivosti
22 s > a 22 x2 x2 > x L(n-1) 2 2 (rvi)
s t
24
1-a/ 2
H0 zamítnuta při a<0,05
od jiné hodnoty bychom zachytili při daných hodnotách?
2. otázka - jakou minimální odchylku X od jiné hodnoty bychom zachytili při daných hodnotách?
t = IzEjn =d-4~n * d = ^s * d = 2'°64
s
s
1
5
3. za předpokladu, že z praktického hlediska je významná odchylka již 0,2 jednotky, jaký minimální počet měření musíme provést, abychom ji byli schopni prokázat ?
x-u r d r ^ t =-v n =—V n n =
s
s
l1-a/2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
2
XI. Statistické testy o parametrech dvou výběrů
Dvouvýběrový párový a nepárový t-test Neparametrické alternativy t-testu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Jedním z nejčastějších úkolů statistické analýzy dat je srovnání spojitých dat ve dvou skupinách pacientů. Na výběr je celá škála testů, výběr konkrétního testu se pak odvíjí od toho, zda je o srovnání párové nebo nepárové a zda je vhodné použít test parametrický (má předpoklady o rozložení dat) nebo neparametrický (nemá předpoklady o rozložení dat, nicméně má nižší vypovídací sílu).
• Nejznámějšími testy z této skupiny jsou tzv. t-testy používané pro srovnání průměrů dvou skupin hodnot
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrové testy: párové a nepárové I
•
Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle designu experimentu na testy párové a nepárové.
• Základním testem pro srovnání dvou nezávislých rozložení spojitých čísel je nepárový two-sample t-test
1 ť
ľiepárový two sample test
X2
S
í
1I
• Základním testem pro srovnání dvou závislých rozložení spojitých čísel je párový two-sample t-test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrové testy: párové a nepárové II
Data
Xi X2
r -\ r ~s
Nezávislé uspořádání
Xi-X2 = D
i2
Párové uspořádání |
Design uspořádání zásadně ovlivňuje interpretaci parametrů
n
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
D
2
s
D
J L J
n1 n2
2
1
s
2
H0:D - O
(n = n2 = n1)
Dvouvýběrové testy: párové a nepárové III
iuui i li i irxcio^ p cil \j v Xi m m Vytvořil Institut biostatistiky a analýz, Masarykova un jjj^ J. Jarkovský, L. Dušek 1 LUOLi yi\ui ciauc, r\wvai lai iucy r = 0,954 (p< 0,001) r = 0,218 (p< 0,812) •••• verzita
Předpoklady nepárového dvouvýběrového
t-testu
• Náhodný výběr subjektů jednotlivých skupin zjejich cílových populací
• Nezávislost obou srovnávaných vzorků
• Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být testována testy normality
• Rozptyl vobou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován několika možnými testy - Levenův test nebo F-test.
• Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické srovnání a ověření předpokladů normality a homogenity rozptylu - nenahradí statistické testy, ale poskytne prvotní představu.
X
0
r
M
Varianta 1 Varianta 2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Nepárový dvouvýběrový t-test - výpočet I
1. nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two tailed test
2. prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a nehomogenita rozptylu, provést F -test
H0 Ha Testová statistika
Gi2 í G22 22 Gi >G2 s 2 F = >
G2 > G2 Gi >CJ1 22 Gi