I. Statistika ve vědecké praxi
Pozice statistické analýzy ve vědě a klinické praxi
Význam statistických výstupů
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistická analýza biologických dat je jedním z nástrojů, s jejichž pomocí se snažíme zjistit odpovědi na naše otázky týkající se pochopení živé přírody. Jako každý nástroj je i statistickou analýzu nezbytné na jedné straně korektn ě využívat a na druhou stranu nepřeceňovat její možnosti.
• Klíčovým faktem při statistické analýze dat je nahlížení na realitu prostřednictvím vzorku a přijmutí toho, že výsledky naší analýzy jsou jen tak dobré, jak dobrý je náš vzorek. Reprezentativnost a náhodnost vzorku spolu s jeho velikostí jsou důležité faktory ovlivňující věrohodnost našich závěrů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Výzkum, realita, statistika
• Výzkum je naším způsobem porozumění realitě
• Ale jak přesné a pravdivé je naše porozumění?
Statistika je
jedním z nástrojů vnášejících do našich výsledků určitou spolehlivost.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Význam variability
• Naše realita je variabilní a statistika je vědou zabývající se variabilitou
• Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě
• V případě deterministického světa by statistická analýza nebyla potřebná
Biostatistika - různé přístupy k variabilitě
Variabilita znaku v populaci
o
A
1
140 cm     182 cm     163 cm
rozptyl znaku, přirozená variabilita
chyba = nepřesnost modelu
,..J4
IBÄ
Variabilita ve skladbě biologických společenstev
DRUH 1 DRUH 2 DRUH 3 DRUH 4
15 30 40 14
biodiverzita
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Pojem VARIABILITA má mnoho významů.........
.... a ty určují přístup k jejímu hodnocení
Maskování a minimalizace vlivu
Respektování a odhadování vlivu
Přímé využití k predikcím chování systému
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistika - význam a definice
WWW.WIKIPEDIA.ORG:
Statistika je matematickou vědou zabývající se shromážděním, analýzou, interpretací, vysvětlením a prezentací dat. Může být aplikována v širokém spektru vědeckých disciplín od přírodních až po sociální vědy. Statistika je využívána i jako podklad pro rozhodování, kdy nicméně může být záměrně i
nevědomky zneužita.
Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování. Statistika funguje korektně pouze pokud jsou splněny předpoklady jejích metod a modelů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Co může statistika říci o naší realitě?
Data
Statistika
t
Informace
Statistika není schopna činit závěry o jevech neobsažených v našem vzorku.
Statistika je nasazena v procesu získání informací z vzorkovaných dat a je
podporou v získání naší znalosti a pochopení problému.
Znalost
t
Pochopení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistika není náhradou naší inteligence !!!
Cílová populace
• Cílová populace - klíčový pojem statistického zpracování
o Skupina objektů o nichž se chceme něco dozvědět (např. pacienti s danou diagnózou, všichni lidé nad 60 let, měření hemoglobinu v dané laboratoři)
o Musí být definována ještě před zahájením sběru dat
o Na cílové populaci probíhá vzorkování dat, které musí cílovou populaci dobře (reprezentativně) charakterizovat
Cílová populace    Klíčové faktory Design Vzorkování a
Statistika a zobecnění výsledků
Neznámá
cílová
populace
Vzorek
Analýza
Díky zobecnění výsledků známe vlastnosti cílové populace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci
Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům
Vzorkování a jeho význam ve statistice
Statistika hovoří o realitě prostřednictvím vzorku!!!
o Statistické předpoklady korektního vzorkování
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Velikost vzorku a přesnost statistických výstupů
Existuje skutečné rozložení a skutečný průměr měřené proměnné
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Z jednoho měření nezjistíme nic
rVzorek: ^
?????
Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí
Vzorek:
Odhad průměru atd.
Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný.
Různá role statistiky při různě velkém vzorku					
					
	Malá data		Velká data		Obrovská data
	Umění prodat		i Umění pochopit		i Umění uchopit
MU m           Vytvořil Institut biostatistiky a analýz, Masarykova univerzita Ygy^      J. Jarkovský, L. Dušek					
Přístup biostatistiky
Pacient	: : ť -	a Leu		a3r:':		aNeu%	a Lyll	a ŕ	aSe		aNeu	aLy		ä-:;	a c Lak	aCLNeus	a c LOZ	aCLNeuO	
		~ 10si	lí	It		%	It	rfii 10s;	rfii 10s;		r.řll iď;	r.řll iď;		■-.	mVs10s	mVs10s	mVs10s	mVsUl5	
3	1	4												33	72		32		
4	2	7.6	S	5B		66	24	0.6	4.4		5.0	1.B		ľľ	95	19	4B	10	
S	3	4	3	52		55	40	0.1	2.1		2.2	1.6		22	77	35	33	15	
11	4	6.1	5	59		64	35	0.3	:.=		3.9	2.1		ľľ	103	26	49	13	
12	5	= 3					Q	n ?			r ^			37	31	1 3	4E	7	
14	6	5.9		;	_									32	137	33	61	15	
16	7	S	13				Data								151	20	59	B	
20	S	9.6		7										;c	77	11	33	5	
21	9	6	10	=										32	120	26	52	11	
22	10	3.3				59	—; - M	HIB			z. u				31	42	24	12	
37	11	3. S	10	60		70	30	0.4	2.3		2.7	1.1			111	42	29	11	
33	12	6.4	2	76		73	17	0.1	4.9		5.0	1.1		25	366	73	115	23	
39	13	6.B	1	57		5B	39	0.1	3.9		3.9	2.7		20		59	71	13	
49	14	B. 5	7	67		74	26	0.6	5.7		6.3	2.2		30	156	25	103	17	
51	15	9.3	7	57		64	35	0.7	5.3		6.0	3.3		35	129	21	23	4	
52	16	2.2	10	í;		= =	34	0.2	1.2		1.5	0.7		ľľ	í;	30	12	B	
55	17	9.9	3	73		31	10	0.3	7.7		3.0	0.1		30	135	24	140	1B	
56	18	5	2	30		B2	13	0.1	4.0		4.1	0.7		26	101	25	54	13	
6	1	S. S	11	72		33	12	1.0	6.3		7.3	1.1		"	2 = 3	ľí.í	145	15.5	
9	2	9.2	2	66		63	23	0.2	6.1		6.3	2.6			1=3	2;.~	76	12.2	
13	3	10.0	7	33		90	B	0.7	3.:		9.0	CS		54	131	20.1	31	9	
15	4	9.6	1	75		76	23	0.1	7.2					"~					
17	5	6.0																	
19	6	7.2	2	73		30	1B	0.1	5.6										
24	7	E.2	1	72		73	25	0.1	5.9										
26	S	10.3	1	B5		36	3	0.1	B.B										
29	9	5.0	1	74		75	21	0.1	3.7										
30 31	10 11	11.9 7?	1 3	51 53		52 56	47 ?9	0.1 0 ?	6.1 3B						f IP				
32	12	10.B	36	50		76	3	3.9	5.4		I       I 1,600 1       1 1,800								
33	13	11.E	22	54		76	16	2.6	6.4								gggggt		
34 40	14 15	17.0	1 S	32 72		33 30	16 4	0.2 O.B	13.9 7.2										
G.S G.6 G.4 G.2 G.G
G
1GG    2GG    3GG 4GG
Vytvoril Institut Diostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Schopnost: vidět data - komunikovat - interpretovat - prodávat
Experimentální design: nezbytná výbava biologa
Účel analýzy:
Popisný
cílová populace
-4..................
výběr dle optimálního plánu
reprezentativní vzorek n jedinců (faktor F)
měření znaku
OO00OOO0O0
* variabilita hodnot *
ve výběrovém souboru
VÝSLEDKY ....................
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Reprezentativnost
Spolehlivost Přesnost
■►(z)
oOO	... analyzovaný znak
	cílové populace (X)
••O	... jiný významný
	faktor charakterizující
	cílovou populaci (F)
Experimentální design: nezbytná výbava biologa
Účel analýzy:
Srovnávací (2 ramena)
cílová populace
výběr subjektů pro vstup do hodnocení / studie
-Y-
RANDOMIZACE
vzájemně srovnatelné vzorky (faktor F)
rameno A
měření znaku X
rameno B
OooOO 0O0O0
........................................► <.........................................\
variabilita hodnot X       variabilita hodnot X
v rameni A v rameni B
VÝSLEDKY................................
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
oOO	... analyzovaný znak
	cílové populace (X)
••O	... jiný významný
	faktor charakterizující
	cílovou populaci (F)
?	
Srovnatelnost
Spolehlivost Přesnost
Praktická a statistická významnost
•
•
Samotná statistická významnost nemá žádný reálný význam, je pouze měřítkem náhodnosti hodnoceného jevu
Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné hodnoty
		Praktická významnost	
		ANO	NE
Statistická významnost	ANO	OK, praktická i statistická významnost je ve shodě, jednoznačný závěr	Významný výsledek je statistický artefakt velkého vzorku, prakticky nevyužitelné
	NE	Výsledek může být pouhá náhoda, neprůkazný výsledek	OK, praktická i statistická významnost je ve shodě, jednoznačný závěr
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Obecné schéma využití statistické analýzy		
	Experimentální design	Jak velký vzorek je nezbytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace. Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku. Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy. Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod. Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat. Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému.
	Vzorkování	
	Uložení a management dat	
	Vizualizace dat	
	Popisná analýza	
	Testování hypotéz	
	Modelování	Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů.
MU m           Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek		
Stochastické modelování: predikce neurčitých
jevů
Prospektivně - modelově - postihuje chování jevů při respektování variability
Pravděpodobnostní vztahy					
Anamnéza x Výsledek vyšetření pacienta					
	Karcinom	Benigní léze	Benigní riziková	Zdravá	
Pozitivní anamnéza	2,22	34,44	0,00	63,33	100%
Negativní anamnéza	1,06	28,23	0,96	69,75	100%
	p < 0.05				
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Stochastické modelování: predikce neurčitých
jevů
------------------------------------------------Jn-------------------------------------------------
1,0
0,8
0,6
0,4
0,2
0,0 jť
-4,0
0,0
-2,0
2,0
1,0 0,8 0,6 0,4 0,2
4,0 0,0
Osa X
Age = 55 years
0     10    20    30    40    50    60    70 80
Parametr nebo kombinace parametrů
Data konkrétních pacientů (subjektů) k přímému hodnocení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Stádium I -II
Stádium III -IV
# Grade O Grade
2 1
0.0     0.5     1.0     1.5     2.0     2.5     3.0 3.5
0.0     0.5      1.0      1.5     2.0     2.5     3.0 3.5
Index Mitosis / (Apoptosis + 0.5)
Schopnost: vytvářet prakticky využitelné nástroje
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
II. Příprava dat
Klíčový význam korektního uložení získaných dat
Pravidla pro ukládání dat Čištění dat před analýzou
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové" tabulky umožňující jejich zpracování v libovolné aplikaci.
• Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezeno ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
DATA -ukázka uspořádání datového souboru
Parametry (znaky)
Pacient	Človek	a Leu	aTy%	aSe%	aNeu%	al_y%	-------- íl a Ty	^^ir— aSe	a Neu	aLy	aHtc	aCLsk	aCLNeus	aCLOZ	aCLNeuO
		cell. 106/	%	%	%	%	cell.10e/	cell.10e/	cell.10e:	cell.10e/	%	mV.s.103	mV.s.103	mV.s.103	mV.s.103
3	1	4									33	72		32	
4	2	7,6	8	58	66	24	0,6	4,4	5,0	1,8	33	95	19	48	10
8	3	4	3	52	55	40	0,1	2,1	2,2	1,6	22	77	35	33	15
11	4	6,1	5	59	64	35	0,3	3,6	3,9	2,1	33	103	26	49	13
12	5	6,9	3	85	88	9	0,2	5,9	6,1	0,6	37	81	13	45	7
14	6	5,9	15	55	70	19	0,9	3,3	4,1	1,1	32	137	33	61	15
16	7	8	18	75	93	7	1,4	6,0	7,4	0,6	34	151	20	59	8
20	8	9,6	3	72	75	23	0,3	6,9	7,2	2,2	40	77	11	38	5
21	9	6	10	67	77	19	0,6	4,0	4,6	1,1	32	120	26	52	11
22	10	3,3	4	55	59	39	0,1	1,8	2,0	1,3	28	81	42	24	12
37	11	3,8	10	60	70	30	0,4	2,3	2,7	1,1	32	111	42	29	11
38	12	6,4	2	76	78	17	0,1	4,9	5,0	1,1	25	366	73	115	23
39	13	6,8	1	57	58	39	0,1	3,9	3,9	2,7	20	234	59	71	18
49	14	8,5	7	67	74	26	0,6	5,7	6,3	2,2	30	156	25	108	17
51	15	9,3	7	57	64	35	0,7	5,3	6,0	3,3	35	129	21	23	4
52	16	2,2	10	56	66	34	0,2	1,2	1,5	0,7	33	46	30	12	8
55	17	9,9	3	78	81	10	0,3	7,7	8,0	0,1	30	189	24	140	18
56	18	5	2	80	82	13	0,1	4,0	4,1	0,7	26	101	25	54	13
6	1	8,8	11	72	83	12	1,0	6,3	7,3	1,1	44	268	36,6	145	19,9
9	2	9,2	2	66	68	28	0,2	6,1	6,3	2,6	42	168	26,9	76	12,2
13	3	10,0	7	83	90	8	0,7	8,3	9,0	0,8	54	181	20,1	81	9
15	4	9,6	1	75	76	23	0,1	7,2	7,3	2,2	45	343	47	124	16,9
17	5	6,0									45	40		21	
19	6	7,2	2	78	80	18	0,1	5,6	5,8	1,3	44	103	17,8	63	10,9
24	7	8,2	1	72	73	25	0,1	5,9	6,0	2,1	41	209	34,9	57	9,6
26	8	10,3	1	85	86	3	0,1	8,8	8,9	0,3	41	364	41,1	112	12,6
29	9	5,0	1	74	75	21	0,1	3,7	3,8	1,1	39	83	22,1	32	8,5
30	10	11,9	1	51	52	47	0,1	6,1	6,2	5,6	33	83	13,4	52	8,4
31	11	7,2	3	53	56	29	0,2	3,8	4,0	2,1	28	109	27,1	63	15,5
32	12	10,8	36	50	76	8	3,9	5,4	9,3	0,9	27	146	15,7	106	11,4
33	13	11,8	22	54	76	16	2,6	6,4	9,0	1,9	45	246	27,4	63	7
34	14	17,0	1	82	83	16	0,2	13,9	14.1	2,7	34	440	31,2	119	8.4
40	15	10,0	8	72	80	4	0,8	7,2	8,0	0,4	37	176	22,0	52	6,5
J. Jarkovský, L. Dušek
Zásady pro ukládání dat		
•	Správné a přehledné uložení dat je základem jejich pozdější analýzy	
•	Je vhodné rozmyslet si předem jak budou data ukládána	
•	Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě	
•	Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky	
	o Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce	
	o Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.)	
	o Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty	
	o Komentáře jsou uloženy v samostatných sloupcích	
	o U textových dat nezbytné kontrolovat překlepy v názvech kategorií	
	o Specifickým typem dat jsou datumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy	
	v korektním formátu	
•	Takto uspořádaná data je v tabulkových nebo databázových programech možné	
	převést na libovolnou výstupní tabulku	
•	Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office	
	MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita	
IQJ^      J. Jarkovský, L. Dušek		
MS Excel
a Kontingenční tabulky - rychlá sumarizace rozsáhlých tabulek
a Možnost výpočtů a grafových výstupů přímo v aplikaci
a Visual Basic -složitější aplikace
- Omezení tabulky na 256x65536 buněk (do verze 2003)
- Omezená kontrola chyb při zadávání
•   MS Access
a Plnohodnotná databáze vhodná pro velké množství dat, řádky omezeny v podstatě jen dostupnou pamětí
b Kontrola typu dat
a Relace tabulek - omezení velikosti souboru
a Visual Basic a formuláře - složitější aplikace
- Omezení tabulky na 255 sloupců
- Výpočty a grafy jsou složitější než v Excelu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Možnosti MS Excel
Správa a práce s tabulárními daty
Řazení dat, výběry z dat, přehledy dat
Formátování a přehledné zobrazení dat
Zobrazení dat ve formě grafů
Různé druhy výpočtů pomocí zabudovaných funkcí
Tvorba tiskových sestav
Makra - zautomatizování častých činností
Tvorba aplikací (Visual Basic for Aplications)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Import a export dat
• Import dat
o Manuální zadávání
o  import - podpora importu ze starších verzí Excelu, textových souborů, databází apod.
o  kopírování přes schránku Windows - vkládání z nejrůznějších aplikací - MS Office, Statistica atd.
o  využití textových souborů jako kompatibilního formátu pro přenos dat mezi různými aplikacemi
• Export dat
o Ukládáním souborů ve formátech podporovaných jinými SW, časté jsou textové soubory, dbf soubory nebo starší verze Excelu
o Přímé kopírování přes schránku Windows
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Výběr buněk
o CTRL+A -výběr celého listu
o CTRL + klepnutí myší do buňky -výběr jednotlivých buněk
o SHIFT + klepnutí myší na jinou buňku - výběr bloku buněk
o SHIFT + šipky - výběr sousedních buněk ve směru šipky
o SHIFT+CTRL+END (HOME) - výběr do konce (začátku) oblasti dat v listu
o SHIFT+CTRL+šipky - výběr souvislého řádku nebo sloupce buněk
o SHIFT + klepnutí na objekty - výběr více objektů
Kopírování a vkládání
o   CTRL+C -zkopírování označené oblasti buněk
o   CTRL+V - vložení obsahu schránky - oblast buněk, objekt,   data z jiné aplikace
Myš a okraje buňky
o   Chycení myší za okraj umožňuje přesun buňky nebo bloku buněk
o   Při chycení čtverečku v pravém dolním rohu výběru je tažením možno vyplnit více buněk hodnotami původní buňky (ve vzorcích se mění relativní odkazy, je také možné vyplnění hodnotami ze seznamu -např. po sobě jsoucí názvy měsíců.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
■
Databázová struktura dat v Excelu
Sloupce tabulky = parametry záznamů, hlavička udává obsah sloupce - stejný údaj v celém sloupci
Jednotlivé záznamy .—k (taxon, lokalita atd.)
] Micro sol    Kcel - ryby.xls
M_\ 5oubot    Úpravy Zobrazit
□ \3 p Lp ^ m\
:it   Formát   Nástroje   Data   Okno Nápověda
Nápověda - zadejte dotaz ▼ _ fi1 X
II      *J mu*
	A'	B		D	E	F	G	H
1	Číslo	Značka	Společ	Pohlaví	Délka	Váha		
2	1	1	1	m	27,5	23,0	2	2
3	2	2	2		34,0	62,5	0	2
4	3	5	3		58,0	230,0	0	0
5	4	6	4		42,0	155,0	0	0
6	5	, 7	5		44,0	149,8	0	0
7	6	8	6		56,0	323,0	0	1
8	7	9	7	m	48,5	178,2	0	0
9	8	10	8		30,5	47,7	4	6
10	9	11	9		47,0	175,9	5	14
11	10	12	10		40,0	85,1	5	9
12	11	14	11		40,0	101,0	0	0
13	12	15	12		31,0	84,0	15	9
14	13	16	13	f?	22,0	9,0	0	0
15	14	17	14		42,0	108,0	1	3
16	15	18	15		44,0	130,0	0	0
17	16	19	16		37,0	85,0	2	5
18	17	20	17		50,0	212,0	1	8
	► n|\data^ společenst		va Aist9/	List 10 / Listl2 / List 13 / Lis | < |				
I
Připraven
123
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Automatický zadávací formulář
• Slouží k usnadnění zadávání dat do databázových tabulek
• Načítá automaticky hlavičky sloupců jako zadávané položky
Nový záznam
Názvy sloupců
Obsah dané buňky - editovatelný
Vyhledávání
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Automatické seznamy
•  Vytváří se z hodnot buněk v daném sloupci a umožňují vložit hodnotu výběrem ze seznamu již zadaných hodnot - usnadnění zadávání
Sloupec z nějž je seznam vytvořen a pro který platí
Buňka, do níž se vloží vybraná hodnota
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Automatická kontrola dat
•  Umožňuje ověřit typ, rozsah nebo povolit pouze určitý seznam hodnot zadávaných do sloupce databázové tabulky
komunikace s uživatelem
/> <\
Co je povoleno - definiční obory čísel, seznamy, vzorce atd.
Rozsahy hodnot, načtení seznamů apod.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Seznamy
•  Skupiny hodnot zachovávající logické pořadí, některé jsou zabudované (např. dny v týdnu, měsíce v roce), další je možné uživatelsky vytvořit, slouží pro účely řazení a automatického vyplňování dat
Existující seznamy
Výběr buněk pro nový seznam
Načtení nového seznamu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Řazení dat
Řazení dat je nejjednodušším způsobem jejich zpřehlednění, užitečným hlavně u menších/výsledkových tabulek
t
» \ Zkontrolujte, zda seřazení nezničí vazby mezi buňkami = kontrola oblasti, kterou řadíte.
Podle čeho řadit
Další možnosti - řazení řádků, řazení podle seznamu t
Směr řazení - vzestupně, sestupně
Využít první řádek oblasti jako záhlaví
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Automatický filtr
Pomocí automatického filtru je snadné vybírat úseky dat pro další zpracování na základě hodnot ve sloupcích databázové tabulky, výběr je možný i podle více sloupců (např. určitá skupina pacientů)
Funkce automaticky rozezná hlavičky sloupců v souvislé oblasti buněk U sloupců použitých pro filtraci jsou rozbalovací seznamy zbarveny modře Výhodné pro čištění dat (vyhledávání překlepů, kombinace textu a čísel)
Výběr hodnot pro filtraci
Rozbalení seznamu hodnot nalezených ve sloupci
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
III. Vizualizace dat
Typy grafické vizualizace Rizika desinterpretace grafického zobrazení dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Prvním krokem v analýze dat je jejich vizualizace. Různé typy dat nám umožňující získání představy o rozložení dat, zastoupení kategorií i vztazích proměnných navzájem. Prostřednictvím vizualizace získáváme vhled do dat a za čínáme vytvářet hypotézy o zákonitostech panujících mezi proměnnými v hodnoceném souboru dat.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Grafická prezentace dat - umění komunikace
1. Výskyt kategorií (1, 2, 3,)
Koláčový (výsečový) gra,:
Sloupcový graf
□ Řada2
Sloupcový gra,
Řada2
40
20
100
50
2. Vývoj hodnot (v čase) Y vs. X (t)
Spojnicový graf
Řada
Bodový graf
Řada
30
Y
15
Y
30
15
1       2       3       10     20 X
Y
30
15
0 5        10       15       20       25 X
0
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
40%
30%
30%
□ 3
1
40%
2 □ 3
30%
Plošný graf
Řada2
1 2 3        10       20 X
0
0
1
2
3
1
2
3
0
0
Grafická prezentace dat - umění komunikace
3. Vztahy mezi proměnnými - korelace
X1
X1
Bodový - korelační diagram
Řada2
X1
1 2 3 10 20
X2
Řada2
X1
1 2 3 10 20
X2
Řada2
0 5        10       15       20 25
X2
Řada2
f3
J
X2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Bodový - korelační diagram
.drilu				
0 "o "***           co " o' ^ o "o o  . oB 00   0 0 °     0    03 00 0         0 %	Liii.			
0 o0 o 0 o 0            * 0 " 0	0 o ou 00         n Oq      0 0 *          o o°° 0           O1^           0    0 ° 0 ď o   0 0 oo u L            °°o 0	iiIMm		
0 °*° ° °„ *° «1	0 0» 0 0 0       » »     °o 0 0 a °° 0 rP o 0 »      0 ^ °o °	0 0 » ^0 o°°°	■iLul.	
0 Oq 00    13 o ď 0                 " 0	0 0 o °o          o o "o 0    o     o „ ° 0 0	0 "o °°° o*    „ °° o s Oo0o *o   o % o   o      o e°o 0             0 °	0 ° 0* □ o     % o* _ tu   ° ° . o 0°  oo^ib 0lD 0 «ft) o 0 „ 0 0	
30
30
15
15
0
0
30
30
15
15
0
0
2
3
10 20
Grafická prezentace dat - umění komunikace
4. Kvantitativní hodnoty parametru(ů) -X -v rámci kategorií A, B, C
X 40
Krabicový graf
20
Řada2
X
100
1
A
C
5. Histogram
50
Řada2
X
A
C
50    100   150   200   250 300
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Sloupcový graf
100
50
I
A
Řada2
C
0
0
0
B
B
B
Grafická prezentace dat - umění komunikace
6. Zviditelnění primárních dat
Grafická prezentace dat - umění komunikace
7. Vztahy mezi proměnnými - interakce dvou parametrů, reakčníplochy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Grafická prezentace dat - umění komunikace
8. Grafické zviditelnění má nekonečne mnoho možností
10						
						
30 25 g 20 10						
						
						
						
	•          ** * *	•				
						
	10       15       20       25       30       35       40       45 5 EMZYM1				0      0        4 B	
MU
/BA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Nesprávné užití grafů: problém rozsahu číselné osy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Nesprávné užití grafů: problém standardizace hodnot
IBA
1930     1940     1950     1960     1970     1980
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
n' ■ 1 1 ■ * 1 1 ■ ' 1 1 1 1 ■ 1 1 ' ' ' ! ■ i ■ ' ' ' ' 1930     1940     1950     1960     1970 1960
Grafy zaměřené na vícerozměrné soubory dokáží zviditelnit i veliké soubory dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
IV. Teoretické pozadí statistické analýzy
Jak vznikají informace Rozložení dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základním principem statistiky je pravděpodobnost výskytu nějaké události. Prostřednictvím vzorkování se snažíme odhadnout skutečnou pravděpodobnost událostí.Klíčovou otázkou je velikost vzorku, čím větší vzorek, tím větší šance na projevení se skutečné pravděpodobnosti výskytu jevu.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
JAK vznikají informace ? základní pojmy
kutečnost
Náhoda
(vybere jednu z možností pokusu)
Jev
Pozorovatel
i Rozliší, co nastalo
a) podle možností
b) podle toho, jak potřebuje
podmnožina všech možných výsledků pokusu/děje, o které lze říct, zda nastala nebo ne
Jevové pole
třída všech jevů, které jsme se rozhodli nebo jsme schopni sledovat
Skutečnost + Jevové pole = Měřitelný prostor
Experimentální jednotka - objekt, na kterém se provádí šetření Populace - soubor experimentálních jednotek Znak - vlastnost sledovaná na objektu Sledovaná veličina - číselná hodnota vyjadřující výsledek náhodného experimentu
Znak se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním objektu ze základního souboru
Výběr - výběrová populace - cílová populace Náhodný výběr Reprezentativnost
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
f
n 0-3
0.2 0-1
JAK vznikají informace ?
„Empirical approach"
„Classical approach"
Empirický postup
n = 10
f
n 0.3
0.2 0.1
n = 50
f
n 0.3
0.2 0.1
n = oo
0     1     2     3     4     5 6
0     1     2     3     4     5 6
0     1     2     3     4     5 6
možné jevy: čísla 1 - 6
n - počet hodů (opakování)
U složitých stochastických systémů se pravda získá až po odvedení značného množství experimentální práce: musíme dát systému šanci se projevit
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0
0
0
JAK vznikají informace ?
n
0.3 0.2 0.1
0
n = 10
0     1     2     3     4     5 6
Empirický postup
n = 50
n
0.3
0.2
0.1
0     1     2     3     4     5 6
n
0.3 0.2 0.1
0
n = oo
0     1     2     3     4     5 6
možné jevy: čísla 1 - 6
n - počet hodů (opakování)
0
Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější) .... diskutabilní je ale ovšem míra zobecnění konkrétního experimentu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Empirický zákon velkých čísel
Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty.
Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A, která každému jevu A přiřadí nezáporné reálné číslo P(A) z intervalu 0 -1.
A Z praktického hlediska je
a .    ?       ) pravděpodobnost
c   q    v/ idealizovaná relativní četnost
0 ...................................................................................1....................................................................................................s
P (A) = 0.................................jev nemožný
P (A n B) = P (A) . P (B)............. nezávislé jevy
P (A n B) = P (A) . P (B/A) ...........závislé jevy
P (A / B) = P (A n B) / P (B)..........podmíněná pravděpodobnost
;......................................................................................................!..........................................................................^
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
IQJ^      J- Jarkovský, L. Dušek
Pravděpodobnost výskytu jevu - rozložení dat
--------------------------------------------o--------------------------------------------------
^   existuje pravděpodobnost výskytu jevů (nedeterministické závěry) -y=~   „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane pravděpodobnost lze zkoumat retrospektivně i prospektivně
pravděpodobnost výskytu ▲
+
plocha = pravděpodobnost výskytu
0 1 2 3 4 5 x počet chlapců v rodině s X dětmi
x
výška postavy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
V. Základní typy dat
Spojitá a kategoriální data Základní popisné statistiky Grafický popis dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené.
Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací -histogramů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Jak vznikají informace ? -ruzne typy dat znamenají různou informaci
Data poměrová
Kolikrát ?
Spojitá data
Data intervalová
O kolik ?
Data ordinální
Větší, menší ?
Data nominální
Rovná se ?
Kategoriální otázky
Diskrétní data
Otázky „Ano/Ne"
Podíl hodnot větší/menší než
specifikovaná
hodnota
?
Procenta odvozené . hodnoty
Samotná znalost typu dat ale na dosažení informace nestačí ■■■■■■■■■■■■■
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Jak vznikají informace ? -ruzne typy dat znamenají různou informaci
Statistika středu
Data poměrová
PRŮMĚR
Spojitá data
Y = f
Data intervalová
Data ordinální
MEDIÁN
Diskrétní data
X
Data nominální
MODUS
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Y: frekvence absolutní / relativní
y
B
KOLIK se
naměřilo
y
				
	p			
				
	M,	lil	■	1
IVV
x
CO se
naměřilo
f
X: měřený znak
Diskrétní data
Spojitá data
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Odvozená data: Pozor na odvozené indexy
Příklad I:
Příklad II:
Znak X: Hmotnost Znak Y: Plocha
X: Průměrný počet výrobků v prodejně
Y: Odhad prostoru průměrně nabízeného k vystavení výrobku
průměr : (min - max)
X: 1,2 : (1,15 - 1,24)
+ / - 3,8 %
Y: 1,8 : (1,75 - 1,84)
+ / - 2,5 %
+ / - G,2 %
Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
DISKRÉTNÍ DATA
Primární data
o
0
1
2 i i S i
1
2
n = 100
Frekvenční sumarizace
N: 100 dětí (hemofiliků)
x: znak: počet krvácivých epizod za měsíc
x	n(x)	p(x)	N(x)	F(x)
0	20	0,2	20	0,2
1	10	0,1	30	0,3
2	30	0,3	60	0,6
3	40	0,4	100	1,0
n(x) - absolutní četnost x p(x) - relativní četnost; p(x) = n(x) / n N(x) - kumulativní četnost hodnot nepřevyšujících x N(x) = z n(t)
t < x
F(x) - kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Jak vznikají informace ? Grafické výstupy z frekvenční tabulky
n(x)
0 12 3
x
p(x)
0 12 3
x
N(x)
0123
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
F(x)
-1-1-1-1
0 12 3 x
Jak vznikají informace ? frekvenční tabulka jako základní nástroj popisu
SPOJITÁ DATA
Příklad: x: koncentrace látky v krvi n = 100 pacientů
Frekvenční sumarizace
n = 100 opakovaných měření (100 pacientů)
x: koncentrace sledované látky v krvi (20 - 100 jednotek)
Primární data
1,21 1,48 1,56 0,31 1,21 1,33 0,33
interv	)	n(l)	n(l)/n	N(x )	F(x )
<20, 40)	20	20	0,2	20	0,2
<40, 60)	20	10	0,1	30	0,3
<60, 80)	20	40	0,4	70	0,7
<80, 100)	20	30	0,3	100	1,0
n = 100
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
d(l) - šířka intervalu n(l) - absolutní četnost n(l) / n - intervalová relativní četnost N(x'') - intervalová kumulativní četnost do horní hranice X'' F(x'') - intervalová relativní kumulativní četnost do horní hranice X''
Jak vznikají informace ? frekvenční sumarizace spojitých dat
Histogram
Plocha: n(l) / n
0.025 ■ 0.020 -0.015 -0.010 -0.005 -0.000 ■
20     40      60     80 100
x
Výběrová distribuční funkce
0
20      40      60      80 100
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
1
5 4 3 2 1 0
Počet zvolených tříd a velikost souboru určují kvalitu výstupu
k = 10 tříd
■
8 7 6 5 4 3 2 1 0
k = 5 tříd
1,5  2,0 2,5 3,0  3,5 4,0 4,5 5,0
2     3     4 5
5 4 3 2 1 0
k = 20 tříd
L
1,0
2,0
3,0
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
4,0
5,0
1
Histogram vyjadřuje tvar výběrového rozložení		
f(x) f(x) IBA	^\\\\\\	
	X f(x) ^^^^^^^^^^^^^^^^^^^^^^ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek	X X
Příklad: věk účastníků vážných dopravních nehod
>G) >
0) O
o
u O
a
a> o c a>
<D
350 300 250 200 150 100 50 0
0
35 n 30 25 20 15 10
5
0
0
Správný histogram ?
td
1020
30     40 50
Věk (roky)
60
70 80
Správný histogram ?
Věk
0 - 4
5 - 9 10 - 15 16 - 19 20 - 24 25 - 59
> 60
10     20     30     40     50     60     70     80 Věk (roky)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
f
28
46
58
20
114
316
103
Pojem ROZLOŽENÍ - příklad spojitých dat
Je - li dána distribuční funkce, je dáno rozložení
Výběrové rozložení hodnot lze modelově popsat a definovat tak pravděpodobnost výskytu X
f(x)
x
f(x)
f(x)
X
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
<p(x)
<p(x)
<p(x)
cp(x)
1,00 F(x)
Plocha = relativní četnost
GO
./"(p(x) d(x) = 1
F(x):
Pravděpodobnost, že se X vyskytuje v intervalu M
— GO
P(X < x) = O(x) = F(x")
M
x
<D(x) ... distribuční funkce
P(X< x) = ľ <p(x) d(x) M
Známe-li distribuční funkci, pak známe rozložení sledované veličiny.
Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Grafické výstupy z frekvenční tabulky - spojitá data
f(x)    0.025 -i 0.02 -0.015 -
0.01 0.005 ■ 0
F(x)
0
20     40     B0     S0 100
x
20     40     B0     S0 100
x
Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní
zařazení každé jednotlivé hodnoty
KVANTIL
X01; X09; X05; X0
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
1
Otázka: Jak velké musí být X, aby 5 % všech
hodnot bylo nad ním?
j(x)
0,95 O(x)
0 = 0,95 ... Pravděpodobnost
Hledáme: P(X< x0) = 0,95 = 0
X0 = (x0,95) = ?
5 %
xo,95 X
f(xe) = e
t
Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován
Jakékoliv číslo na ose x je kvantilem
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
VI. Modelová rozložení
Normální rozložení jako statistický model Aplikace modelových rozložení Přehled modelových rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
• Klasickým postupem statistické analýzy je na základě vzorku cílové populace identifikovat typ a charakteristiky modelového rozložení dat, využít jeho matematického modelu k popisu reality a získané výsledky zobecnit na hodnocenou cílovou populaci.
• Využití tohoto přístupu je možné pouze v případě shody reálných dat s modelovým rozložením, v opačném p řípadě hrozí získání zavádějících výsledků .
• Nejklasičtějším modelovým rozložením, od něhož je odvozena celá řada statistických analýz je tzv. normální rozložení, známé též jako Gaussova křivka.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Rozložení hodnot jako model: Normální
rozložení
<P(x)
N (ma)
x
Standardizovaná forma
<p(z)
N (0,1)
Tabelovaná podoba
0
z
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Parametry charakterizující normálni rozloženi a
jejich význam
a)
b)
E (x) ~ x ~ jj, D (x) ~ s2 ~ a2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
c)
d)
průměr medián
a ~ s směrodatná odchylka
V-
2
s = v s Pravidlo ± 3s
koeficient variance
c = s x
| | | |__U     => neúměrně zvýší s2
x V''
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Normální rozložení jako model
I. Použitelnost modelu
A) X: spojitý znak - hmotnost jedince (myši)
1,2; 1,4; 1,6; 1,8; 2,0; 2,4; 3.8 n = 7 opakování medián = 1,8
1
1
1
průměr = iV x. =-Y xi =-(l,2 +1,4 +1,6 +1,8 + 2,0 + 2,4 + 3,8) = -14,2 = 2,03
i=1
V (xi - x)2    V (x1 - 2,03)2 rozptyl (s2) = J=1-:— = J=1-;-= 0,766
n -1
6
sm. odchylka (s) = V s = v 0,766 = 0,875
?
Je předpoklad normálního rozložení oprávněný ? Jaký předpokládáte možný rozsah hodnot tohoto znaku ?
?
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Normální rozložení jako model
/. Použitelnost modelu
B) X: spojitý znak - hmotnost jedince (myši)
1,2; 1,4; 1,6; 1,8; 2,0; 2,2; 2,4; 3,8; 8,9 n = 9 opakování
medián = 2
1
1
prů měr = - T xi =     xi =1 (1,2 +1,4 +1,6 +1,8 + 2,0 + 2,2 + 2,4 + 3,8+8,9) =125,3 = 2,81
ntť      9 tŕ      9 9
i=1
T (xi - x)2    T (xi ~ 2,81)2
rozptyl (s2) = —-:— = —---= 5,79
n -1
8
sm. odchylka (s) = vs = v5,79 = 2,269
1 Jak hodnotíte model u těchto dat ? i
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Stochastické rozložení jako model
1        Předpoklad: Znak x je rozložen podle daného modelu
2
3
Znak x je naměřen o n hodnotách s modelovými parametry: "X a s
Znak x je převeden na formu odpovídající tabulkovému standardu:
Platnost modelu ?
4
Využije se tabelované (modelové) distribuční funkce
pro testy o rozložení hodnot x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Normální rozložení jako model - příklad
Tabulky distribuční funkce
• Data z průzkumu jsou publikována jako:
Kosti prehistorického zvířete: n = 2000
průměrná délka = 60 cm sm. odchylka (s) = 10 cm
S Předpokládáme, že je oprávněný model normálního rozložení
^ Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost
66 cm: P (x > 66) ?
Z
x — |/
P (x > 66) = 1 — P (x < 66) a plat^ že P (X < x) = f (x ) tedy p(x > 66)=1 — P(x < 66) = 1 — P(
x — m   66 — 60.   , \
<-) = 1 — F (0,6) = 0,27425
9 9
10
Kolik kostí mělo zřejmě délku větší než 66 cm ? P(x>66)*n=°,27425*200°=548 Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ?
P(60 < x < 66)= P
60 — 60
< Z <
66 —60
F
V     10 10 y
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
(0,6)—F(0) = 0,22575 ||^^ 22,6% kostí leží v rozsahu 60-66cm
_
_
Stručný přehled modelových rozložení I.		
Rozložení	Parametry	Stručný popis
Normální	Průměr (ja) Rozptyl (ct2)	Symetrická funkce popisující intervalovou hustotu četnosti; nejpravděpodobnější jsou průměrné hodnoty znaku v populaci.
Log-normální	Medián Geometrický průměr Rozptyl (ct2)	Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení.
Weibullovo	a - parametr tvaru p - parametr rozsahu hodnot	Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. Rozložení využívané i jako model k odhahu LC50 nebo EC50 u testů toxicity.
Rovnoměrné	Medián Geometrický průměr Rozptyl (ct2)	Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení.
Triangulární	f(x) = [b - ABS (x - a)] / b2 a - b < x < a + b	Pravděpodobnostní funkce pro typ rozložení, kdy jsou střední hodnoty výrazně pravděpodobnější než hodnoty okrajové.
Gamma	Parametry distribuční funkce: a - parametr tvaru p - parametr rozsahu hodnot	Umožňuje flexibilně modelování distribučních funkcí nejrůznějších tvarů. Např. x2 rozložení je rozložení typu Gamma. Gamma rozložení s a = 1 je známo jako exponenciální rozložení.
~T~žr7~~     J. Jarkovský, L. Dušek		
Stručný přehled modelových rozložení II.		
Rozložení	Parametry	Stručnýpopis
Beta	Parametry distribuční funkce: a - parametr tvaru P - parametr rozsahu hodnot	Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do intervalu [0; 1]. Je matematicky komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné v ohraničeném intervalu.
Studentovo	Stupně volnosti -uvažuje velikost vzorku Průměr Rozptyl	Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k normálnímu rozložení.
Pearsonovo	Stupně volnosti -uvažuje velikost vzorku	Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat.
Fisher-Snedecorovo	Dvojí stupně volnosti -uvažuje velikost dvou vzorků	Používá se k testování hodnot průměrů -F test pro porovnání dvou výběrových rozptylů; F test, ANOVA atd.
m           Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek		
9 (x)
Medián Průměr
x
U asymetrických rozložení je medián velmi vhodným alternativním ukazatelem středu
Medián - frekvenční střed
k-
• • • • • •
x
Průměr - těžiště osy x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
f(x)
f(x)
Y = Ln [X]
Medián Průměr
x
EXP (Y) = Geometrický průměr X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
ln (x)
Medián = Průměr
—
Y = y —
i= 1
n
Y ± Standardní chyba
Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu
_ogaritmická transformace
Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění proporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient variance, ačkoli mají různý průměr.
Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale také vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logaritmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = ln (X+1).
Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometrický průměr původních dat.
!BA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Transformace dat - legitimní úprava rozložení
Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu
Odmocninová transformace
Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných pokusech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci:
Y = VX     nebo   Y = Vx +1    nebo    Y=A/x +V x+1
Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecně jestliže s2x = k (výběrový průměr).
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Transformace dat - legitimní úprava rozložení
Arcsin transformace
Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi n hodnocenými jedinci - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze souborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace však není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je:
Y = arcsin p
- tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový počet jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit transformaci:
1
Y = —
2
,  x           .      x +1 arcsin J--+ arcsin .J-
n + 1 X n + 1
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
VII. Popisná statistika dat
Popisné statistiky dat Vizualizace dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Popisná analýza dat je po vizualizaci dat dalším krokem v procesu statistického hodnocení. Poskytuje představu o rozsazích hodnocených dat a umožňuje vyhodnotit, srovnámí s literárními údaji nebo dosavadní zkušeností, jejich realističnost.
• Již při výběru vhodné popisné statistiky se uplatňuje znalost rozložení dat. Některé popisné statistiky, odvozené od modelových rozložení, je možné využít pouze v případě, že data mají dané modelové rozložení. Typickým příkladem je průměr a směrodatná odchylka, jejichž předpokladem je přítomnost normálního rozložení.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
• Kvalitativní/kategorická
o binární - ano/ne
o nominální        - A,B,C ... několik kategorií
o ordinální-1<2<3 ..několik kategorií a můžeme se ptát, která je větší
• Kvantitativní
o nespojitá - čísla, která však nemohou nabývat všech hodnot (např. počet porodů)
o spojitá -teoretickyjsou možné všechny hodnoty (např. krevní tlak)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Řada dat a její vlastnosti
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Frekvenční rozložení
Kategorie	Četnost
B	S
C	B
D	1
Kvalitativní data
Tabulka s četností jednotlivých kategorií.
Kvantitativní data
Četnost hodnot rozložení v jednotlivých intervalech.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Soubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele: o Středu (medián, průměr, geometrický průměr) o Šířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka) o Tvaru rozložení (skewness, kurtosis)
o Kvantily rozložení - kolik % řady dat leží nad a pod kvantilem
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Populace a vzorek
• Populace představuje veškeré možné objekty vzorkování, např. veškeré obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné parametry rozložení
• Z populace je prováděno vzorkování za účelem získání reprezentativního vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je také velikost vzorku, ze vzorku získáme odhady parametrů rozložení
í i i
Populace
Sample
Průměr, SD atd.
Odhad průměru, SD
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Ukazatele středu rozložení I
•
•
Průměr -vhodný ukazatel středu u normálního/symetrického rozložení, kde xi jsou jednotlivé hodnoty a n jejich počet
i=1 n
Medián - jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem
_ n
e (x)=x=
•
V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Ukazatele středu rozložení II.
• Geometrický průměr - antilogaritmus průměru logaritmovaných dat, je vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu
• Takto asymetrická data je možné převést logaritmickou transformací na normální rozložení
Ukazatele šířky rozložení
•
•
Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. 2   y (xA -x)2
2
s =
n -1
Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení
• Směrodatná odchylka je druhá odmocnina z rozptylu
•
Koeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr 4-3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty vrozložení-ukazatel problémů s normalitou dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Ukazatele tvaru rozložení
•
•
Skewness -ukazatel „šikmosti" rozložení, asymetrie rozložení Kurtosis - ukazatel „špičatosti/plochosti" rozložení
skewness>0 skewness<0
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Další parametry rozložení	
•	Počet hodnot - důležitý ukazatel, znamená jak moc lze na data spoléhat
•	Střední chyba odhadu průměru - je založena na směrodatné odchylce rozložení a počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozložení, tím je náš odhad skutečného průměru přesnější.
•	Suma hodnot
•	Modus -nejčastějši hodnota, vhodný např. při kategonálmch datech
•	Minimum, maximum
•	Rozsah hodnot
•	Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr)
IBA	Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
VIII. Provádění odhadů
Bodové a intervalové odhady Význam intervalu spolehlivosti
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dva základní přístupy statistického hodnocení jsou popis dat a testování hypotéz. Při popisu dat je třeba si uvědomit, že popisné statistiky získané ze vzorku nejsou skutečnou hodnotou v cílové populaci, ale pouze jejím odhadem. Přesnost odhadu závisí jednak na variabilitě dat, jednak na velikosti vzorku, při navzorkování celé cílové populace by výsledná popisná statistika již byla přesnou hodnotou, nikoliv odhadem.
• Odhady a s nimy související intervaly spolehlivosti jsou univerzálním statistickým postupem a je možné je dopočítat k libovolné popisné statistice.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistika v průzkumném studiu
Provádění odhadů
Testy hypotéz
Cílová populace
Závěr ?
Reprezentativnost ?
Vzorek
Závěr ? Interpretace
POPIS
Ověření
Výsledek
OTÁZKY
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
INTERVAL SPOLEHLIVOSTI
velmi užitečná míra věrohodnosti odhadů
ODHADY
Bodové
Číslo (chyba) (Odhad parametru)
Intervalové
Interval pravděpodobných hodnot
Spolehlivost (Pravděpodobnostní interpretace)
Obecný tvar:
P (L1 < Odhad < L2) > 1 - a/2
Odhadovaný parametr
±
Kvantil
modelového x SE (odhadu) rozložení
KV pro (1 - a/2)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Cílová populace
9 (x)
M
X
X......odhad průměru
Prezentace
s
s
n; x;
n; x; .— n
n; x; c
n; x; Interval
spolehlivost i pro odhad průměru
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
NORMÁLNÍ ROZLOŽENÍ: odhad průměru je rovněž normálně rozložen
Cílová populace
X:
(p(x)
znak x
M
Náhodné výběry o n = 100
X1 X2 X3 X4 -\s-
Xi
průměr x
M
X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
s
n
x: [i ±3s
X
M ±3
s
n
Standardní chyba odhadu průměru
ODHAD PRŮMĚRU: Vztahy
Bodový
x;
^  s ^
Intervalový
x - t.(w="-1} • -4= < p < x + tvn-1)
1-a
2 Vň"
2 Vň"
_ (w = n - 1 ) s
p : x ± /_ / ; • —j= p : x ± tV/-1 ^ • sx
1- x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
t... příslušný kvantil Studentova
rozložení 1 - a ... spolehlivost hodnoceného
intervalu
Interval spolehlivosti odhadu průměru je pouze informací o přesnosti tohoto odhadu
Interval spolehlivosti je hodnocen pro (1 - a) procentní spolehlivost
Cílová populace
Výběrové populace
Původní proměnná x
Šířku intervalu určuje:
a) velikost vzorku
b) rozptyl (variabilita) vzorku
c) požadovaná spolehlivost
Výběr n=10 pro odhad průměru
Výběr n=100 pro odhad průměru
(p(x)
(p(x)
-3s
M
+3s
cp(x)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
ODHAD PRŮMĚRU: Příklad
X: Cena výrobku v n = 21 obchodech
Data:
n = 21; x = 3,58; s2 = 0,12 s- = A/0,12/21 = 0,075
x        V    7      / 7
95% Interval spolehlivosti:
(u = n-1) (20) t1-a/2      = t 0,975  = 2,086
I : x ± 2,086 .s
x
3,58 - 2,086.0,075 < | < 3,58 + 2,086.0,075
3,423 < m < 3,737
N/1
p (3,423 < m < 3,737) > 0,95
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Interval spolehlivosti pro odhad rozptylu
Interval spolehlivosti
a) pro a2:
b) pro a:
(n -1)
2 (n-1)
x a 2
s       2     (n - l)s
2
X2 (i-a 2)
(n-1)
(n-1)
2 (n-l)
x a 2
<a<
(n-1)
X1 (i-a 2)
(n-1)
c) pro a/vn :
(n-1)
2 (n-l)
(n -1)
nx2 (i-a 2 )(n-1)
-směrodatná odchylka odhadu průměru (S.E.)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Interval spolehlivosti pro odhad rozptylu: příklad
Příklad: měření produkce metabolitu (x) u buněk dvou nádorových linií
Linie 1 n = 50
s2(x) = 10 (mg/ml)2 s(x) = 3,16 mg/ml x = 2 mg/ml sx = 0,447 mg/ml
95% IS
49 *
77,22
10 <a
49 * 10 31,56
6,98 < a2 < 15,53 c = 1,58
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Linie 1 n = 100
s2(x) = 16 (mg/ml)2 s(x) = 4 mg/ml x = 2,8 mg/ml Sx = 0,4 mg/ml
95% IS
99  *  16 <a2 < 99  * 16 128,42 73,36
Výpočet mediánu z frekvenčních dat a jeho
odhady
a) Určete medián tohoto souboru dat: 1,3,4,5,7,8 [4,5]
b) Určete medián tohoto souboru dat: 5,1,8,3,4 [4]
c) Tento příklad je ukázkou výpočtu mediánu u velkého souboru dat. V následující tabulce je uveden rozbor rozložení souboru dat od 179 krav, kde sledovanou veličinou byl počet dní od narození telete do znovuobnovení menstruačního cyklu. Uvedená data jsou velmi zjednodušena a jsou zde uvedena pouze pro ilustraci:
Class limits	0,5-	20,5-	40,5-	60,5-	80,5-	100,5-	120,5-	140,5-	160,5-	180,5-	200,5-
(days)	20,5	40,5	60,5	80,5	100,5	120,5	140,5	160,5	180,5	200,5	220,5
Frequency	8	33	50	32	15	20	11	6	2	1	1
Cumulative frequency	8	41	91	123	138	158	169	175	177	178	179
Frekvence zastoupení dosahuje nejvyšší hodnoty u třídy od 40,5 - 60,5 dnů. Druhý (menší) frekvenční pík lze pozorovat u intervalu od 100,5 do 120,5 dní. Existence dvou maxim (bimodální data) je důkazem nenormality tohoto
konkrétního souboru.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Výpočet mediánu z frekvenčních dat a jeho
odhady
Jelikož n =179, pak je medián devadesátá hodnota od počátku souboru, a dále je zřejmé, že bude velmi blízko horní hranici třídy 40,5 - 60,5 dní. Za předpokladu, že 50 hodnot této třídy je v ní rovnoměrně rozmístěno lze použít následující vzorec:
XL = hodnota X (sledované veličiny) na spodní hranici třídy obsahující medián: zde 40,5 dní
g = pořadová hodnota mediánu minus kumulativní frekvence do horní hranice předchozí třídy, tj. 90 - 41= 49
l = třídní interval: 20 dní
f = frekvence ve třídě obsahující medián
Dosadíme-li do uvedeného vzorce, získáme odhad mediánu jako 60 dní. Průměr tohoto datového souboru je 69,9, což je
významně odlišná hodnota, a potvrzuje znovu nenormální charakter dat. U velkých vzorků z normálních populací je výběrový odhad mediánu normálně rozložen kolem populační hodnoty se
směrodatnou odchylkou 1,253 g /Vn". U normálního rozložení, kde medián i průměr představují odhad stejné hodnoty, je
medián méně přesný než průměr. Proto hlavní význam mediánu spočívá u nesymetrických distribucí. Existuje velmi jednoduchá metoda pro výpočet intervalu spolehlivosti pro odhad mediánu a jako horní a spodní hranice slouží
pořadová čísla vypočítaná podle následujícího vztahu:
(n + 1 )   ,   z -\J n
±
kde
2 2
n představuje velikost datového souboru, z je kvantil standardizovaného normálního rozložení pro příslušnou pravděpodobnost. U našeho příkladu je n = 179 a pro 95% interval spolehlivosti je z přibližně rovno 2. Horní a spodní limit pro odhad mediánu tedy
o p
je 90 ± -\/l79 = 77 a 103. 95% interval spolehlivosti je tedy tvořen počty dní, které mají pořadí 77 a 103:
77: Počet dní = 40,5+(36)(20)/50 = 55 dní 103: Počet dní = 60,5+(12)(20)/32 = 68 dní
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Medián cílové populace byl tedy odhadnut 95% intervalem spolehlivosti jako hodnota ležící mezi 55 a 68 dny. Interpretujte tento výsledek.
IX. Základy testování hypotéz
Princip statistického testování hypotéz
Pojmy statistických testů Normalita dat a její význam pro testování
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
•
•
•
Testování hypotéz je po popisné statistice druhým hlavním směrem statistických analýz. Při testování pokládáme hypotézy, které se snažíme s určitou pravděpodobností potvrdit nebo vyvrátit.
Tzv. nulovou hypotézu lze nejlépe popsat jako situaci, kdy předpokládáme vliv náhody (rozdíl mezi skupinami je pouhá náhoda, vztah dvou proměnných je pouhá náhoda apod.), alternativní hypotéza předpokládá vliv nenáhodného faktoru.
Výsledkem statistického testu je v zásadě pravděpodobnost nakolik je hodnocený jev náhodný nebo ne, při překročení určité hranice (nejčastěji méně než 5% pravděpodobnost, že jev je pouhá náhoda) deklarujeme, že pravděpodobnost náhody je pro nás dostatečně nízká abychom jev prohlásili za nenáhodný
Statistická významnost je ovlivnitelná velikostí vzorku a tak je pouze indicií k prohlášení např. rozdílu dvou skupin pacientů za skutečně významný. V ideální situaci je nezbytné aby rozdíl byl významný nejenom statisticky (=nenáhodný), ale i prakticky (=nejde pouze o artefakt velikosti vzorku).
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistika v průzkumném studiu
Provádění odhadů
Testy hypotéz
Cílová populace
Závěr ?
Reprezentativnost ?
Vzorek
Závěr ? Interpretace
POPIS
Ověření
Výsledek
OTÁZKY
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Princip testování hypotéz
•
Formulace hypotézy • Výběr cílové populace a z ní reprezentativního vzorku Měření sledovaných parametrů
Použití odpovídajícího testu > ^> závěr testu Interpretace výsledků
•
•
•
Cílová populace
Závěr ? Interpretace
i
Reprezentativnost ? ^
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Testy hypotéz
/\
Měření parametrů
Nulová hypotéza HO
HO: sledovaný efekt je nulový
Alternativní hypotéza HA sledovaný efekt je různý mezi skupinami
Testová statistika
Testová statistika =
Pozorovaná hodnota - Očekávaná hodnota
Variabilita dat
*\ Velikost vzorku
Kritický obor testové statistiky
0
T
Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model - testová statistika.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
t t
Co znamená náhodný rozdíl?
Je tu rozdíl?
Jak by vypadaly rozdíl, kdyby byl náhodný?
Nasimulujme si ho !!! ©
____J
f
Mnohokrát
IV
t
ijjl
í
i
ÍV
t f
X1
X2
t
I
t
i t
|jj|
t
i
X1
X2
Rozložení možných náhodných rozdílů
0
tt t
Rozdíl ?
Kde leží skutečný rozdíl?
Jak moc je pravděpodobné, že je náhodný?
Možné chyby při testování hypotéz
• I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby.
Správné rozhodnutí
Chyba II. druhu
Závěr testu
Hypotézu nezamítáme
1- a
Hypotézu zamítáme
a
1- P
Chyba I. druhu
Správné rozhodnutí
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Význam chyb p ři testování hypotéz
Pravděpodobnost chyby 1. druhu
a
Pravděpodobnost nesprávného zamítnutí nulové hypotézy
Pravděpodobnost chyby 2. druhu
P 1
Pravděpodobnost nerozpoznání neplatné nulové hypotézy
Síla testu
1-p I
Pravděpodobnostně vyjádřená schopnost rozpoznat neplatnost hypotézy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Parametrické vs. neparametrické testy
Parametrické testy
• Mají předpoklady o rozložení vstupujících dat (např. normální rozložení)
• Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy neparametrické
• Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný
Neparametrické testy
• Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném rozložení
• Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
One-sample vs. two sample testy
One - sample testy
• Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční hodnotou (popřípadě se statistickým parametrem cílové populace)
• V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace)
• Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek
Two - sample testy
• Srovnávají navzájem dva vzorky (two sample, dvouvýběrové vzorky)
• V testu jsou srovnávány dvě rozložení hodnot
• Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek
• Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
One-tailed vs. Two-tailed testy
One - tailed testy
• Hypotéza testu je postavena asymetricky, tedy ptáme se na větší než/ menší než
• Test může mít pouze dvojí výstup - jedna z hodnot je větší (menší) než druhá a všechny ostatní případy
Two - tailed testy
• Hypotéza testu se ptá na otázku rovná se/nerovná se
• Test může mít trojí výstup - menší - rovná se - větší než
• Situace nerovná se je tedy souhrnem dvou možných výstupů testu (menší+větší)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Kritický obor
Kritický obor
Nepárový vs. párový design
Nepárový design
• Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např. lidé z různých zemí, nezávislé skupiny pacientů s odlišnou léčbou atd.
• Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat
Párový design
• Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci, reakce stejného kmene krys atd.
• Vazba může být buď přímo dána nebo pouze předpokládána (v tom případě je nutné ji ověřit)
• Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich původních datech
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistické testy a normalita dat
Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu nějakého rozložení) -např. t-testy
Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet (t-rozložení) a test tak může lhát
Řešením je tedy:
o Transformace dat za účelem dosažení normality jejich rozložení
o Neparametrické testy - tyto testy nemají žádné předpoklady o rozložení dat
Typ srovnání	Parametrický test	Neparametrický test	
2 skupiny dat nepárově:	Nepárový t-test	Mann Whitney test	
2 skupiny dat párově:	Párový t-test	Wilcoxon test, sign test	
Více skupin nepárově:	ANOVA	Kruskal- Wallis test	
Korelace:	Pearsonův koeficient	Spearmanüvkoeficient	
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Testy normality
250
200
150
100
50
Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí.
•Test dobré shody
Vtestu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě histogramu), tyto intervaly jsou normalizovány (převedeny na normální rozložení) a podle obecných vzorců normálního rozložení jsou knim dopočítány očekávané hodnoty vintervalech, pokud by rozložení bylo normální. Pozorované normalizované četnosti jsou poté srovnány sočekávanými četnostmi pomocí x 2 testu dobré shody. Test dává dobré výsledky, ale je náročný na n, tedy množství dat, aby bylo možné vytvořit dostatečný počet tříd hodnot.
• Kolgomorov Smirnov test
Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše se symetrií hodnot než přímo s normalitou. Jde o neparametrický test pro srovnání rozdílu dvou rozložení. Je založen na zjištění rozdílu mezi reálným kumulativním rozložením (vzorek) a teoretickým kumulativním rozložením. Měl by být počítán pouze vpřípadě, že známe průměr a směrodatnou odchylku hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho modifikace - Lilieforsův test.
•Shapiro-Willťs test
Jde o neparametrický test použitelný i při velmi malých n (10) sdobrou sílou testu, zvláště ve srovnání s alternativními typy testů, je zaměřen na testování symetrie.
145    155    165    175    185    195    205 215
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0
Šikmost a špičatost jako testy normality
•
Parametry normálního rozložení, skewness a kurtosis mohou být využity pro testování normality, ale pouze pro velké vzorky (šikmost - 100, špičatost - 500).
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Grafická diagnostika normality
Rootgram
Rootgram
2.5 2
1.5 1
0.5 0
-0.5 -1
-1.5 -2
0
20
40
Zn
60
80
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0.6 0.4 0.2 0
-0.2
-0.4
-0.6
-0.8 -1
0        5        10       15       20       25 30
Pb
Grafická diagnostika normality
Hanging Histobars.
Hanging Histobars.
0,32
0,12
-0,8
-0,28
-0,48 0
0,2
0,15
0,1
0,05
0
-0, 05
-0,1
0
-50      -10      10 30
Zn
50        70 90
-50
10
20
Pb
30
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Grafická diagnostika normality
Normal Probability Plot
Normal Probability Plot
1
0,1
0
20
40 Zn
60
80
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
99,9 99 95 80 50
20 5
1 0,1
0
5
10
15
20
Pb
25
30
95
80
50
20
5
0,8
0,6
0,4
0,2
0
Grafická diagnostika normality
Frequency Histogram
20        40        60 80 Zn
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0,3 0,25 0,2 0,15
0,1 0,05
Frequency Histogram
0      5     10    15     20     25 30
Pb
X. Statistické testy o parametrech jednoho výběrů
Jednovýběrový t-test Jednovýběrový test rozptylu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Jednovýběrové statistické testy srovnávají některou popisnou statistiku vzorku (průměr, směrodatnou odchylku) s jediným číslem, jehož význam je ze statistické hlediska hodnota cílové populace
• Z hlediska statistické teorie jde o ověření, zda daný vzorek pochází z testované cílové populace.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
"One sample" testy I
Vpřípadě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení.
Průměr - cílová vs. výběrová populace
x - u i— t =-V n
s
H0		Testová statistika	Interval spolehlivosti
x <ju	x > jU	t	t>vr
x >jU	x < U	t	t<ta (n-1)
x = //	x ^ JU	t	l«l> ^
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
"One sample" testy II
Vpřípadě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení.
I   ^   Rozptyl - cílová vs. výběrová populace
X2 =
(n - 1).s2
o2
H0		Testová statistika	Interval spolehlivosti
s2 <cj2	s s >a2 2 2	x2	2 ^     2 (n-1) X   > X 1-a 2            2 (n-1)
	s < a	x2	
s2 =a2	s2 *a2	x2	x2 > X 2„/2 2       2 nebo
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Koncentrace antibiotika v cílovém orgánu
Při 1000 měřeních antibiotika byla zjištěna v cílovém orgánu průměrná koncentrace 202,5 jednotek a směrodatná odchylka 44 jednotek.
Požadovaná koncentrace antibiotika je 200 jednotek.
1) Je daný rozdíl 2,5 významný vzhledem k variabilitě znaku na hladině významnosti 5%?
2) Jaká je skutečná hladina významnosti?
x -Ur—   2,5 r—-— , t =-V n =-V1000 = 1,797
s 44
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Srovnání odhadu průměru s předpokládanou
hodnotou II
Aktivita enzymu v buňkách
Při zjišťování aktivity enzymu v buňkách na vzorku 25 měření byl zjištěnprůměr 3,5 jednotek a směrodatná odchylka 1.
1. otázka zní, zda se naměřené hodnoty našeho vzorku liší od výsledků dřívější rozsáhlé studie zaměřené na celou cílovou populaci, kde byla zjištěna průměrná aktivita 2,5 jednotky?
x - Ur- 3,5 - 2,5 r— _ -V n =-V 25 = 5
HO: x=n tedy two tailed test t
s
1
24
t =
10,975
2,064
t > t
24
1-a/ 2
^> H0 zamítnuta při a<0,05
od jiné hodnoty bychom zachytili při daných hodnotách?
2. otázka - jakou minimální odchylku X od jiné hodnoty bychom zachytili při daných hodnotách?
x - tí r-   d r-   ^ , t =-V" = —^jn  ^ d =
t
l-a/2
3. za předpokladu, že z praktického hlediska je významná odchylka již 0,2 jednotky, jaký minimální počet měření musíme provést, abychom ji byli schopni prokázat ?
s
x-u r- d r ^
í =-V"=—v""y n—
s
ll-a/2
s
J
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
XI. Statistické testy o parametrech dvou výběrů
Dvouvýběrový párový a nepárový t-test Neparametrické alternativy t-testu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Jedním z nejčastějších úkolů statistické analýzy dat je srovnání spojitých dat ve dvou skupinách pacientů. Na výběr je celá škála testů, výběr konkrétního testu se pak odvíjí od toho, zda je o srovnání párové nebo nepárové a zda je vhodné použít test parametrický (má předpoklady o rozložení dat) nebo neparametrický (nemá předpoklady o rozložení dat, nicméně má nižší vypovídací sílu).
Nejznámějšími testy z této skupiny jsou tzv. t-testy používané pro srovnání průměrů dvou skupin hodnot
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrové testy: párové a nepárové I
•
Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle designu experimentu na testy párové a nepárové.
• Základním testem pro srovnání dvou nezávislých rozložení spojitých čísel je nepárový two-sample t-test
iiepárový two sample test
X2
• Základním testem pro srovnání dvou závislých rozložení spojitých čísel je párový two-sample t-test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrové testy: párové a nepárové II
Data
X1 X2
X1 X2
Nezávislé uspořádání
n1 n
H0: W = ^2
2
X1-X2 = D
Párové uspořádání
Design uspořádání zásadně ovlivňuje interpretaci parametrů
x2 x2
S 22
h0 :d=o
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
n D
2
(n = n2 = n1)
s
D
Dvouvýběrové testy: párové a nepárové III
Identifikace párovitosti (Korelace, Kovariance)
r = 0,954 (p < 0,001)
X2
r = 0,218 (p < 0,812)
X2
Předpoklady nepárového dvouvýběrového
t-testu
• Náhodný výběr subjektů jednotlivých skupin zjejich cílových populaci
• Nezávislost obou srovnávaných vzorků
• Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být testována testy normality
• Rozptyl vobou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován několika možnými testy -Levenův test nebo F-test.
• Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické srovnání a ověření předpokladů normality a homogenity rozptylu - nenahradí statistické testy, ale poskytne prvotní představu.
(p(x)
0
A
M
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Nepárový dvouvýběrový t-test - výpočet I
1. nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two tailed test
2. prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a nehomogenita rozptylu, provést F -test
	H0		Testová statistika
2 G\	<<722	(j|2 > a22	2
_2 °\	>C722	a2 < a22	2
2	= <722	* a22	„   max(s2; s2) F =-ri—2\ min(s|; s2)
F-test pro srovnání dvou výběrových rozptylů
•Používá se pro srovnání rozptylu dvou skupin hodnot, často za účelem ověření homogenity rozptylu těchto skupin dat.
•   V případě ověření homogenity je testována hypotéza shody rozptylů (two tailed); v případě
shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t-testu, v opačném případě není vhodné test počítat.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Nepárový dvouvýběrový t-test - výpočet II
3. Výpočet testové statistiky (stupně volnosti jsou u = ni + n2 - 2):
Rozdíl _ průrůmě
Xi - X2
SE(rozdílprůo ěrů)
f
s
1 1
— + —
2
s =
(ni - i)s12 + (n2 - i)s22
ni + n2 - 2
vážený odhad rozptylu
j
t
_
_
4. výsledné t srovnáme s tabulární hodnotou t pro dané stupně volnosti a a (obvykle a=0,05)
5. Lze spočítat interval spolehlivosti pro rozdíl průměrů (např. 95%), počet stupňů volnosti a s2 odpovídají předchozím vzorcům
(xi - x2 ) ± t0,975SE(xi - x2 ) = (xi - x2 ) ± to,975
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
-+-
Dvouvýběrový t-test - příklad
Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou zvýšenou dávkou potravy. Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy pak 24 ovcí.
• Vlastní experiment byl prováděn tak, že na začátku máme 54 ovcí (ideálně stejného plemene, stejně staré atd.), které náhodně rozdělíme do dvou skupin (náhodné rozdělování objektů do pokusných skupin je objektem celého specializovaného odvětví statistiky nazývaného randomizace). Poté co experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využití nepárového t-testu. Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na kterých můžeme posoudit normalitu a homogenitu rozptylu, kromě okometrického pohledu můžeme pro ověření normality použít testy normality, pro ověření homogenity rozptylu pak F-test
• Pokud platí všechny předpoklady Two sample nepárového t-testu, můžeme spočítat testovou charakteristiku, výsledné t je 2,43 s 52 stupni volnosti, podle tabulek je a t0975 (52)= 2,01, tedy t> t0975 (52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou.
•     Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91 kg. To, že konfidenční interval nezahrnuje 0 je dalším potvrzením, že mezi skupinami je významný rozdíl - jde o další způsob testování významnosti rozdílů mezi skupinami dat - nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0).
t =
Rozdíl _ průrůmě
Xl - x2
■2
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
IBA
Neparametrické alternativy nepárového t-testu
X1	X2	ALL	Rank ALL	X1 rank	X2 rank
27	25	25	5	6	5
35	29	29	7,5	11	7,5
38	31	31	9	13	9
37	23	23	4	12	4
39	18	18	2	14	2
29	17	17	1	7,5	1
41	32	32	10	15	10
	19	19	3		3
		27	6		
		35	11		
		38	13		
		37	12		
		39	14		
		29	7,5		
		41	15		
Mann Whitney U-test
•Stejně jako řada jiných neparametrických testů počítá i tento test spořadím dat v souborech namísto s originálními daty. Jde o neparametrickou obdobu nepárového t-testu a ztěchto neparametrických testů má nejvyšší sílu testu (95% párového t-testu).
•V případě Mann-Whitney testu jsou nejprve čísla obou souborů sloučena a je vytvořeno jejich pořadí v tomto sloučeném souboru, pak jsou hodnoty vráceny do původních souborů a nadále se pracuje již jen s jejich pořadím.
•Pro oba soubory je tedy vytvořen součet pořadí a menší zobou součtů je porovnán skritickouhodnotou testu, pokud je tato hodnota menší než kritická hodnota testu, zamítáme nulovou hypotézu shody distribučních funkcí obou skupin.
•Podobným způsobem je počítán i Wilcoxon rank sum
test (pozor, existuje ještě Wilcoxnův párový test!!!)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Mann - Whitney U test - příklad
•
•
•
•
•
•
17 štěňat bylo trénováno v chození na záchod metodou pozitivního posilování (pochvala, když jde na záchod venku) nebo negativního (trest, když jde na záchod doma). Jako parametr bylo měřeno, za kolik dní je štěně vycvičeno.
nulová hypotéza je, že není rozdíl vmetodách tréninku, tedy, že oběma metodami je štěně vycvičeno za stejnou dobu.
po srovnání rozložení + malý počet hodnot je vhodné použít neparametrický test
je vytvořeno pořadí sloučených hodnot
pořadí hodnot v jednotlivých skupinách dat je sečteno a menší ze součtů je použit pro srovnání s kritickou hodnotou testu
výsledkem testu je p<a, nulovou hypotézu tedy zamítáme a výsledkem testu je, že pozitivní působení při výcviku štěňat dává lepší výsledky
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
8
o
o o
80
75
70
65
60
55
50
45
40
35
30 pozitivne
negativne
8
8
Párové dvouvýběrové testy - předpoklady
•
•
•
Skupiny dat jsou spojeny přes objekt měření, příkladem může být měření parametrů pacienta před léčbou a po léčbě (nemusí jít přímo o stejný objekt, dalším příkladem mohou být např. krysy ze stejné linie).
Oba soubory musí mít shodný počet hodnot, protože všechna měření v jednom souboru musí být spárována směřením vdruhém souboru. Při vlastním výpočtu se potom počítá se změnou hodnot (diferencí) subjektů v obou souborech.
Před párovým testem je vhodné ověřit si zda existuje vazba mezi oběma skupinami -vynesení do grafu, korelace.
Existuje několik možných designů experimentu, stručně lze sumarizovat:
1. pokus je párový a jako párový se projeví
2. párové provedeni pokusu - párově se neprojeví
• možná párovost není
• špatně provedený pokus - malé n, velká variabilita, špatný výběr jedinců
3. čekali jsme nezávislé a jsou
4. čekali jsem nezávislé a nejsou
• vazba
• náhoda
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Párový dvouvýběrový t-test
Tento test nemá žádné předpoklady o rozložení vstupních dat, protože je počítán až na základě jejich diferencí.
Tyto diference by měly být normálně rozloženy a otázkou vpárovém t-testu je, zda se průměrná hodnota diferencí rovná nějakému číslu, typicky jde o srovnání s nulou jako důkaz neexistence změny mezi oběma spárovanými skupinami.
Vpodstatě jde o one sample t-test, kde místo rozdílu průměru vzorku a cílové populace je uveden průměr diferencí a srovnávané číslo (0 vpřípadě otázky, zda není rozdíl mezi vzorky).
Pro srovnání s 0 (testovou statistikou je t rozložení):       f = I^-yJn       u = n — 1
s
Někdy je obtížné rozhodnout, zda jde nebo nejde o párové uspořádání, párový test by měl být použit pouze v případě, že můžeme potvrdit vazbu (korelace, vynesení do grafu), jedním z důvodů proč toto ověřovat je fakt, že v případě párového t-testu není nutné brát ohled na variabilitu původních dvou souborů, tento předpoklad však platí pouze v případě vazby mezi proměnnými. Výpočet obou typů testů se vlastně liší v použité s, jednou jde o s diferencí, v druhém případě o složený odhad rozptylu obou souborů.
Zda je párové uspořádání efektivnější lze určit na základě:
o    Síly vazby
o    Je-li sD výrazně menší než sx1-x2
Závislost je možné rozepsat pomocí vzorce:      SD = (J   + J   — 2Cov( X2)
v případě Cov=0, tedy v případě neexistence vazby pak sD2 odpovídá součtu původních rozptylů, tedy přibližně Sx1-x2.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Párový dvouvýběrový t-test - příklad
Byl prováděn pokus sdietou ii diabetických psů, každý pes byl vystaven dvěma dietám s odlišným typem sacharidů (snadno vstřebatelné X pozvolna se rozkládající na glukózu), hodnoty krevní glukózy vprůběhu jednotlivých diet mají být srovnány pro zjištění vlivu diety na hladinu krevní glukózy. Protože každý pes absolvoval obě diety, jde o párové uspořádání, kdy výsledky hodnoty vobou pokusech jsou spojeny přes pokusné zvíře.
1.
2.
3.
4.
Nulová hypotéza zní, že skutečný průměrný rozdíl mezi oběma dietami je 0, alternativní hypotéza zní, že to není 0.
Pro každého psa je spočítán rozdíl mezi jeho hladinou glukózy při obou dietách a měly by být ověřeny předpoklady pro one sample t-test - tedy alespoň přibližně normální rozložení.
Je spočítána testová charakteristika, výpočet vlastně probíhá jako one-sample t-test, kde je zjišťována významnost průměru diferencí obou souborů jako rozdíl mezi touto hodnotou a nulou (nula je hodnota, kterou by průměrná diference měla nabývat, pokud platí nulová hypotéza). T=4.37 s 10 stupni volnosti, skutečná hodnota p=0,0014 a tedy na hladině p=0,05 můžeme nulovou hypotézu zamítnou
rozdíl _ průměru _ vzorku _ a _ populace   x - H _ x - //
SE ( průměru)
s
■sfň
Závěrem můžeme říci, že nulová hypotéza neexistence rozdílu mezi oběma dietami byla zamítnuta, což znamená, že high-fibre dieta má významný vliv na snížení hladiny krevní glukózy.
24 22 20 18 16 14 12 10
8
6 4
(	\					
						
						
[ L	\					
						
		\				
						
\						
( <						3 :
				\	i	
i	k _	- -			-...<	
						
-o- pes1
-□- pes2 o pes3 pes4 -• pes5 -■- pes6
♦ pes7
* pes8 pes9 pes10
-o- pes11
low
high
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Neparametrická obdoba párového t-testu
Wilcoxon test
•  Jsou vytvořeny diference mezi soubory, je vytvořeno jejich pořadí bez ohledu na znaménko a poté je sečteno pořadí kladných a pořadí záporných rozdílů. Menší ztěchto dvou hodnot je srovnána skritickou hodnotou testu a pokud je menší než kritická hodnota testu, pak zamítáme hypotézu shody obou souborů hodnot. Pro test existuje aproximace na normální rozložení, ale pouze pro velká n>25.
Menší _ suma _ diferencí
n
(n +1)
4
in (n + l)(2n +1) 24
Před zásahem	Po zásahu	Změna	Absolutní pořadí
6	2	4	10
2,5	3	-0,5	1,5
6,3	5	1,3	6
8,1	9	-0,9	5
1,5	2	-0,5	1,5
3,4	4	-0,6	3
2,5	1	1,5	8
1,11	2	0,89	4
2,6	4	-1,4	7
1	3	-2	9
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
t
_
Wilcoxonův test - příklad I
člověk	A	B	diference	pořadí
1	142	138	4	4,5
2	140	136	4	4,5
3	144	147	-3	3
4	144	139	5	7
5	142	143	-1	1
6	146	141	5	7
7	149	143	6	9,5
8	150	145	5	7
9	142	136	6	9,5
10	148	146	2	2
A.......parametr krve před podáním léku
B.......parametr krve po podání léku
W+ ......© pořadí kladných rozdílů = 51
W- ...... = 4
počet páru = n = 10
Pokud je W menší než kritická hodnota testu, pak zamítáme hypotézu shody distribučních funkcí obou skupin.
Ml
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Wilcoxonův test - příklad II
Byla testována nová dieta pro laboratorní krysy, při pokusu byl zjišťován její vliv na různých liniích krys, bylo proto zvoleno párové uspořádání kdy krysy vobou dietách jsou spojeny přes svoji linii, tj. na začátku byly dvojice krys stejné linie, jedna znich byla náhodně přiřazena kdietě, druhá zdvojice pak do druhé diety.
1. nulová hypotéza je, že váha krys není ovlivněna použitou dietou, alternativní, že ovlivnění dietou existuje
2. spočítáme diference - tyto diference jsou nenormální a proto je vhodné využít neparametrický test
3. Spočítáme sumu pořadí kladných a záporných diferencí, zde je menší suma záporných diferencí -31
4. výsledkem výpočtu je p>0,05 a tedy nemáme dostatečné důkazy pro zamítnutí nulové hypotézy, nelze říci, že by nová dieta byla efektivnější než stará
5. pro doplnění výsledků je vhodné zjistit také skutečnou velikost rozdílu hmotností ve skupinách, např. ve formě mediánu
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Znaménkový test - příklad I
Párově uspořádaný experiment pro nominální data
I. Dva preparáty, každý na V2 listu
- sledovaná veličina: počet skvrn (hodnoceno pouze jako rozdíl)
	Počet skvrn									
A	V	V	M	V	V	M	M	V	V	V
B	M	M	V	M	M	V	V	M	M	M
n = 10 listů s rozdílnými výsledky A je větší: +    n+ = 7
jev
B je menší: -   n-= 3
min(n+; n-) = 3
II. dvě protilátky z různých zdrojů (A;B) - aplikované na vzorek s antigenem n = 10
A	+	+	-	+	-	+	-	+	+	-
B	-	-	+	-	+	+	-	-	+	-
n - nenulových rozdílů: 6
A: n+ = 4 A: n.= 2
min(n+; n.) = 2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Znaménkový test - příklady II
•
Na konferenci veterinářů bylo předneseno,že průměrný čas konzultace je 12 minut. Následovala debata, zda je lepší použít medián nebo průměr. Jeden znich se rozhodl ověřit teorii, že průměrná konzultace trvá 12 minut na vlastní praxi a zaznamenal si trvání svých 43 konzultací. Kotestování hypotézy, že podíl konzultací kratších a delších než 12 minut použil znaménkový test.
Délka konzultace	Počet
<12	22
12	6
>12	15
Celkem	43
l-V        IV/ S V. I      /I        f III V     ■        I V / IV
Další výpočet probíhá obdobně jako vpnpadě klasického znaménkového testu na diferencích dvou skupin dat.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrové testy: schéma analýzy
Nezávislé uspořádání
NE
NE
x2 test Kolmogorov-Smirnov test Shapiro-Wilks test
neparametrické testy
NE
aproximace
testy:
Man - Whitney Mediánový test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrové testy: schéma analýzy
Párové uspořádání
Diference D
NE
normalita ?
transformace		
ANO		
		t-test
		párový
NE	Kolmogorov-Smirnov test Shapiro-Wilks test		
neparametrické testy			
		testy:	Znaménkový test
			Wilcoxonův test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
XII. Binomické rozložení
Popis binomického rozložení Testování hypotéz binomicky rozložených dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Kromě spojitých dat se setkáváme také s daty kategoriálními, jejichž nejjednodušším případem jsou data binární. Binární data jsou popsána binomickým rozložením, od chování binomického rozložení je odvozena popisná statistika binárních dat (procento výskytu jevu), její interval spolehlivosti a binomické testy pro srovnání procentuálního výskytů jevů v různých skupinách.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Alternativní rozložení		
	n(x) = n pro x = i >	
	n(x) = i - n pro X = 0    >    X = 1 jev	
	n(x) = 0 jinak '	
n		
		
0                                                     1 X		
MU m           Vytvořil Institut biostatistiky a analýz, Masarykova univerzita		
J. Jarkovský, L. Dušek		
Binomické rozložení
X.....     celkový počet nastání jevu v n nezávislých
pokusech
E(x)= n . n D(x)= n . n (1-n)
n ~ p
jediný parametr distribuce určuje tvar distribuce
n = 0,5
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
n = 0,1
_LL
Binomické rozložení jako model pro zkoumání
výskytu sledovaného jevu
p ~ tt .. jediný parametr binomického rozložení
p .... relativní četnost nastání jevu
určuje tvar distribuce
71 = 0,2
n n n n X
Binomická proměnná X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Binomické rozložení jako model
Jev:	narození chlapce	
n:	rodina s 5 dětmi	
r:	0,1,2,3,4,5 chlapců	
P(r ) =	ín ]	• pr • (l - p)(n r) = ■
	ír J	
n = 0,5
n !
r
! (n - r)!
• pr • q(n-r)
= 0 :
5 !
= 1 :
(0 ! 5 !) (0,5 )   (0,5 ) = 0,031 (0,5 ) (0,5 )4 = 0,15625
5 !
(nT!)
= 2: P(r) = 0,3125
= 3: P(r) = 0,3125 = 4: P(r) = 0,15625 = 5: P(r) = 0,031
M
IBÄ
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
X: Binomická proměnná Střed rozložení:
Rozptyl:   E (x )=n-p D(x) = n • p • (1 - p)
Příklad: n = 100 respondentů r = 20 má symptom
E(x) = n • p = 20
je střed rozložení a nejpravděpodobnější hodnota
r
r
r
Binomické rozložení jako model
q = 1 - p
0,3 -0,25
0,2 0,15
0,1 0,05 0
02 010 □,16
ai4
012
01
0,08 006 004
002 D
n = 10 p = 0,3
0,3
0,2
0,15
0,05
1	n = 30
-	P = 0»3
	
.i	
	n = 100
-	P = 0»3
-.................Jilll	lllí^.........................................................
1      23456789 10
10
15
20
25
30
1		n = 50
1		P = 0,1
ill	1.	
0« 01 o,m
005
004
002 D
n = 50 P = 055
10     15    20     25    30     36    40    45 50
»    15    20    25 3D
35
02 D,W 0,16 0,14 0,12
01
n,oa
□,06 □,04
□
40     45 50
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
10      20     30      40      SO      60 70
n p
= 50 = 0,9
10      15     20 25
35     40     45 50
0
91
Aplikace binomického rozložení
Výskyt krevní skupiny B v určité populaci: p = 0,08
Number in blood group B
Probability
B	B	2	0,0064
not B	B	1	0,0736
B	not B	1	0,0736
not B	not B	0	0,8464
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
Binomial distribution of number of people out of two in blood group B
I ■
Number: blood group B in 2 cases
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0,5 0,4 0,3 0,2 0,1 0
Binomial distribution showing the number of subjects out of ten in
blood group B based on the probability of being in in blood group B of 0,08.
□ =
i-1-1-r
t-1-1-1-1
01    23456789 10
0,16 -| 0,14 ^ 0,12 ■ ^ 0,1 CO 0,08 o0,06 P0,04 0,02 0
Number of subjects
11
Uhki
Binomial distribution showing the number of subjects out of 100 in
blood group B based on the probability of being in in blood group B of 0,08.
0    10   20   30   40   50   60   70   80   90 100
Number of subjects
0
1
2
I.
Aplikace binomického rozložení
Populace: 60% jedinců má zvýšenou hladinu cholesterolu Výběr:      5 lidí
Kolik lidí má ve výběru vyšší hladinu cholesterolu ? n. p = 5 . 0,6 = 3 lidé   ~ E(x) n . p (1-p) = 1,2 ~ D(x)
II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu cholesterolu ? ~ Tzn. Výběr přesně odpovídá dané populaci ?
P(3) = ?
P(3 )-
5 !
3 ! (5-3) !
(0,6)3 • (0,4)2 - 0,346
P(3) = 35%
Jaká je P, že většina jedinců (tedy minimálně 3) má vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň obecně odpovídá zkoumané populaci ?
P(X > 3) = P(3) + P(4) + P (5) = 0,346 + 0,259 + 0,078 = 68 %
MU
IBÄ
p(x)
i
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
i
«. - ^
x
Odhad parametru n binomického rozložení
Při vícenásobném odhadu se parametr II chová jako normálně rozložen
n1;p1 * n2;p2
n3;p3
p
U malých nebo velkých hodnot p (II) je však předpoklad normality omezen
cp(x)
0
cp(x)
n i
p
o n
i
p
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Odhad parametru n binomického rozložení
r
n & p ; p
—
n
1) Bodový
—
p
(| - p )
n -1
2) Intervalový - aproximace
p - Za - J <n< p + Z       /p(l p)
/2    V    n — /2
2
n -1
n: p ±
P ± Z|-a
2
n -1
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Odhad parametru n binomického rozložení:
příklad I
X: % jedinců s daným znakem
M  f\ f\     m mm O
n = 100 jedinců
r = 60; p = 0,6
s p = 0,049
Interval spolehlivosti : 95 % Z 0975 = 1,96
0,6 -1,96 • 0,049 <n< 0,6 +1,96 • 0,049
0,504 < n < 0,697
P(0,504 < n < 0,697) > 0,95
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Odhad parametru n binomického rozložení
t     j 1 r 11        11 • r ?1     r 1    v r
Intervalový odhad bez aproximací na normální rozložení
/ _	r	
Lj — U	r + (n - r + l)) /2 spodní limit intervalu Vi	= 2(n - r +l) v2 = 2r
L 2 = !►	(r + l )• Fp;v2) 2	
	n - r + (r + l) FaV/;V2 2 horní limit intervalu	v1 = 2(r+l) = /2 + 2 / = 2(n - r) = v1 - 2
1
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
P(LX <n<L2)> 1 -a
Odhad parametru n binomického rozložení:
příklad II
Náhodný vzorek n = 200 jedinců.
Zjištěno pouze r = 4 jedinci bez určitého znaku.
p =  ^/Cnn    = 0,02
95% interval spolehlivosti = ?
Spodní hranice
2(n - r + 1) = 2(200 - 4 + 1) = 394
v2 = 2r = 2 • 4 = 8
F^a/] = 3,67 /2 -
L1
4
4 + (200 - 4 + l) 3,67
= 0,0055
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
| Horní hranice |
v' = 2 (r + 1) = 10 v2 = 2(n - r)= 2(200 - 4)= 392
/r -aOf2 } = 2,08
2
L2 =
(4 + 1 )• 2,08
200 - 4 + (4 + 1 )• 2,08
0,051
zz
zz
zz
Binomické rozložení v datech: vizualizace
Interval spolehlivosti pro n
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistické testování binomických dat
i.
Liší se odhad p od předpokládané hodnoty P ?
Liší se dva nebo více odhadů p ?
- závislé odhady -nezávislé odhady
Je výskyt kategorií dvou jevů nezávislý ?
Hodnocení relativního rizika z výskytu určitého jevu v rámci skupiny lidí
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Jednovýběrový binomický test
Hq	ha	Testová statistika	Interval spolehlivosti
p <n	p > n	z	z > z ia
p > n	p < n	z	z < z a
p = n	p *n	z	>zz>2   > z 1-a/2
Z
—
n - p
n -
p (i - p)
n - p - n0,5
^Jn - p (i - p)
Korekce na kontinuitu
		Testová statistika	Interval spolehlivosti
p <n	p > n	( r + i ) F       , , L        =                    v                   J       a  , V i   , V 2	p = r / n > L1
		n  -  r +  ( r + i) F         , . a   , v i ,   v 2	
p >n	p < n	r r L 2 = - r + (n - r + i) F     , , a , v j , v 2	P < L2
p = n MU	p *n	L1; L2 (F a/2; F 1_a/2)	p < L2 vp > L1
IBA
Test n ? p
J Stromy s pozměněným tvarem koruny
n = 9 000 jedinců r = 2 250 změněných jedinců
Jak je pravděpodobná změna u až 1/3 jedinců?
^       n - p - n -n 2250   - 3000 10
Z = —,    >        ,       = —. = - 18 ,26
V P 0 - P )' n      vO,25 - 0,75 - 9000
a = 5 %;  z 1-a/2 = 1,96;  z 1-a = 1,645 Z > Z 1-a/2.........zamítáme H0: p < 0,01
95 % Interval spolehlivosti ... p: (0,241; 0,258)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Test n ? p
Příklad testu bez aproximace na normální rozložení
12 jedinců bylo zkoumáno pro výskyt určitého znaku, 10 jedinců znak nemělo
Jak hodně se tento výsledek liší od výsledku 6 - 6: tedy od situace, kdy polovina jedinců znak má?
a) Využití distribuční funkce
r	0	1	2	3	4	5	6	7	8	9	10	11	12
P(r)	0,0002 4	0,0029 3	0,0161 1	0,0537 1	0,1208 5	0,1933 5	0,2255 9	0,1933 6	0,1208 5	0,0537 1	0,0161 1	0,0029 3	0,0002 4
P (r > 10) = 0,01611 + 0,00393 + 0,00024 = 0,01928
H0: p = 0,5 je tedy značně nepravděpodobná
b) Pozorované   p =       = 0,833   překročilo horní limit 95 % intervalu
1 /12
spolehlivosti pro p:
p = 0,5 : L2
—
(6 +1)-2,64
12 - 6 + (6 +l)- 2,64
—
0,755
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrový binomický test (pl ? p2)
_    n | • p | + n 2 • p 2
p  — _L   r 1 2     * 2
n | + n
2
/. /P (l - p)   p (l - p )
(P1 - p2 )± Z(( '
p
2/ v     nl n
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrový binomický test (pl ? p2)
Tento příklad je ukázkou testování rozdílů mezi dvěma binomickými populacemi (tedy
srovnání dvou odhadů parametru p).
Celkem 49 pokusných myší bylo použito k testování toxického preparátu během dvouměsíční Ý   kultivace. Následující tabulka obsahuje původní data zároveň s testem nulové hypotézy: Podíl přežívajících jedinců je u zasažené populace stejný.
	Alive	Dead	Total	Proportion alive	Proportion dead
Treated	iS	9	24	TT   = 0 625 r 1 '	ql = 0,375
Not Treated	io	iS	2S	TT   = 0 400	q2 = 0,600
Total	2S	24	49	p   =   0,510	q = 0 , 490
Z
0,625 - 0,400
0,225
(0,510) (0,490)   (0,510) (0,490)    ^0,010413 + 0,009996
24
+
= 1,573
Z0,05(2) = t0,05(2) = 1,96
25
^>     Nezamítáme H0: 0,10 < P < 0,20
S korekcí na kontinuitu:
15 - 0,5   10 + 0,5
Z
24
25
0,604 - 0,420
1, 287
0,143 0,143
y>     Nezamítáme H0: 0,10 < P < 0,20
Z0,05(2) = t0,05(2) = 1,96
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Příklad I
a) Pravděpodobnost narození chlapce je asi 1/2. Máte zhodnotit výsledky průzkumu populace, která žije v silně poškozeném životním prostředí. Průzkum se týká 1000 náhodně vybraných rodin a zjištěný podíl narozených chlapců je 0.41. Jaké jsou vaše závěry o této populaci?
Jak se váš odhad zpřesní, když použijete vzorek n = 10 000 rodin při zachování odhadu p = 0.41? Použijeme jednovýběrový binomický test s nulovou hypotézou H0: p=n, hladina významnosti a=0,05
testová statistika Z
n • p - n•n    1000 • 0,41 -1000 • 0,5
\n • p(1 - p)      ^1000 • 0,41- 0,59 2 protože Z > Z0 975    nulovou hypotézu zamítáme. Chlapci se ve zkoumavé populaci nerodí s pravděpodobností 0,5.
interval spolehlivosti  n: p±Z-a,
/ 2
-5,79    a příslušný kvantil    Z a = Z0 975 = 1,96
'2
p(1 - p)
n -1
0,4 ± Z0 975 • 0,046 = 0,41 ± 1,96 • 0,016 = 0,41 ± 0,03
pokud použijeme n=10 000, bude int. spolehlivosti užší n: p ± Z
2
2
p
n-1
0,41 ± 1,96 • 0,005 = 0,41 ± 0,01
b) Jaká je pravděpodobnost, že rodina se třemi dětmi bude mít 2 (3) chlapce?
Podrobně analyzujte problém a použijte obecného definičního vztahu pro binomické rozložení.
n = 3 r = 2
p=0,5 (stejná pravděpodobnost narození chlapce jako narození dívky)
P(r ) =
P =
vr y
í3\
v 2 y
p
(1 - pf-' )=
n !
•0,52 • 0,5(1)
' ! (n - ')! 3 !
2 ! (1)!
• 0,52 • 0,5(1) = 0,375
pravděpodobnost narození 2 chlapců v rodině se třemi dětmi je 0,375
pravděpodobnost narození 3 chlapců
r = 3 platí   p(3)= 3 ^0,53 ^0,50 =10,53 ^0,50 = 0,125 v rodině se třemi dětmi je 0,125
v 3y
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
—
—
Příklad II
Předpokládá se, že lidé trpící určitou krevní chorobou mají abnormální jeden z chromozómů. S cílem odhadnout podíl takto postižených chromozómů bylo studováno 5 buněk od každého ze 120 pacientů a byl zjišťován počet buněk s postiženým chromozómem (tento počet = sledovaný jev = r). Výsledky jsou uvedeny v následující tabulce. Odhadněte podíl postižených chromozómů u populace nemocných lidí.
r(četnost jevu)	0	1	2	3	4	5	celkem
f(poč. pacientů)	6	31	42	29	10	2	120
Pro odhad p se používá vztah p
i=1
i=1
n
fi
0 6 0
1
2
3
4
5
Xifi
31	31
42	84
29	87
10	40
2	10
^ fiXi = 252
i=1
k
^ f = 120 III
i=1
n = 5
p
252/120 5
0,42
pravděpodobnost výskytu postiženého chromozómu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
XIII. Kontingenční tabulky
Test dobré shody Fisherův přesný test McNemar test Odds ratio a relativní riziko
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Analýza kontingen čních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými. Základním způsobem testování je tzv. chi-square test, který srovnává pozorované četnosti kombinací kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi proměnnými náhodný.
• Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem daným určitým pravidlem (typickým příkladem je Hardy-Weinbergova rovnováha v genetice)
• Specifickým typem výstupů odvozených z kontingen čních tabulek jsou tzv. odds ratia a relativní rizika, využívaná často v medicíně pro identifikaci a popis rizikových skupin pacientů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Test dobré shody _ základní teorie
Binomické jevy (1/0)
x
i pozorovaná i četnost
očekávaná i 2 četnost i
(l)
—
očekávaná četnost
+
Příklad
[pozorovaná očekávaná četnost četnost
očekávaná četnost
'--^--'
2
I. jev 1
II. jev 2
10 000 lidí hází mincí        rub: 4 000 případů (R)
líc: 6 000 případů (L)
Lze výsledek povazovat za statisticky významne odlišný (nebo neodlišný) od očekávaného pomeru R : L = 1 : 1 ?
x
(4000
(l)
5000
5000 )2 (6000
+
5000 )2
5000
400
Tabulková hodnota:   xXo,95) (v _ ^ _ 384       (0,95 _l - a)
Rozdíl je vysoce statisticky významný (p << 0,001]
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
2
Kontingenční tabulky H0 :Nezávislost dvou jevů A a B
Kontingenční H tabulka H ■ 2 x 21
	+		Podíl (+)
+	a	b	(a + b ) ^
	c	d	(c + d )Vp2i>
Podíl (+)	a	b	
	(a + c )	(b + d )	
N = a + b + c + d
(a + b)
p{b + )= p (b )=
N (c + d )
N
Očekávané četnosti:
F(A) =
(a + b )(a + c)
N
(a + b )(b + d)
N
F(C) =
F( D) =
(a + c )(d + c)
N
(b + d )(c + d)
N
X
v = 1
i = 1
F
v = 1 = (r -1) * (c -1)
(f - Fij - 0,5)2
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
2
i
Kontingenční tabulky: příklad
	Ano	Ne	s
Ano	20	82	102
Ne	10	54	64
s	30	136	166
FA = 102 * 30 / 166 = 18,43 FB = 102 * 136 / 166 = 83,57 FC = 11,57 FD = 52,43
,    (20 -18,43)2   (82- 83,57)2   (10 -11,57)2   (54- 5^43)2
%Q) =-■2-^-+---^-++--—-Z2—L-
18,43
= 0,423    0,423 <x
83,57       11,57 52,43 Kontingenční tabulka v obrázku
2 (1) 0,95
3,84
c: 49%
Gen: ANO
80
Gen: NE
d: 33%
Zemřelí Žijící
Zemřelí Žijící
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
_
R x C kontingen ční tabulka
Výběr: N lidí ze sociologického průzkumu (delikventi) Jev A: Původ z rozvrácených rodin Jev B: Stupeň zločinnosti I < II < III < IV
	I.	II.	III.	IV.
ANO	a	b	c	d
NE	e	f	g	h
2
Stupně volnosti: (R-1) * (C-1) = 1 * 3 = 3
číslo2
Fa —
číslo I • číslo 2 N
2
číslo 1
Tabulky:
12 (v) (I-a)
Očekávané četnosti:
P a
a
a + e
c
—
c + g
d
d + h
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Test dobré shody: příklad I
Overte na datech z pokusu se 100 květinkami určitého druhu, že barva květů se geneticky štěpí v poměru žlutá : červená = 3 : 1.
H0: Pozorovaná frekvence pro jednotlivé barvy květů jsou vzorkem populace mající poměr mezi žlutými a červenými květy 3 :1.
Součet frekvencí u obou barev květů (fi) se rovná 100 a pozorované frekvence u kategorií barvy budou srovnány s očekávanými frekvencemi (uvedeny v závorkách):
	Kategorie barvy		
	Žlutá	Červená	n
f poz.	84	16	100
f oček.	75	25	
2
yifpo,- foc} foe.
22
(84 - 75)    (16 - 25) -'— +--'— = 4,320
75
25
St. volnosti = n = k -1 = 1
Zamítáme hypotézu shody srovnávaných četností
Při testování H0 jsme použili matematický zápis (0,025 < P < 0,05). Z tabulek x2 rozložení vidíme, že pravděpodobnost překročení hranice 2,706 je 0,1 (10 %), což může být stručně zapsáno jako P (x2 > 2,706) = 0,10.
Dále lze zjistit pro P (x2 > 3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové statistiky x2 = 4,320. Pro tento případ lze tedy psát 0,025 < P (x2 > 4,320) < 0,05; a jednodušeji 0,025 < P < 0,05. Jde v podstatě o přibližné určení hranic chyby 1. druhu.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
_
Test dobré shody: příklad II
Tento příklad je rozšířením problému z příkladu 1 na srovnání pozorovaných a očekávaných frekvencí pro více kategorií sledovaného znaku:
Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0.
	žluté/hladké	žluté/vrásčité	zelené/hladké	zelené/vrásčité	n
f poz.	152	39	53	6	250
f oček.	140,6250	46,8750	46,8750	15,6250	
v = k -1 = 3
11,37502    7,87502    6,12502    9,62502 n --1---1---1--= 8,972
140,6250    46,8750    46,8750 15,6250
2
2
z2
Zamítáme hypotézu shody pozorovaných četností s očekávanými
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
	žluté/hladké	žluté/vrásčité	zelené/hladké	n
f poz.	152	39	53	244
f oček.	146,400	48,800	48,800	
Test dobré shody: příklad III
Složitější příklady řešené srovnáváním frekvencí je možné rozdělit na testování dílčích
hypotéz:
/Předpokládejme, že chceme pro data z předchozí úlohy testovat hypotézu existence štěpného poměru 9 : 3 : 3 pro první tři kategorie semen:
n = k -1 = 2
X 2
5,600
+
9,800
146 ,40      48 ,80
+
4 , 200
48 , 80
2 , 544
Nezamítáme hypotézu shody pozorovaných četností s očekávanými.
^   Nyní otestujeme hypotézu štěpného poměru kategorií zelené/vrásčité:ostatní
f
poz.
f
oček
typy = 1:15
zelené/vrásčité
6
15,625
ostatní
244
234,375
n
25
n = k -1 = 1
9,625 2
X
15 ,625
+
9 , 625
234 ,375
6 ,324
Zamítáme hypotézu shody pozorovaných četností s očekávanými.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
2
2
2
2
Test dobré shody: příklad IV _ využití aditivity testu
9
U 193 párů dvojčat byly zjištěny následující poměry pohlaví: 56 Ch - Ch
72 Ch - H 65 H -H
Za předpokladu, že narození chlapečka má stejnou pravděpodobnost jako narození holčičky, lze očekávat poměry pro výše uvedené skupiny = 0,25: 0,5: 0,25. Ověřte tento předpoklad na uvedeném vzorku populace.
Z193 párů 1/4    :  1/2  : 1/4
očekávané četnosti = 48,25 : 96,50 : 48,25
X(22)
13,28
Proč lze v předchozím případe očekávat zamítnutí H0?
Testujte následující hypotézy:
1) Jsou relativní počty párů se shodným pohlavím ve shode s očekávanými četnostmi? (ignorujte Ch H páry)
2) Je relativní četnost kombinace Ch - Ch a H - H párů oproti párům s rozdílným pohlavím ve shode s očekávanými četnostmi?
Z 121 párů 1  : 1
očekávané četnosti = 60,5 : 60,5
Z193 párů 1   : 1
očekávané četnosti = 96,5 : 96,5
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
x
x
(l)
(l)
0,669
12 ,44
H-H
Ch - Ch
X0
128 ,27 7,81
Zamítáme hypotézu shody pozorovaných četností s očekávanými.
Příspěvek kategorií A, B, C, D k celkové hodnotě x2
C (0 3 O
I!
A
C
D
A
B
C
D
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Test homogenity binomických rozložení
Jev: Úmrtnost na leukemii
Předpoklad: n = 0,6
Absolutní četnost jevu označena ri
Sledovalo s autorů z s zemí:
—
S
Autor		ri	
l			
2 •			
• • s	Z n = N		
Test homogenity binomických rozložení
Po možném sloučení s výběrů
Test shody reálného r a
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
n n
ŕ
(Z ri p t - p Z ri)
S-1
p (1 - p)
Z r - n •ni
1
2
(1)
n n(1 -n)
_
2
_
Test homogenity binomických četností: příklad
Pomocí x2 rozložení lze rovněž posuzovat homogenitu většího množství nezávislých
pokusů testujících tutéž hypotézu.
>Bylo provedeno 6 nezávislých výběrů z populace mladých mužů, kteří v dětství onemocněli těžkým zánětem mozkových blan.
H0: V této populaci se vyskytují praváci a leváci v poměru 1 : 1.
>Nalezněte v literatuře příslušné vztahy pro testování homogenity všech šesti výběrových populací a na základě výsledků tohoto testu rozhodněte o dalším postupu.
Následující tabulka obsahuje původní data a výsledek testování (v závorkách jsou uvedeny očekávané četnosti):
Vzorek	Praváci	Leváci	n	X2	St. volnosti
1	3 (7)	11 (7)	14	4,5714	1
2	4 (8)	12 (8)	16	4,000	1
3	15 (10)	5 (10)	20	5,000	1
4	14 (9)	14 (9)	18	5,5556	1
5	13 (8,5)	4 (8,5)	17	4,7647	1
6	17 (11)	5 (11)	22	6,5455	1
Xlterogemta = 30,2
v = s - 1 = 5 P < 0,001
Jednoduchým testováním lze zjistit, že všechny testy pro jednotlivé výběry jsou významné, což znamená, že ani v jednom případě nebyla potvrzena shoda očekávaných a pozorovaných četností. Test homogenity štěpného poměru v zkoumaných populacích rovněž vedl k zamítnutí možnosti sloučit jednotlivé výběry a posuzovat je jako celek (kromě testovaného poměru 1 : 1 neexistuje tedy v datech žádný jiný jednotný štěpný poměr mezi oběma vlastnostmi.
V případě, že by tento test neprokázal odchylky mezi jednotlivými výběrovými populacemi, bylo by možné jednotlivé odběry sloučit a posuzovat jako homogenní vzorek.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
%2 test - příklad složitější kontingenční tabulky I
Caffeine consumption and marital status in antenatal patiens (from Martin and Bracken, 1987)
Caffeine consumption (mg/day)
Marital status	0	1 -150	151 - 300	> 300	Total
Married	652	1537	598	242	3029
Divorced, separed or widowed	36	46	38	21	141
Single	218	327	106	67	718
Total	906	1910	742	330	3888
Caffeine consumption and marital status data
Caffeine consumption (mg/day)
Marital status	0	1 -150	151 - 300	> 300	Total
Married	22 %	51 %	20 %	8 %	3029 (100 %)
Divorced, separed or widowed	26 %	33 %	27 %	15 %	141 (100 %)
Single	30 %	46 %	15 %	9 %	718 (100 %)
Total	23 %	49 %	19 %	8 %	3888 (100 %)
Yytvuui institut Liuotatiotiky a analýz, Maoaiykuva univerzita
J. Jarkovský, L. Dušek
%2 test - příklad složitější kontingenční tabulky II					
Expected frequencies					
	Caffeine consumption (mg/day)				
Marital status	O	l - lSO	lSl - BOO	> BOO	Total
Married	705,8	1488	578,1	257,1	3029
Divorced, separed or widowed	32,9	69,3	26,9	12,0	141
Single	167,3	352,7	137	60,9	718
Total	906	1910	742	330	3888
Contributions of each cell					
	Caffeine consumption (mg/day)				
Marital status	O	l - lSO	lSl - BOO	> BOO	Total
Married	4,11	1,61	0,69	0,89	7,30
Divorced, separed or widowed	0,30	7,82	4,57	6,82	19,51
Single	15,36	1,88	7,02	0,60	24,86
Total	19,77	11,31	12,28	8,31	51,66
MU m           Vytvořil Institut biostatistiky a analýz, Masarykova univerzita					
J. Jarkovský, L. Dušek					
X2 test - příklad frakcionace složitější kontingentní tabulky I
C
Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy chorob a krevními skupinami u lidí. Konkrétní data jsou uvedena v tabulce:
Krevní skupina	Žaludeční vředy	Rakovina žaludku	Kontrola	Celkem
0	983	383	2892	4258
A	679	416	2625	3720
B	134	84	570	788
Celkem	1796	883	6087	8766
Vypo čítejte testovou charakteristiku pro tuto kontingenční tabulku a otestujte nulovou hypotézu nezávislosti jevů (x2 = 40,54; 4 st. volnosti)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
1
%2 test - příklad frakcionace složitější kontingen ční tabulky II
K podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní
tabulky do podoby procentického zastoupení kategorií:
Krevní skupina	Žaludeční vředy	Rakovina žaludku	Kontrola
0	983	383	2892
A	679	416	2625
B	134	84	570
Celkem	1796	883	6087
Z této tabulky je patrné:
1.
Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a u skupiny nemocných rakovinou Žaludku.
2.
Pacienti s vředy mají mnohem časteji krevní skupinu 0.
Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje hypotézu o shodné distribuci krevních skupin pro nemocné rakovinou a pro zdravé lidi. Sestavte tuto tabulku a otestujte nulovou hypotézu. (%2 = 5,64 (2 st. v.), P je přibližné rovna 0,06)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
• Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou a zdravých lidí neboť se vzhledem k distribuci krevních skupin chovají jako homogenní populace. Dalším logickým krokem v podrobné analýze je testování shody relativních četností výskytu krevních skupin A a B mezi kombinovaným vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí nemocných žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0. Výsledkem tohoto testu je %2 = 0,68 (1 st. vol.); P > 0,7. Vzorky pro krevní skupiny A a B lze tedy sloučit do směsného vzorku A + B.
• Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to mezi kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem nemocných vředařů (x2 = 34,29; 1 st. vol.). Lze tedy shrnout, že vysoká hodnota původního x2se4st. volnosti byla způsobena zvýšenou četností lidí s krevní skupinou 0 mezi nemocnými žaludečními vředy.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
X2 test - příklad frakcionace složitější kontingen ční tabulky IV
Průběh hodnocení lze shrnout do tabulky:
Srovnání	St. volnosti	X2
0, A, B skupina u pacientů s rakovinou (r) x kontrola (k)	2	5,64
A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k)	1	0,68
0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k)	1	34,29
Celkem	4	40,61
Celkový součet testových statistik x2 (40,61) odpovídá přibližně původní hodnotě x2 (40,54). Což platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme detailním rozborem vyčerpali informační obsah původní kontingenční tabulky a kromě popsané závislosti (zvýšený výskyt krevní skupiny 0 u lidí s žaludečními vředy) jsou jednotlivé kategorie zkoumaných jevů zcela nezávislé.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Kontingenční tabulka 2 x 2: Řešení při nedostatečné velikosti vzorku
Yates' corection
Fisher's exact test
Nezávislost jevů
Test analyzuje všechny možné 2 x 2 tabulky, které dávají stejnou sumu řádků a
sloupců jako tabulka zdrojová. Algoritmus každé tabulce přiřazuje pravděpodobnost, že taková situace nastane, je-li
H0 pravdivá.
Spectacle wearing among juvenile delinquents and non-delinquents who failed a vision
test (Weindling et al., 1986)
		Juvenile delinquents	Non- deliquents	Total
Spectacle wearers	Yes	l	S	6
	No	S	2	10
	Total	9	ľ	16
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Kontingenční tabulka 2 x 2: Řešení při nedostatečné velikosti vzorku
Všechny možné varianty tabulky s
(I)
(II)
(III)
(IV)
danou sumou řádků a sloupců		
	(V)	
0B 9l		42 SS
lS B2	(VI)	Sl 4B
24 ľB	(VII)	B0 Bľ
BB B4		
Pravděpodobnost náhodného vzniku variant tabulky
	a	b	c	d	P
í I )	0	B	9	i	0,00087
í II )	i	S	B	2	0,02BB0
í III )	2	4	ľ	B	0,1S7B4
í IV )	B	B		4	0,BB71B
í V )	4	2	S	S	0,BB042
í VI )	S	1	4	B	0,11014
í VII )	B	0	B	ľ	0,01049
Total					0,99999
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
2 x 2 frekvenční tabulka pro párové uspořádání: Mc Nemar's test
Příklad: Srovnání 2 metod stanovení antigenu v krvi (antigen vždy přítomen)
H0: metoda 1 = metoda 2
Metoda 1	Metoda 2	Frekvence
úspěch	úspěch	202
úspěch	neúspěch	60
neúspěch	úspěch	42
neúspěch	neúspěch	10
(60 - 42 I - 1 )
= 2,83
102
Tabulky :   Xi- {y=V)
1-or
3,84
} S
—
102
H0 nezamítnuta
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Aplikace analýzy 2 x 2 tabulky pro hodnocení rizika I. Prospektivní studie - odhad relativního rizika
Jedinci jsou sledováni prospektivně, zda se vyskytne nějaká vlastnost.
VÝBĚR JE DÁN SLOUPCEM
Znak
ANO
NE
OBECNĚ
Skupina 1
Skupina 2
a b
c d
Riziko:
a
b
(a + c)      (b + d)
a
RR
(a + c ) b
(b + d )
H0: RR = 1
PŘÍKLAD
Retardace plodu
Symetrická
Agar skore ANO > 7 NE
14
RR
2/16
33 / 91
2/16=0,13
= 0,345
Asymetrická
33
58
33/91=0,36
Riziko u "symetrické skupiny" je asi 35 % rizika u asymetrické skupiny
SE   (ln  RR ) = I— V a
IS: ln RR - Z ln RR + Z
+
1
a + c
1
b      b + d
1-a/2 1 1-a/2
SE (ln RR)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
_
1
Aplikace analýzy 2 x 2 tabulky pro hodnocení rizika II. Retrospektivní studie - "ODDS RATIO"
Zcela zásadně odlišný přístup od retrospektivní studie VÝBĚR JE DÁN VLASTNOSTÍ - ŘÁDKEM Není tedy možné analyzovat relativní riziko, protože přípravou řádků můžeme
měnit velikost kontrol.
OBECNĚ
ANO
Znak
■odícd
Skupina 1
Skupina 2
ab
Odds ratio :
a/c b/d
SE(inOR) =
1111
-+-+-+—
abcd
PŘÍKLAD
Vady chrupu
ANO			NE
Plavání	< eh	B2	118
týdně	36h	17	127
OR = (32/17)/ (118/127)= 2,026 in (OR )= 0 ,706 SE (in (OR ))= 0,326
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Relative risk Í3f °dds ratio
(relativní riziko) (poměr šancí)
• Smysl RR a OR
• Výpočet
• Srovnatelnost
• Interpretace
• Výhody a nevýhody
Aplikace v klinickém hodnocení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
Popis vlivu faktoru (léčba, klinický parametr) na výskyt události (úmrtí, progrese aj.)
Odds ratio
(poměr šancí)
0
0
Relative risk
(relativní riziko)
Snadná přirozená interpretace rizik vyjádřených jako procento událostí
ALE
Matematická omezení pro některé aplikace
0 Pouze málo lidí má přirozenou schopnost interpretovat OR
ALE
0 OR v řadě aplikací výhodnější matematické vlastnosti
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
event  j|    bez eventu
Srovnání výskytu události mezi dvěma rameny (A,B) studie
RR=
Relative risk
(relativní riziko)
tttttt
ó
ío
io
2
ft
A
# t
B
*
*
OR=
Odds ratio
(poměr šancí)
tttttt tttt
tit
ttttttt
o
cí)
ó
7
3.5
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vztah mezi RR a OR
Relative risk
(relativní riziko)
10
5
3
.2
§0.7 0.5
0.3
Odds ratio
(poměr šancí)
2-
0.1
RR a OR je přímo srovnatelné pouze při nízkém bazálním riziku
6 10
Zhang, J. et al. JAMA 1998;280:1690-1691.
20 30 ao 50
incidence Among the Nonexposed. %
60
70
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Srovnatelnost RR a OR I: maximum
Odds ratio
(poměr šancí)
Relative risk
(relativní riziko)
ft
•   RR mění své maximum podle bazálního rizika
1 !>
20
15
10
0% 20% 40% 60%
Bazálni riziko
IOCVí.
0   RR ve studiích s různým bazálním rizikem jsou nesrovnatelná !!!!
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0
0
0
Odds ratio má vždy rozsah od 0 do nekonečna
Velikost OR není závislá na velikosti bazálního rizika
OR lze použít pro srovnání studií s různým bazálním rizikem !!!!
0   Výhodné pro metaanalýzu
Srovnatelnost RR a OR I: symetrie
• Existuje mezi RR a O rozdíl v případě
RR(I)=
Relative risk
(relativní riziko)
tttt
4
10
Hitm
Ittttt
— - —
RR(II)=
ttt
1_
10
6
10
10
0.57
— — —
2
výměny definice eventu a non-eventu?
i i i t t i t i
i t
1t
í1 I1
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
vs.
i T
f í tí
t i
ft tí
t i i i
Odds ratio
(poměr šancí)
Iff f
OR(I)=
OR(II)=
1111 f t ttttttt
ttt
tttttt
tttt ttt
ttttttt
4
6
7
3
6 = 0.29
6
-3 = 3.5
7
_
RR a OR ve studiích s různou mírou bazálního rizika
Ve skupině „Case" připadá na jednoho pacienta bez eventu 4x tolik pacientů s eventem než ve skupině „Control"
Bazální (control) výskyt eventu (%) Relative risk
Pacient ve skupině „Case" má x-krát zvýšenou pravděpodobnost výskytu eventu než pacient ve skupině „Control". X-krát závisí na basálním výskytu eventu.
58
Prospektivní
studie
0
0
Sledování výskytu eventu a následná analýza jeho příčin
Převážně kohortní studie
pektivní stu
0   Zpětné sledování příčin eventu
0   Převážně case-control studie
0   Výběrem pacientů ovlivňujeme bazální výskyt eventu
0   Bazální výskyt eventu je dán vlastnostmi kohorty pacientů
0   Bezproblémové využití RR
Relative risk
(relativní riziko)
k
o)
0   RR nelze použít -ovliněno bazálním výskytem eventu
0   Využiti OR - není ovlineno designem studie
Odds ratio
(pom ěr šancí)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Relative risk
(relativní riziko)
0   Intuitivně snadno interpretovatelné
0   Pro prospektivní studie
0   Standardní výstup Coxovy
regrese
0   Maximum se liší podle bazální hodnoty výskytu eventu
Odds ratio
(poměr šancí)
0   Retrospektivní studie 0   Aplikace v metaanalýze
0   Standardní výstup logistické
regrese
0   Rozsah vždy 0 až nekonečno, není ovlivněno bazálním výskytem eventu
0   Obtížnější interpretace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
XIV. Poissonovo rozložení
Popis rozložení a jeho využití
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Poissonovo rozložení se používá pro popis četnosti výskytu jevu na experimentální jednotku, příkladem může být počet mutací bakterií na Petriho misku nebo počet srdečních poruch na jednotku času
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Poissonovo rozložení
Celkový počet jevů v n nezávislých pokusech E(x) = n p ■»   t_ď x x D(x) = n p }   E(x) = D(x)
jji—X— průměrný počet jevů z n pokusů
P (r )
-= e--
r ! r !
	^ P (X = 0) = e jj			
P (X=l) = e^-jl			P (X = 2 ) = - 2	
P (X = 3 ) = - (3)(2)			P (X = 4 )= ^ (4)(3)(2)	
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Poissonovo rozložení jako model
P (x = r ) = e
-x
r !
1,1 i
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
x = 0,01
012      3456789 10
0,4 0,35
0,3 0,25
0,2 0,15
0,1 0,05 0
x = 1
i     i     i-1-1-1-
1     2     3     4     5     6     7     8     9 10
1
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
n
X = 0,1
01      2      3456789 10
0,2 0,18 0,16 0,14 0,12
0,1 0,08 0,06 0,04 0,02 0
X = 5
0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
X = 0,5
01      23456789 10
0,14 0,12 0,1 0,08 0,06 0,04 0,02 0
X= 10
01      23456789 10
0 1  2  3 4 5 6 7 8 9 1011121314151617181920
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0
Poissonovo rozložení v přírodě existuje
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Orientační stanovení jevu (při produkci plynu bakteriemi)
+
+ U b +
The most probable number technique
Výskyt jevu v čase
(srdeční arytmie v určitých časových intervalech)
1 111 1
•-1-1-1-1-
čas
Poissonovo rozložení jako model pro
náhodný výskyt jevů
-------------------------------------------£>-------------------------------------------
Předpoklad: náhodná distribuce jevu mezi studovanými objekty
(příp. v čase, v prostoru).
<72 <JU
<J2 >jU
v2
Uniform
Clustered
Random
Poisson
Pokud je X spíše větší (~ 5 -10), pak Poisson odpovídá spíše binomickému
až normálnímu rozložení.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Formální prezentace Poissonova rozložení
Př: pokus......10 000 bakterií na misce
n = 10 misek Jev: mutace (r=25)
X..........průměrný počet mutantů na
jednu misku
r = 25
'x *X=25/10= ^5 95 % IS:
• • •
2,5 - 1,96 • a/0,25 < x < 2,5 + 1,96 • A/0,25
1,52 < X < 3,48
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Poissonova náhodná proměnná
Při měření počtu krvinek změněných určitou chorobou (relativně vzácné) je pozorován zředěný vzorek krve pod mikroskopem v komůrce rozdělené na stejně velká pole. Sledovaná veličina, udávající počet krvinek v i-tém poli může být považována za rozdělenou podle Poissonova rozložení:
n = 169 = počet nezávislých pozorování proměnné r = 10 = počet pozorovaných krvinek
Jaká je hodnota parametru X Poissonova rozložení a jaká je jeho interpretace ?
Jaký je interval 95% spolehlivosti pro parametr X ?
Pokud bychom sledovali celkový počet červených krvinek (opět v n = 169 nezávislých políčkách), bylo by i tuto proměnnou možno považovat za rozloženou podle Poissonova rozložení ? Uvažujte celkový počet pozorovaných krvinek jako 2013.
Výpočet intervalu spolehlivosti pro A (bez aproximace na normální rozložení)
W
Spodní hranice IS
Horní hranice IS
X
2      ( fi = 2 r)
L 1 =
1 _ oc
2
2
X
L 2 =
2
a
( f 2 = f 1 + 2 )
2
2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Poissonova náhodná proměnná
Konstantní zářič: n = 2608 časových intervalů (každý 7,5 s) i: počet částic v intervalu (x) si: pozorovaná četnost intervalů s i částicemi
P(x = i) =--px
i !
Poissonova proměnná:
* Výborný model pro experimenty, v nichž je během časového
průběhu zjišťován počet výskytu určitého jevu
i	Počet intervalů s právě i zaznamenanými částicemi st	teoretické četnosti np i	(st - npt)
0	57	54,399	0,1244
1	203	210,523	0,2688
2	383	407,361	1,4568
3	525	525,496	0,0005
4	532	508,418	1,0938
5	408	393,515	0,5332
6	273	253,817	1,4498
7	139	140,325	0,0125
8	45	67,882	7,7132
9	27	29,189	0,1642
10	10	17,075 (= P{ k > 10})	0,0677
11	4		
12	2		
13	0		
	n = 2608	2608,00	12,8849
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Poissonovo rozložení: jednovýběrový test
Př: Počet hnízd křepelek na dané ploše j  i i) Vzít data jako pocházející z popuíace:
n = 8 000 "pod lokalit" r = 28
} p = 0,0035
Nechť je srovnávací soubor (předchozí průzkum)
po = 0,0020 po • 8 000   = 16  =  ju  = A
H :    p < po   ~  ju < 16 ?
n/     _0.    e 16 -1628 ľ (r = 28) = ——t— = 0,00192
28 !
2)    P(r > 28) = ?
< 0,05 => Ho zamítnuta
[0,00411 ] /
l
r = 28 je příliš velké pro populaci s po
* abr28 b,o
aby r = 28 bylo p > po, pravděpodobnější
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
XV. Analýza rozptylu
Parametrická analýza rozptylu Post hoc testy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Analýza rozptylu je základním nástrojem pro analýzu rozdílů mezi průměry v několika skupinách pacientů.
• Základní myšlenka, na níž je ANOVA založena, je rozdělení celkové variability v datech (neznámé, dané pouze náhodným rozložením) na část systematickou (spjatou s kategoriemi pacientů, vysvětlená variabilita) a část náhodnou. Pokud systematická, tedy nenáhodná a vysvětlitelná část variability převažujeme, považujeme daný kategoriální faktor za významný pro vysvětlení variability dat.
• Analýza rozptylu vyhodnocuje pouze celkový vliv faktoru na variabilitu, v případě analýzy jednotlivých kategorií je třeba využít tzv. post-hoc testy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Analýza rozptylu - ANOVA
Základní technika
sloužící k posouzení rozdílů mezi více úrovněmi pokusného zásahu
i
Rostoucí koncentrace testované látky / látek
Celkově významné změny v reakci biologického systému
i
Vzájemné rozdíly účinku jednotlivých dávek
^)  Rozdíly účinku dávek od kontroly
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Analýza rozptylu - ANOVA
Významné kroky analýzy, vedoucí k efektivnímu srovnání variant
Rostoucí koncentrace testované látky / látek
Splnění předpokladů analýzy
Transformace dat
Relevantnost kontroly (vliv vlastní aplikace látek)
Vhodnost modelu ANOVA pro účely testu
Vlastní srovnání variant
Minimalizace chyb při ověřování hypotéz
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Analýza rozptylu - ANOVA
SPLNĚNÍ PŘEDPOKLADŮ ANOVA JE NEZBYTNOU PODMÍNKOU
POUŽITÍ TÉTO TECHNIKY
A Předpoklad nezávislosti
i.
opakováni experimentu
/ ANOVA ; = parametrická analýza dat
Homogenita 2.    rozptylu v rámci pokusných variant
Normalita rozloženi 3. v rámci pokusných variant
alternativou jsou neparametrické metody
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Analýza rozptylu - ANOVA
Předpoklady analýzy rozptylu jsou nezbytné pro dosažení síly testu
• Symetrické rozložení hodnota normalita odchylek od hodnoceného modelu ANOVA. Velkou část dat lze adekvátně normalizovat použitím logaritmické transformace. Předpoklad lognormální transformace může pochopitelně být teoreticky vyloučen u mnoha datových souborů obsahujících diskrétní parametry, kde je indikována vhodnost jiného typu transformace. U asymetricky rozložených a u diskrétních dat je nutné využít neparametrické alternativy analýzy rozptylu.
• Statistická nezávislost reziduí
vyhodnocovaného modelu ANOVA. Pokud odhad a posouzení korelačních vztahů mezi pokusnými variantami není přímo předmětem výzkumu, lze jejich vliv na vyhodnocení odstranit znáhodněním dat v rámci pokusných variant - tedy změnou pořadí v náhodné. Rozsah vlivu těchto autokorelačních vztahů musí být ovšem primárně omezen správností experimentálního uspořádání.
• Homogenita rozptylu je nutným předpokladem pro smysluplnost vzájemných srovnání pokusných variant. U testů toxicity by splnění tohoto předpokladu mělo být ověřováno (Bartlettův test), neboť vážné rozdíly (až řádové) v jednotkách testovaného parametru mohou nastat v d ů sledku inhibice dávkami látky. Nehomogenita rozptylu je často ve vztahu k nenormalitě (asymetrii) dat a lze ji odstranit vhodnou normalizující transformací.
• Aditivita jako předpoklad týkající se složitějších experimentálních uspořádání. Exaktní otestování aditivity více pokusných faktorů je procedura poměrně náročná na experimentální design vyvážený co do počtu opakování. Je rovněž obtížné testovat interakci na nestandardních datech, neboť případná transformace může změnit charakter odchylek původních dat od hodnoceného modelu ANOVA.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Analýza rozptylu - ANOVA
Omezení aplikace ANOVA lze vešit
• Chybějící data. Vážným problémem jsou chybějící údaje o celé skupině kombinací testovaných látek, například u faktoriálních pokusů, kdy je znemožněno hodnocení experimentu jako celku.
• Různé počty opakování Jde o typický jev pro experimentální datové soubory. Při různých počtech opakování v experimentálních variantách jsou testy ANOVA citlivější na nenormalitu dat. Pokud jsou počty opakování zcela odlišné(až na řádové rozdíly), je nutno použít neparametrické techniky nebo analýzu rozptylu nevyvážených pokusů.
• Odlehlé hodnoty. Ojedinělé odlehlé hodnoty musí být před parametrickou analýzou rozptylu vyloučeny.
• Nedostatek nezávislosti mezi rezidui modelu. Jde o závažný nedostatek, zkreslující výsledek F-testu. Velmi často je tato skutečnost důsledkem špatného provedení nebo naplánování experimentu.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
• Nehomogenita rozptylu. Velmi častý nedostatek experimentálních dat, často související s nenormalitou rozložení nebo s odlehlými hodnotami.
• Nenormalita dat. I v tomto případě Iz situaci upravit vyloučením odlehlých hodnot nebo normalizující transformací.
• Neaditivita kombinovaného vlivu více pokusných zásahů. Tuto situaci lze testovat jednak speciálními testy aditivity nebo přímo F testem kontrolujícím významnost vlivu interakce pokusných zásahů. Při významné interakci je nutné prozkoumat především její charakter ve vhodném experimentálním uspořádání.
Modely analýzy rozptylu
Model I. Pevný model
X0 X1 X2 X3 X4
y j = ju + a + s
v
y
+
+
+
+
+
X0   X1    X2    X3 X4
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Model II. Náhodný model
A B C D E
y.. = u + A +Sj
y
A   B   C   D E
ANOVA - základní výpočet
•
Základním principem ANOVY je porovnání rozptylu připadajícího na: o Rozdělení dat do skupin (tzv. effect, variance between groups)
o Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o náhodnou variabilitu (=error)
1.    Variabilita mezi skupinami
Rozptyl je počítán pro celkový průměr (tzv. grand mean) a průměry v jednotlivých skupinách dat
Stupně volnosti jsou odvozeny od počtu skupin (= počet skupin -1)
2.     Variabilita uvnitř skupin
Rozptyl je počítán pro průměry
jednotlivých skupin a objekty uvnitř příslušných, celková variabilita je pak sečtena pro všechny skupiny
Stupně volnosti jsou odvozeny od
počtu hodnot (= počet hodnot počet skupin)
SS between
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
SS within
v2 = n - k
F
between _ groups within _ groups
Výsledný poměr (F) porovnáme s
tabulkami F rozložení pro v 1
a v2 stupňů volnosti
SS=sum of squares
—
Jednoduchý ANOVA design
Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho parametru.
dělící parametr
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Nested ANOVA
• Rozdělení skupin na náhodné podskupiny (např. opakování experimentu)
• Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou
• Nejprve je testována shoda podskupin v hlavních skupinách,
• pokud jsou shodné, je vše v pořádku
• pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové variability
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Two way ANOVA
Pro rozdělení do kategorií je zde více parametrů
Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené zásahy (např.vliv pH a koncentrace O2)
Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce
faktor 1
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Modely analýzy rozptylu - základní výstup
Základním výstupem analýzy rozptylu je Tabulka ANOVA - frakcionace komponent rozptylu
Zdroj rozptylu	St. v.	SS	MS	F
Pok. zásah	a -1	SSB	SSB/(a -1)	MSB/MSE
(mezi skupinami)				
Uvnitř skupin	N - a	SSE	SSE/(N - a)	
Celkem N -1 sst
ssb/sst X
Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu
MSB/MST   )    /   Statistická významnost rozdílu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Analýza rozptylu - obecný F test
obecný F test H0: m1 = m2 = m3 = .... = mp
H0 platí
H0 neplatí
Látka nepůsobí
Látka působí
Další analýzy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
í- <
o —
CD 03 S" -■
w
03
N
03
tn
03
>3
O < 03
< CD
B
l—t-
Q)
Kontrola
Koncentrace X1
Koncentrace
Koncentrace X,
ZJ N
q- 0)
Q) 3
(/) —> <—i- <—i-
c
(—1-
Q)
Koncentrace Xp
>
N
O
N
r
CD Q)>
(Q O
CD ^_
CD Q)
co co
o
o E o <
C Q) ^5
Q) Z
L. a
řD
i/í
Příklad: Anova - One way
Dávka rostlinného stimulátoru (0, 4, 8, 12 mg/l) A = 4 ; n = 8
I. ANOVA
Bartlett's test:      P = 0,9847
K-S test: P = 0,482 - 0,6525 pro jednotlivé kategorie
Source	D. f.	SS	MS	F
Between Groups	3	305,8	101,9	8,56
Within Groups	28	322,2	11,9	
Total (corr.)	31	638,0		
II.    Multiple Range Test
NKS -test
Level	Average
0	34,8
4	41,4
12	41,8
8	52,6
Homogenous Groups
x
x x
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
I. Zásah: 4 klinická stadia virové choroby (napadá kr. buňky) Sledovaná veličina: aktivita enzymu v těchto krevních buňkách
Ho: //, = //2 = //3 = /Li4
I       II       III IV
n = 3
MODEL = ?
II.
22,8 16,4   11,2 14,2 19.4 17,8   18,2 10,1 12.5 19,1   15,8 12,8	Source	D.f. MS F	P
	Between groups	3    49,6 8,39	0,0075
E        65,7 53,3  45,2 37,1	Within	8 5,9	
průměr 21,9 17,8   15,1 12,4	groups		
	Total (corr.)	11 -	
III. Komponenta rozptylu:	IV.		
p
~ r j
S
0,7142
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
—
—
Srovnání variant v testech
Srovnáváni variant po celkovém testu ANOVA
Mnoho existujících algoritmů není vhodných pro konkrétní případ
Day and Quin Ecological Monographs,1989
Test	Využití	Poznámka
Dunnett Williams	Srovnání s kontrolou	Ex. i modifikace pro různá n.
ANOVA testy (F)	Orthogonální kontrasty	Plánovaná srovnání
Ryan Q test	Jednoduché kontrasty	Vyhodnocen jako nejlepší test
Testy pro jednoduché kontrasty
Scheffe	Tukey	LSD
Bonferroni	Dunn-Sidák	Kramer
Testy nevhodné
Duncan
Student -Newmann-Keuls
Waller-Duncan k ratio
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Řada post-hoc testů v různých SW
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
• Rozšíření ANOVA
• Současná analýza kategoriálních a spojitých prediktorů
• Testování hypotézy paralelismu regresních vztahů
"V t ■
^ kategorie
kategorie
Spojitý prediktor
Spojitý prediktor
Kategorie pacientů (pokusný zásah) Kategorie pacientů (pokusný zásah)
neovlivňuje vztah proměnných ovlivňuje vztah proměnných
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
XVI. Korelace a regrese
Parametrická a neparametrická korelace
Lineární regrese
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické
• Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy korelační analýzy -1.
Korelace - vztah (závislost) dvou znaků (parametrů)
Y2
Y
2
i:
\
Y2
X1
X1 X2 1	ANO	NE
ANO	a	b
NE	c	d
X1
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Parametrické míry korelace
Kovariance
Cov(x, y) = E(xf _ x).(yi _ y)
0 0
t
--x      -- y
t
0
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Pearsonův koeficient korelace
Y2
r = 1
r = -1
X1
Základy korelační analýzy - III.
P, (zem)	10	14	15	32	40	20	16	50
PI (rostl.)	19	22	26	41	35	32	25	40
I = l,....., n; n = 8; v = 6
Cov(x,y)
r =
i.   H0 : p = 0:a = 0,05 tab : r (v = 6) = 0,7076
n
0,7176
ii.        p = 0
r
0,7176
0,6965
■■( n - 2) '0,975
^6 = 2,524
tab : t; =
2,447
Vl - r
p < 0,05
Vn - 2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
v = n - 2
t
—
2
t
1   n1 = 1258 2. n2 = 462
r, = 0,682  ^^^^ r2 = 0,402
Krevní tlak x koncentrace kysl. radikálů
(1 + r,)
Z j =
Z1 = 0,833
1.1513 • log
(1 - r,)
Z 2 = 0,426
Test: H0 :p1 =p2 ; a=0,05
Z
Z 1 - Z 2
0,407
1 1
+
0,0545
7,461
n 1 - 3     n 2 - 3
tabulky   :    Z 0 975 = 1,96
7,461 >> 1,96 => P << 0,01
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
_
_
_
Základy korelační analýzy - V. Neparametrická korelace (rs)
P, v půdě	1	2	3	6	7	5	4	8
P, v rostl.	1	2	4	8	6	5	3	7
d,	0	0	1	2	-1	0	-1	-1
rs = 1
i = 1,.....n; n = 8 => v = 6
6 • ^   di 2
n (n 2 - 1 )
tab :  rs (v = 6) = 0,89
= 0 ,9048
Pacient č.	1	2	3	4	5	6	7
Lékař 1	4	1	6	5	3	2	7
Lékař 2	4	2	5	6	1	3	7
d,	0	-1	1	-1	2	-1	0
rs = 1
6 • 8
7 (49 - 1)
= 0,857
P = 0,358
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Korelace v grafech 1.			
Y	v y*	i	
	X		X
	Vztahy velmi často implikují funkční vztah mezi Y a X. Y = a + b . X Y = a + b1 . X1 + b2. X2 + b3. X3 Y = a + b1 . X1 + b2. X2 Y = a + b1 . X1 + b2. X2 + b3. X1 . X2		
MU Jbä	Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek		
Korelace v grafech II.
Problém rozložení hodnot
Problém typu modelu
Problém velikosti vzorku
Y
r = 0,891 (p < 0,214)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Y
r = 0,212 (p < 0,008)
i ■ ■ i s • • •   • •
X
Modelování klinických dat
l.Tvorba modelu
2.Validace modelu
3. Aplikace modelu
Prediktory
• Parametry ovlivňující vysvětlovanou charakteristiku pacienta
• Rovnice umožňující predikci
• Platnost modelu pouze v rozsahu prediktorů
• Nebezpečí „přeučení" modelu
• Testování modelu na známých datech
• Krosvalidace
• Individuální predikce stavu nenámých pacientů
• Model musí být podložen korektní statistikou a rozsáhlými daty
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy regresní analýzy
Regrese - funkční vztah dvou nebo více proměnných
Jednorozměrná
y = f(x)
Deterministický
Vztah x, y
Vícerozměrná y = f(x1, x2, x3,......xp)
Y
Y
Regresní, stochastický
X
Y
X
X
Pro každé x existuje pravděpodobnostní rozložení y
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Regresní analýza přímky: lineární regrese
a + p- X + s
y-
Y = a + b - x + e «
a « a (intercept) :   a = y - b - x p- X « b - x  (sklon; slope) s « e - náhodná složka :
Komponenty tvořící y se scitaji
s - náhodná složka modelu přímky = rezidua přímky
<72e (a2x) => rozptyl reziduí
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
1 x
1 y
Základní regresní analýzy: model přímky v datech I
1 y
!	[	[	"j"
n		n	
x
Y
y
: •
y e
1	■ i ■		" 1"				1		
n	J	= a + b .	i	—*			i		
X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Y
y
Základní regresní analýzy: model přímky v datech II
x
y
s
y
x
y
2 2
m •
„r.*;...*.-* -----b = 0
* • • • •
•   . • •
X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
y
y
Y
y
e
2
e = 0
b > 0
22
X
/v                     d c Y                      * x 1			rY
		)>---^^PC;Y]	>Ý
x
)
dy ■ x = y - y
Smysl proložení přímky
minimalizace odchylek
dy x = y - y
- b (X) - X)
y = y+
y + b (x) - x )
dlx - Z [y -a -ß(x, - x)]
Metoda nejmenších čtverců
1) X: Pevná, nestochastická proměnná
2) Rozložení hodnot y pro každé x je normální
3) Rozložení hodnot y pro každé x má stejný rozptyl , ,
.4)....Re.Z.Ídu .....N(0;ag)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
i.
b ~ P :    b =
S =
y-x
S =
y-x
S =
y - x
mean squared deviation from regression sample standard deviation from regression
—\2   Sy - x
n - 2
n - 2
ii.
a ~ a : a = 7 - b - X intercept
g
a
S =
a
1 + X2 n    Z X
S
y - x
iii.    0        , ,
Y : modelová hodnota
7. = a - b - X i
(Sy-x >
1   (x, - X )2
n     Z X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
2
2
X: Množství spáleného odpadu (tuny) Y: Koncentrace kovu ve vzduchu(ng/m3)
Y
10
Y
Y
200
X
Platí: X = 0; 10; 100; 150; 200; 250; 300 tun
Model: Y = a + b . X
Výsledek: Y = 14 + 0,123 • X;  Y —
ng kov
m3
Např. : Skutečná data pro X = 200 t: Yi = 16; 25; 41; 28; 31; 20 => Yi = 26.8
Y = Y + b • (x - X)
Y = a + b • X
} a
—
Y - b • X
Odhadnuto z modelu pro X = 200 t: Y = 14 + 0,123 . 200 = 38,6
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
analýza v grafech I
Grafy residuí modelů (příklady)
y (i; x) y (i; x) y (i; x)
Obecné tvary residuí modelů (schéma)
Regresní analýza v grafech II
y
1) Y vs. X
2) Y vs. Y
x
y
x
y
M •
v
▼
x
y
y
y
y
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
y
4-7
T
y
Lineární regrese - příklad		
X: Koncentrace drogy: 0; 2; 6; 8; 10; 12; 15 mg/ml krve		
Y: Koncentrace volných metabolitů		
Pro každé X: 3 opakování Y		
Model: Y = a + b . x         Y = 0,11 + 0,092 . X		4^75) = 2,093
I.    H0 : P = 0;a = 0,05 b = 0,092 ; sb = 0,023	b      , ™ > t =-= 4,00	P : b ± t(n_-a22 • Sb
P < 0,01		P(0,044 < P < 0,140 )= 0,95
II. H0 : a = 0;a = 0,05 v a = 0,11; sa = 0,029	a t = — = 3,793	t0^9=7159) = 2,093
a : a± t(a 2\ • Sa		
P(0,049<a< 0,17l) =	= 0,95	
MU m           Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek		
Analýza rozptylu jako nástroj analýzy regresních modelů - příklad na modelu přímky
1) Experimentální data
y1    x0    x1    x2    x3 x4
yn   x0    x1    x2 x3
x4
s02   s12   s22   s32 s42
Y
i i i—i—i—i—h
X
Y
2) Celková ANOVA "one way"
Zdroj rozptylu	St.v.	SS	MS	F
Mezi skupinami	a-1	SSb	SSB /(a-1)	MSB/MSE
Uvnitř skupin	na-a	SSE	SSE /(na- a)	
Celkem	na-1	SST	sy2	
SS
Y
na - l
X
X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
S)
Celková ANQVA
SSB/SST MSB/MSE = F
(variance ratio)
4)   Analýza rozptylu regresního modelu (zde přímky)
Zdroj rozptylu
(SSMQD/SST) . 1QQ = % rozptylu Y "vyčerpaného" přímkou = koeficient determinace (R2)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
X: konc.Cd:  1,2,3,4,5,6 ng/ml Y: absorb:    0,23; 0,49; 0,72; 0,90; 1,16; 1,39
b=0,228 a=0,016
r = 0,999 R2 = 99,81%
Sb=4,99.10-3 Sa=0,019
P = 0,000 P = 0,457
St. Error of est: 0,021
ANOVA
Source	D.f.	SS	MS	F	P
Model	1	0,912	0,912	2086,3	0
Residual	4	0,0017	0,000425		
Total ( c )	5	0,9138			
s2 yx = 4,25 . 10-4 s2y   = 0,18275
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
XVII. Vícerozměrná analýza
dat: úvod
Principy a využití vícerozměrné analýzy dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vícerozměrná analýza dat představuje nadstavbu nad klasickou, jednorozměrnou statistikou a je zvláště vhodná pro biologická a medicínská data, která jsou vícerozměrná již svou podstatou
• Při vícerozměrné analýze je nicméně nezbytné si uvědomit, že povětšinou vychází ze stejných principů jako jednorozměrné analýzy a tedy i zde je nezbytné dodržovat předpoklady na nichž je výpočet založen. Tento fakt je důležité si uvědomit zejména vzhledem k relativní dostupnosti vícerozměrných analýz v moderních statistických software.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vztah klasické a vícerozměrné statistiky
• Vícerozměrná analýza dat využívá přístupů klasické statistiky
• Zároveň je citlivá i na jejich problémy
• Agregace dat přes sumární statistiku nebo kontingen ční tabulky -korespondenční analýza
• Korelace - analýza hlavních komponent, faktorová analýza, diskriminační analýza
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
n
Vícerozměrné vnímání skutečnosti -nová kvalita analýzy dat
x1 x2
r      ~\ r ^
skupina 1
o o
skupina 2
Vícerozměrný systém
X2
x
1
x2
+
\—►
+
Klasická jednorozměrná analýza
\—►
skup. skup. skup. skup. 2 1 2 1
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Běžná sumarizace dat „likviduje" individualitu jedince
Q
A
ľ A A A A
Průměr ± SE
běžná statistická sumarizace
s Zpřehlednění dat s Neodliší původní
měření
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vícerozměrné hodnocení
X2
X3......Xp
e
A
X3......Xp
|w|
Xi
... s ohledem na individualitu !
X2
V-
• • •
•
•• •
Xi
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vícerozměrné hodnocení -nová kvalita
Pouze kombinované parametry mají odpovídající informační sílu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vícerozměrné hodnocení vychází z jednoduchých principů			
		příklad: vícerozměrná vzdálenost měření mezi dvěma objekty (body)	
X__ 22	^....................................	2	
	^....................................	c = a + b	
X 21	^......................................		
	^......................................	i    a = í2"Xii = d	X1
		X 11	X 12
MU m           Vytvořil Institut biostatistiky a analýz, Masarykova univerzita Ygy^      J. Jarkovský, L. Dušek			
Vícerozměrné modelování je strategickou
disciplínou
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Pojmy vícerozměrných analýz
• Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu.
• Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty.
• NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz.
• Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vstupní matice vícerozměrných analýz
NxP MATICE
ASOCIAČNÍ MATICE
Výpočet metriky
podobností/
vzdáleností
Hodnoty parametrů pro jednotlivé objekty
Korelace, kovariance, vzdálenost, podobnost
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základní typy vícerozměrných analýz
SHLUKOVÁ ANALÝZA
RDINACNI METODY
• vytváření shluků objektů na základě jejich podobnosti
• identifikace typů objektů
KLASIFIKACE
•
Model zařazení neznámých pacientů do předem daných skupin
Řada algoritmů
zjednodušení vícerozměrného problému do menšího počtu rozměrů
principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Typy vícerozměrných analýz
i.......i
t
podobnost
y
Ť
ORDINAČNÍ METODY
Faktorové osy
+4
Diskriminační prostor
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
y
x