Přednáška III. Data, jejich popis a vizualizace
Náhodný výběr, cílová a výběrová populace
* Typy dat
- Vizualizace různých typů dat
* Popisné statistiky
Opakování - podmíněná pravděpodobnost
Jak můžu vyjádřit podmíněnou pravděpodobnost jevu A za nastoupení jevu B? A co platí v případě nezávislosti těchto dvou jevů?
Tomáš Pavlík
Biostatistika
Opakování-význam podmíněné pravděpodobnosti
* Princip podmíněné pravděpodobnosti je v biostatistice velmi častý - máme systém hypotéz (nejčastěji dvou) o vlastnostech cílové populace a pozorovaná data.
'' Na jejich základě pak rozhodujeme o platnosti stanovených hypotéz. ' ■ Uveďte příklad.
Tomáš Pavlík      idL. | IIJj | Biostatistika
Opakování - diagnostické testy
Co vyjadřují následující charakteristiky?
Se n zi t i vita Specificita
Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu
Tomáš Pavlík      JjjL fj^j Biostatistika
1. Jak vznikají data?
Jak vznikají data?
■^Záznamem skutečnosti...
Tomáš Pavlík
Biostatistika
Jak vznikají data?
■^Záznamem skutečnosti...
... kterou chceme dále studovat -> smysluplnost?
... více či méně dokonalým -> kvalita?
Tomáš Pavlík
Biostatistika
Jak vznikají data?
■^Záznamem skutečnosti...
... kterou chceme dále studovat -> smysluplnost? (krevní tlak, glykémie x počet srdcí, počet domů)
... více či méně dokonalým -> kvalita? (variabilita = informace + chyba)
Tomáš Pavlík
Biostatistika
Cílová populace, výběrová populace
■*Cílová populace-skupina subjektů, o které chceme zjistit nějakou informaci. Odpovídá základnímu prostoru O. Experimentální vzorek neboli výběrová populace - podskupina cílové populace, kterou pozorujeme, měříme a analyzujeme. Jakékoliv výsledky chceme zobecnit na celou cílovou populaci. Výběrová populace musí svými charakteristikami odpovídat cílové populaci (reprezentativnost). Toho můžeme docílit náhodným, ale i záměrným výběrem.
Tomáš Pavlík
Popis cílové populace - popis pozorované variability
Cílová populace
■4...............
Náhodný výběr dle optimálního plánu
Reprezentativní vzorek n subjektů
Měření charakteristiky
OO00OOO0O0
4...........................................................
Hodnocení variability hodnot
ve výběrovém souboru
l
VÝSLEDKY ...............................
Tomáš Pavlík
o i—
> M
'E u
O) -Q
O M
4)
IBA
mu
m
Reprezentativnost Spolehlivost Přesnost
Biostatistika
2. Typy dat a jejich vizualizace
Typy dat
Kvalitativní proměnná (kategoriální) - lze ji řadit do kategorií, ale nelze ji kvantifikovat, resp. nemá smysl přiřadit jednotlivým kategoriím číselné vyjádření.
* Příklady: pohlaví, HIV status, užívání drog, barva vlasů
,; Kvantitativní proměnná (numerická) - můžeme jí přiřadit číselnou hodnotu. Rozlišujeme dva typy kvantitativních proměnných:
' Spojité: může nabývat jakýchkoliv hodnot v určitém rozmezí.
Příklady: výška, váha, vzdálenost, čas, teplota. * Diskrétní: může nabývat pouze spočetně mnoha hodnot. Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za rok, počet dětí v rodině.
Tomáš Pavlík
Biostatistika
Typy dat - příklady
Kvalitativní data lze dělit dále
- Binární data - pouze dvě kategorie typu ano / ne.
■* Nominální data - více kategorií, které nelze vzájemně seřadit. Nemá smysl ptát se na relaci větší/menší.
' Ordinální data - více kategorií, které lze vzájemně seřadit. Má smysl ptát se na relaci větší/menší.
Tomáš Pavlík
Biostatistika
Kvalitativní data - příklady
Binární data
diabetes (ano/ne) pohlaví (muž/žena) stav (ženatý/svobodný)
Nominální data
■* krevní skupiny (A/B/AB/0)
stát EU (Belgie/.../Česká republika/.../Velká Británie)
stav (ženatý/svobodný/rozvedený/vdovec) Ordinální data
stupeň bolesti (mírná/střední/velká/nesnesitelná)
spotřeba cigaret (nekuřák/ex-kuřák/občasný kuřák/pravidelný kuřák) i- stadium maligního onemocnění (l/ll/lll/IV)
Tomáš Pavlík
Biostatistika
Kvantitativní data
'; Kvantitativní data poskytují větší informaci než data kvalitativní. ,; Spojitá data poskytují větší informaci než data diskrétní. iA Větší informace znamená, že nám stačí méně pozorování na detekci určitého rozdílu (pokud ten rozdíl samozřejmě existuje).
' Kvůli interpretaci je někdy výhodné kvantitativní data agregovat do kategorií (např. věk) - tímto krokem však ztrácíme část informace. Zpětně nejsme schopni data rekonstruovat.
Spojitá data
L
Kategoriální data
Diskrétní data
Kategoriální data
Tomáš Pavlík
Biostatistika
Typy dat dle škály hodnot
Data
Otázky
Příklady
Poměrová
Kolikrát ?
Glykémie, váha
Intervalová
O kolik ?
Teplota ve °C
Ordinální
Větší, menší ?
PS, kouření
Nominální
Rovná se ?
Pohlaví, KS
mu ^"""í-.
Tomáš Pavlík * IMII Biostatistika
/BA
Další typy dat - odvozená data
,; Pořadí (rank) - místo absolutních hodnot známe někdy pouze jejich pořadí. Jedná se sice
o ztrátu určitého množství informace, nicméně i pořadí lze v biostatistice využít. ■* Procento (percentage) - sledujeme-li např. zlepšení v určitém parametru, je výhodné
sledovat procentuální zlepšení. Př.: ejekční frakce levé srdeční komory.
Podíl (ratio) - mnoho indexů je odvozeno jako podíl dvou měřených veličin. Př.: BMI. ■* Míra pravděpodobnosti (rate) - týká se výskytu různých onemocnění, kdy počet nových
pacientů v daném čase (studii) je vztažen na celkový počet zaznamenaných osobo-roků.
Př.: výskyt nádorového onemocnění u pacientů ve studii. ■* Skóre (score) - jedná se o uměle vytvořené hodnoty charakterizující určitý stav, který
nelze jednoduše měřit jako číselné hodnoty. Př.: indexy kvality života.
Vizuální škála (visual scale) - pacienti často hodnotí svoje obtíže na škále, která má formu
úsečky o délce např. 10 cm. Př.: hodnocení kvality života.
Tomáš Pavlík
Biostatistika
Další typy dat - odvozená data
71112322 SUT.MYŠLENKY
10. Suicldálnl myšlenky
Život nestojí za to žit, myšlenky o vitanosti přirozené smrti, myšlenky na sebevraždu, příprava sebevraždy.Fakticky provedené suicidálnl pokusy neberte při skórováni v úvahu
__________________________;jvr_____________________________________________
0 - má zájem na životě a nebo jej bere tak jak je
1 - potěšeni ze života je oproti obvyklému stavu zdrávi poněkud sniženo
2 - otráveny Životem, občasné úvahy o suicidiu
3 - připouští, že nebýt by bylo momentálně príjemnejší než být, o suicidiu
jako řešeni situace však neuvažuje
4 - raději by nežil, úvahy o suicidiu častě, suicidium by bylo možným
řešením situace, plány na suicidium však dosud nejsou konkrétni a promyšlené
5 - představa o způsobu suicidia je již konkrétni, konáni však k tomu za-
tím nesměřovalo
6 - konkrétni plány na suicidium, kdyby byla možnost* Aktivní příprava
suicidia
h war»
Tomáš Pavlík       bbm C
jyji Biostatistika
IBA
Absolutní vs. relativní četnost
■* Vyjádření výsledků v relativní formě (procento) má často příjemnou
interpretaci, ale může být zavádějící. '; Relativní vyjádření účinnosti by mělo být vždy doprovázeno absolutním
vyjádřením účinnosti.
* Příklad: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků. Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %.
Relativní změna v účinnosti = 40 %; absolutní změna = 8 %. Studie 2: výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %.
Relativní změna v účinnosti = 40 %; absolutní změna = 0,6 %.
* Výsledkem je rozdílný přínos léčby při stejné relativní účinnosti.
Tomáš Pavlík
Biostatistika
Další typy dat - cenzorovaná data
,; Cenzorovaná data charakterizují experimenty, kde sledujeme čas do výskytu
předem definované události. ■* V průběhu sledování událost nemusí nastat u všech subjektů. Subjekty však
nelze vinit z toho, že jsme u nich nebyli schopni danou událost pozorovat a už
vůbec je nelze z hodnocení vyloučit, čase sledování takového subjektu pak mluvíme jako o cenzorovaném. "*Toto označení indikuje, že sledování bylo ukončeno dříve, než u subjektu došlo
k definované události. Nevíme tedy, kdy a jestli vůbec daná událost u subjektu
nastala, víme pouze, že nenastala před ukončením sledování.
Tomáš Pavlík
Biostatistika
Další typy dat - cenzorovaná data
Ztracen ze sledování
-> Úmrtí
■> Úmrtí
--------_>
Nepozorované časy úmrtí
Ukončení studie
0
Tomáš Pavlík
Biostatistika
3. Vizualizace a popis různých
typů dat
Reálná data
A	B	C	D	E	F	G	H			K	L	M	N	0	P
ID uniq	INICIÁLY	Věk	LEKAR	SEX	NHL_STUP	DG_1	DATUM_DG	I PI	LDH	B2M	KS	RT OD	RT_DO	STAV	ZEMŘEL
1	MZ	59	Pytlík	F	DLCL	DLCL	28.04.99	0	5.7	1.5	I			KR	
4	JS	64	Pytlík	F	DLCL	DLCL	03.11.99	1	13.3	NA	II			ZTR	
6	VK	66	Pytlík	F	difusní velkobunéčný B-lymfom	DLCL	19.01.00	2	11.1	Z5	III			EX	31.01.01
7	BK	41	Pytlík	F	difusní lymfom z velkých bb	DLCL	27.04.00	0	8.3	23	I	12.09.00	13.10.00	KR	
S	ZV	74	Pytlík	M	centroblastický B-lymfom	DLCL	13.11.00	3	12.6	2.6	III			KR	
11	DH	75	Pytlík	M	DLCL	DLCL	15.03.01	0	7.1	3.0	II	25.06.01	18.07.01	KR	
12	JS	60	Jankovská	M	DLCL	DLCL	19.04.01	0	5.6	OJ2	I			KR	
13	PF	26	Pytlík	F	DLCL, bude 2. Čtení	DLCL	29.08.01	20	17.9	1.9	II			EX	07.09.02
14	JK	47	Jankovská	F	B-velkobunéčný	DLCL	17.10.01	0	8.6	2.1	III	xx.04.02		KR	
15	JJ	67	Jankovská	M	DLBCL	DLCL	07.02.02	0	8.4	5.6	I			KR	
16	HJ	73	Jankovská	F	DLCL	DLCL	15.02.02	0	6J5	1.4	"	27.05.02	14.05.02	KR	
17	W	51	Jankovská	Ž	FCUDLCL	DLCL	20.02.02	0	8.3	1.3				EX	18.05.02
22	FŔ	69	Jankovská	M	DLCL	DLCL	07.06.02	0	67	NA	i	22.08.03	20.09.03	PR	
23	OH	72	Jankovská	M	difusní velkobunéčný B lymfom	DLCL	25.10.02	1	8.2	23	m			KR	
24	JK	30	Jankovská	M	DLBCL	DLCL	31.01.03	1	13.8	1.8	n	plánovaná		KR	
25	EH	72	Jankovská	F	DLBCL	DLCL	06.08.03		9.2	1.7	m			KR	
26	MM	50	Jankovská	F	DLBCL	DLCL	05.09.03	1	7.3	1.7	m			KR	
32	MS	75	Kubáčková	F	DLCL	DLCL	03.03.99	1	8.8	1.5	i	20.07.99	16.08.99	KR	
33	RS	31	Kubáčková	M	DLCL	DLCL	17.08.00	1	8.8	ZO	i	27.02.01	26.03.01	KR	
34	JS	60	Kubáčková	M		DLCL	Motol			2.7	m			KR	
35	ZB	56	Kubáčková	M	DLCL	DLCL	19.02.01	1	9.8	2A	n			KR	
36	JN	37	Kubáčková	M	DLCL	DLCL	13.03.01	1	16.1	20	i	24.10.01	21.11.01	KR	
37	AS	58	Kubáčková	F	difúzni B-lymfom, H G	DLCL	15.06.01	0	5.7	32	li	26.11.01	21.12.01	KR	
39	M H	56	Kubáčková	F		DLCL		1	11.4	ZO	i			EX	08.01.05
40	KÉ	83	Hra botová	F	difusní velkobunéčný B lymfom	DLCL	01.07.02	2	32.0	6.0	i	28.01.03	10.02.03	EX	27.6.2003
41	LČ	53	Hra botová	M		DLCL	Motol	0	52	1.9	i	21.1.2003	20.2.2003	KR	
48	M F	52	Kubáčková	DLBCL		DLCL	07.02.03	0	5.9	Z3	i			PR	
49	M Č	31	Kubáčková	F	DLBCL	DLCL		3	10.5	1.25	IV			KR	
50	VP		Papajík	M	DLBCL	DLCL	28.04.99	1	8.4	Z2	n			KR	15.11.02
51	AP		Papajík	M	DLBCL	DLCL	05.05.99	2	23,3	4.1	IV			EX	14.05.00
i-i-	—							\     ZZI zz						.„	
Tomáš Pavlík
Biostatistika
Proč je popis a vizualizace dat třeba?
Chceme zpřehlednit pozorovaná data - ve vhodných grafech.
* Chceme zachytit případné odlehlé a extrémní body nebo nečekané, nelogické hodnoty.
■* Chceme popsat naměřené hodnoty.
- Chceme vypočítat vhodné sumární statistiky, které budou pozorovaná data dále zastupovat při prezentaci, srovnáních apod. Chceme pozorovanou informaci „uložit" v zástupných statistikách, použití všech pozorovaných dat je nepraktické až nemožné.
Tomáš Pavlík
Biostatistika
Jaké jsou výstupy popisné analýzy?
- Obecně neformální, jde o shrnutí pozorovaného a ne o formální testování. -Vztahují se pouze na pozorovaná data (respektive na experimentální vzorek). Mohou sloužit jako podklad pro stanovení hypotéz.
Tomáš Pavlík
Biostatistika
Co chceme u dat popsat?
i-; Kvalitativní data - četnosti (absolutní i relativní) jednotlivých kategorií. iA Kvantitativní data - těžiště a rozsah pozorovaných hodnot.
Popis „těžiště" - míry polohy
,; Mějme pozorované hodnoty: x19x29...9xn
* Seřaďme je podle velikosti:     x(l) ^x(2) <...<x
Minimum a maximum - nejmenší a největší ^min - *(i)
pozorovaná hodnota nám dávají obraz o tom, kde Jmax = x{n) se na ose x pohybujeme. * Průměr- charakterizuje hodnotu, kolem které
'; Medián - je to prostřední pozorovaná hodnota. Dělí pozorované hodnoty na dvě půlky, půlka hodnot je menší a půlka hodnot je větší než medián.
1 "
kolísají ostatní pozorované hodnoty. Je to fyzikální    x = - /, xi
n i=l
obraz těžiště stejně hmotných bodů ose x.
X - *((„+i)/2) pro n liché
%=2(x(n/2)+x(nn+i))  pro n sudé
mu
Tomáš Pavlík      irK        ^ Biostatistika
Výpočet mediánu
Příklad 1:N = 8
(n + 1) / 2 pozice je „mezi" 4. a 5. prvkem po seřazení - uděláme průměr Data = 61743278 Seřazená data = 1 2 3(4 6j7 7 8 Medián = (4 + 6)/2 = 5
Příklad 2: N = 9
(n + 1) / 2 pozice znamená 5. pozice po seřazení Data = 3,0 4,2 1,1 2,5 2,2 3,8 5,6 2,7 1,7 Seřazená data = 1,1 1,7 2,2 2,5(2,7)3,0 3,8 4,2 5,6 Medián = 2,7
Tomáš Pavlík      4bjT ** 1M1 * Biostatistika
Průměr vs. medián
^Máme-li symetrická data, je výsledek výpočtu průměru i mediánu podobný. * Vše je OK.
3
OJ
>u
O Q_
Systolický tlak u mužů
100
120
140 160
Tlak (mmHg)
180
200
Tomáš Pavlík
IBA
Prumer = 149,9 mmHg
i        ^   Medián = 150,0 mmHg
Biostatistika
Průměr vs. medián
Nemáme-li symetrická data, je výsledek výpočtu průměru i mediánu rozdílný Není to OK. Výpočet průměru je v tuto chvíli nevhodný!
Příklad 1: známkování ve škole
* Student A: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 5
Průměr = 1,35 Medián = 1,00
• Student B: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2 Průměr =1,13 Medián = 1,00
Příklad 2: plat v ČR v roce 2003
Tomáš Pavlík
Medián: 12 400
Průměr: 18 697 Kč
Medián BÄ 1WJ
Průměr
Biostatistika
Pojem kvantil
'; Ve statistice je kvantil definován pomocí kvantilové funkce, což je inverzní funkce k distribuční funkci - budeme se jí věnovat příště.
* Laicky lze kvantil definovat jako číslo na reálné ose, které rozděluje pozorovaná data na dvě části: p% kvantil rozděluje data na p % hodnot a (100-p) % hodnot.
xp/ioo ~ x(k)    Pro neceločíselné, pak k = np/100
Xp/ioo = \ (X(k)    X(k+i))     pro np/100 celočíselné, pak/: = np/100;
Tomáš Pavlík
Biostatistika
Kvantil - příklad
Máme soubor 20 osob, u nichž měříme výšku. Chceme zjistit 80% kvantil souboru pozorovaných dat.
n = 20 Průměr těchto dvou = 80% kvantil
16/20 = 80% hodnot 4 / 20 = 20 % hodnot
,--ps~^—n
110 cm 140 cm 170 cm 200 cm 230 cm
Výška v cm
■> R
Tomáš Pavlík
Biostatistika
Významné kvantily
Minimum = 0% kvantil Dolní kvartil = 25% kvantil Medián = 50% kvantil
Horní kvartil = 75% kvantil Maximum = 100% kvantil
Medián je významná charakteristika vypovídající o „těžišti" pozorovaných hodnot. Není to ale jenom popisná charakteristika, na mediánu (a kvantilech obecně) je založeno mnoho neparametrických statistických metod.
Tomáš Pavlík
Biostatistika
Popis „rozsahu" - míry variability
Nejjednodušší charakteristikou variability pozorovaných dat je rozsah hodnot (rozpětí) = maximum - minimum. Je snadno ovlivnitelný netypickými (odlehlými) hodnotami.
Kvantilové rozpětí je definováno p% kvantilem a (100-p)% kvantilem a je méně ovlivněno odlehlými hodnotami. Speciálním případem je kvartilové rozpětí, které pokrývá 50 % pozorovaných hodnot. * Výběrový rozptyl - průměrný čtverec odchylky od průměru. Velmi ovlivnitelný odlehlými hodnotami. ŕ N
'; Výběrová směrodatná odchylka - odmocnina z rozptylu. Výhodou směrodatné odchylky je, že má stejné jednotky jako pozorovaná data.
Tomáš Pavlík
1MB Biostatistika
Popis „rozsahu" - míry variability
Příklad čtverců odchylek od průměru pro n = 3.
Rozptyl je možno značně ovlivnit odlehlými pozorováními.
0,269
x1
T
0,547   0,638 0,733
x
Tomáš Pavlík
IBA
x-
Biostatistika
X,
4. Kvalitativní data
Vizualizace a popis nominálních dat
Vizualizace sloupcovým / koláčovým grafem - absolutní i relativní četnost. Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce. * Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. K popisu může sloužit i tzv. modus - nejčetnější pozorovaná hodnota.
Frekvenční tabulka Sloupcový graf Koláčový graf
Proměnná n % ^
Kategorie 1 Kategorie 2 Kategorie 3 Kategorie 4 Celkem
Vizualizace a popis ordinálních dat
Vizualizace sloupcovým / koláčovým grafem - absolutní i relativní četnost. Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce. * Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. K popisu může sloužit i tzv. modus, případně medián (pouze dává-li to smysl).
Frekvenční tabulka Sloupcový graf Koláčový graf
Proměnná n % ^
Kategorie 1 Kategorie 2 Kategorie 3 Kategorie 4 Celkem
Co je na tom obrázku zavádějící?
] Appendicectomy ] Inspection only
Unchanged (1)
Improved (2) Pain scare
Pain 1ree (3)
A significantly higher proportion of patients in the appendicectomy group than in the inspection-only group had an improvement in pain (14 of 18 versus seven of 22; P = 0-005). The relative risk was 2-4 (95 per cent c.i. 1-3 to 4-0), indicating that patients who had an appendicec-
Fig. 2 Distribution of pain scores in patients whose appendix was removed during laparoscopy and those in whom it was left in situ
Tomáš Pavlík
IB A
Biostatistika
Co je na tom obrázku zavádějící?
] Appendicectomy ] Inspection only
Unchanged (1)
Improved (2) Pain scare
Pain 1ree (3)
Fig. 2 Distribution of pain scores in patients whose appendix was removed during laparoscopy and those in whom it was left in situ
A significantly higher proportion of patients in the appendicectomy group than in the inspection-only group had an improvement in pain (14 of 18 versus seven of 22; P = 0-005). The relative risk was 2-4 (95 per cent c.i. 1-3 to 4-0), indicating that patients who had an appendicec-
Ve chvíli, kdy obě skupiny mají různý počet pacientů, je srovnání absolutních čísel nekorektní.
Tomáš Pavlík
Biostatistika
Frekvenční tabulka pro kvantitativní data
Primární data
Frekvenční tabulka
1,21 1,48 1,56 0,31 1,21 1,33 0,33 0,21 1,32 1,11
n = 100
c/| - šířka intervalu ■  A7j - absolutní četnost v daném intervalu n./n- relativní četnost v daném intervalu
/-tý interval			n Jn	%
<0 - 0,4)	0,4	20	0,2	20
<0,4-0,8)	0,4	10	0,1	10
<0,8-l,2)	0,4	40	0,4	40
<1,2-1,4)	0,2	20	0,2	20
<1,4-1,6)	0,2	10	0,1	10
Celkem	1,6	100	1	100
Tomáš Pavlík
Biostatistika
Histogram
Histogram je grafický nástroj pro vizualizaci kvantitativních dat (poměrových, intervalových, spojitých i diskrétních). ; Každá oblast histogramu odráží absolutní nebo relativní četnost na jednotku
sledované proměnné na ose x.
* Histogram není sloupcový graf!
Histogram pro relativní četnost:
* Histogram pro absolutní četnost:
Tomáš Pavlík
Biostatistika
Sumarizace kvantitativních dat histogramem
■ Pozorovaná data: 1,21; 1,48; 1,56; 0,31; 1,21; 1,33; 0,33; 0,21; 1,32......n
,; Setřídění dat podle velikosti
1 Vytvoření intervalů na ose x
,; Výpočet relativních nebo absolutních četností f(i)
•^Vykreslení histogramu
mu
Tomáš Pavlík      JUL- | IUI | Biostatistika I BA 'v*J!í/
Histogram - příklad
Histogram - příklad
* Jaký obsah má plocha histogramu pro relativní četnost?
- A proč?
Histogram pro relativní četnost
n
1.00 1.00
0,4        0,8        1,2        1,4 1,6
Tomáš Pavlík
mu
IBA
(Ml.
Biostatistika
Histogram - příklad
Histogram pro relativní četnost
* Jaký obsah má plocha histogramu pro relativní četnost?
- A proč? Histogram lze použít pro odhad hustoty pravděpodobnosti. Je to tedy grafická vizualizace rozložení pravděpodobnosti kvantitativních (zejména spojitých) dat.
n
1.00 1.00
0,4
0,8
1,2
1,4
1,6
Tomáš Pavlík
IBA
ML
Biostatistika
Který histogram je správný a proč?
Chceme pomocí histogramu vykreslit počty zraněných při automobilových haváriích na předměstí Londýna v roce 1985. Data máme zadána jako počty v daných věkových kategoriích.
30 -
20
10 -
o -i
10 20
Age (years)
30 40 Age (years)
—r-
50
BO
—f 70
Tomáš Pavlík
Biostatistika
Histogram ve skutečnosti
A Histogram je ve skutečnosti zřídka vyjadřován pomocí výrazů:
n I n n
m=m=£
a, a,
Daleko častěji se jedná o prosté absolutní nebo relativní počty pozorování v daném intervalu (výhodné kvůli snadné čitelnosti a interpretaci):
f(i) = niln     f(í) = ni
Důležité však je, aby intervaly měly stejnou šířku, aby výsledky byly srovnatelné!
Tomáš Pavlík
Biostatistika
Počet intervalů určuje kvalitu výstupu
Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěná.
rv/d
3 intervaly
rii/d, 20 n
16 -12 -
8 -
4
5 intervalů
o
8.0
4.0 4.5
2.5
1.0
rii/d, 20 n
16 -12 -
10 intervalů
8 - 6 6 4 - 2
1 1 =F=I
1-3        4-6 7-10
=1 0
1-2   3-4   5-67-89- 10 1234567891
* BA \í,„a ^
Krabicový graf - box plot
<- Maximum = 100% kvantil
<- Horní kvartil = 75% kvantil
<- Medián = 50% kvantil
<- Dolní kvartil = 25% kvantil
<- Minimum = 0% kvantil
Tomáš Pavlík
Biostatistika
Co je extrémní (odlehlá) hodnota?
* Jednoduše řečeno se jedná o netypické pozorování, které nezapadá do pravděpodobnostního chování souboru dat.
* Definujeme ji jako hodnotu, která leží několikanásobek (3, 5, 7) směrodatné odchylky, respektive kvartilového rozpětí, od průměru, respektive mediánu.
- Definice je ale vágní, závisí na naší znalosti dané problematiky, které hodnoty jsou či nejsou možné!
Tomáš Pavlík
Biostatistika
Vliv odlehlé hodnoty na popisné statistiky
Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů
(hodnoty v mmol/l)
03
■M
03 "O
*03
C
>
*03 i—
Q.
6.3 7.6 6.3
9.1
4.2 5.8 5.65
6.3
8.6 6
6.2
6.7 4.6 6.25
6.3
4.04 6.3
9.1
6.3
5.2
6.4 5.75
>
Průměrná hodnota 6,32
Směrodatná odchylka 1,34
Průměrná hodnota ?
Směrodatná odchylka
Která charakteristika se zvýší výrazněji? Průměr nebo směrodatná odchylka?
J
^ BHS/j.
Tomáš Pavlík
IBA
Biostatistika
r
<
6.3	
7.6	
6.3	
9.1	
4.2	
5.8	
5.65	
6.3	
8.6	fD
	i/i
6	TD
	—i
6.2	áv
6.7	
	QJ>
4.6	
	Q_
6.25	OJ
	r+
6.3	OJ
4.04	
6.3	
9.1	
6.3	
5.2	
64	
5.75	
Vliv odlehlé hodnoty na popisné statistiky
Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů
(hodnoty v mmol/l)
03
■M
03 "O
*03
C
>
*03 i—
Q.
6.3 7.6 6.3
9.1
4.2 5.8 5.65
6.3
8.6 6
6.2
6.7 4.6 6.25
6.3
4.04 6.3
9.1
6.3
5.2
6.4 5.75
r
>
Průměrná hodnota 6,32
Směrodatná odchylka 1,34
Průměrná hodnota 8,94
Směrodatná odchylka 12,37
<
J
6.3 7.6 6.3
9.1
4.2 5.8 5.65
6.3
8.6 6
6.2
6.7 4.6 6.25
6.3
4.04 6.3
9.1 6.3
5.2 64
5.75
fD m
-a
—í
<
QJ>
Q_
OJ r+ OJ
Tomáš Pavlík
IBA
Biostatistika
Identifikace odlehlých hodnot
■ Na menších souborech stačí vizualizace.
' Na větších datových souborech nelze bez vizualizace a popisných statistik.
- Grafická identifikace: pomocí histogramu a box plotu.
* Identifikace pomocí popisných statistik: srovnání mediánu a průměru.
Tomáš Pavlík
Biostatistika
Identifikace odlehlých hodnot - příklad
Histogram
Histogram
03
■M
03 "O
*03
c >
*03 i—
Q.
6.3 7.6 6.3
9.1
4.2 5.8 5.65
6.3
8.6 6
6.2
6.7 4.6 6.25
6.3
4.04 6.3
9.1
6.3
5.2
6.4 5.75
D 10 20 30 10 50 60 70
Box plot
Box plot
6.3 7.6 6.3
9.1
4.2 5.8 5.65
6.3
8.6 6
6.2
6.7 4.6 6.25
6.3 4.04
6.3
9.1 6.3
5.2 64
5.75
fD m
-a
—í
<
£D>
Q_
OJ r+ OJ
Tomáš Pavlík
/BA W
imi:
Biostatistika
Identifikace odlehlých hodnot - příklad
Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů
(hodnoty v mmol/l)
6.3 7.6 6.3
9.1
4.2 5.8 5.65
6.3
8.6 6
6.2
6.7 4.6 6.25
6.3
4.04 6.3
9.1
6.3
5.2
6.4 5.75
r
>
Medián 6,30
Průměrná hodnota 6,32
Směrodatná odchylka 1,34
Medián 6,30
Průměrná hodnota 8,94
Směrodatná odchylka 12,37
J
Tomáš Pavlík
IBA
Biostatistika
6.3
7.6 6.3
9.1
4.2 5.8 5.65
6.3
8.6 6
6.2
6.7 4.6 6.25
6.3
4.04 6.3
9.1 6.3
5.2 64
5.75
Reklama na příští týden
Středem zájmu statistiky a biostatistiky je tzv. náhodná veličina.
Poděkování...
Rozvoj studijního oboru „Matematická biologie'' PřF MU Brno je finančně podporován prostředky projektu ESF č. CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia Matematické biologie" a státním rozpočtem České republiky
18f k BH pnSt  t^í čími
^^^^fc I    soclalnL      ^^^^^^^ MINISTERSTVO ŠKOLSTVÍ. OP Vzdělávání 'J-^iJr^
^0 M   fondvCR EVROPSKÁ UNIE     mládeže a tělovýchovy     pro konkurenceschopnost        4ííA p*"
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
Tomáš Pavlík
Biostatistika