3 Základní číselné charakteristiky - OSNOVA • Minulá hodina —y bodové/intervalové rozložení četností. — seznámení s daty — výhody: široké množství informací, globální pohled na data — nevýhody: přemíra informací, horší interpretovatelnost, ztížené srovnávání dvou datasetů — Karolína a Jana —y výzkum —y dvě nemocnice —y dva datasety o vzdělání matky a porodní hmotnosti —y dvě variační řady —y porovnávání výsledků ... nepřehledné a neefektivní • —y vznik číselných charakteristik — elegantní a jednoduché vystihnutí charakteristických rysů znaku zpravidla pomocí jednoho čísla, snadno spočítatelné i interpretovatelné • Různá data —y různé charakteristiky: • Typy dat: — Nomiální, — Ordinální, — Intervalová, • Typy charakteristik: — polohy — variability — závislosti — + nesymetrie (intervalové znaky) Nominální znaky • Varianty znaku jsou neporovnatelné: • Příklady: — vzdělání: ZS, SS, SSm, VS — barva očí: modrá, zelená, hnědá — pohlaví: m, f • Charakteristika polohy — modus ... nej četnější varianta znaku • Charakteristika závislosti — Cramérův koeficient tq - těsnost závislosti u nominálních znaků — rce (0;1). 1 Ordinální znaky • hodnoty můžeme porovnávat, ale nemůžeme stanovit, jak velký je mezi nimi rozdíl. • Příklady: — počet starších sourozenců — pořadí 10 pacientů podle závažnosti onemocnění • Charakteristika polohy — a-kvantil ... xa * medián * dolní kvartil x0.25 * horní kvartil ^0.75 — na = cele cislo c —> xa =--- — na = necelé číslo —>■ zaokrouhlíme nahoru na nejbližší celé číslo c —> xa = X(c) • Charakteristika variability: — (inter) kvartilové rozpětí — IQR = x0,75 - Xo.25 — v intervalu leží 50 % dat. • Charakteristika závislosti: — dva znaky, aspoň jeden je ordinální: X - počet starších sourozenců (ord.), Y - porodní hmotnost novorozence (int.) — Spearmanův koeficient pořadové korelace -rsG(-l;l>. * r s > 0 . .. přímá závislost * rs < 0 ... nepřímá závislost * r s = 0 ... nezávislost 2 • Krabicový diagram Intervalové znaky • Hodnoty znaků můžeme nejen vzájemně porovnat, ale můžeme též říci, o kolik se liší: • Příklady: — porodní hmotnost novorozence — největší šířka/délka mozkovny • Charakteristika polohy: — aritmetický průměr: m = ^ Y^í=i xí * ovlivněn vybočujícími hodnotami —y vhodný máme-li symetrická data — medián • Charakteristika variability: 1. rozptyl: — s2 = iĽľ=ite - mf — průměrná kvadratická odchylka hodnot od jejich aritmetického průměru. — s2 > 0 — ovlivněn vybočujícími hodnotami —y vhodný na symetrická data — rozptyl s2 —y jednotky A 2. 2. směrodatná odchylka — s = \f^2 — převádí rozptyl do původních jednotek • Charakteristika nesymetrie: 1. šikmost «3 — «3 = 0—^ symetrické — «3 < 0 —y záporně zešikmené—^ prodloužený levý konec — «3 > 0 —y kladně zešikmené —y prodloužený pravý konec 3 + + Negative Skew Positive Skew 2. špičatost «4 — «4 = 0 —> normální — «4 > 0 —> strmé — a4 < 0 —> ploché (Říp) • Charakteristika těsnosti závislosti: — dva intervalové znaky — Pearsonův koeficient korelace 12 n Z-/i=l sl S2 * ri2 e (-1; 1) * ri2 > 0 ... přímá závislost * ri2 < 0 ... nepřímá závislost * ri2 = 0 ... nezávislost 4