logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat 2. Základní typy dat logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Anotace —Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod – od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. —Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací – histogramů. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Typy proměnných (dat) Binární = dummy data Proměnná, která může nabývat pouze dvou hodnot. Bývá definovaná odpovědí na otázku (např. TRUE × FALSE, 1 × 0). Nominální = kategoriální data Proměnná, která může nabývat počtu hodnot (n ∊ ℕ), pro které neexistuje přirozené pořadí (např. barvy vzorků). Ordinální data Nominální proměnná, pro kterou ale existuje jasné pořadí kategorií (např. velikost oděvů S, M, L, XL). Kardinální data Ordinální proměnná, u které lze určit rozdíl mezi kategoriemi. Ty jsou stejně vzdálené (např. počet dětí v rodině). Intervalová data Spojitá proměnná, u které lze určit rozdíl mezi kategoriemi – často jde o vzdálenost od 0 (např. teplota ve °C, čas). Poměrová data Intervalová proměnná, u které má smysl určovat podíly jednotlivých kategorií (např. hmotnost, vzdálenost). logo-IBA Spojitá data Diskrétní data Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? – různé typy dat znamenají různou informaci Kolikrát ? Podíl hodnot větší/menší než specifikovaná hodnota ? O kolik ? Větší, menší ? Rovná se ? Procenta odvozené hodnoty Data poměrová Data intervalová Data kardinální Data ordinální Data nominální Data binární Kategoriální otázky Otázky „Ano/Ne“ Samotná znalost typu dat ale na dosažení informace nestačí… logo-IBA Spojitá data Diskrétní data Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? – různé typy dat znamenají různou informaci Data poměrová Data intervalová Data kardinální Data ordinální Data nominální Data binární Samotná znalost typu dat ale na dosažení informace nestačí… PRŮMĚR MEDIÁN MODUS X Y = f logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? – základní popisné statistiky Průměr: Rozptyl (výběrový): p-tý kvantil Medián: Data: Směrodatná odchylka (výběrová): Modus: logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina JAK vznikají informace ? - opakovaná měření informují rozložením hodnot KOLIK se naměřilo CO se naměřilo Diskrétní data Spojitá data y x y x X: měřený znak Y: frekvence - absolutní / relativní logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina X: Průměrný počet výrobků v prodejně Y: Odhad prostoru průměrně nabízeného k vystavení výrobku X: 1,2 : (1,15 - 1,24) Y: 1,8 : (1,75 - 1,84) X/Y = 0,667 : 1,15 1,84 1,24 1,75 ( ) Odvozená data: Pozor na odvozené indexy Znak X: Hmotnost Znak Y: Plocha Příklad I: Příklad II: + / - 3,8 % + / - 2,5 % + / - 6,2 % průměr (min - max) : - Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina N: 100 dětí (hemofiliků) x: znak: počet krvácivých epizod za měsíc n(x) – absolutní četnost x N(x) – kumulativní četnost hodnot nepřevyšujících x; N(x) = S n(t) p(x) – relativní četnost; p(x) = n(x) / n F(x) – kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu Primární data Frekvenční sumarizace x n(x) N(x) p(x) F(x) 0 20 20 0,2 0,2 1 10 30 0,1 0,3 2 30 60 0,3 0,6 3 40 100 0,4 1,0 0 0 1 2 1 1 3 1 1 2 . . . . . . n = 100 t Ł x DISKRÉTNÍ DATA logo-IBA n(x) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? Grafické výstupy z frekvenční tabulky x p(x) x N(x) x F(x) x 3 2 1 0 0 1 2 3 0 1 2 3 0 1 2 3 10 - 20 - 30 - 20 - 40 - 60 - 0,1 - 0,2 - 0,3 - 0,2 - 0,4 - 0,6 - logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu —Příklad: x: koncentrace látky v krvi n = 100 pacientů Primární data Frekvenční sumarizace n = 100 opakovaných měření (100 pacientů) x: koncentrace sledované látky v krvi (20 – 100 jednotek) d(l) – šířka intervalu n(l) – absolutní četnost n(l) / n – intervalová relativní četnost N(x’’) – intervalová kumulativní četnost do horní hranice X’’ F(x’’) – intervalová relativní kumulativní četnost do horní hranice X’’ interv d(l) n(l) n(l)/n N(x’’) F(x’’) <20, 40) 20 20 0,2 20 0,2 <40, 60) 20 10 0,1 30 0,3 <60, 80) 20 40 0,4 70 0,7 <80, 100) 20 30 0,3 100 1,0 1,21 1,48 1,56 0,31 1,21 1,33 0,33 . . . n = 100 SPOJITÁ DATA logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? - frekvenční sumarizace spojitých dat x x F(x) Intervalová relativní kumulativní četnost Histogram Výběrová distribuční funkce f(x)= Intervalová hustota četnosti 20 40 60 80 100 Plocha: n(l) / n n(l) / n d(l) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Počet zvolených tříd a velikost souboru určují kvalitu výstupu k = 10 tříd k = 5 tříd 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 1 2 3 4 5 k = 20 tříd 1,0 2,0 3,0 4,0 5,0 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Histogram vyjadřuje tvar výběrového rozložení x x x x x f(x) f(x) f(x) f(x) f(x) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Příklad: věk účastníků vážných dopravních nehod Věk (roky) Věk (roky) Správný histogram ? Správný histogram ? Věk 0 - 4 5 - 9 10 - 15 16 - 19 20 - 24 25 - 59 > 60 f 28 46 58 20 114 316 103 Plocha histogramu odpovídá počtu případů (pokud jde o pravděpodobnost, je plocha 1). Kategorie na ose x nemusí být ekvidistantní. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Pojem ROZLOŽENÍ - příklad spojitých dat j(x) 0 F(x) Rozložení x Distribuční funkce 0 Je - li dána distribuční funkce, je dáno rozložení x logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Výběrové rozložení hodnot lze modelově popsat a odhadnout tak pravděpodobnost výskytu X f(x) x f(x) x f(x) x j(x) j(x) j(x) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Distribuční funkce jako užitečný nástroj pro práci s rozložením x j(x) 1,00 F(x) F(x) … distribuční funkce x1 x2 Známe-li distribuční funkci, pak známe rozložení sledované veličiny. Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří. Plocha = relativní četnost x j(x) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? - frekvenční sumarizace spojitých dat —Grafické výstupy z frekvenční tabulky – spojitá data f(x) x F(x) x KVANTIL 20 40 60 80 100 Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé jednotlivé hodnoty X0.1; X0.9; X0.5; Xq logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním? X0,95 x j(x) 0,95 F(x) Hledáme: P(X > xq) = 0,95 = q xq = (x0,95) = ? q = 0,95 … pravděpodobnost Jakékoliv číslo na ose x je kvantilem* 5 % F (xq ) = q Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován * za předpokladu omezeného definičního oboru distribuční funkce