1 5, Modelová rozložení VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A Rozložení hodnot jako model Příklad - Normální rozložení N (ji,a) Standardizovaná forma N (0,1) Tabelovaná podoba VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Parametry charakterizující normální rozložení a jejich význam E (x) ~ x ~ LI D (x) ~ s2 ~ CT2 a) cp(x) průměr medián c) a ~ s směrodatná odchylka s = V s2 Pravidlo ± 3s d) VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Interpretace parametru normálního rozložení i Parametr středu ■ p arametr šířky n n E(*,-*)2 Z D(x) = ^1 - i=l 2 x - n -i 2 1 = 1 X n n-\ n-\ - s Směrodatná odch. (S.D.) VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A Rozptyl není univerzálním ukazatelem variability s2 = _ S(X|-x)2 n-1 i ■—■—■—■_____D S. _' neúměrně zvýší s: VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Interpretace parametru normálního rozložení Variační koeficient c (koeficient variance) Př.: 2 soubory dat - koncentrace Zn v rostlinné tkáni VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Normální rozložení jako model /. Použitelnost modelu A) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,4; 3.8 n = 7 opakování medián = 1,8 průměr = - n 7. JTX;=-ÝJx1= -(1,2 + 1,4 + 1,6+ 1,8+ 2,0+ 2,4+ 3,8) = -14,2 = 2,03 7=1 ' 7 = 1 I I rozptyl (s2) = -^ = -^ = 0,766 «-1 srn. odchylka (s) = Vs =0,766 =0,875 o Je předpoklad normálního rozložení oprávněný ? Jaký předpokládáte možný rozsah hodnot tohoto znaku ? O VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Normální rozložení jako model 8 /. Použitelnost modelu B) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,2; 2,4; 3,8; 8,9 n = 9 opakování medián = 2 O v prumer = -Yx1=-Yx1= -(l,2 +1,4+ 1,6+ 1,8+ 2,0+ 2,2+ 2,4+ 3,8+ 8,9) = -25,3 = 2,81 «tř 9£r 9 9 J to-*)2 Žfe-2,81)2 rozptyl (s2)= ^ =-^ =5,79 n-\ 8 srn. odchylka (s) = As1 = ^5,79 = 2,269 Jak hodnotíte model u těchto dat ? ■ VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A Stochastické rozložení jako model Předpoklad: Znak x je rozložen podle daného modelu y 2» Znak x je naměřen o n hodnotách s modelovými parametry: xas ih ^ Platnost modelu ? o Znak x je převeden na formu odpovídající tabulkovému standardu: Využije se tabelovane (modelové) distribuční funkce pro testy o rozložení hodnot x VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A Normální rozložení jako model -příklad 10 Tabulky distribuční funkce • Data z průzkumu jsou publikována jako: Kosti prehistorického zvířete: n = 2000 průměrná délka = 60 cm srn. odchylka (s) = 10 cm y Předpokládáme, že je oprávněný model normálního rozložení ^ Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost z = X - jU 9 m 9 66 cm: P (x > 66) ? p(x>66)=i-P(x<66) a platí, že p\x 66) = 1 -P(x < 66) = 1 -P(x^fn < 66~60) = 1 -F(0,6) = 0,27425 s 10 Kolik kostí mělo zřejmě délku větší než 66 cm ? ^>66)*« = 0,27425*2000 = 548 Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ? P(60 100) se limitně blíží k normálnímu rozložení. Pearsonovo Stupně volnosti -uvažuje velikost vzorku Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat. Fisher-Snedecorovo Dvojí stupně volnosti uvažuje velikost dvou vzorků Používá se k testování hodnot průměrů - F test pro porovnání dvou výběrových rozptylů; F test, ANOVA atd. VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A Log-normální rozložení jako častý model reálných znaků cp(x) Medián Průměr U asymetrických rozložení je medián velmi vhodným alternativním ukazatelem středu Medián - frekvenční střed • • • • • • Prumer - teziste osy x VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Log-normální rozložení lze jednoduše transformovat Y = Ln [X] Medián Průměr x ln(x) Medián = Průměr / EXP (Y) = Geometrický průměr X VÝUKA: Biostatistika - základní kurz í=i n Y ± Standardní chyba CENTRUM BIOSTATISTIKY A ANALÝZ C8A Transformace dat - legitimní úprava rozložení W Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu 16 Logaritmická transformace Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění proporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient variance, ačkoli mají různý průměr. Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale také vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logaritmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = In (X+1). Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometrický průměr původních dat. VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A / Transformace dat - legitimní úprava rozložení Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu Odmocninová transformace Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných pokusech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci: 7 = VX "©bo Y = Vx +1 nebo 7=Vx+V*+l Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecně jestliže s2x = k (výběrový průměr). VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Transformace dat - legitimní úprava rozložení Arcsin transformace Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi n hodnocenými jedinci - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze souborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace však není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je: . /— / = arcsm ^ p - tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový počet jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit transformaci: 2 x arcsm n +1 + arcsm x + 1 n + \ VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ 21 Testy o rozložení, grafický průzkum rozložení Normal probability plot -200 200 600 1000 1400 1800 2200 Observed Value 2600 Histogram 16 14 12 10 o 8 <=3 (3.5;4] (4.5;5] (5.5;6] (6.5;7] (3;3.5] (4;4.5] (5;5.5] (6;6.5] >7 Categorized variable 60 = 40 > ■a > 5 20 o Quantile - Quantile plot *•• -2-10 1 Theoretical Quantile 11 10 9 8 7 6 5 Multiple BW plots I-----------------1 " i Robust Parametric Mixed m Testy o rozložení: Kolmogorov-Smirnov test, Shapiro-Wilks test, %2 test VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ 20 6, Sumární statistika VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A Sumární statistika I ZnakX Střed znaku X - Medián - prumer - Min Max - kvantily(percentily) -SD, SE - interval spolehlivosti - dolní kvartil - mezikvartilová odchylka VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A Sumární statistika II Posuďte správnost následujících výstupů (X: výška rostlin v cm): x = 20 s = 5 M = 22 Rozsah = 34 x = 200 Min = 90 Max = 330 25% kvantil: 15 Medián: 16 75% kvantil: 48 x = 20 s = 12 M = 8 Různá zobrazení v BW Plotech t + T Varianta 1 Varianta 2 VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A Sumární statistika III Výsledkem průzkumu 23 lokalit s cílem zjistit rozsah zamoření půdy těžkými kovy byli mimo jiné i dvě proměnné udávající koncentraci Zn a Pb v půdě. Následující tabulka uvádí základní statistické parametry těchto proměnných. a) Vysvětlete význam jednotlivých parametrů. b) Porovnejte medián s průměrem a pro každou proměnnou udělejte závěr o symetričnosti jejího rozložení. c) Porovnejte hodnoty jednotlivých kvartilů a usuďte podle nich na symetričnost rozložení proměnných. d) Má zde variační koeficient stejný význam jako např. u proměnné, která je tvořena výsledky opakovaného stanovení jedné látky v jednom vzorku? Parametr Zn Pb Průměr 20,97 15,43 Medián 15,1 15,4 Modus 12,8 16 Geometrický průměr 18,17 14,66 Rozptyl 223,69 24,56 Směrodatná odchylka 14,96 4,56 Rozsah 54,4 20,6 Spodní kvartil 12,9 11,1 Horní kvartil 19,9 17,6 Mezikvartilová odchylka 7 6,5 Šikmost 2,55 0,54 Špičatost 5,82 0,3 Variační koeficient 71,32 32,12 VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Sumární statistika III 24 a) Testování normality proměnných z příkladu 6. (Zn, Pb) Kolgomorov-Smirnovovým testem poskytlo následující výsledky : Zn: Dmax = 0,326 Pb-.D^ =0,125 Porovnejte tato čísla s tabelovanými kritickými hodnotami a uveďte hladinu významnosti pro zamítnutí nulové hypotézy. b) Velmi užitečným způsobem zobrazování rozložení proměnných je následující graf (opět pro proměnné Zn a Pb). Porovnejte grafy se statistickým rozborem proměnných uvedeným v příkladě 6. Box-and-Whisker Plot 20 40 Zn 60 80 10 15 Pb Box-and-Whisker Plot 20 25 30 VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A Sumární statistika I Následuje přehled jednoduchých grafů, které umožňují posouzení normality proměnných. Porovnejte jejich vypovídací schopnost (opět pro proměnné Zn a Pb). Rootgram Rootgram c o > ■o 2.5 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 20 40 Zn 60 80 c O '■^ > d) ■o 10 15 20 25 30 Pb VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A Sumární statistika I Hanging Histobars. Hanging Histobars. o 0) 0) 0,32 0,12 -0,8 -0,28 -0,48 yf\ 0,2 d) ü 0,15 a> ^ 0,1 d) ' 0,05 0 -0,05 -0,1 -50 -10 10 30 Zn 50 70 90 -50 10 20 Pb 30 VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Sumární statistika I Normal Probability Plot Normal Probability Plot c (0 E O 99,9 99 ^r • 95 • • ^r • 80 50 • •• X 20 • 5 • • 1 0,1. 20 40 Zn 60 80 c 99,9 d) o J_ 99 0) Q. > 95 +■> (0 3 80 E 3 O 50 20 1 0,1 10 15 20 25 30 Pb VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ >» o c d) 3 CT d) 0,8 0,6 0,4 0,2 Sumární statistika I Frequency Histogram 20 40 60 80 Zn >» o c d) 3 CT d) 0,3 0,25 li 0,2 0,15 0,1 0,05 Frequency Histogram / M b*. 0 5 10 15 20 Pb 25 30 VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Typy proměnných Kvalitativní/kategorická - binární - ano/ne - nominální -A,B,C... několik kategorií - ordinální-1<2<3 ...několik kategorií a můžeme se ptát, která je vets i Kvantitativní - nespojitá - čísla, která však nemohou nabývat všech hodnot (např. počet porodů) - spojitá - teoreticky jsou možné všechny hodnoty (např. krevní tlak) VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Rada dat a její vlastnosti Jednotlivé hodnoty i—i—i—i—i ú (x) 0 skewness<0 kurtosis<0 kurtosis>0 VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Další parametry rozložení • Počet hodnot - důležitý ukazatel, znamená jak moc lze na data spoléhat • Střední chyba odhadu průměru - je založena na směrodatné odchylce rozložení a počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozložení, tím je náš odhad skutečného průměru přesnější. • Suma hodnot • Modus - nejčastější hodnota, vhodný např. při kategoriálních datech • Minimum, maximum • Rozsah hodnot • Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr) VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Distribuční funkce 39 Definice kvantilu dle distribuční funkce - Kvantil rozložení (X095) je číslo, jehož hodnota distribuční funkce je rovna pravděpodobnosti, pro kterou je kvantil definován (O(x) ... distribuční funkce), tj. pokud vezmeme nějaký bod rozložení a porovnáme jej s tímto bodem (kvantilem), máme 95% pravděpodobnost, že bude menší než hodnota kvantilu (X095). Pomocí distribuční funkce můžeme určit jaký podíl hodnot rozložení je menší než daná hodnota - využití při statistických testech x0,95 x VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A 7. Strategie sumarizace a zviditelnění dat - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Zviditelnění dat a jeho zásadní strategie Naměřená data A. Zviditelnění reálných dat - výběrové rozložení MIN / MAX Kvantily Komparace B. Sumarizace odhadem „zástupcu" primárních dat i l • l Odhad a jeho spolehlivost VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A Formální popis tvaru rozložení 42 MIN Medián MAX MIN Medián f(x) MAX MIN Medián MAX h —*— 2% Medián kvantil H Y% kvantil I—*------- 2% Medián kvantil H Y% kvantil H i—*— Z% Medián Y% kvantil kvantil Medián = 50 % kvantil = frekvenční střed MAX - MIN = rozsah (range) Modus = nejčastější hodnota VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ C8A Testy o rozložení, grafický průzkum rozložení Normal probability plot -200 200 600 1000 1400 1800 2200 Observed Value 2600 16 14 12 10 o 8 Histogram <=3 (3.5;4] (4.5;5] (5.5;6] (6.5;7] (3;3.5] (4;4.5] (5;5.5] (6;6.5] >7 Categorized variable 60 = 40 > ■a > 5 20 o Quantile - Quantile plot *•• -2-10 1 Theoretical Quantile 11 10 9 8 7 6 5 Multiple BW plots I-----------------1 " i Robust Parametric Mixed m Testy o rozložení: Kolmogorov-Smirnov test, Shapiro-Wilks test, c2 test VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Přehlednost a zviditelnění dat je základním stavebním kamenem analýz Možný problém The soaraway Post — the dally paper New Yorkers trust 1,900,000 !. 8 50.000 1,7«-. 500 l.WO.CCO 1,500.000- 500.000 , uiu vv ira.oůc ■-r r«'M/ri i \jaut» C7I.0QB ^i== _.. ♦r7 mi )•» i*« mi NEWS ^4 MUjM 'RM 2.000.000 3 a. 000.000 C The Post struggles to catch up NEWS POST J____L J_____L 1977 1978 1979 1980 1981 I IN THE BARREL.. Price per bbí. ol light crude, leaving Saudi Arabia on Jan. 1 VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CBA