IV.a Teoretické pozadí statistické analýzy IV.b Základní typy dat IV.c Modelová rozložení IV.d Popisná statistika dat IV.e Provádění odhadů IV.f Základy testování hypotéz IV. Statistická analýza dat - úvod Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace Rozložení dat IV.a Teoretické pozadí statistické analýzy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Základním principem statistiky je pravděpodobnost výskytu nějaké události. Prostřednictvím vzorkování se snažíme odhadnout skutečnou pravděpodobnost událostí.Klíčovou otázkou je velikost vzorku, čím větší vzorek, tím větší šance na projevení se skutečné pravděpodobnosti výskytu jevu. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek JAK vznikají informace ? základní pojmy Skutečnost Náhoda (vybere jednu z možností pokusu) Jev podmnožina všech možných výsledků pokusu/děje, o které lze říct, zda nastala nebo ne Pozorovatel Rozliší, co nastalo a) podle možností b) podle toho, jak potřebuje Jevové pole třída všech jevů, které jsme se rozhodli nebo jsme schopni sledovat Skutečnost + Jevové pole = Měřitelný prostor Experimentální jednotka - objekt, na kterém se provádí šetření Populace - soubor experimentálních jednotek Znak - vlastnost sledovaná na objektu Sledovaná veličina - číselná hodnota vyjadřující výsledek náhodného experimentu Znak se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním objektu ze základního souboru Výběr - výběrová populace - cílová populace Náhodný výběr Reprezentativnost Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0 0.1 0.2 0.3 0 1 2 3 4 5 6 JAK vznikají informace ? „Empirical approach“ „Classical approach“ Empirický postup možné jevy: čísla 1 – 6 n – počet hodů (opakování) f n n = 10 0 0.1 0.2 0.3 0 1 2 3 4 5 6 f n n = 50 0 0.1 0.2 0.3 0 1 2 3 4 5 6 f n n =  U složitých stochastických systémů se pravda získá až po odvedení značného množství experimentální práce: musíme dát systému šanci se projevit Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0 0.1 0.2 0.3 0 1 2 3 4 5 6 JAK vznikají informace ? Empirický postup možné jevy: čísla 1 – 6 n – počet hodů (opakování) f n n = 10 0 0.1 0.2 0.3 0 1 2 3 4 5 6 f n n = 50 0 0.1 0.2 0.3 0 1 2 3 4 5 6 f n n =  Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější) …. diskutabilní je ale ovšem míra zobecnění konkrétního experimentu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Empirický zákon velkých čísel Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty. Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A, která každému jevu A přiřadí nezáporné reálné číslo P(A) z intervalu 0 - 1. . A . B. C . D A P(A) 0 1 Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost P (A) = 1 …………………………… jev jistý P (A) = 0 …………………………… jev nemožný P (A  B) = P (A) . P (B/A) …..……závislé jevy P (A  B) = P (A) . P (B)…………. nezávislé jevy P (A / B) = P (A  B) / P (B) ……….podmíněná pravděpodobnost Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pravděpodobnost výskytu jevu – rozložení dat „vše je možné“: pouze jev s pravděpodobností 0 nikdy nenastane existuje pravděpodobnost výskytu jevů (nedeterministické závěry) 0 pravděpodobnost výskytu x1 počet chlapců v rodině s X dětmi 2 3 4 5 j(x) x výška postavy plocha = pravděpodobnost výskytu pravděpodobnost lze zkoumat retrospektivně i prospektivně Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Spojitá a kategoriální data Základní popisné statistiky Grafický popis dat IV.b Základní typy dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené.  Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací – histogramů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? – různé typy dat znamenají různou informaci Kolikrát ? Podíl hodnot větší/menší než specifikovaná hodnota ? O kolik ? Větší, menší ? Rovná se ? Procenta odvozené hodnoty Data poměrová Data intervalová Data ordinální Data nominální Spojitá data Diskrétní data Kategoriální otázky Otázky „Ano/Ne“ Samotná znalost typu dat ale na dosažení informace nestačí …………. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? – různé typy dat znamenají různou informaci PRŮMĚR MEDIÁN MODUS Data poměrová Data intervalová Data ordinální Data nominální Spojitá data Diskrétní data Statistika středu X Y = f Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek JAK vznikají informace ? - opakovaná měření informují rozložením hodnot KOLIK se naměřilo CO se naměřilo Diskrétní data Spojitá data A B C D E y x I II III IV V y x X: měřený znak Y: frekvence - absolutní / relativní Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek N: 100 dětí (hemofiliků) x: znak: počet krvácivých epizod za měsíc n(x) – absolutní četnost x N(x) – kumulativní četnost hodnot nepřevyšujících x; N(x) = S n(t) p(x) – relativní četnost; p(x) = n(x) / n F(x) – kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu Primární data Frekvenční sumarizace x n(x) N(x) p(x) F(x) 0 20 20 0,2 0,2 1 10 30 0,1 0,3 2 30 60 0,3 0,6 3 40 100 0,4 1,0 0 0 1 2 1 1 3 1 1 2 . . . . . . n = 100 Počtyepizodpron=100hemofiliků t  x DISKRÉTNÍ DATA n(x) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? Grafické výstupy z frekvenční tabulky x p(x) x N(x) x F(x) x3210 0 1 2 3 0 1 2 3 0 1 2 3 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu Příklad: x: koncentrace látky v krvi n = 100 pacientů Primární data Frekvenční sumarizace n = 100 opakovaných měření (100 pacientů) x: koncentrace sledované látky v krvi (20 – 100 jednotek) d(l) – šířka intervalu n(l) – absolutní četnost n(l) / n – intervalová relativní četnost N(x’’) – intervalová kumulativní četnost do horní hranice X’’ F(x’’) – intervalová relativní kumulativní četnost do horní hranice X’’ interv d(l) n(l) n(l)/n N(x’’) F(x’’) <20, 40) 20 20 0,2 20 0,2 <40, 60) 20 10 0,1 30 0,3 <60, 80) 20 40 0,4 70 0,7 <80, 100) 20 30 0,3 100 1,0 1,21 1,48 1,56 0,31 1,21 1,33 0,33 . . . n = 100 Hodnotypron=100osob SPOJITÁ DATA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční sumarizace spojitých dat x 0 1 20 40 60 80 100 x F(x) Intervalová relativní kumulativní četnost Histogram Výběrová distribuční funkce 0.000 0.005 0.010 0.015 0.020 0.025 f(x)= Intervalová hustota četnosti 20 40 60 80 100 Plocha: n(l) / n n(l) / n d(l) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Počet zvolených tříd a velikost souboru určují kvalitu výstupu k = 10 tříd k = 5 tříd 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 1 2 3 4 5 k = 20 tříd 1,0 2,0 3,0 4,0 5,0 0 1 2 3 4 5 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Histogram vyjadřuje tvar výběrového rozložení x xx x x f(x) f(x) f(x)f(x) f(x) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pojem ROZLOŽENÍ - příklad spojitých dat j(x) 0 F(x) Rozložení x Distribuční funkce 0 Je - li dána distribuční funkce, je dáno rozložení x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Výběrové rozložení hodnot lze modelově popsat a definovat tak pravděpodobnost výskytu X f(x) x f(x) x f(x) x j(x) j(x) j(x) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Distribuční funkce jako užitečný nástroj pro práci s rozložením x j(x) 1,00 F(x) P(X x) = F(x) = F(x") F(x) … distribuční funkce P(X x) = j(x) d(x) M j(x) d(x) = 1      F(x): Pravděpodobnost, že se X vyskytuje v intervalu M M Známe-li distribuční funkci, pak známe rozložení sledované veličiny. Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří. Plocha = relativní četnost x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční sumarizace spojitých dat Grafické výstupy z frekvenční tabulky – spojitá data f(x) x 0 1 20 40 60 80 100 F(x) x KVANTIL 0 0.005 0.01 0.015 0.02 0.025 20 40 60 80 100 Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé jednotlivé hodnoty X0.1; X0.9; X0.5; Xq Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním? X0,95 x j(x) 0,95 F(x) Hledáme: P(X xq) = 0,95 = q xq = (x0,95) = ? q = 0,95 … Pravděpodobnost Jakékoliv číslo na ose x je kvantilem 5 % F (xq ) = q Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován  Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako statistický model Aplikace modelových rozložení Přehled modelových rozložení IV.c Modelová rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Klasickým postupem statistické analýzy je na základě vzorku cílové populace identifikovat typ a charakteristiky modelového rozložení dat, využít jeho matematického modelu k popisu reality a získané výsledky zobecnit na hodnocenou cílovou populaci.  Využití tohoto přístupu je možné pouze v případě shody reálných dat s modelovým rozložením, v opačném případě hrozí získání zavádějících výsledků.  Nejklasičtějším modelovým rozložením, od něhož je odvozena celá řada statistických analýz je tzv. normální rozložení, známé též jako Gaussova křivka. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Rozložení hodnot jako model: Normální rozložení N (ms) j(x) m N (0,1) j(z) 0 Tabelovaná podoba Standardizovaná forma x z z = x - m s 2 2 2 )( . 2. 1 )( s m s j    x ex 2 2 . .2 1 )( z ez    j Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametry charakterizující normální rozložení a jejich význam j(x) x mediánprůměrm ~ x průměr - ukazatel středu s2 ~ s2 rozptyl xi x a) b) m s ~ s směrodatná odchylka Pravidlo ± 3s koeficient variance c) d) 2 ss  xsc  1 )( 2 2  S  n xx s i E (x) ~ x ~ m D (x) ~ s2 ~ s2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Rozptyl není univerzálním ukazatelem variability xi x xi s2 =  neúměrně zvýší s2 S(xi – x)2 n - 1 x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako model I. Použitelnost modelu A) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,4; 3.8 n = 7 opakování medián = 1,8 rozptyl (s2) = Je předpoklad normálního rozložení oprávněný ? Jaký předpokládáte možný rozsah hodnot tohoto znaku ? ??   03,22,14 7 1 8,34,20,28,16,14,12,1 7 1 7 11 7 11    i i n i i xx n   766,0 6 03,2 1 )( 7 1 2 1 2        i i n i i x n xx sm. odchylka (s) = 875,0766,02 s průměr = Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako model I. Použitelnost modelu B) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,2; 2,4; 3,8; 8,9 n = 9 opakování průměr = sm. odchylka (s) = Jak hodnotíte model u těchto dat ? medián = 2   81,23,25 9 1 9,88,34,22,20,28,16,14,12,1 9 1 9 11 9 11    i i n i i xx n   79,5 8 81,2 1 )( 9 1 2 1 2        i i n i i x n xx 269,279,52 s rozptyl (s2) = Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stochastické rozložení jako model Předpoklad: Znak x je rozložen podle daného modelu Znak x je naměřen o n hodnotách s modelovými parametry: x a s Znak x je převeden na formu odpovídající tabulkovému standardu: Využije se tabelované (modelové) distribuční funkce pro testy o rozložení hodnot x Platnost modelu ? 1 2 3 4 s m  x Zi Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako model - příklad Tabulky distribuční funkce • Data z průzkumu jsou publikována jako: Kosti prehistorického zvířete: n = 2000 průměrná délka = 60 cm sm. odchylka (s) = 10 cm Předpokládáme, že je oprávněný model normálního rozložení Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ? Kolik kostí mělo zřejmě délku větší než 66 cm ? Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost 66 cm: P (x > 66) ?     27425,06,01) 10 6066 (1)66(166      F s mx PxPxP   )66(166  xPxP a platí, že  XFxXP  )( s m  x Z tedy   5482000*27425,0*66  nxP       22575,006,0 10 6066 10 6060 6660           FFZPxP 22,6% kostí leží v rozsahu 60-66cm Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Rozložení Parametry Stručný popis Normální Průměr (m) Rozptyl (s2) Symetrická funkce popisující intervalovou hustotu četnosti; nejpravděpodobnější jsou průměrné hodnoty znaku v populaci. Log- normální Medián Geometrický průměr Rozptyl (s2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Weibullovo a - parametr tvaru b - parametr rozsahu hodnot Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. Rozložení využívané i jako model k odhahu LC50 nebo EC50 u testů toxicity. Rovnoměrné Medián Geometrický průměr Rozptyl (s2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Triangulární f(x) = [b - ABS (x - a)] / b2 a - b < x < a + b Pravděpodobnostní funkce pro typ rozložení, kdy jsou střední hodnoty výrazně pravděpodobnější než hodnoty okrajové. Gamma Parametry distribuční funkce: a - parametr tvaru b - parametr rozsahu hodnot Umožňuje flexibilně modelování distribučních funkcí nejrůznějších tvarů. Např. c2 rozložení je rozložení typu Gamma. Gamma rozložení s a = 1 je známo jako exponenciální rozložení. Stručný přehled modelových rozložení I. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stručný přehled modelových rozložení II.Rozložení Parametry Stručný popis Beta Parametry distribuční funkce: a - parametr tvaru b - parametr rozsahu hodnot Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do intervalu [0; 1]. Je matematicky komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné v ohraničeném intervalu. Studentovo Stupně volnosti uvažuje velikost vzorku Průměr Rozptyl Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k normálnímu rozložení. Pearsonovo Stupně volnosti uvažuje velikost vzorku Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat. Fisher- Snedecorovo Dvojí stupně volnosti uvažuje velikost dvou vzorků Používá se k testování hodnot průměrů - F test pro porovnání dvou výběrových rozptylů; F test, ANOVA atd. Stručný přehled modelových rozložení II. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Log-normální rozložení jako častý model reálných znaků j(x) Medián xPrůměr U asymetrických rozložení je medián velmi vhodným alternativním ukazatelem středu Průměr - těžiště osy x Medián - frekvenční střed x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Log-normální rozložení lze jednoduše transformovat f(x) Medián xPrůměr f(x) Medián ln (x) Průměr= Y = Ln [X] `Y ± Standardní chyba EXP (Y) = Geometrický průměr X   n i i n Y Y 1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu Logaritmická transformace Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění proporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient variance, ačkoli mají různý průměr. Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale také vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logaritmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = ln (X+1). Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometrický průměr původních dat. Transformace dat - legitimní úprava rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných pokusech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci: nebo nebo Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecně jestliže s2 x = k (výběrový průměr). Odmocninová transformace xY  1 xY 1 xxY Transformace dat - legitimní úprava rozložení Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi n hodnocenými jedinci - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze souborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace však není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je: - tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový počet jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit transformaci: Arcsin transformace pY arcsin            1 1 arcsin 1 arcsin 2 1 n x n x Y Transformace dat - legitimní úprava rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Popisné statistiky dat Vizualizace dat IV.d Popisná statistika dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Popisná analýza dat je po vizualizaci dat dalším krokem v procesu statistického hodnocení. Poskytuje představu o rozsazích hodnocených dat a umožňuje vyhodnotit, srovnámí s literárními údaji nebo dosavadní zkušeností, jejich realističnost.  Již při výběru vhodné popisné statistiky se uplatňuje znalost rozložení dat. Některé popisné statistiky, odvozené od modelových rozložení, je možné využít pouze v případě, že data mají dané modelové rozložení. Typickým příkladem je průměr a směrodatná odchylka, jejichž předpokladem je přítomnost normálního rozložení. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Typy proměnných  Kvalitativní/kategorická  binární - ano/ne  nominální - A,B,C … několik kategorií  ordinální- 1<2<3 …několik kategorií a můžeme se ptát, která je větší  Kvantitativní  nespojitá – čísla, která však nemohou nabývat všech hodnot (např. počet porodů)  spojitá – teoreticky jsou možné všechny hodnoty (např. krevní tlak) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řada dat a její vlastnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Frekvenční rozložení Kategorie Četnost B 5 C 8 D 1 Kvalitativní data Tabulka s četností jednotlivých kategorií. Kvantitativní data Četnost hodnot rozložení v jednotlivých intervalech. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametry rozložení  Soubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení  Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele:  Středu (medián, průměr, geometrický průměr)  Šířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka)  Tvaru rozložení (skewness, kurtosis)  Kvantily rozložení – kolik % řady dat leží nad a pod kvantilem x0,95 x j(x) 0,95 F(x) Jakékoliv číslo na ose x je kvantile 95 % j(x) x MediánPrůměr Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Populace a vzorek  Populace představuje veškeré možné objekty vzorkování, např. veškeré obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné parametry rozložení  Z populace je prováděno vzorkování za účelem získání reprezentativního vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je také velikost vzorku, ze vzorku získáme odhady parametrů rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele středu rozložení I  Průměr – vhodný ukazatel středu u normálního/symetrického rozložení, kde xi jsou jednotlivé hodnoty a n jejich počet  Medián – jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem  V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné   n i i n x xxE 1 )( j(x) Medián x Průměr j(x) x MediánPrůměr Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele středu rozložení II. log Medián, geometrický průměr Průměr Průměr (logaritmovaných dat)  Geometrický průměr – antilogaritmus průměru logaritmovaných dat, je vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu  Takto asymetrická data je možné převést logaritmickou transformací na normální rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele šířky rozložení  Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru.  Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení  Směrodatná odchylka je druhá odmocnina z rozptylu  Koeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr 3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty v rozložení – ukazatel problémů s normalitou dat 1-n )(x 2 i2    x s Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele tvaru rozložení  Skewness – ukazatel „šikmosti“ rozložení, asymetrie rozložení  Kurtosis – ukazatel „špičatosti/plochosti“ rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Další parametry rozložení  Počet hodnot – důležitý ukazatel, znamená jak moc lze na data spoléhat  Střední chyba odhadu průměru - je založena na směrodatné odchylce rozložení a počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozložení, tím je náš odhad skutečného průměru přesnější.  Suma hodnot  Modus – nejčastější hodnota, vhodný např. při kategoriálních datech  Minimum, maximum  Rozsah hodnot  Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Bodové a intervalové odhady Význam intervalu spolehlivosti IV.e Provádění odhadů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Dva základní přístupy statistického hodnocení jsou popis dat a testování hypotéz. Při popisu dat je třeba si uvědomit, že popisné statistiky získané ze vzorku nejsou skutečnou hodnotou v cílové populaci, ale pouze jejím odhadem. Přesnost odhadu závisí jednak na variabilitě dat, jednak na velikosti vzorku, při navzorkování celé cílové populace by výsledná popisná statistika již byla přesnou hodnotou, nikoliv odhadem.  Odhady a s nimy související intervaly spolehlivosti jsou univerzálním statistickým postupem a je možné je dopočítat k libovolné popisné statistice. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika v průzkumném studiu Provádění odhadů Testy hypotéz Cílová populace Vzorek Ověření Výsledek POPIS OTÁZKY Závěr ? Interpretace Závěr ? Reprezentativnost ? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek INTERVAL SPOLEHLIVOSTI velmi užitečná míra věrohodnosti odhadů P (L1 < Odhad < L2)  1 - a/2Obecný tvar: Odhadovaný parametr Kvantil modelového rozložení ± × KV pro (1 - a/2) Intervalové ODHADY Interval pravděpodobných hodnot Spolehlivost Bodové Číslo (chyba) (Odhad parametru) (Pravděpodobnostní interpretace) SE (odhadu) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek NORMÁLNÍ ROZLOŽENÍ: model pro odhad průměru Cílová populace Vzorek: n j(x) Xµ X ...... odhad průměru n;`x; s n;`x; s n n;`x; c n;`x; Interval spolehlivost i pro odhad průměru Prezentace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek NORMÁLNÍ ROZLOŽENÍ: odhad průměru je rovněž normálně rozložen `X Náhodné výběry o n = 100 Cílová populace X: j(x) Xµ `X1 `X2 `X3 `X4 .... `Xi µ µ ± 3 . s n s n ~ Standardní chyba odhadu průměru znak x x: m ± 3s průměr x )(xj Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ODHAD PRŮMĚRU: Vztahy Bodový Intervalový       n s x;     n s tx n s tx nn      1 2 1 1 2 1  a  a m   n s tx n    1 2 1 :  am   x n stx    1 2 1 :  am t ... příslušný kvantil Studentova rozložení 1 - a ... spolehlivost hodnoceného intervalu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Interval spolehlivosti odhadu průměru je pouze informací o přesnosti tohoto odhadu Interval spolehlivosti je hodnocen pro (1 - a) procentní spolehlivost Výběrové populace Cílová populace Šířku intervalu určuje: a) velikost vzorku b) rozptyl (variabilita) vzorku c) požadovaná spolehlivost j(x) -3s +3sµ Původní proměnná x j(x) Výběr n=10 pro odhad průměru j(x) Výběr n=100 pro odhad průměru µ µ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ODHAD PRŮMĚRU: Příklad X: Cena výrobku v n = 21 obchodech Data: 95% Interval spolehlivosti: t1-a/2 = t 0,975 = 2,086 (u = n-1) 3,423  µ  3,737 P (3,423  µ  3,737)  0,95 (20) x sx .086,2: m 12,0;58,3;21 2  sxn 075,02112,0 x s 075,0.086,258,3075,0.086,258,3  m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Interval spolehlivosti pro odhad rozptylu Interval spolehlivosti                              1 21 2 2 1 2 2 2 1 21 2 2 1 2 2 2 1 21 2 2 2 1 2 2 2 2 11 :nproc) 11 :prob) 11 :proa)                   nn nn nn n sn nn sn snsn snsn aa aa aa c s c s c s c s c s c s -směrodatná odchylka odhadu průměru (S.E.) ns Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Linie 1 n = 50 s2(x) = 10 (mg/ml)2 s(x) = 3,16 mg/ml x = 2 mg/ml sx = 0,447 mg/ml Interval spolehlivosti pro odhad rozptylu: příklad Příklad: měření produkce metabolitu (x) u buněk dvou nádorových linií Linie 1 n = 100 s2(x) = 16 (mg/ml)2 s(x) = 4 mg/ml x = 2,8 mg/ml sx = 0,4 mg/ml 36,73 16992 42,128 1699    s c = 1,43 95% IS c = 1,58 56,31 10492 22,77 1049    s 95% IS 53,1598,6 2 s 49,1333,12 2 s Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Výpočet mediánu z frekvenčních dat a jeho odhady a) Určete medián tohoto souboru dat: 1,3,4,5,7,8 [4,5] b) Určete medián tohoto souboru dat: 5,1,8,3,4 [4] Frekvence zastoupení dosahuje nejvyšší hodnoty u třídy od 40,5 – 60,5 dnů. Druhý (menší) frekvenční pík lze pozorovat u intervalu od 100,5 do 120,5 dní. Existence dvou maxim (bimodální data) je důkazem nenormality tohoto konkrétního souboru. Class limits (days) 0,5- 20,5 20,5- 40,5 40,5- 60,5 60,5- 80,5 80,5- 100,5 100,5- 120,5 120,5- 140,5 140,5- 160,5 160,5- 180,5 180,5- 200,5 200,5- 220,5 Frequency 8 33 50 32 15 20 11 6 2 1 1 Cumulative frequency 8 41 91 123 138 158 169 175 177 178 179 c) Tento příklad je ukázkou výpočtu mediánu u velkého souboru dat. V následující tabulce je uveden rozbor rozložení souboru dat od 179 krav, kde sledovanou veličinou byl počet dní od narození telete do znovuobnovení menstruačního cyklu. Uvedená data jsou velmi zjednodušena a jsou zde uvedena pouze pro ilustraci: Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek kde f gl XM L , Jelikož n =179, pak je medián devadesátá hodnota od počátku souboru, a dále je zřejmé, že bude velmi blízko horní hranici třídy 40,5 – 60,5 dní. Za předpokladu, že 50 hodnot této třídy je v ní rovnoměrně rozmístěno lze použít následující vzorec: XL = hodnota X (sledované veličiny) na spodní hranici třídy obsahující medián: zde 40,5 dní g = pořadová hodnota mediánu minus kumulativní frekvence do horní hranice předchozí třídy, tj. 90 - 41= 49 l = třídní interval: 20 dní f = frekvence ve třídě obsahující medián Dosadíme-li do uvedeného vzorce, získáme odhad mediánu jako 60 dní. Průměr tohoto datového souboru je 69,9, což je významně odlišná hodnota, a potvrzuje znovu nenormální charakter dat. U velkých vzorků z normálních populací je výběrový odhad mediánu normálně rozložen kolem populační hodnoty se směrodatnou odchylkou . U normálního rozložení, kde medián i průměr představují odhad stejné hodnoty, je medián méně přesný než průměr. Proto hlavní význam mediánu spočívá u nesymetrických distribucí. Existuje velmi jednoduchá metoda pro výpočet intervalu spolehlivosti pro odhad mediánu a jako horní a spodní hranice slouží pořadová čísla vypočítaná podle následujícího vztahu: ns253,1 kde nzn , 22 )1(   n představuje velikost datového souboru, z je kvantil standardizovaného normálního rozložení pro příslušnou pravděpodobnost. U našeho příkladu je n = 179 a pro 95% interval spolehlivosti je z přibližně rovno 2. Horní a spodní limit pro odhad mediánu tedy je a 103. 95% interval spolehlivosti je tedy tvořen počty dní, které mají pořadí 77 a 103:7717990  77: Počet dní = 40,5+(36)(20)/50 = 55 dní 103: Počet dní = 60,5+(12)(20)/32 = 68 dní Medián cílové populace byl tedy odhadnut 95% intervalem spolehlivosti jako hodnota ležící mezi 55 a 68 dny. Interpretujte tento výsledek. Výpočet mediánu z frekvenčních dat a jeho odhady Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Princip statistického testování hypotéz Pojmy statistických testů Normalita dat a její význam pro testování IV.f Základy testování hypotéz Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Testování hypotéz je po popisné statistice druhým hlavním směrem statistických analýz. Při testování pokládáme hypotézy, které se snažíme s určitou pravděpodobností potvrdit nebo vyvrátit.  Tzv. nulovou hypotézu lze nejlépe popsat jako situaci, kdy předpokládáme vliv náhody (rozdíl mezi skupinami je pouhá náhoda, vztah dvou proměnných je pouhá náhoda apod.), alternativní hypotéza předpokládá vliv nenáhodného faktoru.  Výsledkem statistického testu je v zásadě pravděpodobnost nakolik je hodnocený jev náhodný nebo ne, při překročení určité hranice (nejčastěji méně než 5% pravděpodobnost, že jev je pouhá náhoda) deklarujeme, že pravděpodobnost náhody je pro nás dostatečně nízká abychom jev prohlásili za nenáhodný  Statistická významnost je ovlivnitelná velikostí vzorku a tak je pouze indicií k prohlášení např. rozdílu dvou skupin pacientů za skutečně významný. V ideální situaci je nezbytné aby rozdíl byl významný nejenom statisticky (=nenáhodný), ale i prakticky (=nejde pouze o artefakt velikosti vzorku). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika v průzkumném studiu Provádění odhadů Testy hypotéz Cílová populace Vzorek Ověření Výsledek POPIS OTÁZKY Závěr ? Interpretace Závěr ? Reprezentativnost ? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Princip testování hypotéz Cílová populace Vzorek Reprezentativnost ? Závěr ? Interpretace  Formulace hypotézy  Výběr cílové populace a z ní reprezentativního vzorku  Měření sledovaných parametrů  Použití odpovídajícího testu závěr testu  Interpretace výsledků Měření parametrů Testy hypotéz ? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistické testování – základní pojmy Nulová hypotéza HO Alternativní hypotéza HA Testová statistika Kritický obor testové statistiky 0 T Pozorovaná hodnota – Očekávaná hodnota Variabilita dat Testová statistika = HO: sledovaný efekt je nulový HA: sledovaný efekt je různý mezi skupinami * Velikost vzorku Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model – testová statistika. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Co znamená náhodný rozdíl? Je tu rozdíl? Jak by vypadal rozdíl, kdyby byl náhodný? Nasimulujme si ho !!!  Léčba Placebo X2 X1 X2 X1 Rozdíl? Rozdíl X2 X1 Rozdíl …. Mnoho- krát Rozdíl ? Rozložení možných náhodných rozdílů Kde leží skutečný rozdíl? Jak moc je pravděpodobné, že je náhodný? 0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Možné chyby při testování hypotéz Závěr testu Hypotézu nezamítáme Hypotézu zamítáme β 1- β 1- α α Skutečnost H0 Platí H0 Neplatí  I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby. Správné rozhodnutí Správné rozhodnutí Chyba II. druhu Chyba I. druhu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Význam chyb při testování hypotéz Pravděpodobnost chyby 1. druhu a Pravděpodobnost nesprávného zamítnutí nulové hypotézy Pravděpodobnost chyby 2. druhu b Pravděpodobnost nerozpoznání neplatné nulové hypotézy Síla testu 1-b Pravděpodobnostně vyjádřená schopnost rozpoznat neplatnost hypotézy P-hodnota Významnost hypotézy hodnotíme dle získané tzv. p-hodnoty, která vyjadřuje pravděpodobnost, s jakou číselné realizace výběru podporují H0, je-li pravdivá. P-hodnotu porovnáme s α (hladina významnosti, stanovujeme ji na 0,05, tzn., že připouštíme 5% chybu testu, tedy, že zamítneme H0, ačkoliv ve skutečnosti platí). P-hodnotu získáme při testování hypotéz ve statistickém softwaru.  Je-li p-hodnota ≤ α, pak H0 zamítáme na hladině významnosti α a přijímáme HA.  Je-li p-hodnota > α, pak H0 nezamítáme na hladině významnosti α. P-hodnota vyjadřuje pravděpodobnost za platnosti H0, s níž bychom získali stejnou nebo extrémnější hodnotu testové statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametrické vs. neparametrické testy Parametrické testy Neparametrické testy • Mají předpoklady o rozložení vstupujících dat (např. normální rozložení) • Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy neparametrické • Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný • Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném rozložení • Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek One-sample vs. two sample testy Jedno-výběrové testy (one-sample) Dvou-výběrové testy (two-sample) • Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční hodnotou (popřípadě se statistickým parametrem cílové populace) • V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace) • Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek • Srovnávají navzájem dva vzorky (two sample, dvouvýběrové testy) • V testu jsou srovnávány dvě rozložení hodnot • Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek • Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek One-tailed vs. Two-tailed testy One – tailed testy Two – tailed testy • Hypotéza testu je postavena asymetricky, tedy ptáme se na větší než/ menší než • Test může mít pouze dvojí výstup – jedna z hodnot je větší (menší) než druhá a všechny ostatní případy • Hypotéza testu se ptá na otázku rovná se/nerovná se • Test může mít trojí výstup – menší - rovná se – větší než • Situace nerovná se je tedy souhrnem dvou možných výstupů testu (menší+větší) Kritický obor Kritický obor Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nepárový vs. párový design Nepárový design Párový design • Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např. lidé z různých zemí, nezávislé skupiny pacientů s odlišnou léčbou atd. • Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat • Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci, reakce stejného kmene krys atd. • Vazba může být buď přímo dána nebo pouze předpokládána (v tom případě je nutné ji ověřit) • Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich původních datech Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistické testy a normalita dat  Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu nějakého rozložení) – např. t-testy  Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet (t-rozložení) a test tak může lhát  Řešením je tedy:  Transformace dat za účelem dosažení normality jejich rozložení  Neparametrické testy – tyto testy nemají žádné předpoklady o rozložení dat Typ srovnání Parametrický test Neparametrický test 2 skupiny dat nepárově: Nepárový t-test Mann Whitney test 2 skupiny dat párově: Párový t-test Wilcoxon test, znaménkový test Více skupin nepárově: ANOVA Kruskal- Wallis test Korelace: Pearsonův koeficient Spearmanův koeficient Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Testy normality  Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí. 145 155 165 175 185 195 205 215 0 50 100 150 200 250 •Test dobré shody V testu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě histogramu), tyto intervaly jsou normalizovány (převedeny na normální rozložení) a podle obecných vzorců normálního rozložení jsou k nim dopočítány očekávané hodnoty v intervalech, pokud by rozložení bylo normální. Pozorované normalizované četnosti jsou poté srovnány s očekávanými četnostmi pomocí c2 testu dobré shody. Test dává dobré výsledky, ale je náročný na n, tedy množství dat, aby bylo možné vytvořit dostatečný počet tříd hodnot. •Kolgomorov Smirnov test Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše se symetrií hodnot než přímo s normalitou. Jde o neparametrický test pro srovnání rozdílu dvou rozložení. Je založen na zjištění rozdílu mezi reálným kumulativním rozložením (vzorek) a teoretickým kumulativním rozložením. Měl by být počítán pouze v případě, že známe průměr a směrodatnou odchylku hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho modifikace – Lilieforsův test. •Shapiro-Wilk`s test Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou testu, zvláště ve srovnání s alternativními typy testů, je zaměřen na testování symetrie. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Šikmost a špičatost jako testy normality  Parametry normálního rozložení, skewness a kurtosis mohou být využity pro testování normality, ale pouze pro velké vzorky (šikmost – 100, špičatost – 500). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Rootgram Rootgram deviation deviation -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0 10 20 305 15 Pb 25 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 0 20 8040 Zn 60 Grafická diagnostika normality Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Hanging Histobars. Hanging Histobars. frekvence frekvence 0 -0, 05 0 0,1 -0,1 0,2 -50 10 20 Pb 30 0,05 0,15 0 -0,28 -0,8 0,12 -0,48 0,32 -50 -10 10 30 Zn 50 70 90 Grafická diagnostika normality Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Cumulativepercent Cumulativepercent Normal Probability Plot Normal Probability Plot 5 20 80 1 99 50 95 0,1 0 20 40 Zn 60 99,9 80 5 20 80 1 99 50 95 0,1 0 10 20 Pb 305 15 25 99,9 Grafická diagnostika normality Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0,1 0,15 0,05 0,2 0,25 0 10 20 Pb 25 0,3 305 15 0,2 0,4 0,6 0 20 40 Zn 60 0,8 80 Frequency Histogram Frequency Histogram Frequency Frequency Grafická diagnostika normality