STATISTIKA Kalužová Anna; Nohelová Lucie; Siegl František; Štolbová Daniela; Vališová Martina Základní pojmy •Statistika = teoretická a praktická činnost zkoumající hromadné jevy • •Soubor = homogenní množství všech možných opakování definovaných přesně co do kvality a rozsahu • •Výběr = skupina opakování/variant vybraných ze souboru Základní popisná statistika •Aritmetický průměr •Medián •Směrodatná odchylka, rozptyl • •Relativní směrodatná odchylka • • • NORMÁLNÍ ROZDĚLENÍ - Gaussova křivka •Rozdělení pravděpodobnosti spojité náhodné veličiny (IQ) •μ … střední hodnota •σ … směrodatná odchylka Výsledek obrázku pro gaussovo rozdÄ›lenà EXCEL: =NORM.DIST(x; střední hodnota; směrodatná odchylka, 1) 34,1 % 13,6 % Poissonovo rozdělení •Popisuje pravděpodobnost výskytu sledovaného znaku za danou (časovou) jednotku •Platí: jev je náhodný •λ .... Intenzita •x …. Počet opakování (n -> ꝏ) • •Př. Za 1 hodinu spadne na Zemi 20 meteorů. Jaká je pravděpodobnost (p), že v následujících 10 min spadnou 3 meteory? •p(x) =? •λ = 20/60 •x = 3 • • Výsledek obrázku pro poissonovo rozdÄ›lenà vzorec Parametrické vs. neparametrické testy • •Parametrický test = test, pro jehož odvození je nutné specifikovat typ rozdělení, případně jeho parametry. • •Neparametrický test = test, pro jehož odvození není nutné specifikovat typ rozdělení. Postup při hledání vhodného testu •Zjistit, zda naměřené hodnoty splňují kritéria pro použití parametrických či neparametrických testů ü Pro soubory s n > 25 s normálním rozdělením a stejnými rozptyly použít parametrické testy. ü Pro ostatní soubory neparametrické testy. • Výsledek obrázku pro nerozhodnost t-test •Jednovýběrový: testujeme výběr od konstanty (střední hodnota základního souboru) •Dvouvýběrový: porovnání dvou výběrových souborů a)Párový t-test: 2 měření u jednoho výběrového souboru (1. měření před aplikací pokusného zásahu, 2. po aplikaci pokusného zásahu) •- Testujeme hypotézu, že střední hodnota měření před pokusem a po pokusu se rovnají •b) Nepárový t-test: porovnávaná data pocházející ze dvou různých skupin (např. porovnání hodnot pokusné a kontrolní skupiny) F-test •U dvouvýběrového nepárového t-testu musíme nejdříve provést F-test •A to kvůli otestování rozdílu rozptylů obou souborů •Podle výsledku F-testu zvolíme dvouvýběrový t-test s rovností/nerovností rozptylů Excel: stáhnutí doplňku analýza dat •Soubor " Možnosti " Doplňky " Analytické nástroje • Excel: F-test Excel: F-test Soubor s větším rozptylem musí být jako první Excel: F-test Excel: t-test Neparametrické testy •Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném rozložení •Nelze u nich předpokládat normální rozdělení pravděpodobností sledovaného znaku •Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí •Neparametrické testy testují nulovou hypotézu •Mann-Whitneyho nepárový test, Wilcoxonův párový test, chí-kvadrát • Mann-Whitney test •Používá se pro hodnocení nepárových pokusů, kdy porovnáváme 2 různé výběrové soubory (pokusný zásah A, B). Testujeme hypotézu, že veličina X odpovídající pokusnému zásahu „A“ a veličina Y odpovídající pokusnému zásahu „B“ mají totéž rozdělení pravděpodobností •Pracuje se s pořadím, ne s původními hodnotami •Menší z obou součtu pořadí je porovnán s kritickou hodnotou testu, pokud je tato hodnota menší než kritická hodnota testu, zamítáme nulovou hypotézu shody distribučních funkcí obou skupin • Mann-Whitney-ův test pro neparametrické testování oboustranné hypotézy, že není rozdíl ve zdravotním stavu stromků lišících se svým kultivarem Zdravotní stav stromků byl odhadnut pomocí přibližné stupnice s hodnotami od 1 (zcela zdravý strom) do 5 (zcela mrtvý strom). H0: Zdravotní stav jedinců se neliší mezi dvěma kultivary A a B. HA: Zdravotní stav jedinců se liší mezi kultivary A a B. Zdravotní stav jedinců kultivaru A: 2, 2, 1, 2, 3, 4, 2, 3, 1, 5 n1= 10 Zdravotní stav jedinců kultivaru B: 4, 5, 3, 1, 4, 3, 5, 2, 1, 2 n1= 10 Po převodu na pořadí (s průměrným pořadím pro jedince se shodnou hodnotou zdravotního stavu) dostáváme: Kultivar A: 13,5; 13,5; 18,5; 13,5; 8,5; 5,0; 13,5; 8,5; 18,5; 2,0 R1=115,0 Kultivar B: 5,0; 2,0; 8,5; 18,5; 5,0; 8,5; 2,0; 13,5; 18,5; 13,5 R2= 95,0 U=n1n2 + n1(n1+1)/2 – R1 = (10)(10) + (10)(11)/2 – 115 = 100 + 55 – 115 = 40 U´= n1n2 – U = 60 p=0,481 (exaktní odhad), H0 zdravotní stav stromků nezávisí na kultivaru proto nezamítáme Wilcoxonův test •Používá se pro hodnocení párových testů (obdoba párového t-testu) •1. spočítat rozdíly mezi hodnotami pozorování v párech •2. zbylé rozdíly seřadíme podle velikosti jejich absolutní hodnoty (vzestupně) •3. poté se spočte součet pořadí kladných a součet pořadí záporných rozdílů (označujeme je T+ a T-) •4. menší z hodnot lze porovnat se známým rozdělením této statistiky nebo užít aproximaci normálním rozdělením •Používá se opět nulová hypotéza • Příklad Wilcoxonova testu pro jeden výběr Kontingenční tabulky •Kvalitativní znaky (je/není; ano/ne;…); •Testování hypotéz nebo k posouzení, zda mezi znaky existuje nějaký vztah •Přehledné sledování závislosti mezi dvěma nebo více proměnnými •Dvourozměrné tabulky – závislost dvou proměnných •Čtyřpolní tabulky (2×2) – nejjednodušší příklad • • • ano ne součet Kontrolní a b a+b Pokusná c d c+d Součet a+c b+d n Byla vakcinována telata. V kontrolní i pokusné skupině bylo 12 pacientů (celkem 24). V pokusné (vakcinované) skupině onemocněla 2 telata, neonemocnělo 10 telat. V kontrole (nevakcinované) onemocnělo 8 telat, neonemocněla 4 telata. onemocnělo neonemocnělo součet Kontrola 8 4 12 Vakcinace 2 10 12 Součet 10 14 24 2 × 2 kontingenční tabulka Vylučování odlehlých výsledků paralelních hodnot •Odlehlá hodnota = hrubá chyba (nepatří do souboru) a ne náhodná! •Posouzení na základě typu rozdělení náhodné veličiny: •NORMÁLNÍ ROZDĚLENÍ •NEZNÁMÉ ROZDĚLENÍ • •NORMÁLNÍ ROZDĚLENÍ •Grubbsův test extrémních odchylek (pro n ≥ 3) 1.Seřadit hodnoty výběrového souboru do vzestupné variační řady 2.Výpočet a s ze všech hodnot souboru 3.Výpočet testovacího kritéria pro poslední/první hodnotu řady 4. 4. 4. 4.Porovnání s tabelovanou kritickou hodnotou • ODLEHLÁ •NEZNÁMÉ ROZDĚLENÍ •Dixonův test extrémních odchylek 1.Seřadit hodnoty výběrového souboru do vzestupné variační řady Variační rozpětí: R = xmax- xmin 2.Výpočet testovacího kritéria pro poslední/první hodnotu řady 3. 3. 3.Porovnání s tabelovanou kritickou hodnotou • 1. ODLEHLÁ Při rozboru křemičitanu byl nalezen tento obsah SiO2: 52,44 %, 53,82 %, 52,91 %, 50,10 %, 54,03 %, 53,89 %. Je některý z výsledků odlehlý na hladině významnosti α = 0,05 ? Obsah SiO2 v křemičitanu (%) Var. řada 52,44 50,10 53,82 52,44 52,91 52,91 50,10 53,82 54,03 53,89 53,89 54,03 •Grubbs: • • • •Dixon: ODLEHLÁ ODLEHLÁ Lineární regrese •Regrese = závislost mezi veličinami x a y •x … nezávislá proměnná (vysvětlující) •y … závislá proměnná (vysvětlovaná) • •Závislost x a y : Regresní přímka • •k, q … regresní koeficienty • Výsledek obrázku pro lineárnà regrese y = f(x) = kx + q •Metoda nejmenších čtverců •Aproximace závislosti mezi naměřenými veličinami •Založena na minimalizaci tzv. reziduálního součtu čtverců y •Korelační koeficient (R, rxy) •= vhodnost použití lineární regrese pro proložení závislosti mezi 2 veličinami •rxy … <-1 ; +1> rxy > 0,99 …. „Pravidlo dvou devítek“ • •+1 … pozitivní korelace •-1 … negativní korelace • •R2 … koeficient determinace, <0;1> Vyšší hodnoty = vyšší úspěšnost regrese • • •Provedení 1.Hodnoty x (nezávislá) a y (závislá) • • 2.Korelační koeficient (rxy) – vhodnost použití lineární regrese pro proložení závislosti mezi 2 veličinami 3.Regresní koeficienty (k, q), odchylky regresních koeficientů (σk, σq) •Excel: LINREGRESE() • • • 4.Graf – bodový, spojnice trendu (regresní přímka) • (zobrazit rovnici grafu, hodnotu spolehlivost) • • • • • 1. 1.Vyznačit 3 řádky x 2 sloupce 2.Vybereme oblasti pro dané parametry 3.CTRL + SHIFT + ENTER 4. k q σk σq R2 t[°C] R [Ω] Nelineární regrese •pro popis závislosti veličin využívá funkce nelineární v parametrech (tyto funkce nelze na lineární v parametrech převést pomocí žádné transformace) •Funkci hledám v předepsaném tvaru (exponenciální, polynomiální,…) parametry nalezneme metodou nejmenších čtverců •Lze provést linearizaci vztahu pomocí transformace proměnných nebo použít zobecněné lineární modely, ale také polynomiální regresi nebo nelineární regresi Nelineární regrese •Koeficient determinace R2 – popisná míra vhodnosti použití regresní rovnice pro predikování •Hodnoty blízké nule naznačují, že zvolená funkce není vhodná •Naopak, hodnoty blízké 1 naznačují, že rovnice je velmi vhodná pro extrapolaci •Malá hodnota ale nemusí znamenat nízký stupeň závislosti mezi proměnnými, ale může signalizovat špatně zvolenou regresní funkci Korelační analýza •Cílem je určit sílu závislosti mezi dvěma veličinami = síla statistické závislosti •Vyjádřena korelačními koeficienty r (Pearsonův, Spearmanův, Kendallův ...) •r nabývá hodnot od -1,1 •1 – přímá korelace •-1 – nepřímá korelace • Korelační koeficienty •Pearsonův - pro lineární závislost dvou náhodných veličin s normálním dvourozměrným rozdělením • •Spearmanův – neparametrický, robustní vůči odlehlým hodnotám, pracuje pouze s pořadním hodnot. Popisuje jak vztah funkcí XY odpovídá monotónní fci, která může být i nelineární •Mnohonásobý – vyjadřuje sílu zavislosti jedné proměné na dvou a více jiných proměných • Figure 8.5.png Figure 8.11.png Korelační koeficienty •Parciální – výpočet síly závislosti dvou proměnných v souboru více proměnných za současného zanedbání ostatních proměnných •Kendallův – neparametrický koeficient nezávisloti, citlivější na některé nelineární vztahy, tento test nečiní žádný předpoklad povahy pravděpodobnostního rozdělení ANOVA •Analysis of variance (analýza rozptylu) •Test shody středních hodnoty pro více výběrů (pro 2 výběry – T-test) •Anova analyzuje zdroje variability u lineárních statistických modelů – vnitrovýběrová variabilita X mezivýběrová variabilita •Základ při výpočtu variability při analýze rozptylu jednofaktorové ANOVy je F-test ANOVA - princip •Variabilita mezi výběry – rozdíl mezi středními hodnotami výběrů •Variabilita uvnitř výběru – rozptýlení hodnot okolo středních hodnot v rámci výběru •Anova testuje poměr mezivýběrové variabilita s vnitrovýběrovou variabilitou •Mezivýběrová variabilita >> vnitrovýběrová variabilita – s vysokou pravděpodobností se střední hodnoty výběrů liší, zamítnutí nulové hypotézy stat1.png stat2.png Vícefaktorová ANOVA •Vliv dvou a více faktorů (např. vliv živné půdy a způsob kultivace u mikroorganismů) •Nejčastěji 2-F Anova, 3-F a více řešitelná, ale obtížně interpretovatelná •Zkoumáme efekty, které způsobují jednotlivé faktory (hlavní efekt) a efekty, které vznikají interakcí těchto faktorů (interakční efekt) •Mezivýběrovou variabilitu lze v tomto případě rozložit na variabilitu způsobenou faktorem A, B, .. a variabilitu způsobenou interakčním efektem. •Interakce se vyskytuje tehdy, pokud není účinek jednoho faktoru stejný při změně úrovni druhého faktoru. • Neparametrická ANOVA •Kruskal-Wallisův test (zobecnění Mann-Whitneyho testu pro více než dva výběry) •V případě, že nejsou splněny podmínky pro parametrickou Anovu (normalita výběru, homogenita rozptylu) + v případě velmi malých výběrů •Není testována shoda konkrétních parametrů, ale shoda výběrových distribučních funkcí srovnávaných souborů • • Neparametrická ANOVA M1 M2 M3 6 2 9 4 4 6 9 4 11 12 Sdružený soubor Neupravené pořadí Upravené pořadí 2 1 1 4 2 3 4 3 3 4 4 3 6 5 5,5 6 6 5,5 9 7 7,5 9 8 7,5 11 9 9 12 10 10 M1 M2 M3 5,5 1 7,5 3 3 5,5 7,5 3 9 10 26 7 22 Figure 10.17.png Testy normality •Slouží k určení, zda lze rozdělení dat považovat za normální • •Grafické metody: histogram, Q-Q graf (kvantil-kvantil), nebo P-P graf (pravděpodobnost-pravděpodobnost) •Ověření normality výpočtem: Shapirův-Wilkův test, Andersonův-Darlingův test, Kolmogorovův-Smirnovův test, Lillieforsův test, Chí kvadrát atd. •Hrubý odhad: porovnání aritmetického průměru s mediánem (neměly by se lišit o více než 10 %) Shapirův-Wilkův test •Zjištění, zda se body sestrojeného kvantil-kvantilového grafu (Q-Q plotu) významně liší od regresní přímky proložené těmito body •Především pro výběry menších rozsahů n < 50 •Testová statistika W – čím blíže 1, tím více svědčí pro normalitu (pokud hodnota testové statistiky nepřekročí tabelovanou kritickou hodnotu Shapiro-Wilkova testu, nulovou hypotézu zamítáme na dané hladině významnosti) Postup •1. Hodnoty jednotlivých pozorování seřadíme vzestupně •2. Vypočteme: •3. Vypočteme: •4. Vypočteme testovou statistiku: •5. Hodnotu testové statistiky porovnáme s tabelovanou kritickou hodnotu Shapiro-Wilkova testu a učiníme závěr o zamítnutí, resp. Nezamítnutí nulové hypotézy na hladině významnosti α • • • • Děkujeme Vám za pozornost!