Doc. RNDr. Jiří Zháněl, Dr. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ (MATEMATICKÁ) STATISTIKA DESKRIPTIVNÍ (popisná) ANALYTICKÁ (inferentní, induktivní, srovnávací) DESKRIPTIVNÍ STATISTIKA se zabývá zpracováním a popisem dat. ANALYTICKÁ STATISTIKA umožňuje nám data analyzovat tzn. vyhodnotit. Např. (1) stanovit, zda výsledky testů dvou tréninkových skupin vykazují významný rozdíl mezi středními hodnotami ( vliv tréninkové metody), (2) vyhodnotit léčebný účinek u 2 souborů pacientů. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ SOUBOR (generální soubor,Population Grundgesamtkeit) je soubor všech jedinců, u kterých bychom teoreticky měli šetření provádět. VÝBĚROVÝ SOUBOR je náhodnou podmnožinou prvků základního souboru, je získaný náhodným, resp. záměrným výběrem. ZÁVISLÉ SOUBORY (test hod na koš, družstvo A 1., 2. pokusy) NEZÁVISLÉ SOUBORY (test hod na koš, družstvo A, družstvo B) TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ Správný postup při hodnocení výsledků výzkumu: 1. nejprve zhodnotit věcnou významnost jak absolutně (v jednotkách měření), tak i relativně k podílu vlivu ostatních faktorů. Pouze a jen, jde-li o randomizovaný výzkum, pak 2. použít výpočet statistické významnosti, jakožto kritérium pro posouzení rizika zobecnění. VĚCNÁ A STATISTICKÁ VÝZNAMNOST (1) STATISTICKÁ VÝZNAMNOST Smysluplné použití posuzování výsledků výzkumu pomocí statistické významnosti je omezeno jen na soubory pořízené metodami náhodného výběru, resp. u randomizovaných experimentů (často nerespektováno). Hlavní nevýhoda testování H0 pomocí statistické významnosti je její závislost na rozsahu souboru (n): - u velkých výběrů jsou i nepatrný rozdíl nebo korelace statisticky významné, - u malých výběrů jsou i velký rozdíl či vysoká korelace statisticky nevýznamné. VĚCNÁ A STATISTICKÁ VÝZNAMNOST (2) VĚCNÁ VÝZNAMNOST U nenáhodných výběrů se doporučuje posuzovat významnost rozdílů či vztahů pomocí tzv. věcné významnosti („size of effect“, neboli „velikost efektu“, např. pomocí Cohenova d). Hlavní výhoda = nezávislost hodnocení věcné významnosti na rozsahu souboru (n). http://www.socscistatistics.com/effectsize/Default3.aspx Test Effect size small medium large d .20 .50 .80 r .10 .30 .50 Chi2 .10 .30 .50 (1) Cohen (1992). Indexy velikosti efektu (hodnoty pro malé, střední a velké efekty). POSUZOVÁNÍ VĚCNÁ VÝZNAMNOST (2) Soukup (2013). Effect size po úpravě do intervalů POSUZOVÁNÍ VĚCNÁ VÝZNAMNOST Test small medium large d 0,2-0, 49 0,5-0,79 větší než 0,8 r 0,1-0,29 0,3-0,49 větší než 0,5 Chi2 0,1-0,29 0,3-0,49 větší než 0,5 Formulace: nulová (H0) resp. alternativní H1, HA Příklad 1 H01: intersexuální rozdíly somatických a motorických předpokladů mezi tenisty (n=221) a tenistkami (n=193) ve věkové kategorii 11 -12 let jsou nevýznamné. Soubor/SC H Tenisté Tenistky Cohen´s d, hodnocení efektu M SD M SD Výška (cm) 155,10 7,62 154,60 6,94 0,07 (žádný) Hmotnost (kg) 43,50 6,68 43,49 7,17 0,00 (žádný) MS (kp) 25,14 4,60 23,08 4,61 0,45 (malý) RS 0,58 0,09 0,53 0,09 0,56 (střední) Formulace: nulová (H0) resp. alternativní H1, HA Příklad 2 HA1: intersexuální rozdíly somatických a motorických předpokladů mezi tenisty (n=157) a tenistkami (n=163) ve věkové kategorii 13 -14 let jsou významné. Category M (male) SD M (female) SD Cohen´s d Height (cm) 169.79 9.27 164.93 5.80 0.63 (med) Weight (kg) 57.05 9.26 53.57 6.31 0.44 (small) MHSL (kp) 34.64 7.53 29.09 3.84 0.94 (large) RHSL 0.61 0.10 0.55 0.06 0.73 (med) VĚCNÁ VÝZNAMNOST – LITERATURA Blahuš, P. (2000). Statistická významnost proti vědecké průkaznosti výsledků výzkumu. Česká kinantropologie, 4(2), 53-72. Cohen, J. (1992). A Power Primer. Psychological Bulletin, 1(112), 155-159. doi:10.1037/0033-2909.112.1.155 Soukup (2013). Věcná významnost výsledků a její možnosti měření. Data a výzkum - SDA Info 2013, 7(2), 125-148. DOI: http://dx.doi.org/10.13060/23362391.2013.127.2.41 http://www.socscistatistics.com/effectsize/Default3.aspx HYPOTÉZA je podmíněný výrok o vztahu mezi dvěma nebo více proměnnými (Kerlinger, 1972). 1. Pracovní hypotéza - subjektivní domněnky o předmětu problému (formulovány všeobecně). 2. Výzkumná (věcná) hypotéza - předpoklad existenci vztahu mezi dvěma či více proměnnými. 3. Statistická hypotéza - hypotetické tvrzení vyjádřené ve statistických termínech o relacích, vyvozených ze vztahů ve věcné hypotéze. Zatímco stupeň obecnosti tvrzení klesá, stupeň přesnosti vzrůstá (pracovní H > statistická H). HYPOTÉZA NULOVÁ A ALTERNATIVNÍ Základním typem úvahy při statistickém testování tzv. nulová hypotéza (HO). Podstatou nulové hypotézy je odůvodněný předpoklad, že mezi dvěma jevy není statisticky významný rozdíl (rozdíl je nulový). Jako nulová hypotéza se označuje domněnka, že dva statistické soubory se shodují v určitých statistických parametrech (např. AP, r). H0: µ = µ0 HA: µ ≠ µ0 ; HA: µ > µ0 ; HA: µ < µ0 NULOVÁ A ALTERNATIVNÍ HYPOTÉZA Jestliže předpokládáme, že mezi dvěma jevy existuje významný rozdíl, formulujeme tzv. alternativní hypotézu HA. K tomu, zda hypotézu (nulovou či alternativní) zamítáme, či nezamítáme používáme tzv. testovacích metod (viz dále). Co je považováno za pravděpodobný (TV mužů a žen je rozdílná, H1), resp. nepravděpodobný (TV M=Ž, H0) výsledek, musí být stanoveno předem. H0: µ = µ0 HA: µ ≠ µ0 ; HA: µ > µ0 ; HA: µ < µ0 Výsledky testování (statistická významnost) jsou posuzovány na tzv. hladině významnosti. Úroveň hladiny významnosti α=0,05 znamená, že nulová hypotéza se zamítá, když je pravděpodobnost, že nastane nulová hypotéza, menší než 5% (α = 0,01). V tomto případě se přikláníme k platnosti alternativní hypotézy. Nejčastěji srovnáváme střední hodnoty dvou výběrových souborů (rozsahu n1, n2), resp. závislosti. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ STATISTICKÁ VÝZNAMNOST 1. NOMINÁLNÍ DATA - STATISTICKÉ TESTOVACÍ METODY PŘEDPOKLAD PROBLÉM TESTOVACÍ METODA Dva nezávislé soubory (znaky nabývají právě dvou hodnot) Zkouška významnosti rozdílů souborů X2 -čtyřpolní test (Fischerův test, čtyřpolní tabulka) Dva nezávislé soubory (znaky nabývají více hodnot) Zkouška významnosti rozdílů souborů X2 -vícepolní test (kontingenční tabulka) Dva závislé soubory (znaky nabývají právě dvou hodnot) Zkouška významnosti změn X2 -Mc Nemarův test Dva závislé soubory Hodnocení závislosti Koef. kontingence C 1. Lyžaři 2. Lyžaři Znak - kouření 2. ORDINÁLNÍ DATA - STATISTICKÉ TESTOVACÍ METODY PŘEDPOKLAD PROBLÉM TESTOVACÍ METODA Dva nezávislé soubory Test rovnosti centrálních tendencí Medianový test (jednoduchý), U-test Mann-Whitneyho, Kolmogorov-Smirnovův test, Marshallův test Dva závislé soubory Test rovnosti centrálních tendencí Znaménkový test, Wilcoxonův test Více nezávislých souborů Test rovnosti centrálních tendencí Medianový test (rozšířený), H-test Kruskal-Wallisův (analýza rozptylu) Dva závislé soubory Hodnocení míry závislosti Spearmanův resp. Kendallův koeficient korelace Více závislých souborů Hodnocení míry závislosti Friedmanova analýza rozptylu 1. Gymnasté A 2. Gymnasté B Znak - body 3. METRICKÁ DATA - STATISTICKÉ TESTOVACÍ METODY I PŘEDPOKLAD PROBLÉM TESTOVACÍ METODA Dva nezávislé soubory Zkouška rovnosti rozptylů (homogenita) F-test Dva nezávislé soubory Zkouška rovnosti středních hodnot t-test Dva nezávislé soubory Zkouška nezávislosti korelací Korelační test Dva závislé soubory Zkouška rovnosti rozptylů (homogenita) F-test Tenisté Tenistky Znak: TV 3. METRICKÁ DATA - STATISTICKÉ TESTOVACÍ METODY II PŘEDPOKLAD PROBLÉM TESTOVACÍ METODA Dva závislé soubory Zkouška rovnosti středních hodnot Diferenční t-test (párový) Dva závislé soubory Hodnocení závislosti Koef. součinové korelace a regrese Více nezávislých souborů Zkouška rovnosti průměrů Analýza rozptylu, Duncanův test pořadí, Bartlettův test Více nezávislých souborů Zkouška rovnosti korelačních koeficientů Test homogenity Tenisté Tenistky Znak: TV ROZHODOVACÍ DIAGRAM PRO UŽITÍ t-TESTU DVA NÁHODNÉ VÝBĚRY NEZÁVISLÉ ZÁVISLÉ t-test pro t-test pro nezávislé výběry závislé výběry F-test homogenní heterogenní rozptyl rozptyl s1 2 = s2 2 s1 2  s2 2 t-test pro t-test pro homogenní heterogenní rozptyl rozptyl STATISTICKÉ TESTOVACÍ METODY Párový t - test - dva závislé soubory - zkouška rovnosti středních hodnot PŘÍKLAD – Zjistěte, zda se na automobilu určité značky sjíždějí obě přední pneumatiky stejně rychle číslo automobilu 1 2 3 4 5 6 pravá pneumatika 1,8 1 2,2 0,9 1,5 1,6 leva pneumatika 1,5 1,1 2 1,1 1,4 1,4 rozdíl 0,3 -0,1 0,2 -0,2 0,1 0,2 H0 : μ = μ1 – μ2 = 0 HA : μ = μ1 – μ2 ≠ 0     2 1;1   n tTn s X T hypotézu nelze zamítnou STATISTICKÉ TESTOVACÍ METODY Párový t - test číslo automobilu 1 2 3 4 5 6 pravá pneumatika 1,8 1 2,2 0,9 1,5 1,6 leva pneumatika 1,5 1,1 2 1,1 1,4 1,4 rozdíl 0,3 -0,1 0,2 -0,2 0,1 0,2         1941,00377,0 0377,0 5 18833,0 5 1167,00167,02833,01167,01833,02167,0 1 1 0833,0 6 5,0 2,01,02,02,01,03,0 6 11 2 1 222222 22 1             ss XX n s X n X n i i n n i 571,20518,16 1941,0 00833,0 571,2975,0;5 2 05,0 1;16 2 1;1        n s X T ttt n   STATISTICKÉ TESTOVACÍ METODY Párový t - test Protože 1,0518 < 2,571, nelze na základě získaných dat zamítnout hypotézu, že se obě přední pneumatiky sjíždějí stejně rychle. = > z tabulek STATISTICKÉ TESTOVACÍ METODY Párový t - test Pomocí Excelu – Analýza dat – Dvouvýběrový párový t-test na střední hodnotu Dvouvýběrový párový t-test na střední hodnotu pravá pneumatika leva pneumatika Stř. hodnota 1,5 1,416666667 Rozptyl 0,24 0,109666667 Pozorování 6 6 Pears. korelace 0,961571662 Hyp. rozdíl stř. hodnot 0 Rozdíl 5 t Stat 1,051757905 P(T<=t) (1) 0,17053101 t krit (1) 2,015048372 P(T<=t) (2) 0,34106202 t krit (2) 2,570581835 STATISTICKÉ TESTOVACÍ METODY Dvouvýběrový t - test - dva nezávislé soubory - test rovnosti středních hodnot PŘÍKLAD – U studentů rozdělených do dvou skupin byl zaznamenán počet leh-sedů za 1 minutu. Jsou obě skupiny stejně výkonné? H0 : μ1 = μ2 HA : μ1 ≠ μ2              2 1;2 22 2 11  mn YX tT mn mnnm smsn YX T hypotézu nelze zamítnou 1. skupina 62 54 55 60 53 58 2. skupina 52 56 49 50 51 STATISTICKÉ TESTOVACÍ METODY Dvouvýběrový t - test 1. skupina 62 54 55 60 53 58 2. skupina 52 56 49 50 51 n1=6 n2=5 APX=57 APY=51,6 sX 2 =12,8 sY 2 =7,3             79,255,24 2,295,62 4,5 56 256.5.6 3,7158,1216 6,5157 2 11 22                mn mnnm smsn YX T YX 262,279,2 262,2975,0;9 2 05,0 1;256 2 1;2    T ttt mm  STATISTICKÉ TESTOVACÍ METODY Dvouvýběrový t -test Protože 2,79 ≥ 2,262 zamítáme hypotézu, že se obě skupiny studentů jsou stejně výkonné. = > z tabulek STATISTICKÉ TESTOVACÍ METODY Dvouvýběrový t - test Pomocí Excelu – Analýza dat – Dvouvýběrový t-test s rovností rozptylů Dvouvýběrový t-test s rovností rozptylů 1. skupina 2. skupina Stř. hodnota 57 51,6 Rozptyl 12,8 7,3 Pozorování 6 5 Společný rozptyl 10,35555556 Hyp. rozdíl stř. hodnot 0 Rozdíl 9 t Stat 2,77122216 P(T<=t) (1) 0,010855041 t krit (1) 1,833112923 P(T<=t) (2) 0,021710083 t krit (2) 2,262157158 STATISTICKÉ TESTOVACÍ METODY F - test - dva nezávislé soubory - zkouška rovnosti rozptylů PŘÍKLAD – Na základě dat uvedených v předchozím příkladě rozhodněte, zda oba základní soubory mají stejné rozptyly. H0 : σX 2 = σY 2 HA : σX 2 ≠ σY 2    2 1;1,1 2 2 1,  mn Y X FZ Zabytakvolím s s Z hypotézu nelze zamítnou 1. skupina 62 54 55 60 53 58 2. skupina 52 56 49 50 51 STATISTICKÉ TESTOVACÍ METODY F - test 1. skupina 62 54 55 60 53 58 2. skupina 52 56 49 50 51 n=6 m=5 sX 2 =12,8 sY 2 =7,3 753,1 3,7 8,12 2 2  Y X s s Z 36,9753,1 36,9975,0;4,5 2 05,0 1;15,16 2 1;1,1    Z FFF mn  Protože 1,753 < 9,36 nelze zamítnout hypotézu o shodnosti rozptylů. = > z tabulek STATISTICKÉ TESTOVACÍ METODY F - test Pomocí Excelu – Analýza dat – Dvouvýběrový F-test pro rozptyl Dvouvýběrový F-test pro rozptyl 1. skupina 2. skupina Stř. hodnota 57 51.6 Rozptyl 12.8 7.3 Pozorování 6 5 Rozdíl 5 4 F 1.753424658 P(F<=f) (1) 0.303172533 F krit (1) 6.256056502 Děkuji za pozornost