LEKCE 6 ZÁKLADY TESTOVÁNÍ HYPOTÉZ STATISTICKÉ HYPOTÉZY neboli formální výroky o: neznámých parametrech základního souboru, o tvaru rozložení četností, o statistických vztazích mezi soubory či proměnnými v něm.... TESTOVÁNÍ směřuje k zobecnění dat výběrového souboru na základní soubor. Jinak řečeno: Statistické hypotézy jsou domněnkami o populaci, jejichž pravdivost ověřujeme (testujeme) pomocí výběrových souborů z této populace. OBVYKLE SE TESTUJE ZDA § Zkoumaný výběrový soubor pochází ze základního souboru s určitým rozdělením (zda je výběr reprezentativní). § Jak se odchyluje věkový průměr ve výběrovém souboru od známého věkového průměru populace. § Jak se odchyluje struktura volebních preferencí ve výběrovém souboru od známé struktury těchto preferencí v populaci. § Dva výběry pocházejí ze (stejného) základního souboru s určitým rozdělením. Liší se průměrné mzdy žen a mužů tak, že to nemůže být vysvětleno náhodou? § Zda je možno považovat studovaný soubor za náhodně uspořádaný (zda mezi proměnnými neexistuje žádný vztah). Například distribuci proměnné lze považovat za náhodně uspořádánu, jestliže jsou všechny její kategorie stejně početné. § Jak se hodnota odchyluje od určitého standardu § Jak se odchyluje průměrná pracovní doba od zákonem stanovené délky pracovní doby. § Jak se odchyluje vzdělanostní struktura čtenářů časopisu RESPEKT od vzdělanostní struktury populace. § Jak se odchyluje průměrné IQ ve skupině delikventů od 100 bodů. NULOVÁ HYPOTÉZA Obvykle se testuje NULOVÁ HYPOTÉZA (H[0]) jako specifický model statistické hypotézy. NULOVÁ HYPOTÉZA PŘEDPOKLÁDÁ STAV "NEEXISTENCE" (ROZDÍLU) ČI STAV SHODY. PŘÍKLADY NULOVÝCH HYPOTÉZ ˙ Rozložení hodnot znaku se neliší od nějakého teoretického rozložení (například normálního nebo náhodného). ˙ Rozložení četností hodnot proměnné (vlastností jednotky), např. příjmu, věku, míry anomie, spokojenosti v životě, ..., ve výběrovém souboru odpovídá rozložení proměnné v populaci (neliší se od něho). ˙ Mezi dvěma parametry, např. mezi průměrným příjmem mužů a žen, není v základním souboru rozdíl (usuzujeme na to ze zjištěných statistik ve výběrovém souboru). ˙ Mezi empirickým a náhodným rozložením hodnot v kontingenční tabulce není rozdílu (empirické rozložení je náhodné, neexistuje vztah nejen mezi 2 proměnnými, které tabulku tvoří, ale ani mezi jejich variantami). Hypotéza se zamítá: Hypotézy lze zásadně prohlásit za falešné (tedy zamítnout jejich platnost), nikoliv však dokazovat jejich platnost. Hypotéza nemůže být přímo dokázána, nýbrž může být jen zamítnuta jí odporující (nulová) hypotéza. DVA VÝSLEDKY TESTOVÁNÍ H[0] q NEMÁME DŮVOD ZAMÍTNOUT MODEL NULOVÉ HYPOTÉZY A PROTO JI PŘIJÍMÁME. Příklady: q Rozdíl mezi dvěma populačními průměry neexistuje. q Rozdíl mezi dvěma populačními průměry, existuje, ale je tak malý, že ho nemůžeme určit. Například rozdíl 10 Kč u průměrných ročních příjmů mužů a žen, nebo 1 bod u průměrného IQ dvou skupin ap. q DATA NEODPOVÍDAJÍ H[0] (jejich existence je při platnosti H[0] vysoce nepravděpodobná) A PROTO JI ZAMÍTÁME. JEJÍ ZAMÍTNUTÍ VŠAK VĚTŠINOU NESTAČÍ PRO PŘIJETÍ ALTERNATIVNÍ HYPOTÉZY. Příklady alternativních hypotéz: 1. Nulová hypotéza: Rozložení příjmů ve výběrovém a základním souboru jsou shodné (odmítnutí H[0] de facto znamená prokázání, že výběr není náhodný respektive rozdíl může být zůsoben výběrovou chybou). Alternativní hypotézy (directional hypotheses): q Výběrový soubor má v průměru nižší příjmy než základní. q Výběrový soubor má v průměru vyšší příjmy než základní. Alternativní hypotéza (non-directional hypothesis): q Výběrový soubor má v průměru vyšší nebo nižší příjmy než soubor základní. 2. Nulová hypotéza: Mezi vzděláním a výší příjmu není žádný vztah (v základním souboru). Alternativní hypotézy (directional hypotheses): q Čím vyšší vzdělání, tím vyšší příjem. q Čím vyšší vzdělání, tím nižší příjem. Alternativní hypotéza (non-directional hypothesis): q Se změnou vzdělání se mění i výše příjmu. HLADINA VÝZNAMNOSTI (significance level) Nazývá se tak pravděpodobnost, že náhodná odchylka (daná výběrovou chybou) překročí určitou danou hodnotu, nazývanou hranice významnosti či KRITICKÁ HODNOTA. Představuje velikost rizika chyby, jež připustíme. Zjištěné (empirické) odchylky, vyskytující se s pravděpodobností MENŠÍ NEŽ JE ZVOLENÁ HLADINA VÝZNAMNOSTI (HV), se nazývají STATISTICKY VÝZNAMNÉ (signifikantní) na této zvolené hladině. TESTOVACÍ KRITÉRIUM Každému testovacímu kritériu PŘÍSLUŠÍ TEORETICKÉ ROZDĚLENÍ (normální rozložení, t neboli Studentovo rozložení, F rozložení, ...). Tabelovány bývají jeho KRITICKÉ HODNOTY. Hodnoty, jež příslušná náhodná veličina překročí s určitou danou pravděpodobností, tj. na určité hladině významnosti (vyčteno z teoretického rozložení testovacího kritéria např. existuje jen 5% pravděpodobnost výskytu hodnot větších než kritická). Základem TESTOVÁNÍ je porovnávání vypočítané (empirické) hodnoty testovacího kritéria (hodnota t, hodnota F, hodnota chí-kvadrát, ...) , s tabelovanými kritickými hodnotami. POSTUP TESTOVÁNÍ q Zvolíme vhodné TESTOVACÍ KRITÉRIUM, jehož teoretické rozložení (standardizované normální rozložení, Studentovo rozložení, rozložení chí-kvadrátu...). q Vypočítáme z dat výběrového souboru jeho empirickou hodnotu (z-skóre jemuž odpovídá standardizované normální rozložení, t hodnotu jíž odpovídá Studentovo rozložení, chí-kvadrát jemuž odpovídá rozložení chí-kvadrát ...). q Porovnáme vypočítanou statistiku s jejím teoretickým rozložením - s její KRITICKOU HODNOTOU (T*). q Je-li vypočítaná hodnota testovacího kritéria menší než hodnota kritická (T < T*), je to případ, který je při platnosti H[0] natolik pravděpodobný, že existující odchylka může být považována za náhodu. H[0] nezamítáme a tvrdíme, že ROZDÍL NENÍ STATISTICKY VÝZNAMNÝ. q Je-li vypočítaná hodnota testovacího kritéria větší než kritická (T >= T*), je to případ, který je při platnosti H[0] tak málo pravděpodobný, že je takřka nemožný. H[0] zamítáme a tvrdíme, že ROZDÍL JE STATISTICKY VÝZNAMNÝ. SROVNÁVÁNÍ SKUPIN NA ZÁKLADĚ průměrů POROVNÁVÁNÍ PRŮMĚRŮ - PROCEDURA MEANS JEDNODUCHÁ VERZE nebo s více charakteristikami VÍCESTUPŇOVÁ VERZE - první pohlaví GRAFICKÁ PODOBA - (GRAPHS - BOXPLOT - CLUSTERED) TESTOVÁNÍ VÝZNAMNOSTI ROZDÍLŮ STŘEDNÍCH HODNOT PROMĚNNÝCH U DVOU RŮZNÝCH SKUPIN Existují ovšem rozdíly, které jsme nalezli ve výběrovém souboru i v souboru základním? Nebo také, porovnáváme-li výsledky dvou výběrových souborů, byly vybrány ze stejného základního souboru? T-TEST T-test je testem významnosti rozdílu dvou středních hodnot (aritmetických průměrů). Je založen na STUDENTOVĚ ROZDĚLENÍ (t rozdělení). Pomocí t-testu řešíme vlastně: ˙ Buď otázku zda jsou dva populační průměry stejné neboli zda mezi nimi není rozdílu = nulová hypotéza. Např. průměrné mzdy mužů a žen v základním souboru. ˙ Nebo otázku, zda jsou či nejsou porovnávané výběry z jednoho základního souboru. FORMY T - testu ˙ T-TEST pro jediný výběr neboli ONE-SAMPLE T TEST (jak se liší statistika a parametr nebo jak se liší statistika od nějakého standardu) ˙ T-TEST pro dva nezávislé výběry (jak se liší 2 parametry -- populační průměry) Je modifikací předchozího, zahrnuje informaci o variabilitě dvou nezávislých průměrů (průměrů z nezávislých výběrů). Standardní chyba průměru rozdílů je odhadována z variancí a velikosti výběrů dvou nezávislých skupin. ˙ T-TEST pro párovaná data INDEPENDENT SAMPLES T-TEST POSTUP: Otestujeme shodu variancí obou rozložení pomocí F-testu. ˙ Nelze-li zamítnout nulovou hypotézu o shodě variancí (signifikance u F větší jak 0,01), pak použijeme T-testu pro případ EQUAL VARIANCES ASSUMED. ˙ Lze-li zamítnout nulovou hypotézu o shodu variancí (signifikance u F menší jak 0,01), pak použijeme T-testu pro případ EQUAL VARIANCES NOT ASSUMED. Otestujeme shodu průměrů pomocí T-testu (použití jedné či druhé verze určí F-test - viz výše). Testujeme nulovou hypotézu neboli předpoklad shody. Signifikance T-testu nižší než 0,01 nám ji umožní odmítnout (je-li vyšší jak 0,01, odmítnout ji nemůžeme). Příklad 0M Existuje statisticky významný rozdíl mezi průměrným věkem spokojených a nespokojených se svou prací? 0M Neboli existuje rozdíl, který vznikl při porovnání těchto průměrných věků, spočítaných z pozorovaných hodnot v našem výběrovém souboru, také v základní populaci, z níž byl výběr proveden? 0M Nebo je riziko, že tento rozdíl vznikl jen díky výběrové chybě nepřijatelně vysoké? Výpočet deskriptivních statistik: Výpočet t-statistiky a její otestování: Předpoklad shody variancí df =N-2 Průměrný věk obou (NULOVOU HYPOTÉZU) výběrů se liší o 1,93 let. nelze odmítnout (54% riziko chyby je příliš vysoké). Existuje jen 1,9% pravděpodobnost T- statistika se získá: pozorovaného rozdílu mezi průměry, 1,93/0,82 = 2,35 neboli použitím přinejmenším této velikosti, pokud jsou EQUAL VARIANCES ASSUMED. si oba populační průměry rovny (H[o]) Nulovou hypotézu lze tedy zamítnout. PAIRED T-TEST ONE-SAMPLE T-TEST PŘÍKLAD Pro testování hypotézy, že výběr pochází z populace se známým průměrem respektive standardem (zde je to 40 pracovních hodin týdně), ale neznámou standardní odchylkou, musíme VYPOČÍTAT T-STATISTIKU. Výpočet je stejný jako u standardizovaného skóre, jen místo standardní odchylky pro populaci (parametru) je použita její hodnota ve výběru (statistika). t = (47,73-40)/0,795 = 9,722 pravděpodobnost hodnoty T rozdíl mezi větší jak +9,72 nebo menší průměrem jak -9,72 je menší jak 0,0001 ve výběru a hypotetickým t - hodnota stupeň průměrem volnosti v populaci interval spolehlivosti pro rozdíl mezi průměry Je nepravděpodobné, že graduované osoby (v základním souboru) pracují v průměru 40 hodin týdně. Riziko chyby při odmítnutí nulové hypotézy "že se jejich pracovní týdenní doba neliší od standardu" je velmi nízké (méně než 0,1%). Pravděpodobnost je 2-tailed, protože sčítá obě oblasti t- rozložení (menší jak -9,72 a větší jak +9,72): průměrný počet hodin graduovaných může teoreticky být menší i větší než 40 hodin týdně. JAK TESTOVAT NULOVOU HYPOTÉZU O SHODĚ NĚKOLIKA POPULAČNÍCH PRŮMĚRŮ ONE-WAY ANALÝZA - (analýza rozptylu) T-TEST DOVOLUJE POROVNAT POUZE DVA PRŮMĚRY. Pokud bychom chtěli porovnat průměrů více musely bychom provést celou řadu t-testů pro všechny možné dvojice jež připadají v úvahu. Příklad: Otázka: Liší se v základním souboru průměrné platy u různých vzdělanostních kategorií? 1. základní, nevyučen; 2. základní vyučen; 3. střední bez maturity; 4. střední s maturitou; 5. vysokoškolské bakalářské; 6. vysokoškolské magisterské a vyšší)? V TOMTO PŘÍPADĚ BYCHOM MUSELI PROVÉST 15 T-TESTŮ neboť (6x6-6)/2 = 15 ONE-WAY ANALÝZA (analýza rozptylu) dovoluje provést mnohonásobné porovnání. Její aplikace zahrnuje: § Výpočet deskriptivních statistik (popis dat) pro porovnávané skupiny § Určení intervalů spolehlivosti průměrů jednotlivých porovnávaných skupin § Testování předpokladů použití § Testování nulové hypotézy neboli analýza variancí (ANOVA, zde ONE-WAY ANOVA). § Porovnávání dvou odhadů variability. § Vícenásobné porovnávání. TESTOVANÁ NULOVÁ HYPOTÉZA Příklad: Porovnání průměrných hodnot míry ANOMIE (Sroleho škála anomie) mezi voliči jednotlivých politických stran. MNOHONÁSOBNÉ SROVNÁNÍ - Bonferroni test INTERPRETACE MNOHONÁSOBNÉHO SROVNÁNÍ § Průměrná míra indexu anomie voličů ODS se statisticky významně liší (HV=0,05) od průměrných měr tohoto indexu ve všech skupinách voličů ostatních politických stran. § Průměrná míra indexu anomie voličů KDU-CSL se statisticky významně liší (HV=0,05) od průměrných měr tohoto indexu voličů ODS na jedné straně a voličů Republikánů na druhé straně. Neliší se od průměrných měr tohoto indexu mezi voliči ČSSD ani mezi voliči KSČM. § Průměrná míra indexu anomie voličů ČSSD a voličů KSČM se statisticky významně liší (HV=0,05) jen od průměrnu tohoto indexu u voličů ODS (neliší se od průměrných měr tohoto indexu mezi voliči KDU-ČSL ani mezi voliči Republikánů). § Průměrná míra indexu anomie voličů Republikánů se statisticky významně liší (HV=0,05) od průměrných měr tohoto indexu voličů ODS a KDU-ČSL (neliší se od průměrných měr tohoto indexu mezi voliči ČSSD ani mezi voliči KSČM).