1 Z2069 Statistické metody a zpracování dat II Měření závislosti kvalitativních znaků Měření závislosti kvalitativních znaků • Kvalitativní znaky mají slovní charakter a získáváme je v sociologických průzkumech, při terénním šetření apod. • K charakterizování závislostí kvalitativních znaků slouží tzv. kontingenční tabulky • Z kontingenční tabulky lze určit intenzitu závislosti ve dvojici slovních znaků. • Máme-li dva alternativní znaky dostaneme tzv. čtyřpolní tabulku. Měření závislosti kvalitativních znaků Obecně může mít každý kvalitativní znak A r tříd a znak B s tříd. Výsledky šetření potom sestavujeme do kontingenční tabulky r x s. Pozorované četnosti v jednotlivých buňkách označujeme dvěma indexy – obecně nij. Také marginální četnosti mají dva indexy. Ten, přes který je sčítáno je označen hvězdičkou – tedy n2* značí součet četností v druhé řádce, n*1 značí součet četností v prvním sloupci. Tabulka bývá doplněna hodnotami procentuálních (relativních) četností. Častým požadavkem je konstantní délka intervalů tvořících třídy. Stejně jako v případě kvantitativních znaků ověřujeme i zde existenci vztahu testy významnosti a hodnotíme ho vhodnou mírou závislosti. Kontingenční tabulka typu r x s Podmíněné četnosti uvnitř kontingenční tabulky mají podobný význam jako body korelačního diagramu — jejich rozmístění umožňuje usuzovat na charakter závislosti tříděných znaků. Pro posouzení nezávislosti obou znaků můžeme vedle pozorovaných četností stanovit pro jednotlivá pole také očekávané (teoretické) četnosti : Posuzování závislosti v kontingenčních tabulkách tedy jako součin okrajových četností příslušného řádku a sloupce dělený rozsahem souboru. Pro každé pole kontingenční tabulky existuje dvojice četností - četnost pozorovaná a četnost vypočtená. n nn n ji ij **' = Ukazatel, který pro tabulku jako celek měří rozdílnost pozorovaných a vypočtených četností v jednotlivých polích tabulky se nazývá čtvercová kontingence 2 χ ij ijij r i s j n nn ′ ′− = ∑ ∑ = = 2 1 1 2 )( χ Je to bezrozměrná hodnota a platí: Hodnoty nula nabývá pouze v případě, že znaky v kontingenční tabulce jsou nezávislé. Hypotéza nezávislosti 02 ≥χ Vypočtená hodnota se porovnává na zvolené hladině významnosti α s kritickou hodnotou rozdělení pro (r-1)(s-1) stupňů volnosti.2 χ 2 χ Hypotézu (H0) o nezávislosti dvou studovaných znaků zamítáme, jestliže vypočtená hodnota je větší než tabulková; případně, když jí příslušející p-hodnota je menší než zvolená hladina významnosti. 2 χ 2 Příklad analýzy závislosti v tabulce r x s Pro výběr 234 studentů zjišťujeme, zda existuje vztah mezi sportem, který provozují a sportovními pořady, které sledují v televizi. Sestavíme tabulku typu 4 x 4: Hypotéza nezávislosti H0: Neexistuje vztah mezi provozovaným sportem a sportem sledovaným v TV. Vypočtená hodnota testovacího kritéria Kritická hodnota z tabulek pro p=0,05 a (4-1)x(4-1)=9 stupňů volnosti: Závěr: H0 zamítáme, existuje významný vztah. 3,2732 =χ 9,162 =χ Testování nezávislosti v tabulce 2 x 2 Pro výpočet testovacího kritéria v tabulce 2 x 2 můžeme využít zjednodušený vzorec: 2 χ ))()()(( )( 2 2 dbcadcba bcadn ++++ − =χ Protože v 2x2 tabulce můžeme uvažovat i směr poruchy nulové hypotézy – proto musíme rozhodnout, zda použijeme test jednostranný či dvoustranný. Kritické hodnoty jsou uvedeny v tabulce - rozdělení o jednom stupni volnosti. 2 χ Příklad analýzy závislosti v tabulce 2 x 2 Hypotéza nezávislosti H0: Relativní četnost studentů se zájmem o statistiku je nezávislá na pohlaví. Vypočtená hodnota testovacího kritéria: Kritická hodnota -rozdělení z tabulek pro α=0,05: 3,84 Závěr: H0 zamítáme, existuje významný rozdíl. Zájem u chlapců: 30/66 = 0,45 Zájem u dívek: 11/74 = 0,14 Chlapci mají zhruba 3x větší zájem o statistiku než dívky. 8,15 74669941 )36116330(140 2 2 = ××× ×−× =χ 2 χ Čyřpolní tabulka - řešení v programu Statistica Statistiky – Neparametrická statistika – Tabulka 2 x 2