13. Měření závislosti -Nezávisle proměnná X má řídit závisle proměnnou Y => lineární regrese (y = a + bx) -Měření síly lineární závislosti => Pearsonův korelační koeficient (normální rozložení) -Závislost kvalitativních znaků => (neparametrický) Spearmanův korelační koeficient Pearsonův korelační koeficient -Kde sxy je kovariance - - -sx2, sy2 jsou výběrové rozptyly -Hodnoty od -1 do 1 -± 1 pokud všechny body [xi, yi] leží na přímce -0 => veličiny jsou nezávislé Pearsonův korelační koeficient •- Pokud závislost není lineární, může r vyjít 0 a přitom jsou veličiny funkčně závislé -+r => obě veličiny X a Y zároveň rostou nebo obě zároveň klesají --r => jedna veličina roste zatímco druhá klesá Korelace v grafech Korelace -Znaménko - směr -Velikost – nashromáždění bodů kolem přímky -p – k testu nulové hypotézy r = 0 (mezi X a Y neexistuje žádný lineární vztah Pearsonův korelační koeficient -Síla lineární závislosti mezi dvěma spojitými veličinami -Doplnit bodovým grafem -Znaménko -Velikost -Korelace neznamená příčinnost -Pro velký rozsah výběru vyjde i malé r statisticky významně Pearsonův korelační koeficient - příklad - - - - Během 8 let se zaznamenávaly průměrné doby slunečního svitu ve vegetačním období pšenice a její hektarové výnosy. Rok 1 2 3 4 5 6 7 8 Doba slunečního svitu [h] 4,1 3,9 3,5 3,8 4,2 4,1 4,1 3,9 Výnos pšenice [q] 1,2 1,1 0,5 0,9 1,0 1,3 1,0 1,0 Předpokládáme, že doba slunečního svitu a výnos pšenice má normální rozložení Spearmanův korelační koeficient -Neparametrický -Založený na pořadí -Q – pořadí podle první veličiny X -R – pořadí podle druhé veličiny Y -S rostoucím X vzrůstá Y =>shodné pořadí -S rostoucím X klesá Y =>opačná pořadí -Nezávislé veličiny => náhodně zpřeházená pořadí - - - Spearmanův korelační koeficient -Diference pořadí - - -Test korelačního koeficientu: když > kritická hodnota => zamítáme H0 o nezávislosti -Pro n > 30 je testovou statistikou: - => H0 zamítáme pro - - Spearmanův korelační koeficient- příklad Na interním oddělení bylo léčeno na určitou chorobu deset pacientů. Za čtyři týdny po ukončení hospitalizace byli pozváni ke kontrolní prohlídce, při níž se mimo jiných údajů sledovala též sedimentace červených krvinek. Závažnost klinického průběhu všech deseti pacientů lze zhruba vyjádřit na základě uspořádání podle závažnosti zjištěných klinických příznaků do řady, jejíž členy označíme jedničkou (nejlehčí průběh) až desítkou (nejtěžší průběh). Označme pacienty velkými písmeny A, B, C atd. Jejich hodnocení podle závažnosti klinického průběhu, zjištěné hodnoty sedimentace a pořadí podle výše sedimentace jsou uvedeny v tabulce. Ověřte na 5% hladině významnosti, zda hodnota sedimentace nezávisí na klinickém průběhu onemocnění. Pacient A B C D E F G H I J Pořadí podle klinického průběhu (Q) 4 6 1 5 10 2 7 3 9 8 Sedimentace 19 22 26 30 33 23 28 21 59 39 Pořadí podle sedimentace (R) 1 3 5 7 8 4 6 2 10 9 Diference pořadí (d=Q-R) 3 3 -4 -2 2 -2 1 1 -1 -1 Čtverec diference d2 9 9 16 4 4 4 1 1 1 1 => Zamítáme H0 o nezávislosti 14. Analýza rozptylu ANOVA -Analýza vlivu jedné či více kategoriálních proměnných (tři a více úrovní) na kvantitativní nebo ordinální proměnnou -Nelze použít tři dílčí t-testy! -Opakované testování neoprávněně zvyšuje pravděpodobnost chyby prvního druhu - - - Počet testů Pst výskytu aspoň jedné chyby I. druhu 3 0,14 10 0,40 45 0,90 c 1-(1-α)c ANOVA - předpoklady -Každý z výběrů pochází z populace s normálním rozložením se stejnou směrodatnou odchylkou (testujeme, zda střední hodnoty (průměry) jsou všechny shodné nebo se liší) -Náhodný výběr z každé populace -Nezávislá pozorování - - - ANOVA - princip -Celkový rozptyl závisle proměnné rozdělíme do dvou částí -1. variabilita uvnitř skupin – odlišnost hodnot v rámci skupiny od skupinového průměru -2. variabilita mezi skupinami – jak se navzájem liší průměry – porovnání s celkovým průměrem -Pokud neexistuje rozdíl, variabilita mezi skupinami i v rámci skupin popisuje stejný jev (stejný populační rozptyl) -Porovnání F testem - - ANOVA - -ST – celková variabilita – součet rozdílů pozorovaných hodnot a celkového průměru umocněných na druhou -SA – variabilita mezi skupinami - vážený součet druhých mocnin rozdílů každého skupinového průměru a celkového průměru -Se – variabilita uvnitř skupin – součet druhých mocnin rozdílů hodnot a příslušného skupinového průměru • - ANOVA -dfT – počet pozorování – 1 -dfA – počet skupin - 1 -dfe – počet pozorování – počet skupin • - ANOVA -H0: mezi populačními průměry není žádný rozdíl -H1: aspoň dva populační průměry se od sebe liší (nezjistíme však, které to jsou) -Za platnosti H0 je čitatel F statistiky (zhruba) stejně velký jako jmenovatel => F ≈ 1 -Kritická hodnota: kvantil F rozložení -Nutno ověřovat předpoklady modelu -Metody mnohonásobného porovnávání (Bonferroniho, Scheffého, Tukeyova metoda, …) - ANOVA - příklad Zadání k projektům ke zkoušce -Krátký úvod do problematiky datového souboru -Analýza odlehlých a nesprávných hodnot, zdokumentování nakládání s takovými údaji -Popisná statistika všech (většiny) proměnných v datovém souboru -- kategoriální proměnné: tabulka s absolutními a relativními četnostmi -- proměnné poměrového typu: základní popisná statistika => parametrické (průměr, sm. odchylka, IS) x neparametrické (medián, rozsah, kvartily, percentily, …) -Grafy -Formulace H0 a HA -Ověření předpokladů vybraného testu -Popisná statistika hodnocených proměnných dle testované hyp. -Výsledek a závěr testování -Shrnutí použitých metod a dosažených výsledků