PŘEHLED STATISTICKÝCH METOD „Prý jsme mu zkazili jeho pozitivní korelaci mezi výškou a váhou. " Cílem regresní a korelační analýzy je popis statistických vlastností vztahu dvou nebo více proměnných. Dvojrozměrný bodový graf nebo korelační tabulka dávají prvm představu o rozdělení sledovaných proměnných. Graf často indikuje překvapivé vlastnosti dat jako nelinearitu vztahu, nehomogenitu nebo přítomnost odlehlých hodnot. Na obrázku 7.1 je rovněž vynesena přímka, která byla proložena body metodou nejmenších čtverců. Vliv třetí proměnné na rozložení bodu muzeme zachytit různým tvarem nebo barvou bodů v závislosti na hodnotě teto proměnné (např. u dat o výšce a váze bychom mohli použít různé značky pro body odpovídající chlapcům a dívkám, pokud bychom tuto informaci o proměnné pohlaví měh k dispozici). Některé možné konfigurace dat v grafu popíšeme v následujícím odstavci. 7.2 Korelační analýza V nejobecnějším smyslu, slovo „korelace" označuje míru stupně asociace dvou proměnných. Říká se, že dvě proměnné jsou korelované (resp. asociované) jestliže určíte hodnoty jedné proměnné mají tendenci se vyskytovat společně s určitými hodnotami druhé proměnné. Míra této tendence může sahat od neexistence korelace (všechny hodnoty proměnné Y se vyskytují stejně pravděpodobně s každou hodnotou proměnné X) až po absolutní korelaci (s danou hodnotou 250 7 ANALÝZA ZÁVISLOSTÍ eníié X se vyskytuje právě jedna hodnota proměnné Y). Pro měření koreTTbyla navržena řada koeficientů. Liší se podle typů proměnných, pro které se užívají. Statistické usuzování o korelačních koeficientech se opírá o teorii prav)r "odobnosti pro společné rozdělení dvou nebo více náhodných proměnných. Při zkoumání korelačních vztahů má rozhodující význam kvalitativní rozbor 'íslušného materiálu. Nemá smysl měřit závislost tam, kde na základě logické Wahy nemůže existovat. Často je zbytečné měřit závislosti i z jiných důvodů. Je to zejména tehdy, když je korelace způsobena: a) formálními vztahy mezi proměnnými; b) nehomogenitou studovaného základního materiálu; c) působením společné příčiny. Formální korelace vzniká např. tehdy, když se zjišťuje korelace procentuálních charakteristik, jež se navzájem doplňují do 100 % (např. korelace procentního zastoupení bílkovin a tuku v potravinách). Jestliže populace, kterou studujeme, obsahuje subpopulace, pro něž se průměrné hodnoty proměnných X a Y liší, vypočtené korelační vztahy jsou touto nehomogenitou silně ovlivněny ajejich hodnoty nepopisují skutečný vztah mezi uvažovanými proměnnými. Nehomogenita materiálu seprojeví nabodovém grafu tak, že shluky bodů pro subpopulace se budou nacházet v různých oblastech souřadnicového systému. Na obrázku 7.2 je modelově ukázáno působení nehomogenity. Ta má za důsledek, že korelačním koeficientem hodnotíme bez diferenciace najednou dva shluky bodů, které přísluší k různým populacím. Na obrázku A to vede k nenulovém korelačními koeficientu i přesto, že v obou shlucích jsou proměnné nekorelované, naopak proměnné na obrázku B jsou v obou shlucích proměnné korelované, ale celková korelace je nulová. Příkladem korelací způsobených společnou příčinou jsou vztahy mezi některými mírami těla, např. mezi délkou pravé a levé ruky. Jiným známým příkladem jsou zdánlivé korelace způsobené časovým faktorem nebo faktorem modernizace u dvou řad údajů. PŘIKLAD 7.1 Zdanlivn korelace Počet televizních přístrojů na osobu koreluje s očekávanou délkou života. Ve státech, kde je mnoho televizních přístrojů, dosahují obyvatelé vysokého věku. Je možné změnou počtu televizních přístrojů dosáhnout prodloužení věku v oblastech světa, kde je nižší očekávaná délka života? mmw*y&ss-íS?» Podobným korelacím se někdy říká „nesmyslné" korelace. Hodnota korelace je vysoká. Nesmyslný by byl závěr o příčinném působení. Korelační závislost 251 PŘEHLED STATISTICKÝCH METOD Obr. 7.2 Přiklad Kladné ;A; a nulovo ;B. korelace, kicrc jsou /působené nchomoqenito;; dar • • • • r > 0 ri = 0 r2 = 0 • • • • • • • • • • r = 0 r,>0 r2>0 Korelační koeficient r je vypočtený pro všechny body, koeficienty r, a r, odděleně pro každý shluk zvlášť je zdůvodněna proměnnou „národní důchod", jež je společnou příčinou obou proměnných. Kromě tohoto působeníproměnnéjako „společnépříčiny" mohou působit matoucí (rušivé) proměnné, které korelujíjak s cílovou proměnnou, tak s proměnnou ovlivňující. Proměnná v tomto případě znesnadňuje interpretaci, protože nelze rozlišit vliv matoucí a sledované ovlivňující proměnné na cílovou proměnnou Uvádíme pořadí, v němž máme vylučovat nezajímavé korelace, než se dostaneme do fáze, kdy by velká korelace mohla indikovat kauzální vztah (obr. 7.3) 252 7 ANALÝZA ZÁVISLOSTÍ 7.3 Postup pro ovoreni kauzálního vztahu 7.2.1 Pearsonův korelační koeficient Přes některé své nedostatky zůstává Pearsonův korelační koeficient r nejdůležitější mírou sily vztahu dvou náhodných spojitých proměnných X a ř . Počítáme jej z n párových hodnot {(*,-, v,)} změřených na n jednotkách náhodně vybraných z populace. Korelační koeficient r nabývá hodnot z intervalu [-1; 1]. Jestliže má hodnotu 1 nebo - 1 , pak y-souřadnici bodu lze přesně spočítat pomocí lineárního vztahu z jeho x-souřadnice. Korelační koeficient r počítáme pomocí tzv. kovariance sxy a směrodatných odchylek sx a sy obou proměnných: ž£i(*.--*>(yi-y> Sxy ~ n-\ •xy SxSy Vzorec s kovariancí pomáhá porozumět tomu, že r má kladnou hodnotu, pokud asociace proměnných je pozitivní. Dejme tomu, že studujeme korelaci výšky a váhy studentů. Jedinci, kteří mají hodnotu výšky nad průměrem, mívají nadprůměrnou i hodnotu váhy. Oba rozdíly od průměru, jež spolu násobíme pn výpočtu kovariance, budou mít u vyšších a těžších jedinců kladnou hodnotu. Jedinci, kteří mají menší výšku, mají obvykle i menší váhu. U nich jsou oba 253 PŘEHLED STATISTICKÝCH METOD rozdíly od průměrů záporné, a protoje součin rozdílů od průměru rovněž kM • Protože je většina sčítanců kladných, musí být kladná i výsledná hodnota ko?" nauce, a tedy i korelačního koeficientu. Tuto interpretaci lze ještě lépe pochod pn vypočtu r pomocí standardizovaných hodnot. Platí totiž vzorec P •xy = -±-Y(x -Lzl\{yizi\-^ix 'iy'i kde x' a / označují standardizované hodnoty. Důležité vlastnosti Pearsonova korelačního koeficientu r shrneme pomocí několika tvrzení: F"»»UU 1. P l a t í - l < r < l . 2. Jestliže \r\ = 1, leží všechny body na nějaké přímce 3. Jestliže r = 0, nazýváme X a Y nekorelované proměnné. Dvě náhodné nro menne jsou tím více korelovány, čím blíže je hodnota r k číslům 1 nebo -i" V tom případě lze vztah obou proměnných dobře vyjádřit přímkou 4. Jestliže; < 0, resp. r > 0, tak se Y v průměru zmenšuje, resp. zvětšuje při zvětšovaní proměnné X. Říkáme, že asociace je záporná, resp. kladná 5. Pearsonuv k o r e i a c n í koeficient vyjadřuje pouze sílu lineárního vztahu' Špat ne menjiné vztahy, aťjsou jakkoli silné. ' 6. Korelační koeficient se nezmění, když změníme jednotky měření proměnnycn A & z. 7. Podobně jako průměr nebo směrodatná odchylka je korelační koeficient r velmi ovlivněn odlehlými hodnotami. 8. Korelační koeficient r nerozlišuje mezi závisle a nezávisle proměnnou 9. Korelační koeficient r není úplným popisem dat i při velmi silném lineárním vztahu. Pro úplnější popis potřebujeme znát rovnici přímky, která vyjadřuje tvar vztahu. J J 10. Pokudjedna z proměnných nemá náhodný charakter (její hodnotyjsou pevně určeny), není vhodné korelační koeficient použít. 11. Korelace ať je jakkoli silná, neznamená sama o sobě průkaz příčinného vztahu, tedy toho, že změny proměnné Z skutečně působízměnyproměnné Y. Mezi proměn„ými mohou existovat nejrůznější vztahy a máme i různé způsoby jak je ment. Některé z nich popíšeme v dalších odstavcích. Ačkoli korelační koeficient se používá velmi často, je nutné mít na paměti jeho omezení 254 7 ANALÝZA ZÁVISLOSTÍ PŘÍKLAD 7.2 L Vypočet kotolacniho koelicicnlu T ^ T t o d n o t i t závislost výšky a váhy, jejichž hodnoty jsme naměřili u 10 studentů, /ocitáme korelační koeficient pro párové hodnoty, které jsou uvedeny spolu s potřebnými počítanými hodnotami v tabulce 7.3. Hodnoty jsou zobrazeny na obrázku 7.1 (s. 249). Součet v posledním sloupci je základem pro výpočet kovariance Cov(x y) = sxy = 259 (10 1) = 28 8 nále jsme zjistili: x = 1790 10 = 179; ý = 700 10 = 10; sx = 5 61; sy = 5 83. Korelační koeficient má tedy hodnotu r = 28 8 (5 61 5 83) = 0 88. •gb. 7.3 Příklad postupu výpočtu korelačního koeficientu y-ý (x- x)(y - y) 187 72 170 60 9 10 180 73 1 3 184 74 5 4 178 72 1 2 180 70 1 0 172 62 7 8 176 70 3 0 186 80 7 10 177 67 2 3 Součet 1790 700 0 0 16 90 3 20 2 0 56 0 70 6 259 migt^m&£mš%s*^!i^®v*e%®K£s®mussp Někdy se zařazují hodnoty korelace do pásem podle síly asociace. V tabulce 7.4 uvádíme jeden z návrhů. Interpretace hodnot korelačního koeficientu není tak přímočará, jako je tomu u většiny jednorozměrných charakteristik. Proto se doporučuje dopočítat další charakteristiky, jako jsou parametry proložené přímky nebo směrodatná chyba odhadu při regresi (viz další kapitola). 255 PŘEHLED STATISTICKÝCH METOD Tab. 7.4 Pásma si y asociace podle velikosti korelačního koeficientu •Síla asociace 1r\ malá 0,1 -0,3 střední 0,3-0,7 velká 0,7--1,0 Hodnota korelačního koeficientu je bohužel silně ovlivňována odlehlými hodnotami ve výběru. Zkreslení také nastane, když se při výběru objektů omezíme pouze na ty, jejichž hodnota proměnné X nebo Y musí ležet v určitém intervalu. Korelační koeficient r má pak tendenci být menší než korelace r' vypočítaná bez omezení kladeného na data. Pro úpravu zkresleného korelačního koeficientu vlivem omezení rozsahu měření proměnné X použijeme vzorec r' = V -L V(ř/2 - l)r2 + 1' kde U = s/s' je poměr směrodatné odchylky s měření X ve studii a směrodatné odchylky s' v populaci bez restrikce. Korelační koeficient je také ovlivněn nepřesností metod, kterými měříme obě proměnné. Jestliže známe ryy a rxx koeficienty spolehlivosti měření obou proměnných (jedná se o korelace opakovaných měření), lze se přiblížit hodnotě korelačního koeficientu bezchybně změřených proměnných rxy pomocí úpravy •* y i • yfxxfyy PŘÍKLAD 7.3 Vymam exploracnih^^^p^ni dvojrozměrných d a l f s S ^ ^ ^ ^ S Jednoduchým příkladem toho, jakou důležitou rol , .. _••_•_ :ení dat, je zkoumání čtyř sérií modelových dat podle Anscomba (1973), které uvádí tabulka 7.5. Základní statistické charakteristiky proměnných X a Y a jejich korelační koeficient mají pro první sérii dat hodnoty x = 9 0; sx = 3 31; ý = 7 5; sy = 2 03 a r = 0 816. Pokud spočteme tyto charakteristiky pro ostatní série, zjistíme, že jsou stejné. Pokud však všechny čtyři série zobrazíme graficky (viz obr.7.5A-D, s.270), výsledek je dost překvapivý. 256 7 ANALÝZA ZÁVISLOSTÍ ">Tab. 7.5 Seno modelovýcn dat se stojnýr.i základními statistickými chaiaktcnstikami :' a korettcrwiii koeficienty * 1 yi * 2 Y2 * 3 yz x4 y* 10 8 04 10 9 14 10 7 46 8 6 58 8 6 95 8 8 14 8 6 77 8 5 76 13 7 58 13 8 74 13 12 74 8 7 71 9 8 81 9 8 77 9 711 8 8 84 11 8 33 11 9 26 11 7 81 8 8 47 14 9 96 14 81 14 8 84 8 7 04 6 7 24 6 6 13 6 6 08 8 5 25 4 4 26 4 31 4 5 39 19 125 12 10 84 12 9 13 12 8 15 8 5 56 7 4 82 7 7 26 7 6 42 8 7 91 5 5 68 5 4 74 5 5 73 8 6 89 mmmm&&*mm£>$m£Ěů 7.2.2 Pravděpodobnostní rozdělení dvou náhodných proměnných Teorie pravděpodobnosti popisuje nejen rozdělení jedné náhodné proměnné, ale i společná pravděpodobnostní rozdělení dvou nebo více náhodných proměnných. Této teorieje zapotřebí tehdy, když chceme navrhovat pravděpodobnostní modely vztahu proměnných a zdůvodnit procedury pro statistické usuzování v korelační a regresní analýze. V našem jednoduše pojatém výkladu budeme postupovat tak, abychom mohli získané výsledky využít i v kapitole o analýze závislosti kategoriálních proměnných. Zatím jsme se seznámili s jednou dvojrozměrnou charakteristikou, s Pearsonovým korelačním koeficientem r. Teoretickou hodnotu Pearsonova korelačního koeficientu v populaci označujemep. Získali bychomji výpočtem z údajů o všech prvcích populace. Výběrový koeficient r je bodovým odhadem této hodnoty. S rostoucím rozsahem výběru n se hodnota výběrového korelačního koeficientu rn blíží ke své teoretické hodnotě p. Teoretickou hodnotu p lze přímo odvodit podobně jako teoretickou střední hodnotu [i, když známe společné pravděpodobnostní rozdělení náhodných proměnných, pro které korelační koeficient počítáme. Koncept dvojrozměrného 257 PŘEHLED STATISTICKÝCH METOD pravděpodobnostního rozdělení a techniku výpočtu teoretických hodnot ozřemime pomocí jednoduchého příkladu. Postupujeme podobně jako v jednoroz" měrném případě (viz kap. 4.2). Představme si, že v daném pokusu můžeme získat pro hodnoty proměnných X a Y pouze tři různé hodnoty: x e (7; 15; 2), v e (3; 6; 9). Společné pravděpodobnostní Pxy rozdělení proměnných Z a Z je popsáno tabulkou pravděpodobností všech možných kombinací uvedených hodnot (tab. 7.6). Poslední sloupec, resp. poslední řádek tabulky 7.6 a) obsahuje jednorozměrná rozdělení px a py náhodných proměnných X a Y. Tyto hodnoty jsme* dostali jako součet pravděpodobností v daném řádku, resp. sloupci. Nazýváme je marginální rozdělení. Z tabulky je vidět, že dvojici hodnot (x,y) = (6; 7) lze dostat v náhodném pokusu s pravděpodobností 0,1, avšak pravděpodobnost výskytu jevu y = 7 j e 0,2. Pomocí marginálních rozdělení spočítáme očekávané hodnoty pro proměnné X a Y a také dopočítáme teoretické hodnoty rozptylů obou proměnných pro proměnnou X a Y - (tab. 7.6b, c). Tab. 7.6 Přiklad dvoj.wruérnolio pr avdčD0fioDnnsii'iiio rordélcn, n vypocei jeho chiiraMcrisťk a) Dvojrozměrné rozdělení X y PxX 7 15 2 Px 3 0,1 0,2 0,0 0,3 6 0,1 0,0 0,3 0,4 9 0,0 0,1 0,2 0,3 Py 0,2 0,3 0,5 1,0 b) Výpočet průměrných hodnot pro proměnnou X c) Výpočet průměrných hodnot pro proměnnou Y X Px XPx X2 Px 3 0,3 0,9 2,7 6 0,4 2,9 14,4 9 0,3 2,7 24,3 Součet 1,0 6,0 41,4 = E(x) = E x2 y Py ypy y2 py 7 0,2 1,4 9,8 15 0,3 4,5 67,5 2 0,5 1,0 2,0 Součet 1,0 6,9 79,3 = E(y) = f y2 258 7 ANALÝZA ZÁVISLOSTÍ Teoretické hodnoty průměru a rozptylu náhodných proměnných X a Y jsou tedy: HX = E(X) = J] WW = 6,0 cr2 x = E(x2 ) - £ = 41,4 - 62 = 5,4 ^ = E(Y) = ^ yjPj9 °"y = £ 0>2 ) -14 = 79,3 - 6,92 = 31,7 i To znamená, že crx = V^4 = 2,32 acry = V31,7 = 5,63. Teoretickou kovarianci cr^ (takéji značíme Co\(x,y)) vypočteme modifikací vzorce pro výběrovou kovarianci: Cov(x, y) = crxy =E [(X - fix)(Y - Py)] = E (XY) - nxpy = Z 2 Xiyj pij(x, y) - pxpy i i Nejdříve spočítáme hodnoty E(XY): E(XY) = ZIíxiyj-pij(x,y) i i = 0,1 x 3 x 7 + 0,2 x 3 x 15 + 0,0 x 3 x 2 + 0,1x6x7 + 0,0x6x15 + 0,3x6x2 + 0,0 x 9 x 7 + 0,1 x 9 x 15 + 0,2 x 9 x 2 = 36,0 Takže cr^ = E{XY) - pxp,y = 36,0 - 6,0 x 6,9 = -5,4. Teoretickou hodnotu koeficientu korelace pak dostaneme dosazením teoretických hodnot do vzorce pro výběrový koeficient korelace = ^JL- = ~5 '4 = _n 4 1 Pxy crxcry 2,32x5,63 Teoretická korelace -0,41 indikuje sílu závislosti mezi oběma proměnnými. V případě spojitých náhodných proměnných jsou tyto výpočty sice komplikovanější, ale stejně jako u jednorozměrných charakteristik se koncepčně moc neliší. Dále připomeneme pojem nezávislosti náhodných proměnných a ukážeme, že pokud náhodné proměnné jsou nezávislé, pak se jejich korelační koeficient rovná nule. V dřívějším výkladu jsme nezávislost náhodných proměnných vymezili požadavkem, že realizace jedné náhodné proměnné neovlivňuje chování druhé 259 PŘEHLED STATISTICKÝCH METOD náhodné proměnné (např. hodnota jedné proměnné u určité osoby neovlivňuj hodnotu měřeníjiné proměnné u téže ani jiné osoby). Definice nezávislosti dvou náhodných proměnných vychází z počítání pravděpodobností pod množin dvojrozměrného prostoru RxR. Nechť množiny Ax, resp. Ay mají pravděpodobnosti PX(AX\ resp. Py{Ay) vzhledem k rozdělení proměnné X, resp. Y. Pak X a Y jsou stochasticky nezávislé, nebo prostě nezávislé, pokud pravděpodobnost množiny Ax x Ay vzhledem k uvažovanému dvojrozměrnému rozdělení lze vypočítat vynásobením pravděpodobností obou množin P(AX x Ay) = Px(Ax)Py(Ay). Tato podmínka musí platit pro všechny podmnožiny Ax a A Je patrné, že se jedná o převedení pojmu nezávislosti náhodných jevů na chování náhodných proměnných. Pro náš příklad popíšeme dvojrozměrné rozdělení tabulkou 7.6a. Pravděpodobnosti pjá, resp. pyj vznikly součtem pravděpodobností v řádku, resp. v sloupci tabulky. Nazýváme je marginální pravděpodobnosti. Definují marginální rozdělení, které popisuje náhodné chování izolovaných proměnných X a Y. Jestliže proměnné X a Y jsou nezávislé, pak z definice plyne, že pravděpodobnosti v tabulce jsou součiny marginálních pravděpodobností (viz tab. 7.7b). Pojem stochastické nezávislosti dále ilustruje výpočet podmíněné pravděpodobnosti p(x - i | y = f), tedy pravděpodobnosti, že náhodná proměnná X Tab. 7.7 Obecp->c dvoj>ozn:criié rozděleni :i nczavsiost Diomonnych a) Dvojrozměrné rozdělení proměnných X a Y X y PxX 7 15 2 Px 3 P11 P12 P13 Pxt 6 P21 P22 P23 PxZ 9 P31 P32 P33 Px2 Py Pyl Py2 Py3 1 b) Podmínka pro nezávislost X a Y 3 6 9 Py 15 P*lPy1 P*lPy2 P*lPy3 P*2Py1 P*2Py2 P*2Py3 Px3Py1 Px3Py2 Px3Py2 Py2 Py3 Px | P*1 i P*2 I P*2 I 1 c) Podmíněná rozdělení proměnné X za podmínky y = Yi X y PxX 7 15 2 Px 3 Px1 Px^ Pxl Pxl 6 Px2 Px2 Px2 Px2 9 PxS PxS Px3 Px2 Py Pyl Py2 Py3 1 260 7 ANALÝZA ZÁVISLOST! rab. 7-8 Roz.délcm pravděpodobnosti pio civě nczávis! ó promonne Proměnná x Proměnná y PxProměnná x 7 15 2 Px 3 6 9 0,06 0,09 0,15 0,08 0,12 0,2 0,06 0,09 0,15 0,3 0,4 0,3 Py 0,2 0,3 0,5 1 bude mít hodnotu i, za předpokladu, že náhodná proměnná Y má hodnotu j . Protože platí p(x = i\y = j) = PxiyjIPyj, má tabulka hledaných podmíněných pravděpodobností tvar jako tabulka 7.7c. Hodnoty v ní vyjadřují, že fixujeme-li proměnnou Y, je podmíněné rozdělení náhodné proměnné X stejné pro všechny hodnoty proměnné Y a toto rozdělení se shoduje s příslušným marginálním rozdělením proměnné X. Pojmenujme očekávanou hodnotu náhodné proměnné X při fixované hodnotě náhodné proměnné Y „podmíněná očekávaná hodnota". Z tabulky 7.7c je patrné, že podmíněné očekávané hodnoty náhodné proměnné X jsou stejné pro všechny hodnoty náhodné proměnné Y. Pro ilustraci, jak se nezávislost projevuje na hodnotě korelačního koeficientu, vytvoříme z původního dvojrozměrného rozdělení proměnných X a Y v naší tabulce 7.7a nové rozdělení, aby proměnné byly nezávislé. Postupujeme tak, že zachováme podobu jednorozměrných marginálních pravděpodobnostních rozdělení proměnných X a Y a dopočítáme ostatní pravděpodobnosti podle předpisu pro nezávislost. Nové dvojrozměrné pravděpodobnostní rozdělení popisuje tabulka 7.8. Ukážeme, že se v tomto případě - to je u nezávislých náhodných proměnných - očekávaná hodnota jejich součinu rovná součinu jejich očekávaných hodnot, tedy E(XY) = E{X)E(X). Protože p^ = ptPj, platí: E(XY) = YJTJ Xiy JPi J = TJTJ Xiy JPiP i = Z XiPi E y Jp J = E wEiY) i i i í ' 1 Důležitá je okolnost, že uvedený vztah lze zobecnit a dokázat i pro spojité náhodné proměnné. Označili jsme E(X) = [ix a E(Y) = \iy. Protože pro nezávislé proměnné platí: E\(X - px)(Y - py)] = E(XY) - pxpy = E(X)E(Y) - pxpy = pxpy -pxpy = 0, plyne z toho, že kovariance cr^, a tedy i (teoretický) korelační koeficient p dvou stochasticky nezávislých náhodných proměnných jsou vždy rovné nule (čtenář se může přesvědčit přímým výpočtem pro hodnoty v poslední tabulce). Neplatí 261 PŘEHLED STATISTICKÝCH METOD to však obráceně. Nulová hodnota korelačního koeficientu neznamená vždy, že proměnnéjsou stochasticky nezávislé. Projednu významnou třídu rozdělení však i toto obrácené tvrzení platí. Jedná se o tzv. dvojrozměrné normální rozdělení náhodných proměnných (X, Y). Jde o rozšířenípojmu normálního rozdělení, které jsme poznali v kap. 4.5.3, na systém dvou proměnných. Dvojrozměrné normální rozdělení je jednoznačně určeno průměry a rozptyly obou proměnných a jejich korelačním koeficientem pxy. Zobecnění pro vícerozměrné normální rozdělení se provádí analogicky. Uvedeme základní vzorce pro kovarianci a rozptyl náhodných proměnných které se často používají při výkladu metody korelační a regresní analýzy. Symbol Var označuje rozptyl proměnné a Cov kovarianci dvou proměnných. Nechť a, b, c, d jsou konstanty a X, Y, Z, U náhodné proměnné, pak platí: 1. Cov(X,X) = Var(X), 2. Cov(aZ + bY, cZ + dU) = ac Cov(X, Z) + ad Cov(X, U) + bc Cov(Y, Z) + bd Cov(Z, U), 3. Var{aX+bY) = Cov(aX+bY, aX+bY) = a2 Var(X)+b2 Var(Y)+2ab Cov(X, Y), 4. Var(aX + bY) = a2 Var(X) + b2 Var(Y) pro nekorelované proměnné XaY 5. Cov(X,Y) = 0,25(Var(X+Y)-Var(X-Y)). 7.2.3 Odhad a testování korelačního koeficientu Popíšeme testy a intervaly spolehlivosti pro Pearsonův korelační koeficient. Tyto metody lze použít za předpokladu, že společné rozdělení obou proměnných lze modelovat dvojrozměrným normálním rozdělením nebo - jinak vyjádřeno rozdělení obou proměnných je normální a jejich vztah je přibližně lineární. Při posuzování, zda se vypočítaná hodnota korelačního koeficientu významně liší od nuly, použijeme tabulku IX z přílohy B, kdejsou hodnoty kritických mezí pro výběrový korelační koeficient v závislosti na rozsahu výběru. Jestliže bylo k dispozici n párových hodnot, má vypočtený korelační koeficient n-2 stupňů volnosti. Přesahuje-li v absolutní hodnotě hodnotu v tabulce pro požadovanou hladinu významnosti, můžeme vztah považovat za prokázaný na dané hladině významnosti. Snadno nahlédneme, že s rostoucím počtem pozorování prokážeme statistickou významnost i velmi malého korelačního koeficientu. Jestliže chceme testovat obecnější hypotézu H0: pxy = p0 proti alternativě Hi: Pxy Po, kdepo 0, musíme použít tzv. Fisherovu z-transformaci (arctanh „arkustangens hyperbolický"): z = i(f) = arctanh(r) = - ln I , 262 7 ANALÝZA ZÁVISLOSTI kde i označujeme Fisherovu transformaci. Touto transformací jsme rozšířili interval hodnot -1 < r < +1 na interval -oo < z < +°°. Nová proměnná má přibližně průměr V 1, /1+Po 2 \ l - p o L směrodatnou odchylku n — 3 takže pro test nulové hypotézy lze použít interval spolehlivosti ve tvaru z - tsz < flz < z + tsz, kde tje kritická hodnota pro dvoustranný test zjištěná pomocí ř-rozdělení on-2 stupních volnosti na odpovídající hladině významnosti. Zpět do měřítka korelačního koeficientu převedeme oba krajní body intervalu pomocí inverzní transformace z~': ----- - - _ e2z - 1 r ~ e2z + 1 Získáme tak interval spolehlivosti pro p^. PŘÍKLAD 7.4 Test hypotézy H0: xy = 0 5 proti H^ : xy 0 5 pro náš případ, kdy n = 10, r = 0 88, provedeme pomocí intervalu spolehlivosti s hladinou 0 95. Vypočteme nejdříve Fisherovu z-transformaci (protože 0 se nerovná nule) 1 , 1 + r 1 , 1 + 0 88 1 , 1 88 Z = 2 l n — = 2 l n 1 - 0 8 8 = 2 l n 012 = 1 3 ? 5 a směrodatnou odchylku 1 1 - = 0 37796 0 3782 n 3 10 3 7 Kritická hodnota ř-rozdělení s 8 stupni volnosti má pro zvolenou hladinu spolehlivosti hodnotu 2,306. Interval spolehlivosti má tedy tvar 1 375 2 306 0 378 , 1 375 + 2 306 0 378 (0 504; 2 247) 263 PŘEHLED STATISTICKÝCH METOD Pomocí zpětné transformace i 1 převedeme tento interval do měřítka pro r a dostáváme (0 465; 0 977). Protože hodnota 0,5 leží v tomto intervalu, nemůžeme nulovou hypotézu zamítnout. Pokud chceme testovat významnost rozdílu dvou korelačních koeficientů rx a r2 získaných změřením dvojic proměnných ve dvou rozdílných skupinách r, a r2 transformujeme oba korelační koeficienty Fisherovou transformací na hodnoty ži a Ž2- Přibližně platný 95% interval spolehlivosti pro rozdíl Az má pak tvar ži - Ž2 - 1,96 J + 7 m á stejné koeficienty jako Y -> Z -> X. Stejně tak situace c) a d) jsou empiricky neodlišitelné. V těchto případech interpretujeme vztahy na základě dosavadních teoretických poznatků a pomocí základních kritérií pro ověřování kauzálního vztahu: a) silná asociace mezi proměnnými; b) prokázání této asociace v různých podmínkách (konzistence asociace); c) prokázaní změny hodnoty jedné proměnné při změně hodnoty druhé proměnné; d) působení proměnné klasifikované jako příčina předchází efektu v čase; e) existence věrohodného teoretického modelu působení. 265 PŘEHLED STATISTICKÝCH METOD Obr. 7.4 Ru/.nc konfigurace korelačních vztahu a) X, Y, Z jsou nekorelovány r *y= ° x ryz = 0 rxz = 0 Y Z b) X a Y jsou dvě nekorelované příčiny pro proměnnou Z rxy = 0 ryz*0 x • . • Y rxz±Q c) Z je společná příčina A" a V ale rxy 7 = 0 • z ^ Y • d) vztah X a V je zprostředkován Z V - rxzryz • • • ale rxyz = 0 -*" z — • • Y 7.2.5 Vliv dvou nezávisle proměnných na závisle proměnnou Mnohonásobný koeficient korelace se používá v situacích, kdy chceme zjistit celkovou sílu vztahu mezi zvolenou proměnnou najedné straně a několika dalšími (predikujícími) proměnnými X2, X3,..., Xk na straně druhé. Hodnotí se jím význam kumulativního vlivu více proměnných na zvolenou cílovou proměnnou. Mnohonásobný korelační koeficient, který pro tři proměnné značíme px,yz, je číselnou mírou možnosti predikce cílové proměnné X pomocíproměnných Y a Z: Px.yz ~ 266 7 ANALÝZA ZÁVISLOSTÍ jeho odhad získáme dosazením příslušných výběrových korelačních koeficientů do tohoto vzorce. Nulovou hypotézu, že px,yz = 0, testujeme pomocí F-testu provedeného transformovanou hodnotou rx,yz: „ rlyz(n-3) 2(1 *) V tomto statistickém testu zjišťujeme, zda je hodnota F větší než kritická mez F-rozdělení se stupni volnosti 2 a n - 3. (V kapitole o mnohonásobné lineární regresní analýze se budeme tímto problémem zabývat podrobněji.) PŘIKLAD 7.6 Vypočet mnohonásobného korelačního kocfiecionlu Výzkum vycházel ze zkušenosti sportovní praxe, že osvojení motorické dovedností závisí komplexně na různých znacích jedince. Na závěr základního lyžařského kurzu pro šestnáctileté účastníky se změřil čas ve slalomu u 36 dívek. Také se u nich zjišťovaly další charakteristiky. V tabulce 7.9 uvádíme korelace dosaženého času ve slalomu a dvou vybraných parametrů z této studie, abychom mohli spočítat, jak silně dosažený čas na těchto parametrech závisí. Mnohonásobný korelační koeficient mezi dosaženým časem ve slalomu jako cílovou proměnnou a prediktory V a Z má hodnotu: r XZY 0 342 + 0 462 2( 0 34)(0 46)(0 45) 1 0 452 ^0 77 Tab. 7.9 Kor clc-i(";ni matice pro íň proměnné charakterizuje skupinu ...caslmc lyžnrsxóno kuizu Čas ve slalomu (X) Test rovnováhy(Y) Test sociální úzkosti (Z) 1 00 0 34 0 46 0 34 0 46 1 00 0 45 0 45 1 00 mzanmmmmzmszMmmMMWvmsMmmns^MHm^mm^m^ MWtUMíWSíaíSWIíWSÍíM^^*™ 267 PŘEHLED STATISTICKÝCH METOD 7.2.6 Spearmanův korelační koeficient pořadí Anglický psycholog Charles Edward Spcarman (1863-1945) navrhl svůj koeficient korelace tak, že koreloval postupem podle Pearsona pořadí jednotlivých měření obou proměnných. Význam tohoto kroku spočívá v tom. že jeho koeficient zachycuje monotónní vztahy (ne pouze lineární, ale obecně rostoucí nebo klesající); je rezistentní vůči odlehlým hodnotám. Spearmanovým korelačním koeficientem, jehož teoretickou hodnotu značíme p%. měříme sílu vztahu X zY. když nemůžeme předpokládat linearitu očekávaného vztahu nebo normální rozdělení proměnných X a Y. Závislost proměnných může mít obecně vzestupný nebo sestupný charakter. Jestliže r, = 1, resp. r, = - 1 , párové hodnoty (*„>•,•) leží na nějaké vzestupné, resp. klesající funkci. Hodnoty rs nemění jakákoli vzestupná transformace původních dat. Pro malé rozsahy je jeho výpočet méně pracný než výpočet Pearsonova korelačního koe­ ficientu. Odhadem p„ je výběrový koeficient korelace rs (-1 < rs < 1), který pro daný výběr (xi,y,) spočteme podle vzorce 6}] Z)2 r,= \ ^ • n(n2 - ])' kde D, jsou rozdíly pořadí^ a R% hodnot x, a y, vzhledem k ostatním hodnotám seřazeného výběru podle velikosti. Před výpočtem je nutno oběma řadám čísel Xj a >•, tato pořadí přiřadit. Jestliže dvě čísla v řadě hodnot x„ resp. v, jsou stejná, přiřadíme jim průměrnou hodnotu příslušných pořadí. Obdobně provedeme tuto úpravu pro více stejných hodnot. V každé řadč nesmí být více než 1/5 pozorování stejných. Pokud se tak stane, musíme celý výpočet upravit. PŘIKLAD 7.7 Výpočet rs si ukážeme pro hodnoty z tabulky 7.10: 6 26 10(100 1) = 0 84 Pro posouzení statistické významnosti koeficientu ry slouží tabulka X z přílohy B. Přesahujc-li hodnota |rj tabulkovou hodnotu pro daný počet párů měření n a hladinu významnosti, můžeme vztah považovat za prokázaný. Pro náš příklad, testujeme-li dvoustrannou hypotézu p, = 0 na hladině l %. je tabulková hodnota 0,746 (tabulka obsahuje kritické hodnoty pro dvoustranné testy). Vztah 268 7 ANALÝZA ZÁVISLOSTÍ Tab. 7-1 ° p ''*i a c i P0Stu PlJ Pn vypočiu Spoarmanova korelačního koeficientu pořaai X y Rx Ry D = RX-Ry DxD 187 72 10,00 6,50 3 50 12,25 170 60 1,00 1,00 0 00 0,00 180 73 6,50 8,00 1 50 2,25 184 74 8,00 9,00 1 00 1,00 178 72 5,00 6,50 1 50 2,25 180 70 6,50 4,50 2 00 4,00 172 62 2,00 2,00 0 00 0,00 176 70 3,00 4,50 1 50 2,25 186 80 9,00 10,00 1 00 1,00 177 67 4,00 3,00 1 00 1,00 Součet 26,00 mezi oběma proměnnými z příkladu je tedy prokázán. U větších výběrů (re > 30) lze na hladině a použít přibližný z-test hypotézy ps = 0: z = \rs\ V^T. Spearmanův koeficient rs někdy používáme pro odhad Pearsonova korelačního koeficientu, resp. r, jelikož pro dvojrozměrně normálně rozdělené proměnné X a Y platí přibližný vztah p = 2 sin(0,523pí). Tento vzorec je upřesněním přibližně platného vztahu p = ps. Podle Spearmana lze jeho koeficient korelace s výhodou uplatnit v situacích, kdy: • potřebujeme rychlý a rezistentní odhad korelačního koeficientu r; • testujeme schopnost zkoumané osoby správně řadit objekty nebo vlastnosti podle určitých hledisek tak, zeji necháme seřadit tyto objekty nebo vlastnosti a toto seřazení pak srovnáme se standardem; • testujeme možnost přítomnosti monotónního trendu v časové řadě měření. Pro usnadnění interpretace jsou na obrázku 7.5 znázorněna data z příkladu 7.3 (s. 256, množina 1 = A, 2 = B, 3 = C, 4 = D) a uvedeny k nim vypočtené korelační koeficienty podle Pearsona, Spearmana a Kendalla, aby bylo umožněno srovnání chování těchto koeficientů (viz odstavec o Pearsonově koeficientu). Obrázek ukazuje, jak Spearmanův koeficient zachytí vztah reprezentovaný raznými bodovými konfiguracemi. Graf F dokumentuje jeho schopnost měřit monotónní vztahy, graf C ukazuje jeho rezistenci vůči odlehlým hodnotám. 269 PŘEHLED STATISTICKÝCH METOD Obr. 7.5 Zobrazen ru/íiych bodových konfiguraci a k ni'n dopociLineho I Pcaisoncva •/•• Spc-;nma..cva •/. > a Ke-idaUova !r • korcT.čnmo koolicientu ? A: r = 0,82 rs = 0,82 tk = 0,64 B: r = 0,82 rs = 0,69 tk = 0,56 3-1 - i 1— r 10 12 14 C: r = 0,82 rs = 0,99 tk = 0,96 • 12 - 10 - • 8 - 6 - ••• ••• •• "i 1 1 r 8 10 12 14 D: r = 0,82 rs = 0,5 tk = 0,43 12 - • 10 - •• 8 - : i •6 - t • 10 12 14 16 X E: r = 0 rs = 0 tk = 0 10 • • • • •9 • • 8 >• 7 • • 6 - 5 - 4 - • • F: r = -0.77 rs = -1 tk = -1 10 - • 8 - 6 - 4 - • 2 - • • • • _ n - 10 12 14 10 12 14 270 7 ANALÝZA ZÁVISLOSTÍ 7.2.7 Kendallův koeficient pořadové korelace Korelační koeficient má měřit „sílu vztahu" dvou proměnných. Ale různé korelační koeficienty ho měn různým způsobem. Pearsonův i Spearmanův korelační koeficient mohou mít hodnotu 0,3, ale pokaždé to znamená něco trochu jiného. Kendallův korelační koeficient má na rozdíl od předchozích dvou jednoduchou pravděpodobnostní interpretaci. Jeho teoretickou hodnotu v populaci označujeme Tk nebo Kendallovo tau. Zatímco Spearman koreloval pořadí, Kendall založil svoji statistiku na inverzích v pořadí. Vycházíme z dat, která se týkají metrického nebo ordinálnflio hodnocení n objektů (i = 1, 2,..., n) podle dvou kritérií X a Y. Ke každému objektu i získáme ohodnocení (xh yt). Nejdříve seřadíme dvojice fey,) tak, že hodnoty xt budou tvořit rostoucí posloupnost. Jestliže mezi kritérii X a Yje kladná asociace, pak také v, budou mít vzestupnou tendenci. Při záporné asociaci budou mít yt sestupnou tendenci. Kendall proto rozlišuje vztah yj > v,-, resp. >>_,• < v,-, pokud j > i (i = 1,2,..., n -1). V prvním případě nastává tzv. konkordance, jež skóruje pro kladnou asociaci, ve druhém diskordance, která skóruje pro negativní asociaci. Počet všech konkordancí, resp. diskordancí označíme P, resp. Q. Rozdíl $ - p - Q někdy nazýváme Kendallovo S a je jednoduchou mírou závislosti. Převaha konkordancí, resp. diskordancí vede ke kladné, resp. záporné hodnotě S. Možná škála hodnot S závisí na rozsahu výběru n. Jednoduchá úprava však tento problém vyřeší. S se totiž může pohybovat mezi hodnotami -0,5n(« - 1) a 0,5«(n - 1). Proto se Kendallův koeficient tau tk počítá podle formule t - S - P ~ Q h ~D~ D ' kdejmenovatel Dje maximální možný počet konkordancí, resp. diskordancí a má hodnotu n(n - l)/2. PŘÍKLAD 7.8 Vypočítáme počet diskordancí a konkordancí pro data v tabulce 7.11. Protože počty P a O jsou přibližně stejné, mezi proměnnou X a Y není pravděpodobně žádná asociace. S má hodnotu 2. Kendallův koeficient tk = 2 36 = 0 05. 271 PŘEHLED STATISTICKÝCH METOD Tab. 7.11 Přiklad výpoclu Kondallova kooíicient-.i pořadové koielace Vek(X) Cholesterol (l') Konkordance Diskordance 41 274 1 7 45 209 4 3 50 194 5 1 51 270 1 4 54 165 4 0. 59 234 2 1 62 281 0 2 68 238 0 1 71 208 0 0 Součet P = 17 0 = 19 Platí -1 < tk < 1 a hodnot právě +1 nabývá tk ve stejných situacích jako Spearmanův koeficient. Kritické hodnoty pro rozhodování, kdy je možné zamítnout hypotézu nezávislosti X a Y (H0: rk = 0), nalezneme pomocí speciálních tabulek. Některé programy dokážou spočítat přesnou /?-hodnotu pro test nulové hodnoty T>. Pro velká n má tk přibližně normální rozdělení se střední hodnotou 0 a směrodatnou odchylkou ÍT Í2(2n + 5) ST ~ y9n(n-l)' pokud proměnné X a Yjsou nezávislé. Rozhodování o nulové hodnotě T> vychází z testovací z-statistiky z = tk/sT, kterou porovnáváme s kritickými hodnotami standardizovaného normálního rozdělení. Interpretace rk je přímočařejší než u Spearmanova koeficientu ps. Jestliže rk = p, můžeme u dvou náhodně vybranýchjedinců očekávat s pravděpodobností p, že jejich seřazení podle kritéria X bude stejné jako seřazení podle kritéria Y. Většinou oba koeficienty mají přibližně stejnou velikost. V kapitole 8.4 poznáme využití Kendallova korelačního koeficientu při hodnocení závislosti v kontingenčních tabulkách, jež vznikly klasifikací objektů podle dvou ordinálních znaků. Jestliže v údajích existují shody (xj = xu resp. yj = yt), musíme výpočet modifikovat, proto/e v tomto případě nemůže koeficient dosáhnout hodnoty - 1 , resp. 1. Modifikaci uplatňujeme při větším počtu shod a týká se jmenovatele D ve vzorci pro výpočet Kendallova tau. Označme 272 7 ANALÝZA ZÁVISLOSTÍ symboly u, resp. v počty shodných pořadí mezi xt, resp. yt postupně v jednotlivých skupinách shodných pořadí a symboly U a V součty, které mají tvar: U = 0,5 YJ "(" - !)» V = 0,5 ^%(v - 1). Modifikace výpočtu spočívá v nahrazení D číslem D' = VCD - U)(D - V). Takto modifikovaný výpočet Kendallova tau nazýváme Kendallovo tau-b, značíme ti,. Kendallovo (;, lze interpretovat jako korelaci mezi hodnotami dx a dy, kde dx se rovná 1, resp. - 1 , pokud pro ;' > i je xj > *;, resp. Xj < Xi, a nule v ostatních případech. Hodnoty dy počítáme obdobně. Jak hodnoty dx, tak hodnoty dy spočítáme pro všechna možná srovnám, kterých je n(n - l)/2. (Zvára, 2000) 7.2.8 Bodově biseriální korelační koeficient a koeficient

1, resp. rbk < - 1 , dosadíme za něj hodnotu 1, resp. - 1 . Uvedený vzorec se v praxi nepoužívá, protože stejnou hodnotu dostaneme použitím algoritmu pro Pearsonův koeficient korelace pro dvojice hodnoť obou proměnných, přičemž binární proměnnou zastupují nuly a jedničky. Jestliže binární proměnná vznikla dichotomizací spojité normálně rozdělené proměnné, můžeme spočítat odhad Pearsonova korelačního koeficientu obou spojitých proměnných pomocítzv. biseriálního korelačního koeficientu (viz Howell, 1992, s. 270). Koeficient (pje Pearsonův korelační koeficient vypočítaný pro dvě alternativní proměnné, které kódujeme pomocí hodnot 0 a 1. (Existuje i jednodušší výpočet, ale ten nemá v době počítačů opodstatnění.) Platí, že se provádí stejně jako test nezávislosti pro čtyřpolní tabulku, kteráje tvořena četnostmi kombinací hodnot obou proměnných (viz kap. 8.3.1). 273