M5VM05 Statistické modelování 6. Ověřování předpokladů v klasickém modelu lineární regrese — II Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modelování 1/17 Multikolinearita Multikolinearitou se rozumí vzájemná lineární závislost vysvětlujících proměnných. Přesnou multikolinearitou se rozumí případ, kdy jednotlivé sloupce Xj, j = 1,... ,k matice plánu X jsou lineárně závislé, takže pro aspoň jednu nenulovou konstantu Cj platí cxxi H-----h ckxk - 0. V praxi bychom se s tímto případem neměli setkávat, neboť při rozumně sestaveném regresním modelu využijeme lineární kombinaci a zmenšíme počet vysvětlujících proměnných. Podobně nereálný je v praxi případ ortogonálních vysvětlujících proměnných, kdy matice X je ortogonální a platí, že X7X = 1^. V praxi se tedy multikolinearitou rozumí případ, kdy přibližně platí rovnice vyjadřující lineární kombinaci vysvětlujících proměnných. V případě silné multikolinearity je determinant informační matice X7X blízký nule, nejmenší vlastní číslo je rovněž blízké nule a matice X7X je „skoro singulární". O multikolinearitě svědčí i vysoké hodnoty poměru největšího a nejmenšího vlastního čísla. Jan Koláček (PřF MU) M5VM05 Statistické modelování 2/17 Důvody multikolinearity • Multikolinearitu způsobuje regresní rovnice obsahující nadbytečné vysvětlující proměnné. Statistickými technikami můžeme přebytečné proměnné identifikovat a vyloučit z regresní rovnice. • Multikolinearitu jen ztěží odstraníme v úlohách, kdy vzájemná spřaženost hodnot vysvětlujících proměnných je způsobena neuvažovanými veličinami nebo formou statistického zjišťování. Jde-li např. o údaje z časových řad, je podobný vývoj sledovaných veličin dostatečným důvodem vzniku multikolinearity. Vzhledem k tomu, že multikolinearitu hodnotíme výhradně na základě určitého souboru pozorování, stačí nesprávný výběr kombinací hodnot vysvětlujících proměnných, nereprezentujících obor možných hodnot, k existenci významné multikolinearity. 9 Závažným důvodem multikolinearity je skutečný vztah vysvětlujících proměnných v rámci sledovaného jevu, procesu nebo systému. V tomto případě je třeba využít všechny informace nevýběrového charakteru k zlepšení kvality regresních odhadů. Jan Koláček (PřF MU) M5VM05 Statistické modelování 3/17 Důsledky multikolinearity V případě přesné multikolinearity je matice X7X singulární a běžnou inverzí nepořídíme odhad neznámých parametrů jS metodou nejmenších čtverců. Pro přibližnou multikolinearitu jsme sice schopni matici X7X invertovat, ale kvalita pořízených odhadů je poměrně nízká. Snížení kvality se projeví « v kovarianční matici var(J3) = cr^X'X)-1 • v přesnosti prováděných výpočtů neboť důsledkem vysokých rozptylů odhadů jsou příliš široké intervaly spolehlivosti, a tedy malá přesnost odhadu. Logickým důsledkem multikolinearity je obtížné vyjádření individuálního vlivu jednotlivých vysvětlujících proměnných. Projeví se to nízkými hodnotami testových kritérií v ŕ-testech nedovolujícími potvrdit závažnost jednotlivých regresorů v regresní funkci. Závažným důsledkem je značná výpočetní nespolehlivost a nestabilní hodnoty regresních odhadů. Stačí malý zásah do statistických údajů a výsledné odhady jsou odlišné. Jan Koláček (PřF MU) M5VM05 Statistické modelování 4/17 Diagonální prvky matice (X'X) , tj. a = diagiX'X)-1 označované v literatuře jako VIF - variance inflarion factors úzce souvisí s vícenásobnými korelačními koeficienty, vyjadřující vztah j-té vysvětlující proměnné a lineární funkce ostatních vysvětlujících proměnných. Lze je zapsat jako 1 kde je koeficient mnohonásobné korelace. Vysoký stupeň multikolinearity se projevuje vysokými hodnotami korelačních koeficientů ry, ale i vysokými hodnotami některých jednoduchých korelačních koeficientů. Jan Koláček (PřF MU) M5VM05 Statistické modelování 5/17 Detekce multikolinearity Testujeme hypotézu Hq : R = \ proti H\ : R / Ij, kde R je korelační matice proměnných. Platí-li nulová hypotéza, pak K = - n-l--(2k + 7) o ln R X 2 Hypotézu Hq tedy na hladině významnosti « zamítáme, pokud ,2 fk(k-l) K>XÍ ol Jan Koláček (PřF MU) M5VM05 Statistické modelování 6/ Identifikace proměnných způsobujících multikolinearitu Pro identifikaci proměnných způsobujících multikolinearitu se doporučují statistiky Fv = n — k 1 ~ k kde djj jsou diagonální prvky matice D = R 1. V případě, že proměnná X, nezpůsobuje multikolinearitu, má veličina Fy Fisherovo - Snedecorovo rozdělení F(k-l,n-k). Jan Koláček (PřF MU) M5VM05 Statistické modelování 7/17 Odstranění multikolinearity Do modelu zařadíme jen ty regresory, které významně přispívají ke zlepšení kvality odhadu jS. K výběru nejlepší podmnožiny regresorů použijeme metodu postupné regrese. Algoritmus : O Spočteme korelační matici R a provedeme test hypotézy Hq : R = 1^. Je-li korelace prokázána, pokračujeme dalším krokem. O Spočteme korelační koeficienty Tyjt^. • • rľY,xk a vybereme ten regresor Xz-, jehož ľyfx. je v absolutní hodnotě největší. O Sestavíme model y = /3q + j6iXz- a odhadneme jeho parametry. Vypočteme (n-2)s| (n—2)ID hodnotu statistiky F = —= i-jp » ^de ^ značí index determinace. Pokud F > Fi_a(l,n — 2), ponecháme regresor Xz- v modelu. O Spočteme parciální korelační koeficienty ^XrXf / • • • / ^Xf.rXf / ry,xifVXi, • • • / rY,XrXz- a vybereme ten regresor Xy, jehož ry7x xz Je v absolutní hodnotě největší. Jan Koláček (PřF MU) M5VM05 Statistické modelování 8/17 Odstranění multikolinearity O Sestavíme model Y = /3q + j6iXz- + /^Xy a odhadneme jeho parametry. Vypočteme hodnotu statistiky F = 3y^D, kde AID je přírůstek indexu determinace při zařazeníXy do modelu a ID je index determinace pro model Y = j6q + j6iXz- + /^Xy. Pokud F > Fi_a(2,n — 3), ponecháme regresor Xy v modelu. O Spočteme parciální korelační koeficienty ^x-^x^Xy)/ • • •/rY,xfc(xz/Xy) a vybereme ten regresor X/, jehož r^x^x^Xy) Je v absolutní hodnotě největší a tak pokračujeme dále. Jan Koláček (PřF MU) M5VM05 Statistické modelování 9/ Další možnosti Zlepšování podmíněnosti matice X7X • Model standardizovaných proměnných. Místo původních proměnných yt Xjj pracujeme s proměnnými ve tvaru n. y j -y _ xíj ~ *j kde Sy a $Xj Jsou směrodatné odchylky jednotlivých proměnných. Standardizací vysvětlujících proměnných dostáváme při použití metody nejmenších čtverců místo matice X7X korelační matici R = ZfZ/n. Vektor Z7q/n obsahuje jednoduché korelační koeficienty ľyX.. Standardizací proměnných se zmenšují zaokrouhlovací chyby a zlepšují se možnosti hodnocení individuálního vlivu proměnných pomocí regresních parametrů. Jan Koláček (PřF MU) M5VM05 Statistické modelování 10 Další možnosti • Model v kanonickém tvaru. Místo modelu ve tvaru Y = X7j6 + e pracujeme s modelem Y = U77 + e, kde matice U = XV, vektor 7 = V7j6 a V je matice standardizovaných vlastních vektorů odpovídajících vlastním číslům matice X7X. Odhady parametrů v kanonickém tvaru: 7 = L^U'Y, kde L je diagonální matice s vlastními čísly matice X7X. Kovarianční matice odhadů var(j) = cr2L-1 ukazuje, že i v tomto případě jsou odhady nezávislé. Residuální součet čtverců se transformací nemění. • Hřebenová regrese (ridge regression) - lm.ridge v balíku MASS Jan Koláček (PřF MU) M5VM05 Statistické modelování 11/17 Příklad V souboru „výdaje.Rdata" jsou uložena data o 20 náhodně vybraných domácnostech. Sloupce proměnné „domácnosti" obsahují postupně tyto údaje: výdaje za potraviny a nápoje (Y), počet členů domácnosti (Xi), počet dětí (X2), průměrný věk výdělečně činných (X3) a příjem domácnosti (X4). Metodou postupné regrese zkonstruujte model s nejlepší podmíněností regresorů. Řešení Uvažujme nejdřív model se všemi regresory. Spočtěme nejprve pro ilustraci 21,23 16,18 1,31 3,4 Testujeme-li hypotézu Hq : R I4, hodnota testové statistiky K = 19 15 ln R 64,94 6 výrazně převyšuje kritickou hodnotu X095 (6) = 12,59. Hypotézu Hq tedy na hladině významnosti 0,05 zamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modelování 12/17 Řešení Pro identifikaci proměnných způsobujících multikolinearitu můžeme spočítat dílčí statistiky Fy clenu deti vek pri jem 107,88 80,94 1,66 12,83 které porovnáme s kritickou hodnotou ^95(3,16) = 3,24. Postupná regrese O Spočteme korelační koeficienty ryx^• • • /^y,x4 = (0/77;0,67;0,18;0,73). Vybereme regresor Xi, neboť jeho korelace je v absolutní hodnotě největší. O Sestavíme model y = /3q + ^\X\. Vypočteme hodnotu statistiky r (n-2)ID 18-0,5897 oř ory -r . ■ F = v 1IJD = x-05897 = 25,87. Tato hodnota je vetsi nez ^0,95(1/18) = 4,41, takže regresor Xi ponecháme v modelu. O Spočteme parciální korelační koeficienty ^Xz-Xi/^y^-Xi/^YÄ-Xi = (0,36;0,499;0,32). Vybereme regresor X3, jehož parciální korelační koeficient je v absolutní hodnotě největší. Jan Koláček (PřF MU) M5VM05 Statistické modelování 13/17 Řešení O Sestavíme model Y = j6q + fi\X\ + ($2X3. Vypočteme hodnotu statistiky F = ^1 3jdID = V-l^ 6^ = 5,64. Tato hodnota je větší než £0,95(2,17) = 3,59, tedy ponecháme regresor X3 v modelu. Q Spočteme parciální korelační koeficienty rY,x2.0ti,X3)>rY,xK{xlfX3) = (0,19;0,17). Vybereme regresor X2, jehož parciální korelační koeficient je v absolutní hodnotě největší. O Sestavíme model Y = j6q + fi\X\ + $2X3 + ^3X2. Vypočteme hodnotu statistiky F = ^ 4j^ID = Í^q 704 = 0,63. Tato hodnota je menší než ^0,95(3/16) = 3,24, a tedy regresor X2 již nezahrneme do modelu. Výsledný model je tedy tvaru Y = j60 + i6iX1+i62X3. Jan Koláček (PřF MU) M5VM05 Statistické modelování 14/ Úlohy k procvičení Příklad 1 V souboru „ cement .RData" jsou uloženy údaje, které se týkají chemického složení portlandského cementu: y množství tepla v kaloriích na gram cementu X\ Tricalcium aluminate 3CaO.AI203 v % %2 Tricalciam silicate 3CaO.Si02 v % X3 Tetracalcium alumino ferrite 4CaO.AI203.Fe203 v % X4 Dicalcium silicate 2 Ca 0. S i 02 v % Testujte multikolinearitu v daném modelu. Metodou postupné regrese nalezněte vhodný model. Poté ověřte normalitu residuí. [Multikolinearita se nezamítá, vhodný model: y = j6q + jSiXi + ^2^2 + ^3X4, normalita residuí se nezamítá.] Jan Koláček (PřF MU) M5VM05 Statistické modelování 15/17 Úlohy k procvičení Příklad 2 V proměnné „mtcars"3 jsou uložena data pro modelování závislosti spotřeby paliva osobních automobilů (proměnná mpg, počet mil/galon) na vlastnostech motoru, které jsou popsány následujícími proměnnými: cyl počet válců disp objem válců (kubické palce) hp výkon (počet koní) drat převodový poměr zadní nápravy wt hmotnost vozidla (kilolibry) qsec zrychlení (počet sekund z 0 na 1/4 míle) vs uspořádání válců (1 - „ V", 0 - za sebou) am převodovka (0 - automat, 1 - manuál) g e ar počet převodových stupňů carb počet karburátorů Testujte multikolinearitu v daném modelu. Metodou postupné regrese nalezněte vhodný model. Ověřte také normalitu residuí. adatový soubor implementovaný v jazyce R Jan Koláček (PřF MU) M5VM05 Statistické modelování 16/ Úlohy k procvičení [Multikolinearita se nezamítá, vhodný model: mpg = j6q + /5iwt + /^cyl, normalita residuíse nezamítá.] Příklad 3 (pro náročné) Naprogramujte funkci „multicol .R", která pro zadaný model zjistí přítomnost multikolinearity v datech. V případě, že je multikolinearita přítomna, metodou postupné regrese nalezne vhodný model. Jan Koláček (PřF MU) M5VM05 Statistické modelování 17/17