Ondřej Pokora M5120 Lineárni statistické modely I - poznámky do cvičení 1/39 podzim 2013 M5120 Lineární statistické modely I Poznámky do cvičení Ondřej Pokora (pokora@math.muni.cz) Ústav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno podzim 2013 (aktualizace 16.12.2013) Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení Maximálně věrohodné odhady Náhodný výběr Xír...,Xn rosahu n z rozdělení pravděpodobnosti P: ► X~P(z' = l,...,n) ► Xi,... ,X„ jsou stochasticky nezávislé ► Co to znamená pro vztah mezi simultánní a marginální hustotou pravděpodobnosti f(x) (pravděpodobnostní funkci p(x)) | Rozdělení pravděpodobnosti závislé na parametru (parametrech) 6: ► f(x),p(x) jako funkce proměnné 6 =>■ L(6) Věrohodnostní funkce L(6) a logaritmická věrohodnostní funkce 1(6): L(6) = L(6;Xl.....xn) = Y[f(xľ/6) = Ylp(xľ/6) i=l i=l _ n n 1(6) = 1(6; Xi, ...,xn) = \nL(6;xi,... ,xn) = ^ ln/(x,;0) = ^lnp(x,;0) n n i=l i=l Jak odhadnout 6 ze znalosti Xlr..., X„ ? Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení 3/39 podzim 2013 Maximálně věrohodné odhady Myšlenka: parametr 6 odhadneme hodnotou, která je při daném náhodném výběru ze známého rozdělení pravděpodobnosti nejvíce pravděpodobná. Maximálně věrohodný odhad (MLE = maximum likelihood estimator) 0ML parametru 6 se získá maximalizací věrohodnostní funkce L(6): 6ml '■ L(6;xi,... ,xn) —>■ max, resp. l(6;xi,... ,xn) —>■ max 0 o To znamená najít stacionární bod funkce 1(6) vzhledem k 6, ^1(6) = 0 (věrohodnostní rovnice), ó6 a ověřit 2. diferenciál, resp. derivaci, 9=9ML Poznámka: v případě vektoru parametrů 6 řešíme soustavu věrohodnostních rovnic pro 6 z 1. derivací a ověřujeme negativní definitnost matice 2. derivací. Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení MLE - příklady (1) podzim 2013 B Najděte ML-odhad parametru 6 e [0,1] pro náhodný výběr Xlr... ,Xn z binomického rozdělení B\(N,6) (NěN známé) s pravděpodobnostní funkcí (x) = (Nx)8x(l - 6)N-X pro x = 0,1,...,N; (x) = 0 jinak. 2. Najděte ML-odhad parametru 0 e [0,1] pro náhodný výběr X\,... ,Xn z geometrického rozdělení Ge(ŕ?) s pravděpodobnostní funkcí p(x) = (1 - 6)x6 pro x e N0; p(x) = 0 jinak. 3. Najděte ML-odhady parametrů ]i e IR a o-2 > 0 pro náhodný výběr Xlr... ,Xn z Gaussova rozdělení N(//,o-2) s hustotou pravděpodobnosti /(*) = /r-r eXP V2TZCT2 2 a2 4. Najděte ML-odhady parametrů e IR a cr2 > 0 pro náhodný výběr X\,...,Xn z logaritmického normálního rozdělení LN(//, c2): (lnx — ]i)2 f(x) V2na2x exp 2 a2 pro x > 0; /(*) = 0 jinak. Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení MLE - příklady (2) 5/39 podzim 2013 5. Najděte ML-odhad parametru ]i > 0 pro náhodný výběr X\,..., Xn z exponenciálního rozdělení Ex(^) s hustotou pravděpodobnosti /(*) = - exP pro x > 0; f(x) = 0 jinak. 6. Najděte ML-odhad parametru A > 0 pro náhodný výběr Xlr..., Xn z exponenciálního rozdělení Ex(A) s hustotou pravděpodobnosti f(x) = A exp [—Ax] pro x > 0; f (x) = 0 jinak. 7. Najděte ML-odhady parametrů A > 0 a k > 0 pro náhodný výběr Xlr.. z Weibullova rozdělení Wb(A,A:) s hustotou pravděpodobnosti f(x) =k\xk 1 exp -A ŕ pro x > 0; f(x) = 0 jinak. 8. Najděte ML-odhad parametru s > 0 pro náhodný výběr Xlr..., Xn z Rayleighova rozdělení Ra(s) s hustotou pravděpodobnosti f(x) = - exp x^ "2s pro x > 0; f(x) = 0 jinak. Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení MLE - příklady (3) podzim 2013 9. Najděte ML-odhad parametru A > 0 pro náhodný výběr Xlr..., X„ z Gamma rozdělení ľ(\,k) (k > 0) s hustotou pravděpodobnosti f(x) = yJjčj exp [—Ax] pro x > 0; f (x) = 0 jinak. Najděte také věrohodnostní rovnici pro ML-odhad k. Pomůcka: Lnr(ť) — — digamma funkce. *. Další příklady pro odvození ML-odhadů parametrů v rozděleních s podobnými tvary hustot naleznete na stránce dr. Forbelské. Ondřej Pokora M5120 Lineárni statistické modely I - poznámky do cvičení MLE - řešení příkladů 1. #ml 2. 8ML 6. Á ml 7. AML X Ň 1 1 + X 3. /?ML = x , £72ML = - J^(Xj - fiMlý ni=i i " -~- i n 4. Pml = - lnXí ' ^ml = - I](lnX; - Fml)2 n Í~í n ,-=i 5. AML — X 1 X 8- «ml=^E^ ^ " i=\ 9. AML = = , ML-rovnice pro£: Y(í:ML) = lnA + X X Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení 8/39 podzim 2013 Odhady parametrů momentovou metodou Odhady parametrů tzv. metodou momentů spočívá ve vyjádření několika prvních (tolik, kolik potřebujeme) momentů Mp rozdělení pravděpodobnosti náhodné veličiny X, Mp = E(XP) (p = l,2,...) . Teoretické momenty Mp závisí na neznámých parametrech, které chceme odhadnout. Momenty Mp v rovnici (rovnicích) nahradíme (aproximujeme) výběrovými momenty mp, ™v=\t*Vi (P = l,2,...) , " í=i které závisí pouze na náhodném výběru. Algebraickým vyjádřením (příp. numerickým výpočtem) hledaných parametrů z rovnice (systému rovnic) pro m} obdržíme odhady 6m momentovou metodou. Ondřej Pokora M5120 Lineární- statistické modely I - poznámky do cvičení Momentové odhady - příklady podzim 2013 Jako cvičení spočtěte odhady parametrů momentovou metodou v příkladech 1.-9. pro maximálně věrohodné odhady. Nejdříve odvoďte (pro hustoty integrováním), nebo pomocí tabulek či počítače nalezněte, momenty daných rozdělení pravděpodobnosti, M„ E(XP) (p = l,2,...) Pro kontrolu jsou první dva momenty Mi,AÍ2 uvedeny v tabulce vpravo. Poté odvoďte momentové odhady parametrů a porovnejte je s maximálně věrohodnými odhady. příklad Mi M2 1. N6 n e (1-e) 2. 1-8 e (l-0)2+(l-0) 3. 4. exp ji + JíC2] exp [2ji + 2a2] 5. 2]? 6. i A 2 A2 7. |A-r(i) A-fr(i + |) 8. / 7TS V 2 2s 9. k A A2 Ondřej Pokora M5120 Lineární- statistické modely I - poznámky do cvičení Momentové odhady - řešení příkladů podzim 2013 1 " Označení: p-tý výběrový moment = mv = — (p = 1,2,...) n i=l 1. mi ~~ N~ 2. #M 1 1 + WIi 3. Fm = m1 , £72M = m-i — m\ 4. Fm = 2 ln nii — j ln m2 > a2M = lnm2 5. Am 6. AM 1 mi 8. SM —-- , anebo 71 Sm = -y 9. AM nii ni2 — m\ m2 — mi Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení 11/39 podzim 2013 Náhodné vektory Náhodný vektor X = (Xlr.. .,Xn)' (reálný) je měřitelná vektorová funkce X = (Xi,... ,Xn)' : fi —>■ R", jejíž složky jsou náhodné veličiny, X,- : fi —>■ R, na stejném pravděpodobnostním prostoru (C1,A,P). Střední hodnota E(X) náhodného vektoru je definována po složkách: Kovarianční matice cov(X) (variance-covariance matrix) náhodného vektoru: ► cov(X) je čtvercová řádu n, symetrická (proč?) ► hlavní diagonálu tvoří rozptyly D(X(), ostatní složky jsou kovariance C(XirXj) - pozitivně semidefinitní, tzn. Vm 6 R" : m'cov(X) u > 0 Poznámka: Anglická literatura často užívá společný pojem variance (var,Var). Potom rozumíme: var(X) = D(X) pro náhodnou veličinu a var(X) = cov(X) pro náhodný vektor. E(X)= (E(X0.....E(X„)) D(X) = cov(X) = {cy} n , kde Cy = C(X,,X;) . Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení 12/39 podzim 2013 Jednoduché transformace náhodných vektorů Lineární transformace W —>■ Wn: E(a + BX) = a + BE(X) cov(a + BX) = Bcov(X)B' Lineární forma R" —>■ R: E(a + b'X) =a + b'E(X) D(a + b'X) = b' cov(X) b Kvadratická forma W —>■ R: E(X'AX) = E(X)'AE(X) +Tr [Acov(X)] a 6 Rffi; B 6 R"Xffl; a e R; e Rm; A e R"x" pozitivně definitní Stopa (Trace) matice = Tr(C) = EÍLi{cm'} Platí: Tr(ABC) = Tr(BCA) = Tr(CAB) Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení 13/39 podzim 2013 Známé vzorce ve vektorové (maticové) formě z-tá složka náhodného vektoru X,- = e[X, kde e, = (0i,...,0,_i, 1,-, 0,+i,...,0„)' je jednotkový vektor výběrový průměr druhý výběrový moment 1 " 1 - X2 = —X' I„ X, kde I„ je jednotková matice řádu n n r—í. n i=\ čtverec výběrového průměru (X)2 = x'x = ^X'jn X, kde /„ = je matice jedniček Ondrej Pokora M5120 Lineárni štatistické modely I - poznámky do cvičení Náhodné vektory - príklady (1) podzim 2013 V následujících příkladech spočítejte E(X),cov(X) náhodného vektoru X: 13. Znáte: E(X,) = 10i, C(X,,X;) = i), = 1,2). 14. Znáte: E(X,) = 10i, D(X,) = i2, = 1,2,3); R(X,-,X;) = 0,5 pro i^j. 15. X je náhodný výběr rozsahu 4 z rozdělení N(10,4). 16. X je náhodný výběr rozsahu 5 z rozdělení Ex(A). 17. Znáte: E ( X2 | = ( 30 | ,cov ( X2 | = ( ? 9 ? | . Spočítejte střední hodnoty, rozptyly, kovariance, korelační koeficienty náhodných veličin X1,X2, X3. Které dvojice (trojice) veličin jsou stochasticky nezávislé? 18. V příkladu 17., s využitím vhodných transformací, spočítejte: ► E(10X3) ► D(10X3) - E(2Xi-5X3-X2) ► D(2Xi-5X3-X2) ► C(10X3,2X!-5X3-X2) ► R(10X3,2X! -5X3 - X2) ► C(Xi + X2, X3 - X2) ► R(Xi + X2, X3 - X2) Ondrej Pokora M5120 Lineárni štatistické modely I - poznámky do cvičení Náhodné vektory - príklady (3) podzim 2013 23. Spočtěte střední hodnotu m = E (Y2 + Y\ + Y|) a kovarianční matici cov(Y), kde Y1 = Xlr Y2 = X1 + X2, Y3 = X1+X2 + X3 jsou transformace vzájemně nezávislých náhodných veličin Xi,X2,X3, E(Xi) = 10, E(X2) = 20, E(X3) = 30, D(Xi) = 1, D(X2) = 4,D(X3) = 9. 24. Spočtěte střední hodnotu m = E (Y{Y2 + Y2Y3 + Y3Yi) a kovarianční matici cov(Y), kde Y1=X2 + X3, Y2 = Xx + X3, Y3 = Xx + X2 jsou transformace vzájemně nekorelovaných složek náhodného vektoru X, E(X) = (10,10,10)', D(X,) = z2. 25. Spočtěte E(Y), cov(Y) a m = E (Y2 + Y2 + Y2 + Y2 + 2YiY4), kde Xx,X2, X3,X4 jsou náhodné veličiny, E (X,) = 10, C(X,-, X^) = 1. Známe transformační vztahy Xi = Yx, X2 = Y2 - Yx, X3 = Y3 - Y2, X4 = Y4 - Y3. 26. Spočítejte střední hodnotu povrchu hranolu s podstavou tvaru čtverce. Délka hrany podstavy je náhodná veličina se střední hodnotou 10 a rozptylem 1, výška hranolu je náhodná veličina se střední hodnotou 20 a rozptylem 9 a její korelační koeficient s délkou hrany podstavy je 0,1. Ondrej Pokora M5120 Lineárni štatistické modely I - poznámky do cvičení Náhodné vektory - príklady (3) podzim 2013 19. Ověřte, pro že výběrový průměr X náhodného výběru rozsahu n z rozdělení se střední hodnotou ]i a rozptylem a2 platí: E (X) = ]i, D (X) = a2In. 20. Ověřte, že pro výběrový rozptyl S\ náhodného výběru rozsahu n z rozdělení N(//,o2) platí: E (S|-) = o2. Bonusová těžší úloha: ověřte, že D (S|-) = 2t74/(n — 1). 21. Ověřte, pro že pro náhodný výběr rozsahu n z rozdělení se střední hodnotou ]i a rozptylem o2 platí vztah E [3Qi — Q2] = (n — 3)cr2, kde Q1 = ELi (Xi ~ X)2 a Q2 = (X„ -X1)2 + ^(X,- - X,-^)2. 22. Spočítejte E(Y) a cov(Y) transformovaného náhodného vektoru 0\ A 1 4 Y= 1 + -1 2 X, kdyžE(X)= í1"0l,cov(X) = L Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení 17/39 podzim 2013 Náhodné vektory - řešení příkladů 18. E(10X3) = 20 - E(2X1-5X3-X2) = 0 ► C(10X3,2Xi-5X3-X2) = -390 ► C(X1+X2/X3-X2) = 25 22. E(Y) = ( 21 ), cov(Y) \ 100 D(10X3) = 1600 ► D(2Xi -5X3 -X2) = 399 ► R(10X3/2X1-5X3-X2) w-0,488 ► R(Xi + X2/ X3 - X2) » 0,905 7 8 50 13 70 23. m = 4600 + 20 = 4620, cov(Y) 24. m = 1200 + 14 = 1214, cov(Y) 25. E(Y)= fl0\ 20 30 \4oy , m = 3800 + 38 = 3838, cov(Y) = 2 3 4^í 2 4 6 8 3 6 9 12 \4 8 12 16j 26. Střední hodnota povrchu uvedeného hranolu je rovna 1000 + 3,2 = 1003,2. Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení Lineární regresní model (LRM) popisuje lineární závislost p Y je závislá proměnná, náhodná veličina ► X\,...,Xp jsou nenáhodné vysvětlující proměnné, tzv. regresory e je náhodná chyba, E(e) = 0, s neznámým konstatním rozptylem D(e) = a2 ► /30,f$i,...,fip jsou neznámé parametry >• úkol regresní analýzy: na základě opakovaných měření závislé proměnné za různých hodnot regresorů optimálně určit parametry /30, f>\,...,f>v modelu >• předpokládáme, že měření je opakováno n krát, tzn. pro i= l,...,n máme: >• náhodné chyby t\,..., e„ jsou nezávislé stejně rozdělené náhodné veličiny P (i.i.d.) Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení LRM {Y,Xfi,a2I) plné hodnosti 19/39 podzim 2013 Y i = Po + Yl Pjxi,j + £i v maticovém tvaru: y = x jg + e, \1 Xn,l y xhp\ /Po\ /£A h + V/V VnJ Y je náhodný vektor n pozorování regresory tvoří nenáhodnou n x k matici plánu (design matrix) X /} je vektor k = p + 1 neznámých parametrů závislost je lineární vzhledem k parametrům fy vektor náhodných chyb má kovariační matici D(e) = cr2I„ n > k = p + 1, tj. počet pozorování je větší než počet parametrů matice plánu je plné hodnosti: h(X) = k = p + 1 Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení Metoda nejmenších čtverců (MNC) podzim 2013 V LRM Y = X/3 + e chceme najít vektor parametrů /3 tak, aby naměřené hodnoty Y byly optimálně aproximovány vektorem X/3. Metoda nejmenších čtverců (ordinary least-square method) stanovuje odhad /} jako bod minima penalizační funkce, která je součtem čtverců odchylek: E (Yi -fa-E xi,i p!) = (y - xč)'(y - xp) —► min p - Při splnění podmínek pro LRM plné hodnosti existuje vždy právě jedno řešení této minimalizační úlohy. To lze nalézt vyřešením soustavy normálních rovnic X'X/3 = X'Y Odhad vektoru parametrů v LRM metodou nejmenších čtvreců je tedy tvaru 3 = (X'X^X'Y Poznámka: při numerických výpočtech se inverzní matice nepočítá přímo, ale využívá se např. Q-R rozkladu. Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení Veličiny v LRM (1) podzim 2013 Aproximované hodnoty závislé proměnné (fitted values, Y-hat) y = x^ = x(x'x)"1x/y Rezidua (residuals): r = Y — Y Reziduálni součet čtverců Se = tň = Ě(y<- " ŕ,)2 = r'r =(Y- XJ8)'(Y - XJ8) í=i í=i kvantifikuje velikost variability, kterou se nepodarilo LRM vysvětlit. Odhad rozptylu c2 náhodných chyb crz = S — - — - n—k n—p—l Standardní reziduálni chyba (residual standard error): a = s = Vš2 Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení Veličiny v LRM (2) podzim 2013 > Regresní součet součet čtverců Sr = t(Ýi-Y)2 z'=l kvantifikuje velikost variability, kterou se LRM podařilo zachytit. Je dán součtem kvadrátů odchylek aproximovaných hodnot od výběrového průměru. ► Celkový součet součet čtverců je násobkem výběrového rozptylu: St = E(Y,--Y)2 = (n-l)s£ z'=l ► Platí: St = Sr + Se Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení Koeficient determinace v LRM podzim 2013 ► Koeficient determinace (coefficient of determination, R-squared) ^2 _ ^ Se _ Sr _ Sr/n _ ML-odhad vysvětleného rozptylu St St St/n ML-odhad celkového rozptylu se používá ke kvantifikaci poměrné části variability, kterou se LRM podařilo vysvětlit R2 £ [0,1] ► V LRM platí: R2 = koeficient mnohonásobné korelace = korelační poměr Korigovaný koeficient determinace (adjusted R-squared, R-bar-squared) Ř2 = l-(1-K2)^ = n — k _ Sel (n — k) _ s2 _ odhad rozptylu chyb St/(n — 1) Sy výběrový celkový rozptyl lze použít pro porovnání různých podmodelů LRM Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení Řešení LRM pomocí r 24/39 podzim 2013 V R řeší LRM příkaz lm (linear model): model <- lm (formule, data=tabulka) Máme-li zvlášť vektor regresorů (x) a pozorování (Y), datovou tabulku (data frame) vytvoříme příkazem: tabulka <- data.frame (x, Y) Zápis tzv. formule pro některé regresní funkce: Y = p0 + plX Y - x, nebo Y - 1 + x, abolutní člen je vkládán implicitně Y = fcx Y - 0 + x Y = fo + plx + p2x2 Y - x + I(x~2) Y = fa\x\ Y - 0 + I(abs(x)) Y - I(exp(x)) Y = ft, + h Inx Y - Klog(x)) Detailní výsledky a další číselné charakteristiky získáme příkazem výsledky <- summary (model) , příp. s parametrem correlation=TRUE pro výpočet výběrové korelační matice parametrů. Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení Veličiny v LRM pomocí r 25/39 podzim 2013 MNČ-odhady parametrů model$coefficients coef(model) (^SD(^),T//P/) odhady, směrodatné odchylky, testy významnosti, p-hodnoty vysledky$coefiicients coef(vysledky) Y aproximované hodnoty model$fitted.values f itted.values(model) r rezidua model$residuals residuals(model) n — k stupně volnosti model$df.residual X matice plánu model.matrix(model) s odhad směrod. odchylky chyb vysledky$sigma R2 koeficient determinace vysledky$r.squared korigovaný koef. determinace vysledky$adj.r.squared (F,k-l,n-k) celkový F-test vysledky$fstatistic (k,n-k,k) stupně volnosti vysledky$df m korelační matice pro j6 vysledky$correlation Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení Grafy regresních funkcí v r podzim 2013 Připravíme souřadnicový systém vhodných rozměrů (první dva vektory min-max), do nějž zatím nic kreslit nebudeme (type="n"), přidáme popisky: plot (c(0,70), c(-5,60), type="n", xlab="osa x", ylab="osa y") Pomocí bodů vykreslíme data z tabulky, tzn. (x, Y). První dva parametry jsou vektory x-ových a y-ových souřadnic, následují grafické parametry: points (tabulka$x, tabulka$Y, col=4, pch=24, lwd=1.5, cex=1.0) Zvolíme si dostatečně hustou síť x-ových souřadnic (x*): xx <- seq (0, 70, by=0.1) Dopočítáme k nim odpovídající y-ové souřadnice, tzn. Y*: YY <- predict (model, data.frame (x=xx)) Vykreslíme graf funkce jako křivku (x^Y*), podobně jako body: lineš (xx, YY, col=2, lwd=1.5, lty=2) Obrázek můžeme uložit mj. příkazem dev. copy2pdf (f ile="obrázek.pdf") Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení 27/39 podzim 2013 matka Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení LRM - příklady (1) podzim 2013 Datové soubory k následujícím příkladům jsou dostupné na serveru bart v adresáři /erko/M5120/data, odkud si je můžete zkopírovat. Pro jednotlivé soubory postupně navrhněte několik různých regresních modelů, spočítejte odhady parametrů a další číselné charakteristiky, a modely porovnejte. Vykreslete do jednoho obrázku data i grafy spočítaných regresních funkcí. Později přidejte testování významnosti modelu (F-test) a testy významnosti parametrů (r-testy). 31. Datový soubor C3H603.txt. Pomocí (obecné) regresní přímky spočítejte MNČ-odhady vektoru parametrů /}, aproximace Y, reziduálni součty čtverců Se a s2 v LRM (Y, X a21) pro data X 40 64 34 15 57 45 Y 33 46 23 12 56 40 Jedná se o měření závislosti množství kyseliny mléčné ve 100 ml krve u matky-provorodičky, x, a jejího novorozence, Y. Obě veličiny jsou uváděny jako hmotnost v mg. Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení LRM - příklady (2) podzim 2013 32. Datový soubor roztaznost.txt. Pomocí regresní přímky procházející počátkem spočítejte MNČ-odhady vektoru parametrů /}, aproximace Y, reziduálni součty čtverců Se a s2 v LRM (Y,X/3,o2!) pro data X 10 20 30 40 50 60 Y 0.18 0.35 0.48 0.65 0.84 0.97 Jedná se o měření koeficientu teplotní délkové roztažnosti měděné trubky. Teplotní rozdíl od 20 °C je x, prodloužení tyče je měřená veličina Y. 33. Datový soubor palivo. txt. Pomocí (obecné) regresní paraboly spočítejte MNČ-odhady vektoru parametrů /}, aproximace Y, reziduálni součty čtverců Se a s2 v LRM (Y, X /S, o21) pro data X 40 50 60 70 80 90 100 Y 6.1 5.8 6.0 6.5 6.8 8.1 10.0 Jedná se o měření závislosti spotřeby paliva, Y v 1/100 km motorového vozidla na rychlosti, x v km/h, při zařazeném stejném rychlostním stupni. Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení LRM - příklady (3) podzim 2013 34. carb_dio. tab : Zkoumejte závislost koncentrace CO2 v atmosféře v letech 1764-1995 pomocí regresní funkce tvaru vhodného polynomu a exponeneciální funkce. Predikujte hodnoty pro 21. století. 35. carbon_e.tab : Zkoumejte závislost uhlíkových emisí v letech 1950-1995 pomocí regresní funkce tvaru vhodného polynomu. Predikujte hodnoty pro 21. století. 36. globtemp. txt: Zkoumejte závislost průměrné teploty v letech 1866-1996 pomocí regresní funkce tvaru vhodného polynomu. Predikujte hodnoty pro 21. století. 37. oil_prod.txt: Zkoumejte závislost objemu vytěžené ropy v letech 1880-1988 pomocí regresní funkce tvaru vhodného polynomu a exponeneciální funkce. Predikujte hodnoty pro 21. století. 38. population.txt: Zkoumejte závislost velikosti populace na Zemi na čase pomocí regresní funkce tvaru vhodného polynomu a exponeneciální funkce. Predikujte hodnoty pro 21. století. Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení LRM - příklady (4) podzim 2013 U vícerozměrných dat dále spočítejte výběrové korelační koeficienty a výběrové parciální korelační koeficienty. Obdržené hodnoty intepretujte. 39. beh.txt: Příklad na vícerozměrnou regresi (maratónské běžkyně, 1977). Pomocí regresních přímek zkoumejte závislosti mezi třemi veličinami: rychlost běhu, koroková frekvence, délka kroku. 40. deti.txt: Příklad na vícerozměrnou regresi. Pomocí regresních přímek zkoumejte závislosti mezi třemi veličinami: hmotností dítěte, věkem a počtem bodů z diktátu. 41. domacnostil957.txt: Příklad na vícerozměrnou regresi (CSR, 1957). Pomocí regresních přímek zkoumejte závislosti mezi třemi veličinami: počtem členů domácnosti, příjmy a výdaji. 42. enrollment.txt: Příklad na vícerozměrnou regresi (VŠ v USA). Pomocí regresních přímek zkoumejte závislosti mezi veličinami: počet přihlášek na vysokou školu (ROLL), míra nezaměstnanosti (UNEM), počet absolventů střední školy (HGRAD) a průměrný příjem (INC). Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení 32/39 podzim 2013 Rozdělení pravděpodobnosti v LRM máme bodové odhady /}, chceme intervalové odhady a testování hypotéz teorie klasického LRM předpokládá e ~ N(0, cr2In) Potom máme: Y ~ N (X/3, cr2I„) MNČ-odhad /} vektoru parametrů je nestranný, /} ~ N (/S, cr2(X'X)_1) s2 je nestranným odhadem rozptylu náhodných chyb, E(s2) = a2 náhodné veličiny /} a s2 jsou stochasticky nezávislé ■ = c'p-c'p° = „ t/n _ k) (c 6 Rfc) s ^'(X'X)-^ V 7 i'w-11 ■ ~ F(m, n —k) s2 m F = • /?* je subvektor o m složkách • W je tomuto subvektoru odpovídající blok m x m matice (X'X)-1. • horní index 0 značí zvolený číselný vektor, např. při testování významnosti dosazujeme /S° = (0, ■ ■ ■ ,0k)', resp. £*° = (0, ■ ■ ■ ,0m)' Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení Testy významnosti v LRM podzim 2013 Test významnosti koeficientu fy, tj. testfí0: fy = 0 proti H\: fy 7^ 0: ► v T volíme c = e,- (z'-tý jednotkový vektor), /3° = 0 Tř =&gUt(n-*), *y={(X'X)-% Test významnosti modelu , H0: (/3i,... ,fy) = 0 proti H\: 3i > 0: /3(- ^= 0: ► vFvolíme/3* = (fy,.. .,fy), m = k - 1, £*° = (0,...,0p) n-k Sr n-k f St \ Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení 34/39 podzim 2013 Obecné testy parametrů v LRM Test lineární kombinace koeficientů H0: c'/3 = c'/3° proti H\\ c'/5 7^ c'/3°: ► c£Rř volíme podle požadované lineární kombinace >• /3° volíme tak, aby c'/3° e IR byla testovaná hodnota T = ,P P = ~ t(n - k) s y/c'iX'X)-^ Příklad (parabola) • ^0 + ^1 = 1? volíme c = (1, l,0)',c'/3° = 1 ► Příklad (přímka) • 20o - 3ft = 10? volíme c = (2,3)',c'/3° = 10 Vektorový test koeficientů H0: /3* = proti jfT 7^ ► testujeme subvektor /}* om složkách (m < k) (jfř-jS*0)' w-1 (/? - 0*°) F = -^-^-^ ~ F(m, 11—k) sz m ► W je testovanému subvektoru odpovídající blok m x m matice (X'X)-1 Příklad • (fofr)' = (0,0)'? ► Příklad • (/30,/3i)' = (0,1)'? Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení Korelační koeficient 35/39 podzim 2013 Korelační koeficient (Pearsonův) Rxy: . C(X,Y) XY ~ yô(x)yĎ(Y) ► Rxy e >• je mírou lineární závislosti náhodných veličin X, Y (s kladnými rozptyly) ► Kovariance: C(X, Y) = E [X - E(X)] [Y - E(Y)] Pro normálně rozdělené náhodné veličiny lze interpretovat pomocí LRM s regresní funkcí Y = /30 + piX: - Rxy = 1 =>■ pozitivní lineární závislost, /3i > 0 je významný ► RXy = —1 =>■ negativní lineární závislost, f>\ < 0 je významný ► Rxy = 0 =/- lineární nezávislost, f>\ není významný Obecně platí implikace: X, Y stochasticky nezávislé =>■ Rxy = 0 (nezávislost =>■ nekorelovanost) Pro normálně rozdělení náhodně veličiny platí ekvivalence (nezávislost = nekorelovanost) Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení Výběrový korelační koeficient 36/39 podzim 2013 Výběrový korelační koeficient rXy' ► je empirickou analogií korelačního koeficientu Rxy - pro náhodný výběr ((Xi, Yx)',..., (X„,Y„)') SxY SxSy 2 rxY Výběrový rozptyl: S2 = ^ E?=1(X - X)2 = ^ (p=1 X2 - nX Výběrová kovariance: Sxr = Ľf=i(X,- - X)(Y,- - Y) = ^ (0=1 X,-Y,- - nXY) Testy pro normálně rozdělené náhodné veličiny: Test nezávislosti H0: RXy = 0 proti Rxy 7^ 0: T = rxy .ATT? ^ t(n - 2) V 1 ~ rxr • Testfí0: Rxy = Ro proti H^. RXy 7^ Ro (tzv. Z-transformace): !i = = ln----ln--— - —-— Ví! - 3 ~ N(0,1) 2 l-rXy 2 1 - R0 2(n -1) Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení 37/39 podzim 2013 Výběrový koeficient mnohonásobné korelace Výběrový koeficient mnohonásobné korelace ry-x'- rY-X ~ RYXRXXRXY je empirickou analogií koeficientu mnohonásobné korelace Ry-x Ry-x e [0;1] Koeficient determinace: R2 = r2.x pro náhodný výběr ((Y1,X1)',..., (Yn,X„)') z (k+ l)-rozměrného rozdělení Test pro normálně rozdělené náhodné veličiny H0: Ry-x = 0 proti H\: Ry-x 7^ 0, tj. že Y nezávisí na komplexu náhodných veličin X: ■Jfc-1 r2. F= -—}—- —--F(Jt,n-Jt-l) 1 - r2 1 rY-X Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení 38/39 podzim 2013 Výběrový koeficient parciální korelace Výběrový koeficient parciální korelace rY/z-x: _ryz ~ RyxRxxrxz ry,z-x — 1 - RyxR^RxyJ (1 - RZxRXxRxzj je empirickou analogií parciálního korelačního koeficientu Ry,z-x rY,z-x « Ry,z-x = R(Y-Y,Z-Ž) Ry,z-x e [-i;i] pro náhodný výběr ((Y1,X1,Z1)',..., (Yn,Xn,Zn)') z (k + 2)-rozměrného rozdělení Test pro normálně rozdělené náhodné veličiny Hq: Ry,z-x = 0 proti Hi: Ry,z-x ¥= 0/ tj- ze YrZ jsou nezávislé náhodné veličiny po odečtení (lineárního) vlivu komplexu náhodných veličin X: T = ľY'z'x ~ t(n - k - 2) V 1 ~~ ry,z-x Ondřej Pokora M5120 Lineami statistické modely I - poznámky do cvičení Výběrové korelační koeficienty v r podzim 2013 ► předpokládáme, že v proměnných X, Y, Z máme realizace náhodného výběru cor (X, Y) výběrový korelační koeficient rxy Výběrový koeficient mnohonásobné korelace rz.^Xjy ► mZ <- lm (1 + X + Y) =>■ LRM na proměnných X, Y - Zh <- mZ$f itted. values Ž = /30 + /3XX + /3yY cor (Z, Zh) rz.(X/Yy = R(Z,Ž) ► Výběrový koeficient parciální korelace rY/z-x mY <- lm (1 + X) LRM na proměnné X ► mZ <- lm (1 + X) LRM na proměnné X Yr <- mY$residuals rezidua Y — Ý= Y — ^0 — /3XX Zr <- mZ$residuals =>■ rezidua Z — Z = Z — cíq — &zX cor (Yr, Zr) ry/z-x = R(Y ~ Y,Z - Ž)