Příkladová data Výška otce Výška syna 175 178 177 173 188 188 173 173 163 164 163 168 178 169 … … Váha těla [g] váha mozku [g] 10 0.25 60 1 101 4 200 5 1000 6.6 14830 98.2 Regresní a korelační analýza Korelace Lineární regrese Analýza vztahu dvou kvantitativních proměnných Dva přístupy, pohledy: korelace a regrese. KORELACE popisuje sílu vzájemné závislosti. REGRESE pomocí jedné proměnné popisuje hodnoty druhé proměnné Příklad: výšky otce a syna (data GaltonSyn) Regresní a korelační analýza Korelace Lineární regrese předpovídá výšku otce z výšky syna předpovídá výšku syna z výšky otce Regrese – původ názvu Sir F. Galton (1886): dědičnost výšky postavy Regresní a korelační analýza Korelace Lineární regrese Regrese – vysvětlení variability Y pomocí X • Opět spojitá, kvantitativní data • Hodnoty proměnné Y modelujeme pomocí hodnot proměnné X • Lineární regresní model: 𝑌 = 𝛽0 + 𝛽1 ∙ 𝑋 + 𝐸 … rovnice přímky • Modelem vysvětlujeme variabilitu v hodnotách Y, prokazujeme závislost Y na X nebo předpovídáme střední hodnotu Y pro nové hodnoty X. • V interpretaci zohledňujeme logickou závislost proměnných, „co ovlivňuje co“. Příklad: váha mozku vysvětlovaná váhou celého těla u 54 vybraných savců Regresní a korelační analýza Korelace Lineární regrese Lineární regresní model [simple linear regression, bivariate regression] 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) • Y nazýváme vysvětlovaná proměnná, závislá proměnná, odpověď, odezva [explained variable, dependent variable, response] • X nazýváme vysvětlující proměnná, nezávislá proměnná, prediktor, regresor [explanatory variable, independent variable, predictor] • 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) náhodná chyba, přirozená variabilita [error term, disturbance term] • 𝜷 𝟎 a 𝜷 𝟏 jsou parametry platné pro celou populaci, tedy neznámé  hledáme odhady 𝒃 𝟎 a 𝒃 𝟏 a testujeme jejich nenulovost • Parametry 𝜷 𝟎 a 𝜷 𝟏 určují přímku závislosti: 𝜷 𝟎 je průsečík s osou y [intercept], když X = 0, potom 𝑌 = 𝛽0 𝜷 𝟏 je sklon přímky [slope]; když X zvětším o 1 jednotku potom Y naroste (v průměru) o 𝛽1. Regresní a korelační analýza Korelace Lineární regrese náhodná složka modelu [deterministic + stochastic component]systematická složka + Odhad regresních koeficientů: β0, β1, σ2 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) 1) Odhady 𝒃 𝟎 a 𝒃 𝟏 hledáme metodou nejmenších čtverců [method of the least squares]  „nafitovaná“ hodnota: ෡𝒀𝒊 = 𝒃 𝟎 + 𝒃 𝟏 ∙ 𝑿𝒊 [fitted value], česky lépe modelovaná, vyhlazená hodnota  Reziduum 𝑼𝒊: 𝑼𝒊 = 𝒀𝒊 − ෡𝒀𝒊 = 𝒀𝒊 − 𝒃 𝟎 + 𝒃 𝟏 ∙ 𝑿𝒊  Součet čtverců (reziduální): 𝑆𝑆 𝐸 = σ𝑖=1 𝑛 𝑈𝑖 2 = σ 𝑌𝑖 − ෠𝑌𝑖 2 = σ 𝑌𝑖 − 𝑏0 + 𝛽1 ∙ 𝑋𝑖 2 … aby byl minimální  𝑏1 = 𝑆 𝑋𝑌 𝑆 𝑋 2 = σ𝑖=1 𝑛 𝑋 𝑖− ത𝑋 𝑌 𝑖− ത𝑌 σ𝑖=1 𝑛 𝑋𝑖− ത𝑋 2  𝑏0 = ത𝑌 − 𝑏1 ∙ ത𝑋 Regresní a korelační analýza Korelace Lineární regrese Odhad regresních koeficientů: σ2 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) 2) Variabilitu náhodné odchylky 𝝈 𝟐 odhadujeme jako reziduální rozptyl, tj. 𝑆2 = 𝑆𝑆 𝐸 𝑛 − 2 Rozklad variability modelu (podobně jako v analýze rozptylu) 𝑆𝑆 𝑇𝑂𝑇 = σ𝑖=1 𝑛 𝑌𝑖 − ത𝑌 2 𝐷𝐹 𝑇𝑂𝑇 = 𝑛 − 1 𝑆𝑆 𝑅𝐸𝐺 = σ𝑖=1 𝑛 ෠𝑌𝑖 − ത𝑌 2 𝐷𝐹𝑅𝐸𝐺 = 𝑘 𝑆𝑆 𝐸 = σ𝑖=1 𝑛 𝑌𝑖 − ෠𝑌𝑖 2 𝐷𝐹𝐸 = 𝑛 − 𝑘 − 1 Platí: 𝑆𝑆 𝑇𝑂𝑇 = 𝑆𝑆 𝑅𝐸𝐺 + 𝑆𝑆 𝐸 Regresní a korelační analýza Korelace Lineární regrese … celková variabilita v „Y-ových“ datech (vysvětlovaná proměnná) … regresní, modelová variabilita, variabilita vysvětlená modelem k … počet vysvětlujících proměnných … reziduální variabilita, variabilita modelem nevysvětlená Regresní model – příklad Galton: > summary(lm(syn~otec)) Call: lm(formula = syn ~ otec) Residuals: Min 1Q Median 3Q Max -15.8326 -3.4311 -0.5134 3.9341 14.6674 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 87.85290 11.49732 7.641 1.47e-12 *** otec 0.50188 0.06547 7.666 1.28e-12 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 5.545 on 171 degrees of freedom Multiple R-squared: 0.2558, Adjusted R-squared: 0.2514 F-statistic: 58.76 on 1 and 171 DF, p-value: 1.275e-12 Regresní a korelační analýza Korelace Lineární regrese Předpoklady regresního lineárního modelu: 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) 𝒀𝒊 ~ 𝑵 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊, 𝝈 𝟐  𝒀𝒊 jsou vzájemně nezávislé hodnoty, pozorování.  𝒀𝒊 jsou zatíženy náhodnou variabilitou, pro kterou předpokládáme normální rozdělení: nelze ověřit předem, protože se střední hodnota EY mění a my teprve hledáme funkci, která tuto změnu popisuje. Proto nejprve modelujeme a potom ověřujeme. Normalitu zkontrolujeme na reziduálech 𝑌𝑖 − ෠𝑌𝑖 . Předobrazem reziduálů v modelu jsou členy 𝑬𝒊.  Pro 𝑬𝒊 předpokládáme 𝑵(𝟎, 𝝈 𝟐 ) a že 𝝈 𝟐 se nemění.  𝑿𝒊 naopak považujeme za přesné hodnoty bez náhodné chyby (variability). To splňují např. laboratorní teploty v různých pokusných boxech. Naopak váha těla savců z příkladu má jistě svoji variabilitu, předpoklad není dodržen.  EY je lineární funkcí hodnot 𝑿𝒊 (viz dále) Regresní a korelační analýza Korelace Lineární regrese Předpoklady regresního lineárního modelu: 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) 𝒀𝒊 ~ 𝑵 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊, 𝝈 𝟐  EY je lineární funkcí hodnot 𝑿𝒊. Nesplnění tohoto předpokladu znamená, že buď závislost není čistě lineární nebo EY závisí ještě na další proměnné, např. V. Výrazně zakřivené vztahy vidím většinou hned na bodovém grafu. Potom mohu zvolit např. kvadratickou regresi (viz příklad „kořeny“ ve Zvárovi) či proměnné transformovat (příklad „mozky“). Odhalení druhého případu je složitější, zvlášť když nemám další proměnné k dispozici. Popisuje ho příklad „tuk“ (Zvára).  Špatně zvolený model dává vychýlený odhad středních hodnot EY. Projevilo by se to například v používání modelu v praxi, kdy by předpovídané průměry a naměřené průměry byly systematicky vzájemně posunuté, vychýlené.  Předpokládaný lineární vztah dobře funguje, když X i Y, respektive jejich reziduály, mají normální rozdělení. Pokud normalita chybí, pomůžeme si transformací. Normalita X a Y ale není předpokladem regresního modelu. Regresní a korelační analýza Korelace Lineární regrese Předpoklady – příklad Galton: > plot(lm(syn~otec)) # zadání formulí > plot(gal.lm1) # zadání modelem Hit to see next plot: Musím stisknout ENTER, potom naskočí graf. Rezidua vs. Předpovědi (stejnost rozptylu): Tento graf má odhalit závislost rozptylu σ2 na (předpovídané) střední hodnotě Y. Správně mají být body rozložené stejnoměrně podle vodorovné osy. Regresní a korelační analýza Korelace Lineární regrese Předpoklady – příklad Galton: R: plot(model) Q-Q plot reziduí (normální rozdělení reziduí Ei): Regresní a korelační analýza Korelace Lineární regrese Předpoklady – příklad Galton: R: plot(model) Odmocněná Rezidua vs. Předpovědi (stejnost rozptylu, normalita). Při porušení předpokladu vykazují body nějaký druh závislosti (lineární či nelineární). Regresní a korelační analýza Korelace Lineární regrese Předpoklady – příklad Galton: R: plot(model) Cookova vzdálenost (příliš vlivná pozorování): Pro každé pozorování spočte rozdíl v odhadu regresních koeficientů v modelu s a bez daného řádku (pozorování). Pokud je rozdíl velký, je jasné, že dané pozorování podstatně ovlivňuje směr regresní přímky, tedy celého modelu. [lever = páka; leverage = vliv páky, páčení] Regresní a korelační analýza Korelace Lineární regrese Testy regresních koeficientů, prokazování závislosti Y na X 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) • Modelujeme závislost EY na X jako 𝑬𝒀 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿 • Hodnotu 𝜷 𝟎 (průsečík s osou Y) testujeme zřídka, protože hypotéza většinou nemá biologicky rozumnou interpretaci. • Nezávislost EY na X znamená, že 𝜷 𝟏 = 𝟎. • Hypotézu 𝑯 𝟎: 𝜷 𝟏 = 𝟎 testujeme pomocí statistiky 𝒕 = 𝒃 𝟏 − 0 𝑺. 𝑬. (𝒃 𝟏) ~ 𝑯 𝟎 𝒕 𝒏−𝟐 Toto je jeden z hlavních výsledků regresní analýzy. Pokud p-hodnota < α, zamítám hypotézu o nezávislosti, tedy závislost Y na X je průkazná. Regresní a korelační analýza Korelace Lineární regrese Regresní model – příklad Galton: > summary(lm(syn~otec)) Coefficients: Estimate Std. Error t-value Pr(>|t|) (Intercept) 87.85290 11.49732 7.641 1.47e-12 *** otec 0.50188 0.06547 7.666 1.28e-12 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Regresní a korelační analýza Korelace Lineární regrese Oba koeficienty průkazné  syn = 87.9 + 0.50*otec β0 (průsečík s Y) β1 * otec odhad b0 (průsečík) odhad b1 * otec S.E.(odhadu) • rozptýlenost kolem skutečné hodnoty • „přesnost“ odhadu test. statistika a p-hodnota H0: b1 = 0  výška otce nemá vliv H1: b1 ≠ 0  výška otce má vliv Test podmodelu (jednoduché lineární) regrese Nejjednodušší model je „průměr“: 𝒀𝒊 = 𝑬𝒀 odhadujeme jako 𝒀𝒊 = ഥ𝒀. Máme tedy model, zde rostoucí či klesající přímku: 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 a podmodel, zde vodorovnou přímku, průměr: 𝒀𝒊 = 𝑬𝒀 + 𝑬𝒊. Variabilitu v datech 𝒗𝒂𝒓(𝒀) odhadujeme jako 𝑴𝑺 𝑻𝑶𝑻 = σ 𝒀 𝒊−ഥ𝒀 𝟐 𝒏−𝟏 , tj. 𝑺𝑺 𝑻𝑶𝑻 𝒅𝒇 𝑻𝑶𝑻 . Složitější model je dobrý tehdy, když vysvětlí nějaký podstatný díl této variability. Složitější model je zbytečný tehdy, když množství „nově“ vysvětlené variability je nevýznamné, neprůkazně odlišné od nuly. Regresní a korelační analýza Korelace Lineární regrese MS znamená: mean square, „průměrný čtverec“ Slabý model: Test podmodelu jednoduché lineární regrese model: 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 versus podmodel: 𝒀𝒊 = 𝑬𝒀 + 𝑬𝒊 Konstrukce testu vypadá takto: H0: Rozdíl ve variabilitě vysvětlené modelem a podmodelem je malý, tj. složitější model vysvětlí navíc jen nevýznamné množství variability Y. H1: Rozdíl ve variabilitě vysvětlené modelem a podmodelem je významný. V jednoduchém lineárním modelu je rozdíl mezi modelem a podmodelem spočtený právě jako 𝑺𝑺 𝑹𝑬𝑮 = σ ෡𝒀𝒊 − ഥ𝒀 𝟐 . Ve složitějších modelech je to složitější výpočet. 𝑺𝑺 𝑹𝑬𝑮 porovnáváme se 𝑺𝑺 𝑬𝒓𝒓𝒐𝒓 modelu pomocí F statistiky. Součty čtverců použijeme ve tvaru průměrných součtů čtverců, 𝑴𝑺 𝑹𝑬𝑮 a 𝑴𝑺 𝑬𝒓𝒓𝒐𝒓. V tomto případě jsou 𝒅𝒇 𝑹𝑬𝑮 = 𝟏 a 𝒅𝒇 𝑬𝒓𝒓𝒐𝒓 = 𝒏 − 𝟐. 𝑭 = 𝑴𝑺 𝑹𝑬𝑮 𝑴𝑺 𝑬𝒓𝒓𝒐𝒓 = 𝑆𝑆 𝑅𝐸𝐺 1 𝑆𝑆 𝐸𝑟𝑟𝑜𝑟 𝑛 − 2 ~ 𝑯 𝟎 𝑭 𝟏, 𝒏−𝟐 . a Regresní a korelační analýza Korelace Lineární regrese Test podmodelu jednoduché lineární regrese H0: Rozdíl ve variabilitě vysvětlené modelem a podmodelem je malý, tj. složitější model vysvětlí navíc jen nevýznamné množství variability Y. H1: Rozdíl ve variabilitě vysvětlené modelem a podmodelem je významný. 𝑭 = 𝑴𝑺 𝑹𝑬𝑮 𝑴𝑺 𝑬𝒓𝒓𝒐𝒓 ~ 𝑯 𝟎 ~ 𝑭 𝟏, 𝒏−𝟐 . a Regresní a korelační analýza Korelace Lineární regrese Regresní model – příklad Galton: > anova(lm(syn~otec)) Analysis of Variance Table Response: syn Df Sum Sq Mean Sq F value Pr(>F) otec 1 1807.1 1807.08 58.763 1.275e-12 *** Residuals 171 5268.6 30.75 𝑭 = 𝑺𝑺 𝑹𝑬𝑮 𝒅𝒇 𝑹𝑬𝑮 𝑺𝑺 𝑬𝒓𝒓𝒐𝒓 𝒅𝒇 𝑬𝒓𝒓𝒐𝒓 = 1807.1 1 5268.6 171 = 𝑴𝑺 𝑹𝑬𝑮 𝑴𝑺 𝑬𝒓𝒓𝒐𝒓 = 1807.08 30.75 = 58.763 > summary(lm(syn~otec)) ... Residual standard error: 5.545 on 171 degrees of freedom Multiple R-squared: 0.2558, Adjusted R-squared: 0.2514 F-statistic: 58.76 on 1 and 171 DF, p-value: 1.275e-12 Regresní a korelační analýza Korelace Lineární regrese Regresní model – příklad Galton: 𝑭 = 𝑺𝑺 𝑹𝑬𝑮 𝒅𝒇 𝑹𝑬𝑮 𝑺𝑺 𝑬𝒓𝒓𝒐𝒓 𝒅𝒇 𝑬𝒓𝒓𝒐𝒓 = 𝑴𝑺 𝑹𝑬𝑮 𝑴𝑺 𝑬𝒓𝒓𝒐𝒓 > anova(lm(syn ~ otec + matka)) Analysis of Variance Table Response: syn Df Sum Sq Mean Sq F value Pr(>F) otec 1 1807.1 1807.08 63.056 2.615e-13 *** matka 1 386.7 386.70 13.493 0.0003205 *** Residuals 170 4871.9 28.66 > anova(lm(syn ~ matka + otec)) Analysis of Variance Table Response: syn Df Sum Sq Mean Sq F value Pr(>F) matka 1 599.7 599.71 20.926 9.167e-06 *** otec 1 1594.1 1594.07 55.623 4.299e-12 *** Residuals 170 4871.9 28.66 Regresní a korelační analýza Korelace Lineární regrese Na pořadí záleží! Test podmodelu (jednoduché lineární) regrese  F-statistika vypovídá o významnosti té části variability Y, kterou lze vysvětlit přidáním (další) vysvětlující proměnné.  V případě jednoduché lineární regrese s jednou nezávislou proměnnou je p-hodnota F-testu analýzy rozptylu shodná s p-hodnotou t-testu nenulovosti koeficientu b1. To je proto, že v tomto nejjednodušším případě platí F = T2 ~ F1, n-2 Regresní a korelační analýza Korelace Lineární regrese H0: Rozdíl ve variabilitě vysvětlené modelem a podmodelem je malý, tj. složitější model vysvětlí navíc jen nevýznamné množství variability Y. H1: Rozdíl ve variabilitě vysvětlené modelem a podmodelem je významný. 𝑭 = 𝑴𝑺 𝑹𝑬𝑮 𝑴𝑺 𝑬𝒓𝒓𝒐𝒓 = 𝑺𝑺 𝑹𝑬𝑮 𝒅𝒇 𝑹𝑬𝑮 𝑺𝑺 𝑬𝒓𝒓𝒐𝒓 𝒅𝒇 𝑬𝒓𝒓𝒐𝒓 ~ 𝑯 𝟎 𝑭 𝒌,𝒏−𝒌−𝟏 Porovnáváme s kvantilem 𝐹1,𝑛−𝑘−1 1 − 𝛼 Test podmodelu jednoduché lineární regrese OPRAVA textu v učebnici Lepš & Šmilauer (2016), str. 257 dole. Věta „Lze ukázat, že pokud platí nulová hypotéza o nezávislosti, jsou všechny tři hodnoty MS odhadem variance Y.“ není pravdivá. Pokud jsou X a Y nezávislé, potom hodnoty X nedokáží vysvětlovat/předpovídat výsledné hodnoty Y a regresní přímka nemá statistický smysl. Graficky by taková přímka měla být velmi blízko obyčejné průměrné hodnotě Y. Potom rozdíly mezi napočítanou (regresní) hodnotou ෡𝒀𝒊 a průměrem ഥ𝒀 budou velmi malé. Proto také součet čtverců 𝑺𝑺 𝑹𝑬𝑮 = σ ෡𝒀𝒊 − ഥ𝒀 𝟐 bude spíše malé číslo blízko nuly. Tento součet čtverců ale nepopisuje variabilitu v datech Y. Ovšem 𝑺𝑺 𝑬𝒓𝒓𝒐𝒓 = σ𝑖=1 𝑛 𝑌𝑖 − ෠𝑌𝑖 2 slabého modelu může popisovat variabilitu Y. Regresní a korelační analýza Korelace Lineární regrese Koeficient determinace R2 𝑹 𝟐 = 𝑺𝑺 𝑹𝑬𝑮 𝑺𝑺 𝑻𝑶𝑻 = 1 − 𝑆𝑆 𝐸 𝑆𝑆 𝑇𝑂𝑇 • 𝑅2 ∈ 0,1 • Interpretujeme jako podíl vysvětlené variability (REG) vzhledem k celkové variabilitě v datech Y (TOT) • Bezrozměrný koeficient, často vyjádřený v procentech • Koeficient ukazuje, jestli má model smysl, jestli vysvětlí nějaký podstatný díl variability. • Pro lineární regresi platí 𝑅2 = 𝑟𝑋𝑌 2 (Pearsonův korelační koeficient ^2) • Adjustovaný (upravený, korigovaný) 𝑹 𝟐 : když mám více vysvětlujících proměnných (𝑌𝑖 = 𝛽0 + 𝛽1 ∙ 𝑋𝑖 + 𝛽2 ∙ 𝑉𝑖 + 𝛽3 ∙ 𝑊𝑖 + 𝐸𝑖), tak je obyčejný 𝑅2 nadhodnocený, vychýlený. Proto se používá tato úprava. Regresní a korelační analýza Korelace Lineární regrese Součty čtverců ≈ rozklad variability 𝑺𝑺 𝑻𝑶𝑻 = ෍ 𝒀𝒊 − ഥ𝒀 𝟐 𝑺𝑺 𝑹𝑬𝑮 = ෍ ෡𝒀𝒊 − ഥ𝒀 𝟐 𝑺𝑺 𝑬𝒓𝒓𝒐𝒓 = ෍ 𝒀𝒊 − ෡𝒀𝒊 𝟐 Koeficient determinace R2 Poznámka: R2 se může velmi měnit s množinou zahrnutých pozorování. Odlehlé pozorování může hodnotu R2 i zdvojnásobit prostě proto, že má velký reziduální čtverec, kterým zvětší jak reziduální průměrný čtverec, tak regresní (modelový) průměrný čtverec. Naše radost nad množstvím vysvětlené variability pak může být vratká a krátká … Regresní a korelační analýza Korelace Lineární regrese Model lineární regrese a příčinná závislost Ideálně Y logicky závisí na X. Je-li vztah závislosti nejasný a obě proměnné jsou zatíženy náhodnou chybou, studujeme spíše korelaci proměnných. V praxi používáme regresi i ve sporných případech, kdy kauzální vztah není jasný. Přesto nás zajímá rovnice, která vztah obou proměnných (v daném uspořádání) popisuje. Mluvíme pak spíše o vysvětlované a vysvětlující proměnné a signifikantní model považujeme jen za nepřímý „důkaz“ příčinné závislosti Y na X. Statistickými prostředky nelze dokazovat příčinné závislosti (kauzalitu)! To umíme dělat jen manipulativními experimenty, kdy jsme schopni měnit hodnoty jen jedné proměnné, zatímco ostatní uvažované proměnné udržujeme na stálé úrovni. Interpretace i predikce modelu je založena především na zkoumaném rozsahu hodnot vysvětlující proměnné. Se změnou rozsahu často narazíme na nelinearitu (v přírodě spíše běžnou) a náš model přestává platit. Regresní a korelační analýza Korelace Lineární regrese Mnohonásobná lineární regrese [multiple linear regression] Poznámka: Něco jiného je mnohorozměrná regrese [multidimensional regression], ve které modeluji více závislých proměnných pomocí více nezávislých proměnných. Model: 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝜷 𝟐 ∙ 𝑽𝒊 + 𝜷 𝟑 ∙ 𝑾𝒊 + 𝑬𝒊 𝐤 = 𝟑, 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) Jiný zápis: 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿 𝟏𝒊 + 𝜷 𝟐 ∙ 𝑿 𝟐𝒊 + 𝜷 𝟑 ∙ 𝑿 𝟑𝒊 + 𝑬𝒊 𝑿 = 𝑋11 𝑋21 𝑋31 𝑋12 ⋮ 𝑋22 ⋮ 𝑋32 ⋮ 𝑋1𝑛 𝑋2𝑛 𝑋3𝑛 Odhad rozptylu 𝝈 𝟐: 𝑆2 = 𝑆𝑆 𝐸 𝑛−𝑘−1 Výsledky: odhady regresních koeficientů 𝑏0 , 𝑏1 , 𝑏2 , 𝑏3 ; 𝑅2 ; 𝐹 − test modelu Interpretace 𝒃𝒋 : o kolik vzroste (klesne) hodnota Y, když 𝑿𝒋 vzroste o jednotku a ostatní vysvětlující proměnné se nezmění. Regresní analýza Lineární regrese Ověřování předpokladů Mnohonásobná regrese Kvadratická regrese Hodnoty vysvětlujících proměnných se pak dají zapsat jako matice: Počet pozorování – počet regresorů – 1 Mnohonásobná lineární regrese Model: 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿 𝟏𝒊 + 𝜷 𝟐 ∙ 𝑿 𝟐𝒊 + 𝜷 𝟑 ∙ 𝑿 𝟑𝒊 + 𝑬𝒊 𝐤 = 𝟑, 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) Hodnocení regresních koeficientů: Hypotéza H0: 𝒃𝒋 = 𝟎  𝑡 = 𝒃 𝒋−0 𝑺.𝑬.(𝒃 𝒋) ~ 𝑯 𝟎 𝒕 𝒏−𝒌−𝟏  znamená to, že proměnná 𝑿𝒋 nepřidá do modelu novou informaci o střední hodnotě Y, nic významně nového nevysvětlí. Konfidenční interval 𝜷𝒋 : 𝒃𝒋 − 𝑆. 𝐸. 𝒃𝒋 ∙ 𝒕 𝒏−𝒌−𝟏 1 − Τ𝛼 2 , 𝒃𝒋 + 𝑆. 𝐸. 𝒃𝒋 ∙ 𝒕 𝒏−𝒌−𝟏 1 − Τ𝛼 2 Porovnání vlivu regresorů na Y mezi sebou (viz Zvára, str. 199 dole a str. 200):  přepočítám na standardizovaný tvar (tzv. beta koeficienty): 𝒃𝒋 ∗ = 𝑏𝑗 ∙ 𝑠𝑑(𝑋 𝑗) 𝑠𝑑(𝑌) Příklad: % tuku ~ výška + váha. 𝑏 𝑉𝑌𝑆𝐾𝐴 ∗ = −0.254, 𝑏 𝑉𝐴𝐻𝐴 ∗ = 0.968 Mohu říci, že váha má zhruba 4-krát větší vliv na výsledné procento tuku než výška. Regresní analýza Lineární regrese Ověřování předpokladů Mnohonásobná regrese Kvadratická regrese Regrese – další čtení: • Standardizované beta koeficienty: Zvára, str. 199 dole a str. 200. • Transformace dat v regresi, kontrola předpokladů: • Lepš & Šmilauer, str.259 • Zvára, str. 203: Breuschův-Paganův test • Regresní analýza v R: Lepš & Šmilauer, str.274 • Vícenásobná regrese: Zvára, str. 197 Lepš & Šmilauer, str. 294. • Zobecněné lineární modely: Lepš & Šmilauer, str. 316 • Nelineární závislost: Lepš & Šmilauer, str. 338 Regresní analýza Lineární regrese Ověřování předpokladů Mnohonásobná regrese Kvadratická regrese