PSY117/454 Statistická analýza dat v psychologii ­ přednáška 6 Vztahy mezi dvěma proměnnými II Statistická predikce Lineární regrese Statistická predikce Předpovídání nejpravděpodobnější hodnoty proměnné ze statistických údajů, které již známe. Jaký výsledek v inteligenčním testu lze nejspíše očekávat od náhodně přišedšího, víme-li, že test má přibližně normální rozložení s průměrem m a směrodatnou odchylkou s ? Jaká informace by nám pomohla zpřesnit náš odhad? jeho/její pohlaví vzdělání výsledek v testu paměti výsledek v jiném inteligenčním testu Korelace nám přímo neumožňuje určit predikovanou hodnotu (je třeba učinit přepočet přes z-skóry), protože udává pouze těsnost vztahu (těsnost nakupení bodů kolem nějaké přímky) nikoliv však sklon té přímky. Korelace není funkce. AJ: statistical prediction, estimate, predicted value, line slope K predikci je třeba funkce Y = f (X ) funkce je ,,návod", jak ze známé hodnoty (X ) vypočítat tu neznámou (Y ) jsou různé funkce... stanovené výčtem trigonometrické, exponenciální a logaritmické ... polynomické lineární: Y = bX +a (rovná čára) kvadratické: Y = cX2+bX +a (jedna zatáčka) ve statistice... tuto funkci odhadujeme (modelujeme) Jak dobře dokážeme vyjádřit (=predikovat) proměnnou Y, pomocí proměnné X a funkce f? říkáme výsledku výpočtu odhad (Y ') a stanovení té funkce říkáme regrese regrese Y na X: Y ' = f (X ) + e ,kde e = Y ­Y ' (1) e je reziduální hodnota (reziduum), Y je závislá p., X je prediktor (nezáv.) e představuje všechny ostatní zdroje variability vyjma X AJ: function, polynomial, linear, quadratic, estimation, modelling, estimate n., regression, residual n., predictor, sources of variablity(variance), dependent and independent variable Lineární regrese I. - odhad Y ' = a +bX + e b ­ směrnice a ­ průsečík metoda nejmenších čtverců b = rxy(sy/sx) a = my ­ bmx jsou-li X a Y vyjádřeny v z-skórech, pak b = rxy AJ: slope, intercept, least squares (estimation), regression coefficents (a,b) Lineární regrese II. ­ úspěšnost predikce sy 2 = sreg 2 + sres 2 (ssy=ssres+ssreg) R 2 = sreg 2 / sy 2 Koeficient determinace (R 2) Podíl vysvětleného rozptylu Je ukazatelem kvality, úspěšnosti regrese Vyjadřuje shodu modelu s daty Pro jednoduchou lin. regr. platí R2 = r2 AJ: regression and residual variance (sum of squares), explained variance, model fit with the data, coefficient of determination (R square) 1 )( 2 2 - - = n YY sreg 1 )( 2 2 - - = n YY sres 1 )( 2 2 - - = n YY sy Lineární regrese III. ­ příklad z Hendla Regrese váhy na výšku (s. 239 a 268) váha (kg) = 0,912 * výška (cm) ­ 93,24 r = 0,878 R 2 = 0,77 Lineární regrese IV. ­ předpoklady, platnost Předpoklady oprávněnosti použití lineárně-regresního modelu konceptuální předpoklad: vztah je ve skutečnosti lineární rezidua mají normální rozložení s průměrem 0 homoskedascita =rozptyl reziduí (chyb odhadu) se s rostoucím X nemění Platnost modelu je omezena daty, z nichž byl získán, a teorií. Extrapolace, neoprávněná extrapolace (jako generalizace nad rámec empirických dat) Pozor na odlehlé hodnoty ­ jako u všech ostatních momentových statistik AJ: assumptions of the linear regression model, residuals normally distributed, homoscedascity, Další druhy regrese Zde je prezentovaná pouze jednoduchá lineární regrese, tj. s jednou závislou a jednou nezávislou proměnnou. Potřeb a možností je více. mnohočetná (mnohonásobná) lineární regrese Y = a +b1X1 + b2X2 + ... + bmXm komplikují ji vztahy mezi nezávislými proměnnými logistická regrese pokud je závislá dichotomie, nominální proměnná predikuje se tak pravděpodobnost jednotlivých hodnot závislé Není-li vztah lineární, snažíme se transformovat proměnné tak, aby byl lineární. nelineární regrese je velmi obtížná AJ: multiple regression, logistic regression, nonlinear regression Hendl kapitoly 7.3 ­ 7.3.2, 7.3.6 pro absolventy metodologie i 7.4