PSY117/454 Statistická analýza dat v psychologii Přednáška 6 Vztahy mezi dvěma proměnnými II Statistická predikce, modelování Lineární regrese The only useful action for a statistician is to make predictions, and thus to provide basis for action. William Edwards Deming Statistická predikce Jaký výsledek v inteligenčním testu lze nejspíše očekávat od náhodně přišedšího, víme-li, že test má přibližně normální rozložení s průměrem 100 a směrodatnou odchylkou 15 ? Jaká informace by nám pomohla zpřesnit náš odhad? jeho/její pohlaví vzdělání výsledek v testu paměti výsledek v jiném inteligenčním testu Statistická predikce je předpovídání (kvalifikované odhadování) nejpravděpodobnější hodnoty proměnné z údajů, které již známe, a to pomocí modelů vztahu mezi predikovanou proměnnou a jejími koreláty. AJ: statistical prediction, estimate, predicted value, line slope Složitý model POHLAVÍ VZDĚLÁNÍ PAMĚŤ IQ TEST 2 IQ TEST K predikci je třeba funkce Y = f (X ) funkce je ,,návod", jak ze známé hodnoty (X ) vypočítat tu neznámou (Y ) jsou různé funkce... stanovené výčtem trigonometrické, exponenciální a logaritmické ... polynomické lineární: Y = bX +a (rovná čára) kvadratické: Y = cX2+bX +a (jedna zatáčka) ve statistice... tuto funkci odhadujeme (modelujeme) Jak dobře dokážeme vyjádřit (=predikovat) proměnnou Y, pomocí proměnné X a funkce f? říkáme výsledku výpočtu odhad (Y ') a stanovení té funkce říkáme regrese regrese Y na X: Y ' = f (X ) + e ,kde e = Y ­Y ' (1) e je reziduální hodnota (reziduum), Y je závislá p., X je prediktor (nezáv.) e představuje všechny ostatní zdroje variability vyjma X AJ: function, polynomial, linear, quadratic, estimation, modelling, estimate n., regression, residual n., predictor, sources of variablity(variance), dependent and independent variable Lineární regrese I. - odhad Je-li Pearsonova korelace dobrým popisem vztahu mezi dvěma proměnnými, lze popsat vztah mezi nimi lineární funkcí Y ' = a +bX + e b ­ směrnice a ­ průsečík Odhad metodou nejmenších čtverců b = rxy(sy/sx) a = my ­ bmx Jsou-li X a Y vyjádřeny v z-skórech, pak b = rxy AJ: slope, intercept, least squares (estimation), regression coefficents (a,b) Lineární regrese II. ­ úspěšnost predikce sy 2 = sreg 2 + sres 2 (ssy=ssres+ssreg) R 2 = sreg 2 / sy 2 Koeficient determinace (R 2) Podíl vysvětleného rozptylu Je ukazatelem kvality, úspěšnosti regrese Vyjadřuje shodu modelu s daty Pro jednoduchou lin. regr. platí R2 = r2 AJ: regression and residual variance (sum of squares), explained variance, model fit with the data, coefficient of determination (R square) 1 )( 2 2 - - = n YY sreg 1 )( 2 2 - - = n YY sres 1 )( 2 2 - - = n YY sy Lineární regrese III. ­ příklad Lineární regrese IV. ­ předpoklady, platnost Předpoklady oprávněnosti použití lineárně-regresního modelu konceptuální předpoklad: vztah je ve skutečnosti lineární rezidua mají normální rozložení s průměrem 0 homoskedascita =rozptyl reziduí (chyb odhadu) se s rostoucím X nemění Platnost modelu je omezena daty, z nichž byl získán, a teorií. Extrapolace, neoprávněná extrapolace (jako generalizace nad rámec empirických dat) Pozor na odlehlé hodnoty ­ jako u všech ostatních momentových statistik AJ: assumptions of the linear regression model, residuals normally distributed, homoscedascity, Další druhy regrese Zde je prezentovaná pouze jednoduchá lineární regrese, tj. s jednou závislou a jednou nezávislou proměnnou. Potřeb a možností je více. mnohočetná (mnohonásobná) lineární regrese Y = a +b1X1 + b2X2 + ... + bmXm komplikují ji vztahy mezi nezávislými proměnnými - prediktory logistická regrese pokud je závislá dichotomie, nominální proměnná predikuje se tak pravděpodobnost jednotlivých hodnot závislé Není-li vztah lineární, snažíme se transformovat proměnné tak, aby byl lineární. nelineární regrese je spojena s mnoha obtížemi AJ: multiple regression, logistic regression, nonlinear regression Shrnutí Pro praktické účely (predikce/odhad) je korelace málo, je třeba uvažovat o funkčním vztahu mezi proměnnými. Vztah můžeme znát analyticky nebo ho zkoušet modelovat. Lineární regrese je model lineárního vztahu mezi proměnnými. Model se vždy liší od skutečných dat díky zjednodušení díky chybě měření Míra shody modelu s daty je ukazatelem vhodnosti modelu. Hendl: kapitoly 7.3 ­ 7.3.2, 7.3.6, pro absolventy metodologie i 7.4