Link: OLE-Object-Data B. Testování hypotéz a oblasti spolehlivosti v jednorovnicovém modelu B1.Testování jednoho regresního koeficientu Z předchozích již odvozených vztahů víme, že platí : , kde je idempotentní matice mající hodnost T-k, neboť -- jak praví příslušná věta z lineární algebry -- hodnost idempotentní matice je rovna její stopě. Vzhledem k tomu, že v klasickém normálním lineárním regresním modelu je vektor náhodných složek normovaným normálním vektorem, každá e[j] << N(0, s^2) pro j = 1,2, ... , T , je SSE idempotentní kvadratickou formou o hodnosti , (přesně řečeno : kvadratickou formou s idempotentní maticí ). Platí tedy, že Výraz (kvadratická forma s náhodnými proměnnými) ^ je rozdělen jako c^2[T-k ] neboli že výraz SSE je rozdělen jako s^2.c^2[T-k] . Víme, že pro odhad rozptylu platí vztah ; a proto tedy výraz je rozdělen jako ^ Uvažujme dále podíl , kde s[bj ] je odhadnutá směrodatná odchylka parametru b[j] , pro který je ^ kde ^ označuje druhou odmocninu z prvku ležícího na j-tém místě hlavní diagonály matice . Výraz na pravé straně v čitateli má normované normální rozdělení , zatímco proměnná ve jmenovateli má charakter "", což je druhá odmocnina proměnné mající ^ rozdělení. V důkazu Věty 2 jsme ukázali, že lineární forma je nezávislá na kvadratické formě To vyplývá ze skutečnosti, že součin matic obou těchto forem, tj. a dává nulovou matici : . Proto je lineární forma b-b nezávislá také na veličině . Odtud je již zřejmé, že veličina má rozdělení , tedy Studentovo t-rozdělení o T - k stupních volností. ( poznamenejme, že tato statistika je vhodná i pro malé výběry tj. pro T< 30 ) Uvedený výsledek je též základem pro možnost testování hypotézy, že b[j] =b[j]* pro nějakou konkrétní hodnotu b[j]* s použitím Studentova t-rozdělení resp. následně pro konstrukci intervalu spolehlivosti pro parametr b[j] . Parametr b[j] je zřejmě střední hodnotou normálně rozděleného b[j]. (Test hypotézy i konstrukce intervalu spolehlivosti je obdobná jako při odhadu neznámé střední hodnoty výběrového průměru T nezávislých stejně a normálně rozdělených náhodných veličin při stejném ale neznámém rozptylu). Jako zvláštní případ se hypotéza verbálně vyjádřená jako "y se nemění, když x[j] se mění" vyjádří jako hypotéza, že podmíněná střední hodnota není ovlivněna hodnotou , což je ekvivalentní hypotéze, že Tzv. t-poměr b[j]/s[bj] je právě statistikou vhodnou pro testování uvedené hypotézy: Překročí-li (z empirických hodnot spočtený) t-poměr (teoretickou) kritickou hodnotu t-rozdělení o T-k stupních volnosti na hladině významnosti a (např. a = 0,05) , zamítáme s pravděpodobností - neboli 100.(1-a )% - nulovou hypotézu o (skutečné) nulové hodnotě regresního koeficientu . Jinými slovy to znamená, že -- s toutéž pravděpodobností posuzováno -- je j-tá vysvětlující proměnná do regresní rovnice zařazena oprávněně. B2. Testování více než jednoho regresního koeficientu Uvažujme dále hypotézu o celém vektoru ve tvaru . Tato hypotéza odpovídá vyšetření otázky, zda celá skupina zahrnutých vysvětlujících proměnných nabude určených hodnot. Nejčastějším testovaným případem bývá hypotéza vyjádřená ve tvaru , což odpovídá vyšetřování, zda skupina použitých vysvětlujících proměnných (vzata jako celek) se vyznačuje statisticky významným přínosem pro vysvětlení závisle proměnné ( pro hypotetické hodnoty to znamená podmínku ) . Poznámka: Je užitečné říci, že v přímé podobě se takovýto test sice aplikuje velmi často, avšak jeho vypovídací hodnota není zvláště u ekonomických regresních vztahů příliš vysoká. Opačné zjištění (tj. nevýznamnost všech zahrnutých vysvětlujících proměnných) je poměrně vzácné, zvláště v případě, kdy regresní rovnice obsahuje větší (cca více než 3) počet vysvětlujících proměnných. Pro praxi užitečnějším nasazením tohoto testu je případ, kdy testujeme významnost určité podskupiny z celého souboru vysvětlujících veličin (tzn. v počtu 2 až T-1). Zde má obdobně konstruovaný test svůj význam mj. proto, že můžeme variantně zkoumat přínos různých podskupin vysvětlujících proměnných. Přes toto konstatování (a pro jednoduchost) formulujeme test v původní podobě : Je patrné, že test hypotézy (např. b = 0) bude založen na rozdílu , tedy na rozdílu vypočtené a domnělé (hypotetické) hodnoty. Za předpokladu platnosti nulové hypotézy bude platit, že . V konstrukci testu využijeme statistiku Za předpokladu platnosti H[0] ( tj. pokud platí hypotéza ) , dostaneme , kde opět , . A) Víme již, že N = I[T] - M je idempotentní matice a že její hodnost je . Tedy Q je kvadratická forma v proměnných e s idempotentní maticí N o hodnosti k obsahující náhodné veličiny s normálním rozdělením e << N(0, s^2). (Zdůrazněme, že tak je tomu pouze za předpokladu platnosti nulové hypotézy b = b* ) . Stejně tak z předchozího víme, že za platnosti téže hypotézy b= b* bude veličina rozdělena jako [ ]a následně výraz bude mít rozdělení . B) Z Věty 2 dále víme, že výraz (součet čtverců reziduí) lze zapsat jako a že je představován kvadratickou formou v proměnných s maticí , která je symetrická a idempotentní a má hodnost . V důsledku toho má výraz rozdělení a tedy výraz má rozdělení . Konečně víme, že . a tedy, že kvadratické formy Q a SSE jsou lineárně nezávislé (v důsledku ortogonality matic M a N). Lze tedy vyslovit tvrzení umožňující otestovat významnost celého souboru vysvětlujících proměnných jako celku pomocí F-rozdělení (odvozeného jako podíl dvou nezávislých náhodných veličin majících c^2-rozdělení dělených svými stupni volnosti). TVRZENÍ : Za platnosti nulové hypotézy bude podílová veličina rozdělena jako F^k[(T-k)] , tedy bude mít Fisher-Snedecorovo rozdělení o k a (T-k) stupních volnosti. Toto tvrzení je základem pro testování hypotézy , založíme-li tento test na F-rozdělení. Je zřejmé, že v tomto případě je adekvátní jednostranný test a že oblast zamítnutí nulové hypotézy bude tvořena vysokými hodnotami podílu (*) které takto odpovídají vysokým hodnotám tj. velkým odchylkám od . Je zřejmé, že čím je větší rozdíl , tím je čitatel v předchozích výrazech větší a (empiricky spočtená) F-statistika nabývá větší hodnotu -- tento případ mluví proti platnosti hypotézy ve prospěch alternativy . Jestliže má nulová hypotéza (nejčastější) tvar b* = 0, lze psát výrazy v čitateli ve tvaru neboli jde o skalární součin vyrovnaných hodnot. Čím je tento skalární součin větší, tím (při neměnících se hodnotách reziduí e a jejich skalárního součinu e´e ) je větší pravděpodobnost zamítnutí nulové hypotézy (o nulových hodnotách b* nebo jinými slovy o nevýznamnosti zvolených vysvětlujících proměnných jako celku). Poznámka : Všimněme si, že rozdělení výrazu SSE není nijak závislé na hypotetické hodnotě vektoru b*. Jmenovatel výrazu (*) má tedy vždy c^2-rozdělení, zatímco čitatel má c^2-rozdělení pouze tehdy, platí-li nulová hypotéza b = b*. Podíl Q/SSE se používá i v definici koeficientu determinace jako ústřední v ekonometrii používané míry pro vyjádření shody modelu s pozorovanými daty (tzv. "goodness of fit" testy) Koeficient determinace (jako vůbec nejčastěji v ekonometrii užívaná míra shody modelu s daty) je definován vztahem pokud předpokládáme, že vysvětlovaná veličina y má nulovou střední hodnotu (jinak je třeba výrazy o střední hodnoty upravit) . Koeficient R^2 lze tedy interpretovat jako podíl součtu čtverců (centrovaných) vyrovnaných hodnot a součtu čtverců pozorovaných hodnot (závisle proměnné). Statistickou významnost koeficientu R^2 lze testovat pomocí podílu Je-li tento podíl větší než teoretická (v tabulkách uvedená) teoretická hodnota F* na zvolené hladině významnosti při daných stupních volnosti, zamítneme nulovou hypotézu o nevýznamnosti R^2 ve prospěch tvrzení, že R^2 je v kontextu uvažované regresní rovnice dostatečně vysoký. Jak známo, s přidáním každé nové vysvětlující proměnné k souboru již existujících vysvětlujících veličin nemůže hodnota R^2 klesnout, ať je přidávaná k+1-tá vysvětlující veličina statisticky významná či ne. Z tohoto důvodu má pro posuzování hodnot R^2 u dvou různých specifikací regresních rovnic pro tutéž vysvětlovanou proměnnou vliv počet vysvětlujících proměnných v uvažovaných specifikacích. Vyjádříme-li totiž (při centrovaných hodnotách vysvětlované proměnné) výrazy vyskytující se v F statistice jako , pak zřejmě Znamená to tedy , že testovací statistikou konvenčního F-testu vlastně přímo testujeme statistickou významnost koeficientu determinace R^2 .