Link: OLE-Object-Data B. Testování hypotéz a oblasti spolehlivosti v jednorovnicovém modelu B1.Testování jednoho regresního koeficientu Z předchozích již odvozených vztahů víme, že platí : kde je idempotentní matice mající hodnost , neboť – jak praví příslušná věta z lineární algebry – hodnost idempotentní matice je rovna její stopě. Vzhledem k tomu, že v klasickém normálním lineárním regresním modelu je vektor náhodných složek normovaným normálním vektorem, každá pro , je idempotentní kvadratickou formou o hodnosti , (přesněji řečeno: kvadratickou formou s idempotentní maticí ). Platí tedy, že: Výraz (kvadratická forma s náhodnými proměnnými) je rozdělen jako [ ] neboli že výraz je rozdělen jako . Víme, že pro odhad rozptylu platí vztah ; a proto tedy výraz je rozdělen jako . Uvažujme dále podíl , kde je odhadnutá směrodatná odchylka parametru , pro který je , kde označuje druhou odmocninu z prvku ležícího na j-tém místě hlavní diagonály matice . Výraz na pravé straně v čitateli má normované normální rozdělení , zatímco proměnná ve jmenovateli má charakter „“, což je druhá odmocnina náhodné veličiny mající rozdělení. V důkazu Věty 2 jsme ukázali, že lineární forma je nezávislá na kvadratické formě . To vyplývá ze skutečnosti, že součin matic obou těchto forem, tj. a dává nulovou matici : . Proto je lineární forma nezávislá také na veličině . Odtud je zřejmé, že veličina má rozdělení , tj. Studentovo t-rozdělení o stupních volností. (poznamenejme, že tato statistika je vhodná i pro malé výběry tj. pro T< 30) Uvedený výsledek je též základem pro možnost testování hypotézy, že pro nějakou konkrétní hodnotu s použitím Studentova t-rozdělení resp. následně pro konstrukci intervalu spolehlivosti pro parametr . Parametr je zřejmě střední hodnotou normálně rozděleného . (Test hypotézy i konstrukce intervalu spolehlivosti je obdobná jako při odhadu neznámé střední hodnoty výběrového průměru T nezávislých stejně a normálně rozdělených náhodných veličin při stejném ale neznámém rozptylu). Jako zvláštní případ se hypotéza verbálně vyjádřená jako „y se nemění, když xj se mění“ vyjádří jako hypotéza, že podmíněná střední hodnota není ovlivněna hodnotou , což je ekvivalentní hypotéze, že Tzv. t-poměr je právě statistikou vhodnou pro testování uvedené hypotézy: Překročí-li (z empirických hodnot spočtený) t-poměr (teoretickou) kritickou hodnotu t-rozdělení o stupních volnosti na hladině významnosti (např. = 0,05) , zamítáme s pravděpodobností - neboli - nulovou hypotézu o (skutečné) nulové hodnotě regresního koeficientu [1]. Jinými slovy to znamená, že – s toutéž pravděpodobností posuzováno – je j-tá vysvětlující proměnná do regresní rovnice zařazena oprávněně. B2. Testování více než jednoho regresního koeficientu Uvažujme dále hypotézu o celém vektoru ve tvaru . Tato hypotéza odpovídá vyšetření otázky, zda celá skupina zahrnutých vysvětlujících proměnných nabude určených (hypotetických) hodnot. Nejčastějším testovaným případem bývá hypotéza vyjádřená ve tvaru , což odpovídá vyšetřování, zda skupina použitých vysvětlujících proměnných (vzata jako celek) se vyznačuje statisticky významným přínosem pro vysvětlení závisle proměnné ( pro hypotetické hodnoty to znamená podmínku ) . Poznámka Je užitečné říci, že v přímé podobě se takovýto test sice aplikuje velmi často, avšak jeho vypovídací hodnota není zvláště u ekonomických regresních vztahů příliš vysoká. Opačné zjištění (tj. nevýznamnost všech zahrnutých vysvětlujících proměnných) je poměrně vzácné, zvláště v případě, kdy regresní rovnice obsahuje větší (cca více než 3) počet vysvětlujících proměnných. Pro praxi užitečnějším nasazením tohoto testu je případ, kdy testujeme významnost určité podskupiny z celého souboru vysvětlujících veličin (tzn. v počtu 2 až T-1). Zde má obdobně konstruovaný test svůj význam mj. proto, že můžeme variantně zkoumat přínos různých podskupin vysvětlujících proměnných. Přes toto konstatování (a pro jednoduchost) formulujeme test v původní podobě pro vysvětlujících proměnných: Je patrné, že test hypotézy (nejčastěji) bude založen na rozdílu , tedy na rozdílu vypočtené a domnělé (hypotetické) hodnoty. Za předpokladu platnosti nulové hypotézy bude platit, že [2] V konstrukci testu využijeme statistiku Za předpokladu platnosti ( tj. pokud platí hypotéza ) , dostaneme , kde opět , B2a) Víme již, že je idempotentní matice a že její hodnost je Tedy je kvadratická forma v proměnných s idempotentní maticí o hodnosti k obsahující náhodné veličiny s normálním rozdělením (Zdůrazněme, že tak je tomu pouze za předpokladu platnosti nulové hypotézy ) . Stejně tak z předchozího víme, že za platnosti téže hypotézy bude veličina rozdělena jako a následně výraz bude mít rozdělení . B2b) Z Věty 2 dále víme, že výraz (součet čtverců reziduí) lze zapsat jako a že je představován kvadratickou formou v proměnných s maticí , která je symetrická a idempotentní a má hodnost . V důsledku toho má výraz rozdělení a tedy výraz má rozdělení . Konečně víme, že . a tedy, že kvadratické formy a jsou lineárně nezávislé (v důsledku ortogonality matic a ). Lze tedy vyslovit tvrzení umožňující otestovat významnost celého souboru vysvětlujících proměnných jako celku pomocí -rozdělení (odvozeného jako podíl dvou nezávislých náhodných veličin majících -rozdělení dělených svými stupni volnosti). Tvrzení Za platnosti nulové hypotézy bude podílová veličina rozdělena jako , tedy bude mít Fisher-Snedecorovo rozdělení o a stupních volnosti. Toto tvrzení je základem pro testování hypotézy , založíme-li tento test na -rozdělení. Je zřejmé, že v tomto případě je adekvátní jednostranný test a že oblast zamítnutí nulové hypotézy bude tvořena vysokými hodnotami podílu (A) které takto odpovídají vysokým hodnotám tj. velkým odchylkám od . Je zřejmé, že čím je rozdíl větší, tím je čitatel v předchozích výrazech (A) větší a (empiricky spočtená) -statistika nabývá větší hodnotu – tento případ mluví proti platnosti hypotézy ve prospěch alternativy . Jestliže má nulová hypotéza (nejčastější) tvar , lze psát výrazy v čitateli ve tvaru , neboli jde o skalární součin vyrovnaných hodnot. Čím je tento skalární součin větší, tím (při neměnících se hodnotách reziduí a jejich skalárního součinu ) je větší pravděpodobnost zamítnutí nulové hypotézy (o nulových hodnotách nebo jinými slovy o nevýznamnosti zvolených vysvětlujících proměnných jako celku). Poznámka Všimněme si, že rozdělení výrazu není nijak závislé na hypotetické hodnotě vektoru Jmenovatel výrazu (A) má tedy vždy -rozdělení, zatímco čitatel má -rozdělení pouze tehdy, platí-li nulová hypotéza Podíl se používá i v definici koeficientu determinace jako ústřední v ekonometrii používané míry pro vyjádření shody modelu s pozorovanými daty (tzv. „goodness of fit“ testy) Koeficient determinace (jako vůbec nejčastěji v ekonometrii užívaná míra shody modelu s daty) je definován vztahem pokud předpokládáme, že vysvětlovaná veličina má nulovou střední hodnotu (jinak je třeba výrazy o střední hodnoty upravit) . Koeficient lze tedy interpretovat jako podíl součtu čtverců (centrovaných) vyrovnaných hodnot a součtu čtverců pozorovaných hodnot (závisle proměnné). „Tradičně“ bývá koeficient determinace uváděn v těchto dvou zápisech: , kde - regresní součet čtverců [ regression sum of squares ] - celkový součet čtverců [ total sum of squares ] - chybový součet čtverců [ error sum of squares ] . Statistickou významnost koeficientu lze testovat pomocí podílu Je-li tento podíl větší než teoretická (v tabulkách uvedená) teoretická hodnota na zvolené hladině významnosti při daných stupních volnosti, zamítneme nulovou hypotézu o nevýznamnosti ve prospěch tvrzení, že je v kontextu uvažované regresní rovnice dostatečně vysoký. Jak známo, s přidáním každé nové vysvětlující proměnné k souboru již existujících vysvětlujících veličin nemůže hodnota klesnout, ať je přidávaná -tá vysvětlující veličina statisticky významná či ne. Z tohoto důvodu má pro posuzování hodnot u dvou různých specifikací regresních rovnic pro tutéž vysvětlovanou proměnnou vliv počet vysvětlujících proměnných v uvažovaných specifikacích. Vyjádříme-li totiž (při centrovaných hodnotách vysvětlované proměnné) výrazy vyskytující se v -statistice jako pak zřejmě Znamená to tedy , že testovací statistikou konvenčního testu vlastně přímo testujeme statistickou významnost koeficientu determinace . ------------------------------- [1] Porovnáni provedeme pomocí tabulek Studentova rozdělení, ve kterých kritické hodnoty nalezneme v závislosti na hladině významnosti a počtu stupňů volnosti (rozdílu mezi počtem pozorování a počtem vysvětlujících proměnných). Lze přirozeně použít také příslušnou softwarovou podporu (zpravidla procedura tinv) [2] Připomeňme, že jsou skutečné (a neznámé) , námi předpokládané (hypotetické) a vypočtené (odhadnuté) hodnoty regresních koeficientů – odhadnuté hodnoty přitom závisí na užité odhadové proceduře.