Link: OLE-Object-Data

   B. Testování hypotéz a oblasti spolehlivosti v jednorovnicovém modelu

   

   B1.Testování jednoho regresního koeficientu



   Z předchozích již odvozených vztahů víme, že platí :

   

                                               
                                                         

   

   kde   je idempotentní matice mající hodnost  , neboť – jak praví příslušná věta z lineární
   algebry – hodnost idempotentní matice je rovna její stopě.

   

   Vzhledem k tomu, že v  klasickém normálním lineárním regresním modelu je vektor náhodných
   složek  normovaným normálním vektorem, každá   pro

   , je   idempotentní kvadratickou formou o hodnosti , (přesněji řečeno: kvadratickou formou
   s idempotentní maticí ). Platí tedy, že:

   Výraz (kvadratická forma s náhodnými proměnnými)  je rozdělen jako 
   [        ]                          

   neboli že  výraz    je rozdělen jako .

   

   Víme, že pro odhad rozptylu  platí vztah ; a proto tedy výraz    je rozdělen jako   .

   

                                        Uvažujme dále podíl

                                                             ,  kde

     je odhadnutá směrodatná odchylka parametru  ,  pro který je  , kde  označuje druhou
   odmocninu z  prvku ležícího na j-tém místě hlavní diagonály matice .  Výraz na pravé straně
   v čitateli má normované normální rozdělení , zatímco proměnná ve jmenovateli má charakter „“,
   což je druhá odmocnina náhodné veličiny mající    rozdělení.     

   V důkazu Věty 2  jsme ukázali, že lineární forma   je nezávislá na kvadratické formě   . To
   vyplývá ze skutečnosti, že součin matic obou těchto forem, tj.

                  

                                      a           dává nulovou matici :

   

                                       .

   Proto je lineární forma   nezávislá také na veličině    .

   Odtud je zřejmé, že veličina   má rozdělení  ,  tj. Studentovo t-rozdělení o  stupních
   volností. (poznamenejme, že tato statistika je vhodná i pro malé výběry tj. pro T< 30)

   

   

   Uvedený výsledek je též základem pro možnost testování hypotézy, že  pro nějakou konkrétní
   hodnotu  s použitím Studentova t-rozdělení resp. následně pro konstrukci intervalu
   spolehlivosti pro parametr . Parametr  je zřejmě střední hodnotou normálně rozděleného .

   (Test hypotézy i konstrukce intervalu spolehlivosti je obdobná jako při odhadu neznámé střední
   hodnoty výběrového průměru T nezávislých stejně a normálně rozdělených náhodných veličin při
   stejném ale neznámém rozptylu).

   

   

   Jako zvláštní případ se hypotéza verbálně vyjádřená jako „y se nemění, když xj se mění“
   vyjádří jako hypotéza, že podmíněná střední hodnota  není ovlivněna hodnotou , což je
   ekvivalentní hypotéze, že 

   

   Tzv. t-poměr   je právě statistikou vhodnou pro testování uvedené hypotézy:

   Překročí-li  (z empirických hodnot spočtený)  t-poměr (teoretickou) kritickou hodnotu
   t-rozdělení o  stupních volnosti na hladině významnosti   (např.  = 0,05) , zamítáme
   s pravděpodobností - neboli  - nulovou hypotézu o (skutečné) nulové hodnotě regresního
   koeficientu [1]. Jinými slovy to znamená, že – s toutéž pravděpodobností posuzováno – je j-tá
   vysvětlující proměnná do regresní rovnice zařazena oprávněně.

   

   

   B2. Testování více než jednoho regresního koeficientu

   

   Uvažujme dále hypotézu o celém vektoru  ve tvaru  . Tato hypotéza odpovídá vyšetření otázky,
   zda celá skupina zahrnutých vysvětlujících proměnných nabude určených (hypotetických) hodnot.

   

   Nejčastějším testovaným případem  bývá hypotéza vyjádřená ve tvaru

   

               ,

   

   což odpovídá  vyšetřování, zda skupina použitých vysvětlujících proměnných (vzata jako celek)
   se vyznačuje statisticky významným přínosem pro vysvětlení závisle proměnné  ( pro hypotetické
   hodnoty to znamená podmínku    ) .

   

   Poznámka  Je užitečné říci, že v přímé podobě se takovýto test sice aplikuje velmi často, 
   avšak jeho vypovídací hodnota není zvláště u ekonomických regresních vztahů příliš vysoká.
   Opačné zjištění (tj. nevýznamnost všech zahrnutých vysvětlujících proměnných) je poměrně
   vzácné, zvláště v případě, kdy regresní rovnice obsahuje větší (cca více než 3) počet
   vysvětlujících proměnných.

   

   Pro  praxi užitečnějším nasazením tohoto testu je případ, kdy testujeme významnost určité
   podskupiny z celého souboru vysvětlujících veličin (tzn. v počtu 2 až T-1).  Zde má obdobně
   konstruovaný test svůj význam mj. proto, že můžeme variantně zkoumat přínos různých podskupin
   vysvětlujících proměnných.

   

   Přes toto konstatování (a pro jednoduchost) formulujeme test v původní podobě pro
    vysvětlujících proměnných:

   Je patrné, že test hypotézy   (nejčastěji)  bude založen na rozdílu  , tedy na rozdílu
   vypočtené a domnělé (hypotetické) hodnoty.

   

   Za předpokladu platnosti nulové hypotézy       bude platit, že

   

    [2]

   

   V konstrukci testu  využijeme  statistiku 

   

   

   Za předpokladu platnosti   (  tj. pokud platí hypotéza   ) , dostaneme

   

                                           ,               

   

   kde opět                                          , 

   

                 B2a)  Víme již, že    je idempotentní matice a že její hodnost je

   

   

   Tedy  je kvadratická forma v proměnných  s idempotentní maticí  o hodnosti k obsahující
   náhodné veličiny s normálním rozdělením  (Zdůrazněme,  že tak je tomu pouze za předpokladu
   platnosti nulové hypotézy  ) .

   

           Stejně tak z předchozího víme, že za platnosti téže hypotézy    bude veličina

      rozdělena jako     a  následně  výraz

      bude mít  rozdělení   .

   

   

   

   

   B2b)  Z  Věty 2 dále víme, že výraz  (součet čtverců reziduí) lze zapsat jako  a že je
   představován kvadratickou formou v proměnných  s maticí , která je symetrická a idempotentní a
   má hodnost  .

   

   

   V důsledku toho má výraz     rozdělení       a  tedy   výraz     má  rozdělení    .

   

   

   Konečně víme, že

   

                                                  .

   

   a tedy, že kvadratické formy  a  jsou  lineárně nezávislé (v důsledku ortogonality matic  a ).

   Lze tedy vyslovit tvrzení umožňující otestovat významnost celého souboru vysvětlujících
   proměnných jako celku pomocí -rozdělení (odvozeného jako podíl dvou nezávislých náhodných
   veličin majících  -rozdělení dělených svými  stupni volnosti).

   

   

   Tvrzení   Za platnosti nulové hypotézy     bude podílová veličina

   

                                                                

   

   rozdělena jako , tedy bude mít Fisher-Snedecorovo rozdělení o  a  stupních volnosti.

   

   Toto tvrzení je základem pro testování hypotézy  , založíme-li tento test na -rozdělení. Je
   zřejmé, že v tomto případě je adekvátní jednostranný test a že oblast  zamítnutí  nulové 
   hypotézy  bude tvořena vysokými hodnotami podílu

   

   (A)                  

   

   které  takto  odpovídají  vysokým  hodnotám   tj. velkým  odchylkám   od   .

   

Je zřejmé, že čím je rozdíl  větší, tím je čitatel v předchozích výrazech (A)  větší a  (empiricky
spočtená) -statistika nabývá větší hodnotu – tento případ mluví proti platnosti hypotézy    ve 
prospěch  alternativy  .

   Jestliže má nulová  hypotéza (nejčastější) tvar  , lze psát výrazy v čitateli ve tvaru

                                                             ,                       

   

   neboli jde o skalární součin vyrovnaných hodnot. Čím je tento skalární součin větší, tím (při
   neměnících se hodnotách reziduí  a jejich skalárního součinu ) je větší pravděpodobnost
   zamítnutí nulové hypotézy (o nulových hodnotách  nebo jinými slovy o nevýznamnosti zvolených
   vysvětlujících proměnných jako celku).

   

   Poznámka  Všimněme si, že rozdělení výrazu  není nijak závislé na hypotetické hodnotě vektoru
    Jmenovatel výrazu (A)  má tedy vždy -rozdělení, zatímco čitatel má -rozdělení pouze tehdy,
   platí-li nulová hypotéza 

   

   

   Podíl  se používá i v definici koeficientu determinace jako ústřední v ekonometrii používané
   míry pro vyjádření shody modelu s pozorovanými daty (tzv. „goodness of fit“  testy)

   

   

   

   Koeficient determinace (jako vůbec nejčastěji v ekonometrii užívaná míra shody modelu s daty)
   je definován vztahem

   

                                                                                          

   

   pokud předpokládáme, že vysvětlovaná veličina    má nulovou střední hodnotu (jinak je třeba
   výrazy o střední hodnoty upravit) .



  Koeficient  lze tedy interpretovat jako podíl součtu čtverců (centrovaných) vyrovnaných hodnot a
                       součtu čtverců pozorovaných hodnot (závisle proměnné).

   

   „Tradičně“ bývá koeficient determinace uváděn v těchto dvou zápisech:

   

                                                                          ,     kde

      - regresní součet čtverců   [ regression sum of squares ]                    

      - celkový součet čtverců    [ total sum of squares ]

      - chybový součet čtverců  [ error sum of squares ] .

   

                 Statistickou významnost koeficientu    lze testovat pomocí podílu

   

                                                                 

   

Je-li tento podíl větší než teoretická (v tabulkách uvedená) teoretická hodnota  na zvolené hladině
 významnosti při daných stupních volnosti, zamítneme nulovou hypotézu o nevýznamnosti   ve prospěch
             tvrzení, že   je v kontextu uvažované regresní rovnice dostatečně vysoký.

   

  Jak známo, s přidáním každé nové vysvětlující proměnné k souboru již existujících vysvětlujících
veličin nemůže hodnota  klesnout, ať je přidávaná -tá vysvětlující veličina statisticky významná či
ne. Z tohoto důvodu má pro posuzování hodnot  u dvou různých specifikací regresních rovnic pro tutéž
     vysvětlovanou proměnnou vliv počet vysvětlujících proměnných v uvažovaných specifikacích.

   

    Vyjádříme-li totiž (při centrovaných hodnotách vysvětlované proměnné) výrazy vyskytující se
                                         v -statistice jako

   

                                                                   

   

   pak zřejmě

                         

  

  Znamená to tedy , že testovací statistikou konvenčního  testu vlastně přímo testujeme statistickou
  významnost koeficientu determinace  .

   

   

   

   -------------------------------

   [1]   Porovnáni provedeme pomocí tabulek Studentova rozdělení, ve kterých kritické hodnoty
    nalezneme

   v závislosti na hladině významnosti  a počtu stupňů volnosti  (rozdílu mezi počtem pozorování
   a počtem vysvětlujících proměnných). Lze přirozeně použít také příslušnou softwarovou podporu
   (zpravidla procedura tinv)

   [2]   Připomeňme, že  jsou skutečné (a neznámé) ,  námi předpokládané (hypotetické) a
    vypočtené (odhadnuté) hodnoty regresních koeficientů – odhadnuté hodnoty přitom závisí na
   užité odhadové proceduře.