Testování hypotéz v regresních rovnicích s aplikací testů založených na metodě maximální věrohodnosti K testování hypotéz v lineárních regresních modelech lze kromě „tradičních“ nástrojů statistické analýzy – individuálních t-statistik významnosti regresních koeficientů a souhrnného F-testu celkové shody modelu s daty - uplatnit též méně využívanou trojici testů vyvozených pro prostředí nasazení metody maximální věrohodnosti. Jde o: test věrohodnostního poměru , test Lagrangeových multiplikátorů a Waldův test. 1A. Formulace regresního modelu Mějme standardní zápis jednorovnicového ekonometrického (regresního) modelu: (1a) (počet pozorování vzorku) neboli v maticové notaci (1b) , kde ........ členný vektor vysvětlované proměnné ........ -rozměrná matice vysvětlujících proměnných ....... -členný vektor parametrů příslušných vysvětlujícím proměnným .......... členný vektor náhodných složek (disturbancí) regresní rovnice 1B. Hypotézy o parametrech regresního modelu V případě oprávněné možnosti předpokládat sdružené normální rozdělení náhodných složek regresní rovnice (včetně snad i situací, kdy statistická analýza rozdělení pozorovaných dat nesvědčí o opaku) přichází výhodně v úvahu nasazení některého z následující trojice testů : A) test věrohodnostního poměru vyvinutý již v r.1938 S.S. Wilksem (dále LR-test) B) Waldův test formulovaný v r.1943 Abrahamem Waldem (dále AW-test) C) test Lagrangeových multiplikátorů použitý mj. Aitchesonem a Silveym v r.1958, předtím (r.1948) pak pod jiným názvem (skórový test) uplatněn R.Raem (dále LM-test) . Společným znakem uvedené trojice testů je skutečnost, že se v nich operuje s reziduy získanými z neomezeného regresního tvaru, omezeného regresního tvaru (parametry jsou podrobeny testovaným omezením) eventuálně s oběma současně. V následujícím textu užijeme pro rozlišení náhodných složek toto značení: - vektor reziduí vyvozených z odhadů parametrů restrikcemi neomezeného regresního vztahu (1a,b), tzn. odhady parametrů jsou spočteny metodou maximální věrohodnosti (v jednorovnicovém modelu shodných s odhady metodou nejmenších čtverců ) při ignorování omezení (např. o nulové hodnotě) na regresní parametry. - vektor reziduí vyvozených z restrikcemi omezeného regresního vztahu (1a,b), kde odhady parametrů jsou spočteny metodou maximální věrohodnosti tak, že jsou respektována omezení (daná nulovou hypotézou) na parametry (např., že jsou některé z parametrů nulové). Formulujeme standardní lineární regresní model ve tvaru (1) Nejčastějším případem bude test, zda určitá konkrétní ( ) proměnná má být zařazena do regresní rovnice nebo naopak zda má být vynechána. Příslušné omezení zde bude představováno podmínkou , které představuje testovanou (nulovou) hypotézu . Alternativní (oboustranná) hypotéza je pak dána jako Konkrétní testování bude provedeno tak, že spočteme dvě regrese. Jednu ve tvaru (2a) tedy se zahrnutím vysvětlující proměnné (2b) tedy bez zahrnutí vysvětlující proměnné. Poznámka: S ohledem na to, že ubrání kterékoliv vysvětlující proměnné (představující restrikci ) znamená vždy zvětšení (nebo aspoň nezmenšení) reziduálního rozptylu, bude platit (3) neboli 2. Obecná definice testů v dalším výkladu užijeme značení: ... obecná (nespecifikovaná, ale pevná) hodnota parametru (bez omezení) ..... odhad pořízený konzistentní odhadovou funkcí (nejčastěji ML-estimátor) .....hypotetická (hypotézou [ ]předpokládaná) [ ]hodnota parametru . ( v dalším může být jak skalární hodnota, tak k-členný vektor ) Nejjednodušší testovací problém je postaven tak, že data jsou generována sdruženou hustotou odpovídající parametrům nulové hypotézy, resp. při platnosti alternativní hypotézy . Toto je test prosté nulové hypotézy oproti složené alternativě. Logaritmovaná věrohodnostní funkce je zcela obecně definována jako[1] , a tato je maximalizována v hodnotě , splňující podmínku Definujeme-li veličiny jako vektor skórů (jde o gradient log-věrohodnostní funkce), pak k odhadům metodou maximální věrohodnosti směřujeme tak, že položíme tento vektor skórů roven nule. Rozptyl lze snadno spočíst jako inverzi Fisherovy informační matice, neboli (4a) , přičemž (4a) Waldův test je asymptotickou aproximací známých a oblíbených a testů v ekonometrii: Lze ukázat, že jestliže má asymptoticky normální rozdělení, a jestliže lze konzistentně odhadnout pomocí , pak statistika (5) bude mít asymptoticky rozdělení o k stupních volnosti, za platnosti nulové hypotéza. Test věrohodnostního poměru je založen na rozdílu mezi maximy věrohodnostních funkcí při nulové a při alternativní hypotéze. Za obecných podmínek má statistika (6) také asymptoticky rozdělení o k stupních volnosti, pokud platí nulová hypotéza. Patrně první, kdo toto obecné limitní rozdělení odvodil, byl Wilks [1938]. Test Lagrangeových multiplikátorů je odvozen z principu maximalizace při omezeních. Předpokládejme, že maximalizace (logaritmované) věrohodnostní funkce při omezeních daných podmínkou vyžaduje zadat množinu Lagrangeových multiplikátorů, které měří stínovou cenu omezení. Jestliže je tato cena vysoká, omezení by mělo být odmítnuto jako nekonzistentní s hypotézou. Definujeme-li jako veličinu H tzv. Lagrangián (7) , pak jsou podmínky 1.řádu dány vztahy Znamená to, že test založený na principu Lagrangeových multiplikátorů Aitchesona a Silveye [1958-59], je identický s testem založeným na skórech, tak jak byl tento původně navržen R.Raem [1948]. V obou případech lze rozdělení skórů snadno nalézt za nulové hypotézy, protože vektor skórů bude mít nulovou střední hodnotu a rozptyl rovný Jestliže na skóry aplikujeme centrální limitní větu, pak výraz představovaný LM-metodou (8) bude opět mít limitnírozdělení o k stupních volnosti, platí-li nulová hypotéza. Všimněme si, že všechny tři principy jsou založeny na různých statistikách, které ( každá ale jiným způsobem) „měří“ rozdíl mezi a : a) Waldův test je formulován v podmínkách rozdílu b) LR test je formulován v podmínkách rozdílu c) LM test je formulován v podmínkách obrázek pro Idea LR- testu: - LR-test je založen na vertikálním rozdílu ; pokud je hypotéza platná, pak vnesení omezení by nemělo vést k znatelné redukci hodnoty log-věrohodnostní funkce. Zřejmě vždy platí ; Idea Waldova testu: AW test je založen na horizontálním rozdílu , neboť – pokud vezmeme v úvahu tvar omezení - jde o vyčíslení výrazu. Pokud body , leží blízko u sebe, pak také , protože v bodě dává omezení přesně nulovou hodnotu. Pokud dává velkou hodnotu, vede to k zamítnutí hypotézy . Idea LM- testu: - LM-test je založen na sklonu věrohodnostní funkce v bodě . Pokud hypotéza platí, pak by tečna k log-věrohodnostní funkci měla mít minimální sklon; k zamítnutí testu by naopak měla vést vysoká zjištěná hodnota tohoto sklonu. Všechny tři testy jsou za platnosti nulové hypotézy asymptoticky ekvivalentní, ale budou vykazovat rozdílné chování při použití vzorků o malém rozsahu. Bereme-li v úvahu obtížnost/snadnost vyčíslení, pak zaznamenáme: Waldův test vyžaduje výpočet pouze neomezeného estimátoru LM test vyžaduje výpočet pouze omezeného estimátoru LR-test vyžaduje výpočet jak omezeného, tak neomezeného estimátoru V určitých situacích může být jeden z estimátorů snadněji vyčíslitelný než ostatní: např. lineární model se odhadne snadno, ale stává se nelineárním, pokud do něj vneseme nelineární omezení. Pak je preferovatelná Waldova statistika. Naopak, restrikce někdy vedou k odstranění nelinearit, což by naznačovalo výhodnost užití LM-testu. Věta: V případě, že uvažovaná věrohodnostní funkce má tvar kvadratické formy, (9) zapsané ve tvaru , kde je symetrická pozitivně definitní matice, která může záviset na datech (a na známých parametrech), je skalár a je (jako odhad ) funkcí dat, dávají všechny tři testy shodný výsledek. Důkaz: Pro log-věrohodnostní funkci tvaru (9) zřejmě platí (10A,B) , Pak [ ] protože  . Kdykoliv je skutečná hodnota rovná nebo blízká předpokládané , pak bude věrohodnostní funkce v okolí přibližně kvadratická pro velké výběry, tím, že matice závisí pouze na . V tom spočívá příčina asymptotické ekvivalence testů pro lokální alternativy za nulové hypotézy. 3. Nasazení testů v lineárním regresním modelu Předpokládejme (jednorovnicový) lineární regresní model s jednou vysvětlovanou a k vysvětlujícími proměnnými, který zapíšeme (v pozorováních) stručnou formou (11A) , kde je T x 1 vektor závisle proměnné je T x k matice nezávisle proměnných a uvažujme testování hypotézy tvaru , kde je k[1] x k matice známých konstant je k[1] x 1 vektor konstant (podmínek v mezeních) Jestliže má hodnost k[1] (aby se nevyskytovala redundantní omezení), pak parametry a data (obojí současně) mohou být přetransformovány tak, že se původní test převede na test nepřítomnosti (některých ) proměnných v regresní rovnici. V důsledku toho lze úlohu (11 A) reparametrizovat do zápisu (11B) , kde nulová hypotéza má daleko jednodušší tvar. a kde transformované proměnné jsou lineární kombinace původních . Testování tvaru (11B) je technicky jednodušší, než testování tvaru (11A). Testování druhé specifikace je zpravidla výhodnější i z důvodů zapracovaných algoritmů běžných ekonometrických software. Logaritmovaná věrohodnostní funkce pro standardní model (1 ) má tvar: (12) , kde je konstanta . Pokud by bylo známé, pak by díky Větě 1 bylo zajištěno, že by všechny tři testy byly identické.[2] Odtud plyne, že důležitým rozdílem mezi testovými statistikami bude způsob pořízení odhadu. Vektor skórů a informační matice odpovídající parametrům budou tyto: (14) , , a informační matice je blokově diagonální mezi a . Všimněme si, že skóry jsou proporční korelačnímu koeficientu mezi reziduy a proměnnými . Ten je přirozeně vždy nulový v , ale obecně ne v odhadu odpovídajícím nulové hypotéze . Tři testové statistiky nabudou v tomto případě tvar: (15) LR-test (16) AW-test (17) LM-test kde (18) matice je rozdělena na : -první [ Txk[1] ] matice pozorování odpovídá parametrům podrobeným testu -druhá [ Tx(k-k[1]) ] matice pozorování přísluší parametrům nepodrobeným testu Z lineární algebry projekcí vyplývá možnost přepisu Waldova a LM-testu do tvarů obsahujících pouze reziduální hodnoty: (19A,B) Připomeňme, že vždy platí: , protože odpovídá omezenému (jde o SSE, pokud platí nulová hypotéza) a neomezenému součtu čtverců reziduí (maximálně věrohodný odhad bez omezení na regresní parametry) Odtud je mj. zřejmé, že a) oba čitatele v (19A,B) jsou nezáporná čísla b) argument v logaritmu výrazu (15) není menší než 1, výraz je tudíž nezáporný c) čitatele v (19A ) i (19B ) jsou nezáporné, proto též i jsou nezáporná.čísla. Všechny testové statistiky mají -rozdělení o stupních volnosti, kde je počet pozorování regresní rovnice a j e počet restrikcí (omezení) kladených na vztahy mezi regresními parametry. Z výše uvedeného vyplývá, že při testování platnosti hypotézy (na libovolné, ale pro každý test stejné hladině významnosti ) můžeme obdržet na základě uvedených tří testů protichůdné výsledky. Výsledkem může být v jednom případě zamítnutí, ve druhém či třetím nezamítnutí nulové hypotézy. To nelze považovat za nerigoróznost testovacího postupu, ale za projev prosté skutečnosti, že síla jednotlivých testů (chyba 2.druhého druhu vyjadřující pravděpodobnost nezamítnutí hypotézy, pokud nulová hypotéza neplatí) není u všech testů shodná (a může navíc záviset na vysvětlujících veličinách). Tvrzení 1 Mezi uvedenými třemi statistikami platí vztahy: a) (20A) b) (20B) c) (20C) Ověření: provedeme jednoduchým dosazením výrazů v definicích (15) ,(19A), (19B): Z (19A) máme , takže , čímž jsme dokázali a) . Dále máme – opět z definice v (19A) : ,čímž jsme dokázali b) a konečně určením z (19B) dostaneme  Tvrzení 2 Mezi testem věrohodnostního poměru, testem Lagrangeových multiplikátorů a Waldovým testem (všemi zasazenými do prostředí lineárního regresního modelu ale i do některých obecnějších modelových schémat) platí obecná nerovnost (neovlivněná hodnotami datového vzorku):[3] (21) [ ]Ověření[4]: provedeme porovnáním výrazů v (19A), (19B), (19C):: a) Podle (19B) platí , takže Odtud vzhledem k nezápornosti plyne [ . ]b) Podobně z (19A) máme neboli po odlogaritmování , resp. označíme-li a podobně . Nyní uplatníme Taylorův rozvoj levé strany tohoto vztahu a porovnáme ho s pravou stranou: , Zaznamenáme, že (po zrušení jedniček) porovnání členu s členem vede k relaci (a odtud k ) , protože nekonečný součet na levé straně (od výrazu včetně dále) obsahuje jen nezáporné členy. c) Zbývá ukázat, že platí. K tomu využijeme vztah (19C), podle něhož máme: nebo také jinak , kde jsme opět označili a podobně . Odtud máme po odlogaritmování a po jednoduchých úpravách neboli . Opět rozvedeme pravou stranu pomocí Taylorova rozvoje , Odtud máme . Zanedbáme-li členy od řádu 3 včetně dále, je odtud zřejmé, že a tedy i  . Důsledek tvrzení 2: Z relace (21) bezprostředně vyplývá tento důsledek: Kdykoliv vede závěr z testování testem Lagrangeových multiplikátorů k zamítnutí nulové hypotézy, poskytne tentýž výsledek též testování pomocí Waldova a LR- testu. Naopak, kdykoliv vede k přijetí (k nezamítnutí) nulové hypotézy Waldův test, dospějeme ke stejnému závěru testováním LR i LM testem. Nerovnost (21) nicméně neříká nic o relativních přednostech testů ( při platnosti různých alternativ ), protože se vztahuje toliko k testování za (platnosti) nulové hypotézy. Znamená to, že jestliže hladina zvolená pro zamítnutí/nezamítnutí Waldovým testem má velikost/sílu 5%, pak pro LR a ML testy budou mít velikost/sílu menší než 5%. Jejich zřejmě slabší síla výpovědí je prostě důsledkem volbou konzervativnější (blíže k 0) velikosti . Pokud se však hladiny sil poopraví na tutéž velikost, pak už nerovnost v prosté podobě (21) neplatí. Jak ukázali mj. Rothenberg [1979] a Evans a Savin [1983]: když jsou hladiny testů zhruba vyrovnány, pak jsou jejich síly přibližně tytéž. Jak již bylo řečeno, výsledky testování mohou být vzájemně konfliktní: mohou přitom silně záviset na zvolené hladině významnosti: Tak např. Waldův test může zamítat nulovou hypotézu a LM statistika ji přijímat s pravděpodobností 95% (tj. hladině významnosti , ale na jiných hladinách (odpovídajících 90% nebo 99% pravděpodobnostem) může být výsledek testování oběma testy ve vzájemné shodě. 4. Nasazení testů v kontextu uplatnění instrumentálních proměnných Dostatečně obecným prostředím za účelem formulace výše uvedeného testového „tria“ v prostředí soustavy simultánních strukturních rovnic je kontext metody instrumentálních proměnných IV: Připomeňme, že pokud jde o značení, znamenají : vektor vysvětlované běžné endogenní proměnné i-té rovnice matice (vysvětlujících) běžných endogenních proměnných i-té rovnice matice (vysvětlujících) predeterminovaných proměnných i-té rovnice sdružení všech vysvětlujících proměnných matice (vysvětlujících) predeterminovaných proměnných celé soustavy vektor parametrů příslušných běžným endogenních a predeterminovaným proměnným i-té rovnice (jejich sloučením dostaneme vektor ) vektor náhodných složek i-té rovnice vektor reziduí i-té rovnice Zápis i-té strukturní (regresní) rovnice tedy v této symbolice vypadá následovně: (22a) , kde vektor náhodných složek má rozdělení Abychom se však v následujícím obešli bez dvojího indexování ( budeme ho potřebovat pro odlišení skupiny parametrů s omezeními od skupiny parametrů nepodléhajících omezením ), zapíšeme (21a) jednoduše ( bez indexu ) jako (22b) , Definujeme-li matici P jako a formulujeme-li hypotézu o nulovosti (některých) parametrů ve vektoru jako (přičemž zbývající část vektoru parametrů není omezeními dotčena) , bude mít testová statistika odpovídající LM-testu tvar: (23) , kde , , . Vektor vysvětlujících proměnných jsme rozdělili souhlasně s dělením vektoru parametrů na , tzn. proměnné v budou ty, u nichž stojící parametry jsou dotčeny omezeními, zatímco v budou ty, jímž příslušející parametry nepodléhají omezením. Čitatel (23) může být přepsán v podmínkách reziduí z omezené regrese využívající téže matice G. Pokud vezmeme a dále definujeme , může být Waldova statistika vyjádřena jako (23) , Protože je idempotentní matice, mohou být oba součty čtverců v čitateli (23) vyčísleny provedením regrese příslušných reziduí na matici instrumentálních proměnných a vzetím příslušných vysvětlených součtů čtverců. Jejich diference je také získatelná jako rozdíl sum čtverců reziduí z 2. stupně regrese při nasazení 2SLSL odhadové metody . Pokud se instrumenty při přechodu od nulové k alternativní hypotéze nezmění, pak nevnikne žádná obtíž ve formulaci Waldova testu. Pokud se však tento soubor instrumentů změní, pak je Waldův test použitelný (jen) s výběrem instrumentů odpovídajících alternativě. Dalo by se usuzovat, že za této situace by se mohl hodit LM test využívající omezenější okruh instrumentů, ale není tomu tak: přinejmenším ne v jeho původní jednoduché podobě: Pokud jsou totiž oba soubory instrumentů odlišné, pak lze LM test odvodit [učinil tak Engle 1979], ale takto odvozený test nemá žádoucí jednoduchý tvar - např. tvar obdobný (19b).[5] V obecnější situaci, kdy zápisem obdobným (22) vyjádříme sevřený tvar soustavy simultánních rovnic, bude kovarianční matice mít obecný tvar , kde je kovarianční matice náhodných složek rovnic soustavy (vyjádřených v pevném čase ) Soubor predeterminovaných proměnných lze pro takovou soustavu zapsat jako . Pokud nyní vezmeme odhad jako odhadnutou kovarianční matici náhodných složek rovnic soustavy za alternativy, potom můžeme zapsat odhadovou funkci třístupňové metody nejmenších čtverců 3SSL jako (24) , Pak lze ukázat, že Waldův test lze zapsat (díky asymptotické ekvivalenci metod 3SLS a FIML) jako (25) , kterýžto výraz může být reformulován do podoby (26) , Zde (jen zdánlivě) zmizel odhadnutý rozptyl z testové statistiky; ve skutečnosti se však nachází v obsahu vektoru (v němž je tentokrát zahrnuta i informace z matice ). I v tomto případě je tedy rozdíl v (26) tvořen rozdílem mezi součty čtverců reziduí spočtených (při resp. bez respektování zadaných omezení na parametry) nyní třetím stupněm metody 3SLS: Literatura (1) Maddala G.S. : Introduction to Econometrics: London, Macmillan P.C. 1988. (2) Engle R.,F.: “Wald, Likelihood Ratio and Lagrange Multiplier test in Econometrics”. In : Intriligator, M.D., Griliches, Z : Handbook of Econometrics Vol.II, Ch.13. North-Holland Amsterdam, 1986. (3) Berndt, E.R. and Savin N.E.: “Conflict Among Criteria for Testing Hypotheses in a the Multivariate Linear Regression Model”. Econometrica 45/1977 s.1263-1278. (4) Greene,W.,H. : Econometric Analysis. 4^th edition. Prentice Hall, New Jersey . 2000. 5. Dodatek (jako základ pro další úpravy textu) Z historického hlediska je nejstarším testem test věrohodnostního poměru založeného na úvahách Neymana a Pearsona [1928]. Věrohodnostní poměr je, obecně řečeno, podíl tvaru je věrohodnostní funkce = sdružená hustota rozdělení (obvykle náhodných složek) . Z definice je patrné, že hodnota musí ležet v intervalu , protože jmenovatel (neomezené maximum) musí být větší nebo roven čitateli (omezené maximum). Hypotézu zamítáme, jestliže , kde je konstanta definovaná tak, aby chyba 1.druhu byla rovna . LR test má několik důležitých vlastností: Je nestranný a konzistentní.[6] Dále, veličina má - rozdělení o stupních volnosti, kde je počet parametrů , pro které Ho specifikuje předepsané hodnoty. Příklad: jestliže uvažujeme normální rozdělení se střední hodnotou a rozptylem a nechť má nulová hypotéza tvar (přičemž velikost rozptylu není nijak specifikována) Jestliže je věrohodnostní funkce, pak definujeme věrohodnostní poměr jako , přičemž veličina má asymptoticky (pro ) - rozdělení o 1 stupni volnosti. (Věrohodnostní funkce normálního rozdělení má tvar Definice slabé exogenity Množina (vysvětlujících) proměnných v parametrizovaném modelu se nazývá slabě exogenní, jestliže celý model může být zapsán pomocí marginální hustoty proměnných a podmíněné hustoty pro tak, že odhad parametrů podmíněné hustoty není méně vydatný než odhad celé množiny parametrů obsažených ve sdružené hustotě. Toto bude splněno, jestliže žádný z parametrů podmíněné hustoty se neobjeví v marginální hustotě pro. Definice predeterminovanosti Množina (vysvětlujících) proměnných v parametrizovaném modelu se nazývá predeterminovaná, jestliže jsou nezávislé na všech následujících strukturálních náhodných složkách pro . Takto definované predeterminované proměnné lze považovat (přinejmenším asymptoticky) jako by byly exogenní v tom smyslu, že pokud se vyskytnou jako regresory (může jít o zpožděné hodnoty závisle proměnné), získáme vždy konzistentní odhady parametrů. Definice Grangerovy (ne)kauzality Grangerova (ne)kauzalita (chápaná jako jistý druh statistické zpětné vazby) není přítomna tehdy, když se rovnají podmíněné hustoty Definice vyjadřuje, že v podmíněné hustotě nepřinášejí zpožděné veličiny žádný další informační přínos k vysvětlení chování závisle proměnných jiný než ten, který přinášejí zpožděné hodnoty proměnných . Definice silné exogenity Množina (vysvětlujících) proměnných se nazývá silně exogenní, jestliže tato množina splňuje podmínky slabé exogenity a jestliže proměnné nepůsobí v Grangerově smyslu na proměnné . pramen: Engle,R, Granger,C., Richard,J.: Exogeneity. Econometrica 51/1983 p.277-304 6. Konkrétní výsledky testování nestrannosti expektace daňových výnosů V našem případě, je-li hypotéza o regresních parametrech formulována jako b[0]=0, b[1]=1, dostáváme pro jednotlivé situace tyto výsledky : 1) test u daně z příjmů fyzických osob : b[0] = - 0,6363 , b[1] = 1,0337 Výsledek F-testu nulové hypotézy (F*[2],^6=0,1783) vede k závěru, že tuto hypotézu nelze zamítnout na žádné konvenční hladině významnosti. Stejný závěr poskytuje i testování pomocí zmíněných tří testů založených na metodě maximální věrohodnosti, neboť žádná empiricky spočtených testových hodnot ( 0,4488 pro LM, 0,4618 pro LR resp. 0,4754 pro AW) se nijak nepřibližuje ani na hladině významnosti 0,10 kritickým hodnotám c^2 rozdělení o 2 stupních volnosti.- c^2[2] (0,10) = 10,6446. Lze vyvodit, že posuzování odhadu skutečnosti u této daňové kategorie decizním subjektem je objektivní a není systematicky zkreslené. 2) test u daně z příjmů právnických osob : b[0] = 0,1116 , b[1] = 0,4701 Vzhledem k velmi nízké hodnotě koeficientu determinace (R^2 = 0,09) pro formulovanou regresní rovnici lze učinit jen opatrné závěry : F-statistika ( » 0,39) leží opět zřetelně pod všemi kritickými hodnotami příslušného F-rozdělení, analogicky ani empirická hodnota Waldova testu (h*[AW] =1,04) se ani zdaleka neblíží hodnotě “nejmírnější” průkaznosti c^2-statistického testu : opět c^2[2] (0,10) = 10,6446. Opět lze podmíněně – s ohledem na velmi špatné výsledky regresního vystižení – vyvodit, že odhad vývoje daně z příjmů právnických osob není poznamenán systematickým vychylováním ani úrovně ani sklonu, resp. přesněji, že výsledky statistické analýzy (provedené v mezích možností dostupných dat) neprokazují opak. 3) test u daně přidané hodnoty : b[0] = - 2,8389 , b[1] = 0,9957 Ani v tomto případě neprokazuje výsledek statistického testování hypotézy b[0]=0, b[1]=1 zřetelný náznak ve prospěch alternativy (lze to ostatně očekávat již z pohledu na regresní parametry, z nichž b[1] je velmi blízký 1 (0,996) a b[0] je sice od nuly poněkud vzdálen (-2,84), avšak je statisticky zcela nevýznamný). Proto F-test formulované hypotézy poskytující hodnotu jen 0,575 je značně vzdálen od kritické hodnoty F(0,1), která je 3,46. Ke stejnému závěru dospějeme u kterýmkoliv z ML-testů, kde nejnižší hodnota h*[LR] =1,041 (daná testem Lagrangeových multiplikátorů) leží hluboko pod hodnotou c^2[2] (0,10). Ani zde tedy nelze prokázat záměrné vychylování v korekcích cílení daňových výnosů. 4) test u spotřební daně : b[0] = 1,6599 , b[1] = 0,4664 Přestože první pohled na regresní koeficienty b[0], b[1] by – zejména u druhého – nenasvědčoval blízkosti hodnot, které jsou přijímány pro test nulové hypotézy, způsobuje opět špatná kvalita vystižení regresního vztahu zvoleným regresorem možnost, že hypotéza b[0] = 0, b[1] = 1 nebude zamítnuta. Koeficient determinace R^2 je totiž jen 0,275 a ani jedna z obou z t-statistik parametrů nepřekračuje příslušnou kritickou hodnotu (při a = 0,05 je t[6](0,05) = ….. ) . Opět jak F-test s hodnotou 1,4928, tak všechny testy LM, LR a AW nevedou k zamítnutí vyslovené hypotézy ani na nejmírnější významnostní hladině. Systematické zkreslení tedy není nijak indikováno. 5) test u výdajů na sociální a zdravotní pojištění : b[0] = 20,7024 , b[1] = -0,2247 V tomto případě zaznamenáváme v regresním odhadu hodnoty výrazně vzdálené od testovaných. Pohled na příslušné t-statistiky 2,766 resp. –0,560 naznačuje v prvém případě zřetelnou statistickou významnost prvního regresora (jedničkového členu), nehledě na téměř zanedbatelnou nízkou hodnotu koeficientu determinace R^2 = 0,043. Lze konstatovat, že výsledek testování hypotézy b[0] = 0, b[1] = 1 je tentokrát na rozhraní přijetí či zamítnutí : F-test dává pozitivní (ve smyslu zamítavý) výsledek na nejslabší hladině významnosti 0,10: 4,157 > 3,463 (na této hladině se tedy hypotéza zamítá), přičemž z trojice navazujících testů je pozitivní hodnota Waldova testu (h*[AW] = 11,086), která je větší než příslušná kritická hodnota c^2[2] (0,10) = 10,6446. Při volbě vyšší úrovně signifikance nebo z jiného trojice ML-testů by však ani zde k zamítnutí nulové hypotéza nedošlo. Jde tedy o první případ, kdy lze zaznamenat určitý náznak možného systematického vychýlení (dle významnosti parametrů především u úrovňové konstanty) a že daňový decizor či analytik možná přihlíží k předchozím chybám v odhadech tohoto typu daňových výnosů. 6) test u daně z nemovitostí b[0] = 0,1861 , b[1] = -0,0906 Situaci poněkud podobnou předchozí nacházíme i zde : Výsledky regresní analýzy (při naprosto špatné míře vystižení rovnice daty : R^2 je jen 0,0012) udávají hodnoty parametrů regresní přímky velmi nízké. Pro parametr sklonu přímky, který je sice téměř nulový ale statisticky zcela nesignifikantní, z toho lze stěží něco vyvodit, přesto náznak slabounké signifikance úrovňové konstanty (t-statistika = 1,52) spolu s blízkostí 0 parametru sklonu vedou k připuštění možnosti, že se jisté systematické vychylující prvky mohou v uvažování daňového decizora či korektora mohou projevit : Opět jak hodnota F-testu (4,344) –překročením kritické hodnoty na nejnižší hladině 0,01, která je 3,463 - tak i Waldova testu (jako jediného z trojice) – překročením kritické hodnoty c^2[2] (0,10) na stejné hladině významnosti - naznačují možnou přítomnosti slabé systematické chyby. 7) test u souhrnu daňových/pojistných příjmů státního rozpočtu : b[0] = 21,4497, b[1] = -0,2218 Zde stojí za pozornost, že i když se – s výjimkou pojistného – u všech ostatních daňových kategorií – neprojevil žádný náznak systematické chyby, zde je její možná přítomnost indikována nejsilněji. Opatrné hodnocení výsledků (s hodnotami spočtených regresních parametrů hodně vzdálenými od hypotetických) při znatelné významnosti nenulovosti konstantního členu a přes zanedbatelnou kvalitu regresního odhadu (R^2 = 0,05) vedou k opět vzájemně konzistentním závěrům, že : - Výsledek poskytnutý F-testem (6,50) vede k zamítnutí nulové hypotézy tentokrát nejen na hladině 0,1, ale i na “tradiční” hladině 0,05 (F (0,05) = 5,143 - Výsledek indikovaný ML-testy udává, že “nejméně průkazný” Waldův test (s hodnotou h*[AW] = 17,33) je signifikantní dokonce i na nejpřísnější hladině 0,01 (c^2[2] (0,10) = 16,81), zatímco oba ostatní signalizují nevýznamnost (resp. v případě LR testu náznak možné slabé významnosti s přiblížením se k 90% pravděpodobnostní průkaznosti). Lze konstatovat, že při této “velmi špatné kvalitě regresního vystižení a velké vzdálenosti odhadnutých hodnot od hypotetických/testovaných” může dojít ke značným rozdílům v hodnocení reality jednotlivými z trojice ML-testů. Propočty, které byly podkladem pro vyslovení předchozích závěrů byly provedeny algoritmy naprogramovanými RNDr. Daliborem Moravanským ,CSc. tvořícími součást interního programového vybavení ELIMO zpracovaného v jazyce MATLAB. Je nicméně třeba mít na paměti, že s ohledem na malý počet pozorování časových řad, které byly podkladem regresních propočtů, a na obtížnou verifikovatelnost normality rozdělení náhodných složek při tak krátkých časových řadách, je třeba zachovat jistou obezřetnost při případné snaze o zobecnění těchto (předběžných) výsledků. ------------------------------- [1] Odlišnost v chápání sdružené hustoty a věrohodnostní funkce (obrácené pořadí zápisu proměnných a parametrů) není pouze ve formálním zápisu: na sdruženou hustotu pohlížíme jako na veličinu s prvně zadanými parametry , která vyjadřuje rozdělení proměnných; na věrohodnostní funkci naopak jako na veličinu , která zahrnuje (pevně dané) naměřené hodnoty proměnných a její maximalizaci provádíme vzhledem k (měnlivým) parametrům při pevně daných hodnotách pozorovaných proměnných. [2] Pak by totiž první dva členy v (11B) byly konstantní a by byla funkce tvaru (9): kvadratická v [3] Důkaz provedli (pro zobecněný lineární regresní model) [4] Toto ověření bez znalosti původního podkladu provedl D.Moravanský, který tímto žádá čtenáře o případné poznámky k textu, pokud v něm shledá nejasnosti. [5] Viz Engle (1979a) [6] Bude nutné doplnit, co je rozuměno konzistencí a nestranností testu.