Problém nesprávné specifikace modelu Chyby pramenící z nesprávné specifikace modelu (chápané v širokém smyslu slova) mohou mít několik příčin. Nejčastější z nich jsou: A – nesprávný výběr proměnných zařazených do modelu A1 – zařazení nepatřičné (irelevantní, nedůležité) vysvětlující proměnné A2 – vynechání patřičné (relevantní, důležité) vysvětlující proměnné B – nesprávná volba analytického funkčního tvaru: B1 – v modelu uvažovaný lineární vztah je ve skutečnosti nelineární B2 – nelinearita má ve skutečnosti jiný tvar než předpokládaný modelem C – chybný předpoklad o vlastnostech náhodné složky regresní rovnice C1 – aditivní vs. multiplikativní připojení s vysvětlujícím proměnným C2– heteroskedasticita, autokorelovanost náhodných složek v realitě, zatímco model uvažuje splnění klasických předpokladů (stejný rozptyl, nezávislost) 1. Obecná formulace Uvažujeme jednorovnicový model v obvyklém maticovém zápisu 1) s obvyklými vlastnostmi LRM. Místo něho však formulujeme (naneštěstí) model v chybné specifikaci (ten bude mít mezi regresory obsaženými v matici jiné proměnné než v matici .)[1] Bude to model tvaru 2) Odhadem parametrů (metodou OLS) bude vektor (chybně) odhadnutých parametrů roven 3) neboli po dosazení za z 1) 3a) . Pro střední hodnotu tohoto vektoru parametrů platí , kde maticí je násoben vektor správných koeficientů , leč Můžeme ji interpretovat jako matici v pomocné regresi správně specifikovaných regresorů na chybně specifikované regresory v modelu 2). V dalším zvlášť pojednáme o situaci, kdy je matice částí matice ( tzn. dochází k vynechání jedné nebo více proměnných, které v modelu mají být jako vysvětlující přítomny) a zvlášť o situaci, je matice částí matice (tzn. jde o případ, kdy jsou do modelu zařazeny nadbytečné vysvětlující proměnné). 2. Vynechání relevantních proměnných Konkrétně (pro 2 vysvětlující proměnné): Předpokládejme, že místo správně specifikovaného modelu 4) uvažujeme a následně odhadujeme nepřesný model (s vynecháním proměnné) : 5) Důsledky vynechání proměnné jsou tyto: 1. Pokud je vynechaná proměnná korelovaná se zařazenou proměnnou , tj , pak budou odhady jak vychýlené[2], tak nekonzistentní, tzn. že platí jak , tak také . Míra nekonzistence nekonverguje k 0, i když rozsah vzorku . 2. I pokud jsou proměnné a nekorelované, tzn.při , bude stále vychýlený, i když je nyní už nestranný. 3. Reziduální rozptyl bude odhadnut nepřesně. 4. Obvykle užívané vyjádření pro rozptyl parametru () je vychýleným estimátorem rozptylu správného estimátoru . 5. Jako důsledek předchozího: procedury testování hypotéz a konstrukce intervalů spolehlivosti budou velmi pravděpodobně poskytovat scestné závěry, pokud jde o statistickou významnost odhadovaných parametrů: Lze ukázat, že kde je koeficient sklonu v regresi vyloučené proměnné na zařazenou proměnnou : . Jestliže je a (pozitivní korelovanost s ), pak odhad bude nadhodnocovat skutečnou hodnotu parametru Obecně (pro k vysvětlujících proměnných): Rozdělíme model na dvě skupiny vysvětlujících proměnných , s celkovým jejich počtem kde v sloupcích submatice jsou patřičné proměnné, zatímco matice obsahuje nepatřičných proměnných. V souladu s tím rozdělíme vektor parametrů na první subvektor o délce a druhý subvektor o délce . Máme tedy přesně specifikovaný model 6) a oproti němu model s nesprávnou specifikací 7) Odhadovou funkcí OLS pro chybně specifikovaný model 7) lze psát jako: takže , kde je matice regresních koeficientů z pomocné regrese proměnných na okruh proměnných v . Velikost vychýlení je zde 8) Odtud plyne, že vychýlení způsobené nezahrnutím některých důležitých vysvětlujících proměnných, je úměrné velikosti vektoru parametrů u vynechaných proměnných a stupni korelace mezi zahrnutými (v ) a nezahrnutými (v ) vysvětlujícími proměnnými. Vychýlení bude konvergovat k 0 jen tehdy, pokud bude platit pro . 3. Zařazení irelevantních proměnných Konkrétně (pro 2 vysvětlující proměnné): Zde budeme naopak předpokládat, že správná podoba modelu je 9) zatímco my se pokoušíme kvantifikovat nepřesně specifikovaný model 10) Odhady parametrů nepřesně specifikovaného modelu označme jako obvykle . Důsledky zařazení nadbytečné proměnné jsou tyto: 1. Odhady parametrů (pořízené metodou OLS) takto chybně specifikovaného modelu jsou všechny nestranné a konzistentní. Pokud je vynechaná proměnná korelovaná se zařazenou proměnnou , bude platit , resp. též . 2. Reziduální rozptyl je odhadnut přesně. 3. Konvenční postupy testování hypotéz a konstrukce intervalů spolehlivosti si zachovávají platnost. 4. Odhady parametrů budou zpravidla méně vydatné, tzn. jejich rozptyly budou obecně větší než u srovnatelných odhadů správně specifikovaného modelu. Srovnejme např. a tedy Poznámka: Zařazení nadbytečné proměnné tedy vykazuje znatelně méně slabin než vynechání důležité proměnné. Při větším počtu nadbytečných proměnných však mohou vzniknout problémy s multikolinearitou a ztrátou stupňů volnosti. Obecně (pro k vysvětlujících proměnných): Opět rozdělíme model na dvě skupiny vysvětlujících proměnných , kde celkový počet vysvětlujících proměnných kde v sloupcích submatice jsou řádně zařazené (patřičné) proměnné, zatímco matice obsahuje (omylem doplněných) nepatřičných proměnných. V souladu s tím rozdělíme opět parametrický vektor, kde subvektor má délku , subvektor délku . Máme tedy přesně specifikovaný model 11) a oproti němu model s nesprávnou specifikací (rozšířenou o .nepatřičných proměnných) 12) , jinak souhrnně 12a) Odhadovou funkcí OLS aplikovanou na chybně specifikovaný model 12) lze nyní psát jako 13) Porovnejme nyní tu část vektoru , která je společná s prvním modelem 11) : K vektoru parametrů se váže jen „horní“ část 13) , kde můžeme psát a tedy . Podobně máme pro „dolní úsek“: a následně . Dále máme Odtud vyplývá, že A) Odhad vektoru patřičných parametrů je nestranný. B) Střední hodnota odhadu vektoru nepatřičných parametrů je nulový vektor (to je příznivý výsledek, protože k parametrům příslušné proměnné nemají v modelu co dělat). Dále platí, že: C) odhadová funkce rozptylu náhodných složek je nestranná D) zvětšují se výběrové rozptyly odhadnutých parametrů patřičných nezávisle proměnných (může to ovlivnit výsledky testování), zhoršuje se tím vydatnost odhadů E) přítomnost nepatřičných proměnných zvyšuje riziko multikolinearity (a snižuje se počet stupňů volnosti). ------------------------------- [1] Přirozeně, některé proměnné obsažené ve sloupcích obou matic mohou být (a zopravidla budou) společné. [2] Tedy ne nestranné.