ROBUSTNÍ STATISTICKÉ METODY Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulty University Karlovy v Praze Vedoucí katedry: Prof. RNDr Josef Štěpán, DrSc Jana Jurečková PRAHA 2001 © Jana Jurečková, Praha 2001 © Univerzita Karlova v Praze - Nakladatelství Karolinum ISBN iv Předmluva Tento učební text je určen pro posluchače magisterského studia Matematicko-fyzikální fakulty UK, kteří se zaměřují na matematickou statistiku a ekonometrii, ale také pro doktorandy oboru pravděpodobnost a matematická statistika a pro další zájemce. Materiál nejen pokrývá robustní statistické metody, které jsou částí přednášky Robustní a neparametrické metody, ale je i širší, aby poskytl zájemci ucelený obraz o současném stavu problematiky. Četba předpokládá základní znalosti pravděpodobnosti a matematické statistiky. Pokud některá tvrzení nejsou doplněna důkazy, neboť ty by požadovaly hlubší matematický výklad, jsou doplněna odkazy na literaturu, aby se zájemce mohl s nimi seznámit. Bibliografie je doplněna dalšími tituly, zejména knižními, z oblasti robustních statistických metod, která se bouřlivě rozvíjela zejména od šedesátých let 20. století. Učební text samozřejmě nepokrývá celou rozsáhlou oblast robustních statistických metod, ke které je pouze úvodem. Zaměřili jsme se pouze na robustní statistické odhady, založené na nezávislých pozorováních, která lze popsat lineárním modelem nebo modelem s parametrem posunutí. Nedotkli jsme se robustních statistických testů ani robustních metod v časových řadách, kde našly četné zajímavé aplikace. Ale věřím, že čtenář získá představu, co jsou robustní metody, a zapojí je do své práce. Praha, leden 2001, Jana Jurečková 111 vi OBSAH Obsah 1 Matematické nástroje 5 1.1 Statistický model................... 5 1.2 Ilustrace na statistickém odhadu.......... 7 1.3 Statistický funkcionál ................ 8 1.4 Fisherovská konsistence odhadu........... 11 1.5 Vzdálenosti měr ................... 12 1.6 Diferencovatelné funkcionály ............ 15 1.7 Asymptotické rozdělení ............... 21 2 Charakteristiky robustnosti 25 2.1 Influenční funkce................... 25 2.1.1 Diskretizovaná forma influenční funkce . . . 27 2.2 Kvalitativní robustnost ............... 30 2.3 Kvantitativní charakteristiky............ 32 2.3.1 Charakteristiky založené na influenční funkci..................... 32 2.3.2 Bod selhání.................. 34 2.3.3 Míra chvostů statistického odhadu..... 35 2.3.4 Rozptyl asymptoticky normálního rozdělení 43 3 Odhady reálného parametru 45 3.1 M-odhady....................... 46 3.1.1 Influenční funkce M-odhadu......... 47 3.1.2 Volba funkce i/> u M-odhadu parametru posunutí ..................... 53 3.1.3 Studentizované M-odhady.......... 56 3.2 L-odhady....................... 59 3.3 iž-odhady....................... 68 3.4 Asymptotické vlastnosti............... 72 3.4.1 M-odhady................... 74 3.4.2 L-odhady................... 76 3.4.3 iž-odhady................... 78 3.4.4 Asymptotické vztahy M-, L- a iž-odhadů . 79 3.4.5 Minimaximálně robustní odhady...... 84 4 Lineární model 91 4.1 Metoda nejmenších čtverců............. 93 4.2 M-odhady....................... 100 4.2.1 Asymptotické rozdělení M-odhadu s nenáhodnou maticí............. 102 4.2.2 Influenční funkce M-odhadu s náhodnou maticí ....................... 103 4.2.3 GM-odhady.................. 106 4.3 L-odhady....................... 109 4.3.1 Regresní pořadové skóry........... 113 4.4 Robustní škálové statistiky ............. 115 4.5 Jednokrokové verze odhadů............. 119 4.6 Odhady s vysokým bodem selhání......... 120 4.7 Výpočetní algoritmy................. 123 v 2 Úvod Jestliže zpracováváme data klasickými statistickými postupy, založenými na parametrických modelech, obvykle předpokládáme linearitu regrese, nezávislost pozorování, homoskedasticitu, a normální rozdělení chyb. Jak se snadno můžeme přesvědčit dnes, kdy pomocí počítačů můžeme snadno simulovat data z kteréhokoli rozdělení pravděpodobností a modelu, tyto předpoklady často nejsou splněny. Pak nás samozřejmě zajímají hlavně dvě otázky: a) Do jaké míry jsou klasické statistické postupy použitelné, a za jakých podmínek zachovávají svou optimalitu? b) Existují jiné statistické postupy, které nejsou tak vázány na splnění určitých podmínek? Klasické statistické postupy mají typicky parametrický charakter: model je plně určen až na hodnoty několika parametrů, které nabývají reálných nebo vektorových hodnot. Často jsou to parametry rozdělení pravděpodobností náhodných chyb měření. Jakmile se nám podaří tyto parametry odhadnout nebo otestovat jejich obor, můžeme učinit víceméně jednoznačný závěr, plynoucí z našich dat, ovšem za platnosti modelu. Často se setkáme s neparametrickými statistickými postupy, které jsou protipólem parametrických: jsou to takové postupy, které jsou nezávislé nebo málo závislé na tvaru základního rozdělení pravděpodobností a zachovávají si některé dobré vlastnosti pro co nejširší třídu distribučních funkcí, většinou těch, které mají hustotu, případně symetrickou. Diskrétní rozdělení pravděpodobností nás v tomto směru ani tolik netrápí; tvar takového rozdělení většinou poznáme už z povahy experimentu. Typickým představitelem neparametrických statistických postupů jsou pořadové testy statistických hypotéz, u kterých je rozdělení pravděpodobností testové statistiky za hypotézy (nulové rozdělení, tj. za H0) shodné za všech spojitých distribučních funkcí pozorování. U neparametrických postupů chápeme celou hustotu, případně celou regresní funkci jako neznámý parametr (nekonečné dimenze); tento parametr je buď rušivý, tj. naše závěry se ho přímo netýkají a pokud možno se vyhýbáme jeho odhadování, nebo naopak je středem našeho zájmu a hledáme postupy, jak tuto funkci odhadnout (odhady hustoty, odhady regresní funkce), nebo otestovat, do jaké třídy patří (testy dobré shody o tvaru rozdělení). Naproti tomu robustní statistické postupy jsou takové, které si zachovávají určitou optimalitu v okolí nějakého základního rozdělení pravděpodobností, např. normálního. K robustním postupům vedlo zjištění, že i malé odchylky od normálního rozdělení mají značný vliv na kvalitu klasického odhadu metodou nejmenších čtverců, klasického f-testu a dalších klasických postupů. Robustní postupy lze pak chápat jako určitá vylepšení, modifikace klasických postupů, které neselžou při malých odchylkách od základních předpokladů. Robustní postupy jsou optimální v okolí daného rozdělení, vzhledem k určité vzdálenosti a k určitému kriteriu optima-lity. Jako takové jsou vydatnější než neparametrické postupy, které 1 3 4 svou funkčnost pro široký model platí určitou ztrátou vydatnosti. Mluvíme-li o robustních statistických postupech, většinou máme na mysli robustní statistické odhady; pokud používáme robustní testy, jsou to testy Waldova typu, založené na robustních odhadech, a tyto testy doporučujeme použít v situaci, kdy nemáme vhodný pořadový test pro danou hypotézu. Během posledních dvaceti let se značně rozvinuly i semipara-metrické statistické postupy, které chápou hustotu rozdělení pravděpodobností, influenční funkci statistického odhadu nebo další funkci jako rušivý parametr, který obvykle nejprve odhadují, a pak hledají postup, vhodný pro tuto funkci. V tomto výčtu nelze opominout adaptivní statistické postupy, které konvergují (skoro jistě nebo v pravděpodobnosti) k optimálnímu parametrickému odhadu nebo testu tak, že se s rostoucím počtem pozorování adaptují na příslušný parametrický model; jakkoli by tato situace byla ideální, konvergence je natolik pomalá, že optimality bychom dosáhli při nerealisticky velkém počtu pozorování. Existují také částečně adaptivní postupy, které se postupně blíží k rozhodnutí, nejlepšímu z předepsané konečné množiny možností. Protože se adaptivní, neparametrické, robustní a semiparamet-rické metody rozvíjely postupně, hlavně od čtyřicátých let 20. století, není mezi nimi ostrá hranice, a jednotlivé pojmy, hlediska a cíle se vzájemně prolínají. I v této učebnici, zaměřené hlavně na robustní statistické postupy, se často dotkneme i ostatních postupů. Naším hlavním cílem je ukázat, jaké možné alternativy klasických statistických postupů můžeme použít, pokud si nejsme jisti naším modelem. Matematicky chápeme robustní postupy jako statistické funkcionály, definované na prostoru distribučních funkcí. Zajímá nás jejich chování v okolí určitého rozdělení pravděpodobností, případně modelu, a toto okolí je definováno vzhledem k nějaké vzdálenosti. Proto musíme nejprve uvažovat možné vzdálenosti na prostoru distribučních funkcí a příslušné základní vlastnosti a charakteristiky statistických funkcionálů, jako je jejich spojitost a derivace. To je teoretickým základem robustních statistických postupů. 6 KAPITOLA 1. MATEMATICKÉ NÁSTROJE Kapitola 1 Matematické nástroje robustnosti 1.1 Statistický model Předpokládejme, že pokus vede k pozorováním X\,...,Xn. Klasický statistický model předpokládá, že vektor pozorování (Xi,...,Xn) může nabývat hodnot z výběrového prostom X se CT-algebrou podmnožin B, a pravděpodobnostní chování studovaných jevů popisuje rozdělení pravděpodobností P, definované na B. Rozdělení P patří do třídy P = {Pg, 8 6 0}, indexované parametrem 8 6 0 C W, kde p je přirozené číslo. Trojice {X, B,Pg : 8 6 0} je (parametrický) statistický model. Ve většině případů je X podmnožinou Wxn, tedy náhodný pokus vede k n nezávislým p-rozměrným pozorováním. V některých případech je charakter parametrického statistického modelu plně určen povahou experimentu: např. snadno poznáme binomické, multinomické, Poissonovo či hypergeometrické rozdělení. Podobně, pravděpodobnostní chování doby čekání (na obsluhu apod.) obvykle charakterizujeme gama rozdělením. Většina statistických postupů však byla odvozena za předpokladu, že pozorování pocházejí z normálního rozdělení. Tyto postupy jsou většinou algebraicky jednoduché, proto se automaticky používají ve všech situacích, kdy nosičem hustoty pozorování je celá přímka, a na předpoklad normality se jaksi "zapomíná". Např. odhad metodou nejmenších čtverců, jakkoli se zdá univerzální, je úzce spjat s normálním rozdělením chyb a selhává, pokud i jen část pozorování pochází z jiného rozdělení, jehož hustota má těžší chvosty než normální, nebo vyskytují-li se mezi daty odlehlá pozorování, která data kontaminují. O tom se můžeme přesvědčit nejen numericky, ale byly též dokázány přesvědčivé teoretické argumenty, založené na charakterizaci normálního rozdělení: např. Kagan, Linnik a Rao [49] dokázali, že odhad metodou nejmenších čtverců v lineárním regresním modelu je přípustný vzhledem ke kvadratické ztrátové funkci (tj. neexistuje jiný odhad se stejnoměrně menším kvadratickým rizikem) tehdy a jen tehdy, je-li rozdělení chyb normální. Studentův í-test a Snedecorův f-test, podobně jako f-test lineární hypotézy, byly odvozeny za předpokladu normality; zatímco í-test je poměrně robustní k odchylkám od normálního rozdělení, F-test je k nim velice citlivý; nejsme-li si jisti normálním rozdělením, použijeme příslušných pořadových testů. Jestliže si nejsme jisti parametrickou formou modelu, máme dvě možnosti: a) Vzdáme se parametrizace Pg reálným nebo vektorovým parametrem 8 a nahradíme rodinu {Pg : 8 6 0} rozsáhlejší rodinou rozdělení pravděpodobností; tj. přijmeme neparametrický přístup. 5 1.2. ILUSTRACE NA STATISTICKÉM ODHADU 7 8 KAPITOLA 1. MATEMATICKÉ NÁSTROJE b) Na prostoru {X, B} zavedeme vhodnou topologii, která nám umožní studovat stabilitu klasických postupů, optimálních za Pg, při malých odchylkách od Pg, tj. přijmeme robustní přístup. 1.2 Ilustrace na statistickém odhadu Nechť Xi,..., Xn jsou nezávislá pozorování se stejným rozdělením pravděpodobností Pg, kde 8 je nepozorovatelný parametr, Í£0C W; nechť F(x, 8) je distribuční funkce, příslušná Pg. Chceme-li odhadnout parametr 8, máme řadu možností, např. (1) Metoda maximální věrohodnosti. (2) Metoda momentů. (3) Metoda x2~m^ma nebo metoda minimalizující jiný typ vzdálenosti. (4) Metoda založená na postačujících statistikách (Rao-Black-wellova věta) a na úplných postačujících statistikách (Leh-mann-Scheffého věta). Připomeňme si, že vektor uspořádaných pozorování (vektor pořádkových statistik) Xn:1 < Xn:2 < ... < Xn:n je úplnou postačující statistikou pro systém rozdělení s hustotami níLi f(xi)> kde / je libovolná spojitá jednorozměrná hustota; v případě, že parametr 8 je reálný, to přirozeně vede ke třídě L-odhadů typu ra Tn = ^ * Cnih{Xn:i) i=l založených na pořádkových statistikách. (5) Minimalizace určité (kriteriální) funkce pozorování a 8 : např. minimalizace ra ^2p(Xi,8) :=min, 6*6 0, i=l kde p(-, •) je vhodná nekonstantní funkce, např. p(x, 0) = — log f(x, 0) vedoucí k maximálně věrohodnému odhadu. Tím se dostáváme ke třídě M-odhadů, tj. odhadů maximálně věrohodného typu. (6) Inverzí pořadových testů o posunutí v poloze, o významnosti regrese aj. dostáváme třídu R-odhadů, založených na pořadích pozorování nebo jejich residuí. V dalších kapitolách této knížky se seznámíme s M-, L- a R- odhady a s některými dalšími metodami. 1.3 Statistický funkcionál Nechť X je náhodná veličina s rozdělením pravděpodobností Pg, kde Pg e V = {Pg : 8 6 0 C W}. Pak v mnoha případech lze 8 chápat jako funkcionál 8 = T(P) definovaný na V; můžeme též psát 8 = T(F), kde F je distribuční funkce příslušná P. Přirozeným odhadem 8, založeným na pozorováních X1:... ,Xn pak je T(Pn), kde Pn je empirické rozdělení pravděpodobností vektoru (Xu...,Xn),tj. n Pn(A)=^Y,^X*íA^ AeB> (L1) i=l 1.3. STATISTICKÝ FUNKCIONÁL 9 10 KAPITOLA 1. MATEMATICKÉ NÁSTROJE tedy Pn je rovnoměrné rozdělení na množině ... i^Qi}, neboť Pn({Xi}) = i, i = 1,... ,n. Distribuční funkce příslušná Pn je empirická distribuční funkce n Fn(x) = P„((-oo,i]) = ± X^[X< oo vzhledem k nějaké konvergenci na prostoru pravděpodobnostních měr: většinou uvažujeme konvergenci v pravděpodobnosti, v distribuci, skoro jisté, ale často také limitu vychýlení odhadu T(Pn) od T(P), tj. lim^oo \E[T(Pn) — T(P)]|. Abychom mohli studovat chování 1.4. FISHEROVSKÁ KONSISTENCE ODHADU 11 12 KAPITOLA 1. MATEMATICKÉ NÁSTROJE odhadu T(Pn) v okolí P, uvažujeme rozvoj funkcionářů (T(Pn) — T(P)) Taylorova typu; k tomu potřebujeme některé další pojmy z funkcionální analýzy, jako různé vzdálenosti mezi Pn a P, vzájemné vztahy těchto vzdáleností, a spojitost a diferencovatelnost funkcionálu T vzhledem k příslušné vzdálenosti. 1.4 Fisherovská konsistence odhadu Přirozeným požadavkem, který by měl splňovat statistický odhad, je fisherovská konsistence, zavedená v r. 1921 R. A. Fisherem: Odhad dn založený na pozorováních X\..., Xn s rozdělením pravděpodobností P je físherovsky konsistentním odhadem parametru 8, jestliže, píšeme-li jej jako funkcionál 8n = T(Pn) empirického rozdělení pravděpodobností vektoru (X1:..., Xn), n = 1,..., pak platí T(P) = 6. lato podmínka není vždy automaticky splněna, jak je vidět na následujícím příkladě: Příklad 1.2 Nechť 6 = var X = T(P) = JKx2dP - {JKxdP)2 je rozptyl P. Pak výběrový rozptyl §n = T(Pn) = I J2ti(xi ~xn)2 je físherovsky konsistentním, ale vychýleným odhadem 8. Naproti tomu nevychýlený (nestranný) odhad rozptylu S% = ^rj- YIa=i(xí~ Xn)2 není físherovsky konsistentním odhadem 6, neboť S2n = ^T(Pn) a -n-jTWrTiP). Fisherovská konsistence je přirozená vlastnost odhadu a z hlediska robustnosti je důležitější než jeho nevychýlenost (nestrannosť); proto u každého statistického funkcionálu nejprve ověřujeme jeho físherovskou konsistenci. 1.5 Některé vzdálenosti pravděpodobnostních měr Nechť X je metrický prostor, úplný a separabilní s metrikou d, a nechť B je c-algebra borelovských podmnožin X. Nechť V je systém všech pravděpodobnostních měr na (X,B); pak V je konvexní množina, na které můžeme zavést různé typy vzdáleností dvou prvků P,Q 6 V. Popíšeme stručně některé z těchto vzdáleností, které se v matematické statistice nejčastěji užívají; čtenáře, který se chce podrobněji seznámit s dalšími vzdálenostmi a vůbec s touto problematikou, odkazujeme na literaturu z funkcionální analýzy a teorie pravděpodobnosti, např. [9]. (1) Prochorovova vzdálenost: dp(P, Q) = inf{£ > 0 : P(A) < Q{Ae) + e ~iAeB,A^%}, kde Ac = {x 6 X : vaíy£A d(x, y) < e} je uzavřené e-okolí neprázdné množiny A. (2) Lévyho vzdálenost: Nechť X = R je reálná přímka a nechť f, G jsou distribuční funkce pravděpodobnostních měr P, Q. Pak dL(F,G) = inf{£ > 0 : F (x - e) - e < G(x) < F(x + e) + éix e R}. (3) Úplná variace: dv(P,Q) = sup|P(A) -Q(A)\. AeB Jak snadno ověříme, platí dy(P, Q) = Jx \dP — dQ\. 1.5. VZDÁLENOSTI MĚR 13 14 KAPITOLA 1. MATEMATICKÉ NÁSTROJE (4) Kolmogorovova vzdálenost: Nechť X = R je reálná přímka a nechť -F, G jsou distribuční funkce pravděpodobnostních měr P, Q. Pak dK(F,G) = suv\F(x) - G(x)\. (5) Hellingerova vzdálenost: h(p, q)=[vďp - vďo)2} 1/2 Jestliže / = ^ a g = ^ jsou hustoty P, Q vzhledem k nějaké míře /i, pak lze Hellingerovu vzdálenost psát ve tvaru H2(P,Q) = (v7- v/š)24» = 2 (l - jx\ff9^) ■ (6) Lipschitzovská vzdálenost: Předpokládejme, že ^(^i y) < 1 Vír, y £ X (jinak vezměme metriku * = :&). pak " dti(r,Q) = sup / Vd-P" / kde £ = {* : A" i-> R : - i/>(y)| < d(x, y)} je množina lipschitzovských funkcí. Vztahy mezi jednotlivými vzdálenostmi Množina V všech pravděpodobnostních měr na (X, B) je metrickým prostorem vzhledem ke každé z výše popsaných vzdáleností, na kterém pak můžeme studovat spojitost a další vlastnosti statistického funkcionálu T(P). Protože nás zajímá chování funkcionálu v okolí nějakého rozdělení P, zajímá nás také, která vzdálenost jemněji reaguje na malé odchylky od P. Následující nerovnosti mezi jednotlivými vzdálenostmi pravděpodobnostních měr ukazují nejen případnou dominanci jedné vzdálenosti nad druhou, ale i jejich vzájemné vztahy. Ověření těchto nerovností ponecháváme jako cvičení: H2(P, Q) < 2dv(P, Q) < 2H(P, Q), dp(P,Q) 0 x < 0 9(*) = { l Pak 2dv(P,( Jo 1 - e x) dx + 0 < z < 1 jinak. L ^ dx = l + í-l + - a tedy dv(exp, R(0,1) ss 0.3679. Dále platí dx(P,Q) = sup 11 - e-x - xl[0 < x < 1] - I[x > 1] = e'1 a 0.1839 1.6. DIFERENCOVATELNĚ FUNKCIONÁLY 15 16 KAPITOLA 1. MATEMATICKÉ NÁSTROJE a iř2(exp, R(0,1)) = 2 ^1 - J V(«)+£ ^(M'+^M", « 6 [«.*]■ (1-4) fc=i Nás však nejvíce zajímá rozvoj v pravostranném okolí bodu u = 0, který odpovídá malé kontaminaci rozdělení P. V tom případě nahradíme derivace • ip{t) = (1 - ť)EPX2 + tEQX2 - (1 - tf(EpXf -ŕ (EQX)2 - 2í(l - t)EPX ■ EQX ip'(t) = -EPX2 + EQX2 +2(1 - í) (EpX)2 - 2í (EQX)2 -2(1 - 2t)EPX ■ EQX. Odtud plyne lun ] taková, že LP(Q - P) -- f gd(Q - P). Jx (1.8) b) Jestliže je T diferencovatelné ve Fréchetově smyslu, je diferen- covatelné i v Gáteauxově smyslu, tj. existuje Tq(P) VQ 6 V, a platí T^P) = LP(Q - P) VQeP. (1.9) Speciálně, TX(P) = LP(6X -P)= g(x) - i gdP (1.10) Jx a odtud dále plyne Bp(T'x(P))= í T'x(P)dP = 0. (1.11) Jx c) Nechť Pn je empirické rozdělení pravděpodobností vektoru (*!..., Xn). PakPn-P=± Eti ~P),a tedy, protože Lp je lineární funkcionál, n Lp(Pn-P)=l-Y,LP ÍSjc-P) «=i Důkaz (1.9): Skutečně, podle (1.7), protože Lp(-) je lineární funkcionál, T,(P)=Umr(P + *(Q-P))-T(P) = ]imnp+t(Q-p))-T(p)_ +LP(Q-P) = 0 + LP(Q-P) = LP(Q-P). ■ Hadamardova (kompaktní) derivace Jestliže existuje lineární funkcionál L(Q — P) takový, že konvergence (1.7) je stejnoměrná nikoli nutně pro ohraničené množiny metrického prostoru (V, ô), pokrývající P, tj. pro všechna Q taková, že <5(P, Q) < C, 0 < C < oo, ale pouze pro Q patřící do libovolné pevné kompaktní množiny Kc? pokrývající P, pak říkáme, že funkcionál T je diferencovatelný v Hadamardově smyslu a funkcionál L (Q—P) nazýváme Hadamardovou (kompaktní) derivací T. Funkcionál, diferencovatelný ve Fréchetově smyslu, je zřejmě diferencovatelný i v Hadamardově smyslu, a z diferencovatelnosti v Hadamardově smyslu dále plyne diferencovatelnost v Gáteauxově smyslu podobným způsobem jako v Poznámce 1.3. Čtenáři, kterého zajímají vlastnosti diferencovatelnosti různých statistických funkcionálů, doporučujeme knížku [23]. Fréchetova diferencovatelnost klade dost omezující podmínky na funkcionál a ne každý robustní funkcionál je splňuje. Na druhé straně, je-li funkcionál fréchetovsky diferencovatelný, pak snadno odvodíme asymptotické (normální) rozdělení pravděpodobností jeho 1. T. ASYMPTOTICKÉ ROZDELENÍ 21 22 KAPITOLA 1. MATEMATICKÉ NÁSTROJE empirického protějšku, pro počet pozorovaní rostoucí n nade všechny meze. Asymptotickou normalitu často odvodíme i pomocí Ha-damardovy derivace, není-li funkcionál dostatečně "hladký". Pokud chceme pouze dokázat, že T(Pn) je konsistentním odhadem T(P), vystačíme jen se spojitostí funkcionálu. Gáteauxova derivace T^(P), zvaná influenční funkcí funkcionálu T, je jednou z nej důležitějších charakteristik robustnosti funkcionálu. Influenční funkcí se budeme zabývat ve 2. kapitole. 1.7 Asymptotické rozdělení empirického funkcionálu Uvažujme opět metrický prostor (v, S) všech rozdělení pravděpodobností na (x, b) s metrikou ô takovou, že ^fiS(Pn,P) = Op(í) při n-> co, (1.13) kde P„ je empirické rozdělení pravděpodobností, příslušné náhodnému výběru (X1:Xn), n = 1,2,____Poznamenejme, že (1.13) je splněno např. pro Kolmogorovovu vzdálenost empirické distribuční funkce od skutečné, což má pro statistické aplikace největší význam, ale platí to i pro další vzdálenosti Ukážeme, že fréchetovská diferencovatelnost spolu s klasickou formou centrální limitní věty dávají asymptotické rozdělení pravděpodobností empirického funkcionálu T(Pn). Věta 1.1 Nechť T je statistický funkcionál, fréchetovsky diferencovatelný podle P a předpokládejme, že empirické rozdělení Pn náhodného výběru (X1:..., Xn) splňuje podmínku (1-13) při n—>oo. Jestliže Gáteauxova derivace T'Xl (P) má kladný rozptyl, vaxpTXi(P) > O, pak posloupnost \Jň(T(Pn)—T(P)) má asymptoticky normální rozdělení při n —¥ oo, neboli £(T(Pn)-T(P)) —>^(0,varP2Í1(P)). (1.14) Důkaz. Podle (1.12) jeT'Pn{P) = I Yh=iTXi(p)- DálePodle (L6) a podmínky (1.13) dostáváme MT(Pn) ~ T(P)) = ±=J2T'Xi(P) + Rn Vn i=i = lflP(Pn-P) + VS<,(J(P„,F)) (1.15) Jestliže společný rozptyl varpT^-. (P) = varpTjfi (P), i = 1,..., n, je konečný, pak (1.14) plyne z (1.15) a z klasické centrální limitní věty. ■ Příklad 1.5 Nechť T(P) = varpJsľ = a2. Pak ra T(Pn) = S2n=l-YJ(Xi-Xn)2 i=l a podle příkladu 1.4 b) T^(P) = (x - EPX)2 - varpJsľ, tedy varpT^(P) = EP(X - EPX)A - E2P(X - EPX)2 =/j,4-lA 1. T. ASYMPTOTICKÉ ROZDELENÍ 23 a podle Věty 1.1 dostáváme asymptotické rozdělení výběrového rozptylu c(MSl-°2)) —^(0,^4-^). 24 KAPITOLA 1. MATEMATICKÉ NÁSTROJE Kapitola 2 Základní charakteristiky robustnosti 2.1 Influenční funkce Vraťme se k rozvoji (1.15) rozdílu T(Pn) — T (P), podle kterého T(Pn) -T(P) = iJ2T'Xi(P) + n-^Rn, (2.1) «=i kde n^^Rn = ov{n-xl2). Pak ^Ya=1T'x.(P) můžeme chápat jako chybu odhadu T(P) pomocí T(Pn) a T'x. (P) můžeme chápat jako příspěvek Xt k této chybě, neboli jako vliv Xt na tuto chybu. To nás intuitivně vede k výkladu Gáteauxovy derivace TX(P), x 6 X jako influenční funkce funkcionálu T(P). Definice 2.1 Influenční funkcí funkcionálu T v rozdělení pravdepodobností P nazveme Gáteauxovu derivaci T podle P ve směru 26 KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI Sx, x 6 X, tj. IF(x;T,P)=T^P) = lim^0+T(Pt(Sx))t~T(P) (2.2) kde Pt(Sx) = (l-t)P + tSx. Vlastnosti IF: a) EP(IF(x;T,P)) = JxT^(P)dP = 0, tedy průměrný vliv na chybu odhadování přes všechny body x je roven nule. b) Jestliže T je fréchetovsky diferencovatelný, je splněna podmínka (1.13) a varP(/P (x;T,P)) = EP{IF{x;T,P)f > 0, pak (yE(T(Pn) - T(P)) —>jV(o,varp(/P(a;;T,P))). Příklad 2.1 (a) Střední hodnota: T(P) = EP(X) = mP. Pak T(Pn) = Xn, IF(x; T, P) =T'x(P)=x- mp, EP(IF(x;T,P)) =0, varp(7P(o;; T, P)) = varpJsľ = ap, EQ(IF(x;T,P))=mQ-mP pro Q^P, c(yE(Xn - mp)) —> 7V(0, ap) 25 2.1. influenCnI funkce 27 28 KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI pokud P je skutečné rozdělení pravděpodobností náhodného vý-beru (Xu...,Xn). (b) Rozptyl: T(P) = varPJsľ = op. Pak IF(x;T, P) = (x- mpf - o2P, EP(IF(x;T,P)) = 0, vaxp(IF(x; T, P)) = /j4 - p\ = m - op EQ(IF(x;T, P)) = EQ(X - mvf - o2P = Cq + (m.q - mp)2 + 2Eq(X - mq)(mq - mP) -op = Oq- ap + (m.q - mp)2. 2.1.1 Diskretizovaná forma influenční funkce Označme Tn = T(Pn) = Tn(X\.....Xn) empirický funkcionál odpovídající vektoru pozorování (Xi,..., Xn). Přidejme k pozorováním Xi,..., Xn další pozorování Y. Pak vliv Y na Tn charakterizujeme rozdílem Tn+1{Xu ...,Xn,Y)- Tn(Xi, ...,Xn)~ I(Tn,Y). (2.3) Protože i=l n + 1 n + 1 f 1 " -^t) Pn + -^TÍy, V n+lj n + 1 můžeme říci, že Pn+i vzniklo z Pn kontaminací degenerovaným rozdělením Sy v poměru ^jrj-, a tedy i1 n + l) Pn + —r&y n + l -T(Pn). I(Tn,Y)=T Protože lim(n + l)/(T„,y) (2.4) n->oo = T[(1-H+l)^ + ^]-ľ(Pn) n->oo —!— = IF{Y;T,P), můžeme chápat (n + \)I(Tn,Y) jako diskretizovanou verzi influenční funkce. Supremum \I(Tn, Y)\ přes Y představuje míru citlivosti empirického funkcionálu T„, při pevných X\,... ,Xn, ke přidání dalšího pozorování. Definice 2.2 Citlivostí funkcionálu Tn(X\,... ,Xn) k přidání dalšího pozorování při daných X\,..., Xn nazýváme číslo 5'(Tn) = sup|J(Tn(A-1, y ,Xn),Y)\. (2.5) Příklad 2.2 (a) Střední hodnota: T(P) = EPX, Tn = Xn, Tn+1 2.1. influenCnI funkce 29 30 kapitola 2. charakteristiky robustnosti tn+i = —^—(nXn + y) n+l i(tn, y) = (-2- -l)xn + -^—y \n + l j n+l 1 n+l (Y-Xn) (n + í)i(Tn,y) = y -X, 1 ■ y - EPX ■ S(Xn) : supiy-x,,! = oo, ra+ 1 y tedy výběrový průměr má nekonečnou citlivost k přidání dalšího pozorování. (b) Medián: Nechť n = 2m + 1 a nechť X^ < ... < Xi uspořádaná podle velikosti. Pak tn = tn (X\ l(m+l) V(n) jsou pozorovaní a tn+i = T„+i (X\..., Xn, y) nabývá následujících hod- not v závislosti na poloze y vzhledem k ostatním pozorováním: Xím)+Xím+l) 2 X(m+l)+X(m+2) 2 y+*(„»+D y < X, (m) y > X, Hm) (m+2) X, y-xím+l) Hm) (m+2) (Tn,An). Nechť V je systém všech rozdělení pravděpodobností na S s Prochorovovou metrikou dp. Definice 2.3 Řekneme, že posloupnost statistik {Tn} je (kvalitativně) robustní pro rozdělení pravděpodobností P, jestliže k libovolnému £ > 0 existuje ô > 0 a přirozené číslo ng tak, pro všechna Q 6 V a n > ng, dP(P, Q) < S =>■ dP (CP(Tn), CQ(Tn)) < e, (2.6) kde Cp(Tn) je rozdělení Tn za P a Cq(Tn) je rozdělení Tn za Q. Takto chápanou robustnost nazýváme kvalitativní , protože pouze říká, jestli funkcionál je nebo není robustní, a tuto charakteristiku nijak neměří. Je to také robustnost infinitesimální, protože uvažuje chování funkcionálu v okolí Po- Samozřejmě podobně můžeme uvažovat spojitost i vzhledem k jiné metrice na V, např. k Lévyho metrice. Protože chceme srovnávat funkcionály mezi sebou z hlediska robustnosti, snažíme se robustnost nějakým způsobem kvantifikovat, tj. charakterizovat ji nějakým číslem. Jak ukážeme, takových možných kvantifikací je celá řada; náhrada složitějšího pojmu jedním číslem je však většinou jednostranná a zjednodušující. 2.3 Kvantitativní charakteristiky robustnosti 2.3.1 Charakteristiky založené na influenční funkci Influenční funkce je jednou z nejdůležitějších charakteristik statistického funkcionálu/odhadu. Hodnota IF(x; T, P) měří vliv kontaminace funkcionálu T hodnotou x, a tedy má-li být T robustní, měl by mít ohraničenou influenční funkci. Ohraničenost influenční funkce však neplyne ze spojitosti funkcionálu, tj. z jeho kvalitativní robustnosti ; např. odhad parametru polohy nebo posunutí, 2.3. KVANTITATIVNÍ CHARAKTERISTIKY 33 34 KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI vzniklý inverzí van der Waerdenova pořadového testu, má neohraničenou influenční funkci, zatímco je globálně robustní. Nejužívanějšími číselnými charakteristikami funkcionálu T, založenými na influenční funkci, jsou jeho globální a lokální citlivost: a) Globální citlivostí funkcionálu T pro rozdělení pravděpodobností P nazýváme maximální hodnotu influenční funkce, příslušnou argumentu P, tj. -y* = sup \IF(x;T,P)\. x£X (2.7) b) Lokální citlivostí funkcionálu T pro rozdělení pravděpodobností P nazýváme hodnotu sup x,y; x^y IF(y;T,P)-IF(x;T,P) y-x (2.8) která zobrazuje vliv nahrazení hodnoty x hodnotou y na funkcionál T. Rozdíl mezi globální a lokální citlivostí je dobře vidět na následujícím příkladě. Příklad 2.3 (a) Průměr T(P) = EP{X), IF(x; T,P)=x- EPX 7* = 00, A* = 1; tedy průměr není robustní, ale není citlivý k lokálnímu nahrazování hodnot. (b) Rozptyl T(P) = vwpX = op, IF(x; T, P) = (x- EP{X)f - a\, A* = sup y+x - sup y+x (x-Ep(X)f-(y-EP(X)f x-y x-y = sup\x + y-2EPX\ = 00, a tedy rozptyl není robustní ani k velkým, ani k lokálním odchylkám. 2.3.2 Bod selhání Velmi často používanou charakteristikou robustnosti odhadu je jeho bod selhání, navržený Donoho a Huberem [20] v r. 1983. Uvažujme náhodný výběr x° = (xi,..., xn) a jemu příslušnou hodnotu T„(x°) odhadu funkcionálu T. V tomto "počátečním" výběru nahradíme m jakýchkoli složek libovolnými hodnotami; představme si co nej nepříznivější nahrazení co nejnepříznivějšími hodnotami, případně nekonečnými. Označme x(m) nový výběr vzniklý po takovém nahrazení a T„(xm) příslušnou hodnotu odhadu. Pak bodem selhání odhadu Tn ve výběru x'0' nazýváme číslo m*(x(°)) kde m*(x(0') je nejmenší celé číslo m, pro které si*||TB(x)-TB(x<°>)|| = oo, tj. nejmenší podíl pozorování, který po nahrazení libovolnými hodnotami může přivést Tn k nekonečným hodnotám. Bod selhání některých odhadů je univerzální v tom smyslu, že m* nezávisí na 2.3. KVANTITATIVNÍ CHARAKTERISTIKY 35 36 KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI počátečním výběru x'0'. V takovém případě můžeme stanovit limitu £* = lim,,^^ £*, která se také někdy nazývá bodem selhání. Modifikaci bodu selhání dostaneme, jestliže místo nahrazení m složek přidáme k původnímu výběru m nepříznivých hodnot. Příklad 2.4 (a) Průměr Xn = ± Ya=\ Xi : £* (Xn, x'0') = i pro libovolný počáteční výběr x'0', a tedy limn-í £* (Xn, x'0') = 0 pro libovolný počáteční výběr x'0'. (b) Medián Xn = X^n±i^ (pro jednoduchost uvažujeme liché n): £*(X„,x(0') = pro libovolný počáteční výběr x'0', a tedy lim,,^ £* (Xn, x'0') = i pro libovolný počáteční výběr x'0'. 2.3.3 Míra chvostů statistického odhadu Tato míra se uplatňuje zejména při posuzování odhadů parametrů posunutí a regrese, kde je v překvapivé shodě s intuicí; zde ji budeme ilustrovat na parametru posunutí a později se vrátíme k regresi. Uvažujme model, ve kterém (X1:... ,Xn) je náhodný výběr z rozdělení pravděpodobností se spojitou distribuční funkcí F(x — 8), 8 E Ji, a chceme odhadnout parametr 8. V takovém modelu je přirozené omezit se na odhady Tn ekvivariantní vzhledem k posunutí, tj. splňující Tn(X1+c,...,Xn + c) = Tn(X1. Vceiža VJsľi...,^. Chování odhadu Tn parametru 8 můžeme charakterizovat pomocí průběhu pravděpodobnosti P$(\Tn — 8\ > a), buď při pevném a > 0 a n —¥ oo, nebo při pevném nao->oo. Skutečně, jestliže {Tn} je konsistentním odhadem 8, pak pro libovolné pevné a > 0 platí lim^oP$(\Tn — 8\ > a) = 0. Někteří autoři, např. Bahadur [4], Fu [25] a Sievers [67] uvažovali jako míru vydatnosti odhadu Tn limitu lim ra->oo |-ilogP9(|T„ - 6»| > a) j při pevném a > 0 (pokud tato limita existuje), a porovnávali odhady z hlediska této vydatnosti. Od dobrého odhadu Tn = Tn(Xi,..., Xn) také očekáváme, že lim Pe(\Tn >a) = 0 při pevném n, a že tato konvergence je co nejrychlejší vzhledem k a —¥ oo. Pravděpodobnosti Pg(Tn — 8>a) nebo Pg(Tn — 8 < —a) při velkých a > 0 nazýváme pravým, resp. levým chvostem rozdělení pravděpodobností Tn. V případě symetrického rozdělení charakterizujeme chvosty pravděpodobností Pg(\Tn — 8\ > a) = Po(\Tn\ > a). Lze tedy říci, že zajímavé jsou odhady s co nej-rychlejšími chvosty; existuje však horní hranice rychlosti chvostů ekvivariantního odhadu T„, a ta je dána hodnotami 1 — F(a) a F(—a), při velkých a > 0. Pro jednoduchost uvažujme symetrickou distribuční funkci, tj. předpokládejme, že F(—x) = l — F(x) Vx 6 R. Jureč-ková [43] navrhla následující míru chování chvostů ekvivariantního odhadu Tn (viz [43]): -log Pg(\Tn-8\>a) B(Tn;a): -log (l-F(o)) -log Po(\Tn\>a) -log (l-F(o)) ' a > 0. (2.9) 2.3. KVANTITATIVNÍ CHARAKTERISTIKY 37 38 KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI Hodnota B(Tn;a) udává, kolikrát rychleji konverguje pravděpodobnost -Fb(|2nl > o) k 0 při a -> oo než 1 — F(a), a tedy zajímavý je odhad Tn s co největšími hodnotami B(Tn;a) při a 3> 0. Snadno ověříme následující lemma: Lemma 2.1 Necht X\,..., Xn je náhodný výběr z populace s distribuční funkcí F (x-d), 0 < F(x) < l,F(-x) = l-F(z), x,d 6 K. Necht Tn je ekvivariantní odhad 6 takový, že pro libovolné pevné n platí min Xi > 0 Ki0 Pak, pro libovolné pevné n, 1 < Hma^~B(T„; a) < Hm^^SÍT,,; a) < n. Důkaz. Skutečně, pro ekvivariantní odhad Tn platí P0(\Tn(Xl,...,Xn)\>a) = P0(Tn(Xu...,Xn)>a) +P0(Tn(Xu...,Xn)<-a) = Pí){Tn(X1 -a,...,Xn-a)>0) +P0(Tn(X1 +a,...,Xn + a)<0) > Po ( min Xi > a ] + Po I max X, < —a) ~ \l a)]n, -loSP0(\Tn(X1,...,Xn)\>a) < -log2-ralog(l -F(a)) ^- -logP0(|Tn| >o) ^ -tog(l-F(o)) < n. Podobně, a tedy I^(\Tn(Xu ...,Xn)\>a) a] = 2{l - [1 - iP„(|*i| > a)]"} yio) > - log2 - log n - log(l - F (a)) -logP0(\Tn\>a) lim„ -log(l-P(a)) > 1. 2.3. KVANTITATIVNÍ CHARAKTERISTIKY 39 40 KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI Pokud odhad Tn dosahuje horní hranice ve (2.11), pak je zřejmě nejlepší pro distribuční funkci F, protože jeho chvosty konvergují k nule ro-násobně rychleji než (1 — F(a)), a rychleji nelze. Vznikají ovšem otázky, • zda je tato horní hranice dosažitelná a pro která Tn a F, • zda nějaký odhad Tn dosahuje vysokých hodnot B(Tn; a) robustně pro velkou třídu distribučních funkcí. Ukazuje se, že dolní i horní hranice ve (2.11) jsou dosažitelné výběrovým průměrem Xn, a to horní hranice pro normální rozdělení a pro rozdělení s exponenciálními chvosty a dolní hranice pro Cau-chyho rozdělení a pro rozdělení s těžkými chvosty. To znamená, že Xn je opět velmi nerobustní. Naproti tomu, chování výběrového mediánu Xn je robustní i z hlediska chvostů: Xn však nedosahuje horní hranice ve (2.11), naopak, lim,,-^ B(Xn; a) se drží uprostřed mezi lan pro širokou třídu distribučních funkcí F. Protože tyto závěry dobře charakterizují pojem robustnosti, upřesníme je v následující větě: Věta 2.1 Nechť X\,..., Xn je náhodný výběr z populace s distribuční funkcí F(x — 6), 0 < F(x) < 1, F(-x) = l-F(x), x,6 6 R. (i) Nechť Xn = i z\a=i x% značí výběrový průměr. Má-li distribuční funkce F exponenciální chvosty, tj. lim —-— = 1 pro nějaká b > 0, r > 1, a->oo bď (2.12) pak lim B(Xn;a) =n. (2.13) a->oo (ii) Má-li distribuční funkce F těžké chvosty, tj. i;m —!í!_íl—E!^L = i pro „ějaké m > 0, (2.14) o-íoo m log a pak lim B(Xn;a) = 1. (2.15) a—>oo (iii) Nechť Xn je výběrový medián. Jestliže F splňuje buď (2.12) nebo (2.14), pak f < Em^ooS^; a) < f + 1 pro sudé n, (2.16) 71+1 lim B(Xn,a) = —-— pro liché n. (2-17) Poznámka 2.1 Distribuční funkci s exponenciálními chvosty, splňující (2.12), označíme krátce jako typ I: mezi tato rozdělení patří např. normální (r = 2), logistické a Laplaceovo (r = 1) rozdělení. Distribuční funkci s těžkými chvosty, splňující (2.14), označíme krátce jako typ II: mezi tato rozdělení patří např. Cauchyho (m = 1) nebo t-rozdělení o m stupních volnosti m > 1. Důkaz věty 2.1. (i) Stačí dokázat, že v případě F s exponenciálními chvosty existuje střední hodnota Ee = E0 [exp {n(l - e)b\Xn\r}] < 00, (2.18) 2.3. KVANTITATIVNÍ CHARAKTERISTIKY 41 pro libovolné e 6 (0,1). Skutečně, pak plyne z Markovovy nerovnosti P0(|X„| > a) < Ee ■ exp{-n(l - e)bar} -logP0(\Xn\>a) ■ lim-. bď n(l-e)bar -logEe > hm -—-= n(l - e), a->oo 00/ a tedy tvrzení (2.13). Konečnost střední hodnoty (2.18) dokážeme pomocí Hôlderovy nerovnosti: E0 [exp {n(l - e)b\Xn\r}] n < E0[exp{(l - e)bY,\Xi\r}] (2-19) i=l <(«o[exp{(l-e)&|Jri|r}])B [exp{(l-£)6a;r}]dP(a;)J . Z podmínky (2.12) vyplývá, že ke každé volbě e existuje Ae > 0 tak, že pro a > Ae platí l-P(o) a) = P0(Xn >a) + P0(Xn < -a) > P0(js:i > -o,...,Vi > ~a,Xn > (2n- l)o) +Po(x! < o,...,Vi a) = P0(Xn >a) + P0(Xn < -a) = 2n( n~ \ \ ľ «m-1(l-«)m-1d« V m - 1 ) JF{a) ^2"(^:1i)(1-J?(o))m' a podobně P»{\Xn\ > a) > 2n ( ™- \ ) {Fia^il-Fiatr, což po zlogaritmování dává (2.17). Důkaz pro sudé raje analogický. Odhad, který minimalizuje suppe-p0 V2(P, T) přes určitou třídu T odhadů parametru 8, se nazývá minimaximálně robustní ve třídě T. Později ukážeme, že třídy M-odhadů, L-odhadů i R-odhadů obsahují minimálně robustní odhad parametru posunutí i regrese v množině kontaminovaných normálních rozdělení. 2.3.4 Rozptyl asymptoticky normálního rozdělení Jestliže odhad Tn funkcionálu T(-) má asymptoticky normální rozdělení při n —> oo, Cp {MTn-T(P))) ->7V-(0, V2(P,T)), pak vhodnou mírou robustnosti Tn je supremum rozptylu V2(P, T) přes okolí Vo CP předpokládaného modelu, a2(T) = sup V2(P,T). pePo 46 KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU odhady, které později rozšíříme na jiné modely, zejména na lineární regresní model. Kapitola 3 Robustní odhady reálného parametru Mějme náhodný výběr X1:...,Xn z populace s rozdělením pravděpodobností P; rozdělení je obecně neznámé, pouze předpokládáme, že jeho distribuční funkce F patří do nějaké třídy T distribučních funkcí. Hledáme vhodný odhad parametru 8, který lze vyjádřit jako funkcionál T(P) rozdělení P. Tentýž parametr 8 může být vyjádřen i více funkcionály: např. střed symetrie může být zároveň střední hodnotou, mediánem, modem rozdělení, a může být vyjádřen i jinými způsoby. Funkcionál T(P) může být vyjádřen i implicitně jako řešení rovnice (soustavy rovnic) nebo mini-malizační (maximalizační) úlohy: připomeňme si maximálně věrohodný odhad, odhad momentovou metodu aj. Odhad parametru 8 získáme tak, že nahradíme P v příslušném funkcionálu T(-) empirickým rozdělením příslušným vektoru pozorování X1:..., Xn. Budeme se zabývat hlavně třemi nejrozšířenějšími třídami robustních odhadů reálného parametru: M-odhady, L-odhady a R- 3.1 M-odhady Třídu M-odhadů zavedl P. J. Huber v práci [37] a vlastnosti M-odhadů jsou podrobně studovány v jeho knize [39]; viz také [3], [15], [19], [32], [46], [52], aj. M-odhad Tn je definován jako řešení minimalizační úlohy n ^2p(Xi, 8) := min vzhledem k 8 6 0, i=l neboli (3.1) EPn \p(X, 8)] = min, 8 6 0, kde p(-, •) je vhodně zvolená funkce. V parametrickém modelu, kde rozdělení Pg má hustotu f(x,8), je speciálním případem M-odhadu i maximálně věrohodný odhad, který je řešením minimalizace n J](-log /(*;,(-,8) = ^jp(-,8), pak Tn je řešením (případně jedním z řešení) rovnice n Y^HXi,8) = 0, 0 6 0, (3.2) i=l a tedy -Yji,(Xi,Tn) = EPn[i,(X,Tn)]=Q, Tnee. (3.3) í —1 45 3.1. M-ODHADY 47 48 KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU Z (3.1) a (3.3) vyplýva, že statistický funkcionál, příslušný T„, neboli M-funkcionál, je definován jako řešení minimalizace Jxp(x,T(P)) dP(x) = E p \p{X,T{P))] := min, T(P) e 0 (3.4) nebo jako řešení rovnice Jxi,(x,T(P)) dP(x) = EP \i,(X,T(P))} = 0, T(P) 6 0. (3.5) Aby funkcionál T(P) byl físherovsky konsistentní, je třeba předpokládat, že úlohy (3.4) a (3.5) mají jediné řešení. 3.1.1 Influenční funkce M-odhadu Předpokládejme, že p(-,8) je diferencovatelná, derivace 6) je absolutně spojitá vzhledem k 8 a rovnice (3.5) má jediné řešení T(P). Nechť Pt = (1 - t)P + tíx; pak T(Pt) je řešením rovnice ' ý(y,T(Pt))d((l-t)P + tóx) = 0, tedy (1 -í) / Hv,T(Pt)) dP(y)+t^(x,T(Pt)) = 0. Jx Derivujme (3.6) vzhledem k í : >,T(Pt))dP(y)+il>(x,T(Pt)) (3.6) + (1-*) dT(Pt) dt JÁ d 0=T(Pt) dP(y) +t dT(Pt) dt ae 4>(x, e) Dosadíme-li í = 0, dostaneme influenční funkci i>(x,T(P)) IC(x;T,P) kde 4>(y,T(P) ■■ Jxi,(y,T(P)dP(y) ^)] 0=t(p) ' (3.7) M-odhad parametru posunutí Důležitý speciální případ je model s parametrem posunutí 8, ve kterém X1:..., Xn jsou nezávislá pozorování se stejnou distribuční funkcí F(x — 8), 8 6 R; distribuční funkce F je obecně neznámá. M-odhad Tn je definován jako řešení minimalizace £>(*i-pq-0) = o. (3.9) Aby byl příslušný M-funkcionál T(F) fisherovsky konsistentní, je třeba předpokládat, že úloha Jxp(x — 8)dP(x) := min má jediné řešení 8 = 0. Influenční funkce T(F) pak je IC(x;T,P) Í>(x-T(P)) Jxf'(y)dP(yY (3.10) 3.1. M-ODHADY 49 50 KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU Z (3.8) a (3.9) okamžitě vyplýva, že Tn je ekvivariantní vzhledem k posunutí, tj. že splňuje Tn{X1+c,...,Xn + c)= Tn{Xu..., Xn) + c Vc 6 R. (3.11) Na druhé straně, Tn obecně není ekvivariantní vzhledem k měřítku, tj. obecně neplatí Tn(cXu ..., cXn) = ČTn{X1 ...,Xn) pro O 0. V symetrickém modelu volíme p symetrickou kolem 0 (ip je pak lichá funkce). Jestliže je p(x) ryze konvexní (a tedy ip(x) rostoucí), je i EíLi P(Xi — G) ryze konvexní v 8 a M-odhad je určen jednoznačně. Jestliže je p(-) v některém úseku lineární, je ip(-) v tomto úseku konstantní: pak rovnice Eľ=i VK^i — S) = 0 může mít vice kořenů a obvykle volíme jeden z těchto kořenů podle pravidla Tn = + Tn ), íi T" = sup{í: £>(*i-í)>0}, (3.12) i=l n T+ = inf{í: ^W-í)<0}. i=l Stejným způsobem určíme M-odhad v situaci, že ip je neklesající nespojitá funkce se skoky. Pokud je ip(-) neklesající, ať už spojitá nebo se skoky, pak zřejmě platí pro libovolné a 6 R : íi P„(5]VPQ - o) > o) < Pe(Tn > a) < Pe(Tn > a) i=l (*i-<0>o) (3.13) i=l íl íl = P9 ( J] VPQ - a) > O) + P9 ( J] V- a) = O); i=l i=l pokud Pg^Eľ=i V'í^i — a) = o) =0, přecházejí nerovnosti v (3.13) v rovnosti. Odtud dále dostáváme Po {^|> (^--|)< o} < P9(vn(Tn - 0) < z) < P9(vn(Tn - 0) < z) ^{»-*X>(*-^)so}- Protože ri~š i/; ^JQ — je normovaný součet nezávislých stejně rozdělených náhodných veličin, můžeme nalézt asymptotické rozdělení pravděpodobností \Jň(Tn — 8) při n —¥ oo, pro ip neklesající, podle centrální limitní věty. Bod selhání M-odhadu parametru posunutí určíme podle paragrafu 2.3.2: Jestliže je funkce ip(-) neohraničená, je £* = lim,,^^ £* = 0. Naopak, je-li 8 středem symetrie rozdělení pravděpodobností a funkce ip je ohraničená a lichá, je £* = lim,,-^ e* = 5. Třída M-odhadů tedy obsahuje robustní i nerobustní elementy. Příklad 3.1 (a) Střední hodnota: Střední hodnotu 8 = EpX lze chápat jako M-funkcionál s kritériami funkcí p(x) = x2, ip(x) = 2x, ip'(x) = 2, a podle (3.10) 3.1. M-ODHADY 51 52 KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU dostaneme což je ve shodě s předcházejícími výsledky. Příslušným M-odhadem střední hodnoty je aritmetický průměr Xn s bodem selhání e* = lim,,-^ e* = 0 a s globálni citlivostí 7* = +oo. (b) Medián: Medián X = lze chápat jako M-funkcionál s kriteriální funkcí p(x) = \x\ a výběrový medián Tn = Xn je pak řešením minimalizace n ^2 \Xi - 6\ := min, Sel «=i Předpokládejme, že rozdělení pravděpodobností P má spojitou distribuční funkci -F, ryze rostoucí v intervalu (a, 6), — oo X = T (P) při í —Y 0; s použitím rozvoje 1 ViW) a 2(1-í) 2 2 2(1-í) 2 2 při í —Y 0 dostaneme HmifT(ií) -F-1®] = | sign (s -f-1®) a odtud dostaneme infiuenční funkci mediánu sign (x — X) dF^ju) du IC(x;X,F) ■. m*) (3.14) Medián je robustní, neboť jeho infiuenční funkce je ohraničená, na rozdíl od střední hodnoty. Bod selhání mediánu je £* = i a globální citlivost 7* 2/PO N(0,1) je 7* = 1.253). Podle (3.14) je (IF(x;X,P)f (pro standardní normální rozdělení ■ konst a lze dokázat, při n —¥ 00 má ^/n(Xn — X) asymptoticky normální rozdělení, c{Mxn-x)}^M(o,^^y Speciálně, je-li F distribuční funkce normálního rozdělení Af(/J, a2), ier(X) = P(li) = (7js)\ £{MXn-X)}^Aí{0,^a2). (c) Maximálně věrohodný odhad parametru 8 rozdělení pravděpodobností s hustotou f(x, 6) : p(x,T(P))- Í>(X,T(P)) : -log f(x,T(P)), 3.1. M-ODHADY 53 54 KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU IF(x;T,P) 1 f^T(P)) 1/(T(P)) f(x,T(P)Y Mef{x,T{P)) = -f{x,e)^T{p); f(T(P)) = í Jx [dd " • ' ■ '|0=T(P) ;log f(xM f(x,T(P))dx je Fisherova informace rozdělení / v bodě 8 = T(P). 3.1.2 Volba funkce ip u M-odhadu parametru posunutí M-odhad je určen volbou kriteriální funkce p nebo její derivace ip. Jestliže parametr polohy je zároveň středem symetrie rozdělení pravděpodobností, volíme p symetrickou podle nuly a tudíž ip lichou. Podle (3.10) je influenční funkce M-odhadu úměrná ip(x — T(P)); tedy, má-li být odhad robustní, musí být ip ohraničená. Uveďme příklady nejčastější volby funkce ip (a tedy i p), které se vyskytují v literatuře. Střední hodnota je M-funkcionál s lineární, a tedy neohraničenou funkcí if>. Příslušný M-odhad, Xn, je maximálně věrohodným odhadem parametru polohy normálního rozdělení. Tento funkcio-nál je však úzce vázán na normální rozdělení a je velmi nerobustní. Hledáme-li M-odhad parametru polohy rozdělení pravděpodobností, vhodný pro okolí normálního rozdělení, použijeme funkci kterou navrhl a zdůvodnil P. J. Huber [37]. Tato funkce je lineární v ohraničeném intervalu [—k,k], a konstantní vně tohoto intervalu. Kdybychom hledali rozdělení pravděpodobností s takovou věrohodnostní funkcí, zjistili bychom, že jeho hustota je normální v intervalu [—k, k] a exponenciální vně: Ph(x) = I X (, k sign x \x\ < k \x\ > k, (3.15) kde k > 0 je pevně zvolená konstanta. Příslušný M-odhad, který se často vyskytuje v literatuře jako Huberův odhad, má ohraničenou influenční funkci, bod selhání e* = 5, globální citlivost ■ a míru chvostů ' 2F(fc)-l linia^oo B(a, Tn, F) = i pro rozdělení jak s exponenciálními, tak s těžkými chvosty. Je to tedy robustní odhad středu symetrie, necitlivý k extrémním a odlehlým pozorováním. Jak dokázal Huber [37], odhad generovaný funkcí (3.15) je minimaximálně robustní pro kontaminované normální rozdělení , přičemž hodnota k závisí na podílu kontaminace. Někteří autoři doporučují ještě více omezit vliv odlehlých pozorování volbou funkce ip(x), která konverguje k 0 při x —¥ ±00, případně která je rovna 0 vně ohraničeného intervalu pokrývajícího 0. Takovou je např. věrohodnostní funkce Cauchyho rozdělení, 4>c(x) ■- _2x_ 1 +x2 (3.16) kde f(x) = n{i+xi) je hustota Cauchyho rozdělení; dále Tukeyho biweight funkce, x 1- ih(x) ■■ (f)2] \x\ < k \x\ > k (3.17) 3.1. M-ODHADY 55 56 KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU nebo Andrewsova sinusová funkce, {sin I ... \x\ < kn (3.18) 0 ... |a;|>í;7r. Hampel [31] navrhl spojitou, po částech lineární funkci ip, nulovou vně ohraničeného intervalu: sign x ... \x\ < a Í>ha(x) = • a sign x c-lxl a < \x\ < b (3.19) a sign x f (x) = j . b < \x\ < c 0 ... |a;|>c. V literatuře se také vyskytuje skipped mean, generovaný funkcí x ... \x\ < k 0 ... |a;|>í; nebo skipped medián, generovaný funkcí -1 ... -fc(x) = { 0 ... |a;|>í; 1 ... 0 < x < k. Je však třeba si uvědomit, že tyto funkce nejsou monotónní a jim příslušné primitivní funkce p nejsou konvexní. Vedle globálního minima může mít funkce 2?=i PÍ^iS) lokální extrémy, které jsou dalšími kořeny rovnice VK^i — 8) =0. Poslední dvě funkce ip navíc nejsou spojité, tedy rovnice Y2i=i VK^i — 8) = 0 obecně nemá řešení a M-odhad musí být hledán jako globální minimum funkce X)íLi P(-^i — (3.20) (3.21) 3.1.3 Studentizované M-odhady M-odhad parametru posunutí je ekvivariantní vzhledem k posunutí, ale obecně není ekvivariantní vzhledem k měřítku (viz (3.11)). K překonání tohoto nedostatku můžeme použít jedné z následujících metod: • Zároveň s parametrem posunutí odhadujeme i měřítko: např. Huber [39] navrhuje zároveň s 6 odhadnout parametr měřítka a řešením následující soustavy rovnic: ■o (3.22) (3.23) kdex(a:) = ýjiix)—JkÍ'h (y)d$(y), Í>H je Huberova funkce (3.15) a $ je distribuční funkce standardního normálního rozdělení. Odhad, ekvivariantní vzhledem k posunutí i měřítku získáme studentizací M-odhadu vhodnou škálovou (měřítkovou) statistikou Sn = Sn(X\,... ,Xn), splňující následující podmínky: (a) ^„(x) > 0 s.v. pro x 6 R (b) Sn(xi+c,...,xn + c) = Sn(xi,...,xn), c 6 R, x 6 R" (invariance vzhledem k posunutí) (c) Sn(cx\,... ,cxn) = cSn(x\,...,xn), c > 0, x 6 R" (ekvivariance vzhledem k měřítku) 3.1. M-ODHADY 57 58 KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU Dále předpokládáme, n?{Sn-S{F)) = Op{l) při rn-oo (3.24) kde S(F) je statistický funkcionál, příslušný Sn. Studentizovaný M-odhad je řešením minimalizace 71 í X- — 6\ J2 p I -i-- := min, 6 6 R. (3.25) «=i \ bn y Takto definovaný odhad je skutečně ekvivariantní vzhledem k posunutí i k měřítku. Příslušný statistický funkcionál je definován implicitně jako řešení minimalizace := min, í 6 R (3.26) a funkcionál je fisherovsky konsistentní, pokud má minimalizace (3.26) jediné řešení. Pokud p má spojitou derivaci ip, je odhad též řešením rovnice í>(¥0=°- (3-27) Pokud je p konvexní a tedy if> je neklesající, ale nespojitá v některých bodech nebo konstantní na některých intervalech, uvažujeme studentizovaný odhad ve tvaru analogickém (3.12), tedy Tn = ^(T^ + Tn ), T" = sup{í : J2 ^ (^r) > 0} (3-28) T+ = inf{í: ^v(^)<0}. Pozastavme se u volby škálové statistiky Sn. Na rozdíl od středu symetrie rozdělení pravděpodobností, který je zároveň průměrem, mediánem, modem atd., neexistuje univerzální měřítko, přesněji funkcionál měřítka, a volba určitého funkcionálu závisí na nás. Uveďme některé příklady: • Výběrová směrodatná odchylka: Sn=(kÍt{Xi-Xn)3)Í, i=l S(F) = (varf(j0)5 . Protože tento funkcionál je nerobustní, používá se ke stu-dentizaci jen ve speciálních případech. • Mezikvartilová odchylka: Sn = Xn:[in]-Xn:[in], kde Xn.[nf^, O < p < 1 je empirický p-kvantil stanovený z uspořádaného výběru Xn:1 < ... < Xn:n. Příslušný funkcionál má tvar S(F) = F-1(l)-F-1(í). • Mediánová absolutní odchylka (MAD): Sn = niedi{-x) = -t)>{x), x 6 R, s absolutně spojitou ip, má influenční funkce, studentizovaného M-funkcionálu tvar IF(x,T,F) = kde j(F) = /MV'' yš{F)) dF(y)- To znamená, že v symetrickém modelu influenční funkce, T(F) sice závisí na hodnotě S(F), ale nezávisí na influenční funkci funkcionálu S(F). 3.2 L-odhady L-odhady jsou odhady, založené na uspořádaných pozorováních (pořádkových statistikách) Xn:1 < ... < Xn:n, příslušné k náhodnému výběru X1:..., Xn. Obecný L-odhad píšeme ve tvaru n k Tn = Y^ CnMXn:i) + X ^jh*(Xn:[np.]+1), (3.29) i=l j=l kde c„i,...,cnn aoi,...,Oi jsou dané koeficienty, 0 < p\ < ... < Pk < 1 a h(-) a h*(-) dané funkce. Koeficienty cnj, 1 < i < n jsou určeny ohraničenou váhovou funkcí J : [0,1] i-> R následujícím způsobem: (3.30) nebo přibližným způsobem *- = Sj(5Ít)> ť = l.--.n- (3-31) První složka L-odhadu (3.29) obecně zahrnuje všechny pořádkové statistiky, zatímco druhá složka je lineární kombinací konečně mnoha výběrových kvantilů. Rada L-odhadů má tvar pouze jedné ze složek ve (3.29) (L-odhad typu I a II). Jednoduchými příklady L-odhadů jsou výběrový medián a střed rozpětí Til ~ 2^Xn:í které odhadují parametr polohy, a dále např. výběrové rozpětí Rn — Xn:n — Xn.\ a Giniho průměrná diference G" = , 1 n X \X* ~Xi\= , 2 n X(2i " n ~ l)x™ n(n —1) .4-* n(n —ll-f-' 1 i—1 což jsou škálové statistiky. Uvažujme L-odhad typu I s váhovou funkcí J takovou, že Jg J(u)du = 1. Abychom nalezli příslušný statistický funkcionál, zavedeme empirickou kvantilovou funkci Qn(t) = F^1^), 0 < í < 1 jako Qn(t) = iaf{x : Fn(x) > í}, 0 < í < 1. Tato funkce je empirickým protějškem kvantilové funkce Q(ť) = i?_1(í) = inf{a; : F(x) > í}, 0 < í < 1 a je rovna f Xn.i ... ^-<í<£, i = l,...,ra-l Pomocí ní můžeme L-odhad vyjádřit alternativním způsobem Tn= f J(s)h(Qn(s))ds (3.33) Jo 3.2. L-ODHADY 61 62 KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU a jemu příslušný funkcionál má tvar T(F) = í J(s)h(Q(s))ds. Jo (3.34) Influenční funkce T(F) : Předpokládejme, že F je rostoucí a absolutně spojitá a funkce h je absolutně spojitá. Označme Ft(y) = (l-t)F(y) + tSí t)F(y) y* Pak F-1^) u<(l-t)F(x) Ff1(u) = { x (l-t)F(x) {l-t)F(x)+t, a tedy i < (l-ť)F(x) u_ _1 dFt-\u) /(^(A)) Odtud vyplývá dt du ^"/(^(ft)) rFt(x) "L u J(u)du a influenční funkci funkcionálu (3.34) dostaneme při í-> 0+ : a tedy f1 h<(F-i(u)) T, NJ =Jou-ňF^mJ{u)du -ľ tSW^)** /co /-co F(y)h'(y)J(F(y))dy - / J(f (y))dy -co Jx (3.35) IF(x,T,F) = h'(x)J(F(x)). Ve speciálním případě /((a;) = x, F(—x) = 1 — F(x), a; 6 R a J(u) = J(l — ti), 0 < u < 1, se influenční funkce zjednodušší: IF(x,T,F) ■r J -C F(y)J(F(y))dy Jx J(F(y))dy 3.2. L-ODHADY 63 /•co = / F(y)J(F(y))dy Jo + í" (l-F(-y))J(l-F(- J —co /•co rOQ - / J(F(y))dy = / F(y)J(F(y))dy Jx JO /•co /-co + / (l-F(y))J(F(y))dy- J(F(y))dy JO Jx /•co roo = / J(F(y))dy - / J(F(y))dy Jo Jx IF(x,T,F) = f*J(F(y))dF(y) ...x>0 (3.36) IF(-x,T,F) =-IF(x,T,F) ...iěR Poznámka 3.1 NechťMn je M-odhad středu symetrie, vytvořený absolutně spojitou funkcí^) a nechťLn je L-odhad s váhovou funkcí J(u) = c V''(ir_1(ti)). Pak Mn a Ln mají stejnou influenční funkci. Bod selhání L-odhadu: Jestliže J(u) = 0 pro 0 < u < a a l-a - a). Globální citlivost useknutého průměru je y. .^(i-a) ' 1 - 2a ' Poznámka 3.2 Nechť Mn je Huberův odhad středu symetrie d rozdělení F (x — 8), vytvořený Hub erovou funkcíipn sk = F~1(l — a) (viz (3.15). Pak Mn a Xna mají stejnou influenční funkci. Poznámka 3.3 (i) Bod selhání a-useknutého průměru Xna je lim^oo £* = a. (ii) Nechť a = [kin], n > 3 a nechť B(Xna;a) je míra chvostů Xna, definovaná v (2.9). Pak n — 2k< lima .^B(X„„: a) < limo_>o0S(JřJla; a) R+, • • • Jestliže např. volíme an(i) = ^-j-, i = 1,..., n, dostáváme Wilcoxonův jednovýběrový test. Jestliže platí 8 = 0}, T+ = inf{í : Sn(t) < 0}. Jestliže an(i) = 1, i = 1,..., n, je Tn rovno výběrovému mediánu. Odhad, odpovídající jednovýběrovému Wilcoxonovu testu se skóry °nW = s+t' ' = se nazývá Hodges-Lehmannův odhad. Dá se ukázat, že Hodges-Lehmannův odhad lze vyjádřit explicitně; je roven TnH = medíXi^Xj : l a R-odhad vytvořený funkcí

00. 3.4 Asymptotické vlastnosti M-, L- a .R-odhadů Robustní odhady jsou nelineárními funkcemi pozorování, často definované implicitně. Odvodit jejich distribuční funkci při konečném počtu pozorování je velmi obtížné; proto ji aproximujeme limitní 3.4. ASYMPTOTICKÉ VLASTNOSTI 73 74 KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU distribuční funkcí odpovídající neomezeně rostoucímu počtu pozorování n —» oo. Limitní rozdělení je většinou normální a rozptyl asymptoticky normálního rozdělení je důležitou charakteristikou odhadu. Asymptoticky normální rozdělení robustních odhadů nemůžeme odvodit přímo použitím centrální limitní věty, protože nejsou lineárními kombinacemi nezávislých náhodných veličin. Nejprve musíme \Jň(Tn — T(F)) lineární kombinací nezávislých náhodných veličin aproximovat. Připomeňme si rozvoj (1.15), který platí pro fréchetovsky diferencovatelné funkcionály T(P). Tento rozvoj můžeme přepsat pomocí infiuenční funkce IF(x, T, P) ve tvaru n V^(Tn - T(F)) = I£ IF(Xi, T, F) + R,,, (3.50) i=l kde Rn = op(l). Podobný rozvoj, který nazýváme asymptotickou reprezentací odhadu T„, lze odvodit i pro funkcionály, které nejsou fréchetovsky diferencovatelné, různými metodami a za nejrůzněj-ších podmínek na hladkost distribuční funkce F a skórové funkce odhadu (ip,J,(p). Různé formy asymptotických reprezentací robustních odhadů jsou odvozeny v knize [46]. Jestliže pro odhad Tn platí reprezentace (3.50), pak Tn má asymptotické rozdělení pravděpodobností při n —¥ oo v tom smyslu, že C {MTn - T(F))} -> JV(0, a2F), (3.51) kde 0% = EF(IF(X,T,F))2. Aplikujme tento výsledek na M-, L- a iž-odhady, jejichž infiuenční funkce jsme odvodili. Podrobné podmínky, za nichž tyto asymptotické výsledky platí, lze nalézt v [46]. 3.4.1 M-odhady M-odhad obecného skalárního parametru Nechť {Xi, i = 1,2,je posloupnost nezávislých pozorování se stejnou distribuční funkcí F(x,8), 8 6 0, kde 0 je otevřený interval M1. M-odhad parametru 9 je řešením minimalizace ra Y^p(Xi,e) = min, 6*6 0. i=l Předpokládejme, že p(x, 8) je absolutně spojitá v 6 s derivací il>(x,ff) = ^p(x,8). Jestliže il>(x,8) je spojitá v 8, pak hledáme M-odhad Tn mezi kořeny rovnice n X>(*i,0) = O. (3.52) i=l Jestliže funkce Egp(X, í) má jediné minimum v bodě t = 8 (físhe-rovská konsistence) a jsou splněny další podmínky buď na hladkost ip(x, 8) nebo F(x, 8), pak existuje posloupnost {Tn} kořenů rovnice (3.52) taková, že při n —¥ oo v/S(Tn -8) = (3.53) MTn -e) = J21«*<> °) + eMn-1/2), kde 7(0) = Eeij>(X, 8), ij>(x, 8) = ^(x, 8). Odtud dále vyplývá, že v/re(T„ — 8) má asymptotické normální rozdělení tf(0y(i>,F)), kde o*{*,F)) = El^l£>e). (3.54) 3.4. ASYMPTOTICKÉ VLASTNOSTI 75 76 KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU M-odhady parametru posunutí Nechť X\,X2,... jsou nezávislá pozorování s distribuční funkcí F(x — 8). M-odhad 8 je řešením minimalizace ra Y,p(Xi- 8) = min, Sel1. i=l Předpokládejme, že p(x) je absolutně spojitá s derivací ip(x) a že funkce h(ť) = JKp(x — t)dF(x) má jediné minimum v bodě í = 0. Jestliže if> je absolutně spojitá s derivací ip' a 7 = / ip'(x)dF(x) > 0, pak existuje posloupnost {Tn} kořenů rovnice 2í=i V'í^i— *) = 0 taková, že při n —¥ 00 V^(Tn -8) = Op(l), (3.55) v/S(Tn - 0) = £ i>(Xi -8) + O^n-1'2) Pe(MTn-8),F) = -y~2 JRil>2(x)dF(x) a í je distribuční funkce normálního rozdělení Af(0,1). Pokud F má absolutně spojitou hustotu/s derivací /' a konečnou Fisherovu informaci 1(F) = J[f'(x)/f(x)]2dF(x), pak při speciální volbě p(x) = — log f(x) je M-odhad roven maximálně věrohodnému odhadu 8, jehož asymptotický rozptyl je roven Rao-Cramérově dolní hranici 1/T(F). Jestliže ip(x) má body nespojitosti, je třeba, aby distribuční funkce F měla dvě derivace /, /' v jejich okolí. M-odhad je určen jednoznačně, pokud if> je neklesající, a to vztahy (3.12). Pak řešení Tn úlohy P(Xi — 8) := min není obecně kořenem rovnice E"=i Í>iXi ~ e) = °> ale Platí n n-ll2^2i>(Xi-Tn) = Op(n-112) při n-> 00 (3.56) i=i a MTn -e) = -4^ ~ e) + °p(n~1/4)> * ' í—1 7* = / f(x)di,(x), (3.57) P9(^(T„-e)<»)^*(^-=T), kde a2(i>,F) = (7*)~2 JRiJ!2(x)dF(x) a * je distribuční funkce normálního rozdělení Af(0,1). Více o asymptotických reprezentacích M-odhadů, jakož i asymptotické reprezentace studentizovaných M-odhadů lze nalézt v [46]. 3.4.2 L-odhady Nechť Xi, X2,..., jsou nezávislá pozorování s distribuční funkcí F. Nejprve uvažujme lineární kombinaci pořádkových statistik Tn = 127=1 cmXn:i s koeficienty generovanými váhovou funkcí J buď podle (3.30) nebo podle (3.31) (L-odhad typu I). Omezíme se na useknuté L-odhady splňující J(u) = 0 pro 0 < u < a a. 1 — a x] - F(y)}J(F(y))dy, ieK JR a ^/n(Tn — T(F)) má asymptoticky normální rozdělení JV(0, a2(J,F)), kde JR )dF(x) /co rOO / J(F(x))J(F(y))[F(x A y) - F(x)F(y)]dxdy. -oo J —oo Jestliže distribuční funkce F má absolutně spojitou hustotu / s derivací /' a konečnou Fisherovu informaci T(F) = = S\f(x)l'f(x)]2dF(x), pak volba váhové funkce J (ti) = Jp(ti) : 1(F) ' fix) 0 < u < 1, i>(x) = J-7J-t, x 6 ] J\x) (3.59) vede k asymptoticky vydatnému L-odhadu s asymptotickým rozptylem a2(J,F)-. 1(FY Všimněme si, že pokud je Jp(ti) = 0 pro 0 < u < a a l—a < u < 1, Je = dl°gJ{X) = konst Pr° x < F-^a) ai> F"1^ - a), a tedy chvosty hustoty / klesají exponenciálně k 0. Uvažujme odhad typu II, tj. lineární kombinaci konečně mnoha kvantilů Tn = ajXn:[m]+1, 0 < pi < ... < pk < 1. Předpokládejme, že f je dvakrát diferencovatelná v F^ipj) a F' {F^ipj)) > 0, j = 1,..., k. Pak při n -> oo k n 3 = 1 i=l Rn = O (ra-1/4(log ra)1/2(loglog ri)1/4) skoro jistě, (3.60) *(*) = E F(F%)) í» " 1 ^ F~1(pti > ' má asymptoticky normální rozdělení jV (0, JM V>| (z)dF(a;)) • 3.4.3 i?-odhady Uvažujme iž-odhad T„ středu symetrie 8 distribuční funkce F(x — 8), vytvořený pořadovou statistikou Sn(ť) (3.41) pomocí vztahů (3.42), se skórovou funkcí (p(u), neklesající a integrabilní se čtvercem, 0 < u < 1. Předpokládejme, že F má absolutně spojitou hustotu / a konečnou Fisherovu informaci T(F). Pak při n —¥ oo Vň(Tn-*) = -^E oo n'(n) = ei,2. Jestliže ei,2 = 1, znamená to, že {Ti,,} a {T2n} jsou stejně asymptoticky vydatné. V takovém případě dále srovnáváme {2i„} a {T2n} pomocí tzv. deficience {T2n} vzhledem k {Tln} : jestliže platí Eä [n(Tnj - 8)2] = r2 + ^ + o^-1), j = 1,2, pak defíciencí {T2n} vzhledem k {Tln} nazýváme Jestliže n'(n) zvolíme tak, že Eg[n{T2n, - 8)2] = Ee[n(Tln - 8)2] + 0{n-1), pak = lim \n'(n) — nl. V předcházejících paragrafech jsme viděli, že M- a L-odhady založené na pozorováních s distribuční funkcí F mají stejné infiu-enční funkce IF(x,T\, F) = IF(x,T2,F), pokud J(u) = ^(F-^u)), 0 < u < 1. Podobné vztahy platí i mezi M- a iž-odhady a L- a iž-odhady. V těchto úvahách můžeme pokračovat dále: z asymptotických reprezentací paragrafů 3.4.1-3.4.3 plyne, že tyto odhady nejen mají stejné in-fluenční funkce, ale pokud {Tnl} a {Tn2} mají stejné asymptotické reprezentace, (až na tvar zbytku), pak jsou asymptoticky blízké ve snyslu Vn~(T2n-Tln) = Rn = op(l) při (3.62) V tom případě říkáme, že posloupnosti odhadů {Tnl} a {Tn2} jsou asymptoticky ekvivalentní. Další informaci o vztahu {Tni} a {Tn2} získáme, podaří-li se nám odvodit přesný řád zbytku Rn ve (3.62), případně jeho asymptotické rozdělení, po vynásobení vhodnou mocninou n. Toto rozdělení už ovšem není normální. Pro úplnost shrňme nejzajímavější z těchto asymptotických vztahů. M- a L-odhady Nechť X\,X2,... jsou nezávislé náhodné veličiny se stejnou distribuční funkcí F(x — 8) takovou, že F(x) + F(—x) = 1, x 6 R; 3.4. ASYMPTOTICKÉ VLASTNOSTI 81 82 KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU nechť Xn:1 < Xn:2 < • • • < Xn:n jsou pořádkové statistiky příslušné Xi,..., Xn. I. Nechť Mn je M-odhad d generovaný neklesající schodovitou funkcí i/j ip(x) = ctj ... s j < x < Bj+i, j = 1,..., k, (3.63) kde -00 = So < Sl < ■ ■ ■ < Sk < = 00, —oo < «o < «i < ... < ak < oo, aj = -ak-j+i, s j = -Sk-j+i, j = l,...,k, a alespoň dvě z čísel aj jsou různá. To znamená, že Mn je řešením minimalizace Y2i=i PÍxi ~ í) = mm> kde p je spojitá, konvexní, symetrická a po částech lineární funkce s derivací p' = ip s. v. Předpokládejme, že -F má dvě ohraničené derivace /, /', / kladnou, v okolí si, ■ ■ ., Sfc. Pak L-odhad Ln, asymptoticky ekvivalentní Mn, je lineárni kombinace konečně mnoha kvantilů, Pi = F(si)> aj = -(ctj - aj-i)f(sj), = -o); (3.64) a platí Mn — Ln = Op(^n *^ při II. Předpokládejme, že F má absolutně spojitou symetrickou hustotu / a konečnou Fisherovu informaci T(F). Nechť Mn je Hu-berův M-odhad 8, generovaný funkcí if> {x ... \x\ < c c ■ sign x ... \x\ > c, kde c > 0, a nechť Ln je a-useknutý průměr, íi—[íia] oř i / ^ Xnv. 2 T7.IT ^-^ n — 2[na. , , 1 ' «=[na]+l kde a = 1 — F(c). Jestliže F dále splňuje f(x) > a > 0 a f(x) existuje pro F_1(a-e) 0, pak při n —¥ oo III. Nechť Ln je a-winsorizovaný průměr f n-[na] "j Ln = n\ ^na^X".lna]+i + ^2 Xn:i + [na]Xn:n_[na] \ . ( i=[na]+l J Pak za stejných podmínek jako ve II platí Mn - Ln = Op , n -> oo, (3.( kde M„ je M-odhad vytvořený funkcí l/)(x) = { X F-^qJ^x^F-^I-q) F-Hí-a) + f{F_aí{a)) x>F-!(l-a). 3.4. ASYMPTOTICKÉ VLASTNOSTI 83 84 KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU IV. Nechť Ln = 2íLi CniX-n-.h kde koeficienty Cni jsou generovány funkcí J : (0,1) i-> R takovou, že J(l - ti) = J(ti), 0 < ti < 1, f J(u)du = 1, J(ti) = 0 pro ti 6 (0, a) U (1 - a, 1), 0 < a < §, J je spojitá v (0,1) až na konečně mnoho bodůsi,..., sm, kde a < si... < sm < 1 — a, a J je lipschitzovská v intervalech (a,si),(si,s2),..., (%, 1 - a). O distribuční funkci f předpokládáme, že má symetrickou hustotu a že f_1(ti) = inf{a; : F(x) > ti} je lipschitzovská v okolí Si, . .. , Smi a r a J f2(x)dx < oo, kde A = - a + e), £ > 0. Pak asymptoticky ekvivalentní M-odhad Mn je vytvořený funkcí ý(x) = - í (I[y >x]- F(y)) J(F(y))dy, ieK JR a platí Mn-Ln = Op (n'1), n -> oo. (3.67) M- a iž-odhady Nechť Jři,Jř2,... jsou nezávislé náhodné veličiny se stejnou distribuční funkcí F(x — ff) takovou, že F(x) + F(—x) = 1, x 6 R Předpokládejme, že f má absolutně spojitou hustotu / a konečnou Fisherovu informaci T(F). Nechť

R je neklesající skórová funkce, + (n+r). i = i. • • •.kde = f ("ŕ). 0 < ti < 1. Nechť M„ je M-odhad vytvořený funkcí V>(ai) = c oo. (3.68) Speciálně, Hodges-Lehmannův iž-odhad je vytvořen skórovou funkcí (x) = F(x) — |, lEi iž- a L-odhady Kombinací předcházejících výsledků dostaneme asymptotické vztahy mezi R- a L-odhady; nemusíme je tedy podrobně rozepisovat. Jako zajímavý příklad uveďme iž-odhad, asymptoticky ekvivalentní a-useknutému průměru, který je generovaný skórovou funkcí {F-^a) ... 0 sup Vas(F,T0), pak inf supVas(F,T) = -^— TeTFej- 1(F0) tj. (3.72) Vas(F0,T) > yos(f0,T0) > VM(F,T0) VT 6 T a Vf 6 T. Minimaximálně robustní odhad existuje mezi M-, L- i fí-odhady v symetrickém kontaminačním modelu (Huber [37], Jaeckel [40]). Minimaximálně robustní M-, L- a iž-odhady Uvažujme kontaminační model (3.70), kde G je symetrická jedno-vrcholová distribuční funkce s dvakrát diferencovatelnou hustotou g takovou, že (— log g(x)) je konvexní v x; nechť H probíhá symetrické distribuční funkce; označme tento systém T\. Nechť T(F) je M-funkcionál, definovaný jako kořen rovnice fKÍ>(x — T(F)) = 0. 3.4. ASYMPTOTICKÉ VLASTNOSTI 87 88 KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU Pak y (FT) SwV{x-T{F))dF{x) 1 (JRV(x-T(F))dF(x))2-AFY Huber [37] dokázal, že nejméně příznivé rozdělení třídy T\ má hustotu (1 - e)g(x0)ekl-x-x^ ... x < x0 h(x) = { (1 - e)g(x) ... x0Xl kde Xn = —X\ = inf \x : — ^ > —k\ { sw J a k > 0 je určeno vztahem 2 fxi 1 Tff(zi) + / g(x)dx =-- a Tn je maximálně věrohodný odhad pro rozdělení f0, tedy M-odhad generovaný funkcí i>a(x) ■■ a; < a;o a; > x\. Z asymptotických vztahů v $ 3.4.4 hned plyne, že existují i minimaximálně robustní L- a R- odhady; speciálně, minimaxi- málně robustní L-odhad je vytvořen váhovou funkcí J0(«) = ?7^tVÓ(^1(«)), 0<«<1 a minimaximálně robustní iž-odhad je vytvořen skórovou funkcí («) = VoC^M)- 0 < ti < 1. Důležitý speciální případ je minimaximálně robustní odhad v modelu kontaminovaného normálního rozdělení: v modelu (3.70) položme G = kde $ je distribuční funkce (0,1). Pak nejméně příznivé rozdělení má hustotu 1-e r-k2/2-k\x\ \x\ < k \x\ > k, (3.74) a tedy je normální v centrální části [—k, k] a exponenciální vně tohoto intervalu. Věrohodnostní funkce, příslušná /o, je ip0(x) ■■ M = í x ... \x\ < k k sign x ... \x\ > k což je známá Huberova funkce. Konstanta k > 0 je určena vztahem Minimaximálně robustní M-odhad pro kontaminované normální rozdělení je generovaný funkcí ipo a je shodný s maximálně věrohodným odhadem příslušným hustotě /o. Minimaximálně robustní L-odhad je vytvořen váhovou funkcí Jo, která musí splňovat 1 Jo (F0(x)) ■■ Z(Fo) I[-k («) = 4>o (F0_1(u)), 0 < u < 1. 92 KAPITOLA 4. LINEÁRNI MODEL Kapitola 4 Robustní odhady v lineárním modelu Úvod Uvažujme lineární regresní model Yi = x'i/3 + Uhi = 1, (4.1) kde Yi,...,Yn jsou pozorování, j3 e W je neznámy parametr, Xj 6 W, i = l,...,n jsou pevně dané vektory nebo náhodné pozorovatelné vektory (regresory) a U\, ...,Un jsou vzájemně nezávislé náhodné chyby se stejnou distribuční funkcí F. Distribuční funkce F je obecně neznámá; jen předpokládáme, že patří do určitého systému T distribučních funkcí. Označíme-li Y = (Yu...,Yn)', X = Xn = . u = (í/i,..., uny, můžeme (4.1) přepsat v maticovém tvaru Y = X/3 + U. (4.2) Nejznámějším odhadem j3 je klasický odhad metodou nejmenších čtverců j3. Pokud X je nenáhodná a má hodnost p, je j3 roven 0 = (X'X)_1X'Y (4.3) Je-li F normální, je f3 maximálně věrohodným odhadem f3. Pro obecnou distribuční funkci F, která má konečný druhý moment, je podle známé Gauss-Markovovy věty j3 nejlepším nestranným lineárním odhadem j3. Protože j3 je rozšířením výběrového průměru na lineární regresní model, má i podobné vlastnosti, zejména je velmi nerobustní a citlivý k odlehlým pozorováním Yi, k odchylkám od normálního rozdělení chyb U, a selhává, pokud toto rozdělení má těžké chvosty. Avšak navíc je odhad j3 v lineárním regresním modelu silně ovlivněn regresní maticí X a je velmi citlivý k odlehlým hodnotám jejích elementů. Chyby, způsobené odchylkami od předpokládaného modelu a od předpokládaného rozdělení pravděpodobností v lineárních modelech, zejména ekonometrických, mohou mít dalekosáhlejší důsledky než v modelu s parametrem posunutí. Proto právě zde musíme hledat robustní alternativy ke klasickým odhadům, jejichž hlavním představitelem je odhad metodou nejmenších čtverců. 91 4.1. metoda nemenších Čtverců 93 94 kapitola 4. lineární model Než zavedeme robustní alternativy metody nejmenších čtverců, ukážeme, v čem spočívá vliv odlehlých prvků regresní matice X na chování odhadu j3. 4.1 Metoda nejmenších čtverců Jestliže odhadneme j3 metodou nejmenších čtverců, pak regresní nadrovina prochází body (xj, Yj), i = 1,..., n, kde ýá=x<3 = h \hij\ < ||hi||||h^|| = (hihji)* < 1, i,j = l,...,ri. Matice H je řádu n x n a hodnosti j>; její diagonální prvky leží v mezích 0 < ha < 1, i = 1,..., n a stopa írace(H) = EíLi = í>-Jestliže se stane, že ha = 1 pro nějaké i, pak 1 = INI2 = k=l ■■ 0 pro j ^ coz znamená, ze Í5 = 10 = h^Y = = Yi, a regresní nadrovina prochází bodem (xj, Yj), bez ohledu na hodnoty ostatních pozorování. Hodnota ha = 1 je extrémní případ, který však ukazuje, že vysoká hodnota diagonálního prvku h a matice H způsobuje, že regresní nadrovina prochází v blízkosti bodu (xj,Yj). Takový bod proto nazýváme vlivným (leverage) bodem množiny pozorování. V literatuře není shoda v názoru, kterou hodnotu ha je třeba považovat za vysokou. Je však známo, (viz např. [39]), že pokud EU, = 0 a 0 < a2 = EU? < oo, i = 1,..., n, pak lim max ha ra->oo 1<í<íi = 0 je nutnou a postačující podmínkou k tomu, aby platilo B||3n-/3||2->0, C^^-^iX-^^M^a2^) při n —¥ oo, kde L_, je jednotková matice řádu p. Uvažujme, jaký vliv může mít maximální diagonální prvek matice H na pravděpodobnost velkých hodnot residuí odhadu j3; zdá se nám, že právě zde je vliv diagonály X na j3 nejnázornější. Předpokládejme, že distribuční funkce F je symetrická podle nuly, tj. F(x) + F(—x) = 1, x 6 M, a má nedegenerované chvosty, tj. 0 < F(x) < 1, x 6 R. Uvažujme následující míru chvostů odhadu j3 -logP^ (maxilxj (3-/3)| > a) -log(l-F(o)) (4.5) Přirozeně očekáváme, že JĽm Pp ^max |xJ(/3 - {3)\ > aj 4.1. METODA NEJMENSlCH Čtverců 95 a zajímá nás, kdy je tato konvergence nejrychlejší, a kdy naopak je velmi pomalá. Označme h = max hu, hu = xJ(X'X) Xj, i = 1,... ,n. Ki 0, pak a-»oo oa h-1'2 < lim^Bía, 3) < IíS^SÍa, 3) < h,-1. (ii) Jestliže F má exponenciálni chvosty s exponentem r, tj. lim -Ml-^(a))=li 6>Q a r6(12] pak h1-r < lim„_^B(o,ď) < lim.j^Sía,^) < /rr. (mj Jestliže F je normální, pak lim S(a,3) = ft_1- 96 KAPITOLA 4. LINEÁRNI MODEL (iv) Jestliže F má tčžké chvosty, tj. -log(l-P(a)) lim - a->oo m log a 1, m > 0, pak lim S(a,3) = 1. Věta 4.1 ukazuje, že veľká hodnota maximálního diagonálního prvku h matice H způsobuje, že pravděpodobnost Pg (maxj |xj (j3— j3\ > a) klesá k 0 s rostoucím a pomalu, i při normálním rozdělení chyb a při velkém počtu pozorování n. Zároveň vidíme, že při normálním rozdělení chyb vždy platí limo^oo-Bía,^) < ■ (4.7) přičemž rovnost nastává při vyrovnaném designu odpovídajícím hu = i = 1,... ,n. Důkaz věty 4.1. Bez újmy obecnosti předpokládejme, že h = h\\. Protože 0a) = P0(max |híY| > a) > Po^Y > a) i > PoihY! > a, h12Y2 > 0,..., hlnYn > 0) l\n-l_ > P0{Y1 > a/h) v2, Odtud vyplývá limo^oo-B(a, 0) < lim a- :(l-F(a/h)) v5, -log(l-F(o/ft)) -log(l-P(a)) l\n-l (4.8) 4.1. METODA NEJMENSlCH ČTVERCŮ 97 98 KAPITOLA 4. LINEÁRNI MODEL Jestliže F má exponenciálni chvosty s indexem r, pak ze (4.8) dále plyne Ľm^BíaJ) < Í5«oo^ = h-\ (4.9) což dává horní hranici v (i) a (ii). Pro F s těžkými chvosty ze (4.8) plyne Em8_>00.B(g,3) < Emg_>00Tnlof(a//>) = 1 (4.10) m log a a odtud plyne (iv), protože 0 má alespoň jeden kladný a alespoň jeden záporný residuál, a tedy lima_>^B(a, 0) > 1. Na druhé straně, jestliže F má exponenciálni chvosty s exponentem r, 1 < r < 2, pak s užitím Markovovy nerovnosti můžeme psát pro libovolné e 6 (0,1) P/3(max|xí(3-/9)|>o) (4.11) < gp[exp{(l - E)6ft1-f(majq \Ýj\r)}] exp{(l -e)bhl-rď} a tedy pokud můžeme ověřit, že E0[exp{(l -e)6ft1-r(max|ýi|)r}] < Cr < oo, (4.12) i pak bude platit - log P0(max |Ýi| > a) > - log Cr + (1 - e)bhl-rar, i a odtud dostaneme dolní hranici ve (ii) a vlastně také dolní hranici pro normální rozdělení ve (iii). Musíme tedy dokázat konečnost střední hodnoty ve (4.12). Označme ||x||s = \xí\s)1/s , s > 0 a položme s = (> 2). Pak (s přihlédnutím ke vztahu £j!=i ^lk = hii) (max|ýi|)r = max|híYr < max(||hi||s||Y||r)r i i i < matiĚt&Y"£\Y„\r < hr-1 £\Yk\\ ' k=l k=l k=l a tedy E0 exp{(l -£)«i1-r(max|ýj|''} i n < E0 ezpttl - E)bY,\Yk\r} k=l <(E0exp{(l-£)&|Y1r})'\ Má-li F exponenciální chvosty s exponentem r, pak existuje K > 0 takové, že pro x > K platí 1 — F(x) < exp{—(1 — ^bxr} = Ck a integrací per partes dostaneme 0 a) < -—- - - « exp{(l - £)6/í-1/2a} < (Cg exp{(l- e)6|Yi|»" ~ exp{(l -e)bh-ll2a\ a ze (4.13) vyplývá, že E0 exp{(l — e)&|Yi|} < oo; odtud dostaneme dolní hranici v (i). Jestliže F je distribuční funkce normálního rozdělení (0, a2), pak Y — X/3 má n-rozměrné normální rozdělení J a) > Pq^Y > a) = 1 - ^{aa^hT112) a limo_>o0S(a,í3) < h 1. 4.2 M-odhady M-odhad parametru /3 v modelu (4.1) je definován jako řešení M„ minimalizace n (4.14) 53 P(Yi ~xít) := min vzhledem k t 6 Rp, kde p : Ri i-> Ri je absolutně spojitá, obvykle konvexní funkce s derivací if>. Zřejmě M„ je ekvivariantní vzhledem k regresi, tj. M^Y + Xb) = M^Y) + b Vb 6 1 (4.15) ale M„ obecně není ekvivariantní vzhledem k měřítku: obecně neplatí Mn(cY) = cM„(Y) pro O 0. (4.16) M-odhad, ekvivariantní vzhledem k měřítku, získáme buď studen-tizací nebo tak, že zároveň s regresním parametrem odhadujeme měřítko. Studentizovaný M-odhad je řešením minimalizace (4.17) kde Sn = Sn(Y) > 0 je vhodná škálová statistika. Aby M„ bylo ekvivariantní vzhledem k regresi i k měřítku, je třeba, aby škálová statistika Sn byla invariantní vzhledem k regresi a ekvivariantní vzhledem k měřítku, tj. Sn(c(Y + Xb)) = cSn(Y)VbeMp a O 0. (4.18) 4.2. M-ODHADY 101 102 KAPITOLA 4. LINEÁRNI MODEL Takovou statistikou je např. odmocnina z residuálního součtu čtverců, Sn(Y) = [(Ý - Y)'(Ý - Y)]1/2 = [Y'(I„ - H)Y]1/2, ale ta je úzce spojena s odhadem metodou nejmenších čtverců a tedy nerobustní. Robustní škálové statistiky mohou být založeny na regresních kvantilech nebo regresních pořadových skórech, o kterých se zmíníme později. Minimalizace (4.17) musí být doplněna pravidlem, jak definovat M„ v případě, že Sn(Y) = 0; ve většině případů však toto nastane s pravděpodobností 0 a speciální tvar pravidla nemá vliv na asymptotické chování M„. Jestliže ip(x) = je spojitá funkce, pak M„ je kořenem soustavy rovnic gX4^)=°- (419) Tato soustava rovnic však může mít více kořenů a pouze jeden z nich vede ke globálnímu minimu úlohy (4.17). V knize [46] je dokázáno, že za obecných podmínek vždy existuje alespoň jeden kořen (4.19), který je ^/re-konsistentním odhadem j3. Jestliže ip je neklesající schodovitá funkce, a tedy p je konvexní, po částech lineární funkce, pak Mn je bodem minima konvexní funkce 127=1 P((^í — xí*)/^n) P^es t 6 Rj,, a i v tomto případě můžeme dokázat jeho konsistenci a asymptotickou normalitu. Měřítko zároveň s regresním parametrem můžeme odhadovat různými způsoby: např. (M„, a) je řešením minimalizace n ^2 a p {a~1(Yi - x 0, (4.20) «=i kde a > 0 je vhodná konstanta. Tato minimalizace vede k soustavě p + 1 rovnic i — l X 7 Žxp^)=a, (4.21) i—1 ^ ^ kde x(x) = xi/>(x) — p(x) a a= / x(x)d&(x) Jk a $ je distribuční funkce A^(0,1). Za funkci ip se obvykle volí Huberova funkce (3.15). Matice X může být náhodná, nenáhodná i smíšená, tj. některé prvky X jsou pevné a jiné náhodné. Při náhodné matici X je třeba vzít v úvahu i možné rozdělení pravděpodobností řádků X a infiuenční funkce závisí na dvou argumentech, x a y. Podobně i bod selhání odhadu je třeba uvažovat nejen vzhledem k možným změnám pozorování y, ale i pozorování x. Asymptotické vlastnosti M-odhadů s pevnou maticí X jsou podrobně studovány v knize [46]. Pro ilustraci uvedeme asymptotické rozdělení pravděpodobností M-odhadu v nejjednodušším případě, tj. nestudentizovaného M-odhadu s nenáhodnou maticí X. 4.2.1 Asymptotické rozdělení M-odhadu s nenáhodnou maticí Předpokládejme, že distribuční funkce F chyb U, v modelu (4.1) je symetrická podle nuly. Uvažujme M-odhad M„ jakožto řešení minimalizace (4.14), kde ip = p' je lichá, absolutně spojitá a předpokládejme, že Ef^>2(U\) < oo. O matici X = X„ 4.2. M-ODHADY 103 104 KAPITOLA 4. LINEÁRNI MODEL (n) předpokládejme, že má hodnost p a že maxi, F)y)), £W2(tfi) kde ,P) : (EFV'(í/i))2 Jestliže za stejných předpokladů ^X^X,, —> Q, kde Q je pozitivně definitní matice řádu p x p, pak C{V^(Mn -/3)}^Af„ (0, a2(i>, F)Q-1). Jestliže V může mít skoky, ale je neklesající, a -F je absolutně spojitá s hustotou /, pak (4.22) zůstává v platnosti s tím rozdílem, že EFV2(í7i) , F) ■- (JRf(x)di,(x))2 Všimněme si, že a2(ip, F) je totéž jako ve (3.54) u asymptotického rozdělení M-odhadu parametru polohy. Asymptotické rozdělení studentizovaného M-odhadu závisí na vlastnostech studentizující statistiky Sn. 4.2.2 Influenční funkce M-odhadu s náhodnou maticí Uvažujme model (4.1) s náhodnou maticí X, ve kterém (xj, Yj)', i = 1,...,n jsou nezávislé náhodné vektory s hodnotami v Rp x li, stejně rozdělené s distribucí P(x, y). Jestliže p má absolutně spojitou derivaci i^i pak statistický funkcionál T(P), příslušný odhadu (4.14), je řešením soustavy p rovnic - x"r(P)dP(x, (4.23) Uvažujme kontaminované rozdělení Pt = (1 - t)P + íí(x0, y0), 0 < í < 1, (x0, y0) 6 Kj, x R, kde á(xo,yo) je rozdělení pravděpodobností degenerované v bodě (xo>yo)- Pak funkcionál T(Př) je řešením soustavy rovnic (1 - í) / xV ■i!T(Pt))dP(x,y) +íx0V(yo-x'0T(Pi)) = 0. Derivováním podle í dostaneme xV>(y - x'T(Př))dP(x, y) + x0V(yo - x0T(Př)) JR -(1-í) J«„+1 dt -íx'0x0^^V'(yo - x0T(Př)) = 0. Influenční funkci IF(xn, yn; T, P) = ^iT'^ dostaneme, položíme-li í = 0 a uvědomíme si, že vzhledem ke (4.23) je /K *i>(y — 4.2. M-ODHADY 105 106 KAPITOLA 4. LINEÁRNI MODEL x'T(Př))dP(x,y)=0: IF(x0,y0;T,P) / x'xV>'(y-x'T(P))dP(x,y) = xoV(yo-x'0T(P)), a tedy influenční funkce M-odhadu má tvar IF(x0, y0; T, P) = B^xoVKyo - x'0T(P)), (4.24) kde B = f x'xV%-x'T(P))dP(x,y). (4.25) Vidíme, že volbou ip lze dosáhnout toho, aby influenční funkce (4.24) byla ohraničená vzhledem k y0; influenční funkce M-odhadu je však neohraničená vzhledem k x0, a tedy M-odhad je nerobustní vzhledem k X. To vedlo řadu autoru k zavedení zobecněných M-odhadů, tzv. GM-odhadů, které vhodnými vahami vyrovnávají vliv odlehlých hodnot x. Asymptotické vlastnosti M-odhadu s náhodnou maticí Jestliže soustava rovnic EP[xV>(y -x't) =0 má jediné řešení T(P) = j3, pak T(P„) -> T(P) při n —¥ oo, kde P„ je empirické rozdělení příslušné pozorováním ((xi, yi),..., (x„, y„)). Za určitých podmínek na rozdělení pravděpodobností P platí asymptotická reprezentace T(P„) = T(P) + iIF(x, y; T, P) + o^n-1'2). Jestliže Ep||IF(x, y; T, P) ||2 < oo, dostaneme odtud asymptotické rozdělení pravděpodobností T(P„) : £{v/^(T(P„)-T(P))} ^7^(0,2), (4.26) kde S = Ep[IF(x, y; T, P)]'[IF(x,y; T, P)] = B 1AB"1, B je matice definovaná ve (4.25) a A = í x'xV>2(y-x'T(P))dP(x,y). 4.2.3 GM-odhady Influenční funkce (4.24) M-odhadu je neohraničená vzhledem k x, a tedy M-odhad je citlivý k případným vlivným bodům v matici X. Tuto skutečnost nemůžeme ovlivnit volbou funkce ip. Rada autorů navrhla doplnit definici M-odhadu vhodnými vahami w, které redukují vliv velkých hodnot xy. Mallows [54], [55] navrhl zobecněný M-odhad jako řešení minimalizace Y^, 0. (4.27) 4.2. M-ODHADY 107 108 KAPITOLA 4. LINEÁRNI MODEL Jestliže if> = p' je spojitá, je zobecněný M-odhad kořenem rovnice J2^w{^{^^\ =0 (4.28) i—l ^ / a influenční funkce příslušného funkcionálu T(P) je rovna IF(x,y;T,P) = B"1™^)^ (""jff^) - (4-29) kde S^P) je funkcionál, příslušný řešení a v minimalizaci (4.27). Ohraničené influenční funkce dosáhneme volbou w, při které je xii!(x) ohraničené. Takto definovaný odhad je speciálním případem následujícího GM-odhadu, který je řešením soustavy rovnic (4.30) kde rj, x jsou funkce, rj-.Mp xRi->Rax:R,->R. Odhadu metodou nejmenších čtverců odpovídá volba r;(x, ií) = ií a x(u) = u2 — l, M-odhadu volba r;(x, «) = ip(u) a Mallowsově GM-odhadu odpovídá volba r;(x, ií) = ií)(x)i/)(ií). Obvyklá volba funkce rj je r)(x, ií) = ^jffi'/'Mi kde V je např. Huberova funkce. Funkce % se obvykle volí stejně jako ve (4.21). Statistické funkcionály T(P) a S(P) odpovídající M„ a an jsou definovány implicitně jako řešení soustavy rovnic: (4.31) Influenční funkce funkcionálu T(P) ve speciálním případě a = l má tvar IF(x,y;T,P) = B_1x7j(x, y - x'T(P)), kde = f x'x 9ti r;(x, «) «=a-x't(P) dP(x, Asymptotické vlastnosti GM-odhadů studovali Maronna a Yohai [56]. Za určitých podmínek jsou GM-odhady silně konsistentní a v/ři(T(PJl) — T(P)) má asymptoticky p-rozměrné normální rozdělení A/^> (0, S) s kovarianční maticí S = B 1AB kde A = / x'x7)2(x,y -x'T (P))dP(x, Krasker a Welsch [51] navrhli GM-odhad jako řešení soustavy rovnic " Y--'t ^XiWi—-= 0 4.3. L-ODHADY 109 110 KAPITOLA 4. LINEÁRNI MODEL s vahami = ií>(xj, Yj, t) > 0, které jsou určeny tak, aby maximalizovaly asymptotickou vydatnost odhadu (vzhledem k asymptotické kovarianční matici S) za omezení 7* < a < 00, kde 7* je globální citlivost funkcionálu T vzhledem k rozdělení P, tj. 7* = sup [(IF(x, y; T, P))' S"1 (IF(x, y; T, P))]1/2 . Řešením jsou váhy ve tvaru ii)(x, y, t) = min < 1, 1-j—-- > , \ |^|(x'Ax)i/2j kde A = [ x,xf^^N)tí)2(x,y,t)dP(x,y). Jkp+1 V ° ) Krasker-Welschův odhad má ohraničenou influenční funkci, ale je třeba ho počítat iteračně, protože matice A závisí na w. 4.3 L-odhady L-odhady parametru polohy ve tvaru lineárních kombinací pořádkových statistik nebo funkcí pořádkových statistik jsou velmi atraktivní, protože jsou definovány explicitně a snadno se vypočítají. Proto se přirozeně statistikové snažili rozšířit L-odhady na lineární regresní model. Toto rozšíření však není snadné, protože neexistovalo žádné přirozené rozšíření empirického (výběrového) kvantilu na regresní model. To se podařilo až Koenkerovi a Bas-settovi [50], kteří v r. 1978 definovali regresní a-kvantil /3(a) pro model (4.1) za předpokladu, že /3i je absolutní člen, tj. že matice X vyhovuje podmínce xa = 1, i = 1,... ,ri. (4.32) Regresní a-kvantil /3(a), 0 < a < 1, je definován jako řešení minimalizace ra Y Poc (Yi - xjt) := min, t 6 Kp, (4.33) i=l kde pa(x) = \x\{al[x > 0] + (1 - a)I[x < 0]}, iěR (4.34) Protože pa (x) je konvexní, po částech lineární funkce x, je nasnadě myšlenka řešit minimalizaci (4.33) upravenou simplexovou metodou. Skutečně, Koenker a Bassett navrhli počítat /3(a) jako složku f3 optimálního řešení (/3,r+,r~) úlohy parametrického lineárního programování aYri + í1 ~ ") Yri ■ mÍn i=l i=l za podmínky (4.35) p 3=1 /3,-eMi, j = l,...,p, rj,r^ > 0, i = l,...,n, 0 < a < 1. Proměnné r^" a rt~ v (4.35) jsou rovny kladné a záporné části residuí Yj — x^/3, i = 1,..., n. 4.3. L-ODHADY 111 112 KAPITOLA 4. LINEÁRNI MODEL Úloha (4.35) nám nejen umožňuje vypočítat regresní kvantily simplexovou metodou, ale zároveň vypovídá o struktuře regresních kvantilů. Z teorie lineárního programování víme, že množina B(a) řešení (4.35) (a tedy i (4.33)) je neprázdná, kompaktní a polyedrální. Pokud není dáno jiné omezení, lze volit 0(a) jako lexikograficky maximální element B (a). Jakožto funkce argumentu a 6 (0,1) je 0(a) schodovitou funkcí a. Asymptotické vlastnosti 0(a) jsou analogické vlastnostem výběrových kvantilů v modelu s parametrem posunutí. Populačním partnerem (statistickým funkcionálem) příslušným j3(a) je populační regresní kvantil P{a) = (A + F-1(a),02,..., PP)' (4.36) a jestliže distribuční funkce F chyb v modelu (4.1) je symetrická a ryze rostoucí v okolí F~ľ (a) s derivací / a matice X„ je buďpevná a lim,,^^ iXJ,X„ = Q nebo je náhodná (až na první sloupec) a lim,,^^ Ex'jXi = Q, kde Q je pozitivně defínitní matice řádu p x p, pak y/ň(j3n(a) — 0(a)) má asymptoticky p-rozměrné normální rozdělení což je ve shodě s asymptotickým rozdělením výběrového a-kvantilu odpovídajícího matici X = 1„ = (1,..., 1)' 6 R„. Máme-li k dispozici regresní kvantily, můžeme definovat řadu L-odhadů parametru j3 v lineárním regresním modelu. Nejzná-mější je Li-odhad, neboli regresní medián, což je regresní a-kvantil s a = 1/2. Dále můžeme uvažovat L-odhady, které jsou rovny lineární kombinaci konečně mnoha regresních kvantilů. Z hlediska praktického použití je nejzajímavější useknutý odhad metodou nej-menších čtverců, který navrhli Koenker a Bassett [50], a který je rozšířením useknutého průměru na lineární regresní model: Zvolme ati, a2, 0 < «i < a2 < 1 a položme Oj = I [x<3n(ai) < Yi < x&M] , (4.38) a vypočtěme vážený odhad metodou nejmenších čtverců s vahami Oj, i = 1,..., n. Tento odhad T„(ai, a2), který nazveme (a\,a2)-useknutým odhadem metodou nejmenších čtverců, můžeme psát v explicitním tvaru Tn(ai, a2) = (X^X^-XAnY,,, (4-39) kde A„ = diag(aj) je diagonální matice s diagonálou (oi,...,o„). Za určitých podmínek regularity kladených na matici X„ a distribuční funkci F (která má být rostoucí a diferencovatelná v intervalu (F^1(ai) — e, F^1(a2) + e)) lze ukázat, že Tn(ai, a2) má asymptoticky normální rozdělení; přesněji řečeno, £ {Vn(T„ -p- íei)} -> Afp (O, ^Q"1), (4.40) kde ei = (1,0,... ,0)' 6 Rp a S=(a2-a1)-1 / F-^ujdu, a2 = a2(cti,a2,F) (4.41) = (a2 - ai)-1! J°° a2(F-\u) - S)2du +a1(F-1(a1) - S)2 + (1 - a2)(F-l(a2) - Ô)2 - [a^F-1^) - S) + (1 - a2)(F-l(a2) - S)}2). 4.3. L-ODHADY 113 114 KAPITOLA 4. LINEÁRNI MODEL V symetrické situaci, kdy F(x) + F(—x) = 1, x 6 R a ct\ = a, «2 = 1 — 0;, 0 < a < ^, je ô = 0 a y/ň(Tn(a) — j3) má asymptoticky normální rozdělení A/^O, a2(a, f)Q_1), kde a2 (a, F) ■■ Ca(F-1(u))2du + 2a(F-í(a))2 l-2a (4.42) Všimněme si, že a2 (a, F) se shoduje s asymptotickým rozptylem a-useknutého průměru v modelu s parametrem posunutí. Vedie useknutého odhadu metodou nejmenších čtverců můžeme uvažovat obecnou třídu L-odhadů tvaru ■f Jo (4.43) kde v je vhodná znaménková míra na (0,1) (konečná a s kompaktním nosičem, který je podmnožinou (0,1)). Atomická míra v vede ke kombinaci konečně mnoha regresních kvantilů. Jiné rozšíření («i,«2)-useknutého průměru dostaneme, jestliže v je absolutně spojitá vzhledem k Lebesgueově míře s hustotou J(U)- I\a\ x@n(a), 0 ... Yioo Jiným odhadem l/f(F 1(a)) je jádrový odhad s jádrem k : Mi i-> Mi, které má kompaktní nosič a vyhovuje vztahům J k(x)dx = 0 a J xk(x)dx = —1. Jádrový odhad má tvar xia) = 4 f Mu)k (^) du, (4.52) vn JO \ vn I kde vn —> 0, nv„ —> oo, nvi —> 0 při n —¥ oo. Oba odhady jsou v/ŤM^-konsistentními odhady í/f(F_1(a)), vyhovujícími (4.48). Vzhledem k jejich nižšímu řádu konsistence (který plyne z povahy problému a nelze jej za daných podmínek výrazně zlepšit) se nepoužívají ke studentizaci, ale jsou nutné např. při statistické inferenci o kvantilech rozdělení F. (iv) Skálové statistiky založené na regresních pořadových skórech. Nechť (ani(a),..., änn(ct)), 0 < a < 1 jsou regresní pořadové skóry pro model (4.1). Zvolme neklesající skórovou funkci ip : (0,1) i-> Mi standardizovanou tak, že j"^ 00 '(x/S(F))dF(x) nebo 7 = JM f(xS(F))dip(x) podle toho, zda volená funkce ip generující M-odhad je spojitá nebo nespojitá. Např. u absolutně spojité ip můžeme použít odhad 1 " (v -x'M(0) nS, MÍ1' je dobrou aproximací konsistentního M-odhadu M„: pokud ip je dostatečně hladká, lze dokázat HM^-M^IHO^n-1), zatímco za přítomnosti skoků ve funkci ip platí \\Mn-Mm\\ = Op(n-3/4). Více o jednokrokových verzích lze nalézt v [7], [45], [48], [68] a pro í;-krokové verze v modelu posunutí též [44]. Obecně lze říci, že jednokrokové verze dávají dobré aproximace pro M-odhady s hladkými funkcemi ij>. 4.6 Odhady s vysokým bodem selhání Bod selhání odhadu v lineárním modelu bere v úvahu nejen možná nahrazení pozorování Y\,..., Yn libovolnými hodnotami, ale též 4.6. ODHADY S VYSOKÝM BODEM SELHÁNI 121 122 KAPITOLA 4. LINEÁRNI MODEL možná nahrazení vektorů xi,... , xn. Přesněji řečeno, naše pozorování tvoří matici r -i i ' *í, 3/1 " z = = *2, Ví . xjj, Vn _ a bod selhání odhadu T parametru j3 je nejmenší celé číslo m„(Z) takové, že nahradíme-li libovolných m řádků v matici Z libovolnými jinými řádky a označíme vzniklý odhad TJ,, pak sup ||T — TJJI = oo, kde supremum bereme přes všechny možné náhrady m řádků. Často měříme bod selhání také limitou £* = lim,,-^ pokud existuje. Je zřejmé, že i odhady, které dosahovaly bodu selhání 1/2 v modelu s parametrem posunutí, těžko mohou dosahovat 1/2 v regresním modelu, ovlivněny maticí X. V této souvislosti vzniká několik otázek, hlavně zdali vůbec existují odhady s maximálním možným bodem selhání, jaké jsou jejich další vlastnosti a kdy má smysl je použít. První otázku odpověděl kladně Siegel [66] již v roce 1982, kdy sestrojil tzv. opakovaný medián s 50% bodem selhání, který však není vhodný pro praktické aplikace. Krátce nato Rousseeuw [60] v r. 1984 publikoval odhad metodou nejmenšího mediánu čtverců (LMS), který minimalizuje medi 0 při pevných z\,..., zn; volbou funkce p (obvykle ohraničené) a konstanty k se určuje poměr mezi vydatností a bodem selhání odhadu. Tyto odhady a jejich výpočetní aspekty jsou podrobně popsány v knize [61]. Jinou možností vyváženějšího poměru mezi vysokým bodem selhání a vysokou vydatností je vhodně upravená jednokroková verze M-odhadu nebo GM-odhadu, začínající odhadem s vysokým bodem selhání (viz [45] a [68]). Vysoký bod selhání těchto a podobných odhadů je však na druhé straně zaplacen některými nevýhodami, vzhledem k nimž nejsou odhady příliš využívány v praxi. Přes obtížný výpočet těchto odhadů již existují účinné algoritmy, zabudované do standardních balíků, jako S-PLUS. Nedostatkem těchto odhadů však může být, že zatímco jsou resistentní vzhledem k vysoce odlehlým hodnotám pozorování, mohou být velmi citlivé i k malým odchylkám v centru dat. Tento aspekt zatím nebyl zevrubně teoreticky analyzován, ale existuje k němu dostatečná numerická evidence, viz [35]. 4.7. VÝPOČETNÍ ALGORITMY 123 124 KAPITOLA 4. LINEÁRNÍ MODEL 4.7 Výpočetní algoritmy Výpočetní aspekty robustních odhadů v lineárním modelu i odhadu metodou nejmenších čtverců jsou podrobně analyzovány v knize [19], kde je obsažen i výpočetní program ADAPTIVE v systému S-PLUS, vypracovaný J. Pickem s užitím podprogramů pro regresní kvantily vypracovaných R. Koenkerem. Program ADAPTIVE je také ke stažení na adresách http://www.karlin.mff.cuni.ez/~jurecko/adaptive.s a http://www.fp.vslib.cz/picek/adaptive.htm. 126 LITERATURA Literatura [1] D. F. Andrews, P. J. Bickel, F. R. Hampel, P. J. Huber, W. H. Rogers, and J. W. Tukey (1972). Robust Estimates of Location. Survey and Advances. Princeton University Press, Princeton. [2] J. Antoch and J. A. Víšek (editoři) (1992). Computational Aspects of Model Choice. Physica-Verlag, Heidelberg. [3] J. Antoch, H. Ekblom and J. A. Víšek (1998). Robust Estimation in Linear Model. XploRe Macros: http://www.quantlet.de/codes/rob/ROB.html [4] R. R. Bahadur (1967). Rates of convergence of estimators and test statistics. Ann. Math. Statist. 38, 303-324. [5] V. Barnett and T. Lewis (1994). Outliers in Statistical Data (3. vydání). J. Wiley, Chichester. [6] D. A. Belsley, E. Kuh and R. E. Welsch (1980). Regression Diagnostics: Identifying Inňuential Data and Sources of Col-linearity. J. Wiley, New York. [7] P. J. Bickel (1975). One-step Huber estimates in the linear model. Ann. Statist. 1, 597-616. [8] P. J. Bickel and E. L. Lehmann (1979). Descriptive statistics for nonparametric model. rV. Spread. Contributions to Statistics: Jaroslav Hájek Memorial Volume (ed. J. Jurečková), str. 33-40. Academia, Prague and Reidel, Dordrecht. [9] P. Billingsley (1998). Convergence of ProbabiMty Measures, 2nd Edition. J. Wiley, New York. [10] G. Blom (1956). On linear estimates with nearly minimum variance. Arkiv fur Mathematik 3, 365-369. [11] P. Bloomfield and W. L. Steiger (1983). Least Absolute Deviations. Theory, Applications and Algorithms. Birkháuser, Boston. [12] R. J. Boskovic (1757). De literariaexpeditione per pontificiam ditionem et synopsis amplioris operis... Bononiensi Scienti-arum et Artum Instituto atque Academia Commentarii 4, 353-396. [13] G. E. P. Box (1953). Non-normality and tests of variance. Biometrika 40, 318-335. [14] G. E. P. Box and S. L. Anderson (1955). Permutation theory in the derivation of robust criteria and the study of departures from assumption. J. Royal Statist. Soc, Ser. B 17, 1-34. [15] H. Bunke and O. Bunke (editoři) (1986). Statistical Inference in Linear Models. J. Wiley, Chichester. 125 LITERATURA 127 [16] R. J. Carroll and D. Ruppert (1988). Transformations and Weighting in Regression. Chapman & Hall, London. [17] S. Chaterjee and A. S. Hadi. Sensitivity Analysis in Linear Regression. J. Wiley, New York. [18] R. D. Cook and S. Weisberg (1982). Resials and Influence in Regression. Chapman & Hall, London. [19] Y. Dodge and J. Jurečková (2000). Adaptive Regression. Springer, New York. [20] D. L. Donoho and P. J. Huber (1983). The notion of breakdown point. A Festschrift for Erich Lehmann (editoři P. J. Bickel, K. A. Doksům a J. L. Hodges). Wadsworth, California. [21] N. R. Draper and H. Smith (1988). Applied Regression Analysis, 3. vydání. J. Wiley, New York. [22] M. Falk (1986). On the estimation of the quantile density function. Statist. & Probab. Letters 4, 69-73. [23] L. T. Fernholz (1983). tod Mises Calculus for Statistical Functionals. Lecture Notes in Statistics 19, Springer-Verlag, New York. [24] C. A. Field and E. M. Ronchetti (1990). Small Sample Asymptotics. IMS Lecture Notes 13, IMS, Hayward, Califor- [25] J. C. Fu (1975). The rate of convergence of consistent point estimators. Ann. Statist. 3, 234-240. 128 LITERATURA [26 [27 [28; [29; [30; [31 [32; [33; [34; C. Gutenbrunner (1986). Zur Asymptotik von Regression Quantil Prozessen und daraus abgeleiten Statistiken. Diser-tace, Universität Freiburg. C. Gutenbrunner and J. Jureckovä (1992). Regression rank scores and regression quantiles. Ann. Statist. 20, 305-330. C. Gutenbrunner, J. Jureckovä, R. Koenker and S. Portnoy (1993). Tests of linear hypotheses based on regression rank scores. J. Nonpar. Statist. 2, 307-331. Contribution to the Theory of Robust Estimators. PhD Thesis. University of California, Berkeley. A general qualitative definition of robustness. Ann. Math. Statist. 42, 1887-1896. F. R. Hampel (1974). The influence curve and its role in robust estimation. J. Amer. Statist. Assoc. 69, 383-393. F. R. Hampel, P. J. Rousseeuw, E. Ronchetti, and W. Stahel (1986). Robust Statistics - The Approach Based on Influence Functions. J. Wiley, New York. F. Harrell and C. Davis (1982). A new distribution-free quantile estimator. Biometrika 69, 636-640. T. P. Hettmansperger (1985). Statistical Inference Based on Ranks. J. Wiley, New York. [35] T. P. Hettmansperger and S. Sheather (1992). A cautionary note on the method of least median squares. Amer. Statist. 46, 79-83. LITERATURA 129 130 LITERATURA [36] J. L. Hodges and E. L. Lehmann (1963). Estimation of location based on rank tests. Ann. Math. Statist. 34, 598-611. [37] P. J. Huber (1964). Robust estimation od a location parameter. Ann. Math. Statist. 36, 73-101. [38] P. J. Huber (1969). Theorie de Finférence de statistique robuste. Presses de FUniversite de Montreal. [39] P. Huber (1981). Robust Statistics. J. Wiley, New York. [40] L. A. Jaeckel (1971). Robust estimation of location: Symmetry and asymmetric contamination. Ann. Math. Statist. 42, 1020-1034. [41] J. Jung (1955). On linear estimates defined by a continuous weight function. Arkiv für Mathematik 3, 199-209. [42] J. Jung (1962). Approximation to the best linear estimates. Contribution to Order Statistics (editoři A. E. Sarhan a B. G. Greenberg), str. 28-33. J. Wiley, New York. [43] J. Jurečková (1981). Tail-behavior of location estimators. Ann. Statist. 9, 578-585. [44] J. Jurečková and M. Malý (1995). The asymptotics for stu-dentized &-step M-estimators of location. Sequen. Anal. 14, 229-245. [45] J. Jurečková and S. Portnoy (1987). Asymptotics for one-step M-estimators in regression with application to combining efficiency and high breakdown point. Commun. Statist. Theory and Methods A 16, 2187-2199. [46] J. Jureckovä and P.K. Sen (1996). Robust Statistical Procedures: Asymptotics and Interrelations. J. Wiley, New York. [47] J. Jureckovä and P.K. Sen (1994). Regression rank scores statistics and studentization in the linear model. Proc. 5th Prague Conf. on Asymptotic Statistics (editofi M. Huskovä and P. Mandl), str. 111-121. Physica-Verlag, Vienna. [48] J. Jureckovä and A. H. Welsh (1990). Asymptotic relations between L- and M-estimators in the linear model. Ann. Inst. Statist. Math. 42, 671-698. [49] A. M. Kagan, J. V. Linnik and C. R. Rao (1973). Characterization Problems in Mathematical Statistics. J. Wiley, New York. [50] R. Koenker and G. Bassett (1978). Regression quantiles. Econometrics 46, 33-50. [51] W. Krasker and R. Welsch (1982). Efficient bounded-influence regression estimation. J. Amer. Statist. Assoc. 77, 595-604. [52] J.-P. Lecoutre et P. Tassi (1987). Statistique non paramet-rique et robustesse. Economica, Paris. [53] E. L. Lehmann (1983). Theory of Point Estimators. J. Wiley, New York. [54] C. Mallows (1973). Influence functions. National Bureau of Economic Research, Conference on Robust Regression, Cambridge, Massachusetts. [55] C. Mallows (1975). On some topics in robustness. Memorandum, Bell Tel. Laboratories, Murray Hill, New Jersey. LITERATURA 131 132 LITERATURA [56] R. Maronna and V. Yohai (1981). Asymptotic behavior of general M-estimates for regression and scale with random carriers. Z. Wahrscheinlichkeitstheorie und verw. Gebiete 58, 7-20. [57] R. von Mises (1947). On the asymptotic distribution of diffe-rentiable statistical functions. Ann. Math. Statist. 35, 73-101. [58] E. S. Pearson (1931). The analysis of variance in cases of nonnormal variation. Biometrika 23, 114-133. [59] H. Rieder (1994). Robust Asymptotic Statistics. Springer, New York. [60] P. J. Rousseeuw (1984). Least median of squares regression. J. Amer. Statist. Assoc. 79, 871-880. [61] P. J. Rousseeuw and A. M. Leroy (1987). Robust Regression and Outlier Detection. J. Wiley, New York. [62] P. J. Rousseeuw and V. Yohai (1984). Robust regression by means of S-estimators. Robust and Nonlinear Time Series Analysis (editofi J. Franke, W. Härdle a R. D. Martin), str. 256-272. Springer, New York. [63] D. Ruppert and R. J. Carroll (1980). Trimmed least squares estimation in the linear model. J. Amer. Statist. Assoc. 75, 828-838. [64] P. K. Sen (1964). On some properties of the rank-weighted means. J. Indian Soc. Agricul. Statist. 16, 51-61. [65] R. J. Serfling (1980). Approximation Theorems of Mathematical Statistics. J. Wiley, New York. [66] A. F. Siegel (1982). Robust regression using repeated medians. Biometrika 69, 242-244. [67] G. L. Sievers (1978). Estimation of location: A large deviation comparison. Ann. Statist. 6, 610-618. [68] D. G. Simpson, D. Ruppert and R.J. Carroll (1992). On one-step GM-estimates and stability of inference in linear regression. J. Amer. Statist. Assoc. 87, 439-450. [69] R. J. Staudte and S. J. Sheather (1990). Robust Estimation and Testing. J. Wiley, New York. [70] S. M. Stigler (1986). The History of Statistics. The measurement of Uncertainty before 1900. The Belknap Press of Harvard University Press, London. [71] J. W. Tukey (1977). Exploratory Data Analysis. Addison-Wesley, Reading, Massachussets. [72] I. Vajda (1988). Theory of Statistical Inference and Information. Reidel, Dordrecht. [73] A. H. Welsh (1986). Bahadur representation for robust scale estimators based on regression residuals. Ann. Statist. 14, 1246-1251. 134 REJSTŘÍK Rejstřík GM-odhad, 101-104, 118 L-odhad, 41, 55, 56, 59, 64, 67-69, 72, 73, 75-77, 80, 82 minimaximálně robustní, 82-85 v lineárním modelu, 105, 107, 109 M-funkcionál, 43, 44, 46, 47, 49, 81, 82 M-odhad, 4, 41-47, 49-51, 59, 65-72, 75-80, 82, 83 Huberův, 50, 61, 78 minimaximálně robustní, 82, 84 v lineárním modelu, 96, 98, 99, 101, 102, 109, 112, 115 jednokroková verze, 115, 116, 118 iž-odhad, 4, 42, 64-69, 74-76, 79, 80, 82 asymptoticky vydatný, 75 minimaximálně robustní, 82, 84, 85 asymptotické rozdělení, 16-19 asymptotická relativní vydatnost, 75 asymptotická reprezentace, 69, 72, 76 asymptotické rozdělení, 46, 48, 69, 70, 73-76, 80 asymptotické vlastnosti, 68 asymptotické vztahy, 75, 76, 80, 83 asymptoticky ekvivalentní odhady, 76, 77, 79, 80 asymptotický rozptyl, 68, 71, 73, 75, 81 asymptoticky vydatný odhad, 73 bod selhání, 30, 31 bod selhání, 46-48, 50, 59, 61, 63, 68 Diracova pravděpodobnost, 13 ekvivariance vzhledem k měřítku, 45, 52, 96, 111 ekvivariance vzhledem k posunutí, 31-33 ekvivariance vzhledem k posunutí, 45, 52 ekvivariance vzhledem k posunutí i k měřítku, 52, 66 ekvivariance vzhledem k regresi, 96, 112 ekvivariance vzhledem k regresi i k měřítku, 96, 109, 112 empirická distribuční funkce, 5, 17 empirické rozdělení pravděpodobností, 4, 7, 15, 17 empirická kvantilová funkce, 56 exponenciální chvosty, 61 Fisherova informace, 49, 71, 73, 74, 78, 79 fisherovská konsistence, 7 fisherovská konsistence, 43, 44, 53, 70 geometrický průměr, 6 globální citlivost, 29 globální robustnost, 29 globální citlivost, 47, 48, 50, 61, 63, 68 harmonický průměr, 6 Hodges-Lehmannův odhad, 65-67, 80 Huberova funkce, 52, 61, 84 charakteristiky robustnosti, 21 kvantitativní, 28-30 infiuenční funkce, 21, 26, 28, 29 diskretizovaná forma, 23, 24 infiuenční funkce, 43, 44, 48-50, 55, 57-63, 67, 69, 76, 98-105 kontaminační model, 82 kontaminované rozdělení, 47, 50, 68, 84, 85 kvalitativní robustnost, 26-28 lokální citlivost, 29 lokální citlivost, 68 133 REJSTŘÍK 135 136 REJSTŘÍK medián, 41, 47, 48, 54, 56, 62, 65-67 mediánová absolutní odchylka, 54 mediánově nestranný odhad, 66 mezikvartilová odchylka, 54 minimaximální robustnost, 40 minimaximální robustnost, 50, 80-85 odhad metodou nejmenšího mediánu čtverců, 117 odhad metodou nejmenších čtverců, 88, 89, 91, 97, 103, 119 useknutý, 107-109 odhad metodou useknutých čtverců, 117 regresní kvantil, 97, 105-107, 109, 110, 112, 113, 115, 119 populační, 107 regresní pořadové skóry, 97, 109-111, 114 skipped mean, 51 skipped medián, 51 statistický funkcionál, 4, 6, 7, 9, 11, 16 derivace, 11 Préchetova, 11, 14, 16, 17, 22 Gáteauxova, 17, 21 Gáteauxova, 11, 12, 17 Hadamardova, 11, 16, 17 diferencovatelnost, 7, 11 empirický, 17 míra chvostů, 31, 32, 35, 36, 38 statistický funkcionál derivace Préchetova, 69 míra chvostů, 50, 61 studentizovaný M-funkcionál, 55 studentizovaný M-odhad, 52, 53, 72 v lineárním modelu, 96, 99, 111 škálová statistika, 52, 54, 56 v lineárním modelu, 96, 97, 111-113, 115 těžké chvosty, 50, 61 useknutý průměr, 59-61, 67, 78, 80, 85 vzdálenost měr, 7, 8, 11, 17 Hellingerova, 9 Kolmogorovova, 9, 17 Lévyho, 8 lipschitzovská, 9 Prochorovova, 8 vztahy, 9, 10 winsorizovaný průměr, 62, 63, 67, 78 ROBUSTNÍ STATISTICKÉ METODY Prof. RNDr Jana Jurečková, DrSc Lektorovali: Doc. RNDr Jaromír Antoch, CSc RNDr Jan Picek, CSc Vydala Univerzita Karlova v Praze Nakladatelství Karolinum Praha 1, Ovocný trh 3 jako učební text pro posluchače Matematicko-fyzikální fakulty UK Praha 2001 Dáno do tisku: Vytiskla tiskárna Nakladatelství Karolinum A A - VA -1. vydání - Náklad výtisků Cena Kč Publikace neprošla jazykovou ani redakční úpravou