ROBUSTNÍ STATISTICKÉ METODY
Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulty University Karlovy v Praze
Vedoucí katedry: Prof. RNDr Josef Štěpán, DrSc
Jana Jurečková
PRAHA 2001
© Jana Jurečková, Praha 2001
© Univerzita Karlova v Praze - Nakladatelství Karolinum ISBN
iv
Předmluva
Tento učební text je určen pro posluchače magisterského studia Matematicko-fyzikální fakulty UK, kteří se zaměřují na matematickou statistiku a ekonometrii, ale také pro doktorandy oboru pravděpodobnost a matematická statistika a pro další zájemce. Materiál nejen pokrývá robustní statistické metody, které jsou částí přednášky Robustní a neparametrické metody, ale je i širší, aby poskytl zájemci ucelený obraz o současném stavu problematiky. Četba předpokládá základní znalosti pravděpodobnosti a matematické statistiky. Pokud některá tvrzení nejsou doplněna důkazy, neboť ty by požadovaly hlubší matematický výklad, jsou doplněna odkazy na literaturu, aby se zájemce mohl s nimi seznámit. Bibliografie je doplněna dalšími tituly, zejména knižními, z oblasti robustních statistických metod, která se bouřlivě rozvíjela zejména od šedesátých let 20. století.
Učební text samozřejmě nepokrývá celou rozsáhlou oblast robustních statistických metod, ke které je pouze úvodem. Zaměřili jsme se pouze na robustní statistické odhady, založené na nezávislých pozorováních, která lze popsat lineárním modelem nebo modelem s parametrem posunutí. Nedotkli jsme se robustních statistických testů ani robustních metod v časových řadách, kde našly
četné zajímavé aplikace. Ale věřím, že čtenář získá představu, co jsou robustní metody, a zapojí je do své práce.
Praha, leden 2001, Jana Jurečková
111
vi
OBSAH
Obsah
1 Matematické nástroje 5
1.1 Statistický model................... 5
1.2 Ilustrace na statistickém odhadu.......... 7
1.3 Statistický funkcionál ................ 8
1.4 Fisherovská konsistence odhadu........... 11
1.5 Vzdálenosti měr ................... 12
1.6 Diferencovatelné funkcionály ............ 15
1.7 Asymptotické rozdělení ............... 21
2 Charakteristiky robustnosti 25
2.1 Influenční funkce................... 25
2.1.1   Diskretizovaná forma influenční funkce . . . 27
2.2 Kvalitativní robustnost ............... 30
2.3 Kvantitativní charakteristiky............ 32
2.3.1 Charakteristiky založené na influenční
funkci..................... 32
2.3.2 Bod selhání.................. 34
2.3.3 Míra chvostů statistického odhadu..... 35
2.3.4 Rozptyl asymptoticky normálního rozdělení 43
3 Odhady reálného parametru 45
3.1 M-odhady....................... 46
3.1.1 Influenční funkce M-odhadu......... 47
3.1.2 Volba funkce i/> u M-odhadu parametru posunutí ..................... 53
3.1.3 Studentizované M-odhady.......... 56
3.2 L-odhady....................... 59
3.3 iž-odhady....................... 68
3.4 Asymptotické vlastnosti............... 72
3.4.1 M-odhady................... 74
3.4.2 L-odhady................... 76
3.4.3 iž-odhady................... 78
3.4.4 Asymptotické vztahy M-, L- a iž-odhadů . 79
3.4.5 Minimaximálně robustní odhady...... 84
4 Lineární model 91
4.1 Metoda nejmenších čtverců............. 93
4.2 M-odhady....................... 100
4.2.1 Asymptotické rozdělení M-odhadu
s nenáhodnou maticí............. 102
4.2.2 Influenční funkce M-odhadu s náhodnou maticí ....................... 103
4.2.3 GM-odhady.................. 106
4.3 L-odhady....................... 109
4.3.1   Regresní pořadové skóry........... 113
4.4 Robustní škálové statistiky ............. 115
4.5 Jednokrokové verze odhadů............. 119
4.6 Odhady s vysokým bodem selhání......... 120
4.7 Výpočetní algoritmy................. 123
v
2
Úvod
Jestliže zpracováváme data klasickými statistickými postupy, založenými na parametrických modelech, obvykle předpokládáme linearitu regrese, nezávislost pozorování, homoskedasticitu, a normální rozdělení chyb. Jak se snadno můžeme přesvědčit dnes, kdy pomocí počítačů můžeme snadno simulovat data z kteréhokoli rozdělení pravděpodobností a modelu, tyto předpoklady často nejsou splněny. Pak nás samozřejmě zajímají hlavně dvě otázky:
a) Do jaké míry jsou klasické statistické postupy použitelné, a za
jakých podmínek zachovávají svou optimalitu?
b) Existují jiné statistické postupy, které nejsou tak vázány na
splnění určitých podmínek?
Klasické statistické postupy mají typicky parametrický charakter: model je plně určen až na hodnoty několika parametrů, které nabývají reálných nebo vektorových hodnot. Často jsou to parametry rozdělení pravděpodobností náhodných chyb měření. Jakmile se nám podaří tyto parametry odhadnout nebo otestovat jejich obor, můžeme učinit víceméně jednoznačný závěr, plynoucí z našich dat, ovšem za platnosti modelu.
Často se setkáme s neparametrickými statistickými postupy, které jsou protipólem parametrických: jsou to takové postupy, které jsou nezávislé nebo málo závislé na tvaru základního rozdělení pravděpodobností a zachovávají si některé dobré vlastnosti pro co nejširší třídu distribučních funkcí, většinou těch, které mají hustotu, případně symetrickou. Diskrétní rozdělení pravděpodobností nás v tomto směru ani tolik netrápí; tvar takového rozdělení většinou poznáme už z povahy experimentu. Typickým představitelem neparametrických statistických postupů jsou pořadové testy statistických hypotéz, u kterých je rozdělení pravděpodobností testové statistiky za hypotézy (nulové rozdělení, tj. za H0) shodné za všech spojitých distribučních funkcí pozorování. U neparametrických postupů chápeme celou hustotu, případně celou regresní funkci jako neznámý parametr (nekonečné dimenze); tento parametr je buď rušivý, tj. naše závěry se ho přímo netýkají a pokud možno se vyhýbáme jeho odhadování, nebo naopak je středem našeho zájmu a hledáme postupy, jak tuto funkci odhadnout (odhady hustoty, odhady regresní funkce), nebo otestovat, do jaké třídy patří (testy dobré shody o tvaru rozdělení).
Naproti tomu robustní statistické postupy jsou takové, které si zachovávají určitou optimalitu v okolí nějakého základního rozdělení pravděpodobností, např. normálního. K robustním postupům vedlo zjištění, že i malé odchylky od normálního rozdělení mají značný vliv na kvalitu klasického odhadu metodou nejmenších čtverců, klasického f-testu a dalších klasických postupů. Robustní postupy lze pak chápat jako určitá vylepšení, modifikace klasických postupů, které neselžou při malých odchylkách od základních předpokladů. Robustní postupy jsou optimální v okolí daného rozdělení, vzhledem k určité vzdálenosti a k určitému kriteriu optima-lity. Jako takové jsou vydatnější než neparametrické postupy, které
1
3
4
svou funkčnost pro široký model platí určitou ztrátou vydatnosti. Mluvíme-li o robustních statistických postupech, většinou máme na mysli robustní statistické odhady; pokud používáme robustní testy, jsou to testy Waldova typu, založené na robustních odhadech, a tyto testy doporučujeme použít v situaci, kdy nemáme vhodný pořadový test pro danou hypotézu.
Během posledních dvaceti let se značně rozvinuly i semipara-metrické statistické postupy, které chápou hustotu rozdělení pravděpodobností, influenční funkci statistického odhadu nebo další funkci jako rušivý parametr, který obvykle nejprve odhadují, a pak hledají postup, vhodný pro tuto funkci.
V tomto výčtu nelze opominout adaptivní statistické postupy, které konvergují (skoro jistě nebo v pravděpodobnosti) k optimálnímu parametrickému odhadu nebo testu tak, že se s rostoucím počtem pozorování adaptují na příslušný parametrický model; jakkoli by tato situace byla ideální, konvergence je natolik pomalá, že optimality bychom dosáhli při nerealisticky velkém počtu pozorování. Existují také částečně adaptivní postupy, které se postupně blíží k rozhodnutí, nejlepšímu z předepsané konečné množiny možností.
Protože se adaptivní, neparametrické, robustní a semiparamet-rické metody rozvíjely postupně, hlavně od čtyřicátých let 20. století, není mezi nimi ostrá hranice, a jednotlivé pojmy, hlediska a cíle se vzájemně prolínají. I v této učebnici, zaměřené hlavně na robustní statistické postupy, se často dotkneme i ostatních postupů. Naším hlavním cílem je ukázat, jaké možné alternativy klasických statistických postupů můžeme použít, pokud si nejsme jisti naším modelem. Matematicky chápeme robustní postupy jako statistické funkcionály, definované na prostoru distribučních funkcí. Zajímá nás jejich chování v okolí určitého rozdělení pravděpodobností,
případně modelu, a toto okolí je definováno vzhledem k nějaké vzdálenosti. Proto musíme nejprve uvažovat možné vzdálenosti na prostoru distribučních funkcí a příslušné základní vlastnosti a charakteristiky statistických funkcionálů, jako je jejich spojitost a derivace. To je teoretickým základem robustních statistických postupů.
6
KAPITOLA 1. MATEMATICKÉ NÁSTROJE
Kapitola 1
Matematické nástroje robustnosti
1.1   Statistický model
Předpokládejme, že pokus vede k pozorováním X\,...,Xn. Klasický statistický model předpokládá, že vektor pozorování (Xi,...,Xn) může nabývat hodnot z výběrového prostom X se CT-algebrou podmnožin B, a pravděpodobnostní chování studovaných jevů popisuje rozdělení pravděpodobností P, definované na B. Rozdělení P patří do třídy P = {Pg, 8 6 0}, indexované parametrem 8 6 0 C W, kde p je přirozené číslo.
Trojice {X, B,Pg : 8 6 0} je (parametrický) statistický model. Ve většině případů je X podmnožinou Wxn, tedy náhodný pokus vede k n nezávislým p-rozměrným pozorováním.
V některých případech je charakter parametrického statistického modelu plně určen povahou experimentu: např. snadno poznáme binomické, multinomické, Poissonovo či hypergeometrické
rozdělení. Podobně, pravděpodobnostní chování doby čekání (na obsluhu apod.) obvykle charakterizujeme gama rozdělením.
Většina statistických postupů však byla odvozena za předpokladu, že pozorování pocházejí z normálního rozdělení. Tyto postupy jsou většinou algebraicky jednoduché, proto se automaticky používají ve všech situacích, kdy nosičem hustoty pozorování je celá přímka, a na předpoklad normality se jaksi "zapomíná". Např. odhad metodou nejmenších čtverců, jakkoli se zdá univerzální, je úzce spjat s normálním rozdělením chyb a selhává, pokud i jen část pozorování pochází z jiného rozdělení, jehož hustota má těžší chvosty než normální, nebo vyskytují-li se mezi daty odlehlá pozorování, která data kontaminují. O tom se můžeme přesvědčit nejen numericky, ale byly též dokázány přesvědčivé teoretické argumenty, založené na charakterizaci normálního rozdělení: např. Kagan, Linnik a Rao [49] dokázali, že odhad metodou nejmenších čtverců v lineárním regresním modelu je přípustný vzhledem ke kvadratické ztrátové funkci (tj. neexistuje jiný odhad se stejnoměrně menším kvadratickým rizikem) tehdy a jen tehdy, je-li rozdělení chyb normální.
Studentův í-test a Snedecorův f-test, podobně jako f-test lineární hypotézy, byly odvozeny za předpokladu normality; zatímco í-test je poměrně robustní k odchylkám od normálního rozdělení, F-test je k nim velice citlivý; nejsme-li si jisti normálním rozdělením, použijeme příslušných pořadových testů.
Jestliže si nejsme jisti parametrickou formou modelu, máme dvě možnosti:
a) Vzdáme se parametrizace Pg reálným nebo vektorovým parametrem 8 a nahradíme rodinu {Pg : 8 6 0} rozsáhlejší rodinou rozdělení pravděpodobností; tj. přijmeme neparametrický přístup.
5
1.2. ILUSTRACE NA STATISTICKÉM ODHADU
7
8
KAPITOLA 1. MATEMATICKÉ NÁSTROJE
b) Na prostoru {X, B} zavedeme vhodnou topologii, která nám umožní studovat stabilitu klasických postupů, optimálních za Pg, při malých odchylkách od Pg, tj. přijmeme robustní přístup.
1.2   Ilustrace na statistickém odhadu
Nechť Xi,..., Xn jsou nezávislá pozorování se stejným rozdělením pravděpodobností Pg, kde 8 je nepozorovatelný parametr, Í£0C W; nechť F(x, 8) je distribuční funkce, příslušná Pg.
Chceme-li odhadnout parametr 8, máme řadu možností, např.
(1) Metoda maximální věrohodnosti.
(2) Metoda momentů.
(3) Metoda x2~m^ma nebo metoda minimalizující jiný typ vzdálenosti.
(4) Metoda založená na postačujících statistikách (Rao-Black-wellova věta) a na úplných postačujících statistikách (Leh-mann-Scheffého věta). Připomeňme si, že vektor uspořádaných pozorování (vektor pořádkových statistik) Xn:1 < Xn:2 < ... < Xn:n je úplnou postačující statistikou pro systém rozdělení s hustotami níLi f(xi)> kde / je libovolná spojitá jednorozměrná hustota; v případě, že parametr 8 je reálný, to přirozeně vede ke třídě L-odhadů typu
ra
Tn = ^ * Cnih{Xn:i)
i=l
založených na pořádkových statistikách.
(5) Minimalizace určité (kriteriální) funkce pozorování a 8 : např. minimalizace
ra
^2p(Xi,8) :=min,    6*6 0,
i=l
kde p(-, •) je vhodná nekonstantní funkce, např. p(x, 0) = — log f(x, 0) vedoucí k maximálně věrohodnému odhadu. Tím se dostáváme ke třídě M-odhadů, tj. odhadů maximálně věrohodného typu.
(6) Inverzí pořadových testů o posunutí v poloze, o významnosti regrese aj. dostáváme třídu R-odhadů, založených na pořadích pozorování nebo jejich residuí.
V dalších kapitolách této knížky se seznámíme s M-, L- a R- odhady a s některými dalšími metodami.
1.3   Statistický funkcionál
Nechť X je náhodná veličina s rozdělením pravděpodobností Pg, kde Pg e V = {Pg : 8 6 0 C W}. Pak v mnoha případech lze 8 chápat jako funkcionál 8 = T(P) definovaný na V; můžeme též psát 8 = T(F), kde F je distribuční funkce příslušná P. Přirozeným odhadem 8, založeným na pozorováních X1:... ,Xn pak je T(Pn), kde Pn je empirické rozdělení pravděpodobností vektoru (Xu...,Xn),tj.
n
Pn(A)=^Y,^X*íA^    AeB> (L1) i=l
1.3. STATISTICKÝ FUNKCIONÁL
9
10
KAPITOLA 1. MATEMATICKÉ NÁSTROJE
tedy Pn je rovnoměrné rozdělení na množině ... i^Qi}, neboť Pn({Xi}) = i, i = 1,... ,n. Distribuční funkce příslušná Pn je empirická distribuční funkce
n
Fn(x) = P„((-oo,i]) = ± X^[X< <x],xeM. (1.2)
i=l
Příklad 1.1 (1) Střední hodnota:
T(P)   = JRxdP   = EX,
n
T(P„)   = JRxdPn   =X„ = i^Xi.
i=i
(2) Rozptyl:
T(P)   =  vax X = [ x2dP - {EX)2 Jr
T(Pn)   = hÍLX?-Žn-
i=l
(3) Jestliže T(P) = JM h(x)dP, kde /(je libovolná P-integrabilní funkce, pak empirickým protějškem T(P) je
T{Pn)=l-YJKXi).
i=l
(4) Obráceně, k danému statistickému odhadu můžeme nalézt příslušný statistický funkcionál: např. geometrický průměr pozorovaní X\,..., Xn je definován jako
n       ., T(Pn) = Gn=(j[X^
i=l
n
logG„ = ± VlogJQ = / logzdP„,
i=l JK
a tedy příslušný statistický funkcionál má tvar
T(P) = exp |y log zdP j.
Podobně harmonický průměr T(Pn) = Hn pozorování Xi,..., Xn je definován vztahem
_L = IV —
a jemu příslušný statistický funkcionál má tvar
^=*=(/. H_1-
Statistické funkcionály poprvé uvažoval von Mises [57].
Je žádoucí, aby T(P„) konvergovalo k T(P) při n -> oo vzhledem k nějaké konvergenci na prostoru pravděpodobnostních měr: většinou uvažujeme konvergenci v pravděpodobnosti, v distribuci, skoro jisté, ale často také limitu vychýlení odhadu T(Pn) od T(P), tj. lim^oo \E[T(Pn) — T(P)]|. Abychom mohli studovat chování
1.4. FISHEROVSKÁ KONSISTENCE ODHADU
11
12
KAPITOLA 1. MATEMATICKÉ NÁSTROJE
odhadu T(Pn) v okolí P, uvažujeme rozvoj funkcionálu (T(Pn) — T(P)) Taylorova typu; k tomu potřebujeme některé další pojmy z funkcionální analýzy, jako různé vzdálenosti mezi Pn a P, vzájemné vztahy těchto vzdáleností, a spojitost a diferencovatelnost funkcionálu T vzhledem k příslušné vzdálenosti.
1.4   Fisherovská konsistence odhadu
Přirozeným požadavkem, který by měl splňovat statistický odhad, je fisherovská konsistence, zavedená v r. 1921 R. A. Fisherem: Odhad dn založený na pozorováních X\..., Xn s rozdělením pravděpodobností P je físherovsky konsistentním odhadem parametru 8, jestliže, píšeme-li jej jako funkcionál 8n = T(Pn) empirického rozdělení pravděpodobností vektoru (X\,..., Xn), n = 1,..., pak platí T(P) = 6. Tato podmínka není vždy automaticky splněna, jak je vidět na následujícím příkladě:
Příklad 1.2 Nechť 6 = var X = T(P) = JKx2dP - {JKxdP)2 je rozptyl P. Pak výběrový rozptyl §n = T(Pn) = I J2ti(xi ~xn)2 je físherovsky konsistentním, ale vychýleným odhadem 8. Naproti tomu nevychýlený (nestranný) odhad rozptylu S% = ^rj- YIa=i(xí~ Xn)2 není físherovsky konsistentním odhadem 6, neboť
S2n = ^T(Pn) a -n-jTWrTiP).
Fisherovská konsistence je přirozená vlastnost odhadu a z hlediska robustnosti je důležitější než jeho nevychýlenost (nestrannosť); proto u každého statistického funkcionálu nejprve ověřujeme jeho físherovskou konsistenci.
1.5   Některé vzdálenosti pravděpodobnostních měr
Nechť X je metrický prostor, úplný a separabilní s metrikou d, a nechť B je c-algebra borelovských podmnožin X. Nechť V je systém všech pravděpodobnostních měr na (X,B); pak V je konvexní množina, na které můžeme zavést různé typy vzdáleností dvou prvků P,Q 6 V. Popíšeme stručně některé z těchto vzdáleností, které se v matematické statistice nejčastěji užívají; čtenáře, který se chce podrobněji seznámit s dalšími vzdálenostmi a vůbec s touto problematikou, odkazujeme na literaturu z funkcionální analýzy a teorie pravděpodobnosti, např. [9].
(1) Prochorovova vzdálenost:
dp(P, Q)   =  inf{£ > 0 : P(A) < Q{Ae) + e ~iAeB,A^%},
kde Ac = {x 6 X : vaíy£A d(x, y) < e} je uzavřené e-okolí neprázdné množiny A.
(2) Lévyho vzdálenost: Nechť X = R je reálná přímka a nechť f, G jsou distribuční funkce pravděpodobnostních měr P, Q. Pak
dL(F,G)   =  inf{£ > 0 : F (x - e) - e
< G(x) < F(x + e) + éix e R}.
(3) Úplná variace:
dv(P,Q) = sup|P(A) -Q(A)\. AeB
Jak snadno ověříme, platí dy(P, Q) = Jx \dP — dQ\.
1.5. vzdálenosti měr
13
14
kapitola 1. matematické nástroje
(4) Kolmogorovova vzdálenost: Nechť x = R je reálná přímka a nechť -F, G jsou distribuční funkce pravděpodobnostních měr p, q. Pak
dK(F,G) = suv\F(x) - G(x)\.
(5) Hellingerova vzdálenost:
h(p, q)=[vďp - vďo)2}
1/2
Jestliže / = ^ a g = ^ jsou hustoty p, q vzhledem k nějaké míře /i, pak lze Hellingerovu vzdálenost psát ve tvaru
h2(p,q) =    (v7- v/š)24» = 2 (i- Jxy/Mt) ■
(6) Lipschitzovská vzdálenost: Předpokládejme, že y) < 1 Va;, y € x (jinak vezměme metriku
* = :&). pak "
<M-P,Q) = sup / Vd-P" í
kde £ = {* : A" i-> R : -        < d(x, y)} je množina
lipschitzovských funkcí.
Vztahy mezi jednotlivými vzdálenostmi
Množina v všech pravděpodobnostních měr na (x, b) je metrickým prostorem vzhledem ke každé z výše popsaných vzdáleností, na kterém pak můžeme studovat spojitost a další vlastnosti statistického funkcionálu t(p). Protože nás zajímá chování funkcionálu
v okolí nějakého rozdělení P, zajímá nás také, která vzdálenost jemněji reaguje na malé odchylky od P.
Následující nerovnosti mezi jednotlivými vzdálenostmi pravděpodobnostních měr ukazují nejen případnou dominanci jedné vzdálenosti nad druhou, ale i jejich vzájemné vztahy. Ověření těchto nerovností ponecháváme jako cvičení:
H2(P, Q)   < 2dv(P, Q)   < 2H(P, Q),
dp(P,Q)   <d2Li(P,Q)   <2dP(P,Q) yP,QeV;
jestliže x = R, pak dále platí:
dL(P,Q)   <dP{P,Q) <dv{PQ),
dL(P,Q) <dK{P,Q) <dv{PQ) VPQeV-
Příklad 1.3 Nechť P je exponenciální rozdělení s hustotou
/<*) = { f
a Q je rovnoměrné rozdělení fl(0,1) s hustotou
x > 0 x < 0
9(*) = { l
Pak 2dv{P,i
■f
Jo
1 - e x) dx +
0 < z < 1 jinak.
L ^
dx = l + í-l + -
a tedy dv(exp, R(0,1) ss 0.3679. Dále platí
dx(P,Q)   =  sup 11 - e-x - xl[0 < x < 1] - I[x > 1] =  e'1 a 0.1839
1.6. DIFERENCOVATELNÉ FUNKCIONÁLY
15
16
KAPITOLA 1. MATEMATICKÉ NÁSTROJE
a    iř2(exp, R(0,1)) = 2 ^1 - J V<F*dx^ = 2 ^= - ij , tedy iř(exp, R(0,1)) ss 0.6528.
1.6   Diferencovatelné statistické funkcionály
Nechť V je množina všech rozdělení pravděpodobností na prostoru s mírou (X,B, /j), kde X je úplný separabilní metrický prostor s metrikou d a S je systém borelovských podmnožin X. Zvolme pevně vzdálenost ô na V. Nechť T(-) je statistický funkcionál na V. Abychom mohli uvažovat rozvoj statistického funkcionálu T(-) kolem rozdělení P, podobný Taylorovu rozvoji, musíme zavést pojem derivace funkcionálu. Zavedeme hned tři různé verze derivace statistického funkcionálu: Gäteauxovu, Fréchetovu a Hadamardovu a porovnáme jejich výhodné i nevýhodné vlastnosti ze statistického hlediska.
Definice 1.1 Nechť P, Q 6 V a nechť t 6 [0,1]. Rozdělení prav-
Pt(Q) = (l-t)P + tQ (1.3) nazýváme kontaminací P rozdělením Q v poměru t.
Poznámka 1.1 Protože V je konvexní, je Pt(Q) skutečně rozdělením pravděpodobností; Po(Q) = P znamená nepřítomnost kontaminace a Pi (Q) = Q úplnou kontaminaci.
Gáteauxova derivace
Zvolme pevně P, Q 6 V a označme <p(t) = T((l - t)P + tQ), 0 < í < 1. Předpokládejme, že funkce <p(í) má konečnou ra-tou derivaci
ipí1*' a že pro k = 1,..., n — 1 jsou derivace tpW spojité v intervalu (0,1) a derivace zprava ip^ jsou zprava spojité v bodě í = 0. Pak pro 0 < u < t < 1 můžeme uvažovat Taylorův rozvoj
<p{t) = ¥>(«)+£ ^(M'+^M", « 6 [«.*]■ (1-4)
fc=i
Nás však nejvíce zajímá rozvoj v pravostranném okolí bodu u = 0, který odpovídá malé kontaminaci rozdělení P. V tom případě nahradíme derivace <p^(0) pravostrannými derivacemi <p^'(0). Derivace <p'+ (0) se nazývá Gáteauxovou derivací funkcionálu T podle P ve směru Q.
Definice 1.2 Řekneme, že funkcionál T je diferencovatelný v Gá-teauxově smyslu podle P ve směru Q, jestliže existuje limita
■ lim
T(P + t(Q-P))-T(P)
(1.5)
Tq(P) se nazývá Gáteauxovou derivací T podle P ve směru Q. Poznámka 1.2
a) Gáteauxova derivace Tq(P) funkcionálu T je rovna obyčejné derivaci zprava funkce <p v bodě 0, tj.
l£(P) = <p'(0+). 6) Podobně je definována Gáteauxova derivace řádu k :
^T{P + t{Q-p))
<pW(0+).
1.6. DIFERENCOVATELNĚ FUNKCIONÁLY
17
18
KAPITOLA 1. MATEMATICKÉ NÁSTROJE
c)   Ve speciálním případě Q = ôx (Límcová pravděpodobnost v bodě x, rozdělení degenerované v bodě x) budeme používat šího značení T's (P) = T'X(P).
- O dává
Taylorův rozvoj (1.4) ve speciálním případě í = 1,
T(P + t(Q-p))
n-1 rp^(p\ i
nQ)-T(P) = Y,Jlir1+-<
k=l
kde 0 < í* < 1.
Příklad 1.4 (a) Střední hodnota
T(P) = [ xdP = EPX Jx
<p(t)= [ xd{{l-t)P + tQ) = {l-t)EpX + mQX Jx
=>• <p'(t) = EQX - EpX T'Q{P) = <p'(0+) = EQX - EPX.
Pro Q = SxjeT!e = x- EPX. (b) Rozptyl
T(P) = vaxpX = EP(X2) - (EpX)2
T((l - t)P + tQ) = [ x2d((l - t)P + tQ) Jx
(1.6)
/ XI
Jx
d((l-t)P + i
=>• ip{t) = (1 - ť)EPX2 + tEQX2 - (1 - tf(EpXf -ŕ (EQX)2 - 2í(l - t)EPX ■ EQX ip'(t) = -EPX2 + EQX2 +2(1 - í) (EpX)2 - 2í (EQX)2 -2(1 - 2t)EPX ■ EQX. Odtud plyne
lun <p'(t)=Tl3(P)
= EQX2 - EpX2 - 2EPX ■ EQX + 2 (EPX)2 a pro Q = &x nakonec dostáváme
T'X(P) =x2- EpX2 - 2xEPX + 2 (EPX)2 = (x- EpX)2 - varpX
Fréchetova derivace
Definice 1.3 Řekneme, že funkcionál T je diferencovatelný podle P ve Fréchetově smyslu, jestliže existuje lineární funkcionál Lp(Q— P) tak, že stejnoměrně pro Q e V, ô(P, Q) < C pro libovolné pevné C 6 (0, oo)
^T(P + t(Q-P))-T(P)^Lp{{Q_p)) (l7)
Lineární funkcionál Lp(Q — P) nazýváme Fréchetovou derivací funkcionálu T podle P ve směru Q.
1.6. DIFERENCOVATELNĚ FUNKCIONÁLY
19
20
KAPITOLA 1. MATEMATICKÉ NÁSTROJE
Poznámka 1.3
a)  Protože Lp je lineární funkcionál, existuje funkce g : X i-> ] taková, že
LP(Q - P)
-- f gd(Q - P). Jx
(1.8)
b) Jestliže je T diferencovatelné ve Fréchetově smyslu, je diferen-
covatelné i v Gáteauxově smyslu, tj. existuje Tq(P) VQ 6 V, a platí
T^P) = LP(Q - P)   VQeP. (1.9)
Speciálně,
TX(P) = LP(6X -P)= g(x) - i gdP (1.10) Jx
a odtud dále plyne
Bp(T'x(P))= í T'x(P)dP = 0. (1.11) Jx
c) Nechť Pn je empirické rozdělení pravděpodobností vektoru (*!..., Xn). PakPn-P=± Eti ~P),a tedy, protože Lp je lineární funkcionál,
n
Lp(Pn-P)=l-Y,LP ÍSjc-P) «=i
Důkaz (1.9):
Skutečně, podle (1.7), protože Lp(-) je lineární funkcionál,
T,(P)=Umr(P + *(Q-P))-T(P)
= ]imnp+t(Q-p))-T(p)_
+LP(Q-P) = 0 + LP(Q-P) = LP(Q-P). ■
Hadamardova (kompaktní) derivace
Jestliže existuje lineární funkcionál L(Q — P) takový, že konvergence (1.7) je stejnoměrná nikoli nutně pro ohraničené množiny metrického prostoru (V, ô), pokrývající P, tj. pro všechna Q taková, že <5(P, Q) < C, 0 < C < oo, ale pouze pro Q patřící do libovolné pevné kompaktní množiny Kc? pokrývající P, pak říkáme, že funkcionál T je diferencovatelný v Hadamardově smyslu a funkcionál L (Q—P) nazýváme Hadamardovou (kompaktní) derivací T. Funkcionál, diferencovatelný ve Fréchetově smyslu, je zřejmě diferencovatelný i v Hadamardově smyslu, a z diferencovatelnosti v Hadamardově smyslu dále plyne diferencovatelnost v Gáteauxově smyslu podobným způsobem jako v Poznámce 1.3. Čtenáři, kterého zajímají vlastnosti diferencovatelnosti různých statistických funkcionářů, doporučujeme knížku [23].
Fréchetova diferencovatelnost klade dost omezující podmínky na funkcionál a ne každý robustní funkcionál je splňuje. Na druhé straně, je-li funkcionál fréchetovsky diferencovatelný, pak snadno odvodíme asymptotické (normální) rozdělení pravděpodobností jeho
1. T. ASYMPTOTICKÉ ROZDELENÍ
21
22
KAPITOLA 1. MATEMATICKÉ NÁSTROJE
empirického protějšku, pro počet pozorovaní rostoucí n nade všechny meze. Asymptotickou normalitu často odvodíme i pomocí Ha-damardovy derivace, není-li funkcionál dostatečně "hladký". Pokud chceme pouze dokázat, že T(Pn) je konsistentním odhadem T(P), vystačíme jen se spojitostí funkcionálu. Gáteauxova derivace T^.(P), zvaná influenční funkcí funkcionálu T, je jednou z nej důležitějších charakteristik robustnosti funkcionálu. Influenční funkcí se budeme zabývat ve 2. kapitole.
1.7   Asymptotické rozdělení empirického funkcionálu
Uvažujme opět metrický prostor (V, S) všech rozdělení pravděpodobností na (X, B) s metrikou ô takovou, že
^fiS(Pn,P) = Op(í)    při n-> oo, (1.13)
kde Pn je empirické rozdělení pravděpodobností, příslušné náhodnému výběru (X\,Xn), n = 1,2,____Poznamenejme, že (1.13)
je splněno např. pro Kolmogorovovu vzdálenost empirické distribuční funkce od skutečné, což má pro statistické aplikace největší význam, ale platí to i pro další vzdálenosti
Ukážeme, že fréchetovská diferencovatelnost spolu s klasickou formou centrální limitní věty dávají asymptotické rozdělení pravděpodobností empirického funkcionálu T(Pn).
Věta 1.1 Nechť T je statistický funkcionál, fréchetovsky diferencovatelný podle P a předpokládejme, že empirické rozdělení Pn náhodného výběru (X\,Xn) splňuje podmínku (1-13) při n—>oo. Jestliže Gáteauxova derivace T'Xl (P) má kladný rozptyl,
vaxpTXi(P) > O, pak posloupnost \Jň(T(Pn)—T(P)) má asymptoticky normální rozdělení při n —¥ oo, neboli
£(T(Pn)-T(P)) —>^(0,varP2Í1(P)). (1.14)
Důkaz. Podle (1.12) jeT'Pn{P) = I Yh=iTXi(p)- DálePodle (L6) a podmínky (1.13) dostáváme
MT(Pn) ~ T(P)) = ±=J2T'Xi(P) + Rn
Vn i=i
= lflP(Pn-P) + VS<,(J(P„,F)) (1.15)
= ^Í2T'xi(P) + oP(l).
Jestliže společný rozptyl varpT^-. (P) = varpTjfi (P), i = 1,..., n, je konečný, pak (1.14) plyne z (1.15) a z klasické centrální limitní věty. ■
Příklad 1.5 Nechť T(P) = vaxPX = a2. Pak
ra
T(Pn) = Sl=l-Y,(Xi-Xnf
i=l
a podle příkladu 1.4 b)
T^(P) = (x - EpXf - varpJsľ,
tedy
varpT^(P) = EP(X - EPX)A - E2P(X - EPX)2 =/j,4-lA
1. T. ASYMPTOTICKÉ ROZDELENÍ
23
a podle Věty 1.1 dostáváme asymptotické rozdělení výběrového rozptylu
c(MSl-°2)) —^(0,^4-^).
24
KAPITOLA 1. MATEMATICKÉ NÁSTROJE
Kapitola 2
Základní charakteristiky robustnosti
2.1   Influenční funkce
Vraťme se k rozvoji (1.15) rozdílu T(Pn) — T (P), podle kterého
T(Pn) -T(P) = iJ2T'Xi(P) + n-^Rn, (2.1) «=i
kde n^^Rn = ov{n-xl2). Pak ^Ya=1T'x.(P) můžeme chápat jako chybu odhadu T(P) pomocí T(Pn) a T'x. (P) můžeme chápat jako příspěvek Xt k této chybě, neboli jako vliv Xt na tuto chybu. To nás intuitivně vede k výkladu Gáteauxovy derivace TX(P), x 6 X jako influenční funkce funkcionálu T(P).
Definice 2.1 Influenční funkcí funkcionálu T v rozdělení pravděpodobností P nazveme Gáteauxovu derivaci T podle P ve směru
26 KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI Sx, x 6 X, tj.
IF(x;T,P)=T^P) = lim^0+T(Pt(Sx))t~T(P) (2.2) kde Pt(Sx) = (l-t)P + tSx. Vlastnosti IF:
a) EP(IF(x;T,P)) = JxT^(P)dP = 0,
tedy průměrný vliv na chybu odhadování přes všechny body x je roven nule.
b) Jestliže T je fréchetovsky diferencovatelný, je splněna podmínka (1.13) a
varP(/P (x;T,P)) = EP{IF{x;T,P)f > 0, pak (yE(T(Pn) - T(P)) —>jV(o,varp(/P(a;;T,P))).
Příklad 2.1 (a) Střední hodnota:    T(P) = EP(X) = mP. Pak T(Pn) = Xn,
IF(x; T, P) =T'x(P)=x- mp, EP(IF(x;T,P)) =0, varp(7P(o;; T, P)) = varpJsľ = ap, EQ(IF(x;T,P))=mQ-mP    pro Q^P, c(yE(Xn - mp)) —> 7V(0, ap)
25
2.1. influenCnI funkce
27
28       kapitola 2. charakteristiky robustnosti
pokud P je skutečné rozdělení pravděpodobností náhodného vý-beru (Xu...,Xn).
(b) Rozptyl:    T(P) = varPJsľ = op. Pak IF(x;T, P) = (x- mpf - o2P, EP(IF(x;T,P)) = 0, varp(7P(a;; T, P)) = /j4 -    = m - op EQ(IF(x;T, P)) = EQ(X - mvf - o2P = Oq + (m.q - mp)2 + 2Eq(X - mq)(mq - mP) -op = Oq- ap + (m.q - mp)2.
2.1.1   Diskretizovaná forma influenční funkce
Označme Tn = T(Pn) = Tn(X\.....Xn) empirický funkcionál odpovídající vektoru pozorování (Xi,..., Xn). Přidejme k pozorováním Xi,..., Xn další pozorování Y. Pak vliv Y na Tn charakterizujeme rozdílem
Tn+1{Xu ...,Xn,Y)- Tn(Xi, ...,Xn):= I(Tn,Y). (2.3)
Protože
i=l
n + 1        n + 1
f 1 " -^t) Pn + -^TÍy, V     n+l J        n + 1
můžeme říci, že P„+i vzniklo z P„ kontaminací degenerovaným rozdělením Sy v poměru ^jrj-, a tedy
i1    n + l)
Pr. + —-ríy n + l
-TO-
i(Tn,y)=T Protože
lim(n + l)/(T„,y) (2.4)
= T[(1-H+T)Pn + ^]-ľ(Pn)
n->oo —!—
= if{y;T,p),
můžeme chápat (n + l)/(T„,y) jako diskretizovanou verzi influenční funkce. Supremum \i(Tn, y)\ přes y představuje míru citlivosti empirického funkcionára T„, při pevných X\,... ,Xn, ke přidání dalšího pozorování.
Definice 2.2 Citlivostí funkcionáluTn(Xi,... ,Xn) k přidání dalšího pozorování při daných X\,..., Xn nazýváme číslo
5'(Tn) = sup|J(Tn(A-1, y
,xn),y)\.
(2.5)
Příklad 2.2 (a) Střední hodnota:
T(p) = EPX,   Tn = Xn, Tn+1
2.1. influenCnI funkce
29
30       kapitola 2. charakteristiky robustnosti
tn+i = —^—(nXn + y) n+l
i(tn, y) = (-2- -l)xn + -^—y \n + l     j n+l
1
n+l
(Y-Xn)
(n + í)i(Tn,y) = y -X, 1
■ y - EPX
■ S(Xn) :
supiy-x,,! = oo,
ra+ 1 y
tedy výběrový průměr má nekonečnou citlivost k přidání dalšího
pozorování.
(b) Medián:
Nechť n = 2m + 1 a nechť X^ < ... < Xi uspořádaná podle velikosti. Pak tn = tn (X\
l(m+l)
V(n) jsou pozorovaní a tn+i = T„+i (X\..., Xn, y) nabývá následujících hod-
not v závislosti na poloze y vzhledem k ostatním pozorováním:
Xím)+Xím+l) 2
X(m+l)+X(m+2) 2
y+*(„»+D
y < X,
(m)
y > X,
Hm)
(m+2) <y< X,
(m+2)
a odtud odvodíme míru vlivu přidání y k pozorováním X\
i(Tn,y):
*(m+2) -^(m+1)
y < X,
(m)
y > X,
y-xím+l)
Hm)
(m+2) <y < X,
(m+2) •
Protože \\(y — -X(m+i))| je nejmenší ze tří možných hodnot |7(T„,y)|, dostáváme hodnotu citlivosti mediánu ke přidání dalšího pozorování
S(Tn) = max {i(Jř(m+1) - X(m)), ^(X(m+2) - Jř(m+1))} ;
tato hodnota je konečná při libovolných pevných hodnotách -^li • • • i-^n-
2.2   Kvalitativní robustnost
Na příkladu 2.1 jsme viděli, že infiuenční funkce průměru a rozptylu jsou neohraničené a mohou nabýt libovolně velkých hodnot. Rovněž příklad 2.2 ukazuje, že přidání dalšího pozorování může způsobit selhání výběrového průměru. Podobné chování pozorujeme na odhadu metodou nejmenších čtverců (a vlastně průměr je speciálním případem odhadu metodou nejmenších čtverců); připomeňme si větu Kagana, Linnika a Rao, citovanou v paragrafu 1.1, podle které je odhad metodou nejmenších čtverců velice citlivý k odchylkám od normálního rozdělení chyb. Odtud intuitivně usuzujeme, že odhad metodou nejmenších čtverců (a průměr) je velmi nerobustní. Jak však matematicky definovat robustnost? Definice robustnosti není zcela jednoznačná, protože historicky se tento pojem vyvíjel po mnoho let a problémy citlivosti statistických postupů k odchylkám od daných podmínek uvažovalo mnoho statistiků v průběhu dlouhého období a z různých hledisek.
Je zajímavé, že prvně si uvědomili citlivost průměru a rozptylu k odlehlým pozorováním astronomové a fyzikové, kteří se snažili určit hodnoty různých fyzikálních, geofyzikálních a astronomických konstant jakožto průměru několika měření. Tato část historie je velmi zajímavá a poučná a je poutavě popsána ve Stiglerově
2.2. KVALITATIVNÍ ROBUSTNOST
31
32       KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI
knize [70]. R. J. Boskovic [12] již v roce 1757 navrhl alternativní metodu k nejmenším čtvercům při vyhodnocování svých pokusů spějících k charakterizování tvaru zeměkoule. E. S. Pearson [58] již v r. 1931 pozoroval citlivost klasických metod analýzy rozptylu k odchylkám od normálního rozdělení. J. W. Tukey a jeho princeton-ská skupina začali se systematickým studiem různých alternativ k metodě nejmenších čtverců od 40. let 20. století. Označení "robustní" poprvé použil Box [13] v r. 1953. Box a Anderson [14] v r. 1955 argumentovali tím, že dobrý statistický postup má být málo citlivý ke změnám parametrů, které jsou pro něj rušivé nebo se ho netýkají, ale má být vydatný, tj. citlivý ke změnám parametrů, které jsou středem jeho zájmu.
Ve většině případů uvažujeme robustnost statistického postupu vzhledem k odchylkám od předpokládaného rozdělení chyb. Jsou však i jiné důležité typy robustnosti, např. k odchylkám od předpokladu nezávislosti pozorování. Hampel [29], [30] uvažoval pojem robustnosti statistického funkcionálu, založený na jeho spojitosti v okolí daného rozdělení pravděpodobností Pq e V vzhledem k Prochorovově metrice na prostoru V.
Nechť náhodná veličina [vektor] X nabývá hodnot ve výběrovém prostoru (X,B) a (X\,..., Xn) je vektor nezávislých realizací X nabývající hodnot v součinovém prostoru (X, B)*n. Nechť Tn = Tn(X\,... ,Xn) je posloupnost statistik (empirických funkcionálu), T„ : (X,B)®n i-> (Tn,An). Nechť V je systém všech rozdělení pravděpodobností na S s Prochorovovou metrikou dp.
Definice 2.3 Řekneme, že posloupnost statistik {Tn} je (kvalitativně) robustní pro rozdělení pravděpodobností P, jestliže k libovolnému £ > 0 existuje ô > 0 a přirozené číslo ng tak, pro všechna
Q 6 V a n > ng,
dP(P, Q) < S =>■ dP (CP(Tn), CQ(Tn)) < e, (2.6) kde Cp(Tn) je rozdělení Tn za P a Cq(Tn) je rozdělení Tn za Q.
Takto chápanou robustnost nazýváme kvalitativní , protože pouze říká, jestli funkcionál je nebo není robustní, a tuto charakteristiku nijak neměří. Je to také robustnost infinitesimální, protože uvažuje chování funkcionálu v okolí Po- Samozřejmě podobně můžeme uvažovat spojitost i vzhledem k jiné metrice na V, např. k Lévyho metrice.
Protože chceme srovnávat funkcionály mezi sebou z hlediska robustnosti, snažíme se robustnost nějakým způsobem kvantifikovat, tj. charakterizovat ji nějakým číslem. Jak ukážeme, takových možných kvantifikací je celá řada; náhrada složitějšího pojmu jedním číslem je však většinou jednostranná a zjednodušující.
2.3   Kvantitativní charakteristiky robustnosti
2.3.1   Charakteristiky založené na influenční funkci
Influenční funkce je jednou z nejdůležitějších charakteristik statistického funkcionálu/odhadu. Hodnota IF(x; T, P) měří vliv kontaminace funkcionálu T hodnotou x, a tedy má-li být T robustní, měl by mít ohraničenou influenční funkci. Ohraničenost influenční funkce však neplyne ze spojitosti funkcionálu, tj. z jeho kvalitativní robustnosti ; např. odhad parametru polohy nebo posunutí,
2.3. KVANTITATIVNÍ CHARAKTERISTIKY
33
34       KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI
vzniklý inverzí van der Waerdenova pořadového testu, má neohraničenou influenční funkci, zatímco je globálně robustní.
Nejužívanějšími číselnými charakteristikami funkcionálu T, založenými na influenční funkci, jsou jeho globální a lokální citlivost:
a) Globální citlivostí funkcionálu T pro rozdělení pravděpodobností P nazýváme maximální hodnotu influenční funkce, příslušnou argumentu P, tj.
-y* = sup \IF(x;T,P)\.
x£X
(2.7)
b) Lokální citlivostí funkcionálu T pro rozdělení pravděpodobností P nazýváme hodnotu
sup
x,y; x^y
IF(y;T,P)-IF(x;T,P)
y-x
(2.8)
která zobrazuje vliv nahrazení hodnoty x hodnotou y na funkcionál T.
Rozdíl mezi globální a lokální citlivostí je dobře vidět na následujícím příkladě.
Příklad 2.3 (a) Průměr
T(P) = EP{X), IF(x; T,P)=x- EPX 7* = 00, A* = 1; tedy průměr není robustní, ale není citlivý k lokálnímu nahrazování hodnot.
(b) Rozptyl
T(P) = vwpX = a2P,
IF(x; T, P) = (x- EP{X)f - a2P,
\* = sup
y=£x
■ sup
(x-EP(X))2-(y-Ep(X)f
x-y
x-y
= sup\x + y-2EPX\ = 00,
a tedy rozptyl není robustní ani k velkým, ani k lokálním odchylkám.
2.3.2   Bod selhání
Velmi často používanou charakteristikou robustnosti odhadu je jeho bod selhání, navržený Donoho a Huberem [20] v r. 1983. Uvažujme náhodný výběr x° = (xi,..., xn) a jemu příslušnou hodnotu T„(x°) odhadu funkcionálu T. V tomto "počátečním" výběru nahradíme m jakýchkoli složek libovolnými hodnotami; představme si co nej nepříznivější nahrazení co nejnepříznivějšími hodnotami, případně nekonečnými. Označme x(m) nový výběr vzniklý po takovém nahrazení a T„(xm) příslušnou hodnotu odhadu.
Pak bodem selhání odhadu Tn ve výběru x'0' nazýváme číslo
m*(x(°))
kde m*(x(0') je nejmenší celé číslo m, pro které si*||TB(x<m>)-TB(x<°>)|| = oo,
tj. nejmenší podíl pozorování, který po nahrazení libovolnými hodnotami může přivést Tn k nekonečným hodnotám. Bod selhání některých odhadů je univerzální v tom smyslu, že m* nezávisí na
2.3. KVANTITATIVNÍ CHARAKTERISTIKY
35
36       KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI
počátečním výběru x'0'. V takovém případě můžeme stanovit limitu £* = lim,,^^ £*, která se také někdy nazývá bodem selhání.
Modifikaci bodu selhání dostaneme, jestliže místo nahrazení m složek přidáme k původnímu výběru m nepříznivých hodnot.
Příklad 2.4 (a) Průměr Xn = ± Ya=\ Xi :
£* (Xn, x'0') = i pro libovolný počáteční výběr x'0', a tedy
limn-í £* (Xn, x'0') = 0 pro libovolný počáteční výběr x'0'.
(b) Medián Xn = X^n±i^ (pro jednoduchost uvažujeme liché n):
£*(X„,x(0') =      pro libovolný počáteční výběr x'0', a tedy lim,,^ £* (Xn, x'0') = i pro libovolný počáteční výběr x'0'.
2.3.3   Míra chvostů statistického odhadu
Tato míra se uplatňuje zejména při posuzování odhadů parametrů posunutí a regrese, kde je v překvapivé shodě s intuicí; zde ji budeme ilustrovat na parametru posunutí a později se vrátíme k regresi. Uvažujme model, ve kterém (X1:... ,Xn) je náhodný výběr z rozdělení pravděpodobností se spojitou distribuční funkcí F(x — 8), 8 E Ji, a chceme odhadnout parametr 8. V takovém modelu je přirozené omezit se na odhady Tn ekvivariantní vzhledem k posunutí, tj. splňující
Tn(X1+c,...,Xn + c) = Tn(X1. Vceiža VJsľi...,^.
Chování odhadu Tn parametru 8 můžeme charakterizovat pomocí průběhu pravděpodobnosti P$(\Tn — 8\ > a), buď při pevném
a > 0 a n —¥ oo, nebo při pevném nao->oo. Skutečně, jestliže {Tn} je konsistentním odhadem 8, pak pro libovolné pevné a > 0 platí lim^oP$(\Tn — 8\ > a) = 0. Někteří autoři, např. Bahadur [4], Fu [25] a Sievers [67] uvažovali jako míru vydatnosti odhadu Tn limitu
lim
ra->oo
|-ilogP9(|T„ - 6»| > a) j    při pevném a > 0
(pokud tato limita existuje), a porovnávali odhady z hlediska této vydatnosti.
Od dobrého odhadu Tn = Tn(Xi,..., Xn) také očekáváme, že
lim Pe(\Tn
>a) = 0
při pevném n, a že tato konvergence je co nejrychlejší vzhledem k a —¥ oo. Pravděpodobnosti Pg(Tn — 8>a) nebo Pg(Tn — 8 < —a) při velkých a > 0 nazýváme pravým, resp. levým chvostem rozdělení pravděpodobností Tn. V případě symetrického rozdělení charakterizujeme chvosty pravděpodobností Pg(\Tn — 8\ > a) = Po(\Tn\ > a). Lze tedy říci, že zajímavé jsou odhady s co nej-rychlejšími chvosty; existuje však horní hranice rychlosti chvostů ekvivariantního odhadu T„, a ta je dána hodnotami 1 — F(a) a F(—a), při velkých a > 0.
Pro jednoduchost uvažujme symetrickou distribuční funkci, tj. předpokládejme, že F(—x) = l — F(x)   Vx 6 R. Jureč-ková [43] navrhla následující míru chování chvostů ekvivariantního odhadu Tn (viz [43]):
-log Pg(\Tn-8\>a)
B(Tn;a):
-log (l-F(o))
-log Po(\Tn\>a) -log (l-F(o)) '
a > 0.
(2.9)
2.3. KVANTITATIVNÍ CHARAKTERISTIKY
37
38       KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI
Hodnota B(Tn;a) udává, kolikrát rychleji konverguje pravděpodobnost
-Fb(|2nl > o) k 0 při a -> oo než 1 — F(a), a tedy zajímavý je odhad Tn s co největšími hodnotami B(Tn;a) při a 3> 0. Snadno ověříme následující lemma:
Lemma 2.1 Necht Xi,..., Xn je náhodný výběr z populace s distribuční funkcí F (x-d), 0 < F(x) < l,F(-x) = l-F(rc), x,6 6 R. Necht Tn je ekvivariantní odhad 6 takový, že pro libovolné pevné n platí
min Xi > 0 Ki<n
max Xi < 0
Ki<n
Tn(Xu Tn(Xu
,Xn)>0 ,Xn)<0.
Pak, pro libovolné pevné n,
1 < Hma^~B(T„; a) < Hm^^SÍT,,; a) < n.
Důkaz. Skutečně, pro ekvivariantní odhad Tn platí P0(\Tn(Xl,...,Xn)\>a) = P0(Tn(Xu...,Xn)>a) +P0(Tn(Xu...,Xn)<-a) = Po{Tn(X1 -a,...,Xn-a)>0) +P0(Tn(X1 +a,...,Xn + a) <0)
> Po ( min X,> a) + Po \ max X, < —a)
~      \l<i<n j \l<i<n j
(2.10)
(2.11)
a tedy
= 2-"+1 [Podlil > a)]",
-logPodT,,^!,...,^)! >o) < - log 2 - ri log(l -F(a))
^-      -logP0(|Tn| >o) ^ -tog(l-F(o))
< n.
Podobně,
a tedy
fj,(|T„(A-i,...,Xn)\ > a) < P0 ( min X, < -a]
\l<i<n /
+P0 f max Xi > a] = 2{l - [1 - iP„(|Xi| > a)]"} \l<i<n y
= 2 {1-(*■(»))»}
= 2(l-F(a))[l + F(a) + ... + (F(a)r-1] < 2n(l -P(a)),
-logPodT,,^!.....Xn)\>a)
> - log2 - log n - log(l - F(a)) -logP0(\Tn\>a)
lim„
-log(l-P(a))
> 1.
2.3. KVANTITATIVNÍ CHARAKTERISTIKY
39
40       KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI
Pokud odhad Tn dosahuje horní hranice ve (2.11), pak je zřejmě nejlepší pro distribuční funkci F, protože jeho chvosty konvergují k nule ro-násobně rychleji než (1 — F(a)), a rychleji nelze. Vznikají ovšem otázky,
• zda je tato horní hranice dosažitelná a pro která Tn a F,
• zda nějaký odhad Tn dosahuje vysokých hodnot B(Tn; a) robustně pro velkou třídu distribučních funkcí.
Ukazuje se, že dolní i horní hranice ve (2.11) jsou dosažitelné výběrovým průměrem Xn, a to horní hranice pro normální rozdělení a pro rozdělení s exponenciálními chvosty a dolní hranice pro Cau-chyho rozdělení a pro rozdělení s těžkými chvosty. To znamená, že Xn je opět velmi nerobustní. Naproti tomu, chování výběrového mediánu Xn je robustní i z hlediska chvostů: Xn však nedosahuje horní hranice ve (2.11), naopak, lim,,-^ B(Xn; a) se drží uprostřed mezi lan pro širokou třídu distribučních funkcí F.
Protože tyto závěry dobře charakterizují pojem robustnosti, upřesníme je v následující větě:
Věta 2.1 Nechť X\,..., Xn je náhodný výběr z populace s distribuční funkcí F(x — d), 0 < F(x) < 1, F(-x) = l-F(x), x,6 6 R.
(i)   Nechť Xn = i z\a=i x% značí výběrový průměr. Má-li distribuční funkce F exponenciální chvosty, tj.
lim —-— = 1    pro nějaká b > 0, r > 1,
a->oo bď
(2.12)
pak
lim B(Xn;a) =n. (2.13)
a->oo
(ii) Má-li distribuční funkce F těžké chvosty, tj.
i;m —^É}.—= i pro „ějaké m > 0, (2.14) o-íoo      m log a
pak
lim B(Xn;a) = 1. (2.15)
a—>oo
(iii) Nechť Xn je výběrový medián. Jestliže F splňuje buď (2.12) nebo (2.14), pak
f < Em^ooS^; a) < f + 1    pro sudé n, (2.16)
71+1
lim B(Xn,a) = —-—    pro liché n. (2-17)
Poznámka 2.1 Distribuční funkci s exponenciálními chvosty, splňující (2.12), označíme krátce jako typ I: mezi tato rozdělení patří např. normální (r = 2), logistické a Laplaceovo (r = 1) rozdělení. Distribuční funkci s těžkými chvosty, splňující (2.14), označíme krátce jako typ II: mezi tato rozdělení patří např. Cauchyho (m = 1) nebo t-rozdělení o m stupních volnosti m > 1.
Důkaz věty 2.1. (i) Stačí dokázat, že v případě F s exponenciálními chvosty existuje střední hodnota
Ee = E0 [exp {n(l - e)b\Xn\r}] < 00, (2.18)
2.3. KVANTITATIVNÍ CHARAKTERISTIKY
41
pro libovolné e 6 (0,1). Skutečně, pak plyne z Markovovy nerovnosti
P0(|X„| > a) < Ee ■ exp{-n(l - e)bar} -logP0(\Xn\>a)
■ lim-.
bď
n(l-e)bar -logEe > hm -—-= n(l - e),
a->oo 00/
a tedy tvrzení (2.13).
Konečnost střední hodnoty (2.18) dokážeme pomocí Hôlderovy nerovnosti:
E0 [exp {n(l - e)b\Xn\r}]
n
< E0[exp{(l - e)bY,\Xi\r}] (2-19)
i=l
<(«o[exp{(l-e)&|Jri|r}])B
[exp{(l-£)6a;r}]dP(a;)j .
Z podmínky (2.12) vyplývá, že ke každé volbě e existuje Ae > 0 tak, že pro a > Ae platí
l-P(o) <exp{-(l-|)6ar}.
Poslední integrál v (2.19) můžeme postupně upravit následujícím způsobem:
I exp{(l-e)bxr}dF(x) Jo
42       KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI
= í ' exp{(l -e)bxr}dF{x) Jo
Zoo exp{(l-e)bxr}d(l-F(x))
= í ' exp{(l -e)bxr}dF{x) Jo
+(l-F(A£))-exp{(l-E)bAl}
ZOO (1 - P(a;))(l - e)brxr-1 ■ exp {(1 - e)bxr} dx
< J ' exp{(l -e)bxr}dF{x) + exp
+ J  (1 — e)brxr~l ■ exp |—^&tr} dx < oo
a odtud plyne tvrzení (i).
(ii) Nechť F má těžké chvosty. Pak
P0(|-ř„| > a) = P0(Xn >a) + P0(Xn < -a)
> P0(js:i > -o,...,Vi > ~a,Xn > (2n- l)o)
+Po(x! < o,...,Vi <a,Xn< -(2ra- l)a)
= 2(P(a))"-1[l-P((2n-l)a)],
a tedy
-log[l-F(2n- l)q]
a
m loga
2.3. KVANTITATIVNÍ CHARAKTERISTIKY
43
44       KAPITOLA 2. CHARAKTERISTIKY ROBUSTNOSTI
= Hm -log[l-F(2n-l)o] = L o-řoo    m log((2n — l)a)
(iii) Nechť Xn je výběrový medián a n je liché. Pak Xn je prostřední pořádková statistika, Xn = X^, m = r}Ľ^- a F(Xn) = í/(m) má beta-rozdělení pravděpodobností, a platí
P0(\Xn\ >a) = P0(Xn >a) + P0(Xn < -a)
= 2n( n~ \ \ ľ «m-1(l-«)m-1d« V m - 1 ) JF{a)
^2"(^:1i)(1-J?(o))m'
a podobně
P»{\Xn\ > a) > 2ra ( ™- \ ) {Fia^il-Fiatr, což po zlogaritmování dává (2.17). Důkaz pro sudé raje analogický.
Odhad, který minimalizuje suppe-p0 V2(P, T) přes určitou třídu T odhadů parametru 8, se nazývá minimaximálně robustní ve třídě T. Později ukážeme, že třídy M-odhadů, L-odhadů i R-odhadů obsahují minimálně robustní odhad parametru posunutí i regrese v množině kontaminovaných normálních rozdělení.
2.3.4   Rozptyl asymptoticky normálního rozdělení
Jestliže odhad Tn funkcionálu T(-) má asymptoticky normální rozdělení při n —> oo,
Cp {MTn-T(P))) ->7V-(0, V2(P,T)),
pak vhodnou mírou robustnosti Tn je supremum rozptylu V2(P, T) přes okolí Vo CP předpokládaného modelu,
a2(T) = sup V2(P,T).
pePo
46        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
odhady, které později rozšíříme na jiné modely, zejména na lineární regresní model.
Kapitola 3
Robustní odhady reálného parametru
Mějme náhodný výběr X1:...,Xn z populace s rozdělením pravděpodobností P; rozdělení je obecně neznámé, pouze předpokládáme, že jeho distribuční funkce F patří do nějaké třídy T distribučních funkcí. Hledáme vhodný odhad parametru 8, který lze vyjádřit jako funkcionál T(P) rozdělení P. Tentýž parametr 8 může být vyjádřen i více funkcionály: např. střed symetrie může být zároveň střední hodnotou, mediánem, modem rozdělení, a může být vyjádřen i jinými způsoby. Funkcionál T(P) může být vyjádřen i implicitně jako řešení rovnice (soustavy rovnic) nebo mini-malizační (maximalizační) úlohy: připomeňme si maximálně věrohodný odhad, odhad momentovou metodu aj. Odhad parametru 8 získáme tak, že nahradíme P v příslušném funkcionálu T(-) empirickým rozdělením příslušným vektoru pozorování X1:..., Xn.
Budeme se zabývat hlavně třemi nejrozšířenějšími třídami robustních odhadů reálného parametru: M-odhady, L-odhady a R-
3.1 M-odhady
Třídu M-odhadů zavedl P. J. Huber v práci [37] a vlastnosti M-odhadů jsou podrobně studovány v jeho knize [39]; viz také [3], [15], [19], [32], [46], [52], aj.
M-odhad Tn je definován jako řešení minimalizační úlohy
n
^2p(Xi, 8) := min    vzhledem k 8 6 0,
i=l
neboli (3.1) EPn \p(X, 8)] = min,   8 6 0,
kde p(-, •) je vhodně zvolená funkce. V parametrickém modelu, kde rozdělení Pg má hustotu f(x,8), je speciálním případem M-odhadu i maximálně věrohodný odhad, který je řešením minimalizace
n
J](-log /(*;,<?)) = min,    S 6 0.
i=l
Jestliže p je diferencovatelná vzhledem k 8 se spojitou derivací 4>(-,8) = J|p(-,0), pak Tn je řešením (případně jedním z řešení) rovnice
n
Y^HXi,8) = 0,    0 6 0, (3.2)
i=l
a tedy
-Yji,(Xi,Tn) = EPn[i,(X,Tn)]=Q,   Tnee. (3.3)
í —1
45
3.1. M-ODHADY
47
48        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
Z (3.1) a (3.3) vyplýva, že statistický funkcionál, příslušný T„, neboli M-funkcionál, je definován jako řešení minimalizace
Jxp(x,T(P)) dP(x) = E p \p{X,T{P))] := min,
T(P) e 0 (3.4)
nebo jako řešení rovnice
Jxi,(x,T(P)) dP(x) = EP \i,(X,T(P))} = 0,
T(P) 6 0.
(3.5)
Aby funkcionál T(P) byl físherovsky konsistentní, je třeba předpokládat, že úlohy (3.4) a (3.5) mají jediné řešení.
3.1.1   Influenční funkce M-odhadu
Předpokládejme, že p(-,8) je diferencovatelná, derivace
6) je absolutně spojitá vzhledem k 8 a rovnice (3.5) má jediné řešení T(P). Nechť Pt = (1 - t)P + tíx; pak T(Pt) je řešením rovnice
' ý(y,T(Pt))d((l-t)P + tóx) = 0,
tedy
(1 -í) / Hv,T(Pt)) dP(y)+t^(x,T(Pt)) = 0. Jx
Derivujme (3.6) vzhledem k í :
>,T(Pt))dP(y)+il>(x,T(Pt))
(3.6)
+ (1-*)
dT(Pt) dt
JÁ
d
0=t(pt)
dP(y)
+t
dT(Pt) dt
ae
4>(x, e)
Dosadíme-li í = 0, dostaneme influenční funkci
i>(x,T(P))
IC(x;T,P)
kde 4>(y,T(P) ■■
Jxi,(y,T(P)dP(y)
^)] 0=t(p) '
(3.7)
M-odhad parametru posunutí
Důležitý speciální případ je model s parametrem posunutí 8, ve kterém X1:..., Xn jsou nezávislá pozorování se stejnou distribuční funkcí
F(x — 8), 8 6 R; distribuční funkce F je obecně neznámá. M-odhad Tn je definován jako řešení minimalizace
£>(*i-<?)== min,
(3.8)
a pokud p(-) je diferencovatelná s absolutně spojitou derivací ip(-), je Tn řešením rovnice
£>(*i-0) = O.
(3.9)
Aby byl příslušný M-funkcionál T(F) físherovsky konsistentní, je třeba předpokládat, že úloha Jxp(x — 8)dP(x) := min má jediné řešení 8 = 0. Influenční funkce T(F) pak je
IC(x;T,P)
Í>(x-T(P)) Jxf'(y)dP(yY
(3.10)
3.1. M-ODHADY
49
50        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
Z (3.8) a (3.9) okamžitě vyplýva, že Tn je ekvivariantní vzhledem k posunutí, tj. že splňuje
Tn(X1+c,...,Xn + c) = Tn{Xu..., Xn) + c Vc 6 R. (3.11)
Na druhé straně, Tn obecně není ekvivariantní vzhledem k měřítku, tj. obecně neplatí
Tn(cXu ..., cXn) = ČTn{X1 ...,Xn) pro O 0.
V symetrickém modelu volíme p symetrickou kolem 0 (ip je pak lichá funkce). Jestliže je p(x) ryze konvexní (a tedy ip(x) rostoucí), je i X)íLi P(Xi — G) ryze konvexní v 8 a M-odhad je určen jednoznačně. Jestliže je p(-) v některém úseku lineární, je ip(-) v tomto úseku konstantní: pak rovnice 2ľ=i VK^i — S) = 0 může mít vice kořenů a obvykle volíme jeden z těchto kořenů podle pravidla
Tn = + Tn ),
n
Tn =sup{í:  £>(*i-í)>0}, (3.12)
i=l n
T+ = inf{í: ^W-í)<0}.
i=l
Stejným způsobem určíme M-odhad v situaci, že ip je neklesající nespojitá funkce se skoky. Pokud je ip(-) neklesající, ať už spojitá nebo se skoky, pak zřejmě platí pro libovolné a 6 R :
íi
P„(5]VPQ - o) > O) < Pg(Tn > a) < Pe(Tn > a)
i=l
<P9(X>(*i-<0>o) (3.13)
i=l
n n = P9 ( J]        " a) > O) + P9 ( J] V" a) = O);
i=l i=l
pokud Pg^X)ľ=i V'í^i — a) = o) =0, přecházejí nerovnosti v (3.13) v rovnosti. Odtud dále dostáváme
Po {^|> (^--|)< (j
< P9(v/S(Tn - 0) < z) < P9(v/S(Tn - 0) < x)
<p0^p[Xi-^)<0y
Protože ra_2 Y%=i ty ~ ^) Je normovaný součet nezávislých stejně rozdělených náhodných veličin, můžeme nalézt asymptotické rozdělení pravděpodobností \Jň(Tn — 8) při n —¥ oo, pro ip neklesající, podle centrální limitní věty.
Bod selhání M-odhadu parametru posunutí určíme podle paragrafu 2.3.2: Jestliže je funkce ip(-) neohraničená, je £* = lim,,^^ £* = 0. Naopak, je-li 6 středem symetrie rozdělení pravděpodobností a funkce ip je ohraničená a lichá, je £* = lim,,-^ e* = 5. Třída M-odhadů tedy obsahuje robustní i nerobustní elementy.
Příklad 3.1 (a) Střední hodnota:
Střední hodnotu 8 = EpX lze chápat jako M-funkcionál s kritériami funkcí p(x) = x2, ip(x) = 2x, ip'(x) = 2, a podle (3.10)
3.1. M-ODHADY
51
52        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
dostaneme
což je ve shodě s předcházejícími výsledky.
Příslušným M-odhadem střední hodnoty je aritmetický průměr Xn s bodem selhání e* = lim,,-^ e* = 0 a s globálni citlivostí 7* = +oo. (b) Medián:
Medián X = P_1(i) lze chápat jako M-funkcionál s kriteriální funkcí p(x) = \x\ a výběrový medián Tn = Xn je pak řešením minimalizace
n
^2 \Xi - 8\ := min, Sel «=i
Předpokládejme, že rozdělení pravděpodobností P má spojitou distribuční funkci F, ryze rostoucí v intervalu (a, 6), — oo<a<6<ooa diferencovatelnou v okolí X. Nechť Ft je distribuční funkce kontaminovaného rozdělení Pt = (1 — t)P + tôx. Medián T(Pt) je řešením rovnice Ft(u) = ^, tj.
(1 - t)F(T(Pt)) + tl[x < T(Pt) < oo] = i
Řešením této rovnice dostaneme
T(Pt) -
Funkce T(Pt) je spojitá v bodě í = O, neboť T(Pt) -> X = T (P) při í —Y 0; s použitím rozvoje
1 ViW) a
2(1-í)     2 2
2(1-í)     2 2
při í —Y 0 dostaneme
limi[T(Př) -P-1^)] = I sign {x-F-1®)
a odtud dostaneme infiuenční funkci mediánu
sign (x — X)
dF^ju)
du
IC(x;X,F)
2/PO
(3.14)
Medián je robustní, neboť jeho infiuenční funkce je ohraničená, na rozdíl od střední hodnoty. Bod selhání mediánu je £* = i a
globální citlivost 7*
2/PO
N(0,1) je 7* = 1.253).
Podle (3.14) je (IF(x;X,P)f
(pro standardní normální rozdělení
■ konst a lze dokázat,
při n —¥ 00 má ^/n(Xn — X) asymptoticky normální rozdělení,
c{Mxn-x)}^M(o,^^y
Speciálně, je-li F distribuční funkce normálního rozdělení Af(/j, a2), ief2(X) = f2(li) = (7js)\
£{MXn-X)}^Aí{0,^a2).
(c) Maximálně věrohodný odhad parametru 8 rozdělení pravděpodobností s hustotou f(x, 8) :
p(x,T(P))-
í>(x,T(P)) :
-log f(x,T(P)),
3.1. M-ODHADY
53
54        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
IF(x;T,P) ■.
1 f^T(P)) 1/(T(P)) f(x,T(P)Y
Mef{x,T{P)) = -f{x,e)^T{p);
f(T(P)) = í Jx
[dd   " • ' ■ '|0=t(p)
;log f(xM
f(x,T(P))dx
je Fisherova informace rozdělení / v bodě 8 = T(P).
3.1.2   Volba funkce ip u M-odhadu parametru posunutí
M-odhad je určen volbou kriteriální funkce p nebo její derivace ip. Jestliže parametr polohy je zároveň středem symetrie rozdělení pravděpodobností, volíme p symetrickou podle nuly a tudíž ip lichou.
Podle (3.10) je infiuenční funkce M-odhadu úměrná ip(x — T(P)); tedy, má-li být odhad robustní, musí být ip ohraničená. Uveďme příklady nejčastější volby funkce ip (a tedy i p), které se vyskytují v literatuře.
Střední hodnota je M-funkcionál s lineární, a tedy neohraničenou funkcí if>. Příslušný M-odhad, Xn, je maximálně věrohodným odhadem parametru polohy normálního rozdělení. Tento funkcio-nál je však úzce vázán na normální rozdělení a je velmi nerobustní. Hledáme-li M-odhad parametru polohy rozdělení pravděpodobností, vhodný pro okolí normálního rozdělení, použijeme funkci kterou navrhl a zdůvodnil P. J. Huber [37]. Tato funkce je lineární v ohraničeném intervalu [—k,k], a konstantní vně tohoto intervalu. Kdybychom hledali rozdělení pravděpodobností s takovou
věrohodnostní funkcí, zjistili bychom, že jeho hustota je normální v intervalu [—k, k] a exponenciální vně:
I>h(x) = I X
(, k sign x
\x\ < k \x\ > k,
(3.15)
kde k > 0 je pevně zvolená konstanta. Příslušný M-odhad, který se často vyskytuje v literatuře jako Huberův odhad, má ohraničenou infiuenční funkci, bod selhání e* = 5, globální citlivost ■ a míru chvostů
' 2F(fc)-l
linia^oo B(a, Tn, F) = i pro rozdělení jak s exponenciálními, tak s těžkými chvosty. Je to tedy robustní odhad středu symetrie, necitlivý k extrémním a odlehlým pozorováním. Jak dokázal Huber [37], odhad generovaný funkcí (3.15) je minimaximálně robustní pro kontaminované normální rozdělení , přičemž hodnota k závisí na podílu kontaminace.
Někteří autoři doporučují ještě více omezit vliv odlehlých pozorování volbou funkce ip(x), která konverguje k 0 při x —¥ ±00, případně která je rovna 0 vně ohraničeného intervalu pokrývajícího 0. Takovou je např. věrohodnostní funkce Cauchyho rozdělení,
4>c(x) ■-
f'(x)
_2x_ 1 +x2
(3.16)
kde f(x) = n{i+xi) je hustota Cauchyho rozdělení; dále Tukeyho biweight funkce,
x 1-
ipr(x) ■■
(f)2]
\x\ < k \x\ > k
(3.17)
3.1. M-ODHADY
55
56        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
nebo Andrewsova sinusová funkce,
{sin I      ...    \x\ < kn (3.18) 0 ... |a;|>í;7r.
Hampel [31] navrhl spojitou, po částech lineární funkci ip, nulovou vně ohraničeného intervalu:
sign x ...   \x\ < a
Í>ha(x) = •
a sign x
c-lxl
a < \x\ < b
(3.19)
a sign x
f (x) = j
.   b < \x\ < c
0 ... |a;|>c.
V literatuře se také vyskytuje skipped mean, generovaný funkcí x ...   \x\ < k
0 ... |a;|>í;
nebo skipped medián, generovaný funkcí
-1 ... -fc<a;<0
Í>(x) = {    0 ... |a;|>í;
1 ...    0 < x < k.
Je však třeba si uvědomit, že tyto funkce nejsou monotónní a jim příslušné primitivní funkce p nejsou konvexní. Vedle globálního minima může mít funkce 2?=i PÍ^iS) lokální extrémy, které jsou dalšími kořeny rovnice
VK^i — 8) =0. Poslední dvě funkce ip navíc nejsou spojité, tedy rovnice Y2i=i VK^i — 8) = 0 obecně nemá řešení a M-odhad musí být hledán jako globální minimum funkce X)íLi P(-^i —
(3.20)
(3.21)
3.1.3   Studentizované M-odhady
M-odhad parametru posunutí je ekvivariantní vzhledem k posunutí, ale obecně není ekvivariantní vzhledem k měřítku (viz (3.11)). K překonání tohoto nedostatku můžeme použít jedné z následujících metod:
• Zároveň s parametrem posunutí odhadujeme i měřítko: např. Huber [39] navrhuje zároveň s 6 odhadnout parametr měřítka a řešením následující soustavy rovnic:
■o
(3.22)
(3.23)
kdex(a:) = ýjiix)—JkÍ'h (y)d$(y), Í>h je Huberova funkce (3.15) a $ je distribuční funkce standardního normálního rozdělení.
Odhad, ekvivariantní vzhledem k posunutí i měřítku získáme studentizací M-odhadu vhodnou škálovou (měřítkovou) statistikou Sn = Sn(X\,... ,Xn), splňující následující podmínky:
(a) ^„(x) > 0 s.v. pro x 6 R
(b) Sn(xi+c,...,xn + c) = Sn(xi,...,xn), c 6 R, x 6 R" (invariance vzhledem k posunutí)
(c) Sn(cx\,... ,cxn) = cSn(x\,...,xn), c > 0, x 6 R" (ekvivariance vzhledem k měřítku)
3.1. M-ODHADY
57
58        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
Dále předpokládáme,
n?{Sn-S{F)) = Op{l)    při rn-oo (3.24)
kde S(F) je statistický funkcionál, příslušný Sn. Studentizovaný M-odhad je řešením minimalizace
71    í X- — 6\ J2 p I -i--        := min,    6 6 R. (3.25)
«=i \ bn y
Takto definovaný odhad je skutečně ekvivariantní vzhledem k posunutí i k měřítku. Příslušný statistický funkcionál je definován implicitně jako řešení minimalizace
:= min,   í 6 R (3.26)
a funkcionál je fisherovsky konsistentní, pokud má minimalizace (3.26) jediné řešení. Pokud p má spojitou derivaci ip, je odhad též řešením rovnice
í>(¥0=°- (3-27)
Pokud je p konvexní a tedy if> je neklesající, ale nespojitá v některých bodech nebo konstantní na některých intervalech, uvažujeme studentizovaný odhad ve tvaru analogickém (3.12), tedy
Tn = ^(T^ + Tn ),
T" = sup{í : J2 ^ (^r) > 0} (3-28) T+ = inf{í: ^v(^)<0}.
Pozastavme se u volby škálové statistiky Sn. Na rozdíl od středu symetrie rozdělení pravděpodobností, který je zároveň průměrem, mediánem, modem atd., neexistuje univerzální měřítko, přesněji funkcionál měřítka, a volba určitého funkcionálu závisí na nás. Uveďme některé příklady:
• Výběrová směrodatná odchylka:
Sn=(kÍt{Xi-Xn)3)Í,
i=l
S(F) = (varF(J0)5 .
Protože tento funkcionál je nerobustní, používá se ke stu-dentizaci jen ve speciálních případech.
• Mezikvartilová odchylka:
Sn = Xn:[in]-Xn:[in],
kde Xn.[nf^, O < p < 1 je empirický p-kvantil stanovený z uspořádaného výběru Xn:1 < ... < Xn:n. Příslušný funkcionál má tvar
S(F) = F-1(l)-F-1(í).
• Mediánová absolutní odchylka (MAD):
Sn = niedi<j<„|JQ — Xn\.
Příslušný statistický funkcionál S(F) je řešením rovnice
F (S(F) + F-1®) - F (-S(F) +       i)) = I
a pokud distribuční funkce F je symetrická podle O, a tedy F-1(i) = 0,je S(F) = F-Hl).
3.2. L-ODHADY
59
60        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
Lze ukázat, že v symetrickém modelu odpovídajícím F(-x) = 1 - F(x),   p(-x) = p(x) a tl>{-x) = -t)>{x), x 6 R, s absolutně spojitou ip, má influenční funkce, studentizovaného M-funkcionálu tvar
IF(x,T,F) =
kde j(F) = /mv'' (š(f)J dF{y)- To znamená, že v symetrickém modelu influenční funkce, T(F) sice závisí na hodnotě S(F), ale nezávisí na influenční funkci funkcionálu S(F).
3.2 l-odhady
L-odhady jsou odhady, založené na uspořádaných pozorováních (pořádkových statistikách) Xn:1 < ... < Xn:n, příslušné k náhodnému výběru X1:..., Xn. Obecný L-odhad píšeme ve tvaru
n k Tn = Y^ CnMXn:i) + X ^jh*(Xn:[np.]+1), (3.29)
i=l j=l
kde c„i,...,cnn aoi,...,Oi jsou dané koeficienty, 0 < p\ < ... < Pk < 1 a h(-) a h*(-) dané funkce. Koeficienty cnj, 1 < i < n jsou určeny ohraničenou váhovou funkcí J : [0,1] i-> R následujícím způsobem:
(3.30)
nebo přibližným způsobem
*- = sj(5+t)>   ť = l.--.n- (3-31)
První složka L-odhadu (3.29) obecně zahrnuje všechny pořádkové statistiky, zatímco druhá složka je lineární kombinací konečně mnoha výběrových kvantilů. Rada L-odhadů má tvar pouze jedné ze složek ve (3.29) (L-odhad typu I a II).
Jednoduchými příklady L-odhadů jsou výběrový medián a střed rozpětí
Til — 2^Xn:í
které odhadují parametr polohy, a dále např. výběrové rozpětí
Rn = X-n-.n ~ -^n:l a Giniho průměrná diference
G" =   , 1 n X \X* ~Xi\=   , 2 n X(2i " n ~ l)x™ n(n —1) .4-* n(n —ll-f-'
1 i—1
což jsou škálové statistiky.
Uvažujme L-odhad typu I s váhovou funkcí J takovou, že Jg1 J(u)du = 1. Abychom nalezli příslušný statistický funkcionál, zavedeme empirickou kvantilovou funkci Qn(t) = irn_1(í), 0 < í < 1 jako Qn(t) = iaf{x : Fn(x) > í}, 0 < í < 1. Tato funkce je empirickým protějškem kvantilové funkce Q(ť) = i?_1(í) = inf{a; : F(x) > í}, 0 < í < 1 a je rovna
f Xn.i   ...   ^-<í<£,      i = l,...,ra-l
Pomocí ní můžeme L-odhad vyjádřit alternativním způsobem
Tn= f J(s)h(Qn(s))ds (3.33) Jo
3.2. L-ODHADY
61
62        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
a jemu příslušný funkcionál má tvar
T(F) = í J(s)h(Q(s))ds. Jo
(3.34)
Influenční funkce T(F) :
Předpokládejme, že F je rostoucí a absolutně spojitá a funkce h je absolutně spojitá. Označme
Ft(y) = (l-t)F(y) + tSí
t)F(y) y<x
■t)Hv) + t y>*
Pak
F-1^)      u<(l-t)F(x) Ff1(u) = { x (l-t)F(x) <u<(l-t)F(x) + t
F-1 (f^f) u>{l-t)F(x)+t, a tedy
i < (l-ť)F(x)
u_ _1
dFt-\u) /(^(A)) Odtud vyplývá
dt
du
(«>_u_ ^(A)) ^"/(^(ft))
rFt(x)
"L u
J(u)du
a influenční funkci funkcionálu (3.34) dostaneme při í-> 0+ :
a tedy
F{x) h'iF-^u))
^fJ-^iPĚ^
f1     h<(F-i(u)) T, NJ
=Jou-ňF^mJ{u)du -ľ tSÄw*
/co roo F(y)h'(y)J(F(y))dy - /    J(F(y))dy -co Jx
(3.35)
IF(x,T,F) = h'(x)J(F(x)).
Ve speciálním případě /((a;) = x, F(—x) = 1 — F(x), a; 6 R a J(u) = J(l — ti), 0 < u < 1, se influenční funkce zjednodušší:
IF(x,T,F)
■r
J -C
F(y)J(F(y))dy
Jx
J(F(y))dy
3.2. L-ODHADY
63
rOQ
= / F(y)J(F(y))dy Jo
+ í" (l-F(-y))J(l-F(-
J —OO
/•CO rOQ
- /   J(F(y))dy = / F(y)J(F(y))dy
Jx JO
/•CO rOQ
+      (l-F(y))J(F(y))dy- J(F(y))dy
JO Jx
/•CO rOQ
= /    J(F(y))dy - / J(F(y))dy Jo Jx
IF(x,T,F) = f*J(F(y))dF(y)   ... x > O (3.36)
IF(-x,T,F) =-IF(x,T,F) ...iěr
Poznámka 3.1 NechťMn je M-odhad středu symetrie, vytvořený absolutně spojitou funkcí^) a nechťLn je L-odhad s váhovou funkcí J(u) = c V''(ir_1(ti)). Pak Mn a Ln mají stejnou influenční funkci.
Bod selhání L-odhadu: Jestliže J(u) = 0 pro 0 < u < a a
l-a<ii<la£* = ^je bod selhání L-odhadu (3.29), pak
Příklad 3.2 (a) a-useknutý průměr (0 < a < h)
a tedy
^ íi—[íia]
n — 2\na\
1    ' i=[na]+l
64        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
_ í Sq^il   • • •   [na] + l<i<n-[na] y u ... jinak
J(«) = T^ta1^ <u<l-a]
Tn = T(Fn) = T^f " F^(U)du J a
Ja
Influenční funkci useknutého průměru vyjádříme pomocí (3.35):
IF(x,T,F)= f F(y)J(F(y))dy- f°° J(F(y))dy Je. Jx
1    r /'F~1(1_a' r°° 1
= r^i/Fi    F(y)dy-J i[<*<F{y)<i-a]dyj
a tedy
IF(x,T,F)+iia =
' -rJ2í[aF"1(i-<»)-(i-<»)F-1(a)]4:c<F"1(<»)]
T^l[x-aF-l{á)-aF-l{l-á)]l[F-l{á)<x<F-l{l-á)]
rJ2S[-aF-1(a)+(l-a)F-1(l-a)]4:c>F"1(l-<»)]
kde
1        /■!-<*      , 1 rF-\l-a)
3.2. L-ODHADY
65
66        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
Speciálně, pro F symetrickou splňující F(x) + F(—x) = 1 Vx a F-^u) = -F-^l-u), 0 < u < 1, je va = 0 a
I F-\\-a) l-2a
IF(x, T,F) = .
x < -F^il-a) -F-Hl-aJíaKF-Hl-a)
l-2a
z > F-^l - a). Globální citlivost useknutého průměru je
, F-Hi-a)
' 1 - 2a '
Poznámka 3.2 Nechť Mn je Huberův odhad středu symetrie d rozdělení F (x — 8), vytvořený Hub erovou funkcíipn sk = F~1(l — a) (viz (3.15). Pak Mn a Xna mají stejnou influenční funkci.
Poznámka 3.3 (i) Bod selhání a-useknutého průměru Xna je rini„^oo £* = a.
(ii) Nechť a = [kin], n > 3 a nechť B(Xna;a) je míra chvostů Xna, definovaná v (2.9). Pak
n — 2k< lim^ <^B(X„n; a) < limo_>o0S(JřJla; a) < n — k (3.37)
pokud F má exponenciální chvosty (2.12), zatímco pro F s těžkými chvosty (2.14) platí
lim B(Xna;a) = k + 1
(3.38)
pokud k < '■
Příklad 3.3 a-winsorizovaný průměr:
Wna = T(Fn) = -{[na]Xn:[na]+1 + Xn:i
i—[íia]+l
+[na]Xn:n_[na]} (3.39)
= aF^ia) + /   " F-^^du + aFn\l - a) Ja
■A [na] + l
[na] + 1 .
-[na]
kde
Oni
.   1 + [na] <i <n — [na] . jinak.
To znamená, že extrémní kvantily nejsou useknuty, ale jsou nahrazeny kvantilem Xn.yna^i nebo Xn.n_ynay Pro jednoduchost uvažujme model se symetrickou distribuční funkcí -F. Statistický funk-cionál T(F) má tvar
T(F)=T1(F) + T2(F)= í   " F-^^du + aF-^a) Ja
-i-aF-^l-a).
Influenční funkce Ti(F) plyne z (3.35), zatímco influenční funkce T2(F) je modifikací influenční funkce mediánu (3.14), který je kvantilem s a = ^; tedy průměru z (3.36):
IF(x,Wna,F) =
3.2. L-ODHADY
67
68        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
" 7(f%)) Iíx<F-1(«)] x /[F-1 (a) <x< F-1 (1-a)]
Globální citlivost winsorizovaného průměru je 7* = F-1(a) +
/(F-i(l-a))
a bod selhání e* = a. Zatímco influenční funkce a-useknutého průměru je spojitá, influenční funkce winsorizovaného průměru má body nespojitosti F-1 (a) a F_1(l — a).
Jako další příklady uveďme Senův vážený průměr (Sen [64]):
T»* = ( 2k + 1 )     £  ( k ) ( "   k + 1 ) Xn:i+U x '     i=k+i x    '  x '
kde 0 < k < Všimněme si, že T„o = Xn a Tn^ = Xn pro fc = [(n+l)/2];
Harrell-Davisův odhad p-kvantilu [33]: íi
T71 ~ ^ * cra-^7l:ii
Cm :
r(n + i) y*/"
n - k+1) y«_i).
•■k-l{l-u)n-kdu,
T(k)T(n- k + i) j(i_i)/n 1,...,ra, kde í; = [rap], 0 < p < 1.
BLUE (asymptotically best linear unbiased estimator) odhad parametru polohy ([41], [42], [10]). Nechť X1,X2,... jsou nezávislá pozorovaní s distribuční funkcí F(x — 8), kde F má absolutně spojitou hustotu /
s derivací /'. Pak BLUE je L-odhad s váhovou funkcí
n
Til ~ ^ * Cra-^niii cni =       (ra+1) 1 * = 1, .. . , re
i=l
J(F(x)) = i,'f(x), i,f(x) = iěS.
3.3 Ä-odhady
Uvažujme náhodný výběr X\,...,Xn z populace se spojitou distribuční funkcí. Nechť Ri je pořadí mezi Xi,... ,Xn, i = 1,...,re. Formálně lze pořadí vyjádřit ve tvaru
Ri = YJI\Xj<Xi], j = l,
(3.40)
a tedy R, = nF„(JQ), i = 1,..., re, kde F„ je empirická distribuční funkce X\,..., Xn. Pořadí jsou invariantní ke třídě ryze monotónních transformací pozorovaní a pořadové testy mají mnoho výhodných vlastností, z nichž nej důležitější je, že rozdělení testového kriteria za platnosti hypotézy nezávisí na distribuční pozorování.
Hodges a Lehmann [36] navrhli třídu odhadů, tzv. R-odhadů, které jsou inverzí pořadových testů.
Omezme se na situaci, kdy Xi,... ,Xn mají spojitou distribuční funkci F(x — 8) se středem
3.3. R-ODHADY
69
70        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
symetrie 8. Hypotézu
Ho : $ = $o
o středu symetrie testujeme znaménkovým pořadovým testem (jinak jednovýběrovým pořadovým testem), založeným na statistice
Sn(60) = sign (Xt - SoHíiž+^o)) (3.41)
kde R^(do) je pořadí \X, - 8o\ mezi \Xi - 8o\, ■ ■ ■, \Xn - 8o\ a °n(l) < ••• < an(n) jsou dané skóry, obvykle generované neklesající skórovou funkcí <p+ : [0,1) i-> R+, <p+(0) = 0 jako an(i) =
f + (ň+i) ' ' = ''',n' Jes*u^e n^př. volíme an(i) = ^-j-, i = 1,..., n, dostáváme Wilcoxonův jednovýběrový test. Jestliže platí 8 = 6»o, F{x) + F(-x) = 1,161, jsou sign (X( - 8a) a P+^o) stochasticky nezávislé a Sn(ť) je neklesající a schodovitá funkce í. Odtud plyne, že Eg0Sn(8o) = 0 a rozdělení Sn(8o) je za platnosti H0 symetrické kolem 0. Jako odhad 80 navrhujeme hodnotu í, která je řešením rovnice Sn(ť) = 0. Taková rovnice ovšem nemusí mít řešení, protože Sn(t) je nespojitá; podobně jako u M-odhadů tedy definujeme P-odhad ve tvaru
Tn = h(Tn+T+), (3.42)
T" = sup{í : Sn(t) > 0},       T+ = inf{í : Sn(t) < 0}.
Jestliže an(i) = 1, i = 1,..., n, je Tn rovno výběrovému mediánu. Odhad, odpovídající jednovýběrovému Wilcoxonovu testu se skóry °nW = s+T' ' = l>--->"> se nazývá Hodges-Lehmannův odhad. Dá se ukázat, že Hodges-Lehmannův odhad lze vyjádřit explicitně; je roven
TnH = medíXi^Xj : l<i<j<n\. (3.43)
Ostatní P-odhady, s výjimkou mediánu a Hodges-Lehmannova odhadu, se nedají vyjádřit explicitně a musí být počítány iteračně.
Na rozdíl of M-odhadů jsou P-odhady ekvivariantní nejen vzhledem k posunutí v poloze, ale také ke změně měřítka, tj. platí
Tn (X1 + c,..., Xn + c) = Tn (X1,..., Xn) + c, c 6 R
(3.44)
Tn(cXu      cXn) = cTn(Xu ...,Xn), c > 0.
Distribuční funkce statistiky Sn(8) není spojitá, i když X\,... ,Xn mají spojitou distribuční funkci F(x — 8). Jestliže však 8 je skutečný střed symetrie, pak distribuční funkce statistiky Sn(8) nezávisí na F. Označíme-li
Pn = Pe (Sn(8) = 0) = Po (^(0) = 0),
pak 0 < pn < 1 a limn-^ooPn = 0 a
k(í ~Pn) < Pe(Tn <e)< Pe(Tn <8)< i(l +pn). (3.45)
To znamená, že v případě symetrické F je Tn mediánově nestranným odhadem 8, tj. 8 = medg Tn.
Jestliže vyjádříme pořadí P+ ve (3.41) podle (3.40), vidíme, že Hodges-Lehmannův odhad Tn lze alternativně vyjádřit jako řešení rovnice
/oo [Fn(y) - Fn(2Tn - y)]dFn(y) = 0 (3.46) -co
a obecně, fí-odhad vytvořený skórovou funkcí (p+ lze vyjádřit jako řešení rovnice
/co f (Fn(y) - Fn(2Tn - y)) dFn(y) = 0, (3.47) -co
3.3. R-ODHADY
71
72        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
kde <p(u) = sign(ií— i)<p+(2ií— 1), O < u < 1. Příslušný statistický funkcionál je tedy řešením rovnice
/oo <p (F(y) - F(2T(F) - y)) dF(y) (3.48) -co
= / ip(u-F(2T(F) - F-1(u)))du = 0. Jo
Influenční funkci T(F) odvodíme z (3.48) analogickým způsobem, jako jsme odvodili influenční funkci L-odhadu, a pro F symetrickou s absolutně spojitou hustotou / dostaneme
Poznámka 3.4 Jestliže ip(x) = c(p(F(x)), lEl, pak M-odhad vytvořený funkcí if> a R-odhad vytvořený funkcí <p mají stejné influenční funkce.
Na závěr porovnáme některé numerické charakteristiky výběrového průměru Xn, výběrového mediánu Xn, 5%-useknutého průměruX,05, 10%-useknutého průměruJf.io, 5%-winsorizovaného průměru W.05 a Hodges-Lehmannova odhadu HL:
Odhad	7*	A*	£*	var^	varCjAr
	00	1	0	1	00
xn	a/I	00	1 2	7T 2	1.74
X.05	1.83	1.11	0.05	1.03	1.30
	1.60	1.25	0.10	1.26	1.26
	2.13	00	0.05	1.01	1.46
HL	1.77	1.41	0.29	1.05	1.29
Zde značíme
• 7*... globální citlivost,
• A* ... lokální citlivost,
• £* ... bod selhání,
• varjy - asymptotický rozptyl za normálního rozdělení   (0,1),
• varCjJv • • • asymptotický rozptyl za kontaminovaného normálního rozdělení 0.95 JV(0,1) + 0.05 JV(0, a2),
a2 -> 00.
3.4   Asymptotické vlastnosti M-, L- a .R-odhadů
Robustní odhady jsou nelineárními funkcemi pozorování, často definované implicitně. Odvodit jejich distribuční funkci při konečném počtu pozorování je velmi obtížné; proto ji aproximujeme limitní
3.4. ASYMPTOTICKÉ VLASTNOSTI
73
74        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
distribuční funkcí odpovídající neomezeně rostoucímu počtu pozorování n —» oo. Limitní rozdělení je většinou normální a rozptyl asymptoticky normálního rozdělení je důležitou charakteristikou odhadu.
Asymptoticky normální rozdělení robustních odhadů nemůžeme odvodit přímo použitím centrální limitní věty, protože nejsou lineárními kombinacemi nezávislých náhodných veličin. Nejprve musíme \Jň(Tn — T(F)) lineární kombinací nezávislých náhodných veličin aproximovat.
Připomeňme si rozvoj (1.15), který platí pro fréchetovsky diferencovatelné funkcionály T(P). Tento rozvoj můžeme přepsat pomocí infiuenční funkce IF(x, T, P) ve tvaru
n
V^(Tn - T(F)) = I£ IF(Xi, T, F) + R,,, (3.50)
i=l
kde Rn = op(l). Podobný rozvoj, který nazýváme asymptotickou reprezentací odhadu T„, lze odvodit i pro funkcionály, které nejsou fréchetovsky diferencovatelné, různými metodami a za nejrůzněj-ších podmínek na hladkost distribuční funkce F a skórové funkce odhadu (ip,J,(p). Různé formy asymptotických reprezentací robustních odhadů jsou odvozeny v knize [46].
Jestliže pro odhad Tn platí reprezentace (3.50), pak Tn má asymptotické rozdělení pravděpodobností při n —¥ oo v tom smyslu, že
C {MTn - T(F))} -> 7V(0, a2F), (3.51)
kde 0% = EF(IF(X,T,F))2. Aplikujme tento výsledek na M-, L- a iž-odhady, jejichž infiuenční funkce jsme odvodili. Podrobné podmínky, za nichž tyto asymptotické výsledky platí, lze nalézt v [46].
3.4.1 M-odhady
M-odhad obecného skalárního parametru
Nechť {Xi, i = 1,2,je posloupnost nezávislých pozorování se stejnou distribuční funkcí F(x,8), 6 6 0, kde 0 je otevřený interval M1. M-odhad parametru 9 je řešením minimalizace
ra
Y^p(Xi,6) = min, 6*6 0.
i=l
Předpokládejme, že p(x, 8) je absolutně spojitá v 8 s derivací il>(x,8) = ^jp(x,8). Jestliže il>(x,8) je spojitá v 8, pak hledáme M-odhad Tn mezi kořeny rovnice
n
X>(*i,0) = O. (3.52)
i=l
Jestliže funkce Egp(X, í) má jediné minimum v bodě t = 8 (físhe-rovská konsistence) a jsou splněny další podmínky buď na hladkost ip(x, 8) nebo F(x, 8), pak existuje posloupnost {Tn} kořenů rovnice (3.52) taková, že při n —¥ oo
v/S(T„ - 8) = (3.53)
MTn -e) =       J21«*<> °) + eMn-1/2),
kde 7(0) = Eeij>(X, 8), ij>(x, 8) = ^(x, 8).
Odtud dále vyplývá, že ^/n(Tn — 8) má asymptotické normální rozdělení
tf(0y(i>,F)),  kde o*{*,F)) = El^l£>e). (3.54)
3.4. ASYMPTOTICKÉ VLASTNOSTI
75
76        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
M-odhady parametru posunutí
Nechť X\,X2,... jsou nezávislá pozorování s distribuční funkcí F(x — 8). M-odhad 8 je řešením minimalizace
ra
^řllj-^min, Sel1.
i=l
Předpokládejme, že p(x) je absolutně spojitá s derivací ip(x) a že funkce h(ť) = JKp(x — t)dF(x) má jediné minimum v bodě í = 0. Jestliže if> je absolutně spojitá s derivací ip' a 7 = / ip'(x)dF(x) > 0, pak existuje posloupnost {Tn} kořenů rovnice X)í*=i V'í^i— *) = 0 taková, že při n —¥ 00
V^(Tn -8) = Op(l), (3.55)
Pe(MTn-8)<x)^*(^^),
kde e2(il>,F) = -y~2 JRil>2(x)dF(x) a í je distribuční funkce normálního rozdělení Af(0,1). Pokud F má absolutně spojitou hustotu/s derivací /' a konečnou Fisherovu informaci 1(F) = J[f'(x)/f(x)]2dF(x), pak při speciální volbě p(x) = — log f(x) je M-odhad roven maximálně věrohodnému odhadu 8, jehož asymptotický rozptyl je roven Rao-Cramérově dolní hranici 1/T(F).
Jestliže ip(x) má body nespojitosti, je třeba, aby distribuční funkce F měla dvě derivace /, /' v jejich okolí. M-odhad je určen jednoznačně, pokud if> je neklesající, a to vztahy (3.12). Pak řešení
Tn úlohy P(Xi — 8) := min není obecně kořenem rovnice
E"=i Í>iXi ~ e) = °> ale Platí
n
n-ll2^2i>(Xi-Tn) = Op(n-112) při n-> 00 (3.56) i=i
a
MTn -e) = -4^        ~ e) + °p(n~1/4)>
*    ' i—l
7* = / f(x)di,(x), (3.57)
p9(v^(t„-*)<*H*(;^),
kde ct2(i/>, P) = (7*)~2 JRiJ!2(x)dF(x) a * je distribuční funkce normálního rozdělení Af(0,1).
Více o asymptotických reprezentacích M-odhadů, jakož i asymptotické reprezentace studentizovaných M-odhadů lze nalézt v [46].
3.4.2 L-odhady
Nechť Xi, X2,..., jsou nezávislá pozorování s distribuční funkcí F. Nejprve uvažujme lineární kombinaci pořádkových statistik Tn = 127=1 cmXn..i s koeficienty generovanými váhovou funkcí J buď podle (3.30) nebo podle (3.31) (L-odhad typu I). Omezíme se na useknuté L-odhady splňující J(u) = 0 pro 0 < u < a a. 1 — a <u < 1, 0 < a < ^. Předpokládejme, že distribuční funkce F je skoro všude spojitá a F_1(ií) je lipschitzovská v okolí bodů nespojitosti
3.4. ASYMPTOTICKÉ VLASTNOSTI
77
78        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
funkce J, kterých je nejvýše konečně mnoho. Pak při n —¥ oo Vň(Tn - T(F)) = n-1'2 JT Vi(Xi) + O^-1'2),
T(F)= í J(u)p-1(u)d«, (3.58) Jo
Mx) = ~ f{I[y > x] - F(y)}J(F(y))dy, ieK
JR
a v/ra(T„ — T(F)) má asymptoticky normální rozdělení JV(0, a2(J,F)), kde
a2(J,F).
JR
)dF(x)
/CO rOO /    J(F(x))J(F(y))[F(x A y) - F{x)F{y)]dxdy. -oo J —oo
Jestliže distribuční funkce F má absolutně spojitou hustotu / s derivací /' a konečnou Fisherovu informaci T(F) = = S\f(x)l'f(x)]2dF(x), pak volba váhové funkce
J (ti) = Jf(ií) :
1(F) '
fix)
0 < u < 1,    i>(x) = J-7J-t, x 6 ] J\x)
(3.59)
vede k asymptoticky vydatnému L-odhadu s asymptotickým rozptylem
a2(J,F)-.
1(FY
Všimněme si, že pokud je Jf(ií) = 0 pro 0 < u < a a l—a < u < 1,
Je = dl°gJ{X) = konst Pr° x < F-^a) ai> f^l - a), a tedy chvosty hustoty / klesají exponenciálně k 0.
Uvažujme odhad typu II, tj. lineární kombinaci konečně mnoha kvantilů Tn =        ajXn:[m]+1, 0 < pi < ... < pk < 1. Předpokládejme, že F je dvakrát diferencovatelná v F^ipj) a F' {F^ipj)) > 0, j = 1,..., k. Pak při n -> oo
K n
^{Tn - E ajF-1 (p,-)) = n-1'2     MXi) + Rn,
3 = 1 i=l
Rn = O (ra-1/4(log n)1/2(loglog n)1/4) skoro jistě,
(3.60)
2 (*) = E F(f%)) í» "1 ^J?_1^)] J '
má asymptoticky normální
rozdělení jV (0, JM V>| (a;)dF(a;)). 3.4.3 i?-odhady
Uvažujme iž-odhad T„ středu symetrie 8 distribuční funkce F(x — 8), vytvořený pořadovou statistikou Sn(ť) (3.41) pomocí vztahů (3.42), se skórovou funkcí (p(u), neklesající a integrabilní se čtvercem, 0 < u < 1. Předpokládejme, že F má absolutně spojitou hustotu / a konečnou Fisherovu informaci T(F). Pak při n —¥ oo
Vň(Tn - 8) = -L- Y V>(F(Xi - 8)) + Of i=i
(1),
(3.61)
3.4. ASYMPTOTICKÉ VLASTNOSTI
79
80        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
kde 7 = JM<p(F(x))(—f'(x))dx, a tedy \Jň~(Tn — 8) má asymptoticky normální rozdělení M (o, j~2 Jg tp2(u)duj . Speciálně, jestliže
volíme
<p{u) ■■
0 < u < 1,
dostaneme asymptoticky vydatný iž-odhad s asymptotickým rozptylem 1/1(F).
3.4.4   Asymptotické vztahy M-, L- a i?-odhadů
Nechť X1,X2,... je posloupnost nezávislých pozorování s distribuční funkcí F(x - 8), F(x) + F(-x) = 1 Vz, a nechť {Tln} a {T2n} jsou dvě posloupnosti odhadů 8. Jestliže ^/n(Tjn — 8) má při n —¥ oo asymptoticky normální rozdělení Af(0, a2), j = 1,2, pak podíl rozptylů e\t2 = c2/a2 nazýváme asymptotickou relativní vydatností {Tbn} vzhledem k {Ti„}. Alternativně, jestliže {T2ni} je založeno na n' pozorováních, pak y/ň(T2ni — 8) má asymptoticky normální rozdělení Af(0, a2), stejně jako y/ň(Tln — 8), jestliže posloupnost n' = n'(n) je volena tak, že existuje limita
hni —Tj-T-n->oo n'(n)
= ei,2.
Jestliže ei,2 = 1, znamená to, že {Ti,,} a {T2n} jsou stejně asymptoticky vydatné. V takovém případě dále srovnáváme {2i„} a {T2n} pomocí tzv. deficience {T2n} vzhledem k {Tln} : jestliže platí
Eä [n(Tnj - 8)2] = r2 + ^ + o^-1), j = 1,2,
pak defíciencí {T2n} vzhledem k {Tln} nazýváme
Jestliže n'(n) zvolíme tak, že
Eg[n(T2n, - 8)2] = Ee[n(Tln - 8)2] + 0{n-1),
pak
= lim \n'(n) — nl.
V předcházejících paragrafech jsme viděli, že M- a L-odhady založené na pozorováních s distribuční funkcí F mají stejné influ-enční funkce IF(x,T\, F)
= IF(x,T2,F), pokud J(u) = ^(F-^u)), 0 < u < 1. Podobné vztahy platí i mezi M- a iž-odhady a L- a iž-odhady. V těchto úvahách můžeme pokračovat dále: z asymptotických reprezentací paragrafů 3.4.1-3.4.3 plyne, že tyto odhady nejen mají stejné in-fluenční funkce, ale pokud {Tnl} a {Tn2} mají stejné asymptotické reprezentace, (až na tvar zbytku), pak jsou asymptoticky blízké ve snyslu
Vn~(T2n-Tln) = Rn = op(l) při
(3.62)
V tom případě říkáme, že posloupnosti odhadů {Tnl} a {Tn2} jsou asymptoticky ekvivalentní. Další informaci o vztahu {T„i} a {Tn2} získáme, podaří-li se nám odvodit přesný řád zbytku Rn ve (3.62), případně jeho asymptotické rozdělení, po vynásobení vhodnou mocninou n. Toto rozdělení už ovšem není normální.
Pro úplnost shrňme nejzajímavější z těchto asymptotických vztahů.
M- a L-odhady
Nechť X\,X2,... jsou nezávislé náhodné veličiny se stejnou distribuční funkcí F(x — 8) takovou, že F(x) + F(—x) = 1, x 6 R;
3.4. ASYMPTOTICKÉ VLASTNOSTI
81
82        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
nechť Xn:1 < Xn:2 < • • • < Xn:n jsou pořádkové statistiky příslušné Xi,..., Xn.
I. Nechť Mn je M-odhad d generovaný neklesající schodovitou funkcí t/>
ip(x) = ctj ... s j < x < Bj+i, j = 1,..., k, (3.63)
kde
-00 = So < Sl < ■ ■ ■ < Sk < = 00,
—oo < «o < «i < ... < ak < oo,
aj = -ak-j+i, s j = -Sk-j+i, j = l,...,k,
a alespoň dvě z čísel aj jsou různá. To znamená, že Mn je řešením minimalizace X)ľ=i PÍxi ~ í) = mm> kde p je spojitá, konvexní, symetrická a po částech lineární funkce s derivací p' = if> s. v. Předpokládejme, že -F má dvě ohraničené derivace /, /', / kladnou, v okolí si, ■ ■ ., Sk-
Pak L-odhad Ln, asymptoticky ekvivalentní M„, je lineárni kombinace konečně mnoha kvantilů,
Pi = F(sj)>   aj = -(ctj - aj-i)f(sj),
=       -<y-i)/fe) (>o);
(3.64)
a platí Mn — Ln = Op(^n *^ při
II. Předpokládejme, že F má absolutně spojitou symetrickou hustotu / a konečnou Fisherovu informaci T(F). Nechť Mn je Hu-berův M-odhad 8, generovaný funkcí if>
{x ...   \x\ < c
c ■ sign x   ...   \x\ > c, kde c > 0, a nechť Ln je a-useknutý průměr,
íi—[íia]
oř    i    / ^ Xnv.
2 T7.IT ^-^
n — 2[na.    , ,
1    ' «=[na]+l
kde a = 1 — F(c). Jestliže F dále splňuje f(x) > a > 0 a f(x) existuje pro
F_1(a-e) <x < F-^l-a + e), £ > 0, pak při tí —y oo
III. Nechť Ln je a-winsorizovaný průměr
f n-[na] "j
Ln = n\ ^na^X".lna]+i +   ^2   Xn:i + [na]Xn:n_[na] \ .
( i=[na]+l J
Pak za stejných podmínek jako ve II platí
Mn - Ln = Op , tí —y oo, (3.(
kde M„ je M-odhad vytvořený funkcí
F-1(l-«) + /(F_"1(a)) x>F-\l-a).
3.4. ASYMPTOTICKÉ VLASTNOSTI
83
84        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
IV. Nechť Ln = 2íLi CniX-n-.h Me koeficienty Cni jsou generovány funkcí J : (0,1) i-> R takovou, že
J(l - ti) = J(u), 0 < u < 1, / J(u)du = 1,
J(u) = 0 pro ti 6 (0, a) U (1 - a, 1), 0 < a < §,
J je spojitá v (0,1) až na konečně mnoho bodůsi,..., sm, kde a < si... < sm < 1 — a, a J je lipschitzovská v intervalech (a, si),(si,s2),..., (sm, 1 - a).
O distribuční funkci -F předpokládáme, že má symetrickou hustotu a že F_1(ti) = inf{a; : F(x) > ti} je lipschitzovská v okolí
sl: • • • i %i a
rA
J   f2(x)dx < oo,  kde A = F-1(l-a + £), £>0. Pak asymptoticky ekvivalentní M-odhad Mn je vytvořený funkcí ý(x) = - í (I[y >x]- F(y)) J(F(y))dy, ieK
JR
a platí
Mn-Ln = Op (n'1), n -> oo. (3.67) M- a iž-odhady
Nechť Jři,Jř2,... jsou nezávislé náhodné veličiny se stejnou distribuční funkcí F(x — ff) takovou, že F(x) + F(—x) = 1, x 6 R. Předpokládejme, že F má absolutně spojitou hustotu / a konečnou Fisherovu informaci T(F). Nechť <p : (0,1) i-> R je neklesající
skórová funkce, <p(l — ti) = —<p(ti), 0 < ti < 1 a Jg tp2(u)du < oo. Nechť
7 = -/ <p(F(z))/'(z)^ 0.
Nechť Rn je iž-odhad, definovaný v (3.41) a (3.42) se skóry an(i) =
V>+ (dr) > < = L---.We V+(«) = f ("ŕ).
0 < ti < 1. Nechť M„ je M-odhad vytvořený funkcí V>(ai) =
c<p(F(x)), 168, O 0. Pak
Mn-Rn = op , n -> oo. (3.68)
Speciálně, Hodges-Lehmannův iž-odhad je vytvořen skórovou funkcí <p(ti) = ti — ^, 0 < ti < 1, a tedy asymptoticky ekvivalentní M-odhad je vytvořen t/j-funkcí 4>(x) = F(x) — |, lEi
iž- a L-odhady
Kombinací předcházejících výsledků dostaneme asymptotické vztahy mezi R- a L-odhady; nemusíme je tedy podrobně rozepisovat. Jako zajímavý příklad uveďme iž-odhad, asymptoticky ekvivalentní a-useknutému průměru, který je generovaný skórovou funkcí
{F_1(a)        ... 0<u<a F_1(ti)        ...   a < ti < 1 — a F-^l-a)   ... l-a<u<l.
3.4.5   Minimaximálně robustní odhady
Většina odhadů Tn = T(Fn) má asymptoticky normální rozdělení, tj. při n —¥ oo rozdělení ^/n(Tn — T(F)) konverguje k normálnímu
3.4. ASYMPTOTICKÉ VLASTNOSTI
85
86        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
rozdělení
M (0,Vas(F,T)), kde Vas(F,T) = JRIF2(x,T, F)dF(x).
Jakožto míru robustnosti funkcionálu T (a odhadu Tn) můžeme uvažovat maximum asymptotického rozptylu Vas    T) přes určitou třídu T distribučních funkcí:
a2(T) = sup Vm(F,T).
Na druhé straně, uvažujme určitou třídu funkcionálu T, např. M-funkcionálů, a hledejme funkcionál To takový, že a2 (To) < a2 (T) VT 6 T. Jestliže takový funkcionál existuje, nazývá se mi-nimaximálně robustní, neboť splňuje
a2(T0) = inf sup Vas(F,T). (3.69) pep
Uvažujme speciální případ odhadu parametru polohy. Nechť X\,..., Xnje náhodný výběr z rozdělení s distribuční funkcí F(x— 8), kde 8 je neznámý parametr a f je neznámý prvek systému distribučních funkcí T. Nejčastěji se uvažují následující třídy T :
(i) Kontaminační model:
Tq = {F : F = (l-e)G + eH, H e V], (3.70)
kde G je pevná distribuční funkce, e 6 [0,1) je pevné číslo a H probíhá pevnou třídu V distribučních funkcí.
(ii) Kolmogorův model:
: sup|f (x) -G(x)\ < e \, e 6 [0,1) pevné. xem J
(3.71)
Nechť F0 6 T je distribuční funkce, která minimalizuje Fischerovu informaci na T (nejméně příznivé rozdělení systému T), tj.
l(Fo)= í (fr\)2dF0 = minl(F).
Nechť To je prvek třídy odhadů T, který je asymptotickým odhadem 8 pro distribuční funkci F0, tj. Vas(F0,T0) = X{Fa)• Jesťuze dále platí
= Vas(Fa,Ta) > sup Vas(F,T0), -Lyľo) Fef
pak
inf supVas(F,T) = -^— TeTFej- 1(F0)
tj. (3.72)
Vas(F0,T) > Vos(Fo,T0) > VM(F,T0)
VT 6 T a V-F 6 T. Minimaximálně robustní odhad existuje mezi M-, L- i fí-odhady v symetrickém kontaminačním modelu (Huber [37], Jaeckel [40]).
Minimaximálně robustní M-, L- a iž-odhady
Uvažujme kontaminační model (3.70), kde G je symetrická jedno-vrcholová distribuční funkce s dvakrát diferencovatelnou hustotou g takovou, že
(— log g(x)) je konvexní v x; nechť H probíhá symetrické distribuční funkce; označme tento systém T\. Nechť T(F) je M-funkcionál, definovaný jako kořen rovnice fKÍ>(x — T(F)) = 0.
3.4. ASYMPTOTICKÉ VLASTNOSTI
87
88        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
Pak
y (FT)      fsť(x-T(F))dF(x) 1
(JRV(x-T(F))dF(x))2-AFY
Huber [37] dokázal, že nejméně příznivé rozdělení třídy T\ má hustotu
(1 - e)g(x0)ekl-x-x^     ...      x < x0 h(x) = {  (1 - e)g(x) ...  x0<x<Xl (3.73)
(1 - e)g(x1)e-k{-x-x^   ... x>Xl
kde
Xn = —X\ = inf \x :   — ^      > —k\
{      sw J
a k > 0 je určeno vztahem
2            fxi 1 Tff(zi) + /    g(x)dx =--
a Tn je maximálně věrohodný odhad pro rozdělení f0, tedy M-odhad generovaný funkcí
i>a(x) ■■
a; < a;o a; > x\.
Z asymptotických vztahů v $ 3.4.4 hned plyne, že existují
i minimaximálně robustní L- a R- odhady; speciálně, minimaxi-
málně robustní L-odhad je vytvořen váhovou funkcí
J0(«) = ?7^tVÓ(^1(«)), 0<«<1
a minimaximálně robustní iž-odhad je vytvořen skórovou funkcí
<A>(«) = •>l>o(Fo~1(u))> 0 < ti < 1.
Důležitý speciální případ je minimaximálně robustní odhad v modelu kontaminovaného normálního rozdělení: v modelu (3.70) položme G = kde $ je distribuční funkce (0,1). Pak nejméně příznivé rozdělení má hustotu
1-e r-k2/2-k\x\
\x\ < k \x\ > k,
(3.74)
a tedy je normální v centrální části [—k, k] a exponenciální vně tohoto intervalu. Věrohodnostní funkce, příslušná /o, je
ip0(x) ■■
M = í
x ...   \x\ < k
k sign x   ...   \x\ > k což je známá Huberova funkce. Konstanta k > 0 je určena vztahem
Minimaximálně robustní M-odhad pro kontaminované normální rozdělení je generovaný funkcí ipo a je shodný s maximálně věrohodným odhadem příslušným hustotě f o- Minimaximálně robustní L-odhad je vytvořen váhovou funkcí Jo, která musí splňovat
1
Jo (Fo(x)) ■■
AFo)
I[-k <x<k], xel
a tedy je rovna
Mu) = j^rrl [Fa\-k) <u< F^ik)] , 0 < u < 1.
3.4. ASYMPTOTICKÉ VLASTNOSTI 89 90        KAPITOLA 3. ODHADY REÁLNÉHO PARAMETRU
Příslušný L-oďhad je a-useknutý průměr, kde a = k). Po-
dobně minimaximálně robustní fí-odhad pro kontaminované normální rozdělení je vytvořen skórovou funkcí <A>(«) = 4>o (F0'1(u)) > 0 < ti < 1.
92
KAPITOLA 4. LINEÁRNI MODEL
Kapitola 4
Robustní odhady v lineárním modelu
Úvod
Uvažujme lineární regresní model
Yi = x'i/3 + Uhi = 1,
(4.1)
kde Yi,...,Yn jsou pozorování, j3 e W je neznámy parametr, Xj 6 W, i = l,...,n jsou pevně dané vektory nebo náhodné pozorovatelné vektory (regresory) a U\, ...,Un jsou vzájemně nezávislé náhodné chyby se stejnou distribuční funkcí F. Distribuční funkce F je obecně neznámá; jen předpokládáme, že patří do určitého systému T distribučních funkcí. Označíme-li
Y = (Yu...,Yn)',
X = Xn = .
u = (í/i,..., uny,
můžeme (4.1) přepsat v maticovém tvaru Y = X/3 + U.
(4.2)
Nejznámějším odhadem j3 je klasický odhad metodou nejmenších čtverců j3. Pokud X je nenáhodná a má hodnost j>, je j3 roven
0 = (X'X)_1X'Y
(4.3)
Je-li F normální, je f3 maximálně věrohodným odhadem f3. Pro obecnou distribuční funkci F, která má konečný druhý moment, je podle známé Gauss-Markovovy věty j3 nejlepším nestranným lineárním odhadem j3. Protože j3 je rozšířením výběrového průměru na lineární regresní model, má i podobné vlastnosti, zejména je velmi nerobustní a citlivý k odlehlým pozorováním Yi, k odchylkám od normálního rozdělení chyb U, a selhává, pokud toto rozdělení má těžké chvosty. Avšak navíc je odhad j3 v lineárním regresním modelu silně ovlivněn regresní maticí X a je velmi citlivý k odlehlým hodnotám jejích elementů.
Chyby, způsobené odchylkami od předpokládaného modelu a od předpokládaného rozdělení pravděpodobností v lineárních modelech, zejména ekonometrických, mohou mít dalekosáhlejší důsledky než v modelu s parametrem posunutí. Proto právě zde musíme hledat robustní alternativy ke klasickým odhadům, jejichž hlavním představitelem je odhad metodou nejmenších čtverců.
91
4.1. metoda nemenších Čtverců
93
94
kapitola 4. lineární model
Než zavedeme robustní alternativy metody nejmenších čtverců, ukážeme, v čem spočívá vliv odlehlých prvků regresní matice X na chování odhadu j3.
4.1   Metoda nejmenších čtverců
Jestliže odhadneme j3 metodou nejmenších čtverců, pak regresní nadrovina prochází body (xj, Yj), i = 1,..., n, kde
ýá=x<3 = h<Y, j = l,...,n,
a    je i-tý řádek projekční matice H = X (X'X)-1 X'. Tedy Y = HY je projekcí vektoru Y do prostoru nad sloupci matice X. Protože H je projekční matice, platí hjhj = /ty, i, j = 1,..., n, a tedy
0 < ^2^ik =       — ha)      0 < ha < 1, i = 1,... ,ra,
(4.4)
IM < IN|||h,-|| = (hihji)* < 1, i,j = l,...,n.
Matice H je řádu n x n a hodnosti j>; její diagonální prvky leží v mezích 0 < ha < 1, i = 1,..., n a stopa írace(H) =        ''•i = Jestliže se stane, že /íjj = 1 pro nějaké i, pak
1 =
INI2 =
fc=l ■■ 0 pro j ^
£4 = i+IX
coz znamená, ze
Í5 =    = h^Y =     = yá,
a regresní nadrovina prochází bodem (xj, Yj), bez ohledu na hodnoty ostatních pozorování. Hodnota ha = 1 je extrémní případ, který však ukazuje, že vysoká hodnota diagonálního prvku h a matice H způsobuje, že regresní nadrovina prochází v blízkosti bodu (xj,Yj). Takový bod proto nazýváme vlivným (leverage) bodem množiny pozorování. V literatuře není shoda v názoru, kterou hodnotu ha je třeba považovat za vysokou. Je však známo, (viz např. [39]), že pokud EU, = 0 a 0 < a2 = EU? < oo, i = 1,..., n, pak
lim max ha
ra->oo 1<í<íi
= 0
je nutnou a postačující podmínkou k tomu, aby platilo B||3n-/3||2->0,
C^^-^iX-^^M^a2^)
při n —¥ oo, kde Ij, je jednotková matice řádu p.
Uvažujme, jaký vliv může mít maximální diagonální prvek matice H na pravděpodobnost velkých hodnot residuí odhadu j3; zdá se nám, že právě zde je vliv diagonály X na j3 nejnázornější.
Předpokládejme, že distribuční funkce F je symetrická podle nuly, tj. F(x) + F(—x) = 1, x 6 R, a má nedegenerované chvosty, tj. 0 < F(x) < 1, x 6 R Uvažujme následující míru chvostů odhadu j3
-logP^ (maxj|xí (3-/3)| > a)
-log(l-F(o))
(4.5)
Přirozeně očekáváme, že
JĽm Pp ^max |xJ(/3 - {3)\ > aj
4.1. METODA NEJMENSlCH Čtverců
95
a zajímá nás, kdy je tato konvergence nejrychlejší, a kdy naopak je velmi pomalá. Označme
h = max hu, hu = xJ(X'X)   Xj, i = 1,... ,n.
Ki<n
(4.6)
Následující věta popisuje vliv h na limitní chovaní B(a,j3) :
Věta 4.1 Nechť j3 je odhad j3 metodou nejmenších čtverců v modelu (4.2).
(i) Jestliže F má exponenciálni chvosty, tj.
-log(l - F(a)) lim -25--= 1, b > 0, pak
a-»co oa
h-1'2 < lim^Bía, 3) < IíS^SÍa, 3) < h,-1.
(ii) Jestliže F má exponenciálni chvosty s exponentem r, tj.
lim -Ml-^(a))=li 6>Q a r6(12]
pak
h1-r < lim„_^B(o,ď) < lim.j^Sía,^) < /rr.
(mj Jestliže F je normální, pak
lim S(a,3) = ft_1-
96
KAPITOLA 4. LINEÁRNI MODEL
(iv)   Jestliže F má těžké chvosty, tj.
-log(l-P(a))
lim -
a->oo
m log a
1, m > 0,
pak
lim S(a,3) = 1.
Věta 4.1 ukazuje, že veľká hodnota maximálního diagonálního prvku h matice H způsobuje, že pravděpodobnost Pg (maxj |xj (j3— j3\ > a) klesá k 0 s rostoucím a pomalu, i při normálním rozdělení chyb a při velkém počtu pozorování n. Zároveň vidíme, že při normálním rozdělení chyb vždy platí
limo^oo-Bía,^) < ■
(4.7)
přičemž rovnost nastává při vyrovnaném designu odpovídajícím hu =     i = 1,... ,n.
Důkaz věty 4.1. Bez újmy obecnosti předpokládejme, že h = h\\. Protože 0<ft<laíj = xJ/3 = h^Y, můžeme psát
P^(max|xJ(3-^)| >a)
= P0(max |híY| > a) > Po^Y > a)
i
> PoihY! > a, h12Y2 > 0,..., hlnYn > 0)
l\n-l_
> P0{Y1 > a/h) v2, Odtud vyplývá
limo^oo-B(a, 0) < lim
a-
:(l-F(a/h)) v5,
-log(l-F(o/ft)) -log(l-P(a))
l\n-l
(4.8)
4.1. METODA NEJMENSlCH ČTVERCŮ
97
98
KAPITOLA 4. LINEÁRNI MODEL
Jestliže F má exponenciálni chvosty s indexem r, pak ze (4.8) dále plyne
Ľm^BíaJ) < liS^oo^^ = h-\ (4.9)
což dává horní hranici v (i) a (ii). Pro -F s těžkými chvosty ze (4.8) plyne
15^5(0,3) < lirn^"11"^0^ = 1 (4.10) m log a
a odtud plyne (iv), protože 0 má alespoň jeden kladný a alespoň jeden záporný residuál, a tedy lima_>^B(a, 0) > 1.
Na druhé straně, jestliže F má exponenciálni chvosty s exponentem r, 1 < r < 2, pak s užitím Markovovy nerovnosti můžeme psát pro libovolné e 6 (0,1)
(max |xj (3-/3)| > a) (4.11)
< g0[exp{(l - £)6/t1-r(maxj \Ýj\r)}] exp{(l -e)bhl-rď}
a tedy pokud můžeme ověřit, že
E0[exp{(l -e)6ft1-r(max|ýi|)'"}] < Cr < oo, (4.12) i
pak bude platit
-logPo(max|ýi| > a) > - log Cr + (1 - e)bhl-rar, i
a odtud dostaneme dolní hranici ve (ii) a vlastně také dolní hranici pro normální rozdělení ve (iii). Musíme tedy dokázat konečnost střední hodnoty ve (4.12). Označme ||x||s = \xí\s)1/s , s > 0
a položme s =      (> 2). Pak (s přihlédnutím ke vztahu J2k=l ^lk = hii)
(max|ýi|)r = max|hjYľ" < max(||hi||s||Y||r)r
i i i
< nua(£/&)r/' E ™ í       E ly*r.
*    k=l k=l k=l
a tedy
E0 exp{(l -£)«i1-r(max|ýj|''}
i
n
< E0 ezpttl - E)bY,\Yk\r}
k=l
<(E0exp{(l-£)&|Y1r})'\
Má-li F exponenciální chvosty s exponentem r, pak existuje K > 0 takové, že pro x > K platí 1 — F(x) < exp{—(1 — ^bxr} = Ck a integrací per partes dostaneme
0<Bo[exp{(l-£)6|y1|'-}]
rOO
= -2 /   exp{(l - e)byr}d(l - F(y)) (4.13) Jo
<2 i*eM(í-cW}dF(y) Jo
+2 exp{(l - e)bKr}{l - F(K))
rOO
+2 /   r(l - 6)6yr-1(l - F(y))exp{(l - e)byr}dy
jk
4.1. metoda nemenších Čtverců
99
100
kapitola 4. lineární model
<2 ľ exp{(l ~ e)byr}dF{y) Jo
+2(1 - F(K))exp{(l - e)bK2}
rOQ
+2 /   r(l - ^V^expí-Jk
a tím jsme dokázali (4.12) pro 1 < r < 2. Pro r = 1 postupujeme takto: nejprve si uvědomíme, že ze (4.4) vyplývá \h,j\ < \fhii, i, j = 1,..., n, a tedy
max\Yj\ = max\h!iY\ = max| fHjYA
.7=1
n n < max      ^ 1^1 < ft1/2 ^
i3 -i -i
.7=1 .7=1
Z Markovovy nerovnosti vyplývá
- £0 exp{(l - ejft/r1/2 maxj |ýž|}
P0 max Yá > a) < -—- - -
« exp{(l - £)6/í-1/2a}
< (Cg exp{(l- e)6|Yi|»" ~   exp{(l -e)bh-ll2a\
a ze (4.13) vyplývá, že E0 exp{(l — e)&|Yi|} < oo; odtud dostaneme dolní hranici v (i).
Jestliže F je distribuční funkce normálního rozdělení (0, a2), pak Y — X/3 má n-rozměrné normální rozdělení J<fn (o, ct2h) , a tedy
P0(max     > a) > Pq^Y > a) = 1 - ^{aa^hT112)
a limo_>o0S(a,í3) < h 1.
4.2 M-odhady
M-odhad parametru /3 v modelu (4.1) je definován jako řešení M„ minimalizace
n
(4.14)
^2p(Yi -xjt) := min
vzhledem k t 6 Rp, kde p : Ri i-> Ri je absolutně spojitá, obvykle konvexní funkce s derivací if>. Zřejmě M„ je ekvivariantní vzhledem k regresi, tj.
M„(Y + Xb) = M„(Y) + b Vb 6 1
(4.15)
ale M„ obecně není ekvivariantní vzhledem k měřítku: obecně neplatí
M„(cY) = cM„(Y) pro O 0. (4.16)
M-odhad, ekvivariantní vzhledem k měřítku, získáme buď studen-tizací nebo tak, že zároveň s regresním parametrem odhadujeme měřítko. Studentizovaný M-odhad je řešením minimalizace
(4.17)
kde Sn = Sn(Y) > 0 je vhodná škálová statistika. Aby M„ bylo ekvivariantní vzhledem k regresi i k měřítku, je třeba, aby škálová statistika Sn byla invariantní vzhledem k regresi a ekvivariantní vzhledem k měřítku, tj.
S^Y + Xb)) = cSn(Y) Vb eRp a O 0. (4.18)
4.2. M-ODHADY
101
102
KAPITOLA 4. LINEÁRNI MODEL
Takovou statistikou je např. odmocnina z residuálního součtu čtverců,
^(Y) = [(Ý - Y)'(Ý - Y)]1/2 = [Y'^ - H)Y]1/2,
ale ta je úzce spojena s odhadem metodou nejmenších čtverců a tedy nerobustní. Robustní škálové statistiky mohou být založeny na regresních kvantilech nebo regresních pořadových skórech, o kterých se zmíníme později.
Minimalizace (4.17) musí být doplněna pravidlem, jak definovat M„ v případě, že Sn(Y) = 0; ve většině případů však toto nastane s pravděpodobností 0 a speciální tvar pravidla nemá vliv na asymptotické chování M„.
Jestliže ip(x) = je spojitá funkce, pak M„ je kořenem soustavy rovnic
gX4^)=°- (419)
Tato soustava rovnic však může mít více kořenů a pouze jeden z nich vede ke globálnímu minimu úlohy (4.17). V knize [46] je dokázáno, že za obecných podmínek vždy existuje alespoň jeden kořen (4.19), který je ^/re-konsistentním odhadem j3. Jestliže ip je neklesající schodovitá funkce, a tedy p je konvexní, po částech lineární funkce, pak Mn je bodem minima konvexní funkce 127=1 P((^í — xí*)/^n) P^es t 6 Rj,, a i v tomto případě můžeme dokázat jeho konsistenci a asymptotickou normalitu.
Měřítko zároveň s regresním parametrem můžeme odhadovat různými způsoby: např. (M„, a) je řešením minimalizace
n
^2 a p {a~1(Yi - x<t) + ao := min, t 6 Rp, a > 0, (4.20)
«=i
kde a > 0 je vhodná konstanta. Tato minimalizace vede k soustavě p + 1 rovnic
i — l X 7
Žxp^)=a, (4.21)
i—1      ^ ^
kde     x(x) = xi/>(x) — p(x) a a= / x(x)d&(x)
Jk
a $ je distribuční funkce Af(0,1). Za funkci ip se obvykle volí Huberova funkce (3.15).
Matice X může být náhodná, nenáhodná i smíšená, tj. některé prvky X jsou pevné a jiné náhodné. Při náhodné matici X je třeba vzít v úvahu i možné rozdělení pravděpodobností řádků X a influenční funkce závisí na dvou argumentech, x a y. Podobně i bod selhání odhadu je třeba uvažovat nejen vzhledem k možným změnám pozorování y, ale i pozorování x.
Asymptotické vlastnosti M-odhadů s pevnou maticí X jsou podrobně studovány v knize [46]. Pro ilustraci uvedeme asymptotické rozdělení pravděpodobností M-odhadu v nejjednodušším případě, tj. nestudentizovaného M-odhadu s nenáhodnou maticí X.
4.2.1   Asymptotické rozdělení M-odhadu s nenáhodnou maticí
Předpokládejme, že distribuční funkce F chyb U, v modelu (4.1) je symetrická podle nuly. Uvažujme M-odhad M„ jakožto řešení minimalizace (4.14), kde ip = p' je lichá, absolutně spojitá a předpokládejme, že Ejrip2(Ui) < oo. O matici X = X„
4.2. M-ODHADY
103
104
KAPITOLA 4. LINEÁRNI MODEL
(n)
předpokládejme, že má hodnost p a že maxi<j<„ htí —> 0 při n —¥ oo, kde htí je maximální diagonálni element projekční matice H„ = X„(XJlXJl)_1XJl. Pak při n —¥ oo platí
M„      p (4.22)
C {(X'nXny/2(Mn -0)}^AÍp (0, a2{i>, F)lp)),
kde a2(i>,F)
(EFV'(í/i))2
Jestliže za stejných předpokladů ^XJ,X„ —> Q, kde Q je pozitivně defínitní matice řádu p x p, pak
C{V^(Mn -/3)}^Af„ (0, a2(i>, F)Q-1).
Jestliže V může mít skoky, ale je neklesající, a F je absolutně spojitá s hustotou /, pak (4.22) zůstává v platnosti s tím rozdílem, že
EFV2(í7i)
a {4>, F) ■-
(JRf(x)di,(x))2
Všimněme si, že a2(ip, F) je totéž jako ve (3.54) u asymptotického rozdělení M-odhadu parametru polohy. Asymptotické rozdělení studentizovaného M-odhadu závisí na vlastnostech studentizující statistiky Sn.
4.2.2   Influenční funkce M-odhadu s náhodnou maticí
Uvažujme model (4.1) s náhodnou maticí X, ve kterém (xj, Yj)', i = 1,...,n jsou nezávislé náhodné vektory s hodnotami v Rp x li,
stejně rozdělené s distribucí P(x, y). Jestliže p má absolutně spojitou derivaci ip, pak statistický funkcionál T(P), příslušný odhadu (4.14), je řešením soustavy p rovnic
- x"r(P)dP(x,
(4.23)
Uvažujme kontaminované rozdělení
Pt = (1 - t)P + íí(x0, y0), 0 < í < 1, (x0, y0) 6 Rp x R,
kde í(x0,yo) je rozdělení pravděpodobností degenerované v bodě (xo>yo)- P^k funkcionál T(Př) je řešením soustavy rovnic
(1 - í) / xV
■i!T(Pt))dP(x,y)
+íx0V(yo-x'0T(Pi)) = 0. Derivováním podle í dostaneme
x,/>(y - x'T(Př))dP(x, y) + x0V(yo - x0T(Př))
-(1-í)
J«„+1 dt
-íx'0x0^^V'(yo - x0T(Př)) = 0.
Influenční funkci IF(xn, yn; T, P) = ^iT'^ dostaneme, položíme-li í = 0 a uvědomíme si, že vzhledem ke (4.23) je /K    xj/^y —
4.2. M-ODHADY
105
106
KAPITOLA 4. LINEÁRNI MODEL
x'T(Př))dP(x,y)=0:
IF(x0,y0;T,P) / x'xV>'(y-x'T(P))dP(x,y)
= xoV(yo-x'0T(P)), a tedy influenční funkce M-odhadu má tvar
IF(x0, y0; T, P) = B^xoVKyo - x'0T(P)), (4.24)
kde
B = f    x'xV%-x'T(P))dP(x,y). (4.25)
Vidíme, že volbou ip lze dosáhnout toho, aby influenční funkce (4.24) byla ohraničená vzhledem k y0; influenční funkce M-odhadu je však neohraničená vzhledem k x0, a tedy M-odhad je nerobustní vzhledem k X. To vedlo řadu autoru k zavedení zobecněných M-odhadů, tzv. GM-odhadů, které vhodnými vahami vyrovnávají vliv odlehlých hodnot x.
Asymptotické vlastnosti M-odhadu s náhodnou maticí
Jestliže soustava rovnic
EP[xV>(y -x't) =0 má jediné řešení T(P) = j3, pak
T(P„) -> T(P)
při n —¥ oo, kde P„ je empirické rozdělení příslušné pozorováním ((xi, yi),..., (x„, y„)). Za určitých podmínek na rozdělení pravděpodobností P platí asymptotická reprezentace
T(P„) = T(P) + iIF(x, y; T, P) + o^n-1'2).
Jestliže Ep||IF(x, y; T, P) ||2 < oo, dostaneme odtud asymptotické rozdělení pravděpodobností T(P„) :
clMnp^-np))}^^^,^), (4.26)
kde
S = Ep[IF(x, y; T, P)]'[IF(x,y; T, P)] = B 1AB"1, B je matice definovaná ve (4.25) a
A = í x'xV>2(y-x'T(P))dP(x,y). 4.2.3 GM-odhady
Influenční funkce (4.24) M-odhadu je neohraničená vzhledem k x, a tedy M-odhad je citlivý k případným vlivným bodům v matici X. Tuto skutečnost nemůžeme ovlivnit volbou funkce ip. Rada autorů navrhla doplnit definici M-odhadu vhodnými vahami w, které redukují vliv velkých hodnot xy.
Mallows [54], [55] navrhl zobecněný M-odhad jako řešení minimalizace
Y^, <?w(*i)p (  '     ' j := min, t 6 Rp, a > 0. (4.27)
4.2. M-ODHADY
107
108
KAPITOLA 4. LINEÁRNI MODEL
Jestliže if> = p' je spojitá, je zobecněný M-oďhad kořenem rovnice J2^w{^(^£\ =0 (4.28)
i—l ^ /
a influenční funkce příslušného funkcionálu T(P) je rovna
IF(x,y;T,P) = B"1™^)^ (""jff^) - (4-29)
kde S^P) je funkcionál, příslušný řešení a v minimalizaci (4.27). Ohraničené influenční funkce dosáhneme volbou w, při které je xii!(x) ohraničené.
Takto definovaný odhad je speciálním případem následujícího GM-odhadu, který je řešením soustavy rovnic
(4.30)
kde rj, x jsou funkce, rj-.Mp xRi->Rax:R,->R.
Odhadu metodou nejmenších čtverců odpovídá volba
r;(x, ií) = ií a x(u) = u2 — l,
M-odhadu volba r;(x, «) = ip(u) a Mallowsově GM-odhadu odpovídá volba
r;(x, ií) = ií)(x)i/)(ií).
Obvyklá volba funkce rj je r)(x, ií) = ^jffi^Mi kde V je např. Huberova funkce. Funkce % se obvykle volí stejně jako ve (4.21).
Statistické funkcionály T(P) a S(P) odpovídající M„ a an jsou definovány implicitně jako řešení soustavy rovnic:
(4.31)
Influenční funkce funkcionálu T(P) ve speciálním případě a = l má tvar
IF(x,y;T,P) = B_1xn(x, y - x'T(P)),
kde
= f x'x
9ti
r;(x, «)
«=a-x'T(P)
dP(x,
Asymptotické vlastnosti GM-odhadů studovali Maronna a Yohai [56]. Za určitých podmínek jsou GM-odhady silně konsistentní a v/ři(T(PJl) — T(P)) má asymptoticky p-rozměrné normální rozdělení jVp (0, S) s kovarianční maticí S = B 1AB kde
A = /     x'x7)2(x,y -x'T
(P))dP(x,
Krasker a Welsch [51] navrhli GM-odhad jako řešení soustavy rovnic
" Y--'t ^Xjiuj—-= 0
4.3. L-ODHADY
109
110
KAPITOLA 4. LINEÁRNI MODEL
s vahami = u>(xj, Yi, t) > 0, které jsou určeny tak, aby maximalizovaly asymptotickou vydatnost odhadu (vzhledem k asymptotické kovarianční matici S) za omezení 7* < a < 00, kde 7* je globální citlivost funkcionálu T vzhledem k rozdělení P, tj.
7* = sup [(IF(x, y; T, P))' S"1 (IF(x, y; T, P))]1/2 . Řešením jsou váhy ve tvaru
ií)(x, y, t) = min < 1, 1-j—-- > ,
\ |^|(x'Ax)i/2J
kde
A = [ x,xf^^N)tí)2(x,y,t)dP(x,y). Jkp+1      V    ° )
Krasker-Welschův odhad má ohraničenou influenční funkci, ale je třeba ho počítat iteračně, protože matice A závisí na w.
4.3 L-odhady
L-odhady parametru polohy ve tvaru lineárních kombinací pořádkových statistik nebo funkcí pořádkových statistik jsou velmi atraktivní, protože jsou definovány explicitně a snadno se vypočítají. Proto se přirozeně statistikové snažili rozšířit L-odhady na lineární regresní model. Toto rozšíření však není snadné, protože neexistovalo žádné přirozené rozšíření empirického (výběrového) kvantilu na regresní model. To se podařilo až Koenkerovi a Bas-settovi [50], kteří v r. 1978 definovali regresní a-kvantil /3(a) pro
model (4.1) za předpokladu, že /3i je absolutní člen, tj. že matice X vyhovuje podmínce
xa = 1, i = 1,... ,n. (4.32)
Regresní a-kvantil /3(a), 0 < a < 1, je definován jako řešení minimalizace
ra
Pa (Yi - xjt) := min, t 6 Rp, (4.33)
i=l
kde
pa(x) = \x\{al[x > 0] + (1 - a)I[x < 0]}, iěR (4.34)
Protože pa (x) je konvexní, po částech lineární funkce x, je nasnadě myšlenka řešit minimalizaci (4.33) upravenou simplexovou metodou. Skutečně, Koenker a Bassett navrhli počítat /3(a) jako složku f3 optimálního řešení (/3,r+,r~) úlohy parametrického lineárního programování
a^2rt + í1 - <*) X)r«r: min
i=l i=l za podmínky (4.35) p
Y^XijPj + ri -r^ = Yh j = l,...,n;
3=1
/3,-eMi, j = l,...,p, rj,r^ > 0, i = l,...,n, 0 < a < 1.
Proměnné r^" a rt~ v (4.35) jsou rovny kladné a záporné části residuí Yi — x^/3, i = 1,..., n.
4.3. L-ODHADY
111
112
KAPITOLA 4. LINEÁRNI MODEL
Úloha (4.35) nám nejen umožňuje vypočítat regresní kvantily simplexovou metodou, ale zároveň vypovídá o struktuře regresních kvantilů. Z teorie lineárního programování víme, že množina B(a) řešení (4.35) (a tedy i (4.33)) je neprázdná, kompaktní a polyedrální. Pokud není dáno jiné omezení, lze volit 0(a) jako lexikograficky maximální element B (a). Jakožto funkce argumentu a 6 (0,1) je 0(a) schodovitou funkcí a.
Asymptotické vlastnosti 0(a) jsou analogické vlastnostem výběrových kvantilů v modelu s parametrem posunutí. Populačním partnerem (statistickým funkcionálem) příslušným j3(a) je populační regresní kvantil
0(a) = (A + F-1(a),p2,..., PP)' (4.36)
a jestliže distribuční funkce F chyb v modelu (4.1) je symetrická a ryze rostoucí v okolí F~ľ (a) s derivací / a matice X„ je buďpevná a lim,,^^ iXnX„ = Q nebo je náhodná (až na první sloupec) a lim,,^^ Ex'jXi = Q, kde Q je pozitivně defínitní matice řádu p x p, pak y/ň(j3n(a) — 0(a)) má asymptoticky p-rozměrné normální rozdělení
což je ve shodě s asymptotickým rozdělením výběrového a-kvantilu odpovídajícího matici X = 1„ = (1,..., 1)' 6 R„.
Máme-li k dispozici regresní kvantily, můžeme definovat řadu L-odhadů parametru j3 v lineárním regresním modelu. Nejzná-mější je Li-odhad, neboli regresní medián, což je regresní a-kvantil s a = 1/2. Dále můžeme uvažovat L-odhady, které jsou rovny lineární kombinaci konečně mnoha regresních kvantilů. Z hlediska praktického použití je nejzajímavější useknutý odhad metodou nej-menších čtverců, který navrhli Koenker a Bassett [50], a který je
rozšířením useknutého průměru na lineární regresní model: Zvolme ati, a2, 0 < «i < a2 < 1 a položme
Oj = I [x$n(<*i) <Yi< *í3n(a2)] - (4-38)
a vypočtěme vážený odhad metodou nejmenších čtverců s vahami Oj, i = 1,..., n. Tento odhad Tn(ai, a2), který nazveme (a\,a2)-useknutým odhadem metodou nejmenších čtverců, můžeme psát v explicitním tvaru
Tn(ai, a2) = (X^X^-XAnY,,, (4-39)
kde A„ = diag(aj) je diagonální matice s diagonálou (oi,...,o„).
Za určitých podmínek regularity kladených na matici X„ a distribuční funkci F (která má být rostoucí a diferencovatelná v intervalu (F^1(ai) — e, F^1(a2) + e)) lze ukázat, že Tn(ai, a2) má asymptoticky normální rozdělení; přesněji řečeno,
£ {vAÍ(Tn -P- íei)} -> Afp (0, ^CT1), (4.40)
kde ei = (1,0,... ,0)' 6 K,, a
rot2
S=(a2-a1)-1 / F-^ujdu,
a2 = a2(ai,a2,F) (4.41)
= (a2 - ai)-1! J°° a2(F-\u) - Sfdu
+a1(F-1(a1) - S)2 + (1 - a2)(F-l(a2) - Ô)2 - [a^F-1^) - S) + (1 - a2)(F-l(a2) - S)}2).
4.3. L-ODHADY
113
114
KAPITOLA 4. LINEÁRNI MODEL
V symetrické situaci, kdy F(x) + F(—x) = 1, x 6 R a ct\ = a, «2 = 1 — 0;, 0 < a < ^, je ô = 0 a \Jň(Tn(a) — j3) má asymptoticky normální rozdělení A/^O, a2(a, F)Q_1), kde
a2 (a, F) ■■
Ca(F-1(u))2du + 2a(F-í(a))2
l-2a
(4.42)
Všimněme si, že a2 (a, F) se shoduje s asymptotickým rozptylem a-useknutého průměru v modelu s parametrem posunutí.
Vedie useknutého odhadu metodou nejmenších čtverců můžeme uvažovat obecnou třídu L-odhadů tvaru
■f
Jo
Pn(a)dv(a),
(4.43)
kde v je vhodná znaménková míra na (0,1) (konečná a s kompaktním nosičem, který je podmnožinou (0,1)). Atomická míra v vede ke kombinaci konečně mnoha regresních kvantilů. Jiné rozšíření («i,«2)-useknutého průměru dostaneme, jestliže v je absolutně spojitá vzhledem k Lebesgueově míře s hustotou
J(U)-
I\a\ <u< «2]
O < «1 < «2 < 1.
Na rozdíl od M-odhadů jsou L-odhady regresního parametru ekvi-variantní nejen vzhledem k regresi, ale též vzhledem k měřítku. L-odhady různých typů a jejich vlastnosti lze nalézt např. v [26], [27] a [46].
4.3.1   Regresní pořadové skóry
K úloze lineárního programování (4.35) přirozeně existuje duální úloha. Řešení této duální úlohy má velmi zajímavou interpretaci:
zatímco řešení úlohy (4.35) jsou regresní kvantily, řešení duální úlohy, zvaná regresní pořadové skóry, mají řadu vlastností podobných vlastnostem pořadí pozorování.
Napišme úlohu duální ke (4.35) ve tvaru
n
Yiéi := max    za podmínky
i=i
n
Y^a, = n(l -a), (4.44) i=i
n n
X xíj&í = (1 - a) X xih 3 = 2> • • • >í>> «=1 «=1
O < áj < 1, i = 1,... ,n, O < a < 1.
Optimální řešení úlohy (4.44)
&n(a) = (ánl(a),...,ánn(a))', O < a < 1
nazveme regresní pořadové skóry. Přepišme úlohu (4.44) v maticovém tvaru (a připomeňme si, že podle předpokladu (4.32) je xn = 1, i = 1,..., n):
~Y'nä := max    za podmínky
X'ná=(l-a)X'nln, ä 6 [0,1]", O < a < 1.
(4.45)
Z této formy je vidět, že regresní pořadové skóry jsou invariantní vzhledem k parametru j3, tj.
án(a,Y + Xb) = án(a,Y) Vb 6 ]
(4.46)
4.4. ROBUSTNÍ SKÁLOVÉ STATISTIKY
115
116
KAPITOLA 4. LINEÁRNÍ MODEL
f 1
Oni («) = i
l o
(4.47)
Z duality 0(a) a än(a) vyplývají vztahy
Yi > x@n(a),
0   ...   Yi<x$n(a),  i = l,...,r.
a pokud Yi = Xj/3n(a), je 0 < ani(a) < 1; těchto složek je přesně p. Jakožto funkce a je ani(a) spojitá, po částech lineární funkce, ôni(O) = 1, Ô„j(l) = 0.
Regresní pořadové skóry mají řadu aplikací. Invariance (4.46) zaručuje, že pokud v nějaké statistické úloze je j3 rušivým parametrem, zatímco chceme testovat hypotézu o jiném parametru nebo o tvaru rozdělení chyb, testy založené na regresních pořadových skórech jsou vzhledem k j3 invariantní a tedy j3 není třeba odhadovat. To nejen usnadňuje výpočet, ale tím se též vyhneme riziku, že bychom j3 odhadli nevhodným odhadem. Testy lineárních hypotéz s rušivým parametrem j3, založené na regresních pořadových skórech, jsou zkonstruovány ve [28]. Jako jinou aplikaci zmiňme škálové statistiky, založené na regresních pořadových skórech, podrobněji popsané v následujícím odstavci; tyto statistiky jsou invariantní vzhledem k regresi a ekvivariantní vzhledem ke změně měřítka, což je žádoucí např. při studentizaci M-odhadů. Více o regresních pořadových skórech se dozvíme např. v [19] nebo [46].
4.4   Robustní škálové statistiky
Pro studentizaci M-odhadů i v mnoha jiných souvislostech potřebujeme škálovou statistiku ^„(Y), která je invariantní vzhledem k regresi a ekvivariantní vzhledem ke změmě měřítka, tj. vyhovuje identitě
Sn(c(Y + Xb)) = cSn(Y) Vbel
o o, Yei
(4.48)
(viz (4.18)). Takových statistik není v literatuře mnoho a někteří autoři užívají statistiky, které jsou invariantní jen vzhledem k posunutí, ale nikoli k regresi, aniž by si uvědomili, že studentizovaný odhad tím ztrácí svou regresní ekvivarianci. Proto v této části popíšeme některé statistiky tohoto typu; pojmy k tomu potřebné již
(i) Mediánová absolutní odchylka od regresního mediánu (MAD). Statistika MAD je hojně používána v modelu s parametrem posunutí. Na lineární regresní model ji rozšířil Welsh [73]. Nechť j3° je počáteční odhad j3, který je ^/ra-konsistentní a ekvivariantní vzhledem k regresi i k měřítku (tedy nikoli např. obyčejný M-odhad). Pak Welshova škálová statistika má tvar
= medi
1509°)-Éi 09°)
(4.49)
kde
Yi(0P) = Yi-^°, i = l, íi(0°) = med1<i<nYi(0°).
Tato statistika zřejmě splňuje (4.48). Její asymptotické vlastnosti lze nalézt v [73].
(ii) L-statistiky založené na regresních kvantilech.
Eukleidovská vzdálenost dvou regresních kvantilů
/3„(<*2) -^n(«l)
(4.50)
0 < «i < a2 < 1, zřejmě vyhovuje (4.48) a S„ -^-> S(F) = F~1(ct2) —F^1(a\). Další asymptotické vlastnosti Sn plynou
4.4. ROBUSTNÍ SKÁLOVÉ STATISTIKY
117
118
KAPITOLA 4. LINEÁRNÍ MODEL
např. z vět ve [63]. Eukleidovská norma může být nahrazena Lp-normou nebo jinou vhodnou normou. Jiná možnost je uvažovat pouze rozdíl prvních složek regresních kvantilů. tj.
Sn = Äil(<*2) -Äii(ai) •
Obecněji, Bickel a Lehmann [8] navrhli několik měr rozpětí rozdělení í1, např.
S{F):
[F-^-F-^l-iOfdAO)
1/2
kde A je rovnoměrné rozdělení na (5,1 — S), 0 < ô < 5; to nás vede k zavedení třídy škálových statistik založených na regresních kvantilech typu
Sn -
1/2
\\í3n(u) - 0n(l - u)\\ dA(u)\
(iii) Odhady l/f(F^1(a)) založené na regresních kvantilech. Tyto odhady zobecňují odhady, navržené Falkem [22], na lineární regresní model; jejich asymptotické a další vlastnosti jsou studovány ve [19]. Můžeme uvažovat odhad typu histogram
H(c) = fl»l(" + "n)-Ä»l("-"n) (4 51)
1vn
kde
vn = o\n 1I2\ a   lim nvn -
Jiným odhadem l/f(F 1(a)) je jádrový odhad s jádrem k : Mi i-> Mi, které má kompaktní nosič a vyhovuje vztahům
J k(x)dx = 0 a J xk(x)dx = —1.
Jádrový odhad má tvar
XÍ?' = ^ f Mu)k (^) du, (4.52) vn JO \   vn I
kde
vn —> 0, nv„ —> 00, nvi —> 0
při n —¥ 00. Oba odhady jsou v/řií^-konsistentními odhady l//(-F_1(a)), vyhovujícími (4.48). Vzhledem k jejich nižšímu řádu konsistence (který plyne z povahy problému a nelze jej za daných podmínek výrazně zlepšit) se nepoužívají ke studentizaci, ale jsou nutné např. při statistické inferenci o kvantilech rozdělení F.
(iv) Skálové statistiky založené na regresních pořadových skórech. Nechť (ani(a),..., dnn(ct)), 0 < a < 1 jsou regresní pořadové skóry pro model (4.1). Zvolme neklesající skórovou funkci ip : (0,1) i-> Mi standardizovanou tak, že J"^ 00 <p2(ct)da = 1 pro pevně zvolené «o, 0 < «o < 5. Vypočtěme skóry
/■1-ao
Ki = -l       <p(a)däni(a), i = l,...,n. J ao
Škálová statistika
Sn = -JTlYibni (4.53)
4.5. JEDNOKROKOVÉ VERZE ODHADŮ
119
120
KAPITOLA 4. LINEÁRNÍ MODEL
vyhovuje (4.48) a je ^/ři-konsistentním odhadem funkcionálu S(F) = S1a-a°v(<x)F-l(a)da.
4.5   Jednokrokové verze odhadů
Mnoho odhadů, jako M-odhady, regresní kvantily a maximálně věrohodné odhady jsou definovány implicitně jako řešení minimalizace nebo soustavy rovnic. Někdy může být obtížné vyřešit tento problém algebraicky, jindy může existovat více řešení a pouze jedno z nich je vydatné apod. V souvislosti s M-odhady jsme se již zmínili, že mezi kořeny soustavy rovnic (4.19) existuje alespoň jeden v/ři-konsistentní odhad, ale nevíme jak rozhodnout, který z kořenů to je.
V mnoha případech lze eficientní kořen soustavy rovnic aproximovat tzv. jednokrokovou verzí, což je vlastně první krok Newton-Raphsonova iteračního algoritmu řešení algebraických rovnic. Ilustrujme tento přístup na jednokrokové verzi M-odhadu v lineárním regresním modelu (4.1), vytvořeného funkcí p, která derivaci ip, a studentizovaného škálovou statistikou Sn = Sn(V).
Procedura začíná počátečním odhadem m4°' parametru /3j konsistentním s řádem sjň~. Jednokroková verze M-odhadu je dána vztahem
M
(0)
(4.54)
kde
-x,;M
(0)
a 7n je odhad funkcionálu 7 = l/S(F) JRil>'(x/S(F))dF(x) nebo 7 = JM f(xS(F))dip(x) podle toho, zda volená funkce ip generující M-odhad je spojitá nebo nespojitá. Např. u absolutně spojité ip můžeme použít odhad
1 "
(v -x'M(0)
nS,
MÍ1' je dobrou aproximací konsistentního M-odhadu M„: pokud ip je dostatečně hladká, lze dokázat
HM^-M^IHO^n-1),
zatímco za přítomnosti skoků ve funkci ip platí
\\Mn-Mm\\ = Op(n-3/4).
Více o jednokrokových verzích lze nalézt v [7], [45], [48], [68] a pro í;-krokové verze v modelu posunutí též [44]. Obecně lze říci, že jednokrokové verze dávají dobré aproximace pro M-odhady s hladkými funkcemi ij>.
4.6   Odhady s vysokým bodem selhání
Bod selhání odhadu v lineárním modelu bere v úvahu nejen možná nahrazení pozorování Y\,..., Yn libovolnými hodnotami, ale též
4.6. ODHADY S VYSOKÝM BODEM SELHÁNI
121
122
KAPITOLA 4. LINEÁRNI MODEL
možná nahrazení vektorů xi,... , xn. Přesněji řečeno, naše pozorování tvoří matici
	r -i i		' xí,   3/1 "
z =		=	*2, Ví
			
a bod selhání odhadu T parametru j3 je nejmenší celé číslo m„(Z) takové, že nahradíme-li libovolných m řádků v matici Z libovolnými jinými řádky a označíme vzniklý odhad TJ,, pak sup ||T — TJJI = oo, kde supremum bereme přes všechny možné náhrady m řádků. Často měříme bod selhání také limitou £* = lim,,-^ pokud existuje. Je zřejmé, že i odhady, které dosahovaly bodu selhání 1/2 v modelu s parametrem posunutí, těžko mohou dosahovat 1/2 v regresním modelu, ovlivněny maticí X. V této souvislosti vzniká několik otázek, hlavně zdali vůbec existují odhady s maximálním možným bodem selhání, jaké jsou jejich další vlastnosti a kdy má smysl je použít.
První otázku odpověděl kladně Siegel [66] již v roce 1982, kdy sestrojil tzv. opakovaný medián s 50% bodem selhání, který však není vhodný pro praktické aplikace. Krátce nato Rousseeuw [60] v r. 1984 publikoval odhad metodou nejmenšího mediánu čtverců (LMS), který minimalizuje
mediíi^íK " xjt]2}, t 6 Rp. (4.55)
Tento odhad je sice konsistentním odhadem j3, ale s řádem konsistence n1/3 je velmi málo vydatný. Rousseeuw též navrhl odhad metodou useknutých čtverců, který je řešením minimalizace
J2(Yi - x<t) := min, t 6 Rp, i=i
kde hn = [n/2] + [(p+ l)/2] a [a] značí celou část a. Tento odhad má bod selhání 1/2 a jeho řád konsistence je již sjň.
S-odhad, navržený Rousseeuwem a Yohaiem [62] v r. 1984, je řešením minimalizace
S(Yi - xit, ...,Yn- xj,t) := min, t 6 Rp,
kde <S(zi,..., z„) je řešení rovnice
i—i
vzhledem k s > 0 při pevných zi,..., zn; volbou funkce p (obvykle ohraničené) a konstanty k se určuje poměr mezi vydatností a bodem selhání odhadu. Tyto odhady a jejich výpočetní aspekty jsou podrobně popsány v knize [61].
Jinou možností vyváženějšího poměru mezi vysokým bodem selhání a vysokou vydatností je vhodně upravená jednokroková verze M-odhadu nebo GM-odhadu, začínající odhadem s vysokým bodem selhání (viz [45] a [68]).
Vysoký bod selhání těchto a podobných odhadů je však na druhé straně zaplacen některými nevýhodami, vzhledem k nimž nejsou odhady příliš využívány v praxi. Přes obtížný výpočet těchto odhadů již existují účinné algoritmy, zabudované do standardních balíků, jako S-PLUS. Nedostatkem těchto odhadů však může být, že zatímco jsou resistentní vzhledem k vysoce odlehlým hodnotám pozorování, mohou být velmi citlivé i k malým odchylkám v centru dat. Tento aspekt zatím nebyl zevrubně teoreticky analyzován, ale existuje k němu dostatečná numerická evidence, viz [35].
4.7. VÝPOČETNÍ ALGORITMY 123 124 KAPITOLA 4. LINEÁRNÍ MODEL
4.7   Výpočetní algoritmy
Výpočetní aspekty robustních odhadů v lineárním modelu i odhadu metodou nejmenších čtverců jsou podrobně analyzovány v knize [19], kde je obsažen i výpočetní program ADAPTIVE v systému S-PLUS, vypracovaný J. Pickem s užitím podprogramů pro regresní kvantily vypracovaných R. Koenkerem. Program ADAPTIVE je také ke stažení na adresách http://www.karlin.mff.cuni.ez/~jurecko/adaptive.s a http://www.fp.vslib.cz/picek/adaptive.htm.
126
LITERATURA
Literatura
[1] D. F. Andrews, P. J. Bickel, F. R. Hampel, P. J. Huber, W. H. Rogers, and J. W. Tukey (1972). Robust Estimates of Location. Survey and Advances. Princeton University Press, Princeton.
[2] J. Antoch and J. Á. Víšek (editoři) (1992). Computational Aspects of Model Choice. Physica-Verlag, Heidelberg.
[3] J. Antoch, H. Ekblom and J. Á. Víšek (1998). Robust Estimation in Linear Model. XploRe Macros: http://www.quantlet.de/codes/rob/ROB.html
[4] R. R. Bahadur (1967). Rates of convergence of estimators and test statistics. Ann. Math. Statist. 38, 303-324.
[5] V. Barnett and T. Lewis (1994). Outliers in Statistical Data (3. vydání). J. Wiley, Chichester.
[6] D. A. Belsley, E. Kuh and R. E. Welsch (1980). Regression Diagnostics: Identifying Inňuential Data and Sources of Col-linearity. J. Wiley, New York.
[7] P. J. Bickel (1975). One-step Huber estimates in the linear model. Ann. Statist. 1, 597-616.
[8] P. J. Bickel and E. L. Lehmann (1979). Descriptive statistics for nonparametric model. rV Spread. Contributions to Statistics: Jaroslav Hájek Memorial Volume (ed. J. Jurečková), str. 33-40. Academia, Prague and Reidel, Dordrecht.
[9] P. Billingsley (1998). Convergence of ProbabiMty Measures, 2nd Edition. J. Wiley, New York.
[10] G. Blom (1956). On linear estimates with nearly minimum variance. Arkiv fur Mathematik 3, 365-369.
[11] P. Bloomfield and W. L. Steiger (1983). Least Absolute Deviations. Theory, Applications and Algorithms. Birkháuser, Boston.
[12] R. J. Boskovic (1757). De literariaexpeditione per pontificiam ditionem et synopsis amplioris operis... Bononiensi Scienti-arum et Artum Instituto atque Academia Commentarii 4, 353-396.
[13] G. E. P. Box (1953). Non-normality and tests of variance. Biometrika 40, 318-335.
[14] G. E. P. Box and S. L. Anderson (1955). Permutation theory in the derivation of robust criteria and the study of departures from assumption. J. Royal Statist. Soc, Ser. B 17, 1-34.
[15] H. Bunke and O. Bunke (editoři) (1986). Statistical Inference in Linear Models. J. Wiley, Chichester.
125
LITERATURA
127
[16] R. J. Carroll and D. Ruppert (1988). Transformations and Weighting in Regression. Chapman & Hall, London.
[17] S. Chaterjee and A. S. Hadi. Sensitivity Analysis in Linear Regression. J. Wiley, New York.
[18] R. D. Cook and S. Weisberg (1982). Resials and Influence in Regression. Chapman & Hall, London.
[19] Y. Dodge and J. Jurečková (2000). Adaptive Regression. Springer, New York.
[20] D. L. Donoho and P. J. Huber (1983). The notion of breakdown point. A Festschrift for Erich Lehmann (editoři P. J. Bickel, K. A. Doksům a J. L. Hodges). Wadsworth, California.
[21] N. R. Draper and H. Smith (1988). Applied Regression Analysis, 3. vydání. J. Wiley, New York.
[22] M. Falk (1986). On the estimation of the quantile density function. Statist. & Probab. Letters 4, 69-73.
[23] L. T. Fernholz (1983). tod Mises Calculus for Statistical Functionals. Lecture Notes in Statistics 19, Springer-Verlag, New York.
[24] C. A. Field and E. M. Ronchetti (1990). Small Sample Asymptotics. IMS Lecture Notes 13, IMS, Hayward, Califor-
[25] J. C. Fu (1975). The rate of convergence of consistent point estimators. Ann. Statist. 3, 234-240.
128
LITERATURA
[26
[27
[28;
[29;
[30;
[31
[32;
[33;
[34;
C. Gutenbrunner (1986). Zur Asymptotik von Regression Quantil Prozessen und daraus abgeleiten Statistiken. Diser-tace, Universität Freiburg.
C. Gutenbrunner and J. Jureckovä (1992). Regression rank scores and regression quantiles. Ann. Statist. 20, 305-330.
C. Gutenbrunner, J. Jureckovä, R. Koenker and S. Portnoy (1993). Tests of linear hypotheses based on regression rank scores. J. Nonpar. Statist. 2, 307-331.
Contribution to the Theory of Robust Estimators. PhD Thesis. University of California, Berkeley.
A general qualitative definition of robustness. Ann. Math. Statist. 42, 1887-1896.
F. R. Hampel (1974). The influence curve and its role in robust estimation. J. Amer. Statist. Assoc. 69, 383-393.
F. R. Hampel, P. J. Rousseeuw, E. Ronchetti, and W. Stahel (1986). Robust Statistics - The Approach Based on Influence Functions. J. Wiley, New York.
F. Harrell and C. Davis (1982). A new distribution-free quantile estimator. Biometrika 69, 636-640.
T. P. Hettmansperger (1985). Statistical Inference Based on Ranks. J. Wiley, New York.
[35] T. P. Hettmansperger and S. Sheather (1992). A cautionary note on the method of least median squares. Amer. Statist. 46, 79-83.
LITERATURA
129
130
LITERATURA
[36] J. L. Hodges and E. L. Lehmann (1963). Estimation of location based on rank tests. Ann. Math. Statist. 34, 598-611.
[37] P. J. Huber (1964). Robust estimation od a location parameter. Ann. Math. Statist. 36, 73-101.
[38] P. J. Huber (1969). Theorie de Finférence de statistique robuste. Presses de FUniversite de Montreal.
[39] P. Huber (1981). Robust Statistics. J. Wiley, New York.
[40] L. A. Jaeckel (1971). Robust estimation of location: Symmetry and asymmetric contamination. Ann. Math. Statist. 42, 1020-1034.
[41] J. Jung (1955). On linear estimates defined by a continuous weight function. Arkiv für Mathematik 3, 199-209.
[42] J. Jung (1962). Approximation to the best linear estimates. Contribution to Order Statistics (editoři A. E. Sarhan a B. G. Greenberg), str. 28-33. J. Wiley, New York.
[43] J. Jurečková (1981). Tail-behavior of location estimators. Ann. Statist. 9, 578-585.
[44] J. Jurečková and M. Malý (1995). The asymptotics for stu-dentized &-step M-estimators of location. Sequen. Anal. 14, 229-245.
[45] J. Jurečková and S. Portnoy (1987). Asymptotics for one-step M-estimators in regression with application to combining efficiency and high breakdown point. Commun. Statist. Theory and Methods A 16, 2187-2199.
[46] J. Jureckovä and P.K. Sen (1996). Robust Statistical Procedures: Asymptotics and Interrelations. J. Wiley, New York.
[47] J. Jureckovä and P.K. Sen (1994). Regression rank scores statistics and studentization in the linear model. Proc. 5th Prague Conf. on Asymptotic Statistics (editofi M. Huskovä and P. Mandl), str. 111-121. Physica-Verlag, Vienna.
[48] J. Jureckovä and A. H. Welsh (1990). Asymptotic relations between L- and M-estimators in the linear model. Ann. Inst. Statist. Math. 42, 671-698.
[49] A. M. Kagan, J. V. Linnik and C. R. Rao (1973). Characterization Problems in Mathematical Statistics. J. Wiley, New York.
[50] R. Koenker and G. Bassett (1978). Regression quantiles. Econometrics 46, 33-50.
[51] W. Krasker and R. Welsch (1982). Efficient bounded-influence regression estimation. J. Amer. Statist. Assoc. 77, 595-604.
[52] J.-P. Lecoutre et P. Tassi (1987). Statistique non paramet-rique et robustesse. Economica, Paris.
[53] E. L. Lehmann (1983). Theory of Point Estimators. J. Wiley, New York.
[54] C. Mallows (1973). Influence functions. National Bureau of Economic Research, Conference on Robust Regression, Cambridge, Massachusetts.
[55] C. Mallows (1975). On some topics in robustness. Memorandum, Bell Tel. Laboratories, Murray Hill, New Jersey.
LITERATURA
131
132
LITERATURA
[56] R. Maronna and V. Yohai (1981). Asymptotic behavior of general M-estimates for regression and scale with random carriers. Z. Wahrscheinlichkeitstheorie und verw. Gebiete 58, 7-20.
[57] R. von Mises (1947). On the asymptotic distribution of diffe-rentiable statistical functions. Ann. Math. Statist. 35, 73-101.
[58] E. S. Pearson (1931). The analysis of variance in cases of nonnormal variation. Biometrika 23, 114-133.
[59] H. Rieder (1994). Robust Asymptotic Statistics. Springer, New York.
[60] P. J. Rousseeuw (1984). Least median of squares regression. J. Amer. Statist. Assoc. 79, 871-880.
[61] P. J. Rousseeuw and A. M. Leroy (1987). Robust Regression and Outlier Detection. J. Wiley, New York.
[62] P. J. Rousseeuw and V. Yohai (1984). Robust regression by means of S-estimators. Robust and Nonlinear Time Series Analysis (editofi J. Franke, W. Härdle a R. D. Martin), str. 256-272. Springer, New York.
[63] D. Ruppert and R. J. Carroll (1980). Trimmed least squares estimation in the linear model. J. Amer. Statist. Assoc. 75, 828-838.
[64] P. K. Sen (1964). On some properties of the rank-weighted means. J. Indian Soc. Agricul. Statist. 16, 51-61.
[65] R. J. Serfling (1980). Approximation Theorems of Mathematical Statistics. J. Wiley, New York.
[66] A. F. Siegel (1982). Robust regression using repeated medians. Biometrika 69, 242-244.
[67] G. L. Sievers (1978). Estimation of location: A large deviation comparison. Ann. Statist. 6, 610-618.
[68] D. G. Simpson, D. Ruppert and R.J. Carroll (1992). On one-step GM-estimates and stability of inference in linear regression. J. Amer. Statist. Assoc. 87, 439-450.
[69] R. J. Staudte and S. J. Sheather (1990). Robust Estimation and Testing. J. Wiley, New York.
[70] S. M. Stigler (1986). The History of Statistics. The measurement of Uncertainty before 1900. The Belknap Press of Harvard University Press, London.
[71] J. W. Tukey (1977). Exploratory Data Analysis. Addison-Wesley, Reading, Massachussets.
[72] I. Vajda (1988). Theory of Statistical Inference and Information. Reidel, Dordrecht.
[73] A. H. Welsh (1986). Bahadur representation for robust scale estimators based on regression residuals. Ann. Statist. 14, 1246-1251.
134
REJSTŘÍK
Rejstřík
GM-odhad, 101-104, 118 L-odhad, 41, 55, 56, 59, 64,
67-69, 72, 73, 75-77,
80, 82
minimaximálně robustní, 82-85
v lineárním modelu, 105, 107, 109 M-funkcionál, 43, 44, 46, 47,
49, 81, 82 M-odhad, 4, 41-47, 49-51, 59, 65-72, 75-80, 82, 83 Huberův, 50, 61, 78 minimaximálně robustní, 82, 84
v lineárním modelu, 96, 98, 99, 101, 102, 109, 112, 115 jednokroková verze, 115, 116, 118 iž-odhad, 4, 42, 64-69, 74-76, 79, 80, 82
asymptoticky vydatný, 75 minimaximálně robustní, 82, 84, 85
asymptotické rozdělení, 16-19 asymptotická relativní vydatnost, 75 asymptotická reprezentace, 69,
72, 76
asymptotické rozdělení, 46, 48,
69, 70, 73-76, 80 asymptotické vlastnosti, 68 asymptotické vztahy, 75, 76, 80, 83
asymptoticky ekvivalentní odhady, 76, 77, 79, 80 asymptotický rozptyl, 68, 71,
73, 75, 81 asymptoticky vydatný odhad,
73
bod selhání, 30, 31
bod selhání, 46-48, 50, 59, 61, 63, 68
Diracova pravděpodobnost, 13
ekvivariance vzhledem k měřítku, 45, 52, 96, 111
ekvivariance vzhledem k posunutí, 31-33
ekvivariance vzhledem k posunutí, 45, 52
ekvivariance vzhledem k posunutí i k měřítku, 52, 66
ekvivariance vzhledem k regresi, 96, 112
ekvivariance vzhledem k regresi i k měřítku, 96, 109, 112
empirická distribuční funkce, 5, 17
empirické rozdělení pravděpodobností, 4, 7, 15, 17
empirická kvantilová funkce, 56
exponenciální chvosty, 61
Fisherova informace, 49, 71,
73, 74, 78, 79 fisherovská konsistence, 7
fisherovská konsistence, 43, 44, 53, 70
geometrický průměr, 6 globální citlivost, 29 globální robustnost, 29 globální citlivost, 47, 48, 50, 61, 63, 68
harmonický průměr, 6 Hodges-Lehmannův odhad, 65-67, 80
Huberova funkce, 52, 61, 84
charakteristiky robustnosti, 21 kvantitativní, 28-30
infiuenční funkce, 21, 26, 28, 29
diskretizovaná forma, 23, 24
infiuenční funkce, 43, 44, 48-50, 55, 57-63, 67, 69, 76, 98-105
kontaminační model, 82 kontaminované rozdělení, 47,
50, 68, 84, 85 kvalitativní robustnost, 26-28
lokální citlivost, 29 lokální citlivost, 68
133
REJSTŘÍK
135
136
REJSTŘÍK
medián, 41, 47, 48, 54, 56, 62, 65-67
mediánová absolutní odchylka, 54
mediánově nestranný odhad, 66
mezikvartilová odchylka, 54 minimaximální robustnost, 40 minimaximální robustnost, 50, 80-85
odhad metodou nejmenšího mediánu čtverců, 117
odhad metodou nejmenších čtverců, 88, 89, 91, 97, 103, 119
useknutý, 107-109 odhad metodou useknutých čtverců, 117
regresní kvantil, 97, 105-107, 109, 110, 112, 113, 115, 119
populační, 107 regresní pořadové skóry, 97, 109-111, 114
skipped mean, 51 skipped medián, 51 statistický funkcionál, 4, 6, 7, 9, 11, 16
derivace, 11 Préchetova, 11, 14, 16,
17, 22 Gáteauxova, 17, 21 Gáteauxova, 11, 12, 17 Hadamardova, 11, 16,
17
diferencovatelnost, 7, 11 empirický, 17 míra chvostů, 31, 32, 35, 36, 38 statistický funkcionál derivace
Préchetova, 69 míra chvostů, 50, 61 studentizovaný M-funkcionál, 55
studentizovaný M-odhad, 52, 53, 72
v lineárním modelu, 96, 99, 111
škálová statistika, 52, 54, 56 v lineárním modelu, 96, 97, 111-113, 115
těžké chvosty, 50, 61
useknutý průměr, 59-61, 67, 78, 80, 85
vzdálenost měr, 7, 8, 11, 17
Hellingerova, 9 Kolmogorovova, 9, 17 Lévyho, 8 lipschitzovská, 9 Prochorovova, 8 vztahy, 9, 10
winsorizovaný průměr, 62, 63, 67, 78
ROBUSTNÍ STATISTICKÉ METODY
Prof. RNDr Jana Jurečková, DrSc
Lektorovali:   Doc. RNDr Jaromír Antoch, CSc RNDr Jan Picek, CSc
Vydala Univerzita Karlova v Praze
Nakladatelství Karolinum Praha 1, Ovocný trh 3
jako učební text pro posluchače Matematicko-fyzikální fakulty UK
Praha 2001
Dáno do tisku:
Vytiskla tiskárna Nakladatelství Karolinum
A A       - VA      -1. vydání - Náklad výtisků
Cena Kč
Publikace neprošla jazykovou ani redakční úpravou