Bayesovské me (seminár) Doporučená literatúra: Anděl, J., Matematická statistika, SNTL/ALFA, Praha, 1985. Grendár, M., Bayesovská statistika (http://www.savbb.sk/ grendar/pdf) Hušková, M., BAYESOVSKÉ METODY, UNIVERZITA KARLOVA, Praha, 1985. (http://www.karlin.mff.cuni.cz/ huskova) Pázman, A., BAYESOVSKÁ STATISTIKA, Univerzita Komenského, Bratislava, 2003. Tento text v zásade sleduje knižku A.Pázmana. 1. Úvod a motivačný príklad Definícia 1.1. Majme pravdepodobnostný priestor (íl, A, p). Náhodné javy a\,a^,... G A tvoria úplný systém javov, ak platí oo (1.1) AnA,- = 0, i ŕ 3, a \jAi=íl. i=l Poznámka. Úplný systém javov môže byt aj konečný. Veta 1.1. (Vzorec pre úplnú pravděpodobnost). Nech a\,a^,... je úplný systém javov v pravdepodob-nostnom priestore (íl, A, p) taký, že (1.2) p(al)>0, i = l,2,.... Potom platí oo (1.3) p(b) = '£p(b\aí)p(aí). i=l Dôkaz: p(b) = p(b n íí) = p (b n u~! A) = p (uzab n a,)) = YZi p (b n A) = e~i p{b\A)p{A). * Veta 1.2. (1. Bayesov vzorec). Nech a\,a^,... je úplný systém javov v pravdepodobnostnom priestore (íí, A, p) taký, že p(al)>0, 2 = 1,2,.... Ak p (b) > 0, tak platí , s , , , s P(B\Aí)P(Aí) (L4) PlA>]B)=žéMéíw>- 1=1-2- i 2 Dôkaz: Pre lubovolné j je P(AJ\B) P(BnAj) _ P(B\Aj)P(Aj) ^' ~ P(B) ~ Yľ=ip(B\Ai)p(Ai)' Veta 1.3. (2. Bayesov vzorec). Nech A\,A^,... je úplný systém javov v pravdepodobnostnom priestore (íl, A, P) taký, že P(At) > 0, i = 1,2,... . ďalej A e A, že P (A) > 0 a B e A. Platí Dôkaz: spravte si sami. Poznámka. Vety 1.1, 1.2 a 1.3 platia aj v prípade, že úplný systém javov je konečný. Poznámka. P (Aj) v Bayesových vzorcoch sú tzv. apriórne pravdepodobnosti a P(Aj\B) aposteriórne pravdepodobnosti (po vykonaní pokusu s výsledkom B). Poznámka. V prípade 1. Bayesovho vzorca ide o riešenie situácie, ked máme hypotézy A\,ktoré sa navzájom vylučujú, ale vyčerpávajú všetky možnosti. Poznáme ich (apriórne) pravdepodobnosti P(Ai). Nastal jav A a poznáme pravdepodobnosti P(A\Ai). Pýtame sa na (aposteriórne; nové, ktoré berú do úvahy skutočnosť, že mastal A) pravdepodobnosti P(Ai\A) V prípade 2. Bayesovho vzorca ak nastal jav A, pýtame sa na pravděpodobnost javu B. Poznámka. Nie je vždy jednoduché volit správny pravdepodobnostný model pre výpočet podmienených pravdepodobností. Príklad 1.1. (Lekárska diagnostika). Vieme, že určitou (konkrétnou) chorobou Ch trpí 1% populácie. Choroba je diagnostikovaná na základe vyšetrenia, ktorého spolahlivost je (i) 95% ak vyšetrovaná osoba trpí chorobou Ch (ii) 70 % ak vyšetrovaná osoba netrpí chorobou Ch. Vyšetrujeme náhodne zvolenú osobu. Určte pravděpodobnost správnej diagnózy, ak výsledok vyšetrenia je (a) pozitívny (podlá výsledku vyšetrenia je osoba chorá) (b) negatívny (podlá výsledku vyšetrenia je osoba zdravá). Riešenie: Označme jav A - vyšetrovaná osoba trpí chorobou Ch (je chorá) B - výsledok vyšetrovania je pozitívny Zo zadania vieme P (A) — 0.01 (pravděpodobnost, že vybraná osoba je chorá) Táto pravděpodobnost sa volá prevalencia alebo tiež apriórna pravděpodobnost choroby Vyšetrenie (spolahlivost vyšetrenia) sa charakterizuje dvomi charakteristikami, a síce pravdepodobnosťou P(B\A) — 0.95 tzv. citlivosť testu alebo aj senzitivita testu pravdepodobnosťou P(B\A) — 0.7 tzv. špeciŕicita testu, (a) Máme určit vlastne P(A\B) (lebo v tomto prípade výsledok testu bol pozitívny, teda test hovorí, že vyšetrovaná osoba je chorá (diagnóza je, že pacient je chorý) a my máme určit pravděpodobnost správnej dignózy). 3 Zo zadania vieme, že p (a) = 0.01, p (a) = 0.99, = 0.95 a p{b\a) = 1-P(5|A) = 1-0.7 = 0.3. Podlá Bayesovho vzorca (a, a sú hypotézy) p(a\b) =__=- =_°-01-°-95_= 0.030995. v 1 ' p{ä)p{b\ä) + p{ä)p{b\ä) 0.01-0.95 + 0.99-0.3 Je to aj aposteriórna pravděpodobnost, že pacient je chorý, ak výsledok testu bol pozitívny. Je to prekvapivý výsledok, čakali by sme "omnoho lepší" výsledok. Celkom máme 29 700 + 950 — 30 650 pozitívnych výsledkov, z toho správne pozitívnych je 950, čiže (b) Analogicky (zase a, a sú hypotézy) pnm = p(Ä)p(b\Ä) =_0-99-0.7_= v 1 ' p(a)p(b\a) + p(a)p(b\a) 0.99-0.7 + 0.01-0.05 Je to aposteriórna pravděpodobnost, že pacient nie je chorý, ak výsledok testu bol negatívny. Naozaj celkovo máme 69 300 + 50 — 69 350 negatívnych výsledkov, z toho správne negatívnych je 69 300 a teda __ 69300 pravděpodobnost správnej diagnózy u negatívnych výsledkov testu je p(a\b) — -— 0.99928. 69350 2. Bayesova veta Uvedme si základné tvrdenia. Veta 2.1. (O podmienenej hustote). Nech A a v sú a—konečné miery a nech združená hustota náhodných vektorov Y e 7Zr a Z e 7Zn~r vzhladom k /j, — A x v je p(y, z). Nech (2.1) g(y)= / p(y,z)di/(z) je marginálna hustota náhodného vektora Y. Potom podmienená hustota vektora Z pri pevnom Y — y je rovná ,0 0, , , , íP(y|z)/?(y), ak q(y) ŕ 0, (2.2) r(z|y) = l [0, ak g(y) = 0. Dôkaz: nájdete v Andélovej knižke, str. 53. Pri našich postupoch je klúčová Veta 2.2. (Bayesova). Nech q(y) je marginálna hustota náhodného vektora Y a r(z|y) podmienená hustota náhodného vektora Z pri danom Y — y. Potom podmienená hustota s(y|z) náhodného vektora Y pri danom Z — z je rovná 9(y)r(z|y) ^ j^(?(y)r(z|y)dA(y)_,0; (2.3) a(y|z) = <; Iiv 9(y)í-(z|y)^A(y)' 0, inak. Dôkaz: nájdete v Andélovej knižke, str. 54. Samozrejme Vety 2.1 a 2.2 platia aj v prípade, že Y a Z sú náhodné veličiny. V týchto textoch budeme uvažovat X s. v alebo Lebesgueovu mieru, alebo sčítaciu mieru. Teda g(-), r(-| • •) a s(-) sú hustoty vzhladom k týmto cr—konečným mieram. 4 Inferencia (usudzovanie) Aby sme videli, ako Bayesova veta slúži pre štatistickú inferenciu, predpokladajme, že máme dvojicu náhodných vektorov (©', Y')', pričom P(8 £ fi e Bm) — í, P(Y E y E Bn) — í (Bm je systém borelovských podmnožin priestoru lZm). Poznáme a) podmienenú hustotu pravdepodobnosti vektora Y vzhladom k a—konečnej miere A(y), za predpokladu, že je daná hodnota 6 náhodného vektora © (2-4) /(y|0), b) hustotu pravdepodobnosti náhodného vektora © vzhladom k a—konečnej miere v(ff) (2.5) tt(0). Podlá Vety 2.1 združená hustota pravdepodobnosti (©', Y')' vzhladom k /j, — v x A sa rovná (2.6) <7(0,y) = T(0)/(y|0), marginálna hustota pravdepodobnosti veličiny Y (predikčná hustota) je /*(y) = / 7r(0)/(y|0)MWW*Y i = 1,2'- je pravdepodobnostná funkcia. Ak Y má diskrétne rozdelenie a © spojité, tak ir(0) je hustota, f(y\9) je pravdepodobnstná funkcia a Tľ(6\y) je hustota. Ak Y je diskrétny náhodný vektor, Y G {yi, 1/2, ■■■} a © tiež diskrétny náhodný vektor, © G {61, 62,...}, tak 7r(0), f(y\6) aj 7T(Qi\yj) = ^-fQ w/ ,Q s, 1 = 1,2,... sú pravděpodobnostně funkcie. 5 Ešte iný pohlad na Bayesov vzorec. V prípade diskrétnych náhodných premenných O a Y nech A\,Am je úplný systém borelovských množín na reálnej osi a B\,Bn nejaké borelovské množiny. Nech sú známe podmienené pravdepodobnosti P(Bi\Ak) — P (Y G Bi\<9 e Ak) a tzv. apriórne pravdepodobnosti P (Ak) — P (Q G Ak). P (Ak) vyjadrujú "očakávania" javov Ak ešte pred pozorovaním javov B^. Vplyvom pozorovania javu Bi sa pravděpodobnost "očakávania" P (Ak) zmení na podmienenú pravděpodobnost P(Ak\Bi) určenú Bayesovým vzorcom (1.4) (alebo (2.7)) P(BAAk)P(Ak) [ fel ij Y^=iP(Bl\Aj)P(Aj)' Vzorce (2.4)-(2.7) samozrejme platia ak O a y sú náhodné veličiny. 3. Príklad (podia Anděl, str. 279) Výroba prebieha každý deň. pravděpodobnost vyrobenia chybnej súčiastky je p. Predpokladajme, že táto pravděpodobnost sa zo dňa na deň (mierne) mení a rozdelenie pravdepodobnosti veličiny p sa dá aproximovat beta rozdelením s hustotou (3.1) „(p^—^a-ltl-p)*-!, 0 0, b > 0 sú parametre, B(a,b) — JQ1a;a_1(l — xý^dx je beta funkcia. Keď výroba prebieha "ustálené", môžeme "dostatočne presne" odhadnut hodnoty parametrov a tieto odhady považovat za skutočné hodnoty a s. b. Ak teraz spravíme pokus - náhodne vyberieme n výrobkov (s vrátením), pričom m z nich bude chybných, pravděpodobnost vybratia práve m chybných súčiastok (ak je pravděpodobnost vyrobenia chybnej súčiastky rovná p) je (3.2) /MíO= (n)pm(l-p)n-m, m = 0,l,...,n. \m J Podlá (2.7) je aposteriórna hustota Tr(p\m) náhodného parametra p pri zistenom počte m chybných súčiastok z n vybraných súčiastok rovná (3 3) ,(p\m) = *Wňv\p) = ^-^-P^OP^-Pr- = S-^WivWv Jo b^b)Pa'1(l-p)b'1Opm(l-p)n'mdP 1 pa+m-1(í-p)b+n-m-\ 0) uvažovali funkciu 7T*(p)^p-\l-pf-\ 0 0+, b —> 0+, tak TT*(p) TT**(p) =p-X(l -pY1, 0) je nezáporná a platí pre ňu / TT**(p)dp — OO. Jo Neexistuje však žiadna normujúca konštanta k, aby ku** {p) bola hustotou. Ak ale platí 0 < m < n, tak pre a —>• 0+, b —>• 0+ dostávame (4.1) 7r(p|m)->7r**(p|m) = —^--pa+m-\\ - p)^-^1. Bym, n — m) Tento výsledok by sme dostali aj priamo dosadením funkcie 7r** za apriórnu hustotu. Ak ak teda platí 0 < m < n, je rK**{p\m) "obyčajná" hustota, ak ale m — 0 alebo m — n, nedostaneme konečnú limitu funkcie 7r(p|m). Nezápornú meratelnú funkciu voláme nevlastná hustota. Ďalšie vlastnosti Bayesovho vzorca. Ak pre každé dve rôzne y1,y2 v (2.4) platí, že podiel j^1! 2 nezávisí od 0, tak Tv(8\y1) — Tr(8\y2) pre každé 8. Z bayesovského hladiska sú výsledky experimentov y1 a y2 "informačne ekvivalentné". V bayesovskom prístupe dôležitú úlohu má funkcia vierohodnosti (4.2) Zy(0)oc/(y|0). Je to trieda všetkých reálnych funkcií premennej 8, líšiacich sa od f(y\8) len o multiplikatívny člen nezávislý od 8. Z Bayesovho vzorca vyplýva, že štatistické postupy založené na aposteroórnej pravdepodobnosti spĺňajú tzv. princíp vierohodnosti: Ak y, y* sú dva výsledky rôznych experimentov s tým istým parametrickým priestorom fi a ak ly(8) — ly (6), tak výsledky y a y* vedú k tým istým štatistickým záverom o parametri 8. 5. Pravidlo retazenia pre nezávislé pozorovania Uvažujme dva nezávislé experimenty s tým istým parametrickým priestorom fi. Experiment I je daný systémom podmienených hustôt (5.1) {/(y|0) : 8 e Si}, v ktorom pozorujeme y G J7 a experiment II nezávislý na experimente I, daný systémom podmienených hustôt {g(z\8) : 8 e Si}, v ktorom pozorujeme z (z Z. V kombinovanom experimente II, v ktorom pozorujeme (nezávislú) dvojicu (y, z) e y x Z, daným systémom podmienených hustôt {h(y,z\0)=f(y\0)g(z\0): 0 e Si} pri apriórnej hustote tt(0) dostávame z (2.7) aposteriórnu hustotu 7r(0)/(y|0)<7(z|0) (5.2) fnn(0)f(y\0)g(z\0)dv(Oy 7 Teraz realizujme experiment II, ale za apriórnu hustotu neuvažujme tt(9), ale aposteriórnu hustotu z experimentu I, teda ,fíM = 7r(e)/(y|e) Podlá (2.7) dostávame aposteriórnu hustotu (53) [7r(0|y)]ff(z|0) Sn[*(9\y)\g(*\9)dv(9) ľ • 7Zk. Takéto zobrazenie voláme štatistika. (Poznamenávame len, že ak m — k, štatistika je odhadom.) Štatistiku voláme postačujúcou ak podmienené hustoty pre y, za podmienky, že t (y) — t, nezávisia od 6. Z učebníc matematickej štatistiky (pozri napr. Anděl, str. 262) je známe, že štatistika t je postačujúca práve vtedy, ak existujú reálne (a meratelné) funkcie h(y), q(t,9) také, že (6.1) f(y\0) = h(y)q(T(y),9) pre každé y, 6 (veta o faktorizácii). Pripomíname len, že ak Y je spojitá náhodná veličina (alebo náhodný vektor), tak f(y\9) je hustota a ak Y je diskrétna náhodná veličina (alebo náhodný vektor), tak f(y\9) je pravdepodobnostná funkcia. Označme 7r*(0|t)t=1-(y) aposteriórnu hustotu, ak bola pozorovaná hodnota t štatistiky t. Veta 6.1. (Veta o postačujúcej štatistike). Ak t (y) je postačujúca štatistika, tak platí 7r(0|y)=7r*(0|t)t=T(y). Dôkaz: Ak © aj Y sú diskrétne náhodné veličiny (alebo náhodné vektory), a t (y) je postačujúca štatistika, tak aposteriórna hustota (vlastne pravdepodobnostná funkcia) (, ^ m , = My)g(t(y),eMe) = g(t(y),eMe) 1 ' 1 l|yj ZMy)q(Hy),9M9) Ziq(Hy),0M0Y Presnejšie v tomto prípade realizácie náhodnej veličiny (alebo náhodného vektora) © sú {ŕ?i, #2, ■■■} a realizácie náhodnej veličiny (alebo náhodného vektora) Y sú {y1,y2, ■■■} Platí *(9j) = P(0 = 9j), f(yi\9y = P(Y = yJS = Oj), hiyM^^MOj) _ g(t(yí),^>(^) e?>i h{yl)q{T{yl),e3)Tt{93) v->i g(t(yi), 9jM9j) ■ 8 Pre diskrétne náhodné veličiny (resp. náhodné vektory) dostaneme analogicky ako vo vete 2.1, že združená pravdepodobnostná funkcia g(6j,yi) — Tr(6j)f(yi\6j). Aposteriórna hustota náhodnej veličiny © (vlastne pravdepodobnostná funkcia), ak bola pozorovaná hodnota t štatistiky t je **(Oj\ť)t=r(y)=P{& = 0j\Y = yi: r(yi)=t}, j = 1,2,.... Ak označíme náhodné udalosti Aj-{G = 6j}, j = 1,2,..., Bi-{Y = yi : r(yi) =t}, z = 1,2,..., tak ^■|t)t_(y) = P{0 = 0j\Y = yt : r (y,) = t} = P(^-| U B,) = ^f^1 = Eff(^^ = _ Eyi H® = W(y = y,|0 = 0S)} Ey1^Mt,0sy Zo vztahu (6.2) dostávame, že ak t je postačujúca štatistika a t je pozorovaná hodnota tejto štatistiky, tak aposteriórna pravdepodobnostná funkcia je *(0j\yi ■ i-(yi) = t) -K(0j)q(t,0j) teda vetu sme v prípade diskrétnych náhodných veličín (alebo vektorov) © a y dokázali. Vo všeobecnom prípade nájdeme dôkaz napr. v knihe A.Pázmana. ♦ V nasledujúcich kapitolách si zavedieme mieru množstva informácie a ukážeme, že vo všeobecnosti hustota 7r*(0|t) obsahuje menej informácie o neznámom parametri 6 než hustota 7r(0|y). 7. I-divergencia a informácia získaná z experimentu Bayesovské ponímanie znamená, že pred experimentom je všetka informácia o parametri © zhrnutá v apriórnej hustote tt(0) a úplná informácia o parametri © po experimente je zhrnutá v aposteriórnej hustote Niekedy sa vyžaduje charakterizovat množstvo tejto informácie jediným číslom (podobne ako charakterizovat rozdelenie pravdepodobnosti jednou číselnou charakteristikou). Táto úloha samozrejme je diskutabilná a nie je jednoznačná. Jedna z možností je vyjádřit "ekonomicky užitočnú" informáciu podobne ako v kapitole 23. Cielom môže byt aj vyjadrenie "presnosti", s ktorou hustota tt(0) alebo Tr(0\y) určujú hodnotu parametra 6 v danom experimente. Tu ide o miery variability rozdelenia pravdepodobnosti náhodnej premennej ©. Môžeme merat aj nedostatok informácie obsiahnutej v tt(0) nejakou "mierou neurčitosti" apriórneho rozdelenia. Jedna z takýchto možných mier vznikla vo fyzike a neskôr sa osvedčila v rôznych vedných oblastiach. 9 Je to entropia. Budeme sa v dalšom zaoberat aj vyjadrením stredného množstva informácie, ktoré možno získat z experimentu. Vyjadríme ho pomocou strednej I-divergencii. I-divergencia meria "odlišnost" dvoch distribúcií. 8. Entropia Definícia 8.1. Nech © e íl G Bm je diskrétna náhodná veličina, ktorá nadobúda hodnoty {61,62, ■■■} s pravdepodobnostami {p±,p2, ■■■}, teda P(& — 6i) — pi i — 1,2,.... Pravdepodobnosná funkcia {6í,Pí}í, i — 1,2,... určuje rozdelenie pravdepodobnosti P. Entropia takto daného rozdelenia pravdepodobnosti P sa rovná Ent(P) — pi lnpi. i Ak množina hodnôt {61,62, ■■■} je konečná (obsahuje n hodnôt), tak entropia je z uzavretého intervalu (0,lnn). Minimálnu hodnotu (rovnú 0) nadobúda, ked pre jeden index íq je pi0 — 1 a pre ostatné indexy i 7^ *o je Pi — 0. V tomto prípade s istotou nastáva jediná z hodnôt, a síce 6i0, a nie je neurčitost. Maximálnu hodnotu (rovnú ln n) nadobúda entropia, ak pi — pre všetky i. Vtedy je neurčitost, ktorá z hodnôt {61,62, ...,6n} nastane, najväčšia. Kladieme OlnO — 0, lebo limz^0+ (z ln z) — 0. Definícia 8.2. Nech & E íl, E Bm je spojitá náhodná veličina, ktorej hustota (voči Lebesgueovej miere) je f (8). Potom entropia (spojitého) rozdelenia pravdepodobnosti P určeného hustotou /(•) je Ent(P) = - f ]nf(0)f(0)d0 = -£Qnf(&)). Podotýkame len, že ent(&) má iné vlastnosti ako entropia diskrétneho rozdelenia Ent{&) (napr. nadobúda hodnoty z intervalu (—00,00)). 9. I-divergencia Definícia 9.1. Nech © e 7Zm je diskrétna náhodná veličina, ktorá nadobúda hodnoty {81, 62, ■■■} s pravdepodobnostami {pi,p2, ■■■}, teda P(& — 6i) — pi í — 1,2,... a ®* nadobúda tie isté hodnoty {81,82,...} s pravdepodobnostami {qi, q2,...}, teda Q(&* — 6i) — qi i — 1, 2,... . P a Q sú teda dve rozdelenia pravdepodobnosti, pričom pre tieto dve rozdelenia platí, že ak qi > 0, tak aj Pi > 0 (miera Q je absolútne spojitá vzhladom k miere P). I-divergencia I(P, Q) týchto mier je (9.1) J(P,Q) = 5>ln^ ak X^Pi ln ^ < 00, inak položíme I(P, Q) — 00. Kladieme Oln ^ — 0. Definícia 9.2. Nech 0 e Q e Bm je spojitá náhodná veličina s hustotami f p (8) a Jq{6) (voči Lebesgueovej miere), pričom pravdepodobnostná miera Q je absolútne spojitá voči miere P (t.j. ak pre nejakú borelovskú množinu A platí P (A) — 0, tak aj Q (A) — 0). I-divergencia I(P, Q) týchto mier je (9.2) I(P,Q) = J^]nl±fQMO)d0 = ep ak Jj-j ln tpigl fp(6)d8 existuje, inak I(P, Q) — 00. ln f p (Q) /q (O) 10 Poznámka. Niekedy sa namiesto I(P, Q) píše I(fp, f q). Platí tvrdenie, že vždy I(P, Q) > 0 a I(P, Q) — 0 práve vtedy ak P — Q (pozri knihu A.Pázmana, str. 24). I(P,Q) nie je metrika (vzdialenosť medzi rozdeleniami), lebo I(P,Q) ^ I(Q,P). Miera P má vo výraze pre I(P,Q) dominantné postavenie, lebo vzhladom na ňu sa berie stredná hodnota. Príklad 9.1. Majme n—rozmerný náhodný vektor X a jeho dve rôzne normálne rozdelené rozdelenia pravdepodobnosti P a Q dané hustotami 1 ic„ .. w-i/ /,(x) (27r)f deí^(Si) -i(x-Mi/Si 1(x-Mi)j 2€{P,Q} Spočítajte I(fp,fQ). Riešenie. , f p M 1, det(Sn) 1 n/^-,-1 / x 1/ / w/t-,-1 / / xx /q(x) = 2 det(Sp) ~ 2('X~/Xp'> p ^ ~ ^ + 2 ^ ~ ^p ~ ^Q ~ tlp'' Q ^p - (Vq - Vp)) = l In d6t(^q) - i(x - /Xp)'Sp1(x - /xP) + i (x - /xP)'SQ1(x - Mp)+ 2 det(Sp) 2 1 Počítajme + (x - /Xp)'EQ (/Xp - /Xg) + -((J,p - /Xq)'Eq (/xp - /xQ). /p(X)" I(fP(yi),fQ(x)) = Sf ln /Q (X) i MX) f I x, ln——-/p(x)dx k" /q(x) llndet(SQ) K„ 2i"det(Sp)^p('X')dx_X." ^X_/Xp')'Spl^X_/Xp')^p^X')dx+ + ^{Eq'Ep} + ^(Mp - Mq/Eq^Mp - Mq) = 1, det(Sn) n lr^-, í^-, i 1/ x/^ t, x 2 ln ďléŽy " 2 + ^ 2{S« Sp} + 2("' - "oWmp - Mg)- V prípade, že Ep = Sq = S (rozdelenia sa líšia len v strednej hodnote), dostávame 2I(P, Q) = (/xp - /Xq)'^-1^ - /xQ). Príklad 9.2. Majme diskrétnu náhodnú premennú X G {0,1, ...,n} a jej dve rôzne binomické rozdelenia pravdepodobnosti P a Q dané hustotami (pravdepodobnostnými funkciami) /j O) rAi-0j)n-x, x = o,i , ..., f t/, je{P,Q} Spočítajte I(P, Q). Riešenie. ln 1 — x ln — + (n — x) ln-—, 11 preto podia (9.1) x=0 1 " n 'n\ „„.....„ „, „ , 0p .....1 1 ^P i í M 1 ~~ ^P x m--h n-i n- 0Q ' 1-0Q |,(1 - 0p)n~x = n9p ln "-f + n(l - 0P) ln —--. 10. Súvis I-divergencie s Fisherovou informačnou maticou (Spojitý prípad.) Majme štatistický experiment s výberovým priestorom Y e y e Bn a hustotami {/(•|0): 9e£leBm} (voči Lebesgueovej miere). Ak pre malé A G fi sa hustoty f(-\9) a f(-\9 + A) značne odlišujú, tak na základe experimentu budeme môct dobre rozlišovat 9 od 9 + A. Preto budeme môct v tomto prípade "presne" odhadovat parameter 9. Odlišnost f(-\9) od f(-\9 + A) je vhodné merat pomocou I-divergencie (10.1) W=^in_J^/(y|fl)dA(y). (Diskrétny prípad.) Ak máme štatistický experiment s výberovým priestorom Y G {yi,y2, ■■■} a hustotami (pravdepodobnostnými funkciami) {/(•|0): ňeneBJ, tak odlišnost od f(-\9 + A) je vhodné merat pomocou I-divergencie (io.2) ^+A = Eln/^+)A)/(yii0)- Veta 10.1. (Súvis I-divergencie a Fisherovej informačnej matice.) Ak pre skoro všetky y e J7 G £>„ je /(y|0) dva razy spojité diferencovatelnou funkciou a ak možno zaměnit poradie derivovania a integrovania vo výraze ^-/(ylWy), potom platí 2/e,e+A = A'M(0)A + o(||A||2), kde M(0) je Fisherova informačná matica s prvkami a o(||A||2) je taká funkcia IIAII2, že liniA^o °h^!1 ^ — 0. IIAH Dôkaz: Dôkaz spravíme pre spojitý prípad. Pre diskrétnu náhodnú veličinu Y sa spraví analogicky. Pomocou Taylorovej vety dostávame (10.3) ln/(y|0 + A) = ln/(y|0) + A + J A'^^A + Ô(||A||2). Pretože 09' 2 dOidOj (10.4) jľ A] /(y| Wy) = Jy £ Aí/(y| Wy) 12 =1 / = ÍLA-w, //www - »■ 2 — 1 ^ 2 — 1 ^ (10.1) pomocou (10.3) a (10.4) dostávame 2w = 2/yln?^Msy/(y|fl)dA(y) = = "2/ ^^A/(y|Wy)-/ A'^^A/(y|Wy)-2ô(||A||2) / /(y|Wy) 'y UViUVj J y A'M(0)A + o(||A||2). 11. Stredné množstvo informácie z experimentu Bayesovská odpoved na otázku, kolko informácie poskytuje daný experiment, vyplýva z porovnania apriórnej a aposteriórnej hustoty. V experimente danom výberovým priestorom y a meraniami Y, teda náhodnou veličinou (náhodným vektorom) Y a s hustotami (alebo pravdepodobnostnými funkciami) {/(■|0) : e e n e Bm} (voči Lebesgueovej miere alebo voči sčítacej miere), množstvo informácie o parametri 6, (ked výsledok experimentu bol y), možno vyjádřit pomocou výrazu (11.1) /K|y),7r(.)] = in ln- tt(0) ak © je (absolútne) spojitý (voči Lebesgueovej miere) náhodný vektor, alebo (0\y)dO, (11.2) /K|y),7r(.)] = X! In- ak © je diskrétny náhodný vektor s hodnotami {6\, 62, ■■■}■ Výraz (11.1) resp. (11.2) je vždy nezáporný, je nulový práve ak tt(0) — Tr(0\y). Z Bayesovho vzorca (2.7) vyplýva, že v takomto prípade <0)f(y\6) $n*{e)f{y\e)dv{ey f(y\e) = f v{e)f{y\e)dv{e). Ju. 'U Pretože lavá strana predchádzajúcej rovnosti závisí od 6 a pravá strana nie, musí byt funkcia vierohodnosti pre dané y konštantná. Vektor y neobsahuje žiadnu informáciu o parametri 6. Pri jednom výsledku y máme množstvo získanej informácie dané vztahom (11.1) resp. (11.2). Prediktívna hustota náhodného vektora Y je f* (y) a preto stredné množstvo informácie, ktoré možno získat z experimentu sa rovná (H-3) Je^WKly).*(■)]}= / /K|y),7r(-)]r(y)dA(y) Jy v spojitom prípade, alebo (11-4) /e*P = £/[7r(-|y^7r(.)]r(yi), 13 ak Y je diskrétny náhodný vektor. Pozrime sa na iné interpretácie Iexp. Uvažujme spojitý prípad a predpokladajme, že môžeme zamieňat poradie integrácie. Pomocou (2.6) a (2.7) upravíme (11.3) (11.5) Je^ČYÍ/Kly), *(■)]} = = / /[7r(-|y),7r(.)]r(y)dA(y)= / / [ln^(0|y)] «{0\y)dv{0) )f* (y)dA(y) = Jy Jy \Jsn J = [ f \hnr(0\y)]g(0,y)dv(0)d\(y)- f f \knr(0)]g(0,y)dv(0)d\(y). Jy Jn Jy Jn Spočítajme teraz strednú I-divergenciu ,f{-\0) voči /*(•) l[.f{-\0),ľ{-)]*{0)dv{0) [\n.f{y\0)].f{y\0)d\{y))v{0)dv{0)-u \Jy / Ju Jy L \n9(0,y) f(y\0)ir(0)dis(0)d\(y) f f \hnr(0\y)]g(0,y)dv(0)d\(y)- f f \hnr(0)]g(0,y)dv(0)d\(y) JyJn JyJn Iexp • lyjsn JyJsn Stredné množstvo informácie, ktoré možno získat z experimentu sa rovná strednej I-divergencii ,f{-\0) voči /*(■)■ Spočítajme I-divergenciu združenej hustoty g(0, y) voči súčinu marginálnych hustôt f* (y) a tt(0). Pomocou (2.7) a (11.5) dostávame uxy m. ^ /*(yW0)j 9(0,y)d(v x \)(0,y) = jí jí \kig(0,y)]g(0,y)dv(0)d\(y)- -f í íln^rtl 9(0,y)dv(e)d\(y)- f f \knr(0)]g(0,y)dv(0)d\(y)=lexp. JyJn L n0|y)J JyJsi Stredné množstvo informácie, ktoré možno získat z experimentu sa rovná I-divergencii združenej hustoty g(0,y) voči súčinu marginálnych hustôt f* (y) a tt(0). Preto dostávame (pozri Poznámku pod Definíciou 9.2) Veta 11.1. Stredné množstvo informácie získanej z experimentu Iexp je vždy nezáporné, pričom Iexp — 0 vtedy a len vtedy, ked pozorovaný vektor Y a parametre © sú nezávislé náhodné vektory, t.j. ked v Y nie je obsiahnutá žiadna informácia o ©. Poznámka. Na str. 29 v knižke A.Pázmana je dokázané tvrdenie, že stredná informácia získaná z pozorovania t (y) (t(-) je nejaká štatistika) je menšia alebo rovná strednej informácii získanej z pozorovania y. Rovnost nastáva práve vtedy, ak i~(y) je postačujúca štatistika. "Náhrada" pozorovaného vektora y hodnotou t (y) nemôže zväčšiť množstvo informácie o ©, nanajvýš ho zachovat. Toto nastane práve vtedy, ak je t(-) postačujúca štatistika. 12. Využitie I-divergencie v asymptotike Bayesovho vzorca Zopakujme si Zákon velkých čísel - Chinčinovu vetu (pozri Anděl, str. 183). 14 Veta 12.1. (Chinčinova.) Nech Xi,Ä2,... je postupnost nezávislých náhodných veličín, ktoré majú rovnaké rozdelenie s konečnou strednou hodnotou /i. Potom pre n —> oo n n '-^ i=l podlá pravdepodobnosti. V kapitolke 5. "Pravidlo retazenia pre nezávislé pozorovania" sme ukázali, že postupne pridávané nezávislé experimenty "akumulujú" informáciu. Majme zvolené nejaké apriórne rozdelenie (môže byt aj subjektívne). Nezávisle opakujeme ten istý experiment tak, aby skutočná hodnota parametra © bola tá istá (ale neznáma). Označme ju 9*. Ukážeme, že pri velkom počte nezávislých opakovaní experimentu, výsledné aposteriórne rozdelenie sa v limte koncentruje do bodu 9*. Veta 12.2. Nech © je diskrétny náhodný vektor s hodnotami 92, ■■■} . Apriórne pravdepodobnosti tt(6í) > 0 pre každé i — 1,2,... . Teda apriórna pravdepodobnostná funkcia diskrétnho náhodného vektora ® je {7r(0i)}i>i- Nech y1,y2, ■■■,yn su pozorované hodnoty v n nezávislých experimentoch s tou istou hustotou f(-\9), čiže y1,y2, ...,yn sú realizácie spojitých nezávislých rovnako rozdelených náhodných vektorov Yi, Y2,Y„. Nech pre každé 9 i ^ 9 j platí f(-\9i) ^ f(-\9j). Potom pre aposteriórnu pravdepodobnostnú funkciu platí lim TT^Iy") ak 9, = 9* ak 9l ž 9* pričom y™ = (y1,y2, ...,y„). Dôkaz: Platí n f(ynm = '[[f(yi\9k), * = 1,2,.... i=l Teda podlá Poznámky pod Vetou 2.2 (Bayesovou) platí »(»iiy")- '(9i)/(y"|8,) - "^''Tfy^i - »<"-)exp{"5.<"'} l^MWbrW etsi,((,t)™ e^^^K"}' kde _ 1 v^1t1 / frkl0*) Náhodné veličiny ln —;-;—k — 1,2,n maiú strednú hodnotu f(Yk\9*y . f(Yk\9*) = -I(f(-\9*),f(-\9i))<0, k = 1,2 ,..., Itl, pričom táto stredná hodnota je rovná 0 práve ak f(-\9i) — f(-\9*), čo nastane práve vtedy ak 9i — 9*. Teda ak 9i — 9*, tak podlá pravdepodobnosti lf. f(Yk\9i) ňgln/(Y7ř)-0- 15 Ak 6j ^ 9*, tak podlá pravdepodobnosti n^-f(Yk\6*) 'a<° 7,(0,) exp >^ ^ '-/(Yfel^) K. k=l /(Yfeínj Konečne dostávame, že podlá pravdepodobnosti pre 6i — 6* TT^IY") -í- 1 a pre B% ^ 9* ^(^|Y")^0, pričom Y™ — (Y1; Y2,Y„)'. * Dokázaná veta je len jednoduchším prípadom asymptotických tvrdení o aposteriórnej hustote. V knihe J.Anděla v kapitole o bayesovských metódach nájdete dôkaz, že aposteriórna hustota asymptoticky (pri velkom počte pozorovaní) málo závisí od apriórnej hustoty. Podobný zmysel má aj veta 2.1 v skriptách M. Huško vej. 13. Princíp neurčitosti Od vzniku bayesovskej štatistiky bola snaha stanovit, aké apriórne rozdelenie treba zvolit, ak nemáme žiadnu informáciu o ©. Ak © je absolútne spojitý (vzhladom k Lebesgueovej miere), pričom P(® eň) = l, fi G Bm a Lebesgueova miera /i(fi) > 0, podlá princípu neurčitosti sa volí apriórne rozdelenie rovnomerné na fi, teda 7r(ŕ?) — k > 0, 6 G íl (obyčajne sa volí k — í). V prípade, že © je diskrétny, jeho apriórne rozdelenie pravdepodobnosti volíme tiež rovnomerné. Často sa stáva, že /i(íí) — oo (alebo diskrétna náhodná veličina © nadobúda spočítatelne vela hodnôt). Potom apriórna hustota je nevlastná. Príklad 13.1. Nech náhodná veličina Y má binomické rozdelenie pravdepodobnosti s pravdepodobnost-nou fumkciou f(y\0) f(y\9)= y = 0,1, 2,..., n (n je známe celé nezáporné číslo). O parametri O G (0,1) nemáme žiadnu apriórnu informáciu. Podlá princípu neurčitosti volíme apriórnu hustotu tt(0) = 1, O<0<1. Podlá (2.7) je aposteriórna hustota parametra O rovná B(y + í,n-y+í) Príklad 13.2. Nech Y\, Y2,Yn je náhodný výber z normálneho rozdelenia N(<9, c2), kde a2 je známe kladné číslo. O parametri O G íl — 1Z nemáme žiadne apriórne informácie. V tomto prípade za apriórnu hustotu parametra O (podlá princípu neurčitosti) volíme tt(0) = 1, 9 eTZ 16 (nevlastná hustota). Pretože f(yi,y2,...,yn\6) = * e-š^Eľ^^-^)2 = * e~2^ £ľ=i(^ - £)2 (2-7T) 2 cr™ (2-7T) 2 an aposteriórna hustota parametra O je podlá (2.7) 7r(%1,j/2,...,j/n)=7r(%) = -^= e-2^^-y)2. (7V27r Aposteriórna hustota parametra O je N [y, — V n , Princíp neurčitosti (alebo princíp rovnakej pravdepodobnosti) vedie v niektorých prípadoch k protirečeniam. Napríklad ak máme experiment s hustotami f(y\6), v ktorom P (Q G (0,1)) — 1. Zaujíma nás ale "nový" parameter j3 — d2. Tento tiež nadobúda hodnoty z (0,1). Podlá princípu neurčitosti by oba parametre mali byt rozdelené rovnomerne, t.j. s apriórnymi hustotami (13.1) 7r(0) = l, tt03) = 1. Platí veta Veta 13.1. (Anděl, str. 46.) Nech X má spojitú distribučnú funkciu F (x). Predpokladajme, že F' (x) — f (x) existuje všade s výnimkou najviac konečne vela bodov. Nech t je rýdzo monotónna funkcia, ktorá má všade deriváciu. Položme Y — t(X). Označme t inverznú funkciu k t. Potom Y má hustotu g(y) = f(T(y))\T>(y)\. d^f]3 Označme t(0) = 6>2, čiže t(/3) = V/3 = 0. Teda platí tt(/3) = tt(V/3) (13.1). Toto je v spore s 2^ 14. Jeffreysova apriórna hustota Predchádzajúce úvahy viedli štatistikov k záveru, že bolo by vhodné namiesto princípu neurčitosti volit apriórne rozdelenie tak, aby aposteriórne rozdelenie nezáviselo od parametrizácie modelu. V prípade, že © G 7Zm je (absolútne) spojitý (vzhladom na Lebesgueovu mieru /i), P(& G fi) — 1, pričom /i(fi) > 0, je riešenie tohto problému vo vete 14.2. Ešte pred jej sformulovaním si zopakujme niekolko definícií a viet. Definícia 14.1. Nech náhodný vektor Y — (Yi, Y2,Yn)' má hustotu f(y\9) (vzhladom k er—konečnej miere /i), pričom 9 — [6\,9m)'. Predpokladajme, že platí: (A) 9 G Cl, kde Cl je neprázdna otvorená množina v lZm. (B) Množina M — {y : f (y, 9) > 0} nezávisí od 9. d f (v 9) (C) Pre skoro všetky y G M (vzhladom k /i) existujú parciálne derivácie f [{y,9) — ——^—, i — 06i 1,2, ...,m. (D) Pre každé i a pre všetky ŕ? G íl platí JM f-(y, 9)d^{y) — 0. (E) Pre každú dvojicu (i, j) existuje konečný integrál (F) Matica M(0) s prvkami {M(0)}ý- — Míj(9) je pozitívne deŕinitná pre každé 9 G Cl. 17 Ak sú splnené predpoklady (A) až (E), tak M(0) sa nazýva Fisherova informačná matica. Ak sú splnené predpoklady (A) až (F), tak tak hovoríme, že systém hustôt je regulárny. Poznámka. Definícia 14.1 je platná aj keď náhodný vektor Y — (Yi, Y2, ■■■,Yn)' má diskrétne rozdelenie pravdepodobnosti. Vtedy jeho "hustota" je jeho pravdepodobnostná funkcia. V bode (D) podmienka 7/(Y,0)~ /M/í(y'0)^(y) = 0 Je vlastne £ //(Y|0)/'(Y|0) f (Y, 6) 0 a Fisherova informačná matica má prvky Mij(0) pjy\o) Poznámka. V učebnici J. Anděla, str. 261 je dokázaná veta, ktorá tvrdí, že v prípade regulárneho d2f{y\0) systému hustôt {/(y|0), 9 G íí}, ak existujú derivácie f"j 7£(Y|0) dOtdOj h3 1,2,. , m a pre všetky 9 G íl platí £q /(Y|0) 0, i, j = 1,2, ...,m, tak Mtj(9) £0 d2ln/(Y|0) de se i Definícia 14.2. Zobrazenie f z množiny A do množiny B nazývame prostým, ak platí {xi e A, x2 e A, Xl ^ x2} {f(xi) ^ f(x2)}. Definícia 14.3. Nech f je zobrazenie z 7Zr do 7?.r. Ak je y = /(x), kde y = (yi, ...,yr) a x — (x\, ...,xr), položme y i — fi(x±,xr), i = 1,2,..., r. Povieme, že zobrazenie f je regulárne v množine M C 7?.r, ak platí: 1. M je otvorená. 2. Funkcie /1,fr majú parciálne derivácie prvého rádu spojité v M. 3. Pre každé x e M platí, že jakobián Df(x) 7^ 0, pričom Df (x) = det ( dh dx\ V dx\ dh \ dxr djr_ dxr / Veta 14.1. (O substitúcii, Anděl, str. 47.) Nech f je zobrazenie otvorenej množiny p C 7Zr na Q C 7Zr. Nech f je regulárne a prosté v p s jakobiánom Df(x). Nech M C Q je borelovská množina a f meratelná reálna funkcia. Potom platí í P(x)dx= f F[f(u)]|Df(u)|du, ■JM Jí-1{M) akonáhle jeden z integrálov existuje. Veta 14.2. (Anděl, str. 291.) Nech náhodný vektor Y má pri danom parametri 9 e íl G Bm hustotu f{y\9) (alebo pravdepodobnostnú funkciu {/(yJ0)}i>i) ■ Predpokladajme, že systém hustôt {f(y\9) ■ 9 e íl} je regulárny a má Fisherovu informačnú maticu M(0), v(0) je Lebesgueova miera. Nech platí (14.1) 0< / /(y|0)|M(0)|2d0(Y) — £(Y — £{Y))2 — n9(l — 9). Jeffreysova apriórna hustota je rovná k — kde k > 0. VW^)r Ked zvolíme apriórnu hustotu pre parameter 9 ,(9) = • W - 1 yj0{l - 9) dostávame z (2.7) aposteriórnu hustotu parametra 9 Tr(9)f(v\9) 9-^(l-9)-^(n)9y(l-9)n-y i J^(9)f(y\9)d9 ti9-Hl-9)-h(;)9y(l-9y-yd9 B(y+\,n-y+\) Majme teraz záujem o parameter j3 — 92. Podlá Vety 13.1 je aposteriórna hustota parametra j3 rovná 1 (14.4) 7rC%) = 7r(^|j/) 2^ 2B (y + \,n-y+\) 1 TT^d-Mr 19 Ak vyjdeme z parametra /3, má Y z príkladu 14.1 pravděpodobnostmi funkciu /(j/|/3)= ^p{l-F)n-y, y = 0,1, 2,..., n (n je známe celé nezáporné číslo). Platí dln/(y|/3) _ y n-y a Fisherova miera informácie je M*(p) = Ei} Pri apriórnej hustote d/3 2/3 2/3^(1-/35) (y-n/35)2 4/32(l-/35)2 [M* 03)] ttGS) = 2i z (2.7) dostávame opát aposteriórnu hustotu (14.4). Príklad 14.2. Majme náhodný výber z rozdelenia N(6,o-2). Teda Y ~ Nn(16, cr2I„ „). Aká je Jef-freysova apriórna hustota v prípade, že a) parameter cr poznáme, b) poznáme parameter 0, ale nepoznáme parameter cr, c) nepoznáme ani 0 ani cr. Riešenie: Hustota náhodného vektora Y je f(y\6, cr) = f{vi,V2, ■■■,Vn\Q,p) — 1 -^-Eľ=i(j/i tiež, že (27t)5cr™ e 2o-2 Platí n 1 ™ ln/(y|é>, cr) = --ln27T-nlncr- — n 772' i=l a) Ak parameter a poznáme, tak Fisherova miera informácie je rovná (podlá Poznámky nad Definíciou 14.2) r<92rn/(Y|0,cr)" MW = -£e [-9Q2 Pri známom cr to je konštanta a preto Jeffreysova apriórna hustota parametra 0 je 7r(0) = l, 6 eTZ. b) Ak parameter 0 poznáme, ale nepoznáme parameter cr, tak Fisherova miera informácie je rovná (podlá Poznámky nad Definíciou 14.2) M(cr) = -ea 92ln/(Y|0,cr) 9cr2 2n 772 ■ Preto Jeffreysova apriórna hustota parametra u je 7r(cr) = -, cr > 0. cr c) Ak nepoznáme ani parameter 0 ani parameter cr, tak prvky Fisherovej informačnej matice sú (podlá Poznámky nad Definíciou 14.2) "92ln/(Y|0,cr)- Mn(0) = -Ee dO2 n 772 ■ 20 M12{6) = -£e d2\nf{Y\6, 0. Poznámka. J. Anděl v učebnici na str. 294 poznamenáva, že väčšinou v prípade c) predchádzajúceho príkladu sa za apriórnu hustotu volí 7r*(0,f7) = Í, 9 eTZ, (7>0. a Zdôvodňuje sa to tým, že sa dá mnohokrát dopredu předpokládat, že 0 a c sú nezávislé a apriórna hustota 7r*(0,er) sa rovná súčinu apriórnych hustôt 7r(0)7r(cr) (ako keby ir(6) a tt(o-) boli "obyčajné" hustoty). Príklad 14.3. (Poissonovský experiment.) Nech Y je diskrétna náhodná veličina s poissonovským rozdelením pravdepodobnosti a pravdepodobnostnou funkciou QV f(y\8) = ^e-ti, y = 0,1 y' > o. Platí Preto ln/(y|0) = -lny! -0 + yln0. M(0) d2lnf(y\0) de2 Preto Jeffreysova apriórna hustota je ttj (0) oc —j=. V0 15. Hierarchizácia apriórneho rozdelenia V niektorých prípadoch možno apriórnu hustotu zapísat v tvare (15.1) n(0) = JmiOMTrzWdvW, kde 7ľi(0|7) je hustota, ktorej tvar je známy, ale neznáme sú parametre 7 e Q (realizácie náhodného vektora T), ako aj neznáma je hustota ^2(7) vzhladom na c—konečnú mieru /i (my uvažujeme alebo Lebesgueovu mieru alebo sčítaciu mieru). Poznámka. Upozorňujeme len, že "všeobecný" zápis (15.1) chápeme: (i) Ak je © spojitá aj T spojitá, tak 7Ti(0|7) je hustota známeho tvaru a ^2(7) je neznáma (apriórna) hustota náhodného vektora T. Táto je nenulová na Q. Potom (15.2) tt(0)= / ^i(0|7)^2(7)rf7- Jg (ii) Ak je © spojitá a T diskrétna s hodnotami {71,72, ■■■}, tak {tti(0|7í)}í>i sú hustoty známeho tvaru a {7r2(7j)}j>i je neznáma (apriórna) pravdepodobnostná funkcia parametra 7 G {71,72, ■■■}■ Potom (15.3) = EtiW^W^)- i>i 21 (iii) Ak je © diskrétna s hodnotami {61,62, ■■■} a T spojitá, tak {^i(6j\j)}j>i je pravdepodobnostná funkcia známeho tvaru a ^2(7) je neznáma (apriórna) hustota náhodného vektora T. Táto je nenulová na q. Potom (15.4) MWhz^l f *i(0jh)*2h)ďy) ■ ue ) j>i (iv) Ak je © diskrétna s hodnotami {81, 82,...} a, T diskrétna s hodnotami {7^ 72, ■■■}, tak {tti(8j |7í)}j>i sú pravděpodobnostně funkcie známeho tvaru (pre každé i g {1, 2,...}) a {tt2(7í)}í>i je neznáma (apriórna) pravdepodobnostná funkcia parametra 7 g {71,72, ■■■}■ Potom (15.5) MOj)h>i = \ E^ľ^W^) [ í>i Vztah (15.1) znamená hierarchickú štrukturalizáciu. Hustota ^2(7) je primárna a hustota tt(0) je sekundárna v tejto chierarchizácii. Pôvodne sme mali experiment {/(y|0) : 8 g fi} a teraz uvažujeme experiment {g(yh) ■ 7 e £}, kde s(y|7)= / /(y|0>i(0|7)^W- V tomto experimente je apriórna hustota 7^(7). Táto sa volí rovnomerná (t.j. podlá princípu neurčitosti), alebo akákolvek iná. Jaj volba nie je tak kritická, ako volba apriórnej hustoty tt(0) v pôvodnom experimente {/(y|0) : 8 g íí}. Príklad 15.1. (Podlá knižky A. Pázmana, str. 9.) Novovyvinutý prístroj (alebo metóda) umožňuje detekovat chorobu, resp. nepřítomnost choroby s 95% pravdepodobnosťou. To znamená, že zo 100 pacientov, ktorým prístroj indikoval chorobu, približne 5 pacientov touto chorobou netrpí. Naopak, zo 100 pacientov, ktorým prístroj indikoval, že sú zdraví, v skutočnosti približne 5 je chorých. Náhodná veličina y—indikácia choroby prístrojom má realizácie yi— prístroj chorobu indikoval alebo y'2— prístroj chorobu neindikoval. Parameter 6 nadobúda hodnoty 6\— vyšetrovaná osoba je chorá alebo 62— vyšetrovaná osoba je zdravá. Teda tt(0) je pravdepodobnostná funkcia popisujúca apriórne rozdelenie pravdepodobnosti ochorenia v experimente {f(y\0) : 8 g {^1,^2}}- Zo zadania platí /(j/i|0i) = /G/2|02) = O,95 a /(j/2|0i) = /(j/i|02) = O,O5. Ľudia sú kategorizovaní podlá určitých predispozícií k chorobe na s kategórií 71,...,7S a podlá štatistík pravdepodobnostná funkcia ochorenia v jednotlivých kategóriách je {^i(0j\lt)}2j=i, i = 1,2,..., s, 22 Toto je apriórne rozdelenie pravdepodobnosti ochorenia v niektorej z kategórií. Nepoznáme však apriórnu primárnu hustotu ^2(7) na T — {1,2, ...,s}. Môže sa zvolit rovnomerná. Namiesto experimentu {f(y\0) : O G {^1,^2}} s (neznámou) apriórnou pravdepodobnosťou tt(9) budeme teraz uvažovať experiment {g(y\j) ■ 7 G {1, 2,s}}, pričom {<7(j/iľy)}ľ=i = l^ňyilOjWm-y) J=1 > i=i Apriórna hustota v tomto experimente je ^(A) (rovnomerná na {1,2,s}. Predchádzajúce úvahy zhrnieme vo vete Veta 15.1. (Pázman, str. 47.) Ak platí (15.1), tak aj aposteriórna hustota má hierarchickú štruktúru r(0|y) = f 7r1(0|7,y)7r2(7|y)dM(7), Ja kde J„/(y|9)»i(8|7) teda v skutočnosti ide o velmi jednoduchý prepočet parametrov (17.2) c_>c + t(y), l^l+í. Problémom môže byt výpočet K (c, l). Metóda má význam hlavne ak rozdelenia 7rc,;(') patria k rozdeleniam známym z teórie pravdepodobnosti, kde normovači výraz K(c, l) už bol stanovený. Systém konjugovaných apriórnych hustôt {7rc;(0)} priradený k hustotám exponenciálneho typu (17.1) možno podstatne rozšířit, ak uvažujeme aj konvexné zmesi hustôt v tvare fe (i7.3) ]r^Cijíi(0), i=l kde ují > 0, EÍLi — 1- Platí veta Veta 17.1. (Pázman, str. 51.) Ak ir(0) má tvar (17.3), tak aposteriórna hustota je tiež konvexnou zmesou tvaru fe *(0\y) = Ew* (y)7rci+t(y),ii+i(0)> i=l kde koeficienty v tejto konvexnej kombinácii sú K(cí,Ií) x ^(Cí + t(y),^ + l) (y) — <' ^+1^ + 1) Dôkaz: Ak dosadíme (17.3) do Bayesovho vzorca (2.7), dostávame ^Cl,;i(0)/(y|0) ^(í?|y) = Eti^^,t<(e)/(y|e) = £. /„ ^aÁ0).f{y\e)dv{e) In E-=1 ^-^..í . (0)/(y|0) 0, b > 0 a £?(a, 6) = —V^—rr- Aby 7rCjí(0) bola hustota, musí platit [K(c, l)}-1 = ľ 9c(l-9)lm-cd9 = í' e^+^-^l-^C"1-^1)-1^ = B(c+1, Zto-c+1) = r(c+~ c+^ , Jo J o i + 2) Pravidlá "prepočítavania" parametrov sú dané vztahom (17.2), preto v tomto prípade c^c + y, Z —>• Z + 1. a aposteriórna hustota je 7r(0|j/) = TTc+y,i+1(9) = K(c + y,l + l)ŕ?c+^(l - 0)«+D™-^ = = _r((Z+ l)m + 2)_ gc+v(l - a)(l+l)m-c-y T(c + y + í)T((l + í)m-c-y+í) y ' Z tohoto vztahu vieme napríklad spočítat aposteriórnu strednú hodnotu c + y + í £[ir{9\y)] (Z+ 1)to + 2' čo je bayesovský odhad (vlastne jeho realizácia) parametra 9 (pozri nižšie). V praxi je postup taký, že v súlade s kapitolou 16 nájdeme odhady neznámych parametrov apriórnej hustoty tt(0) z konjugovaného systému hustôt (obyčajne nie bayesovskými postupmi) a neznáme parametre nahradíme ich odhadmi. V tomto príklade potom dostávame ewTv)]- č + y + í (Z+ l)m + 2 Príklad 17.2. (Poissonovský experiment, A. Pázman, str. 53.) Nech Y má Poissonovo rozdelenie pravdepodobnosti s pravdepodobnostnou funkciou (hustotou vzhladom k sčítacej miere) fíy f(y\0)=e-d- ae^1"0, y = 0,1,2,... , y' teda y — {0,1, 2,}, O e íl — (0, oo). Hustota f(y\9) patrí do exponenciálnej triedy hustôt. Konjugovaná apriórna hustota (voči Lebesgueovej miere) na íl má podlá (17.1 a) tvar 7rCjí(0) = K(c,l)e-w9c. Pre gama funkciu platí T (a) — J0°° xa~1e~xdx, a > 0. Preto [K(c, Z)]"1 = r z-Wecd9 = ± f™ e-^+^du = ^±11 26 pre c > —1, Z > 0. Pravidlá "prepočítavania" parametrov sú dané vztahom (17.2), preto v tomto prípade c c + y, Z —>• Z + 1. a aposteriórna hustota je íl -i- 1Y+V+1 <ô\y) = ^,;+1(ŕ?) = ^(c + y,Z + l)e-('+1)^ = T{c + V + l) e~(l+1)6eC+V-Z tohoto vztahu vieme napríklad spočítat aposteriórnu strednú hodnotu čo je bayesovský odhad (vlastne jeho realizácia) parametra 9 (pozri nižšie). V praxu opát neznáme parametre c a Z nahradíme ich (nie bayesovskými) odhadmi získanými z "iného" experimentu. Teda dostávame Z+ 1 Príklad 17.3. (A. Pázman, str. 54.) Nech Yi, I2, ■■■,Yn je náhodný výber z rovnomerného rozdelenia na (0, 6), teda O € Í2 = (0, 00). Yi £ y — (0, 00) má hustotu (vzhladom k Lebesgueovej miere) f{ io. í O'1, ak Vl e (0,9), [0, ak yi e (0, 00). Hustota náhodného vektora Y — {Y\,Y2, ...,Yn)' sa nedá zapísat v tvare (17.1), ale keď definujeme í (y) = maxyl, môžeme písat n i=l kde íl, ak 9e(o,6), -Ĺ(a,b){V) = < 0, ak 9 i {a, b). Len podotýkame, že í(Y) je postačujúca štatistika. Konjugovanú apriórnu hustotu zvolíme £(c,oo)( (17.4) 7rCjí(0) = (z - i)Ä-(c, i^e-'it^e) (přesvědčte sa, že ttc,i(6) je vskutku hustota). Preto (17.5) /(y|0Kl(0) OC ^("+í)2ľ(max{C,t(y)},oo)W. Zo vztahov (17.4) a (17.5) vidíme pravidlá pre "prepočítavanie" parametrov c —>• max{c, í(y)}, Z —>• Z + n. Príklad 17.4. Majme náhodný výber Y1; Y2, z rozdelenia .ZV(0, c2), pričom c2 poznáme. Parameter Q € ft — TZ. Podlá Príkladu 13.2 je hustota náhodného vektora Y — {Y\,Y2, ...,Yn)' rovná f(.yi,V2, ...,yn\0) = f(y\0) = ,0 i n ZZ=ifa - °)2 = (27t) 2 (7™ 27 e 20 (2tt) 2 cr" Ako konjugovaný systém sa v tomto prípade v praxi berie množina všetkých rozdelení N (a,b2), kde a G K, b>0. Teda 7t„,6(0) 1 _0T(ŕ?-a)2 2tt 6 -e 262' Preto hustota aposteriórneho rozdelenia parametra O je f(y\0M0) ^-^{e- yf-Mo «)2 <0\y) Úpravou dostaneme nb2y + aa2 nb2 + a2 2b2 7r(0|y) ~ N í nb2y + acr2 \ nb2 + u2 1 nb2 + a2 / Stredná hodnota aposteriórneho rozdelenia je váženým priemerom parametra a (strednej hodnoty apriórneho rozdelenia, ktorú poznáme pred experimentom) a odhadu y založeného len na výberových hodnotách (na hodnotách získaných v experimente). Disperzia aposteriórneho rozdelenia je menšia než disperzia apriórneho rozdelenia b2 (experimentom zmenšujeme rozptyl). Disperzia aposteriórneho rozdelenia je ale tiež menšia ako —, čo je disperzia Y. Keby sme čerpali informácie o 6 len z experimentu, tak najlepší nestranný odhad n _ parametra 6 by bol Y. Bayesovský odhad využíva apriórnu informáciu a je "presnejší" ako ten najlepší frekventistický odhad, ktorý apriórnu informáciu nevyužíva. Ukážme si ešte príklady viacrozmerných konjugovaných systémov. Príklad 17.5. (Normálne rozdelenie s neznámou strednou hodnotou a disperziou, A. Pázman, str. 55.) Nech Y\,Yn je náhodný výber z rozdelenia N(6i, -^), teda neznáma stredná hodnota je 9\ G 7Z a neznáma inverzná disperzia je 62 G (0, 00), © — (Oi, O2)' G 1Z x (0, 00). Hustota Yi je f(.Vi\0i, 02) = ttVi\0) = \/g exp j -f {Vl - ŕ?!)2 a preto /(j/i,j/2,...,j/„|0) = /(y|0) = 922 fr _%? , 2 e 2 Ui h02Vi - = (27T): 1 {(Eľ=iJ/i. Eľ=iyľ)(et)-f(-in^ + ^2)} —— exp L 2 J Z-W + l. Pri označení (17.1) je t(y) = (Eľ=i J/i, Eľ=iJ/ľ)'. 7(#) = (M2, -f)', k(0) = §(-ln02+ 0?02) a pravidla pre "prepočítavanie" parametrov sú podlá (17.2) n n i=l Ešte spočítame K(c,l). Podlá formuly pod (17.1 a) Md)]-1-- i=l Q1^&C\0\02 — \0\02 — C2 2 ddXdd2 (—00,00) X (0,oo) 28 oo nl -oo 2^102-^0102-02^^ cž02 = oo n/ _02_ 022 e 2 oo rd_ _§2. \ r a 2 „ 2 \ °2 ní (ž01 f°° _62rú (a _ c±\z J — oo cž02 cž02 = oo n/ _®2. \ r _ Ll 2 V02 „| i / 2tt oo 92nl oo n/ —1 27t ní / ^2 0 C'2nl — cx cž02 = 2 e^172 2ní ' d6»2. Z podmienok na parametre gama-hustoty dostávame Ci G 7£, c2 > 0, l > 0, alebo Substitúciou dostávame z posledného integrálu c^nl — c{ 2nl c2 1 ci G 7£, c2 > --< ž < 0. m n i2 = u ÍŽň T (p) nl aP kde a — C2 a p nl + 1 2 " 2 Príklad 17.6. (Multinomický experiment, A. Pázman, str. 56.) Majme diskrétny náhodný vektor Y — (Yi, Y2,Yr)', ktorého zložky sú diskrétne náhodné veličiny. Môžu nadobúdat hodnoty 0,1,..., n. Vektor Y má multinomické rozdelenie pravdepodobnosti s pravdepodobnostnou funkciou 7! /(j/!, ...,j/r|0i,0r) = /(y|0) = P(Yi = j/i, ...,yr = j/r) = yi!...yr! 0f...0*" kde j/í e {0,1,n}, X)I=i — n; 0j "= (0> -Oj J — 1> 2,r, X)j=i 0j — 1- Takouto hustotou (pravdepodobnostnou funkciou) je matematicky popísaný napríklad experiment, v ktorom robíme n nezávislých pokusov. Každý pokus može rezultovat v jednom z r výsledkov, pravděpodobnost nastatia j—teho výsledku je 6j. Náhodná veličina Yi je počet nastatí z—teho výsledku v týchto n pokusoch. Konjugovaný systém hladáme v tvare r i=l (c = (ci, ...,cr)', y = {(y1,y2,--,yn) ■ y% e {0,1,..., n}, Yh=iVí = n}, — {0 — (91,...,9r) : 9 j e (0, í), j — 1, 2, ...,r, Yľj=i 0j — !}■ Pravidlá pre "prepočítavanie" parametrov sú Ci ->• Ci +yt í = 1,2, ...,r. Rozdelenie tohoto tvaru je známe. Je to Dirichletovo rozdelenie s hustotou r(ai + ... + ar) i=l 29 (pozri napr. http://en.wikipedia.org/wiki/Dirichlet_distribution). Teraz už lahko dostaneme vyjadrenie Kc 18. Aproximácie integrálov Pri bayesovskej inferencii je klučové určenie aposteriórnej hustoty 7r(0|y). Túto dostávame zo vzorca (2.7), pričom musíme spočítat integrál Tr(8)f(y\8)dv(8) (normovači faktor). V dalšom budeme potřebovat spočítat strednú hodnotu aposteriórneho rozdelenia vektora ©, čiže opát len integrály J"n 0j rK(6)f(y\6)di>{6), i — 1,2,...,m. Pokial je dimenzia dim(ŕ?) malá, môžu sa použit "bežné" numerické metódy približného výpočtu týchto integrálov. Načrtneme dve metódy vhodné pre dim(ŕ?) — 1. Obe metódy využívajú poznatok, že velké počty pozorovaní je tvar funkcie vierohodnosti f(y\0) (ako funkcie 6 pri daných, nameraných y) podobá tvaru hustoty normálneho rozdelenia. Teda uvažované integrály možno " rozumne" pretransformovat do tvaru /oo ^2 (t)e~~dt -oo s danou funkciou <ř(í). 18.1. Metóda kvadratury (Hermiteova-Gaussova kvadratura) Táto metóda využíva ako pomocný nástroj systém Hermiteových polynómov {iífc(ŕ)}^=0, kde *.(») = <-i)V|^. Integrál (18.1) sa podlá tejto metódy rovná <$>{ť)e~~dt = HMtj) + E, 3=1 pričom t j, j — 1, 2,k sú korene Hermitovho polynomu iífc(í) a H j sú určené nasledovne 2k+1kU/^ Chyba E sa rovná 3 Hk(tj)Hk+l(tj)7 ^ _fc!V^ (2fc) 2fe(2Ä:)! {l> Podrobnejšie pozri napr. v knižke Ralston, A., A first course in numerical analysis, MCGRAW-HILL, INC, 1965. Tam sú uvedené aj hodnoty t j a H j pre j — 1,2,3,4, 5. 18.2. Metóda Laplaceovej transformácie Metóda Laplaceovej transformácie využíva poznatok, že funkcia vierohodnosti f(y\0) (ako funkcia 6 pri daných, nameraných y) je pre veké počty pozorovaní značne koncentrovaná okolo bodu 9 = argmax/(y|0) o 30 (0 je odhad získaný metodou maximálnej vierohodnosti). Touto metodou sa počíta integrál tvaru /oo b(6)e-hi9)d6, -oo kde h(6) — — ln/(y|0). Funkcie b(6) a h(6) aproximujeme kvadratickými Taylorovými rozvojmi v okolí bodu b{9) = b{9) db{6) d9 1 d2b(9) 6=6 2 de2 b0 + bi( 6=6 h{0) = h{0) 1 d2h{0) 2 de2 Lineárny člen sme v druhom vztahu vynechali, lebo 6=6 dh(6) )2 = ho + -h2(0-0)2. de 0. Integrál (18.2) aproximujeme integrálom 6=6 - p-h0 I = e bo + b1(0-0) + -b2(0-0)2 _h2 e 2 -hn 12 J- h(0- :b,(0-< °> d0 = V h2 bo 2h2 Metodu možno zovšeobecnit aproximáciou funkcie b(9) rozvojom vyššieho rádu. 19. Niektoré simulačné metódy generovania nezávislých realizácií náhodnej veličiny V mnohých prípadoch použitia bayesovských metód ide o určenie aposteriórnej hustoty, alebo o určenie strednej hodnoty aposteriórneho rozdelenia (teda o integrál). Základný princíp simulačných metód je generovanie postupnosti realizácií nezávislých náhodných veličín z nejakého (daného) rozdelenia. Hustotu potom aproximujeme histogramom, momenty aproximujeme výberovými priemermi. Tieto aproximácie sú tým lepšie, čím je väčší rozsah simulovaného súboru. Balíky počítačových programov obyčajne umožňujú generovat náhodný výber (resp. pseudonáhodný výber) z rovnomerného rozdelenia i?(0,1). Bližšie sa s mechanizmom činnosti generátora (pseudo)náhodných čísel a so spôsobmi testovania vytvorenej postupnosti môžeme oboznámiť napr. v skriptách Kalas, J., Pekár, J., Simulačné metódy, Bratislava: MFF UK, 1991. Tu uvedieme tri metódy. Viac o simulovaní náhodných veličín sa dočítate v knižke Antoch, J., Vorlíčková D., Vybrané metody statistické analýzy dat, ACADEMIA, Praha, 1992. 19.1 Metóda inverznej transformácie Táto metóda umožňuje generovanie realizácií nezávislých (jednorozmerných) náhodných veličín Y\,Y2,... z rozdelenia aké má náhodná veličina Y s danou distribuňou funkciou -FV(y) — P (Y < y) a kvantilovu funkciou ivy1(?i) — inf{y : Fy(y) > u}, 0 < u < 1 . Toto rozdelenie môže byť diskrétne alebo aj spojité. Metóda je založená na nasledujúcom tvrdení: Veta 19.1. Nech náhodná veličina U má rovnomerné rozdelenie na (0,1). Nech Fy(y) je lubovolná distribučná funkcia. Potom náhodná veličina Y — Fy1^) má rozdelenie s distribučnou funkciou Fy{y). Dôkaz nájdeme v knižke J. Anděla, str. 6. Postup pri generovaní je jednoduchý. Ak x±, x2l... je náhodný výber z rozdelenia i?(0,1), tak _F_1(aľi), F^1{x2),... je náhodný výber z rozdelenia s (požadovanou) distribučnou funkciou Fy{y). 31 19.2 Zamietacia metoda Metoda je založená na tvrdení: Veta 19.2. Nech a > 0. Náhodný vektor U G 72™ má hustotu (vzhladom k Lebesgueovej miere) /u(u) a súčasne podmienená hustota (inej) náhodnej veličiny (jednorozmernej) V, teda fv\u(v\u) Je rovnomerná na intervale (0, a f (u)) Í: ak v e (0, a/(u)), «/u(u) 0, ak v ^ (0, a f (u)) práve vtedy, ked náhodný vektor (U', V)' G 72™+1 je rovnomerne rozdelený na množine {(u',v)'eTZn+1 : ueTZn, /u(u) > 0, v G (0, a/(u))} . Dôkaz: nájdeme v knihe Devroye, L., Non-uniform random variate generation, Berlin, Springer, 1986. Algoritmus generovania postupnosti vektorov y1, y2,... G 72.™ ktorá je náhodným výberom z rozdelenia s hustotou /y(y): - Zvolme nejakú hustotu gu(u), u G 72™, z ktorej vieme lahko generovat náhodný výber, pričom táto hustota je taká, že existuje a > 0, že pre každé u G 72™ platí /y(u) < «í/u(u)- - Generujme náhodný výber Ui,u2,... zodpovedajúci hustote gu(u). - Na z—tom kroku generujeme Xi ako (jednorozmerný) jednobodový náhodný výber z rovnomerného rozdelenia i?(0, agu(ui)). Podlá Vety 19.2 to ale znamená, že body (uj,xj) sú nezávisle generované z rovnomerného rozdelenia na množine G = {(u',x)' G 72™+1 : 0 < x < ag(u)} . - Ak Xi < /y(uj), tak bod zaradíme do hladanej postupnosti {yj}j>i, ale ak Xi > /y(uj), tak bod Ui vyradíme z dalšieho uvažovania. - Je zrejmé, že takto vybrané vektory (y^, x i)' sú rovnomerne rozdelené na množine F = {(y',x)' G 72"+1 : /Y(y) > 0, 0 < x < /Y(y)} , pretože F d G, pričom pri danom y ■ je bod Xj z rovnomerného rozdelenia i?(0, /y(yj))- Z Vety 19.2 vyplýva, že vybraná postupnost vektorov y1,y2, ■■■ je náhodným výberom zodpovedajúcim hustote /y(y)- 19.3 Kompozičná metóda Táto metóda sa používa v prípade, že potrebujeme generovat nezávislé realizácie náhodného vektora s predikčnou hustotou f* (y) — Ju ^(8) f(y\6)dv(6) a vieme pomerne lahko generovat body zodpovedajúce hustotám ,f(y\0) a 7r(0). Algoritmus generovania postupnosti vektorov y1,y2, ■■■ G 72™ ktorá je náhodným výberom z rozdelenia s hustotou /* (y): - Generujeme náhodný výber 6\, 62,... zodpovedajúci hustote tt(0). - V z—tom kroku k už získanému 6i generujeme y{ ako jednoprvkový výber zodpovedajúci hustote 32 - Takto získaná postupnost y1,y2, ■■■ je náhodný výber zodpovedajúci hustote f*(y). 20. Monte-Carlo metóda integrovania V horeuvadených, ale aj iných simulačných metódach generujeme nezávislé realizácie xi,X2,...,x„ toho istého náhodného vektora $, (alebo, čo je správnejšie povedané - ale to isté, realizácie xi, x2,x„ nezávislých náhodných vektorov £2! £n rovnako rozdelených ako náhodný vektor £). Náhodný vektor má hustotu /(x). Ak potrebujeme vypočítat integrál typu 1= f *(x)/(x)dM(x) ix (obor hodnôt ^ je X, hustota /(x) je vzhladom k c—konečnej miere /i(x)), tak tento aproximujeme sumou n /» = "£*(*)■ i=l Podlá silného zákona velkých čísel s rastúcim n konverguje ín k /. Presnejšie — Y"™, 3>(Xj) konverguje n skoro iste k I. 21. MCMC metódy Simulačné metódy z kapitoly 19.1 a 19.2 generujú nezávislé realizácie nejakej náhodnej premennej alebo náhodného vektora. Tieto metódy sa ukazujú ako nedostatočné, najmä ak dimenzia simulovaného vektora je velká, alebo hustota simulovaného vektora je velmi komplikovaná. Približne od roku 1990 sa v bayesovskej štatistike uplatňujú MCMC (Monte-Carlo Markov Chains) metódy. Ich základná myšlienka je v tom, že sa pomerne jednoduchými algoritmami vygeneruje ergodický markovovský proces s diskrétnym časom, ktorého stacionárne rozdelenie je práve to, ktoré potrebujeme simulovat. Teda negenerujú sa realizácie nezávislých náhodných vektorov, ale naopak, realizácie závislých náhodných vektorov. V predchádzajúcom sme generovali realizácie 6\, 62,... nezávislých náhodných vektorov ©i, ©2,ktoré majú rovnaké rozdelenie s (aposteriórnou) hustotou iv(8\y) — -z- ^ ^ ^——— a oborom hodnôt fi, t.j. P(&i e íí) = 1. V ďalšom si označíme prvky náhodného vektorového procesu, x^ (alebo y^) realizácie náhodných vektorov Obor hodnôt generovaného náhodného vektora £ označme X. Jeho hustotu (v prípade, že má spojité rozdelenie) označme /(x). Ak má diskrétne rozdelenie, jeho pravdepodobnostnú funkciu označme p (x). Cielom je generovat postupnost vektorov patriacich do X, ktoré sú realizáciami ergodic-kého markovovského náhodného procesu £(1),£(2),.... Stacionárne rozdelenie tohto náhodného procesu má hustotu /(x) ak rozdelenie je spojité resp. pravdepodobnostnú funkciu p(x) ak rozdelenie je diskrétne. Volne povedané, proces je ergodický, keď body generovanej postupnosti x^1), x^2\ ... sa po nejakom počte krokov priblížia lubovolne presne ku každému z bodov množiny {x : /(x) > 0}, ak stacionárne rozdelenie markovovského retazca je spojte a /(•) je jeho hustota, alebo ku každému z bodov množiny {x : p(x) > 0}, ak stacionárne rozdelenie markovovského retazca je diskrétne a p(-) je jeho pravdepodobnostná funkcia. Táto skutoňost zaručí, že integrály tvaru Jx (x)/(x)dA(x) (resp. 'í'íx) ^xeXp(x)) možno aproximovat sumou 33 — Eľ=i ^(x^). Rozbor tohto problému patrí do teórie markovovských procesov (pozri napr. Robert, Ch., P. Méthodes de Monte Carlo par Chainnes de Markov. Paris: Economica, 1996). MCMC metódy možno rozdělit do dvoch (hlavných) skupín: a) metódy odvodené od algoritmu Hastinga a Metropolisa, b) metódy odvodené od algoritmu Gibsa. 21.1. Algoritmus Hastinga a Metropolisa Opis algoritmu. Zvolíme lubovolnú triedu podmienených hustôt (resp. podmienených pravdepodob-nostných funkcií) na X {q(-\y) : y G X} tak, aby platilo: a) Ak pre A c X je /A/(x)dA(x) > 0 (Ex£aP(x) > 0), tak /Ag(x|y)dA(x) > 0 (ExeA^Wy) > °) Pre každé y e X. b) Ľahko možno simulovat náhodné výbery zodpovedajúce hustote (pravdepodobnostnej funkcii) g(x|y). Hustoty (pravděpodobnostně funkcie) ). 2. Vypočítame výraz rt(xv ' ,yy ') — mm < 1, /(x("))g(y(")|x(")). 3. S pravdepodobnostou iž(x("),y(™)) zvolíme x^™+1) — y(") a s pravdepodobnosťou 1 — iž(x("),y(™)) zvolíme x(™+1) — x^™). Poznámka. Na stanovenie R(^n\y^) nepotrebujeme vediet normovači koeficient v hustote /(x) (v pravdepodobnostnej funkcii p(x)). Toto využijeme ak požadovaná hustota (pravdepodobnostná funkcia) je aposteriórna, kde stačí použit súčin ir(6)f(y\6) namiesto ir(6\y) (resp. Tv(8i)f(y\8i),i — 1,2,... namiesto 7r(^|y),i = 1,2,...) . Výber bodu x(™+1) v algoritme je náhodný a pravděpodobnost, s ktorou je vyberaný, nezávisí od prdchádzajúcich x^, i < n. Dostaneme teda markovovský proces. Vzhladom na značnú lubovôlu pri výbere inštrumentálnych hustôt sa javí prekvapujúce, že práve hustota /(x) zodpovedá stacionárnemu stavu tohto procesu. Práve táto lubovôla umožňuje vybrat inštrumentálne hustoty tak, aby sa stacionárny stav dosiahol čo najrýchlejšie, resp. výpočtovo najjednoduchšie. Označme P(A|x) pravděpodobnost, že proces sa (na lubovolnom) kroku dostane zo stavu x do stavu, ktorý patrí do množiny A. P(A|x) voláme aj prechodové jadro (transition probability kernel). Platí veta (Pázman, A., Bayesovská štatistika, str. 65) 34 Veta 21.1. Pri akejkolvek volbě inštrumentálnej hustoty (pravdepodobnostnej funkcie) spĺňajúcej podmienku a), algoritmus Hastinga a Metropolisa generuje realizáciu markovovského procesu a pre každú me-ratelnú množinu A platí (i) ak /(x) je hustota / P(.A|x)/(x)dA(x) — / /(x)dA(x) pre každú meratelnú A C X Jx J A (A(-) je Lebesgueova miera), (ii) ak p(xj), i — 1, 2,... je pravdepodobnostná funkcia P(A|xj)p(xj) — p(x) pre každú meratelnú A C X. i>i xeA Teda /(x) je hustota stacionárneho rozdelenia (p(x) je pravdepodobnostná funkcia stacionárneho rozdelenia) tohto procesu. 21.2. Algoritmus Gibsa Tento algoritmus sa používa v mnohorozmernom prípade, ked: - X — X\ x X2 x ... x Xm, pričom každé x G X možno rozložit na m komponent x — (x\, ...,xm)' Xi G Xi, i — 1,2,m. Predpokladáme, že X (A) — Xi(Ai) x ... x Xm(Am), ak A — A\ x ... x Am, kde Ai C Xi. (Toto platí napríklad pre Lebesueovu mieru.) - pre každé i — 1,2, to sa dajú generovat náhodné výbery z množiny Xi zodpovedajúce podmieneným hustotám týchto komponentov, teda Algoritmus predpisuje prechod od x^™) — {x^\ ...,Xm^)' ku x(™+1) — (x^+1\Xm+1^)' po jednotlivých komponentoch takto: - generujeme výber x^+1^ z hustoty f\{-\x^, ...,Xm^), - generujeme výber x^"^1^ z hustoty f2(-\x<]n+1\ x^\ ...,Xm^), - generujeme výber x3(n+ 1) z hustoty f^{-\x^+1\x2Jl+1\xí^l\..,Xm'>), atd, - generujeme výber xm(n+ 1) z hustoty /m(-|aľ^™+1), :4™+1), ...,x^^). Platí veta (Pázman, A., Bayesovská štatistika, str. 67) Veta 21.1. Postupnost x^^x^2),... generovaná algoritmom Gibsa je realizáciou markovovského procesu a /(x) — f(xi,...,xm) je hustota pravdepodobnosti stacionárneho rozdelenia tohto procesu. Dôkaz ergodičnosti príslušného markovovského procesu nájdeme napr. v knihe Robert, Ch., P. Méthodes de Monte Carlo par Chainnes de Markov. Paris: Economica, 1996. Poznámka. Poznamenávame len, že ak potrebujeme integrovat nejakú funkciu h{xi), ktorá závisí len od i—teho komponentu vektora x xex tak túto aproximujeme sumou n ■ k=l 35 teda z postupnosti x^1),x^2),... používame iba príslušnú postupnost z—tých komponentov: x[2\ ... . Odtial vyplýva zovšeobecnený algoritmus Gibsa: Vytvoríme nejaký priestor Z a nájdeme takú hustotu (pravdepodobostnú funkciu) g (pí, z) na X x Z, že - hustota /(x) je marginálna ku g (tí, z), - pomocou algoritmu Gibsa aplikovaného na g (tí, z) generujeme postupnost vektorov (x^, z^1)), (x^2\ z^2)), - na aproximáciu integrálov typu 1= f *(x)/(x)dA(x) (J=£ *(x)p(x)) xex použijeme sumu ' = ±E*(*ífc)) n fe=i a teda používame postupnost x^, x^2\ ktorá zodpovedá hustote /(x) (pravdepdobnostnej funkcii p(x)). Takýto postup použijeme, ked generovanie podlá hustoty g (tí, z) je jednoduchšie, než podlá hustoty f (tí) (pravdepodobnostnej funkcie p(x)). Je tu možnost rôznej volby g (tí, z) a tým aj rôznych variantov algoritmu Gibsa. 22. Bayesovské bodové a intervalové odhady a testy pre jednorozmerný parameter 22.1. Bayesovské bodové a intervalové odhady pre jednorozmerný parameter (Dve nasledujúce kapitoly sledujú text z knižky J.Anděla.) Nech dimŕ? — 1. Za bodový bayesovský odhad parametra ŕ? sa v niektorých prípadoch berie stredná hodnota aposteriórneho rozdelenia (presnejšie za realizáciu bayesovského odhadu sa berie stredná hodnota aposteriórneho rozdelenia). V prípade príkladu z 3.kapitoly je hustota aposteriórneho rozdelenia = —rz-rp°+m_1(i -p)b+n-m-\ o

|to) je možné zostrojit aj bayesovský intervalový odhad parametra p. Nech čísla D a H (0 < D < H < 1) spĺňajú podmienku (22.1) /* 7r(p|m) dp = 1 - a, kde a je dané číslo z intervalu (0,1). Potom platí (22.2) P(D < p< H\m) = 1 - a. Interval (D, H) je bayesovským intervalom spoľahlivosti pre p. Samozrejme (22.1) neurčuje hranice D a H jednoznačne. Niekedy sa preto kladie požiadavka symetrie v tom zmysle, že má platit d ľ1 a Tr(p\m)dp = -, / Tr(p\m)dp = -. 0 1 J H 1 Ak existuje také p0, že aposteriórna hustota je neklesajúca na (0,Po) a nerastúca na (j>q, 1), volia sa niekedy D a H ako krajné body intervalu I — {p : Tv{p\m) > k}, kde k je konštanta určená podmienkou ir(p\m)dp — 1 — a. 22.2. Bayesovské testy v prípade jednorozmernáho parametra Budeme pokračovat v úvahách z predchádzajúcej kapitoly. Ak už máme čísla D a H zvolené tak, aby splňovali podmienku (22.2), môžeme pristúpit aj k bayesovskému testovaniu hypotéz o parametri p. Predpokladajme, že chceme testovat hypotézu H0- P e A, kde A je nejaký interval obsiahnutý v (0,1). V prípade, že celý interval A padne mimo (D, H), hypotézu Hq zamietame. V tomto prípade je zrejme aposteriórna pravděpodobnost menšia alebo rovná a. Nebolo by však rozumné založit test len na hodnote P(A\m) (- pravděpodobnost, že náhodná veličina s hustotou aposteriórneho rozdelenia 7r(p|m) sa realizuje v intervale A) bez konfrontácie s intervalom (D, H). Keby bol totiž interval A velmi krátky, mohla by byt pravděpodobnost P(A\m) velmi malá dokonca aj v prípade, že 37 by A obsahoval modus alebo strednú hodnotu aposteriórneho rozdelenia. To by viedlo k zamietnutiu Ho, hoci by poloha intervalu A vzhladom k aposteriórnej hustote nebola nijako "podozrivá". Niekedy sa hovorí o teste hypotézy H0 ■ P — Po, kde po g (0,1) je dané číslo. V tomto prípade A je uzavretý interval obsahujúci jediný bod po- Je jasné, že v tomto prípade je P(A\m) — 0, takže podmienka P(A\m) < a je splnená triviálne. O zamietnutí H0 teda rozhoduje len poloha bodu po vzhladom k (D, H). Keby sme nemali nejakú podmienku vztahujúcu sa k intervalu (D, H), hypotézu Ho by sme vždy zamietli. Tu by sa dalo argumentovat, že hypotéza Ho nie je rozumná, lebo dopredu vieme, že jej pravděpodobnost je rovná nule. Ked však padne bod po mimo (D, H), existuje také jeho okolie A0, že je disjungtné s (TJ, H) a P(Ao\m) — JAg ir(p\m)dp > 0. Môže sa povedat, že ide vlastne o test hypotézy, že p je z nejakého okolia bodu po- 23. Štatistické rozhodovanie (Kapitola sleduje knižku A. Pázmana: Bayesovská štatistika.) Teória štatistického rozhodovania je založená na ekonomickom princípe, podlá ktorého má rozhodovanie maximalizovat priemerný výnos, resp. minimalizovat priemernú stratu rozhodovania. Teória sa dá formulovat aj bez použitia apriórneho rozdelenia, teda nebayesovsky. Bayesovský prístup má tiež svoje opodstatnenie. Základy teórie sa dajú sformulovat dokonca aj bez pozorovaní (t.j. bez experimentu). Takýto prístup je síce značne obmedzujúci, v teórii však umožňuje elementárne definovat základné pojmy, ktoré potom možno lahko preniest na prípad rozhodovania s experimentom. 23.1. Základné pojmy rozhodovania bez experimentu Základné pojmy si vysvetlime na elementárnom príklade: Treba rozhodnut o spôsobe výstavby objektu v prípade, že máme pochybnosti o stave podložia, pričom nemáme možnosti ho preskúmat. Z pozície stavebníka sú dva možné stavy podložia: 6\\ podložie je pevné, vhodné na stavbu, 62'- podložie je slabé a stavat sa môže len so zosilnenými základmi. Rozhodovatel (stavebník) má volit medzi tromi rozhodnutiami: a±: nestávat vôbec, (12- stavat štandardným spôsobom, a-i'. stavat so zosilnenými základmi. Označme L(6, a) finančnú stratu, ktorú utrpí stavebník ak podložie je v stave 6 a je prijaté rozhodnutie a. Hodnoty L(6, a) sú v nasledujúcej tabulke (záporná strata — zisk) a\6 6»i 6*2 ai 5 000 0 a2 -30 000 50 000 a3 3 000 -20 000 Rozhodnutie 0,3 je lepšie ako rozhodnutie a\ pri akomkolvek stave podložia. Rozhodnutia a\ a (12 sú neporovnatelné, kým nemáme apriórne (alebo nejaké experimentálne) informácie o stave podložia. Chápeme to v 38 takom zmysle, že keď je podložie pevné ((9i) lepšie je rozhodnut sa pre a2 (stavat štandardným spôsobom) a keď je podložie slabé ((92) lepšie je, keď sa rozhodneme pre a± (nestávat). Ak ale vieme s dost velkou apriórnou pravdepodobnosťou, že podložie môže byt v stave (92 (slabé), uprednostníme aj rozhodnutie a 3 pred a2. V prípade, že nemáme apriórne informácie o stave podložia, rozhodnutie a\ možno z ďalšieho rozhodovania vylúčit. Zovšeobecnime tieto úvahy: Nech íl je množina stavov prírody alebo (prozaickejšie) íl je parametrický priestor. Nech 21 je množina možných rozhodnutí. Nech L : íl x 21 —>• 7Z je stratová funkcia, o ktorej budeme předpokládat, že je zdola ohraničená. Rozhodnutie ai považujeme za ekvivalentné s a2 (píšeme ai ~ a2), ak pre každé 0 g íl platí L(0,ai) — L(6, a2). Podobne ai je rovnomerne nie horšie ako a2 (píšeme ai ^ a2), ak pre každé 6 E íl platí L(0,ai) < L(0,a2). Ak však naviac platí, že existuje 6* E íl také, že L(Q*,&{) < L(0*,a2), potom a! je rovnomerne lepšie ako a2 (píšeme a! -< a2). Zrejme relácia ^ definuje čistočné usporiadanie množiny rozhodnutí 21. Nemusí existovat rovnomerne najlepšie rozhodnutie (pozri predchádzajúci príklad). Môžeme však použit dôležité náhradné pojmy, a síce pojem prípustného rozhodnutia a pojem úplnej množiny rozhodnutí. Definícia 23.1. Rozhodnutie a g 21 je prípustné, ak neexistuje také b g 21, že b -< a. Množina rozhodnutí C c 21 je úplná, ak ku každému rozhodnutiu a g 21 — C existuje rozhodnutie b g C, že b -< a. Označme symbolom V množinu všetkých prípustných rozhodnutí. Rozhodnutia, ktoré nie sú prípustné, možno z rozhodovania vylúčit. Podobne, ak sa podarí nájsť úplnú množinu C, možno vylúčit rozhodnutia patriace do 21 — C. Množina Cq c 21 sa nazýva minimálne úplná, ak Cq je úplná a je podmnožinou každej úplnej množiny. Veta 23.1. Ak V je úplná, tak sa rovná minimálnej úplnej množine. Dôkaz: Ak C je úplná a a (é C, tak a (é V, pretože existuje b g C, že b a. Teda V C C. Odtial vyplýva, že ak je V úplná, je aj minimálne úplná. ♦ Ak teda V je úplná možno množinu rozhodnutí 21 redukovat na množinu V a ďalšia redukcia už nie je možná. Ak máme k dispozícii apriórnu hustotu tt(0), stredná strata pri rozhodnutí a je í L(e,a)tt(9)dX(e) resp. V 1,(0*, a)^)-Jn i>i Rozhodnutie a^- g 21 možno považovat za optimálne (vzhladom na túto strednú stratu), ak a^ — arg min / L(6,&)ir(6)d\(0) resp. a^ — arg min L(8j, a)7r(0j). ■jii í>i Takéto rozhodnutie sa volá bayesovské. V súlade s tým, čo sme povedali o prípustných rozhodnutiach, platí, že ak množina V je úplná, tak rozhodnutie a^- je alebo prípustné, alebo existuje prípustné rozhodnutie -< a^-, pričom platí f L(0,a^)7r(0)dA(0) = f L(e,b7t)tt(9)dX(e) (a analogicky aj v diskrétnom prípade). Návod na dôkaz tohto tvrdenia je v knižke A. Pázmana, str. 74. 23.2. Rozhodovanie na základe experimentu 39 V príklade v kapitole 23.1 je rozumné, aby si stavebník, prv než sa rozhodne stávat, dal preskúmať podložie. To znamená, že príslušní odborníci vykonajú merania. Výsledkom týchto meraní je vektor údajov y. Tento je samozrejme ovplyvnený náhodnými efektmi, ktoré v závislosti od stavu podložia 0 dajú vystihnúť hustotami pravdepodobnosti /(y|0) resp. príslušnými pravdepodobnostnými funkciami. Prv než sa vykoná rozhodnutie v rozhodovacom probléme, je rozumné vykonať rôzne pozorovania, ktoré súhrnne nazývame experiment. Matematicky sme experiment charakterizovali triedou hustôt (alebo pravde-podobnostných funkcií) {/(y|0) : 0 G fí}. Ulhou štatistika je nájsť rozumné pravidlo, ako každému výsledku experimentu y G y{<^ Bn) priradí niektoré rozhodnutie a G 21, t.j. nájsť vhodné zobrazenie A: y G y a e 21. Toto zobrazenie sa nazýva rozhodovacia funkcia. Ak máme danú rozhodovaciu funkciu A, tak rizikom, alebo rizikovou funkciou nazývame funkciu (fl,Ä)eí]xfl^r(9,Ä)= f L(0,A(y))/(y|0)dA(y), Jy ktorá vyjadruje strednú stratu pri stave 0 a pri rozhodovaní podlá rozhodovacej funkcie A. Symbolom D tu značíme množinu rozhodovacích funkcií dovolených v danom rozhodovacom probléme. Základnou požiadavkou na každú A G Ľ je, aby existoval uvedený integrál. Ak ten čo rozhoduje chce minimalizovať rizikovú funkciu, ocitá sa formálne v tej istej situácii, ako v prípade rozhodovania bez experimentu. Namiesto trojice (íí,2t,L(0,a)), ktorá sa uvažovala v kapitole 23.1, má teraz trojicu (íí,D,r(0,A)). Mnohé pojmy možno teda priamo preniesť z kapitoly 23.1. Rozhodovacie funkcie sú vo vzťahu Ai ■< A2, ak pre každé 0 G fi platí r(0, Ai) < r(6,A2), čím definujeme rovnomerné usporiadanie rozhodovacích funkcií. Rozhodovacia funkcia Ai je prípustná, ak neexistuje iná rozhodovacia funkcia A2, ktorá by bola rovnomerne lepšia, teda neexistuje A2 pre ktorú platí A2 -< Ai. Podobne ako v 23.1 definujeme úplné množiny rozhodovacích funkcií a platia presne tie isté všeobecné súvislosti medzi prípustnosťou a úplnosťou. Pretože usporiadanie rozhodovacích funkcií reláciou ^ je čiastočné, vo všeobecnosti neexistuje rovnomerne najlepšia rozhodovacia funkcia. Ak však poznáme apriórnu hustotu 7r(0), porovnávame rozhodovacie funkcie na základe stredného rizika (alebo strednej straty), teda na základe integrálu (23.1) Ä(A)= f r(0, A)7r(0)di/(0) = f L(0,A(y))/(y|0)dA(y) y 7r(0)di/(0). Bayesovskou rozhodovacou funkciou voláme tú rozhodovaciu funkciu, pre ktorú platí A^ — arg min R(A). AeD 40 Tu však končí analógia s rozhodovaním bez experimentu. Pri rozhodovaní bez experimentu minimalizujeme integrál /n L{8, a)ir(8)d\(8) resp. 5^i>i L(0i, sl)tt(6í) vzhladom na prvky množiny 21, teraz potrebujeme minimalizovat dvojný integrál fu fy L{8, A(y))/(y|0)dA(y) ir(8)dv(8) vzhladom na zobrazenia A, ktorých oborom hodnôt je mnžina 21 (množina možných rozhodnutí), teda vzhladom na podstatne komplikovanejšiu štruktúru. Ukazuje sa však, že za pomerne všeobecných podmienok táto minimalizačná úloha má elegantné riešenie, ktoré je dané v nasledujúcej vete. Veta 23.2. (Základná veta o bayesovských rozhodovacích funkciách.) Nech stratová funkcia L(0, a) je meratelná a zdola ohraničená. Nech D je množina všetkých meratelných zobrazení z y do 21. Nech pre skoro všetky y G J7 existuje riešenie úlohy (23.2) A^(y) =arg min / L(0,a)7r(0|y)di/(0), aea Ju ktoré je meratelnou funkciou y. Potom toto riešenie je bayesovskou rozhodovacou funkciou pri apriórnej hustote 7r(0). Dôkaz nájdete v knižke A. Pázmana na str. 76. Poznamenávame len, že v skutočnosti nie je ani potrebné určit celú bayesovskú rozhodovaciu funkciu Ax. Ak zrealizujeme experiment a jeho výsledok je y, stačí riešit minimalizačnú úlohu (23.2) pre túto jedinú hodnotu y. Často sa popri bayesovských rozhodovacích funkciách uvažuje aj tzv. minimaxná rozhodovacia funkcia A™ definovaná vztahom Am(y) — arg min < max r (0, A) w> 6 AeD \een y ' ; ktorá minimalizuje riziko pri tom naj nepriaznivejšom 0. Takáto stratégia rozhodovatela vlastne nedôveruje žiadnemu apriórnemu rozdeleniu tt a je teda velmi opatrnícka. Pri istých dost všeobecných predpokladoch sa dá dokázat, že existuje apriórna hustota ttq taká, že Am(y) — AXo(y). Hustotu ttq nazývame najnepriaz-nivejšou apriórnou hustotou. 23.3. Aposteriórna hustota interpretovaná ako bayesovská rozhodovacia funkcia maximalizujúca informáciu Aby sme sa vyhli topologickým komplikáciám, budeme v tejto kapitole předpokládat, že © je diskrétny náhodný vektor s konečným oborom hodnôt {6\, 02,0fc}. Nech množina rozhodnutí 21 je množina všetkých (diskrétnych) rozdelení pravdepodobnosti (pravde-podobnstných funkcií) deŕinovančh na íl. Pre každé 0 G fi a pre každé P(-) G 21 definujeme stratu takto L(0,P(-)) = -lnP(0), tedaL(0i) — Lp(0i) — — rnP(0j), i — 1,2,..., k. Takáto stratová funkcia má jasnú informačnú interpretáciu. Nech 0* je skutočná hodnota parametra 0. Ak P(8*) — 1, tak strata je nulová, pretože sme presne určili skutočnú hodnotu 0. Ak P(8*) je malé číslo, tak strata je velká, lebo sme pripísali malú pravděpodobnost skutočnej hodnote parametra 0. V extrémnom prípade P(8*) — 0 je strata nekonečná. Minimalizovat takúto stratovú funkciu znamená teda maximalizovat informáciu získanú z experimentu. Ukážeme, že zobrazenie y e y ->7r(-|y) 41 je bayesovskou rozhodovacou funkciou pri tejto stratovej funkcii. Každá rozhodovacia funkcia v uvažovanom rozhodovacom probléme má tvar A(y) = Py(.), t.j. pre každé y g J7 je jej hodnota nejaké rozdelenie pravdepodobnosti (čiže nejaká pravdepodobnostná funkcia) na íl, indexované vektorom y. Teda platí HO, A(y)) = L(0,Py(■)) = - ln Py{6) a riziková funkcia je Stredná strata pri apriórnom rozdelení 7r sa rovná r(0,A) = - / lnPy(0)/(y|0)dA(y). Jy i>i Vy iy Podlá Vety 23.2 bayesovská rozhodovacia funkcia pri danom y je 7t(0i). A^(y) = arg min l - ]T L(0i, P(-)M0.|y) l = arg min i - ^(lnP^OM^Iy) ^ [ i>i J [ i>i = arg min J -^(lnP(0í)>(^|y) +^(ln^(^ly))^^^) i = arg min J(7r(-|y), P(-))-P<-'-) [ i>l i>l J P<-'-) Minimalizujeme teda J—divergenciu. Podlá Poznámky pod Definíciou 9.2 toto minimum sa dosahuje ak P(-) a 7r(-|y) sa zhodujú. Teda bayesovská rozhodovacia funkcia sa v tomto prípade rovná A(y) = 7r(-|y). Tento výsledok je zaujímavým informačným zdôvodnením používania Bayesovho vzorca. Žiadne iné rozdelenie pravdepodobnosti na íl nepostihuje tak dobre informáciu získanú z experimentu ako práve aposteriórne rozdelenie. 24. Bayesovské odhady a testy z hladiska teórie štatistického rozhodovania Teória štatistického rozhodovania, ktorá vznikla ako ekonomicky motivovaná teória rozhodovania využívajúca experiment (pozorovania, merania), ovplyvnila myslenie v teoretickej štatistike, hlavne v teórii odhadu. 24.1. Bayesovské bodové odhady z hladiska teórie štatistického rozhodovania Ak v experimente {/(y|0) : 0 g íl} zvolíme 21 — íl a ak stratovú funkciu L(0,a) zvolíme tak, aby vyjadrovala odchýlku odhadu od skutočnej hodnoty parametra, tak bayesovské rozhodovacie funkcie sú vlastne (bayesovskými) odhadmi parametra 0 (teda odhadovacími štatistikami). Takými stratovými funkciami sú napríklad L(0,a)H|a-0||2 42 alebo L(0,a)=£l i=l Bayesovské odhady sa porovnávajú s "klasickými" odhadmi frekvenčnej štatistiky, hlavne s odhadom maxima vierohodnosti. Naopak, pri "klasických" odhadoch sa overujú vlastnosti formulované v teórii rozhodovania, ako sú přípustnost (admisibilita), invariantnost, optimálnost vzhladom na niektorú stratovú funkciu. Je vhodné specializovat základnú vetu o rozhodovacích funkciách (Vetu 23.2) na uvedené stratové funkcie. Veta 24.1. Nech S je symetrická pozitívne deŕinitná matica a nech L(0,a) = (0-a)'S(0-a). Nech 7r(0) je apriórna hustota. Potom bayesovská rozhodovacia funkcia (t.j. bayesovský odhad) sa rovná podmienenej strednej hodnote © pri danom y f / /n0i/(0|yM0) £(0|y) je jednou z bayesovských rozhodovacích funkcií. Stredná strata pri tejto rozhodovacej funkcii sa rovná £ {(© - £(0|y))'S(0 - £(0|y))} = tr {S £ (cov(@\y))} , kde cov(&\y) je kovariančná matica náhodného vektora 0|y. Dôkaz: nájdete v knihe A. Pázmana, str. 82. Poznamenávame len, že ak vo vete 24.1 volíme S — I, tak L(0,a) = ||a-0||2. Veta 24.2. Nech v(-) je Lebesgueova miera na íl — 7Zm. Nech m L(0, a) =J2\a*-9*\- Nech TTi(0i\y) je marginálna aposteriórna hustota parametra 6i = / 7r(0|y)d0i...d0i_id0i+i...d0n a nech /ii(y) je medián tejto hustoty. Potom y e J7 -)• (/xi(y), ■■■,Mm(y))' je bayesovská rozhodovacia funkcia (bayesovský odhad). Dôkaz nájdete v knihe A. Pázmana na str. 83. Používaným odhadom v bayesovskej štatistike je aj odhad ©(y) = arg max 7r(0|y), 43 ktorého realizácia je 0(y) — arg max 7r(0|y). Z bayesovho vzorca resp. z (2.7) vyplýva, že ak hustota 7r(0) je konštantná, tak odhad maxima aposteriórnej hustoty je totožný s odhadom maxima vierohodnosti ktorého realizácia je 0(y) = arg max ln/(y|0), 0(y) = arg max ln/(y|0). Odhad 0(y) sa preto nazýva bayesovským odhadom maxima vierohodnosti. Podlá (2.7) možno písat 0(y) = arg max [ln/(y|0) + ln7r(0)] a preto sa tento odhad nazýva aj penalizovaným odhadom maxima vierohodnosti, pričom ln7r(0) je penalizácia. Dá sa ukázat, že odhad 0(y) nedostaneme zo žiadnej stratovej funkcie v zmysle kapitoly 23, môžemeho však vyjádřit ako limitu bayesovských rozhodovacích funkcií (pozri knihu A. Pázmana, str. 84). 24.2. Bayesovské intervalové odhady Vo frekvenčnej štatistike sa ako intervalové odhady parametra 0 používajú oblasti spolahlivosti. Sú to náhodné borelovské množiny, ktoré s predpísanou pravdepodobnostou pokrývajú (pevný) parameter 0. Ich konštrukcia je spojená s konštrukciou optimálnych testov a môže byt velmi komplikovaná. V bayesovskej štatistike je situácia jednoduchšia. Používajú sa oblasti ohraničené krivkou konštantnej aposteriórnej hustoty 0(y) = {0 G O : 7r(0|y) > c(y)}, kde c(y) je zvolené tak, aby platilo (24.1) / 7r(0|y)dí/(0) = 1 - a, J o {y) kde 1 — a je predpísaná spolahlivost. Teda aposteriórna pravděpodobnost toho, že 0 G O (y), je práve 1 — a. V prípade, že sa rovnost nedá realizovat, volíme za c(y) supremum z tých čísel, pre ktoré platí / 7r(0|y)dí/(0) > 1 - a. Niekedy sa oblast O (y) nazýva HDP oblast (highest posterior density region). Zrejme platí nasledujúca veta Veta 24.3. Nech y G J7 je dané a 7r(0|y) je aposteriórna hustota vzhladom na mieru v(9) a nech pre W C n platí / 7r(0|y)dí/(0) = 1 - a. Jw Potom ľ(0(y)) < 24.3. Bayesovské testy 44 Vhodným výberom priestoru rozhodnutí 21 a stratovej funkcie L(9,a) dostaneme rozhodovacie problémy podobné úlohám testovania hypotéz vo frekvenčnej štatistike. Podstatný rozdiel je v tom, že nemôžeme uvažovat hypotézy, ktorých apriórna pravděpodobnost je nulová (lebo ich aposteriórna pravděpodobnost je tiež nulová) a tiež v tom, že optimalita testov sa posudzuje úplne iným spôsobom než vo frekvenčnej štatistike. 24.3.1. Jednoduchá hypotéza a jednoduchá alternatíva Nech fi — {6q,6i}. Priestor rozhodnutí bude dvojprvkový 21 = {a0,ai}, kde a0 znamená, že prijímame hypotézu 9 — 90 a a! znamená, že prijímame alternatívnu hypotézu 6 — 6i. Stratová funkcia je L(ŕ?o;ai) — wq > 0, L(0i,ao) — w\ > 0 L(ŕ?o;ao) — L(9i,a.i) — 0. Apriórne rozdelenie je diskrétne ir(9o) > 0, 7r(ť?i) — 1 — tt(0o) > 0. Experiment je daný hustotami f(y\9o), f(y\9i) vzhladom na (c—konečnú) mieru A(-). Môžu to byt "obyčajné" hustoty vzhladom na Lebesgueovu mieru A(-), alebo dve pravděpodobnostně funkcie {/(yJ0o)}i>i! {/(yj|0i)}i>i _ vtedy je miera A(-) sčítacia. Bayesovská rozhodovacia funkcia (teda bayesovský test) sa v súlade s Vetou 23.2 rovná A(y) = arg min [L(0O, a)vr(0o|y) + L(01; a)^|y)] = ae{a(i,ai) ai, ak w0TT(90\y) < w1Tr(91\y), ^a0, ak w1Tr(91\y) < w0TT(90\y). Nulovú hypotézu zamietame, ak prijímame alternatívnu hypotézu, teda ak A(y) — ai a to je práve vtedy ak (24.2) w07r(90\y)- kde (24.3) c=-——. Wl7r(0i) Oblast zamietania nulovej hypotézy je určená podielom vierohodností, podobne ako v Neymannovej-Pearsonovej leme. Zopakujme si ju Veta 24.4. (Neymanova-Pearsonova lema.) Nech k danému a G (0,1) existuje také kladné číslo g, že pre množinu Wg = {y: /(y|0i) > gf(y\00)} platí (24.4) f f(y\90)d\(y) = a. 45 Potom pre lubovolnú množinu W G Bn splňujúcu podmienku (24.5) / /(y|0„)dA(y) = a JW platí / /(y|0i)dA(y) > / /(y|0i)dAy). JWg JW Dôkaz nájdeme v knižke J. Anděla na str. 239. Treba si uvědomit, že oblastou zamietania nulovej hypotézy Wg je určený test s hladinou významnosti (pravdepodobnostou chyby 1. druhu) a (t.j. pravděpodobnost že test zamieta nulovú hypotézu, ked ona platí, je a). Pričom tento test je najsilnejší spomedzi všetkých testov s hladinou významnosti a. Všetky testy s hladinou významnosti a sú určené oblastami zamietnutia W, pre ktoré platí (24.5). Chyba druhého druhu je taká, ked test nezamieta nulovú hypotézu, pričom platí alternatívna. Test určený oblastou zamietania W má pravděpodobnost chyby druhého druhu /(y|0i)dA(y) = 1 - P y-w a P je sila testu. Podia Neymanovej-Pearsonovej lemy je oblast zamietania pre najsilnejší test s hladinou významnosti a daný ako pričom konštantu g počítame zo vzorca (24.4). Pri bayesovskom testovaní naproti tomu namiesto chýb 1. a 2. druhu máme aposteriórne pravdepodobnosti oboch hypotéz 7r(0o|y), ^(fii\y) a strednú stratu (rizikovú funkciu, pozri (23.1)) rovnú Ä(A)=7r(0o) / L(e0,A(y))f(y\e0)dX(y) + tt(e1) f L(01; A(y))/(y|01)dA(y). Jy Jy Počítajme 7r(0o) / £(0o,A(y))/(y|0o)dA(y) = Jy 7r(0o) JyL(e0,ai)f(y\e0)d\(y), ak w07r(e0\y) < wi7r(0i|y) 7t(60) JyL(60l!Í0)f(y\e0)dX(y), ak wm^y) < wo^(0o|y) \{60)w0 Jy /(y|0o)dA(y), ak y G y - W(c) 0, inokedy *(e0)wo / /(y|0o)dA(y) = Tr(60)wo J y-w (c) f(y\00)d\(y) - / /(y|0o)dA(y) y Jw(c) tt(0o)wo(Í - a), kde a počítame podlá (24.5). Podobne 7r(0!) / L(01,A(y))/(y|01)dA(y) = ^(01)Wl/3, Jy kde p je sila testu, t.j. Jw^ f(y\^i)dX(y). Konštantu c počítame z (23.4). Pre strednú stratu vyššie uvedeného bayesovho testu dostávame i?(A) = 7t(0o)wo(1 - a) + ^{61)w1p = tt(0i)«;i(c(1 -a) + p). 46 24.3.2. Súčasné testovanie niekolkých jednoduchých hypotéz Na rozdiel od frekvenčnej štatistiky, v bayesovskej štatistike nerobí problémy rozhodovanie medzi niekolkými hypotézami. Nech y — {01;0fc}, 21 — {a1;a^}, kde &j znamená, že prijmeme hypotézu 6 — 6j. Predpokladáme, že n(8j) > 0 pre každé j. Ďalej j Wij > 0, ak í^j, Lid,, aj) = i I 0, ak i — j. Potom A(y) = arg min V L(0Í; a)7r(0i|y) = a£{ai ,...,afe} —* 2 — 1 fe fe ak ^2wljTľ(6l\y) <^2wliTľ(6l\y) pre každé l. i=l i=l 24.3.3. Testovanie zloženej hypotézy proti zloženej alternatíve Nech fl — fio U fii, kde fž0 n fži = 0. Nech 21 = {a0,ai}. Nech /n 7r(0)di/(0) > 0, i = 0,1. Stratovú funkciu volíme v princípe tak, aby ÍO, ak 0 e n,-, y> o, ak 0 ^ Obvyklé volby stratovej funkcie pre 0 e ííj sú L(0, aj) = > 0, ak j, alebo L(0,aj) = Kj min ||0-0*||. V zmysle Vety 23.2 hypotézu 6 G S~Ži prijmeme (t.j. hypotézu 6 G Hq zamietneme), keď í L(0,ai>(0|y)^(0) < /* L(0,ao>(0|y)^)- Takéto testovanie zloženej hypotézy proti zloženej alternatíve je typické pre diskriminačnú analýzu. (Podrobnejšie pozri v knižke J. Anděla str. 319-323.) Tvorba bayesovských testov môže byt jednoduchšia ako tvorba testov vo frekvenčnej štatistike.