Přednáška V. Úvod do teorie odhadu Pojmy a principy teorie odhadu ,; Nestranné odhady * Metoda maximální věrohodnosti ,; Průměr vs. medián INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Opakování - výběrová distribuční funkce Sestrojíme výběrovou distribuční funkci pro hmotnost lidské postavy, respektive hmotnost studentů na přednášce Biostatistiky v matematické biologii (samozřejmě anonymně). Tomáš Pavlík Biostatistika Opakování - střední hodnota * Uvažujme diskrétní náhodnou veličinu JrX= {xv xk} * P(X=x1) = Pl,..., P(X=xk) = pk * Pak střední hodnota má tvar: E(X) = n = Yáxip(xi) i=l Jaká je její interpretace? Tomáš Pavlík IBA £1\ Opakování - pravidlo ±3 sigma * Co to znamená? K čemu to může být dobré? Tomáš Pavlík Biostatistika 1. Pojmy a principy teorie odhadu Jak se vlastně přišlo na použití průměru? * Použití průměru jako sumarizace n pozorovaných hodnot se učí už na základní škole, nicméně zmínka o jeho používání je až z konce 17. století. * Byl navržen bez ohledu na jakoukoliv souvislost s teorií pravděpodobnosti jako hodnota, označme ji o, která má následující vlastnosti: 1. Hodnota a minimalizuje reziduálni součet čtverců, tedy součet čtverců rozdílů pozorovaných hodnota hodnoty o: 2. Součet reziduí vzhledem k hodnotě oje nula, tedy kladná i záporná rezidua jsou v rovnováze: « ■*Tyto dvě kritéria zohledňují pouze pozorovaná data, vůbec se nezabývají jakýmkoliv rozdělením pravděpodobnosti a jeho parametry. mu Tomáš Pavlík irK ilMJ ^ Biostatistika n n i=\ i=\ i=\ Příklad - průměr pozorovaných hodnot V prípade, ze osa x nepredstavuje zadnou informaci, je použiti průměru v pořádku (kladná i záporná rezidua jsou v rovnováze). ~r~ 10 Co když osa x ponese nějakou informaci? Tomáš Pavlík IBA ML Biostatistika Cíl snažení v teorii odhadu Na základě reálných pozorování náhodné veličiny X chceme získat informaci o parametrech rozdělení pravděpodobnosti této veličiny. iA Teorie odhadu se snaží sestrojit statistiku, která by na základě pozorovaných dat poskytla nejlepší možný odhad neznámého parametru / parametrů. * Teorie odhadu předpokládá, že pozorované hodnoty nesou informaci o neznámém parametru. * Někdy je třeba pozorované hodnoty před použitím statistiky „značně" upravit -> normalizace dat z DNA mikročipů. Tomáš Pavlík Biostatistika Základní pojmy Náhodná veličina X- číselné ohodnocení výsledku experimentu, zajímá nás jej pravděpodobnostní chování - popisuje ho rozdělení pravděpodobnosti náhodné veličiny X. Parametr rozdělení pravděpodobnosti - neznámá hodnota, 9, na které závisí předpis rozdělení pravděpodobnosti Parametrická funkce - reálná funkce parametru 9. Realizace náhodné veličiny (n realizací) - představují je pozorované hodnoty: x = xv x2, ...,xn. Předpokládám jejich vzájemnou nezávislost. Odhad parametru 9 - reálná funkce x = d(x) =0. Odhad parametrické funkce g(Q) - reálná funkce x = d(x) = g{0). Tomáš Pavlík Biostatistika Klasifikace odhadů '; Parametrické odhady-vycházejí z předpokladu znalosti rozdělení pravděpodobnosti, kterým se náhodná veličina řídí. Případně předpokládají i znalost rozdělení pravděpodobnosti sledovaného parametru (tedy náhodné veličiny) - Bayesovské odhady * Neparametrické odhady-v tomto případě nejsou uvažovány žádné předpoklady o pravděpodobnostním chování dat. Výsledkem jsou robustní odhady se širokým použitím, u kterých ale nelze hodnotit optimálnost vzhledem k pravděpodobnostnímu modelu. Tomáš Pavlík Biostatistika Klíčové otázky v teorii odhadu A Jak najít bodový odhad? ' Jak hodnotit kvalitu odhadu? Tomáš Pavlík Biostatistika Jak najít bodový odhad? - Existuje řada postupů k nalezení bodového odhadu neznámého parametru - liší se jak filozofií (např. Bayesovské odhady) tak definicí kritéria optimálních vlastností odhadu. Zaměříme se pouze na vybrané pojmy a postupy Metoda založená na Rao-Blackwellově větě - slouží k nalezení nestranného odhadu s nejmenší variabilitou (ne vždy to však lze spočítat). -Metoda maximální věrohodnosti - slouží k nalezení odhadu (hodnoty), který je ve smyslu pozorovaných dat nejvíce pravděpodobný. Respektive lze říci, že při „platnosti" této hodnoty jsou data nejvíce věrohodná. * Bayesovské metody - nehledají jednu hodnotu parametru, ale celé rozdělení pravděpodobnosti (parametr je zde vlastně náhodná veličina). •4 Tomáš Pavlík Biostatistika Jak hodnotit kvalitu odhadu? ^Vezmeme-li hodnotu 6 jako odhad parametru 9, pak lze obecně vyjádřit důsledek tohoto odhadu pomocí tzv. ztrátové funkce („loss function"), která má následující vlastnosti: L(6,Ô)>0 pro každé 0,0 a L(0,0) = O pro každé <9 Celkově můžeme kvalitu odhadu vyjádřit pomocí tzv. rizikové funkce („risk function"): * , ~ XXN R(e,e) = Ee{L{e,e(x))) * Logicky chceme najít odhad, který by minimalizoval rizikovou funkci pro všechny hodnoty 9. Tomáš Pavlík iaX ilMIi Biostatistika Špatná zpráva ^To však není možné - obecně neexistuje odhad, který by minimalizoval rizikovou funkci pro všechny hodnoty 9. -Vždy jsme totiž schopni najít odhad, který bude mít pro dané 90 nulové riziko, ale zároveň bude nepřijatelný pro 9 * 90. - Máme tedy na výběr: 1. Buď se omezíme pouze na určitou třídu odhadů - to znamená omezíme množinu odhadů nějakou požadovanou vlastností-> nestranné odhady 2. Nebo upravíme přístup k získávání odhadů - více se zaměříme na pozorované hodnoty-> metoda maximální věrohodnosti. Tomáš Pavlík Biostatistika 2. Nestranné odhady Střední kvadratická chyba odhadu Významnou rizikovou funkcí ve statistice je tzv. střední kvadratická chyba odhadu („mean squared error") definovaná jako MSE(6,Ô) = Ee((Ô-6f) Výraz pro MSE, respektive MSE odhadu, se dá rozdělit na dvě komponenty-vychýlení (jeho druhou mocninu) a variabilitu: MSE{6,Ô) = E0({Ô-O + E{6)-E(Ô)f ) = {0-E(Ô))2 -E((Ô-E(Ô)f) MSE(0, Ô) = bias2 (Ô) + var(é) í í vychýlení2 + variabilita „bias2" + „precision" Tomáš Pavlík Biostatistika Příklad ^Márne dva odhady neznámého parametru 9. iA Jeden je vychýlený s malou variabilitou. * Druhý je nevychýlený s větší variabilitou. '; Ne vždy musí být lepším odhadem ten, který je nevychýlený! Výběrové rozdělení odhadu^. Výběrové rozdělení odhadu Ô. Statistika Skutečnost Tomáš Pavlík Biostatistika Nestrannost ■* Celkem logickým omezením odhadů, které nás zajímají, je jejich nestrannost. * Odhad d(x) parametru 9 je nestranný když E9(d(X)) = 0 pro každé <9 g 0 ^Platí tedy: Ee (d(X) -0) = O pro každé 0 g 0 *V množině nestranných odhadů se poté snažíme najít odhad s nejmenší variabilitou - abychom měli i minimální MSE. * V úvodní přednášce jsme mluvili o zkreslení výsledků („biased results") -nestrannost je ve své podstatě to samé. Tomáš Pavlík Biostatistika Průměr - nestranný odhad? * Normální rozdělení pravděpodobnosti: E(X) = £(i £ X,.) = i £EX, =n pro každé MeR ■*Poissonovo rozdělení pravděpodobnosti: Xt ~ Po(X) E(X) = £(i X X,) = i X EX, =X pro každé A e R Použití průměru pro tato rozdělení má smysl, ale je třeba si ověřit dané rozdělení pravděpodobnosti. Tomáš Pavlík Biostatistika Nestranný odhad - příklad Měříme čas, který trvá lékaři určitá činnost (např. ambulantní ošetření). Chceme najít odhad maxima tohoto času, tedy jak maximálně dlouho mu daná činnost může trvat. Uvažujme rovnoměrně spojité rozdělení pravděpodobnosti na intervalu [0,9]: X ~ Rs(0,0) -» f(x) = \/0 pro každé x g (0,0) /(*) = 0 Pro každé x <£ (0,6) b-a •^Jak můžeme hodnotu 9 odhadnout? *mm v JUL. ll^Jj Biostatistika Nestranný odhad - příklad ,; Máme tedy náhodný výběr Xv X2,...,Xn i.i.d. z rozdělení/?s[0,9], které ještě seřadíme podle velikosti: X(2),...,X(n). E(x,) = e D{xt) = i2e2 A Máme dvě zajímavé hodnoty: I = iY" x. n Z—//=1 1 X{n)=mvtXl * Uvažujeme dva odhady: T -2X = ^Yn Xl 1 n Z^/=i / T2=ařXM=^maxX, Tomáš Pavlík Biostatistika Který je lepší? Nestranný odhad - příklad Máme tedy Xv X2,...,Xn, které seřadíme podle velikosti: X(1), X(2)/...,X(n). ,; Máme dvě zajímavé hodnoty: XM =maxX, £X(n) = £ (max X,.) = ^ (9 ^(^,„,) = i- Uvažujeme dva odhady: Tl=2X = lY^X< ETl=E(2X) = 2(^ = 0 D(T[) = jn62 r2=^Xw=^maxX, ET2=E(*tX{n)) = ^9 = e D(T2) = J^ Který je lepší? Tomáš Pavlík Biostatistika Nestranný odhad - příklad ■* Máme tedy Xv X2,...,Xn, které seřadíme podle velikosti: X(2),...,X{ iA Máme dvě zajímavé hodnoty: X{n)=mvtXl * Uvažujeme dva odhady: T -2X = jjYn Xt 1 n £ai=\ i T =M1J Mlmax7 2 « (n) n i Vítězem se stal odhad T2, jeho variabilita s rostoucím n rychleji klesá k 0. Tomáš Pavlík Biostatistika EXM=E(maxXi) = ^10 (n+\y(n+2) ETX = E(2X) = 2(f) =0 ET2=E(^X{n)) = ^0=@ Vztah vychýlení a variability odhadu Odhady můžeme kombinací vychýlení a variability rozdělit (hypoteticky) do čtyř skupin. ^ Význam není až tak v jednoduchých sumarizacích dat, ale spíš ve stochastickém modelování. Skutečná hodnota neznámého parametru • Odhad neznámého parametru Tomáš Pavlík JUL. | IUI | Biostatistika Poznámka o stochastickém modelování ■* Modely, které jsou příliš jednoduché (mají málo vysvětlujících proměnných) mohou být nepřesné kvůli velkému vychýlení, protože nejsou dostatečně flexibilní vzhledem k pozorovaným datům. - Modely, které jsou příliš složité (mají mnoho vysvětlujících proměnných) mohou být nepřesné kvůli velké variabilitě, protože se příliš přizpůsobují pozorovaným datům (tzv. „overfitting"). - Tomuto fenoménu se říká „ bias-variance tradeoff. Identifikovat správný model není jednoduché, je třeba najít správný počet vysvětlujících proměnných („model complexity"). Tomáš Pavlík Biostatistika 3. Metoda maximální věrohodnosti Metoda maximální věrohodnosti ,; Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation". * Máme n nezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s hustotou f(x;0). ,; Sdružená hustota odpovídající n pozorovaným hodnotám xv x2,..., xn je: Jaká? A proč? Tomáš Pavlík Biostatistika Metoda maximální věrohodnosti ,; Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation". * Máme n nezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s hustotou f(x;0). ,; Sdružená hustota odpovídající n pozorovaným hodnotám xv x2,..., xn je: n f(x1,...,xn\0) = Ylf(xi;0) z=l * Sdružená hustota vyjadřuje(za předpokladu, že známe 9), jak moc je pravděpodobné, že pozorované hodnoty pochází z rozdělení s hustotou f(x;0) ; Pointa metody maximální věrohodnosti: Dívat se na sdruženou hustotu jako na n funkci 9 a vybrat 9 takové, aby výraz f(xl9...,xn | 0) = ] [ f(xi; 0) byl co největší (maximum). Tomáš Pavlík Biostatistika Věrohodnostní funkce ^Zavádíme tzv. věrohodnostní funkci („likelihood function"): L{61 ,...,xn) = f(%i9...9xn | 0) * Maximálně věrohodný odhad, značíme ho ÔMLE, je číslo, které maximalizuje věrohodnostní funkci, tedy ôMLE=dLVgmdxL{0\xX9...9xn) 6>e© ^Výpočetně se jedná o řešení rovnice (rovnic): dL{61 xx,..., xn) / d6 - 0 ' - Musíme si ještě ověřit, že se jedná o maximum - např. pomocí druhých derivací. mu ^"""í-, ůmm mm t Tomáš Pavlík | ||u|| | Biostatistika /BA Logaritmus věrohodnostní funkce ,; Často je výhodnější (hlavně výpočetně jednodušší) maximalizovat logaritmus věrohodnostní funkce: n n l(0\xl,...,xn) = \nL(0\xl,...,xn) = \nYlf(xj;0) = Y,^f(^'^) 7 = 1 7 = 1 Bude maximum pro věrohodnostní funkci i logaritmus věrohodnostní funkce stejné? Pokud ano, tak proč? Tomáš Pavlík Biostatistika ML odhad parametru A Poissonova rozdělení Máme n i.i.d. pozorování z Poissonova rozdělení: xv x2,..., xn. Sdružená hustota má tvar: « e~ÁJLx' f(xl,...,xn\A)=\ — Věrohodnostní funkce má tvar: L(Z\x1,...9xn) = f(x19...,xn | A) = e~nXJř,Xl /Y[xr Logaritmus věrohodnostní funkce má tvar: ) = V x}ln X - n A - ln( J [ xi!) i i Jak vypadá uMLE ? Tomáš Pavlík Š imiS Biostatistika /BA ML odhad parametru A Poissonova rozdělení Derivace logaritmu věrohodnostní funkce má tvar: d\nL Výsledkem je průměr: Je to maximum? = ^x, /Ä-n = Q dÄ 4^ n d2\nL ^ o2 Tomáš Pavlík Biostatistika ML odhad parametru |i normálního rozdělení ' Máme n i.i.d. pozorování z normálního rozdělení: xv x2,..., xn. Sdružená hustota má tvar: n y f(xl,...,xn\/u,(j2) = ] ^= i=\ ^\J27T 00 konverguje k 9 podle pravděpodobnosti. Pro rostoucí/? máme zaručeno, že se průměr přibližuje k 9. n = 10 n = 50 10 20 30 4C n = 500 rf> o" O o c % c Q> Oj" o a ~ o 0 ° ° «p o o o skutečná hodnota Tomáš Pavlík o v prumer MU ^■"'», /BA \^ ML medián Biostatistika Shrnutí - průměr vs. medián Výhody Nevýhody Průměr Využívá informace celého souboru dat Citlivý na odlehlá pozorování Jednoduché rozdělení pravděpodobnosti Omezené použití u asymetrických dat Medián Není citlivý na odlehlá pozorování Využívá informaci pouze jednoho pozorování Použití pro všechny typy dat Komplikované rozdělení pravděpodobnosti Tomáš Pavlík Biostatistika Shrnutí ^ Používejte průměr! Ale vždy si ověřte předpoklad normality (nebo alespoň symetrie), případně Poissonova rozdělení dat! A taky se nezapomeňte podívat na odlehlé hodnoty! '; Pokud si něčím nejste jistí, použijte i medián. - Useknutý průměr-odhad, který je svými vlastnostmi mezi průměrem a mediánem, spočítáme ho tak, že „odsekneme" m nebo m % minimálních a maximálních hodnot a ze zbytku spočítáme průměr. Tomáš Pavlík Biostatistika Poděkování... Rozvoj studijního oboru „Matematická biologie'' PřF MU Brno je finančně podporován prostředky projektu ESF č. CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia Matematické biologie" a státním rozpočtem České republiky 18f k BH pnSt t^í čími ^^^^fc I soclalnL ^^^^^^^ MINISTERSTVO ŠKOLSTVÍ. OP Vzdělávání 0^fcjr