UNIVERZITA JE. PURKYNĽ V BRNĚ Fakulta přírodovědecká STATISTICKÉ ZPRACOVÁNÍ VÝSLEDKŮ MĚŘENÍ Josef HUMLICEK BRNO 1984 - 3 - V každém konkrétním měřeni je třeba zvládnout řadu problémů, většinou specifických pro danou úlohu. Správnost zjištěných hodnot záleží předevSlm na potlaCení systematických chyb, způsobených měřícími přístroji nebo nevhodným postupem. Jádro tohoto problému vystihuje jednoduchý přiklad: kratôím metrem naměříme nesprávné (přlliS velké) délky. Práce spojená s odstraněním možných systematických chyb představuje obvykle značnou Část námahy vynaložené na celé měření. Přes obrovskou různorodost mají měřeni výrazný společný rys. Je jím fakt, že opakování za stejných podmínek nedává přesně stejné výsledky. Jednak se uplatňují náhodné chyby měření, nebo se také samotné studované objekty projevují v náhodných jevech, která se řidl pouze pravděpodobnost* nimi zákony (měření v mikrosvete). Potřebné informace ze souboru namířených dat, ve kterém jsou patrné náhodná vlivy, získáváme vhodným statistickým zpracováním. Popisem náhodných jevů se zabývá teorie pravděpodobnosti, zpracováním pozorovaných náhodných výsledků další matematická disciplína - statistika. Statistika používá pojmů a výsledků teorie pravděpodobnosti; v kapitole I tohoto skripta jsou potřebné základy vyloženy. K pochopení statistických metod je třeba porozumět pravděpodobnostnímu popisu nehodných jevů a zvládnout použití náhodných proměnných. Užitečné je i podrobnější seznámení s níkolika typy Často používaných rozděleni, které je rovněž soustředěno do kapitoly I. Základní statistickou úlohou je zjiSlování hodnot parametrů zkoumaného objektu z naměřených dat. Metody statistického odhadu parametrů jsou obsahem kapitoly II. Velká pozornost je věnována příkladům; je možná, že pro řadu čtenářů by mohly být právě tyto příklady vhodnými "vstupními body" do studované problematiky. Výklad statistických testů hypotéz v kapi-tole III je stručný, možnost posoudit rozdělení dat pomocí testů dobré shody by věak měla být považována za důležitou. K dalšímu studiu je k dispozici rozsáhlé literatura, z dostupných pramenů jsem vybral jen malou část. Zacházení s výsledky měření může bý\ pobídkou k přemýSlení o základech matematiky náhody. Myslím, že by bylo chybou podceňovat elementární úvahy o pravděpodobnosti, které najdeme v několika dobrých populárních knihách. Brno, červen 1983 Josef Humlíček - 4 -Obsah O • O a • 9 0 • o o e e « o I, Základní pojmy teorie pravděpodobnosti_ 1. Pravděpodobnost jevů Klasické, statistická a moderní definice. Podmíněná pravděpodobnost. Nezávislost náhodných jevů* Pravidla pro výpočet pravděpodobnosti. Bayesův teorém. 2. Náhodné proměnné Diskrétní funkce rozdělení. Hustota pravděpodobnostis Funkce náhodná proměnné. Distribuční funkce. Náhodné vektory, marginálni a podmíněné rozdělení. Nezávislost náhodných proměnných* Výsledky měření - hodnoty náhodných proměnných. Dva příklady měření. 3. Vlastnosti náhodných proměnných .<,•„.«,. 16 Střední hodnota. Disperze. Střední kvadratická odchylka. Medián a moda. Momenty. Asymetrie a exces. Momenty . nehodného vektoru. Disperze, kovariance, korelační koeficient. Lineární funkce. Hustota součtu a podílu. Přibližná formule pro střední hodnotu a disperzi (přenos chyb). Charakteristická funkce. 4. Normální rozdělení ..... „ c 22 Hustota, momenty, distribuční funkce. Integrál pravděpodobnosti. Standardní odchylka. Lineární funkce normálně rozdělených proměnných* 5. Zákon velkých čísel a centrální limitní věta 25 Slabý a silný zákon velkých čísel. Limitní rozdělení průměru. Příklad součtu rovnoměrně rozdělených čísel, 6. Vícerozměrné normální rozdělení .«<>*««e 28 Hustota pravděpodobnosti. Kovariančnl matice a forma« Dvojrozměrné rozdělení. Elipsy konstantní hustoty. Pravděpodobnostní obsah eliptických a obdélníkových oblastí. Význam korelačního koeficientu. 7« Binomické a Poissonovo rozdělení . oe..»o- 33 ä/2 8. A , Studentovo a F- rozdělení aoaoů0c 34 9. DalSí modelová rozdělenít souvislost některých rozděleni 40 II. Odhad parametrů 10. Metody statistického odhadu parametrů ».«o..^ 45 Přímo a nepřímo měřené hodnoty. Konzistence a nestran-nobt odhadu. Efektivnost. Odhad intervalem a oblastí hodnot. Metoda maximální věrohodnosti; Metoda nejmen-Slch čtverců. Rozdělení dat* Poznámka o inverzní pravděpodobnosti o 11. Příklad měření časového intervalu 0. •»a <, u 50 - Odhad střední hodnoty a disperze. Odhad intervalem* Kontrola pravděpodobnostního obsahu. Rozdělení dat0 - 5 - 12* Odhad přímo měřených hodnot ......, 57 Téhy. Disperze pro jednotkovou ráhu. Odhad střední hodnoty. Odhad intervalem při známé dispersi. Odhad disperze. Odhad intervalem při odhadované disperzi. Kontrola rozděleni dat. Nápadné vybočující hodnoty. 13. Příklad měřeni doby života částice ....... 62 Odhad střední hodnoty exponenciálního rozdělení. Výsledky simulovaného experimentu. 14. Odhad Dolohy symetrického rozdělení ........ 65 Optimální odhady pro několik modelových rozděleni. Asymptotické disperze. Vyrovnaný průměr. Příklad dvou odhadů polohy rovnoměrného rozdělení. 15« Příklad odhadu dvou parametrů lineárního modelu ....... 68 Odhad při normálním rozdělení dat. Maximální věrohodnost a nejmenSl čtverce. Výsledky simulovaného měření. Odhody eliptickou oblastí. Intervalové odhady jednotlivých parametrů. Pokus s jiným rozdělením dat. 16* Odhad parametrů lineárního modelu ....... 76 Lineární model. Odhad parametrů. Odhad elipsoidem při známé disperzi. Odhad disperze. Odhad elipsoidem při odhadované disperzi. Intervalové odhady jednotlivých parametrů. Souvislost se sumou čtverců odchylek. 17* Odhad parametrů nelineárního modelu 80 Nelineární model. Maximální věrohodnost a nejméně! čtverce. Lineární přiblížení. 18. Příklad odhadu parametrů nelineárního modelu ....... 81 Proložení modelu simulovanými daty (Lorentzův profil). Suma čtverců v okolí minima. Odhad intervalem. Vliv. zadání pevných hodnot některých parametrů. III. Testy hypotéz 19. Statistické testy hypotéz ....... 66 Souvislost odhadu a testu. Jednoduchá a složená hypotéza. Chyby prvního a druhého druhu. Kritická oblast. Síla testu. Příklad testu zvětienl střední hodnoty. Testy dobré shody. - 6 - 20. Pearaonův test dobré shody ....... 88 Histogram. Pearaonův X2- test. Přiklad pouSití -- data ze spektrometru. Volba buněk histogramu. 21. Kolmogorovův test dobré shody ....... 92 Empirická distribuční funkce. Kolmogorovův test. Test rozdělení dat z §11. Test rozdelení dat ze spektrometru. Dodatky Dl. Tabulka X2- rozdelení ....... 95 D2. Tabulka Studentova rozdělení 96 D3. Tabulka F- rozdelení ....... 97 Literatura ......» 101 - 7 - I. Základni pojmy teorie pravděpodobnosti 1. Pravděpodobnost jevů V současné době je známo několik různých způsobů, jak definovat kvantitativně pravděpodobnost. Uvedeme tři možnosti, z nichž každá je svým způsobem výhodná a jejich srovnáni je užitečné pro pochopení problémů stojících v ceBtě zavedení univerzální definice. Klasická definice Pravděpodobnost P(X) určitého jevu X určujeme pomocí souboru tzv. elementárních událostí; označíme je E^,...,En. To jsou navzájem se vylučující jevy (nastane-li jeden z nich, nemůže nastat žádný jiný), o kterých předpokládáme, že jsou "stejně pravděpodobné", nebo "stejně možná". Pojem stejné pravděpodobnosti pokládáme za základní a nesnažíme se ho definovat. Jestliže se událost X dá vyjádřit jako sjednocení některé m-tice různých elementárních události (t.j. jako jev, při kterém nastane E. ne- Kl bo E^. nebo ... nebo se všemi k^f...fkm navzájem různými), položíme 2 m P(X)=m/n. Pro pravděpodobnost elementárních událostí máme tedy P(E^)=l/n pro všechna i=l,...,n. Podstatná část klasické definice se dá vyjádřit následující formulací: počet příznivých případů pravděpodobnost - po5et vgech možných případů ■ (1) Ihned je ovšem třeba doplnit, že všechny možné případy musí být stejně pravděpodobné.Vyhledání množiny elementárních událostí je obvykle založeno na symetrii objektů, které se daného jevu účastní (házení ideální kostkou, ruleta apod.). Není-li počet všech možných případů konečný, ale zůstává možnost zdůvodnit stejnou pravděpodobnost některých podmnožin všech jevů, lze definici (1) v podstatě zachovat. Namísto počtu případů je nutné použít vhodnou míru velikosti oblastí, reprezentujících příznivé a všechny možné případy (délky, plochy atd), V učebnicích teorie pravdepodobnosti se v těchto okolnostech používá termínu geometrické pravdepodobnosti. Statistické definice Označme počet pokusů, ve kterých je sledován náhodný jev X, symbolem N. Jestliže v M případech jev X nastal (ve zbylých N-M nenastal), můžeme definovat pravděpodobnost X jako limitu relativní četnosti H/N při N jdoucím k nekonečnu: P(X) = lim -8- . (2) Pravděpodobnosti nemožného a jistého jevu jsou tedy po řadě 0 a 1; je-li X sjednocením konečného počtu vzájemně se vylučujících jevů A^,...,^, je zřejmě P(X)=P(A1)+.. .+P(Ak). Tato definice vyjadřuje intuitivně zřejmou souvislost mezi pravděpodobností jevu a jeho četností při opakovaných pokusech. Ačkoliv nekonečnou řadu pokusů nelze realizovat, předpo- - 8 - klademe, že a rostoucím počtem N se relativní Četnost blíží k limitní (i když třeba neznámá)hodnotě (2). Moderní definice Pravděpodobnost je definována jako číselná míra na množině F vSech možných jevů (ke každému jevu 2 P je přiřazeno číslo p), splňující následující axiomy: (a) P(X)>0 pro všechny jevy X«E; (b) P(U) = 1 pro jistý jev U(t.j. pro takový jev U, který nastává vždycky); (3) (c) P^ nebo Ag nebo ...) = P(A1)+P(A2).+ ,.. pro libovolné vzájem- ně se vylučující jevy A^A,,,... Vlastnosti pravděpodobnosti z klasická a statistické definice jsou zachovány, chybí jen předpis pro konkrétní přiřazení numerických hodnot pravděpodobností jednotlivým jevům. To je přirozený důsledek požadavku, aby aparát teorie pravděpodobnosti mohl popisovat stejné množiny náhodných jevů, které se liěí hodnotami pravděpodobnosti. Například při házení ideální kostkou je P(l)=..,=P(6)»l/6 (1,...,6 znamená výsledek hodu); odchylka od ideálního stavu vede k tomu, že se pravděpodobnosti li5í od 1/6 a jejich hodnoty je třeba zjistit. Metody teorie pravděpodobnosti však fungují stejně v obou případech. Pokusme se zformulovat hodnocení uvedených třech způsobů definice pravděpodobnosti. Pravděpodobnostní míra zavedená v moderní definici (3) reprezentuje podstatnou stránku společnou náhodným jevům; je vhodná pro logickou výstavbu matematické teorie. Klasický přístup (1) prokáže mnohdy cenné služby proto, že vyplňuje kostru obecných požadavků hodnotami pravděpodobností. I když velmi často potřebnou množinu stejně pravděpodobných elementárních událostí nenajdeme, nemá cenu klasickou definici odmítnout; tím bychom se ochudili o mnoho podstatných výsledků. Statistickou definici (2) považuji někteří autoři za jedině správnou. V souvislosti se dvěma druhými alternativami se však přikloníme k chápání vztahu (2) jako prostředku k určeni numerických hodnot pravděpodobnostní míry z moderní definice. Podmíněná pravděpodobnost Pravděpodobnost náhodného jevu A za předpokladu, že nastává jev B, se nazývá podmíněnou pravděpodobnosti. Značí se symbolem P(A|B) a je definována pomocí pravděpodobnosti jevu AaB (t.j. jak A tak B současně) následujícím vztahem: P(AaB) » P(B)P(A[B). (4) P(A|B) je definována jen tehdy, je-li P(B)>0. Nezávislost náhodných jevů Dva náhodná jevy A-j,A9 se nazývají nezávislé, jestliže - 9 - P(AiaA2) = P(A1)P(A2), neboli P(A1|A2) = P(A1>, PÍA^A^ = p(A2). (5) Pojem nezávislosti náhodných jevů je velmi důležitý a budeme se s ním často setkávat. Hořejší definice se však prakticky ke zjištění nezávislosti nepoužívá. Obvykle využijeme empirických poznatků k tomu, abychom rozhodli o správnosti tvrzení, že dva jevy spolu "nijak nesouvisí", a tuto nezávislost vyjádříme formálně vztahem (5). Jednoduché pravidla Pro pravděpodobnost, že jev A nenastane (neboli nastane jev, který označíme bud ne A, nebo Á), vychází P(Ä) * l-P(A). (6) Pravděpodobnost, že nastane alespoň jeden ze dvou jevů A,B je P(A nebo B) = P(A)+P(B)-P(AaB). (7) Pokud jev A musí nastat společně s právě jedním z k navzájem se vylučují-p. cích jevů B^...,^, to jest A je jev (AaB^) nebo (AaB2) nebo. ♦ .nebofAaB^), dostaneme s pomocí (3) a (4) tzv. vzorec pro úplnou pravděpodobnost P(A) = ^PÍAaBi) « ^P(Bi)P(AlBi). (8) Bayesův teorém Z definice podmíněné pravděpodobnosti (4) plyne rovnost P(A|B)P(B) P(AaB) = P(B)P(AlB) * P(A)P(B|A), neboli P(BlA)-- (9) To je tzv. Bayesův teorém. Je-li jev B jedním ze vzájemně se vylučujících jevů B^ ze vztahu (8), vychází odtud Bayesův vzorec ve tvaru PCAlB^PÍB,) PCBilA) = —g--—2=-^— . (10) £ P^PU^) IM Smysl posledního vztahu je následující: předpokládejme, že umíme najít pravděpodobnosti P(B^),...jPÍB^) a P(A]B^,...,P(AIB^) pro náhodný jev A, který nastává spolu s právě jedním jevem B^,...,^. Budeme-li ze všech výsledků pokusů vybírat jen ty, ve kterých událost A nastala, dává Bayesův teorém (10) hodnoty pravděpodobností P(B^|A), které se obecně liší od výchozích pravděpodobností P(B^) náhodných jevů B^ sledovaných bez doplňující podmínky. 2. Náhodné proměnné Studium náhodných jevů lze převést beze zbytku do řeči Čísel prostřednictvím náhodné proměnná. To je proměnné veličina, jejíž hodnoty reprezentují všechny možné výsledky pokudu s náhodnými jevy; pravděpodobnosti jednotlivých výsledků jsou tak přiřazeny odpovídajícím hodnotám náhodné proměnné. oTejrůznějšl náhodné jevy, jejichž struktura je z hlediska uplatnění pravděpodobnostních zákonů stejná, jsou popisovány - 10 - jedinou náhodnou proměnnou. Pro zkoumání náhodných proměnných máme k dispozici rozvinutý aparát matematické analýzy. je Je-li množina hodnot náhodné proměnné £ spočetná (lze indexovat přirozenými čísly, například y^t y2f-)i nazýváme y diskrétní náhodnou proměnnou a soubor pravděpodobností ^(y^)? ¥^($2^ *'" diskrétní funkcí rozdělení. Výhodné je použiti spojitých náhodných proměnných, které mohou nabývat libovolných reálných hodnot ze spojitých intervalů. Potom není možné přiřadit dané hodnotě nenulovou pravděpodobnost, protože pravděpodobnost spojená s intervalem hodnot by byla nekonečné. Přirozeným řešením tohoto problému je zavedení hustoty pravděpodobnosti; zadané hodnotě x spojité náhodné proměnné ý přiřadíme hustotu f j (x) = lim p<*^< * # (1) Pravděpodobnost, Že hodnoty j jsou z intervalu ^x, ^ +Ax) je tedy pro dostatečně malé Ax úměrná délce intervalu a koeficientem úměrnosti je hustota f| (x), neboli "pravděpodobnost na jednotkovou délku intervalu". Protože hustota je obecně funkcí x, dostaneme pravděpodobnost pro konečný interval d3C* (2) xl S použitím Diracovy á"- funkce můžeme rozšířit zadání hustoty tak, že v sobě zahrnuje vlastnosti diskrétní i spojité náhodné proměnné. Například funkce f$(Z) - px a- + p2 s»(z-»2) + d-p^Pg) ^e3Cp (.^2) (3) je hustotou náhodné proměnné ^, která nabývá hodnot z^, z2 s pravděpodobnostmi P^, P2 a libovolných reálných hodnot různých od z^, z2 s hustotou danou třetím členem na pravé straně vzorce (3)« Aby byl splněn požadavek pravděpodobnosti jistého jevu (viz (1.3)), musí platit oo Z.P^(yi) =1, Jj (x) dx = 1 (4) pro libovolnou náhodnou proměnnou g (diskrétní) a ^ (spojitou, vně intervalů možných hodnot položíme hustotu rovnou nule). Z této normovači podmínky vychází faktor u exponenciální funkce ve vztahu (3)« Funkce náhodné proměnné Je-li ^ náhodné proměnné s hustotou f j (x) a h(x) zadaná funkce s hodnotami y = h(x), můžeme přenést pravděpodobnostní míru z intervalů hodnot x do intervalů hodnot y, které jsou pak hodnotami nové náhodné proměnné (označme ji ^), Je-li transformace y = h(x) vzájemně jednoznačná, přechází interval ^x, x+dx) v lť(x) značí derivaci a h-1(y) funkci inverzní: x"h_1(y), která podle předpokladu a jednoznačnosti transformace y»h(x) existuje. V opačném případě se několik intervalů 0 • x* -Vy" pro x<0. Odtud dostaneme (y) . ff(Wy) + ft(v7) pro y>0s .(7) 1 2y/y Distribuční funkce K úplnému zadání náhodné proměnné j se vedle diskrétní funkce rozděleni Pý(xj_) «eho hustoty pravděpodobnosti f j íx) výborně hodí distribuční funkce Fj(x) reálného argumentu xfe(-oo,oo)t definovaná vztahem Fj(x) = P( f < x) (8) pro diskrétní i spojité jt Souvislost s hustotou spojitá náhodné proměnné je podle (2) následující: x dF4(x) Ft(x) »?f4(t)dt, fé(x) *-2E$i J .Í ' J dx (9) Druhá z hořejoích formulí platí jen tehdy, existuje-li v bodě x derivace. Funkce Fý(x) má podle definice (8) skok velikosti P(x^) v každém bodě x^, pro který je pravděpodobnost P(x^) nenulová. Distribuční funkce je neklesající, podle vztahu (4) jsou její krajní funkční hodnoty 0 a 1. Diskrétní funkci rozděleni, hustotě nebo distribuční funkci se stručně říká rozdělení náhodné proměnné. Vícerozměrné náhodné proměnné Některé náhodné jevy je třeba popisovat několika reálnými čísly. Uspořádaná n-tice reálných čísel (x^...,^), které je přiřazena pravděpodobnostní míra, tvoří hodnotu n-rozměrné náhodné proměnné, často se používá také názvů náhodný vektor nebo soustava náhodných proměnných. Diskrétní náhodný vektor "je určen pravděpodobnostmi P(x^,... ,xn) toho, že jednotlivé složky nabudou diskrétních hodnot *ii»xi2»* * *,xnl,xn2»* *' * Hodnotám (x^,...,^) spojitého náhodného vektoru ^(podtržením symbolu zdůrazňujeme, že jde o veličinu s několika komponentami £ lf.fn) je přiřazena hustota pravděpodobnosti f 4 (x, .....x) - lim P(xtift+*»1 ' ° V*fn (16> označujeme náhodné proměnné f±*»"tjn áalc0 nezávislé* Smysl tohoto pojmenování je stejný jako v případě nezávislosti náhodných jevů (§1, vzorec (1,5)) - pravděpodobnosti nebo hustoty jedné z proměnných nezáleží vůbec na ostatních. Hodnoty podmíněných pravděpodobností nebo hustot (jako např, ve vztahu (15)) jsou tytéž jako bez podmínek, což se dá stručně vyjádřit formulí (16)f fýsledky měřeni - hodnoty náhodných proměnných Měřením získáváme ve velké většině případů soubory čísel. Náhodné - 13 - vlivy působící v procesu měření vedou k tomu, 2e je více možných výsledků. 0 tom se můžeme přesvědčit pouze opakováním celého měření v nezměněných podmínkách. Zkušenost nás učí, že se relativní četnosti možných výsledků s rostoucím počtem opakování blíží k pevným hodnotám * pravděpodobnostem* V opačném případě usuzujeme na změnu podmínek měřeni. Naměřená čísla jsou hodnotami náhodných proměnných. Cílem je ovSem zjištění vlastností měřeného objektu, která jsou reprezentovány pevnými hodnotami parametrů. Tyto parametry, spolu s náhodnými vlivy, formuji náhodné proměnné popisující výsledky měřeni. Vhodným zpracováním dat se snažíme'potlačit vliv náhody a "určit", nebo lépe "odhadnout", hledané* parametry. Statistický termín odhad je lepši, protože hodnoty parametrů vypočtené z naměřených dat tvoří opět náhodné proměnné a jejich souvise lost se skutečnými parametry můžeme vyjádřit pouze pomoci pojmu pravdepodobnosti* . 1 Na závěr ukážeme výsledky dvou typických měřeni. Přiklad měření časového intervalu K měřeni byl vybrán časový interval známé dálky - totiž doba, za -kterou proběhne vteřinová ručička hodin dva vteřinovó dílky ciferníku. Při průchodu ručky výchozí značkou byly "ručně" spuštěny, a po prčběhu dvou dílků opět ručně zastaveny, digitální hodiny, které počítaly intervaly dálky asi 0.58 ms (milisekundy). Pofiet tiků digitálních hodin byl tis) 2. 00 1.60 1.60 1 • 1 * I c • • -1- " " 1 ■ * ■ • • « * 9 »1 * * « • • • • * • • • • m • • ■ o • * • • •• • • • • ' ' . . - . • 9 0 * • • • • • * " * — 1 • • 1 m * • • i ' 0 50 100 150 200 číslo měření Obr. 1. Výsledky opakovaného měření času. - 14 - zaregistrován a morení opakováno celkem 200-krát. Vynecháme diskusi o možných systematických chybách, která by mohla být velmi obsáhlá 1 v tomto jednoduchém případě. Výsledky jednotlivých měření se ovSem liSi od správné hodnoty t0»2s, především proto, že se málokdy podaří spustit a zastavit hodiny při průchodu ručky přesně nad značkou ciferníku. Soubor výsledků je graficky znázorněn v obr. 1. Registrované údaje jsou hodnotami diskrétní náhodná proměnné (pouze celočíselné násobky délky tiku digitálních hodin. V § 11 se k tomuto přikladu vrátíme a uvidíme, že toto diskrétní rozděleni může být velmi dobře aproximováno jedním známým rozdělením spojitým; ukážeme, jak je třeba získaná data zpracovat a jak interpretovat výsledky. Hrubou představu o hustotě pravděpodobnosti příslušné náhodné proměnné poskytuje histogram na obr. 2. Výškou sloupců jsou tam znázorněny počty naměřených hodnot ve dvaceti stejně dlouhých intervalech mezi největším a nejmenším údajem. Četnosti v jednotlivých sloupcích histogramu jsou náhodná veliCiny, proto dochází k výrazným odchylkám od předpokládaného plavného průběhu hustoty pravděpodobnosti. V tomto měření se uplatňuji náhodné vlivy prostřednictvím nekontrolovatelných lidských reakcí. Zřejmě by nebylo příliš obtížná spouštění a zastavování hodin zautomatizovat a tím měření zpřesnit* Pro následující příklad bylo zvoleno měření, do jehož průběhu člověk nezasahuje. Příklad měřeni propustnosti spektrometrem Propustnost (podíl intenzit prošlého a dopadajícího světla) zkoumaného vzorku se měří spektrometrem. Ze světla vycházejícího ze zdroje se vybírá určité pásmo vlnových dálek. Světelný paprsek je rozdělen ne dvě Části, z nichž jedna prochází vzorkem a druhá jde mimo něj. Obě části jsou registrovány detektorem, který převádí intenzity na elektrická napětí* V elektrických obvodech jsou tyto signály* zpracovány tak, že údajem na výstupu je propustnost vzorku. Činnost moderních spektrometrů je řízena počítačem a měřeni, včetně zápisu výsledků, může probíhat zcela automaticky. Přesto jsou výsledky opět zatíženy náhodnými chybami. Pro naši ukázku jsme vybrali data pořízené na kvalitním infračerveném spektrometru, na kterém byla pevně nastavena vlnová délka světla a počítač registroval v konstantních časových Intervalech výstupní signál. Tisíc zapsaných hodnot je znázorněno v obr. 3 ve formě histogramu. Aby vynikl diskrétní charakter výsledků, zachovali jsme signál ve tvaru celých čísel - tak, jak vychází z analogově-digitálního převodníku v přístroji. Propustnojrt dostaneme násobením tohoto údaje konstantou, danou nastavením aparatury; nesprávná nastavení vede k systematickým chybám. Kolísání signálu, označované jako šum, je způsobeno především náhodnými procesy ve zdroji světla a v detektoru. V dobrém přístroji jsou tyto prvky vybrány tak, aby poměr signál/šum byl co největšl. Zlepšeni dosažitelné s přijatelnou námahou obvykle není možné. Návod k optimálnímu zpracování dat, - 15 - 1.60 1.80 2.00 2.20 t(s) . 2. Histogram sestavený z dat v obr. 1- I-1-1-1-1-1-1-1-r 100 200 300 400 signál Obr. 3. Histogram výsledků lOOOx opakovaného měřeni na infračerveném spektrometru. které jsou k dispozici, poskytuji statistické metody. Analýzou rozdělení náhodná veličiny z tohoto příkladu se budeme zabývat v §§ 20 a 21; ukážeme, že je stejného typu jako v hořejSím příklade ručního měření času. 3. Vlastnosti náhodných proměnných Náhodné proměnné je úplně zadaná svojí distribuční funkcí, případně hustotou nebo diskrétní funkcí rozdělení* Velmi užitečné jsou následující číselné hodnoty, které vystihují některé podBtatné vlastnosti rozdělení pravděpodobnosti. Střední hodnota náhodná veličiny £(diskrétní, rozdělení P(y^)) a J (spojité, s hustotou fj(x)) je definována vztahem oo ■ ^.7{P(7^t E(V = S^xfťxJdx , CD jestliže tyto výrazy existují. Pro zadané funkce g(£), M^) jsou střední hodnoty oo E[g(n)] = Z-gizO-Hy^, E[h({)] »Jh(x)f(x)dx. (2)' L L i —co Je třeba si uvědomit, že střední hodnota není funkcí hodnot náhodné proměnné; symbolem E (j») vyjadřujeme, že jde o střední hodnotu proměnné f. Je to lineární funkcionél, z definice (2) vychází EJac^íJ) + bd2(f)] » ^[(^(J)] + bE[d2(j)] (3) pro libovolná čísla a,b. Střední hodnota charakterizuje polohu rozdělení. Oziačuje se někdy taká jako matematická očekávání, expeklance, střed rozdílení. Pro některá rozdělení toto číslo neexistuje, např. pro tzv. Cau-chyovu hustotu f(x) ^[itd+x2)]'1 (viz §9) není integrál (1) definován. Disperze je střední hodnota kvadrátů odchylek od střední hodnoty náhodná veličiny: -------- 00 D(|) - E{[x-E(f)] 2} = £&-E(JÍ2 f(x)dx; (4) pokud existuje, charakterizuje áířku rozděleni. Velmi často se pro ni užívá symbolu €2, hodnoto 6" se pak říká střední kvadratické odchylka. Medián a moda jsou dalělmi charakteristikami polohy rozdělení. Medián Xjy2 je takové hodnota náhodné proměnné f s distribuční funkcí F(x), pro kterou F(x1/2) - P(x vzhledem k Číslu c se nazývá střední hodnota E [($-c)kJ. Momenty vzhledem k poCótku (c»0) bývají označovány jako algebraické: *k 3 E (Jk), (6) momenty vzhledem ke střední hodnotě (c = E(£)) jsou centrální: ^ = E0|- <7> Střední hodnota je tedy prvním algebraickým momentem (Ý^), disperze druhým centrálním momentem (^>). Asymetrie a exces Asymetrie je definována jako Pro symetrické rozdělení je ^ a tedy i asymetrie nulová. Pro nesymetrické rozdělení je Jf^ vhodnou mírou odchylky od symetrie. Exces je zvolen tak, aby pro normální rozdělení (§4) byl nulový. Umožňuje rychlé posouzení odliSnosti zadaného rozdělení od normálního (je mírou "špi-fiatosti" ,..y^>0 má rozdělení ostřejší, y2<-0 rozdělení plošší ne2 normální se stejnou disperzí). Momenty náhodného vektoru Pojmy střední hodnoty a momentů, zavedené ve vztazích (1),(2),(6) a (7), se dají snadno zobecnit pro vícerozměrnou náhodnou proměnnou. Kvůli jednoduchosti zápisu se omezíme na případ náhodného vektoru se dvěma komponentami (jlf J2>, kter? nabývá hodnot (x^Xg) e hustotou f (x^Xg)'. Střední hodnota funkce h (j^i^ ^e d«finovóna formulí analogickou k (2): oo E[n(}l,Í2)] " 5\ h(x1,x2)f(x1,x2)dx1dx2. (10) - oo Zvolíme-li za funkci h mocniny ^ a £2, dostaneme z posledního vztahu momenty vektoru J_. Vypíšeme explicitně nejdůJLežitějšl z nich. Dvojice prvních algebraických momentů oo co ECj,) « ^(xi,^) dx1dx2, E(f2) = fÍ3ci»x2) dxldx2 (11> bývá znaCena jako střed rozdělení vektoru J_. Déle jsou to druhé centrální momenty - 18 - B(h> -*í - «{tíi-E - JL •? ^f4). (19) i«l i»l Nalezení hustoty lineární kombinace s hustoty f|_ (x^,...,xn) je trochu složitější. Elementární úvahou nebo využitím vztahu (2.5) zjistíme, že hustota konstantního násobiču e J náhodné proměnná j je násobkem hustoty f ý (x) t *aj(ax) "T"Vx) ■"a"ftí^)* (20) Celý problém se tedy redukuje v podstate" na urtienl hustoty eouStu dvou proměnných 12"^+f2* Distribuční funkoe ^ je Fj(y)- S\ fj1,j2(x1,5t2)dxldxa-^«x2 ^ 2*Ji«j»<«iix2)d,ei' (21) X1+x2=ffl(xl)ft2(x2)J eub»tltuoí v (21) dostaneme - 20 - ©0 v y OD yy)-y*2 JfÍ2(x2)ffl(t-x2)dt. Jdt[ (fí2(x2)řřl(t-x2) * Jff2(u)fflíy"u)du' (23) —co Podíl nezávislých náhodných proměnných Předpokládejme, že J^, ^2 jsou nezávislé a mají hustoty ^j^(x^)f f^2(x2), reep. distribuční funkce F^í^), Fj2ix^). Hustotu podílu ymf^/j^ najdeme pomocí distribuční funkce ř2(»,-^talta2-5ta2f1'/l<3cl>ff2<1I2)tal+ ^^j^1^^2^*^ (24) Podle vztahu (2.9) dostaneme hledanou hustotu derivováním: oo ° f2(y)="3ý F/y)s 5x2ff l(yx2)ff2(x2)c'X2 ,-^2ffl(yX2)ff2(x2)dx2" (25) 0 .».00 Přibližná formule pro střední hodnotu a disperzi nelineární funkce Střední hodnotu a disperzi funkce h(f• * •»fn) náhodných prorc£ iných můžeme aproximovat jednoduchými vztahy za předpokladu, že je průběh h v okolí středních hodnot E(ý^),•..,E(ýn) téměř lineární. V Taylorově rozvoji WH'-'W*!*^.....E(ln>] * Sfi-X/i'lIfcl,*— (26> zachováme pouze uvedené dva Sieny; symbol E u derivací znamená, že jde o hodnoty v bodS E(j1),...,E(|n). Střední hodnota druhého Clenu v (26) je nulová, proto E[h(jlf...,|n)] « h[E(f1)l...tE(Jn)J . (27) Pro disperzi funkce h dostáváme n n B[h(K.....f»>]- E{[h-E"»]2Hři _ fc&l 'Sul d- í28> - 21 - To je samozřejmě vztah (18b), jen na místě koeficientu a^ stojí derivace 3h/d|i« v rozvoji (26) jsme zachovali lineární kombinaci a aditivní konstanty, která disperzi neovlivní. Úplně stejné odvodíme smíSeny druhý moment dvou funkci h(f j_i • • • i/,^ a • - • i fn)^ D(h,g)»E{[h-E(h)][g-E(g)]}Ä f_ ■ ÍSJ Dí^).' (29) i=l j=l dJi E j I E Kvalita aproximací (27)-(29) záleží na tom, jak dobré je lineární přiblížení funkčních' průběhů pomoci dvou Členů Taylorova rozvoje ▼ takové oblasti argumentů, která podstatně přispívá k disperzi. Velikost této oblasti záleží na tom, jak široká jsou rozděleni proměnných ^/•••»£n» tedy hlavně na jejich disperzích. Aproximace se v zásadě zlepšuji při zmenšování druhých momentů Dt^,^). Jsou-li |^ nekorelovaná, dostaneme z (28) a (29) jednodušší vztahy První z relací (30), přepsané pro střední kvadratické odchylky 6"h-^(h), C^»^D( ^), se říká taká (Gaussův) zákon pro přenos chyb: Charakteristická funkce Fourierova transformace hustoty nebo diskrétní funkce rozdelení ae nazývá charakteristickou funkcí náhodné proměnné. Je to komplexní funkce reálná proměnná t: oo )J:t)=E[exp(it^)] - ^ exp(itx)fj(x)dx C32) pro spojitou proměnnou £ s hustotou t j (x). Charakteristické funkce úplné popisuje náhodná proměnná; hustota je dána obrácenou transformací oo f,(x)« i- \Xfc(t)exp(-ixt)dt. (33) Jf 21T J t -oo Jsou-li a,b konstanty, platí Xaj+b (t)=E|exp[it(aj+b)]J»exp(itb)Xj(at). (34) Pro nezávislá £ , j2 dostaneme charakteristickou funkci součtu fj+k ^ako součin ^1+f2(t)-E{exp[it(f1+f2)]j -Efexpdt^)]. B[exp(itfe>) -X^Ct).Xfr(t). (35) - 22 - To je jeden z důvodů velké užitečnosti charakteristická funkce (namísto konvoluce hustot (23) máme jednoduchý součin charakteristických funkcí). Znalost Xj(t) je užitečná i pro nalezeni momentů (6) ze zápisu exponenty pomocí mocninné řady: y o- [ n ^} ■ t -t ^ vk- os, 1 k»o KI k=o KI k=o K5 k k Momenty ^k jsou, až ňa faktor i /k!t rovny koeficientům u členů t v rozkladu X(t) v mocninnou řadu. 4. Normální rozdělení Spojitá náhodná proměnná, které nabývá libovolných reálných hodnot x s hustotou pravděpodobnosti *{2W [ 26* J (1) má tzv. normální, nebo Gaussovo-Laplaceovo, rozdělení. Kvůli stručnosti vyjadřování přestaneme v dalším textu odlišovat označení pro náhodnou proměnnou a její hodnoty, používané důsledně v §§ 2 a 3; budeme například říkat, Že (l) je hustotou proměnná x. Rozdělení (1) je zadáno dvěma reálnými parametry j p* může být libovolné , €T musí být kladné. £i je střední hodnota,6 střední kvadratická odchylka (G2 disperze): E(x)»^A, D(x)=62. (2) Normální rozdělení je symetrické vzhledem ke střední hodnotě ^t, která je zároveň mediánem i jedinou módou. Charakteristická funkce: X(t)=exp(i^it - t262/2). (3) Centrální momenty (3*7) lichého řádu jsou nulové, pro sudý řád vychází _ (2k)! -2k ŕ*2k k/ % 6 , k£l. (4) 2K(k)l Asymetrie (3.8) i exces (3.9) jsou nulové: jf2=0. Pro hustotu (1) se užívá značení N^fj2); její charakteristický "zvonový" průběh je pro tři různé disperze 6 2 nakreslen v obr. 4. Distribuční funkce je a Fíx)^-^), kde (£(z)= exp(-^)dt. (5) Funkci ^(z) se řiká integrál pravděpodobnosti net>o funkce chyb. F(x) pro tři různé disperze $e nakreslena v obr. 5. Pomocí distribuční funkce (§2) můžeme vyjádřit pravděpodobnost, že hodnota x padne do zadaného intervalu: - 23 - i i-1-1-1-1-r Obr. 5. Distribuční funkce normálního rozdělení e p*0 a 6 «1.4,9. - 24 - P(x€í )»F(x2)-F(x1). Vyčíslením integrálu pravdepodobnosti (5) zjistíme, že P^t-C£X^+6)«0.683, . P({i.-2T«x4£t+2tf)-0.954. (6) Střední kvadratické odchylce C se v případe normálního rozdělení říká také standardní odchylka. Intervaly (i±G a £4+2ff s pravděpodobnostním obsahem (6) se pak označují jako intervaly s jednou a dvěma standardními»odchylkami. i Velmi potřebná funkce chyb (5) byla mnohokrát tabelovéna (v různých modifikacích). Užitečné jsou různé aproximace, které umožňuji vypočítat dostatečně přesná hodnoty s minimální námahou, např. J(Z)Ä1 - exp(-z /2lt (o.3193815-0.3565638t+1.781478t2-1.821256t3+ X J2ŤF +1.330274t4), ^1/(1+0.23164192^) pro z£0, .(7) $(z)=l- $(|z|) pro z<0j chyba této aproximace je pro libovolné z menSí než 10"*^. Náhodná proměnné (x-^.)/f má tzv. standardní normální rozdělení N(0,1) se střední hodnotou 0 a disperzí 1; její distribuční funkcí je integrál pravděpodobnosti Normální rozdělení má při zpracování výsledků měření podstatnou důležitost. Předevolm v mnoha situacích velmi dobře vystihuje rozlomení naměřených hodnot, Jeatě důležitější je fakt, že i pro data s výrazně odlišným rozdělením mají statistická odhady z nich spočtené rozdělení zhruba normální; tuto souvislost vystihuje tzv. centrální limitní věta (§5). Navíc je normální rozdělení limitním případem řady důležitých diskrétních i spojitých modelových rozdělení (§9). Pro nezávislá normálně rozdělené veličiny x^ vychází následujíc! důležité výsledky: a) Libovolné lineární kombinace an x-. + ,. .+a„x_ má opět normální rozdělení* x j. nu 0 tom je možné se přesvědčit přímým výpočtem konvoluce (3*23) nebo mnohem lépe pomocí vlastnosti (3.35) charakteristických funkcí. Střední hodnota £t a disperze 62 musí podle (3.18a) a (3.19) být alíV...+aníV C^a^+.-.+a2*2 . . (8) b) Následující funkce (ve statistická terminologii tzv. výborová střední hodnota a disperze) 1 Ji- _ _2 1 n 1*1 í*i jsou nezávislé tehdy a jen tehdy, když véechna x^ $aji stejné normální rozdělení (s týmiž £c,ť>). - 25 - 5. Zákon velkých čísel a centrální limitní věta Zákon velkých čísel Souvislost pravděpodobnosti p náhodného jevu X a četnosti M jeho výskytu v N-krét opakovaném pokusu je intuitivně zřejmá: čekáme, že se relativní četnost M/N bude s rostoucím N přibližovat k pravděpodobnosti p. Protože podíl M/N je náhodné veličina, je třeba pro očekávané přibližovaní k hodnotě p formulovat pravděpodobnostní tvrzení, Nejznémější je Bernoulliův teorém; pro každé G>0 platí lim P(|-|l- p|<6)- 1 . (1) Vyjádřeno slovy: a£ zvolíme 6>0 jakkoli malé, s pravděpodobností libovolně blízkou k jedné jsou při dostatečně velkém počtu pokusů odchylky poměrných četností M/N od hodnoty p menší než & . Formuli (1) se říká (slabý) zákon velkých čísel. Tvrzení P (lim -5L= p) « 1 (2) je silnější (z (2) plyne (l),ale ne naopak); objevil je Borel a říké se mu silný zákon velkých čísel. Pro přívržence statistické definice pravděpodobnosti (§1) je zákon velkých čísel tautologií, protože pravděpodobnost určují právě z relativních četností při opakování pokusu. Pro zastánce názoru, že se pravděpodobnosti dají (alespoň někdy) vypočíst ze struktury jevů, je předpo-vě3 četností dtizkoulogické výstavby teorie a věty o konvergenci posloupnosti M/N^podstatnými výsledky. Slabý a silný zákon vyjadřují dva různé typy konvergence hodnot poměrných četností: tzv. konvergenci podle pravděpodobnosti, popsanou vztahem (1) a konvergenci téměř jistě (2)). Jako zákon velkých Čísel se kromě (1) a (2) označují taká následující věty o konvergenci posloupnosti aritmetických průměrů náhodných proměnných. Jsou-li x^,x2,«-» nezávislé náhodné proměnné se stejnou střední hodnotou £i a disperzemi D(x^),D(x2),... takovými, že lim ±- V~ D(x,)=0, pak lim pf]-^ 5~ x--/J<£W (3) N*°o ň2 ÍTi N-^ V* ^ 1 6 1 ' pro libovolné £>0. To je slabý zákon velkých čísel - posloupnost průměrů konverguje podle pravděpodobnosti ke střední hodnotě. Silný zákon tvrdl, že pro náhodné proměnné, jejichž disperze splňují podmínku 1=1 1 konverguje průměr ke střední hodnotě téměř jistě: 26 Obe věty Í3) «■ (5) se dají zobecnit pro případ posloupnosti proměnných a různými středními hodnotami E(x^), Edg),... r Jejich aritmetický průměr konverguje k limitě průměru středních hodnot £ZE(x^)] /N. Centrální limitní věta udává, jaká je v limitě rozdělení aritmetického průměru nezávislých náhodných proměnných x^jXg,..., které mají stejnou distribuční funkci se střední hodnotou ^4. a disperzí '""t nemusí mít stejnou distribuční funkci. Rozdělení arit- metického průměru je v limitě n-ť*> opět normální; veličina N N /N < XI *i - ZI ^i)/l/Žľei (7) i=i i=i V i=i má asymptoticky rozdělení N(0,1), K platnosti tohoto tvrzení stačí, aby 2 střední hodnoty^ a disperze - existovaly a nerostly příliS rychle s rostoucím i. Postačující je například splnění Ljapunovovy podmínky: existuje takové a>0, že E(lr/V2+a] / ( il^i>2+a - °- (8) I»l Přiklad: součet rovnoměrně rozdělených náhodných čísel Konvergenci součtu nezávislých náhodných proměnných k normálnímu rozdělení budeme ilustrovat na příkladu rovnoměrně rozdělených (§9) veličin x^ s hustotou - 27 - tix^ * 1, xié}<0,l>. (9) Hustota aritmetického průměru x^ « sN/N, kde sN = x^...*^, se dé vyjádřit analyticky; je to po částech polynom stupně N-l; k (N-l)! i=0 — ; /i k+i\ K / , k=0,...,N-1. Střední hodnotu a disperzi součtu sN můžeme vypočlrt mnohem snáze než hustotu; s pomoci (9.6) dostaneme E(sN) - ME(xi) - N/2, D(sN) - ND(Xi) « N/12. (11) Srovnáni hustoty součtu s^ a normální hustoty se stejnou střední hodnotou a disperzí je v obr. 6. Je vidět, že konvergence k normálnímu rozdělení je velmi rychlá, veličina a^"^ m^ prakticky standardní normální rozdělení. f ij(xi-^i)(VrV] * (1) L i=l j=l J Konečný tvar této hustoty odvodíme podrobněji, protože se přitom ukáže řada užitečných souvislostí. Kvůli přehlednosti zápisu zavedeme následující konvence: čtvercovou matici budeme značit velkým písmenem s podloženou vlnovkou, sloupcové vektory podtržením, transpozici libovolné matice horním indexem T (například sloupcový vektor se složkami ^ jako £, řádkový vektory = (^,... ,^1^.)). Argument exponenty v (1) tedy stručně zapíšeme jako -\ T A (x-£), (2) když matice A má prvky (A). . = a4^« Hořejší výraz je skalár, protože sou- čin matice ^A se sloupcovým vektorem x-^jf/ je sloupcový vektor, ze kterého vyjde násobením řádkovým vektorem (x-gOT skalární hodnota dvojnásobné sumy v (1). Aby funkce typu (1) měla vlastnosti hustoty, musí být matice A, T symetrická a pozitivně definitní. Existuje pro ni rozklad ^A » L . ^ s regulérní maticí l, (jinými slovy, matici A, dostaneme podobnostní transformací z jednotkové matice i: A a LTIL = lTL). Lineární transformací hodnot náhodného vektoru x_ 7 = l(x -£> (3) * dostaneme (2) ve tvaru součtu kvadrátů -i (x-Ä)T ltl(x-/<)* -LyTy , -L(y2+...+y2). (4) (Transpozice součinu matic je součinem transponovaných faktorů v opačném pořadí: (x-£)T IjT= £l(x-^a)]T = yT.) Nyní můžeme snadno spočíst hodnotu konstanty c v (1) z normovači podmínky pro hustotu: oo ©o J... jf(x1,...,xn)dx1...dxn* ^...^ c-exp (^^yjCdetíL^dy^^.. .dyn*l. -oo -oo (5) V posledním vztahu vystupuje jakobián transformace (3): dy,...dy■ » det(L)dx,...dx . Protože S exp(-t2/ádt* friT a déle det (A)=det(l7) . ľJ 1 n _oo ' ' r* f*J . det (L) *|det(L)^|2, dostáváme z (5) pro konstantu c vztah det (Jj) 1 c = (7PFr " Ví2TT)n det (A"1) ' (6) - 29 - Je třeba si všimnout faktu, Že y ze vztahu (3) je náhodným vektorem s nezávislými komponentami, které maji standardní normální rozdělení (nulové střední hodnoty, jednotkové disperze a nulové korelační koeficienty). Zobecněním postupu z § 2 pro určení hustoty funkce náhodné proměnné na případ vektorů totiž zjistíme, Že vztah (2.5) zůstane zachován, jen na místě |h\x)| se objeví jakobián transformace. Z hustoty (1) tedy dostaneme s využitíp (6) hustotu vektoru y f(x) i i T n 1 y? (7) ve tvaru součinu standardních normálních hustot jednotlivých komponent. Vektor středních hodnot y je nulový, což zapíšeme symbolicky jako E(y)^0. Podle (3) můžeme do tohoto vztahu dosadit y=^j(3£—^i)« protože podle (3.18a) je E lineární operátor a L je regulární, dostaneme odtud E(xjyeOsJ) a tedy střední hodnoty vektoru x: E(x) =£ (8) T Matice druhých momentů vektoru y je jednotková, symbolicky E(yy )=I; součin sloupcového a řádkového vektoru yy tvoří čtvercovou matici nxn a funkcionél E působí na každý její prvek zvláát. Dosazením za y z (3) a využitím linearity E dostaneme Ek(x/£)(2^)T£T3= M(^(*-£)T]jľ sí» neboli pro matici jD druhých momentů vektoru x vztah D = E[(x-/t)(x-/t)Tl= L"1^)"1 = (A)"1 = A"1. (9) Matice A koeficientů kvadratické formy (2) je tedy rovna inverzní kova-riační matici . Kdo nevěří maticovým zápisům, může se pokusit vypočíst prvky D(xj,x.) matice IX jednotlivě. Kovariance vyjádříme pomocí korelač-nich koeficientů o a disperzí Š jako D(xifx^) = ^j6^ (viz (3.16)); dostaneme výhodný tvar kovariační matice (10) Libovolné n-rozměrné normální rozděleni může být zadáno n-ticí středních hodnot £fca n(n+l)/2 nezávislými prvky symetrické matice - bud" A, nebo j). Vyjádřeni hustoty (1) s normalizační konstantou (6) pomocí matice 2 á e - 30 - f(x) - . 1 — exp |--j(x-/it)TD"1(x7a)l. (11) V(2ir)ndet(D) 1 - "'J Veličina J » (3c-^)TD":L(x-ía) = (x-^ACx-^) (12) se nazývá kovariační formou náhodného vektoru x>. Je to jednorozměrné ná-hodná proměnné s rozdělením X s n stupni volnosti (i 8), neboi se dá napsat jako součet kvadrátů n-tice rtezávislých proměnných se standardním normálním rozdělením... y= y y. Hustota (11) je konstantní na plochách í= konst. a pravděpodobnostní obsah těchto elipsoidů (pravděpodobnost, 2 že x_ padne dovnitř elipsoidu) je dána distribuční funkcí^. Z pozoruhodných vlastností rozdělení (11) uvedeme dvě: a) Libovolné projekce na prostor menäí dimenze (marginální rozdělení,§2) je opět normální s maticí druhých momentů sestavenou z prvků matice (10) odpovídajících zbylým proměnným. Například marginální rozdělení každé komponenty x^ je f(xt) « Ní^, 62). (13) b) Libovolný řez (podmíněné rozdělení, §2) je opět normální. Řez rovinou x^=x^0^ , t.j. rozdělení a konstantní hodnotou xí0^složky x^, mé matici druhých momentů D -, kterou dostaneme inverzí matice A ,, kova-riační formy zbylých proměnných. Dvojrozměrné normální rozdělení Pro dvojrozměrné (n=2) rozdělení můžeme snadno vyjádřit explicitně prvky matice hustota (11), zapsaná pomocí středních hodnoty, standardních odchylek ^.^^2 & korelačního koeficientu o má tvar :x2-^2)(x2^/ f(xlfx2) =" OTo^/l-p2 eXP< ~2(l-p2) l 6J2 f (14) Můžeme si ji představit názorně jako zvonovitou plochu nad rovinou x1,x2, nebo při pohledu shora znázornit soustavu vrstevnic - čar s konstantní funkční hodnotou. Vrstevnicemi jsou elipsy _LJ<^ ja^*U. konst. 1-^ j. ^2 Protože kovariační forma na levé straně (15) mé známé rozdělení (X se dvěma stupni volnosti), můžeme vypočíst pravděpodobnost, že dvojice x^,x2 leží uvnitř elipsy (15): - 31 - P = (*> í áe příslušná distribuční funkce. V obrázku 7 je nakresleno několik elips s různými pravděpodobnostními obsahy P=0.99, 0.954, 0.683, 0.5, 0.2, pro které podle tabulky v dodatku Dl vychází hodnoty Ä po řadě 9.21, 6.158, 2.298, 1.386, 0.446; korelační koeficient je ^= -3/4. Z hustoty (14) odvodíme podmíněné rozdělení x^ za předpokladu, že Xg nabývá pevné hodnoty (viz (2.15)): g(x1)=f(x1|x2) =t (16) Je to normální rozděleni se střední hodnotou a disperzi -2 2, EÍXjJxg) = (f4l+?|-(x2-ft) D(xjx2)= G* (1-p2) (17) V tomto místě máme dobrou příležitost ilustrovat smysl pojmů závislost a korelace náhodných proměnných. Normálně rozdělené proměnné jsou nezávislé práve tehdy, když jsou nekorelované; je vidět, Že hustota (14) je pro^= 0 součinem hustot Ní^, 6^) a Ní^jSg). Jinými slovy, rozděleni každé proměnné je nezávislé na tom, jakou hodnotu nabývá druhé z nich. Obecně (pro jiná rozdělení) je ovšem nekorelovanost slabší než nezávislost (§3). Je-li korelační koeficient různý od nuly, záleží podle (17) rozdělení x-j^ na tom, jaké hodnoty nabývá Xg; při loj-^1 se zužuje kolem střední hodnoty závislé na x2. V limitním případě dplné korelace (^«1) nabývají náhodné proměnné x1,x2 hodnot, které spolu souvis! vztahem (x1-^1)/6"1 = (x2-^2)/6*2 (18) Míru závislosti <■> obou proměnných můžeme znázornit ještě jinak. V obrázku 8 jsou nakresleny'rkonstantní hustoty, které mají stejný pravděpodobnostní obsah P=0.954 a liší se hodnotou korelačního koeficientu. S rostoucím o Obr. 7. Elipsy (15) normálního rozděleni s korelačním koeficientem ^ = -3/4. Pravděpodobnostní obsah je, po řadě od největší k t nejmenší, roven 0.99, 0.954, 0.683, 0.5, 0.2. Obr. 8. Elipsy s pravděpodobnostním obsahem 0.954 a různými korelačními koeficienty ]exp(-|.)dt. (19) Závislost P na korelačním koeficientu pro několik hodnot k je nakreslena v obr. 9. 7. Binomické a Poissonovo rozdělení Binomické rozděleni. Diskrétní náhodná proměnná, která nabývá celé nezáporné hodnoty r s pravděpodobností , r * 0,1,...,N, (1) P(r) » (?)pr(l-p)N-r kde N je celé kladná, p reálné, 0£p£l, má tzv. binomické rozdělení. Pravděpodobnosti (1) jsou členy binomického rozvoje r=0 r!(N-r)! s ^= 1-p. Střední hodnota, disperze, asymetria a exces: E(r)»Np, D(r)=NJ?(l-p),Ka ]~2? , Vy l-6p. ř * ť 91 VNp(l-p) fl2 Np(l-p) (3) Proměnná s binomickým rozdělením popisuje výsledky opakovaných pokusů s náhodným jevem, který má jen dva možné výsledky. Jeden z nich - 33 - 0,8 1.0 _ Z Obr. 9. Pravděpodobnostní obsah obdélníků ^-kG^^-ktíg dvojrozměrného normálního rozdělení v závislosti na koeficientu korelace (3. 0.00 - Obr. 10. Binomické (N»l0,p=l/2, svislé úsečky) a normální rozděleni - 34 - (označíme ho úspěch) má pravděpodobnost p, druhý 1-p. Pravděpodobnost, Že v N pokusech nastane r-krát úspěch, je dána formulí (1). Toto rozdělení se dá použít v mnoha situacích, vybereme-li z možných výsledků nějakou podmnožinu a považujeme ji za úspěch. Například počet událostí v jedné buňce histogramu má binomická rozdělení. Pro velká N se dá diskrétní funkce (1) dobře aproximovat hustotou pravděpodobnosti normálního rozděleni. V obr. 10 je nakreslena rozdělovači funkce (1) s N=20, p=l/2 a hustota normálního rozdělení se stejnou střední hodnotou 10 a disperzí 5» Poissonovo rozděleni má náhodná proměnné, které nabývá celé nezáporné hodnoty r s pravděpodobností P(r) ■ exP(^ , r=0,l,..., (4) r! kde (H>0 je reálné číslo. Střední hodnota, disperze, asymetrie a exces: E(r)=D(r)^U, ^=1/^, ^2=1/tL* í5) Poissonovo rozdělení dává pravděpodobnost výskytu r událostí v da-ném časovém intervalu, jsou-li tyto události nezávislé a vznikají s konstantní rychlostí. Například, z radiaktivního zdroje vylétají částice tak, že pravděpodobnost vyzáření jedné částice za infinitezimální čas St je ^St. Pravděpodobnost vyzářeni r částic za konečný interval délky t je dána rozdělením (4) se střední hodnotou ^tsVt. V limitě pro N-»°° a při současném zmenšování pravděpodobnosti p takovém j Že součin Np zůstává konstantní, Np=£o, dostaneme totiž z binomického rozděleni (1) PCr) -Uj^-.U^1'-'] (6) právě Poissonovo rozdělení (4). G rostoucí střední hodnotou gJ se dají pravděpodobnosti (4) dobře aproximovat normální hustotou tj\(£t*t£i,) - viz. obr. 12. 2 8. X t Studentovo a F - rozdělení Ve statistice hrají podstatnou roli náhodné proměnné, které jsou funkcemi normálně rozdělených náhodných veličin; ve statistické terminologii se označují jako výběrové rozděleni z normálního souboru. Uvedeme tři nejdůležitějáí. X - rozděleni (čti chi-kvadrét) má náhodné proměnná nabývající pouze kladných reálných hodnot s hustotou - 35 - P/2 exp(-x/2)> (1) 2P(n/2) n je celá kladná číslo, tzv. počet stupňa volnosti, funkce T je Eulerův integrál druhého druhu. Střední hodnota, disperze, asymetrie a exces: E(x)=n, D(x)=2n, ^-2^2/n , jr2-12/n. (2) Charakteristická funkce: 9((t) « (l-2it)-n/2 . (3> Rozdělení (1) má náhodné veličina x, která je součtem kvadrátů nezávislých proměnných x^,...,^, z nichř každá má standardní normální rozdělení N(0,1): 2 2 ■ * O tom se můžeme přesvědčit s dosti velkou námahou výpočtem hustot podle (2.7) a (3.23), elegantně pomocí charakteristických funkcí. Součet dvou nezávislých proměrortfch s X2 - rozdělením s n^ a stupni volnosti má rozdělení (1) s n*^*^. Pro velká n se (1) blíži normálnímu rozdělení N(n,2n), viz. obr. 14. Ještě rychleji se k normálnímu rozdělení bliží veličina fxt přičemž pro její hustotu platí g(^2x)já>N(V2n-l , 1) pro n£30. (5) Z přibližné formule (3.27) a z (2) vyjde střední hodnota Eív'Sxfctón a disperze Dťy^x) SfrD(x) (l/v7^)231!. Se střední hodnotou V^n-l je aproximace (5) lepSl. Studentovo t - rozděleni má náhodná proměnná nabývající reálných hodnot s hustotou f(t) - -p= rf-. (6) v/nlr í (n/2) n kde n je celé kladné číslo - počet stupňů volnosti. Práci o t-rozdělení publikoval v r. 1908 anglický statistik Gösset pod pseudonymem Student. Střední hodnota, disperze, asymetrie a exces: E(t)=0, D(t)» pro n?-2, J^-O, jf^-^-pro n>4. (7) Hustotu (6) má náhodná veličina x^ x o ^ _-—i__ t- -7=^=1 —f=S=-==- . (8) kde x a x jsou nezávislé, x mé standardní normální rozdělení a x rozdě-o o Obr. 14. Rozděleni X2 (plné čára) a normální rozdělení se stejnou střední hodnotou a disperzí (Čárkované Cárá). - 38 - lení X s n stupni volnosti (vztah (4)). Pro rozdělení s n=l se používá názvu Cauchyovo (§9). S rostoucím n se hustota (6) přibližuje ke standardnímu normálnímu rozdělení. Obvykle se t-rozdělenl nahrazuje normálním N(0,1) pro n£30. F - rozděleni je zobecněním předchozích dvou. Označuje se často také jako Fishero-vo-Snedecorovo nebo jen Snedecorovo, nebo jako rozdělení v . Hustota pravděpodobnosti je nenulová jen pro kladná hodnoty F: m/2 PoBÍSl) ^1 m+m f(F)-($ -2-F 2- .(1+-J-F) 2 , F>0. (9) P(») P(|-') Zde jsou m, m'celé kladné čísla - počty stupňů volnosti. Střední hodnota a disperze: Mi.-MLvro.;*, ,(,)■ *W«> pro ,.>4. " (10) m_2 m(m'-2K(m!-4) Hustotu (9) má náhodné veličina -^ 0.3 - 0.2 - 0.1 - 0.0 - ---" Obr. 15« t - rozdělení s různým počtem stupňů volnosti n a limitní normální rozdělení. f(x) 1.2 - 0.8 - 0.4 - 0.0 - Obr. 16. F - rozděleni s různým počtem stupňů volnosti m=m' (plná čára) a normální rozdělení se stejnou střední hodnotou a disperzi jako má F při m«m=50t t.j. N(1.04, 0.0925) (čárkované čára). - 40 - 9. Další modelová rozdělení, souvislost některých rozdělení Radu základních rozdělení popsaných v předchozích paragrafech doplníme několika dalšími užitečnými typy. Multinomická rozdělení má k-rozměrná diskrétní náhodné proměnná nabývající celých nezáporných hodnot rlf...,rk z rozmezí 0,1,...,N s pravděpodobnostmi P(rl.....rk> = r^.ľlv Pl1-"^ ' (1) Přitom jsou parametry p^t.-.tP^ nezáporná reálná čísla takové, že p^+..+P]c=l. Střední hodnoty a disperze jsou Eí^) = NPi , Ľ(rt) = Npi(l-pi) , (2) smíšené druhé momenty a korelační koeficienty Dí^.r^) ■ -NpiP;j , ?ij = -^PiPj/d-PiHl-Pj) proijtj. (3) Je to zobecnění binomického rozdělení na případ, kdy má pokus více než dva možné výsledky. Vztah (1) udává pravděpodobnost, že dostaneme q výsledků typu i v N nezávislých pokusech, když p^ je pravděpodobnost výsledku typu i v jednom pokusu. Multinomická rozdělení popisuje například četnosti v k sloupcích histogramu s celkovým počtem událostí N. Korelační koeficienty (3) jsou záporné, zvětšení počtu v jednom sloupku vede k pravděpodobnému zmenšení počtu v kterémkoliv jiném sloupku histogramu. Pře velký počet k jsou pravděpodobnosti malé; p-<. <5> Střední hodnota, disperze, asymetrie a exces: E(x) = (a+b)/2 , D(x) = (b-a)2/12 , ^=0, j£=-1.2. (6) Charakteristické funkce: Y,^ sinh[it(b-a)/2l it(b+a) (7) ÄU) =-it(b-a) 2 Rovnoměrné rozdělení může popisovat například chyby, vznikající zaokrouh-^pyéním čísel. - 41 - Beta - rozdelení má spojitá náhodná proměnná s hodnotami z^0,1^ s hustotou kde n,m jsou parametry (celá kladná. Čísla). Střední hodnota a .disperze: ----- _ c E<*> = -dfe-. E(*> " . .a" .. > (9) (m+n) (m+n+1) ■ asymetrie a exces: ^ _ 2(n-m)Vm+n+l ^ . 3(nH-n-t-l)C2(m»n)2->-mn(iiH-n-6)3 _j ^1Qj fll ^mň" (m+n+2) ' *2 mn(m+n+2)(m+n+3) Toto rozdělení se uplatňuje v případech proměnných ohraničených shora* i zdola. Zvléětnlm případem je. rovnoměrná rozděleni (m*n=l). Několik hustot typu (6) je nakresleno v obr. 17. Exponenciální rozděleni má spojitá náhodná proměnná nabývající kladných hodnot s hustotou f(x) =yexp(-i), x>0 , (11) kde f*>0 je reálný parametr. Střední hodnota, disperze, asymetrie a exces: E(x) =^w., D(x) = ^c2 , ^=2,^2=6. (12) Distribuční a charakteristická funkce: F(x) = l-expí-^) , X(t) = (l-tyct)"1. (13) Typické použití je následující: předpokládejme, že události vznikají náhodně s konstantní rychlostí (počtem za jednotku času) M• Pravděpodobnost vzniku N události za čas t je dána Poissonovým rozdělením (§7) se střední hodnotou ^t. Pravděpodobnost, že v intervalu <0,t> pozorujeme alespoň_____ jednu udélost^podle vztahu (7.4) rovna l-P(0)*l-exp(-vtXCast,během kterého zaregistrujeme alespoň jednu událost, je tedy náhodná proměnná s distribuční funkcí typu (13). Dvojné exponenciální (Lapiaceovo) rozděleni má proměnné nabývající libovolných hodnot s hustotou f(x) *-|-exp(-?i|x-/4), "(14) A>0, p. jsou reálné parametry. Střední hodnota, disperze, asymetrie a exces: E(x)=^, D(x)=2/?\2 , f^O , f2=3 . (15) Pro velké Ixl ubývá hustota (14) pomaleji než pro normální, ale rychleji mež pro Cauchyovo rozdělení (19). - 42 - i-1-1-1-1—"—i-1-1-1-1-r j_i_i_i_i_i_i_i_i_i_l 0.0 0.2 0.4 0.6 0.6 1.0 x Obr. 17. Hustoty beta-rozdělení s různými parametry n,m. i-1-1-1-1-r---r Obr. 18. Hustoty gama-rozdôlení s různými hodnotami a=h, plné normélní rozdelení N(1,1/16), Čárkované čára. - 43 - Gama - rozděleni je zadáno hustotou kb-l f(x) = *(a*>r~b**P<-a*> ,^>0, (16) kde a,b jsou reálné kladné parametry. Střední hodnota, disperze, asymetrie a exces: Eíx)=b/a, D(x)=b/a2, Jf^/vb", jf2=6/b. (17) Charakteristická funkce: X(t)=(l-it/a)"b. (18) Toto rozdělení je užitečné v případě proměnných ohraničených shora nebo . zdola. Zvláštním případem je exponenciální (b=l) a 7(2 - rozděleni (a=l/2, b přirozené). Součet n nezávislých náhodných proměnných s exponenciálním rozdělením (11) má gama-rozdělení s b=n, a=i/£u. Hodnota parametru a ovlivňuje pouze měřítko promSnné. S rostoucími hodnotami a,b se při a=b rozdělení (16) rychle přibližuje normálnímu N(l,l/a). V obrázku 18 je nakresleno několik hustot (16); křivka s a=b=l je hustota exponenciálního rozdělení (11) se střední hodnotou £1=1. C^uch;'"-vo rozdíleni mé spojitá náhodná proměnné, nabývající libovolných reálných hodnot 6 hu3totou a charakteristickou funkci f(x) =^—V. * **(a,b>( í21) P - 44 - kde jsme distribuční funkci příslušnou k hustotě f(x) označili jako F(x). Souvislost některých modelových rozděleni V obrázku 20 je schematicky vyznačena souvislost vybraných modelových rozdělení. Pro některé hodnoty parametrů, většinou v asymptotická limitě, přechází řada rozdělení y jiný typ. Centrální postavení normálního rozdělení v tomto schématu je jedním z důvodů jeho extrémní užitečnosti. f oo m, m Poissonovo n—»oo m, m* m=4 Studentovo n Obr. 20. Souvislost modelových rozdělení. - 45 - II. Odhad parametrů ■- " 10. i'etody statistického odhadu parametrů Ve velké většino případů je cílem měření určit hodnoty neznámých ve-lvčin, které budeme označovat jako parametry. Někdy je cíl jiný, totiž popouzení správnosti jedné nebo několika hypotéz; v takové situaci se pouzí yn,-"í statistické metody testů hypotéz, kterými ,s e budeme stručně za-bývet v části III. V úloze určení hodnot parametrů z naměřených dat budeme rozlišovat dvě možnosti - přímá a nepřímé měření. V prvním případě je měřeným údajem přímo hodnota hledaného parametru, v druhém je souvislost měřených dat s hledanými parametry vyjádřena zadaným funkčním vztahem, tzv. modelem. Přímé měření můžeme samozřejmě chápat jako triviální případ měření nepřímého,. Odlišujeme je kvůli jednoduchosti, ve které vynikne podstata statistických metod. Výsledky měření jsou hodnotami náhodných proměnných, aí v důsledku náhodných chyb v procesu měření nebo proto, že se samotný studovaný objekt řídí pouze pravděpodobnostními zákony. Hodnota parametru odhadnutá z měření je tedy také náhodné a nejúplnějšl možná informace o ní je joji rozdelení. Budeme co nejdůsledněji používat statistický termín odhad parametru místo běžnějšího "určení" (nebo "změření"), protože vyjadřuje tuto podstatnou okolnost. Pro označení odhadu parametru O" budene užívat A symbolu Z jednoho souboru naměřených dat je obvykle možné sestrojit mnoho různých odhadů hledaného parametru. Odhad je funkcí naměřených hodnot, která se ve. statistické terminologii označuje jako "statistika" (tohoto termínu užívat nebudeme). Z různých možností je třeba vybrat nejvhodněj-íí, snlňující řadu přirozených požadavků. Základní vlastností by něla být tzv. konzistence. Metoda odhadu se označuje jako konzistentní, konvergu-jí-li odhady ke skutečné hodnotě parametru při zvětšování počtu měření. Konzistence odhadu zaručuje, že s pomocí dostatečně velkého počtu měření dokážeme "lokalizovat" neznámý parametr s libovolně velkou přesností. Například zákon velkých čísel (§5) říká, že aritmetický průměr je konzistentním odhadem střední hodnoty. Další potřebnou vlastností dobré metody odhadu je nestrannoat. 03had 9 parametru ôq je nestranný (nevychýlený), jestliže jeho střední hodnota j--.' vždy (rozumí se při každém počtu n naměřených údajů) rovna ©• : E(e)-eQ = E(S-e0) = o. (i) •nzistence a nestrannost jsou schematicky znázorněny v obr. 21. Je třeba j. uvědomit, Se zúžení hustoty f(&) při zvětšení počtu měření neznamená, >e konkrétní hodnota konzistentního odhadu £ musí být blíž ke skutečné hodnotě O , zvětší se pouze pravděpodobnost; že se to stane. konzistentní nevychýlený konzistentní nekonzistentní vychýleny vychýlený f(8) Wn,>n, Obr. 21. Hustoty pravděpodobnosti odhadu 8 pro různá počty N měřených údajů. ^ Je-li 0 nevychýleným odhadem QQf neznamená to ještě, že nevychýleným odhadem nějaké funkce h(8rt) je h(8). Například, mé-li 8 standardní norrcální rozděleni, tedy střední hodnotu nula, má kvadrát (802 rozdělení ne střední hodnotou 1 (srovnej hustoty v obr. 4 a 10). Pro střední hodnotu kvadrátu dostaneme z (3.4) EC92) = [E(©)]2 + D(8), (2) odchylka od kvadrátu střední hodnoty je rovna disperzi D(8), Při zužování rozdělení konzistentního odhadu s rostoucím počtem měření se vychýle-noat odhadu h(8) zmenšuje. Uplatňuje se totiž pouze malá oblast argumentů, ve které sě dá funkce h aproximovat lineárně (viz (3.27)). Efektivnost odhadu Výhodné jsou taková odhady, jejichž rozdělení kolem hledaná hodnoty a a je co nejužšl. Vhodnou mírou šířky rozděleni 8 je disperze D(8); k hodnocení efektivnosti používáme podíl Dmin/D(8), kde Dmin je nejmenší mož^ ná disperze mezi všemi odhady. Obvykle se daří celkem snadno najít asymptotickou efektivnost v limitě N>oo(N *je- počet změřených údajů). Je-li A. A D(8)=D . t označuje se 8 krátce jako efektivní odhad, min Odhad intervalem á oblasti hodnot Ustálenou formou udávání výsledků měření jsou intervalové odhady. Namísto jedné hodnoty © (to je tzv. bodový odhad) je odhad parametru vyjádřen intervalem (8^9^), k-terý se zadanou pravděpodobností P obsahuje hledanou hodnotu 8Q* To znamená, že při opakováni celého měření sice budou vycházet různé intervaly, ale zhruba v n-P případech z celkového počtu r. bude hledané hodnota uvnitř intervalu. Pro zadané P lze najít více intervalů s touto vlastnosti * je třeba vybrat optimální - to je nejčastěji interval nejmenší dólKy(pro "nejpřesnějol" iojcalizaci" neznámé hodnoty). - 47 - Takto vybranému intervalu se ve statistice říká konfidenčni interval s pravděpodobnostním obsahem P, nebo interval spolehlivosti. x*ozcLěl6ni Intervalový odhad je zpravidla založen na znalosti^bodového odhadu Ô. Velmi častý je případ, kdy mé 6 normální rozdělení se známou disperzi 6; zápisem rozumíme interval (8-6", évo), který má podle (4.6) pravděpodobnostní obsah P=0.683. Je to tzv. interval s jednou standardní odchylkou. Pravděpodobnostní obsah 0.683 udávaných intervalů by měl být dodržován a v případě, že je jiný, měl by být uveden spolu r intervalem. Hodnota P=0.683 nemá jiné oprávnění než tradici a souvislost se standardní odchylkou normálního rozdělení. Podobno interval ©±26", podle (4.6) s P=0.954, se často u-vádi jako výsledek měření - v případě, kdy chceme standardní pravděpodobnost 0.683 zvětšit. Mezi délkou intervalu a jeho pravděpodobnostním obsahem je třeba vybrat rozumný kompromis. Odhadujeme-li několik parametrů současně, udáváme oblast hodnot, které se zadanou pravděpodobností obsahuje hledaný bod prostoru parametrů. V následujících odstavcích se budeme hledáním takových intervalů a oblastí několikrát zabývat. Z běžných metod odhadu vybereme dvě nedůležitějšl, které zpravidla dávají výsledky s požadovanými vlastnostmi (konzistence, efektivnost). Protože v tomto miste chceme vysvětlit podstatné myšlenky metod, budeme hovořit o jednom parametru; technické detaily postupu s větším počtem parametrů jsou v následujících odstavcích (zejména §§ 15-17). Metoda maximální věrohodnosti Předpokládejme, Že nezávislá naměřené hodnoty y^,...,yN jaou náhodné čísla popsané hustotami f(y^J©), závislými na hledaném parametru 9. Odhad je možné založit na principu maximální všrohodnoti - najít ho tak, aby s hodnotou 9 byla naměřené data pravděpodobnější než a jinými hodnotami Ô. Hustota pravděpodobnosti N-tice nezávislých náhodných proměnných je rovna součinu jednotlivých hustot: N L(yr..-.yNle> - Qfíyjo). (3) Při dosazení naměřených hodnot y^ je L funkci 9, pro kterou zavedl Fisher označení funkce věrohodnosti a použil ji Tc formulaci metody maximální věrohodnosti: pro hodnotu & má L(0) maximum. Je nutné si uvědomit, že proměnná & není náhodná; zacházíme s ni tak, že zkoušíme, jak velkou věrohodnost L maji její možné hodnoty a pro odhad vybíráme bod maxima, ô už ovšem je náhodnou proměnnou, protože při opakováni měření vyjde jiné N-tice yi a tedy i jiné funkce L(9). Podmínku maxima L můžeme zapsat jako podaínku caxima lo^ritrsu L, - 48 - (L a lnL mají extrémy ve stejných bodech): N lnL » ^2 In fíy^e). (4) Věrohodnost maže mít několik maxim. Dé se ukázat, že právě jedno z nich dává konzistentní odhad a v asymptotické limitě N->oo je to maximum absolutní. Pro konečné N je však výběr správného maxima v "patologických" případech (maxim je víc než jedno) problematický; obvykle je třeba hledat další informace o měřeném objektu. Všechny vídaje potřebné k určení rozdělení odhadu © jsou obsaženy v hustotách f(y^l©); zdůrazníme ještě jednou, že funkce věrohodnosti L(0) není hustotou pravděpodobnosti odhadu ©. Prakticky se hustota © dá najít v některých jednoduchých a přitom důležitých případech. V následujících odstavcích uvidíme, že odhady mají typicky rozdělení normální nebo blízké k normálnímu. Obecně je hledání hustot odhadů značně obtížné, funkční závislost 6 na měřených datech y^ je dána pouze implicitně - podmínkou maxima věrohodnosti. Potěšitelné je zjednodušení pro N-^oo • za velmi obecných podmínek mají odhady, díky platnosti centrální limitní věty, normální rozdělení. Pro disperzi 0 vychází v limitě jednoduché formule „(&) - ( -fiSi)"1 *92 ; (5) a 0=0 je to zároveň minimální možné hodnota disperze. Odhad metodou maximální věrohodnosti je asymptoticky efektivní. Metoda nejmenšich čtverců Abychom mohli použít, metodu maximální věrohodnosti, musíme znát rozdělení měřených hodnot v závislosti na odhadovaném parametru. V metodě nejmenšich čtverců stačí znalost závislosti středních hodnot E(y. \0) a disperzí D(y^| Ô) na parametru 0. Odhad 0 hledáme, za předpokladu nezávislosti naměřených y^, z podmínky minima součtu čtverců odchylek Vybíráme tedy takovou hodnotu, pro kterou jsou očekávané (modelové) střední hodnoty co nejblíže naměřeným y^. Přitom počítame s tím, že pro hledanou hodnotu 0Q budou odchylky y^-E(y^|0o) zpravidla tím větší, čím větší je disperze y^. Proto jsou v sumě (6) kvadráty odchylek násobeny tzv. vahou l/Diy^Q)* Clm větší je disperze i-tého bodu, tím menší je jeho vána a relativní příspěvek do součtu; podmínka minima S povoluje v tomto bodě větší odchylku. Naopak, modelové a naměřená hodnota s malou disperzí musí být blízké; velké váha v součtu čtverou ovlivňuje výběr odhadu v tomto směru. - 49 - Odhad 6 se nezmění, naaobíme-li všechny členy v součtu (6) stejnou konstantou. To znamená, Že není třeba znát všechny disperze D.(y^l8), stačí jejich relativní velikosti. Jsou-li všechny D(y.,|9) stejné a nezávislé na 9, neuplatní se v odhadu 8 z nejmenších čtverců vůbec; potom hledáme minimum sumy S = fzíVi-Eíy.I e)]2 = Qyi-fiíe)]2 • . (7) i=l J i=l Zde jsme zavedli nové označeni f^(8) pro funkční závislost iAté hodnoty modelu měřených hodnot na parametru. Takový zápis je běžný v situaci, kdy měřené hodnoty y^ jsou součtem yi = f^ej+e. (8) hodnot modelu a náhodné chyby s nulovou střední hodnotou. Často jsou měřené iídaje získány při různých (známých) hodnotách nějakého parametru x, což zapíšeme symbolicky jako yt » fťx^G) + &i. (9) Pozoruhodné vlastnosti mé odhad metodou nejmenších čtverců v připa-dě lineárního modelu, kdy Eíy^J©) lineární funkcí 6 a D(yi| e) na 8 nezávisí »■ Především jsou odhady z minima S lineárními funkcemi y^, jsou nevychýlené při libovolném N a maji minimální disperzi ze všech možných nevychýlených lineárních odhadů (Gaussova-Markova věta). Tyto vlastnosti nezávisí na rozdělení dat, jsou dány pouze linearitou modelu. Rozděleni dat Maji-li měřené hodnoty y^ normálni rozdělení (4.1) se středními hodnotami f. (&) a disperzemi 6? nezávislými na 0, vyjde velmi jednoduché souvislost logaritmu věrohodnosti (4) a součtu Čtverců (6): n m. ry--f-(e)l2 i_ "\ c n ,— InL = -J_ _ inC^Ťfg^U j-ín^/Sř^). (11) i=l l 2 62 J 2 i=1 • Protože druhý Člen na pravé strano (11) na © nezávisí, maximum věrohodnosti L nastává pro tutéž hodnotu 8 jako minimum součtu čtverců S. Obě metody odhadu jsou v tomto případě ekvivalentní. Data, které mají přibližně normální rozděleni, se prakticky vyskytují velmi často; jejich zpracování budeme věnovat největší pozornost. Je-li rozděleni jiné a přitom známé, jé obvykle výhodné využít metodu maximální - 50 - věrohodnosti. S odhadem parametru z dat s rozdělením jiným než normálním se setkáme v §§ 13-15« V případě neznámého rozdělení dat je zpravidla preferována metoda nejmenšlch čtverců, díky jejím optimálním vlastnostem pro lineární modely (nezávisle na rozdělení). Formulace odhadu je jednoduchá a názorná, což jistě přispívá k popularitě táto metody; používá se velmi často pro nelineární metody, kdy už diskutované optimální vlastnosti nemá. Volba metody odhadu by měla být adekvátní důležitosti řešeného problému a náročnosti experimentální práce. Bylo by nesmyslné znehodnotit výsledky obtížných měření na. drahých aparaturách jednoduchou neefektivní me-. todou. Na druhé straně je v mnoha situacích hledaní optimální metody nepřiměřeně náročné, mnohem výhodnější může být použití málo efektivní metody s tím, že potřebnou přesnost zajistíme třeba opakováním měření. Poznámka o inverzní pravděpodobnosti V předchozích úvahách jsme hledaný parametr 9Q považovali za pevnou, i když neznámou, charakteristiku měřeného objektu, které se projeví v rozdělení odhadu 9. Pomocí symbolu podmíněné pravděpodobnosti (§1) označíme hustotu odhadu f(9j9Q). Fakt, že různé hodnoty 6Q vedou k různým rozděle- lením odhadu umožňuje formulaci pravděpodobnostních závěrů o souvislosti hodnoty 9 získané z konkrétního měření s hledaným 9Q. 0 problému hledání 9Q se dá hovořit úplně jiným způsobem: pozorované hodnota 8* specifikuje, které z možných hodnot 9Q jsou více a které méně pravděpodobné. Tento pohled na problém odhadu je vyjádřen zavedením rozdělení p(8o|0), ve kterém je 6. proměnnou a 9 podmínkou (obráceně, než v hořejší hustotě f(9j9Q)). Pravděpodobnosti p se označují jako inverzní. Použití pojmu inverzní pravděpodobnosti může být velmi přitažlivé; otázka "jaké je pravděpodobnost toho, že skutečná hodnota je 0O, když z měření a a vychází 9?" se zdá být položena správně. Manipulace s p(9Q|9) je založena na Bayesově teorému (1.10), přesněji řečeno na jistém způsobu jeho interpretace. Nebudeme se tímto problémem zabývat, odkážeme pouze na podrobnou a zajímavou diskusi v knize [ľi]. Přidržíme se běžného chápání odhadované veličiny jako neznámé konstanty a inverzní pravděpodobnost p(90|8) používat nebudeme. 11. Příklad měřeni časového intervalu Ukážeme, jak se dají prostředky teorie pravděpodobnosti a matematické statistiky použít v konkrétním případě - při zpracování dat získaných ručním měřením známého časového intervalu tQ=2s z příkladu v § 2. Celý po stup založíme na předpokladu, že se rozdělení naměřených hodnot dá dobře aproximovat normální hustotou; k posouzení vhodnosti této aproximace se vrátíme na konci tohoto paragrafu. Vše co se dá říci o četnostech možných výsledků měření je tedy obsaženo ve dvou parametrech normálního rozdělení - 51 - f (t^ -exp - 1 0 . (1) L 262 J Střední hodnota je rovna hledané veličině tQ a disperze S (nebo standardní odchylka6) charakterizuje chyby měřeni. Zapomeňme na chvíli, že střední hodnotu tQ známe; naSím úkolem je odhadnout tQ a G z naměřených hodnot t-^i-l,... ,200. Ptáme ee: která Čísla t a €> v normálním rozdělení nejlépe souhlasí s tím, co jsme ve dvou stech měření zaregistrovali? Nejlepäl dosud známá odpověa na tuto otázku je ta, Že je třeba parametry najít tak, aby e nimi byla právě tato naměřené data nejvěrohodnější (§ 10). Protože předpokládáme nezávislost jednotlivých t^, je hustota pravděpodobnosti N-tice výsledků rovna součinu hustot (1) N -i T (t.-t )2 1 L = ( [ —exp - ——2- . (2) Maximum věrohodnosti L najdeme nejlépe jako maximum funkce lnUt , 62> - - J" (W .1 je veličina - 52 - í=l pro větší N je ovšem rozdíl mezi odhady (4) a (4a) nepodstatný. a Znalost rozděleni t a S umožňuje zformulovat výsledek měření, to- w tíž pravděpodobnostní závěry o souvislosti tA s hledanou hodnotou t . Né- hodné proměnné ř,t'0.kt>] - P(|^ i=l L 262 1 J a Maximum funkce věrohodnosti L nastane pro takové 8»0f, pro které je-lnL (neboli suma čtverců odchylek) minimální; z podmínky dlnL/d9=0 vychází i=l 1 Odhadem 9 metodou maximální věrohodnosti nebo nejmenšich čtverců je vá- o a žená střední hodnota všech dílčích výsledků. Rozdělení 9 je podle (4.8) normální se střední hodnotou a disperzí E (0) = 9 , D(0) = FT N (5) (Hw. )2 Zľw. i-1 1 i=l 1 Odhad 0Ä intervalem při známém € _Q__-— Známe-li hodnotu o', můžeme využít vztahu (5) k určení intervalu, který obsahuje 9. se zadanou pravděpodobností. Nejkrfctší z takových intervalů A 0 A r- má střed v Označíme standardní odchylku rozdělení Q symbolem d, tedy podle (5) _ / N ^~ (6) S použitím distribuční funkce (4.5) normálního rozdělení můžeme vyjádřit a. r pravděpodobnost, Že 0 leží v intervalu 0-ko: a p[eoe(^-ko", 0>kS)] = Píl"^2-^) *$(k)-$(-k) = 2$(k)-i. (7) K požadované pravděpodobnosti P tedy najdeme potřebný násobek k standardní odchylky o". Pokud k intervalovému odhadu nepodáme jiné vysvětlení, měl by mít pravděpodobnostní obsah P=0.683 a tedy k=l (interval ©£S); interval &2Ž mé P=0.954, viz (4.6). o Odhad neznámé hodnoty 6 Pokud disperzi pro jednotkovou váhu neznáme, můžeme ji odhadnout opět z podmínky maxima věrohodnosti L, čili ^lnL/3(62) = 0. Ze vztahu (3) vyjde N G2 = -^-21 w.íy.-S,)2 - (8) fc2 je ovšem náhodná veličina. Dá se dokázat, že má X2 rozděleni s N-l stupněm volnosti; lze ji vyjádřit jako součet N-l kvadrátů nezávislých lineárních kombinací jednotlivých y., z nichž každé má střední hodnotu nu-la a disperzi 1. Dvojice y^-Q* y..-6» nezávislé nejsou, každá y^»... ,yjj vy- A stupuje ve vztahu (4) pro 8^ Odhad (8) je vychýlený, protože jeho střední hodnota není rovna odhadovanému 6 : E(62) = (62/N)E(N?/62)= 62(N-1)/N<62. Nevychýlený odhad tedy může být i=l není to už ale odhad nejvěrohodnějšl. (N-l)6 /ť> má rozděleni XN_^f pro větší N je rozdíl mezi odhady (8) a (8a) nepodstatný. Znalost rozdělení ■^2 ^2' " 2 proměnných 6 resp. 6" umožňuje formulaci intervalových odhadů hodnoty 6 a a s předepsaným pravděpodobnostním obsahem (odhadnout * chybu 6"(C) chyby Cř"). K tomu stačí využít distribuční funkce rozdelení XN_^» Odhad 9Q intervalem hodnot při neznámém o Je-li hodnota 6 neznámá a odhadujeme ji z naměřených dat, je konstrukce intervalového odhadu pro 6» o něco složitější než v předchozím případě (7). Využijeme faktu, že podíl (§r9o)/Ví(i) (9) ^N^/fríN-l)] ^Nř/pN-l)^wiJ má Studentovo rozdělení s N-l stupněm volnosti (§ 8). S označením jí£t- ■/ 1 j. £wl(yi4>č do). (N-DZIwí V (N-lJZľw. .fcj i=l 1 1 i=l 1 ■ dostaneme pravděpodobnost p[eoÉ(©-k£,ě>kŠ)j = P(|^a| * ffigwiiWN^) . D<«2> - 24N(N"1)2-. (13) 1 (N-2)(N+l)(N+3) 62 (N-3)(N-2)(N+3)(lH-5) rozděleni g1 a g2 jsou asymptoticky normální. Vyjdou-li hodnoty (12) daleko od nuly, máme podezření, že rozdělení dat normální není. Výsledek Ig^l^j 2^[D(g1) nebo|g^2^ĎTg^T většinou považujeme za významný nesouhlas a předpokladem, protože takový případ nastává při normálně rozdělených datech zřídka (méně jak v 5% případů). Nápadně vybočující hodnoty Velmi často se stane, že odchylku od očekávaného rozdělení dat způsobuješ jedna nebo několik málo nápadně velkých nebo malých hodnot. Jejich přítomnost bývá způsobena nežádoucími vlivy při měření, jako je chybný zápis údaje nebo náhodné krátkodobé porucha měřicí aparatury. Je možná nepádně vybočující data vynechat a tím měření "zachránit". Přitom je třeba postupovat velmi opatrně a s uvážením možných příčin vybočení, protože vynechání dat, které do souboru patří, je rovněž nežádoucí. Rozhodující je znalost konkrétního procesu měření, statistika může poskytnout pomocná kriteria pro vyloučeni nečekaně velkých nebo malých hodnot. Pro údaje y^-.-^jj s normálním rozdělením (1) se dá snadno najít rozdělení maximální hodnoty y__ . Pro jednoduchost zápisu dvou následují- cích formulí položíme 0^=0 a 62=1; pro každé y platí - 61 10 100 1000 N Obr. 27. Sešenl m rovnice (12,16) v závislosti na pofitu N normálnS rozdělených hodnot; p je pravděpodobnost, Že ymax>00+m6' Píymax..* P4 je malé0 Vrátí- me-li se ke střední hodnotě ©0 a disperzi 6*^ v rozdělení {!), dostaneme ze (14) pravděpodobnost -P ( yi"8°) >m I « 1 - 2>N(m) (16) -m I ■ 1 -£N(m) max toho, že odchylka y^ od ©Q překročí m-néaobek standardní odchylky 6°^u Pro tři malé hodnoty p je v obr„ 27 nakreslena závislost m na N. Je vidět0 Se v odůvodněných případech můžeme vynechat takové hodnoty y,, které jsou _ A o 3-až 4- násobek větší než odhad QQ (počítaný ovšem bez vynechávaných hodnot); pravděpodobnost, že do souboru patří je velmi malá0 Stejně ee <3a-jí posuzovat nápadně malé hodnoty - menší o m- násobek 6^ než 8^c 13« Příklad měření doby života částice Nestabilní částice mají omezenou dobu života - rozpadají se. Rozpad je náhodným jevem, který se dá dobře popsat exponenciálním rozdělením (§9)a f(t) = -~exp (™) . (1) ^-o f(t) je hustota pravděpodobnosti, že doba které uplyne mezi vznikem a rozpadem částice je t. Celý proces je popsán jedinou konstantou T0„ které říkáme doba života. Je to střední hodnota rozdělení (1), která zároveň určuje i disperzi (viz(9«12)): E(t) » T D(t) = t2 . (2) o * o život částic můžeme pozorovat pomocí etopy v registračním zařízení, stopa začíná v místě vzniku a končí v místě rozpadu. Dokážeme-li určit rychlost pohybu každé Částice, můžeme z délky etopy vypočíst dobu mezi VBn};J|Ja8eBe Předpokládejme, že jsme sledovali N Částic a získali N-tici nezávislých hodnot t^,P..tN. I když se nám podařilo potlačit náhodná chyby v - 63 - procesu měření na zanedbatelnou úroveň, jsou t^ náhodné čísla s rozdělením (1). Studujeme náhodný jev; cílem měření je určení konstanty^, jejíž hodnota umožňuje předpovídat pravděpodobnosti prostřednictvím hustoty (1). Optimální odhad VQ dostaneme z maxima věrohodnosti (10.3) naměřených nezávislých t^i L«y - H iexp (--L> , i=l % \ (3) neboli z maxima funkce ^=1 InL '^Žl ti + Nln% (4) A Maximum nastává pro hodnotu V*V . pro kterou 3(lnL)/9T5I 0: a ! N % mirZlxr i=l NejvěrohodnějSím odhadem je aritmetický průměr naměřených časů. Náhodná proměnná Nt£ má gama - rozdělení (9.16) s parametry b»N, a*l/t^. Střední hodnota a disperze odhadu jsou i=l N i-o N N Odhad (5) je konzistentní a nevychýlený; jeho rozdělení je asymptoticky normální. Skutečné měření dob života částic vyžaduje mohutné experimentální zařízení. My se spokojíme se simulací pomocí počítače. Vhodným programem generujeme N-tice pseudonáhodných čísel x^ s rovnoměrným rozdělením g(x^j»l pro x^€(0,l). Transformací tA » -rolnxi (7) dostaneme pseudonáhodné čísla s hustotou (1), což snadno ověříme'pomocí' (2.5)» Protože na volbě jednotek času v našem simulovaném experimentu nezáleží, použijeme ^0=1» Budeme sledovat výsledky odhadu (5) pro různé počty "naměřených" hodnot N«8,16,32,...,2048. Výsledky jsou graficky znázorněny v obr. 28 ve tvaru intervalových odhadů V - o , kde střední kvadratická odchylka podle (6) je £»TT Vidíme, jak se s rostoucím N zkracují intervaly (velmi pomalu, jako 1/^N). Pravděpodobnost, že obsahují hledanou hodnotu KQ je blízké standardním 0.683. Ačkoliv maji data rozdělení (1) podstatně odlišné od normálního, rozdělení průměru (5) se podle centrální limitní věty normálnímu blíží, a to tím více, čím větší je N. I pro dosti malé N je aproximace normálním rozdělením dobré. Ukazuje to obr. 29, kde je empi- - 64 - Obr. 29o Empirická distribuční funkce odhadů doby života částice pro N-16, plné čéraj normální distribuční funkce N(l,l/16), čárkované čára. - 65 - rická distribuční funkce (viz(ll.lO)) průměrů e N»16, získané 128-nésob-ným opakováním pokusu. Hustoty gama - rozdělení průměru (5) a aproximativ-ního normálního rozdělení můžeme pro N=16 porovnat v obr. 18. 14. Odhad polohy symetrického rozdělení Nejběžnějším odhadem polohy rozděleni náhodné proměnné x je aritmetický průměr "5 =-y[-(x1+...+xN) (1) naměřených dat (polohu nejčastěji charakterizujeme střední hodnotou, můžeme váak použít třeba medián nebo modu (§ 3)). Jsou k tomu dva podstatné důvody. PředevSím je průměr optimální v případě normálně rozdělených dat (má minimální disperzi). Za druhé, zákon velkých čísel (5.5) zaručuje asymptotické (N-^oo) přiblížení k hledané hodnotě pro libovolné rozdělení, které mé konečnou disperzi D(x). Pokud E(x) a D(x) neexistují (třeba pro důležité Cauchyovo rozdělení), nelze průměr x* vůbec použit; není-li rozdělení x normální, existují účinnější odhady. Zamoříme se na několik jednoduchých symetrických modelových rozdělení z § 9. Optimální odhady (s nejmenší disperzí) dostaneme metodou maximální věrohodnosti: rozdělení optimální odhad polohy (a) normální (b) rovnoměrné (c) dvojné exponenciální (d) Cauchyovo aritmetický průměr "x poloviční suma krajních hodnot x medián *x z podmínky maxima věrohodnosti (řešení nelineární rovnice) V případě Cauchyova rozdělení (odhadujeme xQ ze vztahu (9.20)) je třeba řešit nelineární rovnici a výsledek nemůžeme zapsat tak obecně, jako pro. zbylá rozdělení. Medián v (c) znamená takovou hodnotu, pro kterou je minimální suma si * vx +...+lxN-x (2) Kvantitativní srovnáni efektivnosti jednotlivých odhadů je možné provést v limitě N-ýOO tak, že spočteme jejich disperze (za předpokladu D(x)=l): rozdělení medián průměr polosuma krajních hodnot x (a) normální (b) rovnoměrné (c) dvojné exponenciální (d) Cauchyovo 1T/(2N) 1/(4N) 1/(2N) ir2/UN) 1/N TI2/(12 InN) 1/(2N2) ir2/i2 1/(12N) 2/N oo Podtržením jsou označeny nejmenší možné disperze, viz první tabulku v - 66 - touto odstavci. Poloviční součet krajních hodnot pro rovnomerné rozdelení je asymptoticky velmi účinný (kvadratický pokles disperze a»it2, v ostatních případech nejvýSe**N~*)• Pro libovolné ohraničená rozdelení budou v odhadech hrát důležitou roli krajní hodnoty. Pokud rozdelení dat neznáme, snažíme se najít odhad polohy, který bude co nejefektivnějdi pro více druhů rozděleni. Jednou z možností je tzv. vyrovnaný průměr. Z N-tice x^,...,^ vynecháme m hodnot, zpravidla m/2 největoích a m/2 néjmenSích a polohu odhadujeme aritmetickým průměrem zbylých N-m údajů: 1 N-m/2 V. =T^iT 5Z x(i)> O) i«m/2+l kde jsme jako x(l),•..,x(N) označili nemařená data uspořádaná podle velikosti. Volba m*0 znamená průměr "x; při m«N-l pro N liché, resp. m=»N-2 pro N sudé, je vyrovnaný průměr (3) roven mediánu *x. Volbou m v daném rozmezí dostáváme odhady, které jsou jistým kompromisem mezi vlastnostmi x a *x. Pozoruhodný je fakt, že pro m»0.54N je v asymptotické limitě disperze vyrovnaného průměru pro každé rozděleni z trojice - normální, dvojná exponenciální, Cauchyovo - pouze o necelou čtvrtinu větší než je disperze příslušného optimálního odhadu. Přiklad odhadu střední hodnoty rovnoměrného rozdělení Srovnáme podrobněji odhad polohy rovnoměrného rozdělení f(x) - 1, xé(-l/2, 1/2) (4) průměrem x a polovičním součtem krajních hodnot x naměřených nezávislých tídajů x^,»..,Xjy. Průměr má rozdělení blízké k normálnímu (§ 5, obr. 6) se středem O a disperzí 1/(12N). Rozdělení ? se dá nejsnáze najít z distribučních funkci Fťxjj) » (l/2+xM)N, Fťx^) = l-(l/2-x]n)N maxima xM a minima xB v N nezávislých pokusech. Výsledkem je symetrická hustota, tvořená polynomy stupně 2N-1 v intervalech (-1,0) a (0,1). V obrázku 30 je nakreslena pro dvě hodnoty,N. Pro střední hodnotu a disperzi tohoto rozděle-J ní vyjde E(?) » O, D(x) » N/[2(N+l)2(N+2)]. (5) Rozděleni polosumy krajních hodnot je pro větší N užší než rozdělení průměrů (obr. 30). Ještě názorněji je vidět podstatně větší efektivnost odhadu pomocí ? v obr. 31. Tam jsou nakresleny intervalové odhady pro růz-r ný počet bodů v souboru dat, generovaném v počítači. S pomocí distribučních funkcí "x a ? byly intervaly zkonstruovány tak, aby měly standardní pravděpodobnostní obsah 68.3%. - 67 - -a. iE -0.05 0. 00 0. 05 0. 10 Obr. 30« Hustoty pravděpodobnosti polovičního součtu (plná čára) a průměru (čárkované (éra) z N hodnot s rovnoměrným rozdělením (14«4). A X r 2.30 b- 2. 10 h 1.90 h 1.70 h průměr x polosuma krajních hodnot 1.0 1.5 2.0 2.5 3.0 logN Obr. 31o Intervalové odhady polohy rovnoměrného rozdělení (soubor N hodnot generován v počítači) - 68 - Přiklad odhadu dvou parametra lineárního modelu Metody odhadu více parametrů budeme ilustrovat na dvojrozměrném případe, který je dostatečné obecný a přitom velmi aazorný. Předpokládejme, Se pro různá hodnoty nezávisle proměnné x míříme hodnoty závisle proměnné y" W2 • (D Závislost y(x) je určena dvojicí parametrů ao, bQ, které vystupují v modelu (1) lineárně; jejich hodnoty hledáme nepřímo z naměřených dvojic x, y* O linearitě modelu rozhoduje závislost na parametrech, nikoliv na nezávisle proměnné. Předpokládejme dóle„ Se nezávisle proměnnou můžeme určit přesně (nebo se zanedbatelnou chybou) a výsledkem měření je N hodnot proměnné y; yi * Wi+eif 1=1»"'-»N» " <2J pro N-tici pevných hodnot x^. Náhodné chyba i-té hodnoty (označili jsme ji C^) má symetrické rozděleni se střední hodnotou nula. Výsledky měřeni, t.j, N-tice hodnot (x^,y^), byly simulovány na počítači za pomoci generátoru pseudonáhodných čísel. Zvolili jsme aQ - 1, bQ = 2 , (3) ekvidistantní sít z intervalu <0,1^>: x. = (i-l)/(N-l), i-l,...,N, (4) a několik možností rozdělení chyb. Příklad takto generovaných "experimentální ch" dat ukazují křížky v obr. 32. Díky rychlosti počítače můžeme generování a zpracování dat mnohokrát opakovat a sledovat souvislost výsledků se správnými hodnotami (3). Normální rozděleni chyb Ukážeme podrobně výsledky výpočtů pro chyby rozdělené normálně se stejnou disperzí 62 pro vôechna Xi. Hustota pravděpodobnosti jednotli- 2 2 vých hodnot y^ je tedy normální se střední hodnotou "q+^x^ a disperzí 0*^ n ) = 1 «. f (yi-°-Vl)2 1 ^—5—j (5) Předpokládáme samozřejmě nezávislost naměřených hodnot y^ nejvěrohodněj-Sí odhad parametrů *0»b0 dostaneme z podmínky maxima logaritmu funkce věrohodnosti - 69 - Obr. 32. Závislost (1J.2) generovaná pro N-100 a normálně rozdělenou chybou se střední kvadratickou odchylkou €"»0,1 (křížky) a prolole-ná sávialoet e odhadem.parametrů (13a) (plná Sára). - 70 - i (y.-a—bx ) i-1 1 i»l 262 2 Maximum (6) vzhledem k a,b nastane právě tehdy, je-li minimální součet čtverců odchylek hodnot naměřených (y^) a předpovězených modelem (a+bxf): S -^(y^o-taf) • (7) i=l Z podmínky Ds/3a = *ds/9b = 0 vyjde soustava dvou lineárních rovnic (říká ee jim normální rovnice) pro hledané odhady a, b : i=l i=l i=l i=l i=l * Je-li determinant Boustavy i=l i=l i=l j=i+l nenulový (podle (9) k tomu stačí, aby v N-tici argumentů x^ byly alespoň dva různé), existuje právě jedno řešení. Můžeme je napsat explicitně: A a i=«i L j=i J i=i L j»i J 3=1 1=1 L 3' Odhady jsou lineárními kombinacemi normálně rozdělených naměřených hodnot y^ - mají tedy také normální rozdělení. Přímým výpočtem můžeme najít střední hodnoty a druhé momenty; s pomocí (3.18) dostáváme E(a) = a . E(b*) = b , o o' DÁ) =<02&) -4Exíf D(6> = G2(S) =G2f, D(a\í> =f(-;bx2)..(ll) d i=l 1 a a i=l 1 Tyužili jsme nezávislosti různých y^^ ... D(yi(y^) * *>2^íj» kde ^ij 3e Kro" neckerovo delta (jednička pro i=j, jinak nula). Odhady a, jsou vždy kore^ lované, protože D(á,^)^0. Korelační koeficient (12) závisí pouze na hodnotách x-^...,^. Stojí zato si všimnout, že matice druhých momentů (11) je až na faktor 62 rovna inverzní matici soustavy normálních rovnic (8). Je-li disperze jednotlivých hodnot y. známá, víme ___ a o odhadech a,b prostřednictvím (11) vše, co vědět můžeme. - 71 Výpočet e daty z obr* 32 vedl k néeledujícím hodnotámj ' a = 1.022, b * 1.971, (13a) S(a) - 0.0150, C($) = 0.0332» ^* - 0.743. (13b) Proložené závielost a+bx je nakreslena ;v obr. 32. Odhad eliptickou oblasti při známém €T Při opakovaném pokusu budou body (a,b) vycházet náhodné kolem středu (a0<1bo) » (1,2) s normální hustotou s parametry (13b). Analogií intervalového odhadu jednoho parametru je zde odhad pomocí oblasti, které obsahu*1 je hledané hodnoty e předepsanou pravděpodobností. Nejvýhodnějéí oblastí je vnitřek elipsy s konstantní hustotou (má při zadaném pravděpodobnostním1 obsahu minimální plochu, čímž nejlépe lokalizuje hledaný bod v rovinft parametru). Z § 6 víme, že konstrukce takové elipsy vyplývá ze znalosti rozdělení kovariačni formy normální hustoty. Kovariační forma pro proměn-* né a„£ se dá napsat ve tvaru 5 L i-i i-i j 0)» druhé se hodí pro řešení naší úlohy - elipsami kolem (a,^) se snažíme zasáhnout hledaný bod (aofbQ). Volbou konstanty /\ určujeme velikost elipsy a tím i její pravděpodobnostní obsah. Například A"1 znamená podle (14) elipsu t které je vepsané do obdélníka a-6*(£), btiTCo*) - viz obr, 33. Její prav-1 děpodobnostní obsah je asi 0.4 (hodnota distribuční funkce (15) ▼ bodě 1 ... tabulka v dodatku D2). Při 392-náeobném opakováni celého pokusu v počítači obsahovala elipsa J=1 bod (1,2) ve 164 případech, což je ve velmi dobré shodě e očekóvaným počtem 392x0.4»157. -Odhad disperze t> • Neznáme-li 62, můžeme ji odhadnout z naměřených dat. Z podmínky - 72 - maxima věrohodnosti vzhledem k 6 (nejlépe s pomoci (6).. .^InL/<>G£)«0) dostaneme odhad /, N 6*2=-^ 21 (yi-a-bx^2 = SG/N. (16) i=l Symbolem S jsme označili tzv. rezid- uálni sumu čtverců, t.j. hodnotu S ze vztahu (7) v bodě minima. Novo"2 de ná-1 hodné veličina s X rozdělením s počtem) stupňů volnosti rovným N-2 (dá se vyjádřit jako součet N-2 kvadrátů nezávislých proměnných s rozdělením N(0,1); jednotlivé sčítance v součtu (16) ne- i závislé nejsou!). Odhad (16) je vychýlený, protože jeho střední hodnota je Eíer: ) = (T(N-2)/Nf6 . Nevychýleným od- hadem Gr je 6*= SQ/(N-2). V našem případě (N=100) je rozdíl mezi G2 a S2* zanedbatelný; v pokusu, při kterém vy- Obr. 33. Elipsy j=1 s kovariačni formou \ podle (14), f »-0.74; obdélník šly odhady (13a) bylo 6 «0.0098 v dobré shodě se skutečnou disperzí dat 62 » 0.01. Odhad parametrů eliptickou oblasti při neznámé disperzi 6 Podíl N-2 T S0/(N-2) (17) na neznámé disperzi 6*2 nezávisí a mé podle (8.11) F-rozdělení s m=2, m1 =N-2 stupni volnosti. Vnitřek elipsy £=Ä má tedy pravděpodobnostní obsah roven hodnotě příslušné distribuční funkce v A: P(£ ="třf?' yi€(Vboxi-^. VVi*^' (23) které má podle (9.6) střední hodnotu %+b^ a disperzi £> . Ještě méně se normální hustotě podobá funkce ^^(y^-^xf+e^/ô) 9 3 Je to nesymetrické hustota, která má střední hodnotu a disperzi stejnou jako (23). Přitom má v levém krajním bodě povoleného intervalu singularitu. (Pseudo) náhodné čísla s rozdělením (23) a (24) se dají v počítači i snadno generovat. i Aby byl výpočet rychlejší, zvolíme menší počet bodů v závislosti (2): Na7. Budeme v každém pokusu konstruovat elipsy (20) s oblíbeným pravděpodobnostním obsahem 0.683 a 0.954 a sledovat počet případů, kdy v nich hledaný bod (1,2) leží. Při malém počtu stupňů volnosti m'= N-2 = 5 se P - roa1 dělení značně liší od limitního j\ , jak ukazují distribuční funkce v obr. >35« Odtud (nebo z tabulky D3) zjistíme, že pro dvě uvedené pravděpodobnosti musíme zvolit konstantu ^ ve (20) po řadě 1.46 a 6.C&6. V následující ta-f bulce jsou shrnuty výsledky simulovaných experimentů. menší elipsa (68,3%) větší elipsa (95,4%) pozorovaný počet úspěchů očekávaný int erval pozorovaný počet úspěchů očekávaný interval rozdělení dat počet pokusů normální (5) rovnoměrná (23) se singularitou (24) 500 6510 10000 353 4449 6794 341.5Í21 4446 -78 6830 ±96 476 6170 9327 477^ 9.4 6211±34 9540±42 "*6čet úspěchů je náhodná veličina s binomickým rozdělením, které se dá pro velký počet pokusů dobře aproximovat normální hustotou. Odtud jsme také určili intervaly, do kterých by měly pozorované počty padnout s pravděpo- - 76 - dobnosti 95.4% (- dvě standardní odchylky). Pro normálně rozdělená data v prvním řádku je vše v pořádku. Pozoruhodná je ovšem dobrá shoda pro obě další rozdělení. Jedině údaj pro větší elipsu v posledním řádku signalizuje závažný nesouhlas mezi pozorovaným a očekávaným údajem (liší se zhruba b 5 standardních odchylek). Na druhé straně je však většinou nepodstatné, Že místo 0.954 je pravděpodobnostní obsah odhadu pouze 0.93. Celkově můžeme zhodnotit funkci postupu odvozeného pro normálni rozdělení jako překvapivě dobrou. Předpověd" vlastností odhadů podle vztahů (10), (19) a (20) s testovacím rozdělením dat (23) a (24) by se dala provést přesně, byla by ale značně namáhavá. Použitelnost postupu můžeme vysvětlit v hrubých rysech pomocí centrální limitní věty - rozděleni odhadů (10) se blíži normálnímu i pro jiné rozděleni dat. Dobré funkce studovaného postupu zpracováni pro různá rozdělení je velmi vítané. Neznamená to ale, že by nemělo cenu hledat jiné postupy respektující zvláštnosti rozděleni dat; zpracování pak nuže být efektivnější (viz příklad odhadu polohy rovnoměrného rozdělení v § 14). 16. Odhad parametrů lineárního modelu Postup odhadu parametrů lineárního modelu, odvozený a ilustrovaný na .přikladu v § 15, zobecníme pro případ různých vah naměřených hodnot a libovolného počtu parametrů. Budeme používat maticové zápisy podle konvencí .použitých v § 6. Předpokládejme, Že hledáme hodnoty K parametrů d^,...,^ (uspořádáme Je do sloupcového vektoru 8 nebo po transpozici do řádkového vektoru .fi^aí©^,.... ,©K)). Měříme hodnoty y^^-jy^, které jsou lineárními funkcemi kde y je vektor s N složkami, _yT = (ylf..-,yN), £ je matice koeficientů s N řádky a K sloupci (stručně NxK). Abychom mohli odhadnout všechny parametry , musí být N>K; o matici £ předpokládáme, že má hodnost K. Obvykle dostáváme hodnoty měřením při různých (známých) hodnotách jiné proměnné x, na které y také závisí: y(x) = e1f1(x)+...+ÔKfK(x), (2) kde f. (x)t...ffyXx) jsou zadané lineárně nezávislé funkce. Model (2) je 1 «■ lineární vzhledem k parametrům 8, ma.tice A má prvky A = f1(x1) rKíxl* (3) - 77 - Předpokládejme déle, že jr má N-rozmérné normální rozděleni ae středními hodnotami E(y_) = Ae^ a diagonální maticí druhých momentů £ « ^2jr~* (složky ^ jsou nezávislé). Zde je, stejně jako v § 12, W matice vah, 6"2 disperze pro jednotku váhy. Odhad parametrů & Z principu maximální věrohodnosti (zobecněním postupu z § 15) dosta- a neme pro odhad ©_ hledaných parametrů 8^ soustavu lineárních rovnic (ATW A)9= AT Wy . (4) ftíká se jí soustava normálních rovnic. Podle předpokladu je matice H * ATW A (5) regulérní - její hodnost je K. Soustava (4) mé tedy právě jedno řešení a -l.T 9 a H A W y . (6) a Odhad ô je lineární funkcí normálně rozděleného vektoru y, mé tedy také normální rozděleni. Střední hodnoty a matice druhých momentů jsou A 2 Odhad Ô elipsoidem při známém o Z § 6 víme, že kovariační forma i=l Jako SQ jsme označili tzv. reziduálni součet čtverců odchylek. - 78 - De ae dokázat, že veličina má rozdělení XN_KÍ odtud můžeme najít intervalové odhady pro (>2. Odhad (10) je vychýlený, protože jeho střední hodnota je a 2 2 2 o E(6 ) = (6 /»)E(?^-K) = £2(N-K)/N. Nevychýleným odhadem disperze je napří- klad „ , a w 2 N 2 1 a 2 6 "~N^K 6 =-Ň^Kl>i(yi"yi) * <10a> i=l Odhad 0 elipsoidem při odhadované disperzi -=- a Známého rozdělení kovariační formy (8) a odhadu 6 (10) využijeme k odhadu 0Q elipsoidem v prostoru parametrů; podíl M " ^2<'f1>jj. i-l. — .K. (13) Znéme-li 6"2, najdeme intervalové odhady e.ikff. pomocí normální distribuč-ní funkce ze vztahu (12.7). Odhadujeme-li £2 z naměřených dat, vyjdeme z podílu í©.-©^)/^ 0á-8oj ji QJ 3— _ (14) ^N?/[(N-K)«^ V(H-^ĎJ V(N-K) ten na 62 nezávisí a má Studentovo rozdělení s N-K stupni volnosti. Označí- me a /- 3 V ^ JJ N-K a najdeme pravděpodobnostní obsah intervalu ©- k£. pomocí distribuční funkce FN_K Studentova rozdělení (viz (12.11)). Pro dostatečně velký počet stupňů volnosti N-k (£30) mé interval ©.-o-, pravděpodobnostní obsah 0.683, a 3 3 stejný, jako mé interval 8.i6*.. Souvislost se sumou Čtverců odchylek Podmínka maxima věrohodnosti je při normálně rozdělených datech ekvivalentní s podmínkou minima součtu čtverců - viz (10.11). V naôem případě K- rozměrného vektoru parametrů 9 a diagonální matice vah J£ je suma čtverců rovna ,víi= n k S = (y-A©)TW(y-A©) = 21 w. (y.- Zla,.© )2. ---~--- i=l 1 1 j=i i3 3 (16) Snadno se můžeme přesvědčit, že podmínka minima S vzhledem k 0, t.j. ôS/9©1=.. .s'SS/dOj^O, vede skutečně ^soustavu normálních rovnic (4). a Pro součet čtverců (16) v minimu, t.j. v bodě jg, dostaneme jednoduchý vztah S =S(8) = yTWy-2©TATWy+©TH8 - yTWy-©TATWy. (17) Reziduálni sumu čtverců tedy můžeme vypoříst tak, že od voženého součtu čtverce naměřených hodnot (y_ Wy) odečteme skalární součin vektoru řešení a pravé atrany normálních rovnic (4). Užitečné je také vyjádřeni S jako fuňte- a ce posunutí A z minima ©: S(8+£) = S +ATHA. (18) Matice H kovariační formy (8) popisuje také funkci S v prostoru parametrů Se T i=0 h 0. 6 - 0. 6 - 0. 4 - 0. 2 - 0.0- Obr. 36. Distribuční funkce X2 - rozdělení s K stupni volnosti. - 80 - 17. Odhad parametru nelineárního modelu Měřené hodnoty ylt...,yN mohou záviset na hledaných parametrech ©j,.,.,nelineárně: yi = hi(ei*---.QK),i=l,...,N. (1) Předpokládejme, že y^ jsou nezávislá normálně rozdělené proměnná se středními hodnotami E(y^) ■ ni^0l» *'' »®oK^ a diag°n61ní kovariačnl maticí 2 —1 . 2 B = o W (W je diagonálni matice vah, 6 disperze pro jednotkovou váhu). Funkce věrohodnosti pozorované N-tice y při hodnotách parametru © je tedy p _ p—j ! r ľy.-h,(©,,....©x.)r Maximuic L vzhledem k © nastane tehdy, je-li maximálni Y" r[yi_hi(ei»*-''ÔK)]2 1 _2 1 lnL = - 2 \ S-+-Tln(2tr62/w, ) V ; (3) t=i\ 262/Wi 2 1 J k tomu stačí najít minimum váženého součtu čtverců odchylek pozorovaných a modelových hodnot v prostoru parametrů ©: N S = Žľwi|^yi-hi(©1,...,©K)j 2 =[y-h(©)JT w[y-h(©)] . (4) a Nalezení odhadu 6 hledaného vektoru §Q je díky nelinearitě modelových funkcí h^ podstatně obtížnější než v lineárním případě (§§ 15,16), kde stačí sestavit a vyřešit soustavu lineárních rovnic. Podle (16.6) jsme mohli dokonce vyjádřit odhad jako explicitní lineární funkci naměřených dat. Zde je závislost © na y vyjádřena pouze implicitně - podmínkou maxima L nebo minima S. Tím je dána druhá komplikace: rozdělení d není normální a je zpravidla obtížná ho najít. A Hledání odhadu 6 svěříme vhodnému numerickému algoritmu nelineární minimalizace a samočinnému počítači. I v lineárním případě řešíme normální rovnice (16.4); tam je však výpočet rychlý a vždy jednoznačný. Nelineární model vede obvykle k mnohem náročnějším (delším) strojovým výpočtům a k možnosti nalezení "falešného" minima. Při interpretaci výsledků je třeba s touto eventualitou počítat. A Druhou komplikaci, t.j. neznalost rozdělení odhadu ©, obcházíme zpravidla aproximací nelineárního modelu lineárním. Jde v zásadě o použití přibližných formulí (3.28) a (3.29) pro druhé momenty funkcí náhodných proměnných, neboli o přibližné vyjádření "přenosu chyb měřených_y do chyb hledaných parametrů". V okolí odhadu 6. aproximujeme funkce (1) lineárními členy Taylorova rozvoje; v maticovém zápisu je - 61 - h(e+A)í-h(0)+A A= y+AA, (5) kde prvky matice NxK koeficientíi rozvoje jsou derivace h v bodě ©: (A)iá = ^/ae^le. a. (6) Symbolem y jsme označili hodnoty modelových funkci (1) v bodě £. V této aproximaci je suma čtverců (6) přibližně rovna Ssí(y-y)TW(y-y) +&TATWAA= s (7) kde jsme zavedli označení ^- ?)h. "Sh. (8) m «r— ou- on. H = A*WA. neboli (H) . = > w. _1 i=l Wj A e=e Při odvozeni vztahu (7) jsme využili faktu, že vektor (y-y) WA. je úměrný gradientu «j - Ur " - 22ľwi^i-hi(^lw » ^.....K (9) sumy čtverců (4) a je tedy v minimu S nulový. Pokud je lineární aproximace (5) dobré, můžeme použít všech výsled- A ků z -předchozího paragrafu. Rozdělení odhadu 0 bude přibližně normální s 2 —1 — kovariační maticí 6 H (viz (16.7)), kde prvky matice íí počítáme z (8). Použitelnost lineární aproximace záleží na průběhu funkcí h^ v tak velké oblastí prostoru parametrů 0, ve které je hustota pravděpodobnosti výsled-ku © výrazně odlišné od nuly. Záleží tedy i na disperzi© naměřených hodnot y (viz diskusi o přibližných formulích v § 3). Představu o možnostech lineární aproximace poskytuje příklad v nesledujícím odstavci. 18. Příklad odhadu parametrů nelineárního modelu Ukážeme použití metod předchozího paragrafu na příkladě odhadu tři parametrůÍ2Q, CQ a ot0 modelu Měříme N-tici hodnot yi=y(xi)+ &i pro známé xlt...,xN, je náhodné chyba. Funkce (1) popisuje například tzv. Lorentzovský spektrální profil (závislost intenzity na frekvenci) čáry s centrální frekvencií^ a pološířkou P06 přičtený ke konstantnímu pozadí otQ. Vzhledem k Pq je model (1) nelineární, je lineární parametr. Naměřené data byla simulována v počítači. Zvolili jsme - 82 - = °» r0 " x. °t = °-5. (2) ekvidistantní sít s N=50 hodnotami x^ z intervalu4-4,4)> a normálně rozdělené peeudonáhodné chyby Z se střední hodnotou O a standardní odchylkou « 0.1 (3) stejnou pro všechny body x^ V obrázku 37 jsou takto generované data znázorněna křížky. A A A Odhady .ft,P a a( jsme našli numerickou minimalizací součtu čtverců (17.4) s jednotkovými vahami (disperze jednotlivých yi jsou stejné): N s(ft,r\oO -^[yi-y(xi;fl,rfoO]2 • <4> i=i Linearity modelu vzhledem k parametru d jsme nevyužili. Použitý minimali- zační algoritmus hledá miminům funkce pomocí gradientu a matice druhých derivací (tzv. hessiánu). Označíme 8^, ©2> ^3 P° řa<3^ parametry SI, P , oC; složky gradientu a hessiánu jsou (5) —1,..., 3. " St155*—^" L 1 ^řČT T hessiánu zanedbáváme tleny s druhými derivacemi (to je tzv. linearizace) a používáme vlastně (až na faktor 2) matici I! ze vztahu (17.8): Vedlejším produktem minimalizace je tedy užitečné matice, která podle § 17 a 2 —1 popisuje rozděleni odhadu 8 parametrů v lineárním přiblížení (6 (^JJ/ je kovariační matici normálního rozdělení 0). Suma čtverců (4) je minimální pro a a • a ÍL= 0.0470, n= 0.999, «< = 0.522; (7) modelové funkce (1) s těmito parametry je nakreslena plnou čarou v obr. 37. Součet čtverců v minimu je SQ=0.456. Další postup záleží na tom, je-li hodnota C(£) známé nebo je třeba ji odhadnout (§ 16); ukážeme výsledky pro druhý případ. Počet stupňů volnosti je N-3=47, proto /47 z, 0.0985, - 83 - v dobré shodě s hodnotou (3) použitou při generaci dat. Odhady standardních odchylek (16.15) jsou A A A = 0.045, o"r= 0.024, S^= 0.017. (8) Počet stupňů volnosti je dostatečně velký k tomu, abychom namísto Studentova rozdělení v (16.14) mohli použít limitní normélní rozdělení. Jako výsledek měření můžeme udat intervaly A-§ft.i^-£p »^-$* pro každý z pa- , rametrů zvléší; jejich pravděpodobnostní obsah je asi 68%. Výhodnější může být odhad celé trojice elipsoidem (16.12) s pravděpodobnostním obsahem daným F - rozdělením. K tomu je třeba doplnit údaje o kovariačni matici, nejlépe udáním korelačních koeficientů dvojic parametrů. V našem příklade = 0.001, ^= 0.001, ^Po(= 0.551. (9) Předchozí úvaha o intervalových odhadech je založena na lineární aproximaci modelu (1) podle § 17. Posoudíme její použitelnost. Názorné je srovnání závislosti součtu čtverců odchylek (4) na parametrech pro modelovou funkci a její lineární aproximaci. Pro určitost budeme sledovat závislost na T, Numericky vypočteme funkci S(D pro pevně zadané P a parametry Q.,dt nalezené tak, aby 9uma (4) byla minimální; s pomoci vztahu (17.7) najdeme parabolickou závislost S(D z lineární aproximacei s (r) = min sífl.rvo, ?(P_fr2/g ; ' . (10) Při posunutí z minima o + £p vzroste hodnota paraboly S o 6?'(6). Obě funkce S, sř jsou nakresleny v obr. 38; je vidět, že se v intervalu fi-8n liší velmi málo. Přestože závislost modelová funkce (1) na P 1 A je nelineární, odhady P jsou koncentrovány do dostatečně malého intervalu, v němž je lineární přiblížení vyhovující. Je třeba si uvědomit, že veli- ^ ■— kost intervalu 2&~r je přímo úměrná střední kvadratické odchylce 6"(£) naměřených hodnot. Budou-li chyby dat větší než v obr. 37, vliv nelinearity vzroste; naopak, pro menší chyby se bude dále zmenšovat. ' Započteni nelinearity modelu při konstrukci intervalového odhadu pro libovolný parametr 6 je možné a výsledek platný v asymptotické limitě N->oo je jednoduchý ([^3, § 9.3). Krajní body intervalu e pravděpodobnostním obsahem 68.3% jsou takové, ve kterých je hodnota S (a nikoli parabp-lickó aproximace S) o 6 (ť) větší než v minimu: SíS-S*"*) = sť&Vo*"*0) = S +62(C). (11) o 2 ^9 Podobně vzrůst S o k 6 (£) definuje interval s pravděpodobnostním obsahem stejným, jako má v lineární aproximaci interval 8-ko (například 95.4% s k=2 a tedy s posunutím z minima o 4^(C)). Výsledkem je zpravidla interval, - 84 - Obr. 38. Závislost součtu čtverců (18.10) a (18.12) ná Tt plná čára; parabolická aproximace, čárkovaná čára. - 85 - a který nemá střed v ©. V naäem příkladě jsou podle obrázku 38 kladné odchylky poněkud větSI než záporné. Zévialoati S(P), S(P) podle vztahu (10) bouvísí e marginálním rozdělením P , které je v lineárním přiblížení normální s disperzí (^(eO(Hj1)22. Za povSimnutí stojí jeStě závislosti sumy čtverců na P, odpovídající podmíněnému rozdělení při pevných hodnotách zbylých parametrů t S1 (V) = Sí^ľ,^), sr(D = S^+ÍH) 22(^)2. (12) A j Jako P jsme označili odhad T z podmínky nejmenSích čtverců S, s£ je při-sluSná minimální hodnota. Z dat v obr. 37 vychází a . a f P » 0.983, Sp= 0.020 , = 0.484. (13) Funkce s' a "s1 jsou rovněž v obr. 38 a v oblasti P ±cý, jsou velmi blízké. Důležitý je fakt, že fixování SI a oí. zpřesňuje odhad zbylého parametrů.P. 7 lineární aproximaci je poměr standardních odchylek pro podmíněné a marginální rozdělení P roven A- ^Jk^J-CT, (14) kde 9(i j« globální korelační koeficient parametru P ze vztahu (3.17). Matice ^H, IJ~^» a tedy i veličiny z nich odvozená, sice nejsou v prostoru parametrů &, P,<*(. konstantní, ale jejich změna v blízkém okolí odhadu je malá, T naSem případě výchozí °f«0.552 v bodě odhadu (7)j podle (9) je P korelováno předeTŠím s o{, korelace s 42 je nepatrné. Podle (14) musí tedy fixování SI a oC zkrátit intervalový odhad P faktorem zhruba 0.83, což v odhadech chyby P podle (8) a (13) skutečně pozorujeme. Názorně je tento fakt vidět i v obr. 38 - suma čtverců s' s fixovanými parametry má ostřejSí minimum než S. V tomto místě už snad nikoho nepřekvapí, že přesnějfií odhad P1 vySel dél od správné hodnoty než odhad P; je to věc náhody, při opakováni pokusu by byl výsledek většinou opačný. Korelační koeficient ~0.55 v naší úloze je poměrně malý, často se můžeme setkat s korelacemi~0.99 nebo i bližšími k jedničce. Potom může fixováni některých parametrů (zadáním hodnot z jiných měření) podstatně zlepšit přesnost zbylých odhadů. - 86 III. Testy hypotéz 19. Statistické testy hypotéz Podstatnou úlohou statistiky je odhad hledaných parametru z namorených hodnot. Naměřené data mohou být využita ještě jiným způsobem - k.testu, který má rozhodnout o platnosti dané teorie nebo hypotézy, případně vybrat jednu z možných alternativ. Testované hypotéze velmi Často odpovídá určitá hodnota některého parametru. Metody testu a odhadu mohou být v takovém případě podobná, formulace úlohy i výsledku jsou však podstatně odlišná. Pokud odhadujeme neznámý parametr &Q intervalem © - o , je výsledkem tvrzeni o pravděpodobnostní souvislosti intervalu a neznámé hodnoty. Testujeme-li naopak hypotézu o zadané hodnotě ©Q, zformulujeme pravděpodobnostní tvrzení o možnostech správného nebo chybného přijetí Či odmítnutí hypotézy na základě pozorovaných údajů. Statistické hypotéza je soubor předpokladů, ze kterých plynou předpovědi rozdělení náhodných veličin. Pokud je předpověz rozdělení jednoznačné, označuje se hypotéza jako jednoduché (například hypotéza, že rozdělení náhodné proměnné je normální se zadanou střední hodnotou a disperzí). V opačném případě jde o hypotézu složenou (normální rozdělení proměnné se střední hodnotou z nějakého intervalu). Statistický test je založen na srovnání předpovědi plynoucí z hypotézy s pozorovanými daty. Je-li pozorovaný výsledek v rámci dané hypotézy málo pravděpodobný, soudíme na její neplatnost. Při testu hypotézy H0 mohou nastat čtyři případy: (a) HQ platí, na základě testu ji přijímáme; (b) HQ neplatí, na základě testu ji zamítáme; (c) Ho platí, ale pomocí testu ji zamítáme; to je tzv. chyba prvního druhu; (d) HQ neplatí, ale pomocí testu ji přijímáme; to je chyba druhého druhu. Shoda předpovědí plynoucích z hypotézy H0 s pozorovanými fakty se testuje pomocí vhodné funkce t naměřených hodnot, které se ve statistická terminologii říká testovací statistika. Obor všech možných hodnot této náhodné proměnné rozdělíme na tzv. oblast přijeti HQ a kritickou oblast. Kritickou oblast K vybíráme tak, že hodnoty t do ní padnou s malou pravděpodobností o( = P(t6K|Ho) ; (1) nastane-li tento případt hypotézu HQ zamítneme. Říkáme, že pomocí testu zamítáme HQ ne hladině významnosti oí. (nebo s rizikem cO. Přitom se můžeme podle (c) nahoře dopustit s pravděpodobností d chyby prvního druhův - 87 - Existuje-li k Ho jediná alternativní hypotéza (plati právě jedna z nich), můžeme najít pravděpodobnost chyby druhého druhu (d), čili neoprávněného přijetí HQ: 0 =* P(t4K|H1). (2) Mírou možnosti oddělit HQ a je tzv. síla (mohutnost) testu 1 -p , které ovsem závisí na oC . Tuto souvislost objasníme v následujícím příkladu. Příklad testu zvětšeni střední hodnoty normálního rozděleni Uvažujme o nesledující situaci. Měřením intenzity zdroje záření (elektromagnetického nebo svazku částic) dostáváme náhodné výsledky x nor-málně rozdělené se střední hodnotou^ a disperzí o . Předpokládejme, že jsme znali £á,q a potřebujeme rozhodnout, zda tato hodnota zůstala (hypotéza H ) nebo se zvětěila na ^ (hypotéza H^) po nějaká úpravě zdroje. Budeme postupovat tak, že změříme N-tici intenzit x^,...,x^ a spočteme průměr (testovací statistiku) 1 n t = -t-21 Xi' (3> i-1 což je podle předpokladu o rozdělení x náhodná proměnné s rozdělením Ní^í^/řT) pokud platí H0, respektive N^tlf62/N) pokud platí alternativa H^. V obrázku 39 jsou tyto dvě hustoty schematicky nakresleny spolu s plochami, reprezentujícími chyby oí a [5 při zadaná hranici 1^ kritické oblasti. S použitím distribuční funkce (4.5) dostaneme S uvážením důsledků, které má přijeti jedná z hypotéz, je třeba rozhodnout o volbě kritické hodnoty t^ (tou jsou dány pravděpodobnosti chyb prvého i druhého druhu). S rostoucím počtem naměřených hodnot se rozdělení f(t|HQ) i f(tJH^) zužují a v limitě N-»oo rozhodneme o platnosti jedné z hypotéz s libovolně malým rizikem chyby. Dá se ukázat, Že volba průměru (3) jako testovací statistiky je v tomto případě optimální - při zadaném óL je síla 1 -($ tohoto testu maximální. (V případě dvou jednoduchých hypotéz existuje nejsilnější test; obecný předpis pro jeho vyhledání udává tzv. Neymanova-Pearsonova věta). Můžeme použít mnoho jiných testů, ale žádný z nich nebude lepši než hořejší. Například lze testovat počet hodnot x^ která jsou větSí než^; bude-li mnohem větší než B/2, platí pravděpodobně h^. Z přesného rozboru tohoto testu zjistíme, že pro dané o(. dává větší |3 než test průměru (vztah (4)). Přestože bychom mohli v dané situaci testovací veličinu t chápat - 88 - jako odhad střední hodnoty proměnné x, je její použití v tomto příkladu podstatně jiné. Víme předem, Že jsou pouze dvě možnosti (známé hodnoty^ nebo ^) a výsledkem měření je rozhodnutí, kterou z nich vybereme. Testy dobré shody Teorie testů hypotéz je velmi obsáhlou a propracovanou částí matematické statistiky. Dále se budeme zabývat pouze jedním druhem testů: prověrkou dané hypotézy HQ vzhledem ke všem jiným možným hypotézám (ne Ho). Takové srovnání HQ a alternativy, jaké jsme použili výSe, pak nemá smysl; proti HQ stojí množina hypotéz, v níž jsou i takové, které vystihují data s libovolnou přesností. Chyba druhého druhu je v této situaci neznámá. Půjde tedy pouze o srovnání předpovědí plynoucích z HQ s naměřenými daty - tzv. kriteria dobré shody. Ve dvou následujících odstavcích jsou popsány dva z mnoha známých testů. 20. Pearsonův test dobré shody Předpokládejme, že z N-tice naměřených hodnot x^,...,Xjj byl sestaven histogram s k sloupky (buňkami). V i-tém sloupku jsou hodnoty z intervalu ^m^, M^), jejich počet označíme n^; zřejmě platí k rii = N. (1) i=l Počty "událostí" n^ v buňkách jsou náhodné veličiny s binomickým rozděle-lenlm (§ 7). Jsou určeny pravděpodobnostmi p- toho, že naměřené hodnota padne do i-té buňky, neboli rozdělením měřené veličiny x: pi = P [xe(mi,Mi)]" F-Fi i3l,...,k. (2) Zde je F(x) distribuční funkce náhodné proměnné x. Z hypotézy Hq, že se x řídí daným rozdělením, plyne kromě jiného i předpověa pravděpodobností různých počtů v buňkách histogramu. Vhodnou testovací veličinou pro srov- - 89 - nénl shody předpovědi a pozorování je k (nrnpi)2 t - n np. • o) i=l 1 Hodnota T bude tím větší, čím více se budou pozorované poety n^ li-Sit od očekávaných středních hodnot Np^. T je ovSem náhodná veličina (n^ jsou náhodné proměnné). Platí-li hypotéza Hq, má n^ binomické rozdělení se střední hodnotou Np^, které se dá pro větší Np^ dobře aproximovat normální hustotou (§ 7). Jednotlivé sčítance v (3) nejsou nezávislé, nesplňují podmínku (1). Dá se ale ukázat, že veličina T je součtem k-1 kvadrátů nezávislých náhodných proměnných, z nichž každá má přibližně standardní normální rozdělení N(0,1). Rozděleni T je tedy přibližně X2 a k-1 stupněm volnosti. Aproximace je tím lepší, čím větší jsou očekávané počty Np^. Jako podmínka použitelnosti se obvykle uvádí Np^> 5* nebo alespoň malý počet (ne více než 20%) intervalů s Np^ v rozmezí 1 až 5. Znalosti rozdělení T využijeme k testu hypotézy HQ pomocí následující úvahy. Je-li pozorovaná hodnota T velké, mohly nastat dva případy: HQ platí, velké hodnota vyšla náhodou; HQ neplatí, velká hodnota vyšla proto, že rozděleni dat je jiná. Rozhodneme se tedy, že HQ zamítneme, je-li hodnota T dostatečně málo pravděpodobná. Ve statistice se užívá ustáleného způsobu vyjadřování této souvislosti. Hypotézu HQ zamítáme na hladině významnosti oC (nebo s rizikem «<), jestliže vyšla hodnota T^T^, přičemž pravděpodobnost tohoto výsledku je c<: PÍT^T^) = 1-P(T kritic- ^k-1 kou hodnotu T«( . Podle rozděleni, kterým se řídi T, se tomuto testu říká Pearsonovo X - kriterium dobré shody. Přesná hodnota o( hladiny významnosti ve statistickém testu není zřejmě důležitá. Zacházíme a? náhodnými jevy a pozorujeme občas i velmi málo pravděpodobné výsledky. Zkušenost však ukazuje, že pravděpodobnosti pod ~5% znamenají silný podnět k úvahám o tom, nemá-li být testovaná hypotéza nahrazena nějakou vhodnější. Test při odhadovaných parametrech rozděleni Zatím jsme předpokládali, že testovaná rozděleni nezávisí ma žádném parametru určovaném z naměřených dat. Pokud ze souboru x^,..o,x^ naměřených hodnot nejprve odhadujeme parametry Q distribuční funkce F(x), nemá - 90 - už proměnné (3) rozdělení X2.^. Dá se ukázat, Že odhad r-tice parametru z dat sdružených do histogramu vede ke zmenšení poctu stupňů volnosti v X2-- rozdělení proměnné T na k-r-1 (ztrácí se r stupňů volnosti). Je-li odhad založen na výchozích datech, bez sdružení do buněk histogramu, je rozdělení proměnné T někde mezi Xk-1 * "xí-r-V Pokud je k dostatečně velké proti r, je rozdíl mezi oběma krajními distribucemi malý a přesnější znalost rozděleni T není nutné. Příklad použiti X2- testu Ukážeme použití Pearsonova testu na příkladě dat z obr. 3 - výsledků N=1000~krét opakovaného měřeni propustnosti infračerveným spektrometrem. BUdeme testovat hypotézu H tvrdící, že data jsou rozdělená normálně se A 2 střední hodnotou p. a disperzí 6" , odhadnutými metodou maximální věrohodnosti. Vychází A Ao A p = 274» 6 3 4 624 ( 6^68), pravděpodobnosti (2) dostaneme s pomocí distribuční funkce (4.5) normálního rozdělení e těmito parametry. Pozorovaný a očekávaný počet událostí v histogramu z obr. 3 je spolu s příspěvkem každého sloupku do sumy (3) zapsán do následující tabulky. i 1 2 3 4 5 6 7 8 9 10 ni 3 1 2 2 6 11 24 20 43 44 Np. 1.45 2.37 3.77 5.78 8.58 12.3 17.1 23.0 29.8 37.5 X2 1.67 0.79 0.83 2.47 0.78 0.14 2.77 0.39 5.81 1.14 i 11 12 13 14 15 16 17 18 19 20 ni 42 55 55 72 72 73 69 75 63 50 NPi 45.5 53.5 60.7 66.7 70.9 72.8 72.4 69.6 64.7 58.1 X2 0.27 0.04 0.54 0.42 0.02 0.00 0.16 0.43 0.04 1.13 i 21 22 23 24 25 26 27 28 29 30 ni 46 31 27 36 18 23 14 10 3 10 Np. 50.5 42.5 34.5 27.2 20.7 15.2 10.8 7.43 4.94 3.18 %2 0.41 3.10 1.65 2.88 0.34 4.02 0.95 0.89 0.76 14.6 íodnota T podle (3) je 49.4. Protože jsme dva parametry odhadovali, je roz dělení náhodné proměnné T podle předchozího výkladu ohraničeno distribucemi a X27* S pomocí tabulek v dodatku Dl můžeme formulovat výsledek testu - hypotézu - 91 - H zamítáme s m^lým rizikem d(«0.01 (kritická hodnota T , je asi 49.6 oro o o.ol ľ 29 stupňů volnosti). Podívéme-li se pozorně do hořejší tabulky, všimneme si nápadně velkého příspěvku poslední buňky do T. Kdyby v ní bylo jen o několik událostí méně, třpba misto deseti jen pět, vyšla by hodnota T zhruba 36; pak by hypotéza o normálním rozdělení byla zamítnuta X2- testem na hladině větší než 0.1 (viz Dl). Při takovém výsledku býváme obvykle s hypotézou spokojeni. Pravděpodobně nejlepší vysvětlení těchto faktů je takové, že normální rozdělení skuteěně dobře vystihuje registrovaná data. V průběhu 1000-krót opakovaného měření došlo aBi k rušivému zásahu, při kterém bylo naměřeno několik příliš velkých hodnot (typické jsou náhodné impulzy v elektrické síti). V § 21 budeme testovat normalitu jedné menší části dat z obr. 3 (150 bodů) jiným testem; výsledek - dobré shoda s hypotézou - hořejSl závěry podporuje. Volba buněk histogramu Při sdružování naměřených dat do histogramu se ztrácí část informace (o rozděleni hodnot uvnitř jednotlivých buněk). To je nežádoucí jev, který ovlivňuje i kvalitu Pearsonova testu. Příliš jemné dělení intervalu ve-de zase k malému počtu událostí v buňkách a X - test nelze použít. Základní pravidlo pro optimální volbu buněk říká, že pravděpodobnosti (2) maji být stejná. Interval <0,1^ funkčních hodnot distribuční funkce F(x) je tedy třeba rozdělit na k stejně velkých dílů a odečíst odpovídající argumenty jako hranice sousedních buněk (obr. 4ol Optimální volba počtu buněk k vychází z požadavku maximální mohutnosti kriteria a je poměrně komplikovaná [14-] . Spokojíme se s konstatováním, že opti- 2/5 mélnl k roste s počtem dat N jako N a pro Ns200 je doporučená hodnota kss30, pro N-500 zhruba k »43. Histogram z obr, 3, který jsme použili v hořejším příkladu, nebyl z hlediska testu vybrán správně. Chtěli jsme však zachovat podobnost s hustotou pravdě-Obr. 40. Volba buněk histogramu se podobnosti a proto byly zvoleny stejné stejnou pravděpodobností, velikosti buněk. - 92 - 21. Kolmogorovův test dobré shody Při vytvořeni histogramu z naměřených údajů se Část informace ztrácí, proto je lepší testovat hypotézu o rozděleni dat bez sdružování do buněk ("třídních intervalů" ve statistické terminologii). Úspěšná kriteria jsou založena na sledování odchylek empirické a hypotetické distribuční funkce. Empirická distribuční funkce S^íx) souboru x^,...,xN je po částech konstantní se skokem velikosti l/N v každé naměřené hodnotě. Označíme-li x(l),...,x(N) naměřené údaje uspořádané podle velikosti od nejmenšího k největšímu, je {0 pro xz = 2 / (-l)1""1 exp(-2r2z2). (3) n*oo L J Průběh funkce FR(z) je v obr. 41; obvykle se předpokládá, že proměnné y/řTDN má asymptotické rozdělení (3) s dostatečnou přesností už při n^80. V Kolmogorovově testu posuzujeme pozorovanou hodnotu Vn" Dn. Vyjde-li příliš velké, zamítneme hypotézu o rozdělení dat podle F(x): pro \ff DN > z^ , kde FK(z^) = 1 - o( , (4) zamítáme hypotézu na drovni oL (s rizikemoO. Kritické hodnoty jsou např. z0.01= 1'63' ř0.05= 1*36' zo.i= r'22 ' í5) Test normality rozdělení dat z § 11 - měřeni času Ukážeme funkci testu v případě dat z obr. 24(§ 11). Maximální odchylka mezi empirickou distribuční funkcí a čárkovaně nakreslenou hypotetickou normální distribuční funkcí je D200= 0.0513; testované hodnota \}IÔÔ D2Q0= «= 0.725 padó podle obrázku 41 do oblasti hodnot velmi pravděpodobných. Hladina významnosti pro z. 1. 52.95 54.0 9 55.23 56.37 57. 51 58.64 59.77 60.91 62.04 G3. 17 57.39 58.58 59.76 60.95 62.13 63.30 64.48 65.65 66.82 6 7.99 61.67 62.89 64.12 65.34 66.56 67.77 68.99 70.20 71.41 72.61 64.95 66.21 67.46 68.71 69.96 71.20 72.44 73.68 74.92 76.15 - 96 - D2, Studentovo rozděleni V tabulce jsou hodnoty tp, pro které je pravděpodobnost P(|tl