Ústav matematiky a statistiky Přírodovědecká fakulta Masarykova univerzita Štatistická inferencia I a II Sylabus ZS-20 U a J S-2015 Stanislav Katina katina@math.muni.cz 24. februára 2015 Katina, S., 2015: Štatistická inferencia II 1 Sylabus predmetu Štatistická inferencia I a II 1. Širšie chápanie matematickej štatistiky: plánovanie (dizajn) štúdie - systematický prehľad, plánovanie rozsahu súboru, efekty (parametre), ciele, hypotézy (bio-medicínska a štatistická forma; voľba hypotézy z troch typov - obojstranná a dve jednostranné), štatistický model a model rozdelenia pravdepodobnosti, interpretácie výsledkov (štatistická a bio-medicínska forma) 2. Základné pojmy a definície: náhodný výber, náhodná premenná (+príklady), náhodný vektor (+príklady), štatistická inferencia (definícia), iid, srs, jednoduchý náhodný výber bez vrátenia a s vrátením, diskrétna a spojitá náhodná premenná (+príklady), distribučná funkcia diskrétnej a spojitej náhodnej premennej, hustota diskrétnej a spojitej náhodnej premennej: výberový priestor, parametrický priestor, nosič (aj anglické názvy) 3. Model rozdelenia pravdepodobnosti a štatistický model: typy modelov, parametrický a neparametrický model (definície), parameter a vektor parametrov (definícia + príklady), spojité rozdelenia - normálne, štandardizované normálne, dvojrozmerné normálne, štandardizované dvojrozmerné normálne rozdelenie; diskrétne - binomické, multinomické, súčinové multino-mické, Poissonovo, mnohorozmené Poissonovo, negatívne binomické rozdelenie (definície, zobrazovanie + príklady); aproximácie (odlišnosti od teoretického rozdelenia na príklade normálneho rozdelenia; binomického rozdelenia normálnym, binomického rozdelenia Poissonovým, multinomické rozdelenia mnohorozmerným Poissonovým); over- a underdispersion (overdispersion v binomickom modeli, underdispersion v binomickom modeli, overdispersion v Poissonovom modeli + príklady) 4. Simulačný experiment: MC experiment a jeho história, 3 kritériá simulačného experimentu, CLV, slabý a silný ZVC; generovanie pseudonáhodných čísel; 5 typov simulačných experimentov (a) simulačný experiment rozdelenia náhodnej premennej (princípy + príklady), (b) simulačný experiment aproximácie nejakého rozdelenia náhodnej premennej iným rozdelením (princípy + príklady), (c) simulačný experiment rozdelenia štatistiky (princípy + príklady), (d) simulačný experiment rozdelenia testovacej štatistiky (princípy + príklady), (e) simulačný experiment vlastností intervalu spoľahlivosti (princípy + príklady) 5. Štatistika: štatistika, postačujúca štatistika a testovacia štatistika (definície a príklady napr. pre binomické a normálne rozdelenie) 6. Punkcia vierohodnosti — teoretická časť: definícia funkcie vierohodnosti, prirodzený logaritmus funkcie vierohodnosti, jadro vierohodnosti, slabý a silný princíp vierohodnosti a ich využitie v praxi (príklad), štatistická teória, maximálne vierohodný odhad parametra; definície funkcií vierohodnosti - normálneho, dvojrozmerného normálneho, štandardizovaného normálneho, štandardizovaného dvojrozmerného normálneho, binomického, Poissonovho, mul-tinomického rozdelenia; maximálne vierohodné odhady parametrov - normálneho, dvojrozmerného normálneho, štandardizovaného normálneho, štandardizovaného dvojrozmerného normálneho, binomického, Poissonovho, multinomického rozdelenia; aproximácia funkcie vierohodnosti alebo jej logaritmu nejakou kvadratickou funkciou (+dôležitosť polohy maxima a zakrivenie v maxime) [pre parameter ako skalár a parameter ako vektor]; skóre funkcia, vierohodnostné (skóre) rovnice, (pozorovaná) Fisherova miera informácie, hessián, maximálne vierohodný odhad rozptylu (definície + príklady pre jednotlivé rozdelenia), Taylorov rozvoj r-tého rádu, Taylorova veta, kvadratická aproximácia logaritmu funkcie vierohodnosti pomocou Taylorovho rozvoja druhého rádu, relatívna (štandardizovaná) vierohodnosť, kvadratická aproximácia logaritmu relatívnej funkcie vierohodnosti pomocou Taylorovho rozvoja druhého rádu; dva spôsoby kontroly vhodnosti kvadratickej aproximácie funkcie vierohodnosti - pomocou relatívnej vierohodnosti a skóre funkcie (+ príklad binomického a normálneho rozdelenia) [pre parameter (24. februára 2015) Katina, S., 2015: Štatistická inferencia II 2 ako skalár a parameter ako vektor]; profilová funkcia vierohodnosti a jej zakrivenie; invarian-tnosť maximálne vierohodného odhadu, kvadratická aproximácia profilovej vierohodnosti [pre parameter ako skalár a parameter ako vektor]; invariantnosť maximálne vierohodného odhadu, delta metóda [pre parameter ako skalár a parameter ako vektor] 7. Punkcia vierohodnosti — numerická časť: maximalizácia funkcie vierohodnosti; Newtonova (Newton-Rapsonova) metóda (metóda dotyčníc) pre parameter ako skalár - kvadratická aproximácia využívaná algoritmom, iteračná funkcia, iteračný algoritmus, prahová hodnota, zastavenie algoritmu, geometrická interpretácia, implementácia v ^Ä; metóda zlatého rezu a metóda sukcesívnej parabolickej interpolácie; Newtonova (Newton-Rapsonova) metóda (metóda dotyčníc) pre parameter ako vektor - kvadratická aproximácia využívaná algoritmom, iteračná funkcia, iteračný algoritmus, prahová hodnota, zastavenie algoritmu, geometrická interpretácia, implementácia v <®, Fisherova skóringová metóda, quasi Newtonova metóda, centrálna rozdielová aproximácia, BFGS metóda, Nelder-Meadova metóda (metóda simplexov) - geometrická interpretácia, implementácia v <5t; princípy aproximácie skóre funkcie a hessiánu [príklady + zobrazovanie; napr. pre normálne a dvojrozmerné normálne rozdelenie, pre binomické a trino-mické rozdelenie] 8. Praktické dôsledky odchýliek od normality: tri odporúčania (a) transformácia dát, (b) urezávanie a winsorizácia a (c) nahradenie asymptotického rozdelenia testovacej štatistiky bootstrapovým alebo permutačným 9. Charakteristiky polohy a variability: stredná hodnota, výberový aritmetický priemer, aritmetický priemer; rozptyl, výberový rozptyl, odhad rozptylu; koeficient variácie a jeho rozptyl: poriadkové štatistiky; medián, výberový medián, odhad mediánu; percetily, výberové percen-tily, odhad percentilov, kvantily, výberové kvantily, odhady kvantilov; dolný a horný kvar-til, výberový dolný a horný kvartil, odhad dolného a horného kvartilu; rozptyl poriadkovej štatistiky (všeobecne a za platnosti normality), stredná (očakávaná) hodnota mediánu a rozptyl mediánu (všeobecne a za platnosti normality); distribučná funkcia a jej interval spoľahlivosti 10. Testovanie hypotéz 1: štatistická inferencia, štatistický test, liberálny a konzervatívny štatistický test, nulová a alternatívna hypotéza (definícia, obojstranná a dve jednostranné), oblasť (obor) nezamietania nulovej hypotézy a oblasť (obor) zamietania nulovej hypotézy (pre testovaciu štatistiku, pre parameter, pre náhodnú premennú), tabulka rozhodovania voči skutočnosti, chyba prvého druhu a jej pravdepodobnosť, chyba druhého druhu a jej pravdepodobnosť, hladina významnosti, koeficient spoľahlivosti, sila testu, silofunkcia, pravdepodobnosť pokrytia, Neyman-Pearsonov prístup; kvantil a kritická hodnota (definícia všeobecne a pre nasledovné rozdelenia - normálne, štandardizované normálne, chi-kvadrát, Studentovo a Fisherovo), stupne voľnosti (definícia + príklady pre spojitý a diskrétny prípad) 11. Testovacie štatistiky: relatívna (štandardizovaná) vierohodnosť, jednoduchý pomer vierohodnosti, testovacia štatistika pomerom vierohodnosti, aproximácie testovacej štatistiky pomerom vierohodnosti - Waldova testovacia štatistika a skóre testovacia štatistika (odvodenie + geometrická interpretácia), asymptotické rozdelenia testovacích štatistík (pre parameter ako skalár a parameter ako vektor); tri testovacie štatistiky za predpokladu normality X ~ N(fi,a2), kde a2 je známe (odvodenie a asymptotické rozdelenie) 12. Intervaly spoľahlivosti — teoretická a numerická časť: interval spoľahlivosti (IS; definícia, obojstranný a dva jednostranné IS, zovšeobecnenia na elipsu a elipsoid spoľahlivosti), empirický IS, koeficient spoľahlivosti, liberálny a konzervatívny IS; porovnanie IS a tolerančného intervalu; Waldov IS, spätne transformovaný Waldov IS, skóre IS, vierohodnostný IS; výpočet hraníc vierohodnostného IS - metóda bisekcie - iteračná funkcia, itaračný algoritmus, prahová hodnota, zastavenie algoritmu, tri typy aproximačnej chyby, implementácia v Qt, Brentova metóda (24. februára 2015) Katina, S., 2015: Štatistická inferencia II 3 (Brent-Dekkerova metóda), metóda sečníc - princíp, geometrická interpretácia, implementácia v G§ 13. Asymptotické vlastnosti odhadov: bodový odhad, konvergencia skoro všade, konvergencia v kvadratickom strede, konvergencia podľa pravdepodobnosti, konvergencia v distribúcii, nevychýlený odhad, lepší odhad, asymptoticky nevychýlený odhad, konzistentný odhad, asymptoticky eficientný odhad, asymptoticky normálny odhad; príklady odhadov z normálneho a mnohorozmerné normálneho rozdelenia, koeficient variácie 14. Testovanie hypotéz 2: testovanie Hq oproti H\, test, testovacie kritérium, testovanie pomocou kritického oboru, testovanie pomocou intervalu spoľahlivosti, testovanie pomocou pozorovanej hladiny významnosti, p-hodnota, štatistická siginifikancia, hraničná štatistická siginifikancia, konzervatívny a liberálny test, konzervatívny a liberálny interval spoľahlivosti 15. Asymptotické testy o parametroch: (a) Jednovýberové testy: asymptotické testy strednej hodnoty, asymptotické testy o rozptyle, asymptotické testy o korelačnom koeficiente, asymptotické testy o pravdepodobnosti. (b) Dvojvýberové testy: asymptotické testy rozdielu stredných hodnôt, asymptotické testy o podiele rozptylov, asymptotické testy o rozdiele korelačných koeficientov, asymptotické testy o dvoch pravdepodobnostiach. (c) Viac výberové testy: asymptotické testy o viacerých stredných hodnotách, asymptotické testy o viacerých rozptyloch, asymptotické testy viacerých korelačných koeficientoch, asymptotické testy o viacerých pravdepodobnostiach. Teória k jednotlivým testovacím procedúram: (a) Definícia testovacej štatistiky a jej názov, definícia hypotéz (Hqi vs Hu, Hq2 vs H12 a iío3 vs -^13)? definícia kritických oborov (Wi, W2 a W3), definícia silofunkcií, definícia p-hodnoty, definícia Waldovho a vierohodnostného IS. (b) Odvodenie silofunkcie, minimálneho rozsahu súboru, Waldovej testovacej štatistiky (hlavné črty odvodenia), testovacej štatistiky pomerom vierohodnosti (hlavné črty odvodenia) a skóre testovacej štatistiky (hlavné črty odvodenia). (c) Waldove, skóre IS a IS pomerom vierohodnosti (hlavné črty odvodenia) Simulačně štúdie k jednotlivým testovacím procedúram a intervalom spoľahlivosti: (a) Simulačné štúdie o asymptotických vlastnostiach testovacích štatistík za platnosti H0. (b) Simulačné štúdie o asymptotických vlastnostiach testovacích štatistík za platnosti H\. (c) Simulačné štúdie o asymptotických vlastnostiach IS. 16. Príklady aplikácií: biológia, antropológia, medicína, poisťovníctvo a bankovníctvo a pod. (24. februára 2015)