Ústav matematiky a statistiky Přírodovědecká fakulta Masarykova univerzita Statistická inference II Zadáni domácího úkolu - rok 2017 1. část Stanislav Katina, Veronika Bendová katinaSmath.muni.cz, xbendovavSmath.muni.cz 18. dubna 2017 Katina, S., Bendová, V., 2017: Statistická inference II 1 Instrukce k domácímu úkolu: Odevzdává se jeden pdf soubor nazvaný prijmeni-jmeno-text-statinf-ll-2017.pdf (obsahuje řešení příkladů, obrázky, ^-kód napsaný v TjíjXu), jeden zdrojový soubor naprogramovaných funkcí prijmeni-jmeno-source-statinf-11-2017. R a jeden soubor ^ť-kódu konkrétních zadání z D Ú prijmeni-jmeno-priklady-statinf-11-2017. R, který používá tento zdrojový kód. Dejte si záležet na přehlednosti programovaného kódu, na doplnění komentárů avhodného užití zavedených pravidel, které máte k dispozici v prezentaci Standards of programming in R: R style guide. Také věnujte svou pozornost a čas dostatečným popisům vašich úvah a zvolených postupů a interpretacím výsledků, ať už slovních nebo grafických. I to bude součástí celkového hodnocení úkolu. Na psaní ^ť-kódu doporučuji TgXovský balíček listings a vytvoření prostředí v hlavičce dokumentu pomocí následujícího kódu: \lstset{1anguage=R, % nastavenie jazyka R basicstyle=\footnotesize\ttfamily, % typ pisma R-kodu comment st y le =\ttf amily \ color {f arbal }■, % farba komentára k funkciám numbersty1 e = \color{farba2}\f ootnotesize , % farba a velkost cislovania numbers=left, % cislovanie vlavo stepnumber=1, % cislovanie po krokoch jedna frame=leftline, % vytvorenie lavej hraničnej čiary breaklines=true} % zalomenie riadkov V textu potom kód vkládáme do prostředí \begin{lstlisting} a \end{lstlisting}. Kompletní řešení domácího úkolu je nutné nahrát do odevzdávárny v IS nejpozději 7 dní před termínem zkoušky, na který se přihlásíte. (18. dubna 2017) Katina, S., Bendová, V., 2017: Statistická inference II 2 Příklad 1. Vylepšená věrohodnost pomocí g(0): 1. Nakreslete logaritmus relativní funkce věrohodnosti parametru p binomického rozdělení Bin(7V, p), kde N = 10 a n = 8, superponovaný jeho kvadratickou aproximací. 2. Nakreslete logaritmus relativní funkce věrohodnosti g(p) = logit(p) = ln j^- (při stejném zadání N a n jako v (1)), superponovaný jeho kvadratickou aproximací. 3. Nakreslete graf porovnávající vzájemně logaritmus relativní funkce věrohodnosti s její kvadratickou aproximací získanou na základě parametru p (ad 1) a aproximací získanou za základě parametrické funkce g(p) (ad 2). 4. Vypočítejte Waldův a věrohodnostní 100 x (1 — a)% empirický DIS pro p. 5. Vypočítejte Waldův a věrohodnostní 100 x (1 — a)% empirický DIS pro g(p) z bodu (2) a transformujte jej zpět do originální škály. 6. Vzájemně porovnejte Waldovy empirické DIS pro p a pro g(p) po zpětné transaformaci do originální škály a věrohodnostní empirické DIS pro p a pro g(p) po zpětné transaformaci do originální škály. Který z intervalů vykazuje lepší vlastnosti a proč? 7. Naprogramujte dvě numerické metody: metodu bisekce (funkce bisekce()) a metodu sečen (funkce metoda.secen()) ke zpřesnění hranic věrohodnostních intervalů spolehlivosti. Požadovaná forma výstupu příkladu: • dvě samostatně použitelné funkce bisekce() a metoda.secen() s naimplementovanými iteračními metodami; • trojice grafů: (i) graf s parametrem p na ose x a log. rel. věroh. funkcí + její kvadratickou aproximací na ose y; (ii) graf s parám, funkcí g(p) na ose x a příslušnou log. rel. věroh. funkcí + její kvádr, aproximací na ose y; (iii) graf s parametrem p na ose x a log. rel. věrohodnostní funkcí + její kvádr, aproximací pomocí parametru p a pomocí parám, funkce g(p) na ose y (na základě tohoto grafu porovnejte kvalitu obou kvádr, aproximací); • tabulka hranic intervalů spolehlivosti: parametr/p.funkce Waldův IS - dh Waldův IS - hh Věroh. IS - dh Věroh. IS - hh P g{p) g(p) zpětně transf. do škály p • tabulka přesnějších hranic věrohodnostních intervalů spolehlivosti získaných pomocí vlastnoručně naprogramovaných funkcí bisekceQ a metoda.secenQ: parametr/p.funkce pův. - dh pův. - hh m.bisekce - dh m.bisekce - hh m.sečen - dh m.sečen - hh P g{p) g(p) z.t. do šk.p Poznámka: Hodnoty ve výsledných tabulkách i textu zaokrouhlete na šest desetinných míst. (18. dubna 2017) Katina, S., Bendová, V., 2017: Statistická inference II 3 Příklad 2. Test o směrodatné odchylce a: Z archivních materiálů máme k dispozici původní kraniometrické údaje o délce lebky mužů a žen ze starověké egyptské populace (soubor one-sample-mean-skull-mf.csv). Současně máme k dispozici průměrné hodnoty délky lebky a hodnoty směrodatných odchylek pro muže a ženy novověké egyptské populace (délka lebky mužů xm = 177.568 mm se směrodatnou odchylkou sm = 7.526 mm; délka lebky žen x f = 171.962 mm se směrodatnou odchylkou Sf = 7.052 mm; rozsah datového souboru nm = 88, rif = 52). Načtěte datový soubor one-sample-mean-skull-mf.csv, kde proměnná skuli.L označuje délku lebky (v mm) starověké egyptské populace a proměnná sex označuje pohlaví měřeného jedince. Zaměřte se na délku lebky žen, o které předpokládáme že má normální rozdělení N(fi, a2). 1. Otestujte nulovou hypotézu, že směrodatná odchylka délky lebky žen u starověké egyptské populace je rovna směrodatné odchylce délky lebky žen u novověké egyptské populace. 2. Vypočítejte 100 x (1 — a)% empirický DIS, tj. (au ; an) pro směrodatnou odchylku délky lebky žen starověké egyptské populace, kde koeficient spolehlivosti 1 — a = 0.95. Jak v části (1), tak i v části (2) použijte k otestování nulové hypotézy a ke stanovení příslušných DIS: (a) Waldovu testovací statistiku Uw', (b) skóre testovací statistiku Us; (c) věrohodnostní testovací statistiku Ulr- Požadovaná forma výstupu příkladu: • H0; • íři; • tabulka výsledků: Statistika a test. stat. &h p-hodnota Uw Us ULR • komentář k výsledkům uvedeným v tabulce + zdůvodněné rozhodnutí o tom, kterou testovací statistiku byste v praxi pro konečnou analýzu využili. Poznámka: Hodnoty ve výsledné tabulce i textu zaokrouhlete na čtyři desetinná místa. (18. dubna 2017) Katina, S., Bendová, V., 2017: Statistická inference II 4 Příklad 3. Pokračování příkladu 2: Vraťme se nyní k datovému souboru one-sample-mean-skull-mf.csv, kde proměnná skuli.L označuje délku lebky (v mm) starověké egyptské populace a proměnná sex označuje pohlaví měřeného jedince. 1. Na hladině významnosti a = 0.05 otestujte nulovou hypotézu, že směrodatná odchylka délky lebky žen u starověké egyptské populace je větší než směrodatná odchylka délky lebky žen u novověké egyptské populace. Testování proveďte pomocí: (a) kritického oboru; (b) intervalu spolehlivosti; (c) p-hodnoty. Požadovaná forma výstupu příkladu: • H0; • íři; • tabulka výsledků: Název statistiky a statistika krit.obor au cth p-hodnota • komentář k výsledkům uvedeným v tabulce + zdůvodněné rozhodnutí o nulové hypotéze. Poznámka: Hodnoty ve výsledné tabulce i textu zaokrouhlete na čtyři desetinná místa. (18. dubna 2017) Katina, S., Bendová, V., 2017: Statistická inference II 5 Příklad 4. Simultánní oblasti spolehlivosti + elipsa spolehlivosti pro střední hodnotu a směrodatnou odchylku (dokončení ze cvičení): 1. Nakreslete simultánní množinu spolehlivosti pro 6 = (/i, a)T použitím asymptotického intervalu spolehlivosti pro jj, a exaktního intervalu spolehlivosti pro a. 2. Nakreslete simultánní množinu spolehlivosti pro 6 = (/i, a)T použitím asymptotických intervalů spolehlivosti pro jj, a pro a. 3. Do obrázku dokreslete 100(1 — a) % elipsu spolehlivosti pro 6 = (/í, a2 (pravostranná) c) H03 : a2 >a2 oproti Tíi3 :a2