M6120 Lineární statistické modely ii Jaro 2017 Domácí úlohy ke zkoušce z M6120 Lineární statistické modely II Instrukce Odevzdává se jeden pdf soubor nazvaný prijmeni-jmeno-text-linmod-2017.pdf (obsahuje řešení příkladů, obrázky, Cit-kód napsaný v T^Xu), jeden zdrojový soubor naprogramovaných funkcí prijmeni-jmeno-source-linmod-2017.r a jeden soubor w-kódu konkrétních řešení příkladů z DU prijmeni-jmeno-priklady-linmod-2017.r, který využívá zdrojový kód naprogramovaných funkcí. Dejte si záležet na přehlednosti programovaného kódu, na doplnění komentářů a vhodného užití zavedených pravidel, které máte k dispozici v prezentaci Standards of programming in r: r style guide. Také věnujte svou pozornost a čas dostatečným popisům vašich úvah, zvolených postupů a interpretacím výsledků, vždy také okomentujte rozdíly při použití různých přístupů. i to bude součást celkového hodnocení. Na psaní <£ít-kódu doporučujeme TjrjX balíček listings a vytvoření prostředí v hlavičce dokumentu pomocí následujícího kódu: 1 \ ls t set {language = R , 7. nastaveni jazyka R 2 bas i cs t y le = \f ootnot es ize \ t tf amily , 7. typ pisma R-kodu 3 comment s t y le = \11 f amily \ color {barval} , 7. barva komentáre 4 numberstyle=\color{barva2}\footnotesize, 7. formát cislovani 5 number s = lef t , 7. cislovani vlevo 6 stepnumber = 1 , 7. cislovani s krokem jedna 7 f r ame = lef 11 ine , 7. vytvořeni leve hranicni cary 8 breaklines = true} 7. zalomeni radku V textu potom kód vkládáme do prostředí \begin{lstlisting} a \end{lstlisting}. Pokud jste neabsolvovali předmět m5751 Elektronická sazba a publikování v TjrjXu nebo podobný, dostanete individuální instrukce na napsání DU v Overleaf: https: //www. overleaf. com/. Odevzdání DU v ms Word není možné. Úlohy se odevzdávají do Odevzdávárny 5 dnů před vybraným termínem zkoušky. Zadání Cvičení 1. Datový soubor more-samples-variances-clavicle. txt obsahuje měření největší délky pravé klíční kosti v mm cla.L na lidských kostrách pocházejících ze čtyř populací: anglické (eng) indické z Amritsaru (indl), indické z Varansi (ind2) a řecké (gre) z Atén. Budeme se zabývat studiem závislosti délky klíční kosti na populaci, ze které kostra pochází. 1. (a) Načtěte data do prohlédněte si je a případně upravte do tvaru, ve kterém se vám s nimi bude lépe pracovat. (b) Jaký je rozsah souboru, který můžete použít pro analýzu závislosti délky klíční kosti na populaci, ze které kostra pochází? 2. Udělejte si o závislosti délky klíční kosti na populaci první představu za pomoci vhodného grafu. Co na jeho základě soudíte? 1 M6120 Lineární statistické modely II Jaro 2017 3. Testujte hypotézu, že střední hodnota délky klíční kosti nezávisí na populaci, ze které kostra pochází. (a) Formulujte příslušnou nulovou a alternativní hypotézu. (b) Zvolte vhodný test, formulujte jeho předpoklady a okomentujte, do jaké míry se zdají být splněny. (c) Interpretujte výsledek testu. Formulujte statisticky korektní tvrzení. 4. Pomocí vhodné skupiny testů najděte dvojice populací, mezi kterými se délka klíční kosti prokazatelně liší. Testujte na celkové hladině 5 %. (a) Formulujte příslušnou skupinu dvojic nulových a alternativních hypotéz (b) Zvolte vhodnou skupinu testů, formulujte jejich předpoklady a okomentujte, do jaké míry se zdají být splněny. (c) Vysvětlete, jak jste zaručili, že celková hladina procedury nepřekročí 5 %, a zdůvodněte, proč jste si daný přístup vybrali. (d) Interpretujte výsledek a formulujte statisticky korektní tvrzení. (e) Souhlasí vaše závěry s tím, co jste očekávali před tím, než jste se podívali na data? (f) Souhlasí vaše závěry s tím, co jste očekávali po tom, co jste vyřešili část 2.1 5. (a) Formulujte model analýzy rozptylu, za pomoci kterého můžete studovat rozdíly mezi délkou klíční kosti ve třech populacích: řecké a dvou indických. (b) Formulujte předpoklady modelu a okomentujte, do jaké míry se zdají být splněny. (c) Ilustrujte výstupy modelu za pomoci vhodného obrázku. V řešení této úlohy se neočekává použití áat o anglické populaci. 6. Pro následující střední hodnoty (i) střední hodnota délky klíční kosti v dané populaci pro každou ze tří populací, (ii) střední hodnota rozdílu mezi délky klíční kosti ve dvou populacích pro každou dvojici populací, (iii) střední hodnota rozdílu mezi řeckou populací a průměrem délek klíční kosti ve dvou indických populacích řešte následující úlohy (a) vyjádřete je jako funkce parametrů modelu z části 5, (b) spočtěte jejich odhady, (c) spočtěte 95 % konfidenční interval pro každou z těchto středních hodnot, (d) spočtěte pro každou ze středních hodnot v části (ii) konfidenční interval tak, aby jejich společné pokrytí nebylo menší než 95 % (zvolte si vhodnou metodu a její výběr zdůvodněte). (e) spočtěte pro každou z těchto středních hodnot konfidenční interval tak, aby jejich společné pokrytí nebylo menší než 95 % (zvolte si vhodnou metodu a její výběr zdůvodněte). V řešení této úlohy se neočekává použití áat o anglické populaci. 2 M6120 Lineární statistické modely II Jaro 2017 Cvičení 2. Datový soubor 17-anova-newborns .txt obsahuje porodní hmotnost novorozenců v gramech weight.C, jejich pohlaví sex. C a vzdělání jejich matky edu.M (kódování: základní (1), střední bez maturity (2), střední s maturitou (3), vysokoškolské (4)). Budeme se zabývat studiem závislosti porodní hmotnosti na pohlaví dítěte a vzdělání matky. 1. (a) Načtěte data do prohlédněte si je a případně upravte do tvaru, ve kterém se vám s nimi bude lépe pracovat. (b) Jaký je rozsah souboru, který můžete použít pro analýzu závislosti závislosti porodní hmotnosti na pohlaví dítěte a vzdělání matky? 2. Udělejte si o závislosti porodní hmotnosti na pohlaví dítěte a vzdělání matky první představu za pomoci vhodných grafů. Co na jejich základě soudíte? 3. Navrhněte vhodný model pro závislost porodní hmotnosti na pohlaví dítěte a vzdělání matky (a) Formulujte předpoklady modelu a okomentujte, do jaké míry se zdají být splněny. (b) Interpretujte koeficienty v modelu (nejste-li spokojeni s parametrizací, kterou volí zvolte si parametrizaci, která vám vyhovuje lépe). (c) Zvolte vhodnou grafickou reprezentaci výsledků modelu. (d) Testujte významnost vlivu pohlaví dítěte a vzdělání matky. Formulujte příslušné dvojice nulové a alternativní hypotézy a vyslovte statisticky korektní závěry. 4. (a) Popište výsledky vaší analýzy intuitivně. (b) Shodují se s očekáváními, která jste měli před tím, než jste viděli data? (c) Shodují se s vašimi očekáváními po tom, co jste vyřešili část 2? (d) Okomentujte přednosti a nedostatky vaší analýzy. Cvičení 3. Datový soubor lrm-foot.txt obsahuje tělesnou výšku ve stoje v milimetrech body.H a délku chodidla levé nohy v milimetrech foot.L. Budeme se zabývat odhadováním tělesné výšky při známé délce chodidla. 1. (a) Načtěte data do ®, prohlédněte si je a případně upravte do tvaru, ve kterém se vám s nimi bude lépe pracovat. (b) Jaký je rozsah souboru, který můžete použít pro analýzu vztahu mezi tělesnou výškou a délkou chodidla? 2. Udělejte si o závislosti tělesné výšky na délce chodidla první představu za pomoci vhodného grafu. Co na jeho základě soudíte? 3. Navrhněte vhodný model pro závislost tělesné výšky na délce chodidla. (a) Formulujte předpoklady modelu a okomentujte, do jaké míry se zdají být splněny. (b) Vybrali-li jste si model regresní přímky, interpretujte relevantní koeficient. (c) Zvolte vhodnou grafickou reprezentaci výsledků modelu. 4. Zkonstruujte a zakreslete bodové konfidenční intervaly pro regresní přímku. 3 M6120 Lineární statistické modely II Jaro 2017 5. Zkonstruujte a zakreslete sdružené konfidenční pásy pro regresní přímku. 6. Okomentujte rozdíl mezi dvěma typy intervalů. Vyšly v tomto případě podle očekávání? Cvičení 4. Datový soubor ancova-cneck.txt obsahuje tělesnou hmotnost v kilogramech body.W, pohlaví sex (kódování: muž (m), žena (f)) a obvod boků v milimetrech hip.C. Budeme se zabývat studiem závislosti tělesné hmotnosti na pohlaví a obvodu boků. 1. (a) Načtěte data do ^H, prohlédněte si je a případně upravte do tvaru, ve kterém se vám s nimi bude lépe pracovat. (b) Jaký je rozsah souboru, který můžete použít pro analýzu vztahu mezi tělesnou hmotností a obvodem boků podle pohlaví? 2. Udělejte si o závislosti tělesné hmotnosti na obvodu boků a pohlaví první představu za pomoci vhodných grafů. Co na jejich základě soudíte? 3. Navrhněte vhodný model pro závislost tělesné hmotnosti na obvodu boků a pohlaví. (a) Formulujte předpoklady modelu a okomentujte, do jaké míry se zdají být splněny. (b) Testujte hypotézu o tom, je-li funkční závislost střední hodnoty tělesné hmotnosti na obvodu boků stejná pro muže a pro ženy. (i) Formulujte příslušnou nulovou a alternativní hypotézu. (ii) Zvolte vhodný test, formulujte jeho předpoklady a okomentujte, do jaké míry se zdají být splněny. (iii) Interpretujte výsledek testu. Formulujte statisticky korektní tvrzení. (c) Zvolte vhodnou grafickou reprezentaci výsledků modelu. (d) Interpretujte koeficienty v modelu. (e) Okomentujte přednosti a slabiny modelu. 4. Zkonstruujte a zakreslete bodové konfidenční intervaly pro regresní přímky popisující závislost tělesné hmotnosti na obvodu boků podle pohlaví. 5. Zkonstruujte a zakreslete sdružené konfidenční pásy pro regresní přímky popisující závislost tělesné hmotnosti na obvodu boků podle pohlaví. 4