Téma 3: Výpočet číselných charakteristik jednorozměrného a dvourozměrného datového souboru Úkol 1.: U 100 náhodně vybraných domácností byl zjišťován způsob zásobování bramborami (znak X, varianty 1 = vlastní sklep, 2 = jinde, 3 = nákup) a bydliště (znak Y, varianty 1 = velké město, 2 = malé město, 3 = vesnice). způsob zásobování bydliště velké město malé město vesnice vlastní sklep 13 15 14 jinde 11 7 2 nákup 19 9 10 a) Pro oba znaky určíme modus. b) Vypočteme Cramérův koeficient znaků X, Y. Návod: Otevřeme nový datový soubor se třemi proměnnými X, Y, četnost a devíti případy. Do proměnné X napíšeme 3 jedničky, 3 dvojky a 3 trojky, do proměnné Y napíšeme 3 krát pod sebe 1, 2, 3 a do proměnné četnost napíšeme odpovídající simultánní absolutní četnosti dvojic variant (X, Y), tj. 13, 15, 14, 11, 7, 2, 19, 9, 10. Proměnným vytvoříme návěští a popíšeme význam jednotlivých variant (viz Úkol 2 v Tématu 1). ad a) Výpočet modu: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – klikneme na tlačíto se závažím – zaškrtneme Stav zapnuto, vybereme proměnnou vah četnost – OK - Proměnné X, Y – OK – Detailní výsledky – zaškrtneme Modus. Proměnná X má modus 1, tj. nejvíce domácností skladuje brambory ve vlastním sklepě a proměnná Y má také modus 1, tj. nejvíce domácností bydlí ve velkém městě. ad b) Výpočet Cramérova koeficientu: Statistiky – Základní statistiky/tabulky – Kontingenční tabulky – OK – Specif. tabulky - List 1 X, List 2 Y - OK – na záložce Možnosti ve Statistikách 2 rozměrných tabulek zaškrtneme Fí (tabulky 2x2) & Cramérovo V & C – přejdeme na záložku Detailní výsledky – Detailní 2-rozm. tabulky. Na posledním řádku najdeme, že Cramérův koeficient nabývá hodnoty 0,179, tedy mezi způsobem zásobování bramborami a bydlištěm domácnosti exisuje jen slabá závislost – viz následující tabulka: Cramérův koeficient interpretace mezi 0 až 0,1 zanedbatelná závislost mezi 0,1 až 0,3 slabá závislost mezi 0,3 až 0,7 střední závislost mezi 0,7 až 1 silná závislost Úkol 2.: Otevřeme datový soubor znamky.sta. a) Pro známky z matematiky a angličtiny vypočteme medián, dolní a horní kvartil, kvartilovou odchylku a vytvoříme krabicový diagram. b) Vypočteme Spearmanův korelační koeficient známek z matematiky a angličtiny pro všechny studenty, pak zvlášť pro muže a zvlášť pro ženy. Získané výsledky budeme interpretovat. Návod: ad a) Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X, Y – OK – Detailní výsledky - zaškrtneme Medián, Dolní & horní kvartily, Kvartil. rozpětí – Výpočet. Vytvoření krabicového diagramu: Grafy – 2D Grafy – Krabicové grafy – vybereme Vícenásobný – Proměnné X, Y – OK. ad b) Statistiky – Neparametrická statistika – Korelace – OK – Proměnné X, Y – OK – Spearman R. Pro všechny: Počítáme-li Spearmanův korelační koeficient pro ženy (resp. pro muže), použijeme filtr: tlačítko Select Cases – Zapnout filtr – včetně případů – některé, vybrané pomocí výrazu Z=0 (resp. Z=1). Pro ženy: Pro muže: Vidíme, že nejsilnější přímá pořadová závislost mezi známkami z matematiky a angličtiny je u žen, r[S] = 0,86. U mužů je tato závislost mnohem slabší, r[S] = 0,37. U žen tedy dochází k tomu, že se sdružují podobné známky z obou předmětů, zatímco u mužů se projevuje spíše tendence k různým známkám. Je to zřetelně vidět na dvourozměrných tečkových diagramech. Tečkový diagram pro ženy Tečkový diagram pro muže Význam hodnot Spearmanova (i Pearsonova) koeficientu korelace je popsán v tabulce: Absolutní hodnota korelačního koeficientu Interpretace hodnoty 0 lineární nezávislost (0, 0,1) velmi nízký stupeň závislosti [0,1, 0,3) nízký stupeň závislosti [0,30, 0,50) mírný stupeň závislosti [0,50, 0,70) význačný stupeň závislosti [0,70, 0,90) vysoký stupeň závislosti [0,90, 1) velmi vysoký stupeň závislosti 1 úplná lineární závislost Úkol 3.: Otevřeme datový soubor ocel.sta. a) Pro mez plasticity a mez pevnosti vypočteme aritmetický průměr, směrodatnou odchylku, rozptyl, koeficient variace, šikmost a špičatost. Výsledky porovnáme s údaji ve skriptech Popisná statistika (viz str. 30). b) Vypočteme Pearsonův koeficient korelace meze plasticity a meze pevnosti. Dále vypočteme také kovarianci a výsledek porovnáme s výsledkem ve skriptech Popisná statistika (str. 30). Návod: ad a)Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X, Y – OK – Detailní výsledky - zaškrtneme Průměr, Směrodat. odchylka, Rozptyl, Variační koeficient, Šikmost, Špičatost – Výsledky. Vysvětlení: Rozptyl a směrodatná odchylka vyjdou ve STATISTICE jinak než ve skriptech, protože STATISTICA ve vzorci pro výpočet rozptylu nepoužívá 1/n, ale 1/(n-1). Koeficient variace (v tabulce označený jako Koef. Prom.) je udán v procentech. ad b) Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměnných – X, Y – OK, na záložce Možnosti zrušime volbu Včetně průměrů a sm. odch. – Výpočet. Vidíme, že mezi X a Y existuje silná přímá lineární závislost. Kovariance se počítá složitěji. Statistiky – Vícenásobná regrese - Proměnné Nezávislá X, Závislá Y – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky - Kovariance. Vysvětlení: Na hlavní diagonále jsou rozptyly proměnných X, Y, mimo hlavní diagonálu je kovariance. Kovariance vyjde ve STATISTICE jinak než ve skriptech, protože ve STATISTICE se ve vzorci pro výpočet kovariance nepoužívá 1/n, ale 1/(n-1).