3 Základní číselné charakteristiky Tabulka 1: Přehled číselných charakteristik podle typu znaku a sledované vlastnosti Poloha Variabilita Symetrie Závislost Nominálni modus - - Cramérův koeficient Ordinální medián interkvartilové rozpětí - Spearmanův koef. poř. korel. Intervalový aritmetický průměr rozptyl směrodatná odchylka koeficient šikmosti koeficient špičatosti Pearsonův korel. koeficient 3.1 Číselné charakteristiky pro nominální znaky Příklad 3.1. Charakteristika polohy nominálního znaku Navažme na práci s datasetem 17-anova-newborns-2.txt. V rámci cvičení 2 jsme jako mezivýstup příkladu 2.5 získali kontingenční tabulku simultánních absolutních četností znaků X = vzdělání matky &Y = porodní hmotnost novorozence (viz tabulka 2). Znaky X a Y jsou typickým příkladem znaků nominálního typu. Najděte modus pro znak vzdělání matky i pro znak porodní hmotnost novorozence. Tabulka 2: Simultánní absolutní četnosti pro znaky vzdělání matky a porodní hmotnost novorozence nízká norma vysoká zs 97 312 8 ss 82 346 20 SSm 74 349 12 VS 13 64 4 Řešení příkladu 3.1 nizka norma vysoká zs 97 312 8 ss 82 346 20 SSm 74 349 12 VS 13 64 4 Zaměřme se nejprve na znak X = vzdělání matky. Číselná charakteristika modus je definována jako nejčetnější varianta sledovaného znaku. zs SS SSm VS 417 448 435 81 Interpretace výsledků: Nejčetnější variantou znaku vzdělání matky je ......................................... (n =............). Nejvíce novorozenců v datovém souboru se narodilo matkám s dokončeným.............................................................. Analogicky nyní najdeme modus znaku Y = porodní hmotnost novorozence. nizka norma vysoká 266 1071 44 Interpretace výsledků: Nejvíce novorozenců v datovém souboru mělo porodní hmotnost (n =............)• 1 Příklad 3.2. Charakteristika závislosti mezi dvěma nominálními znaky Zaměřte se nyní na oba znaky X = vzdělání a, Y = porodní hmotnost novorozence najednou. Určete míru závislosti mezi znaky X a Y . Řešení příkladu 3.2 Protože X a Y jsou znaky............................................................typu, použijeme na určení míry závislosti mezi nimi .................................................................................................. Stupnice míry závislosti podle hodnoty Cramérova koeficientu je uvedena v tabulce 3 Tabulka 3: Stunice míry závislosti podle Cramérova koeficientu Cramérův koeficient Interpretace 0.0 - 0.1 zanedbatelný stupeň závislosti 0.1 - 0.3 slabý stupeň závislosti 0.3 - 0.7 střední stupeň závislosti 0.7- 1.0 silný stupeň závislosti [1] 0.0645725 10 Interpretace výsledků: Hodnota Cramérova koeficientu vyšla..........................Mezi vzděláním matky a porodní hmotností novorozence existuje...................................................................stupeň.................................................. 3.2 Číselné charakteristiky pro ordinální znaky Příklad 3.3. Základní číselné charakteristiky pro ordinální znak Načtěte datový soubor 17-anova-newborns-2.txt a odstraňte neznámé hodnoty. Zaměřte se pouze na novorozence ženského pohlaví s vysokou porodní hmotností. Zjistěte dimenzi datové tabulky obsahující údaje o těchto novorozencích a vytvořte tabulku základních číselných charakteristik pro znak X = počet starších sourozenců. Řešení příkladu 3.3 [1] 14 5 11 Po odstranění neznámých hodnot obsahuje datová tabulka údaje o........................novorozencích ženského pohlaví s vysokou porodní hmotností, přičemž u každého z těchto novorozenců máme záznamy o ........................znacích. Znak X = počet starších sourozenců novorozence je příkladem ................................................ dat. V tabulce základních charakteristik budou obsaženy následující charakteristiky: minimální hodnota, dolní kvartil, medián, horní kvartil, maximální hodnota a interkvartilové rozpětí. 1. minimální hodnota Xmin = .......................................... 2. dolní kvartil a:o.2! • n ■■ n = ................................................................. —> je / není celé číslo • «0.25 2 3. medián 2:0.50 • n = ........................, a = ........................ • a x n = ................................................................. —» je / není celé číslo • 2JQ.50 = 4. horní kvartil £0.75 • n = ........................, a =........................ • a x n = ................................................................. —> je / není celé číslo • 2:0.75 = 5. maximálni hodnota xmax = .......................................... 6. interkvartilové rozpětí IQR = 2:0.75 — ^0.25 = .......................................... min dolni.kv median hôrni.kv max IQR 257, 0 0 1 2 3 2 12 13 Interpretace výsledků: Počet starších sourozenců u novorozenců ženského pohlaví s vysokou porodní hmotností se pohyboval v rozmezí ........................-......................... Dolní kvartil počtu starších sourozenců nabývá hodnoty........................, tj.................% novorozenců ženského pohlaví s vysokou porodní hmotností má ........................starších sourozenců. Medián počtu starších sourozenců nabývá hodnoty ........................, t j................. % novorozenců ženského pohlaví s vysokou porodní hmotností má........................nebo ........................starších sourozenců. Horní kvartil počtu starších sourozenců nabývá hodnoty........................, tj.................% novorozenců ženského pohlaví s vysokou porodní hmotností má............, ............ nebo ............ starších sourozenců. Hodnota interkvarti- lového rozpětí je rovna......................... ★ Příklad 3.4. Krabicový diagram Sestrojte krabicový diagram pro znak X = počet starších sourozenců pro novorozence ženského pohlaví s vysokou porodní hmotností. Zaměřte se na vzhled krabicového diagramu a zamyslete se nad tím, kde je v krabicovém diagramu zobrazen medián, dolní kvartil, horní kvartil a interkvartilové rozpětí. Řešení příkladu 3.4 3.0 -I ; 2.5 - 2.0 - i-'■-1 1.5 - 1.0 - - 0.5 - 0.0 -|_I —I_ počet starších sourozenců ★ 3 Příklad 3.5. Charakteristika závislosti mezi ordinálními znaky Zaměřme se nyní na oba znaky X = počet starších sourozenců a Y = porodní hmotnost novorozence najednou. Určete míru závislosti mezi znaky Xaľu novorozenců ženského pohlaví. Řešení příkladu 3.5 Znak X je................................................typu, zatímco znak Y je................................................typu —> ke znaku Y budeme přistupovat jako ke znaku ................................................ typu. Ke stanovení míry závislosti použijeme ................................................ koeficient................................................ korelace. Stupnice těsnosti závislosti mezi dvěma znaky podle hodnoty Spearmanova koeficientu pořadové korelace je uvedena v tabulce 4. Tabulka 4: Stupnice míry závislosti podle Spearmanova a Pearsonova korelačního koeficientu Spearmanův (Pearsonův) koeficient Interpretace 0.0 pořadová (lineární) nezávislost 0.0 - 0.1 velmi nízký stupeň závislosti 0.1 - 0.3 nízký stupeň závislosti 0.3 - 0.5 mírný stupeň závislosti 0.5 - 0.7 význačný stupeň závislosti 0.7-0.9 vysoký stupeň závislosti 0.9 - 1.0 velmi vysoký stupeň závislosti 1.0 úplná pořadová (lineární) závislost [1] 0.05918883 14 Interpretace výsledku: Hodnota Spearmanova koeficientu pořadové korelace vyšla.................................... Mezi počtem starších sourozenců a porodní hmotností novorozence ženského pohlaví existuje............................................. stupeň ................................................................................. závislosti. 3.3 Číselné charakteristiky pro intervalové znaky Příklad 3.6. Základní číselné charakteristiky pro intervalový znak Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Zaměřte se pouze na znak X = největší šířka mozkovny pro skelety mužského pohlaví. Vytvořte tabulku základních číselných charakteristik pro znak X. Řešení příkladu 3.6 id pop sex skull.L skull.B 1 416 egant m 188 145 2 417 egant m 172 139 3 420 egant m 176 138 Po odstranění neznámých hodnot obsahuje datová tabulka údaje o ........................ skeletech mužského pohlaví. Znak X = největší šířka mozkovny pro skelety mužského pohlaví je příkladem ...................................................... dat. V tabulce základních číselných charakteristik budou obsaženy následující charakteristiky: aritmetický průměr, směrodatná odchylka, minimální hodnota, dolní kvartil, medián, horní kvartil, maximální hodnota, interkvartilové rozpětí, koeficient šikmosti a koeficient špičatosti. 4 1. aritmetický průměr m i • m = - Ei=i Xi = 2. rozptyl s2 • s2 = ^iT2=i(xi-m)2 = 3. směrodatná odchylka s • s = -v/š2 = 4. minimálni hodnota .ťmi„ = ....... 5. dolní kvartil «0.25 • n = ........................, a = ........................ • a x n = ................................................................. —> je / není celé číslo —> • £0.25 = 6. medián £0.50 • n = ........................, a = ........................ • q, x n = ................................................................. —> je / není celé číslo —> • £0.50 = 7. horní kvartil £0.75 • n = ........................, a = ........................ • q, x n = ................................................................. —> je / není celé číslo —> • £0.75 = 8. interkvartilové rozpětí IQR = X0.75 — £0.25 = 9. maximálni hodnota xmax = ........................ 10. koeficient šikmosti 61 • 61 = ........................ 11. koeficient špičatosti &2 • b2 = ........................ m s min dolni.kv median hôrni.kv max IQR s ikmost spicatost muži 137.19 4.81 124 134 137 140 149 6 0. 08 -0.3 19 20 5 Interpretace výsledků: Naměřené hodnoty největší šířky mozkovny pro skelety mužského pohlaví se pohybují v rozmezí...................-................... mm. Průměrná hodnota největší šířky mozkovny je ..............................mm se směrodatnou odchylkou........................mm. 25% naměřených hodnot je menších nebo rovných.............................. mm, 50% naměřených hodnot je menších nebo rovných................................................mm, 75% naměřených hodnot je menších nebo rovných ................................................mm. Interkvartilové rozpětí naměřených hodnot je rovno ....................... Hodnota koeficientu šikmosti, ........................, ukazuje na ............................................ zešikmená data (prodloužený............................................konec). Hodnota koeficientu špičatosti, .........................................., ukazuje na................................................ charakter dat. Příklad 3.7. Charakteristika závislosti pro znaky intervalového typu Zaměřme se nyní na znaky X = největší šířka mozkovny a Y = největší délka mozkovny pro skelety mužského pohlaví najednou. Určete míru závislosti mezi znaky X &Y. Řešení příkladu 3.7 Oba znaky X a Y jsou ................................................................ typu. Ke stanovení míry závislosti použijeme .........................................................korelační koeficient. Stupnice těsnosti závislosti mezi dvěma znaky podle hodnoty Pearsonova korelačního koeficientu je uvedena výše v tabulce 4. [1] 0.168157 21 Interpretace výsledků: Pearsonův korelační koeficient nabývá hodnoty ....................................... Mezi největší šířkou mozkovny a největší délkou mozkovny pro skelety mužského pohlaví existuje......................................stupeň ............................................................................závislosti. Příklad 3.8. Dvourozměrný tečkový diagram Pro znaky X = největší šířka mozkovny a Y = největší délka mozkovny u mužů vykreslete dvourozměrný tečkový diagram. Řešení příkladu 3.8 200 195 H 190 185 180 H 175 170 -165 - T 8°, °o o 8 o °o§8l88§P 8 °§g§g8Í88o8ooO0 0 o8°o|°8|o88 B°8 8 o 888o °88° 008 o o °8ooo T T" T" T 125 130 135 140 145 nejvetsi sirka mozkovny (mm) 150 6