3 Základní číselné charakteristiky V předchozí kapitole jsme se seznámili se základními metodami umožňující prvotní náhled na datový soubor, přičemž jsme se v závislosti na typu sledovaného znaku, který byl buď kategoriální nebo spojitý zabývali různými metodami číselné a grafické vizualizace. Metody představené v kapitole ?? mají jednu společnou vlastnost. Vždy nám poskytují široké množství informací o sledovaném znaku, což nám umožňuje utvořit si globální a ucelený pohled na tento znak. Nevýhodou však může být právě přemíra informací, která se jednak hůře interpretuje a jednak neumožňuje snadné porovnávání znaků z různých datových souborů. Výše uvedené nedostatky vedly k potřebě zavedení pojmů, které elegantně a jednoduše vystihují základní charakteristické rysy sledovaného znaku. Tyto pojmy se nazývají číselné charakteristiky a jejich výhodou je, že sledované vlastnosti znaku dokáží vystihnout pomocí jednoho čísla. Podle vlastnosti, kterou popisují rozlišujeme celkem čtyři základní typy číselných charakteristik: (1) charakteristiky polohy; (2) charakteristiky variability; (3) charakteristiky symetrie; (4) charakteristiky závislosti. Podoně jako jsme si v sekci ?? představili odlišné výpočetní a grafické metody pro znaky diskrétního typu a pro znaky spojitého typu, tak i zde používáme různé číselné charakteristiky pro různé typy znaků. Celkem rozlišujeme tři základní typy znaků: (a) nominální znaky; (b) ordinální znaky; (c) intervalové znaky. Přehled číselných charakteristik používaných v závislosti na typu znaku a vlastnosti, kterou popisují, je uveden v tabulce 1. Tabulka 1: Přehled číselných charakteristik v závislosti na typu znaku a popisované vlastnosti Poloha Variabilita Symetrie Závislost Nominální modus - - Cramérův koeficient Ordinální medián mezikvartilové rozpětí - Spearmanův korel. koeficient Intervalová aritmetický průměr rozptyl směrodatná odchylka koeficient šikmosti koeficient špičatosti Pearsonův korel. koeficient 3.1 Číselné charakteristiky pro nominální znaky Příklad 3.1. Charakteristika polohy nominálního znaku Navažme na práci s datasetem 17-anova-newborns.txt. V rámci sekce ?? jsme jako mezivýstup příkladu ?? získali kontingenční tabulku simultánních absolutních četností znaků X = vzdělání matky &Y = porodní hmotnost novorozence (viz tabulka 2). Znaky X a Y jsou typickým příkladem znaků nominálního typu. Najděte modus pro znak vzdělání matky i pro znak porodní hmotnost novorozence. Tabulka 2: Simultánní absolutní četnosti znaků vzdělání matky a porodní hmotnost novorozence nízká norma vysoká zs 75 264 8 ss 79 325 20 SSm 73 341 11 VS 13 63 4 Řešení příkladu 3.1 Kontingenční tabulku simultánních absolutních četností znaků X & Y bychom mohli získat provedením posloupností kroků uvedených příkladech ??-??, tj. načtením datového souboru 17-anova-newborns.txt, odstraněním neznámých hodnot, vyselektováním údajů o novorozencích s maximálně dvěma staršími sourozenci, kategorizací spojité proměnné weight.C a vytvořením tabulky simultánních absolutních četností pro znaky X a Y. My však využijeme znalosti tabulky 2 a kontingenční tabulku simultánních absolutních četností vytvoříme pomocí příkazu data.frame(). 1 (data <- data.frame(nizka = c( 75, 79, 73, 13), 2 norma = c(264, 325, 341, 63), 1 3 4 vysoká = c( 8, 20 , 11 , 4) , row.names = c('ZS', 'SS', ' SSm', 'VS ' ))) nizka norma vysoká ZS 75 264 8 SS 79 325 20 SSm 73 341 11 VS 13 63 4 Zaměřme se nejprve na znak X. Číselná charakteristika modus je definována jako nejčetnější varianta sledovaného znaku. K získání modu znaku X = vzdělání matky musíme zjistit četnost výskytu jednotlivých variant tohoto znaku bez ohledu na porodní hmotnost novorozence. Jinými slovy potřebujeme vypočítat vektor absolutních marginálních četností nj. pro varianty znaku X. Analogicky jako v příkladu ?? použijeme funkci apply() se specifikací argumentů MARGIN = 1 a FUN = sum. (nj . <- apply(data, MARGIN = = 1, FUN = = sum) ) ZS ss SSm VS 347 424 425 80 11 12 Interpretace výsledků: Nejčetnější variantou znaku vzdělánímatky je středoškolské vzdělání s maturitou (nssm = 425). Nejvíce novorozenců v datovém souboru s maximálně dvěma staršími sourozenci se narodilo matkám s dokončeným středoškolským vzděláním s maturitou. Analogicky najdeme modus znaku Y = porodní hmotnost novorozence. K získání modu pro znak Y musíme zjistit četnost výskytu jednotlivých variant tohoto znaku bez ohledu na vzdělání matky. Jinými slovy potřebujeme vypočítat vektor absolutních marginálních četností n.k pro varianty znaku Y. Opět použijeme funkci apply() tentokrát se specifikací argumentu MARGIN = 2. 13 (n.k <- apply(data, MARGIN = 2, FUN = sum)) nizka norma vysoká 240 993 43 14 15 Interpretace výsledků: Nejvíce novorozenců v datovém souboru s maximálně dvěma staršími sourozenci mělo porodní hmotnost v normě (nnorma = 993). * Příklad 3.2. Charakteristika závislosti mezi dvěma nominálními znaky Zaměřme se nyní na oba znaky X = vzdělání matky &Y = porodní hmotnost novorozence najednou. Určete míru závislosti mezi znaky X a Y . Řešení příkladu 3.2 Protože X a Y jsou znaky nominálního typu, použijeme na určení míry závislosti mezi nimi Cramérův koeficient. Tento koeficient nabývá hodnoty z intervalu (0 ; 1), přičemž vyšší hodnota Cramérova koeficientu ukazuje na těsnější vztah mezi oběma znaky. Stupnice míry závislosti podle hodnoty Cramérova koeficientu je uvedena v tabulce 3. Tabulka 3: Stupnice míry závislosti pro Cramérův koeficient Cramérův koeficient rc Interpretace (0.0; 0.1) Zanedbatelný stupeň závislosti (0.1; 0.3) Slabý stupeň závislosti (0.3; 0.7) Střední stupeň závislosti (0.7; 1.0) Silný stupeň závislosti 2 Presným postupem výpočtu Cramérova koeficientu se budeme zabývat v kapitole ??. Nyní stanovíme hodnotu Cramérova koeficientu pomocí funkce cramersV(), která je součástí knihovny Isr. Abychom mohli funkci cramersV() použít, musíme knihovnu Isr nainstalovat (RStudio —> multifunkční okno —> záložka Packages —> ikona Install —> knihovna: Isr —> Install) a načíst. Celou knihovnu Isr je možné načíst příkazem library(lsr). Pro nás je však zbytečné načítat celou knihovnu, proto pomocí operátoru :: pouze zavoláme z knihovny Isr funkci cramersV(). 16 lsr::cramersV(data) [1] 0.05502639 17 Interpretace výsledků: Cramérovův koeficient nabývá hodnoty 0.0550. Mezi vzděláním matky a porodní hmotností novorozence existuje zanedbatelný stupeň závislosti. Jft Dataset 3: Zakončení palmárních linií Ve vzorku, který tvořilo 200 studentů (100 mužů a 100 žen), byly štandartní dermatoglyfickou metodikou snímané dermatoglyfy dlaně (Býmová, 1990; soubor 22-multinom-palmar-lines.txt). Na otiscích byla hodnocena zakončení tří hlavních palmárních linií (D, C, a B). Případy byly podle vzoru zakončení (vyústění proximálních radiantů digitálních trirádií na štandartne číslovaných polohách okraje dlaně) rozdělené do tří kategorií. Současně byla hodnocena barva vlasů podle štandartní Fischer-Sallerové stupnice 30 odstínů (Martin a Saller, 1957-1966, s. 391), které byly rozděleny do tří skupin. K dispozici máme početnosti jedinců v jednotlivých kategoriích, zvlášť pro muže a pro ženy. Popis proměnných v datasetu 3: • sex - pohlaví (m - muž, f - žena); • palmár.lineš - zakončení tří palmárních linií (Hi - vysoké (nejčastější vzorec 11 9 7), Mi - střední (nejčastější vzorec 9 7 5), Lo - nízké (nejčastější vzorec 7 5 5)); • hair.C - barva vlasů (LiH - světlé, MH - střední, DaH - tmavé). Příklad 3.3. Charakteristika polohy nominálního znaku Načtete datový soubor 22-multinom-palmar-lines.txt a prohlédněte si jej. Z tabulky vyselektujte pouze údaje týkající se znaků X = barva vlasů a Y = zakončení palmárních linií u žen. Změňte záhlaví tabulky tak, aby názvy jednotlivých variant znaku X = barva vlasů byly: světlé, střední a tmavé; a názvy jednotlivých variant znaku Y = zakončení palmárních linií byly: vysoké, střední a nízké. Stanovte vhodnou charakteristiku polohy pro znak X i pro znak Y. Řešení příkladu 3.3 Datový soubor načteme příkazem read.delimQ. (data <- read .delimC'22- mult inom-palmar-lines.txt')) m Hi Mi Lo X f Hi.l Mi.l Lo.l 1 LiH 6 6 4 NA LiH 4 6 6 2 MH 20 15 7 NA MH 18 10 10 3 DaH 18 12 12 NA DaH 12 22 12 Načtená datová tabulka obsahuje celkem 9 sloupců, z nichž první čtyři sloupce tvoří tabulku simultánních absolutních četností výskytu dvojic variant znaků X a Y pro muže, pátý sloupec obsahuje NA hodnoty sloužící jako oddělovače tabulky s údaji pro muže od tabulky s údaji pro ženy a poslední čtyři sloupce tvoří tabulku simultánních absolutních četností výskytu dvojic variant znaků X &Y pro ženy. Pomocí logického operátoru [ ] vybereme z tabulky data pouze simultánní absolutní četnosti znaků barva vlasů a zakončení palmárních liniíu žen a vložíme je do proměnné data.f. Příkazem row.names() doplníme do tabulky data.f názvy řádků příslušející jednotlivým variantám znaku X = barva vlasů. Příkazem names() doplníme do tabulky názvy sloupců příslušející variantám znaku Y = zakončení palmárních linií. 3 23 data.f <- data[, 7:9] 24 row.names(data.f) <- c('světle', 'stredni', 'tmavé') 25 names(data.f) <- c('vysoké', 'stredni', 'nizke') 26 data.f vysoké stredni nizke svetle 4 6 6 stredni 18 10 10 tmavé 12 22 12 27 28 29 30 Znaky X a Y jsou nominálního typu, proto jako vhodnou charakteristiku polohy zvolíme v obou případech modus. K získání modu znaku X musíme zjistit četnost výskytu jednotlivých variant tohoto znaku bez ohledu na typ zakončení palmárních linií. Pomocí funkce apply() se specifikací argumentů MARGIN = 1 a FUN = sum najdeme marginální vektor absolutních četností jednotlivých variant znaku X. 31 (nj. <- apply(data.f, MARGIN = 1, FUN = sum)) svetle stredni tmavé 16 38 46 32 33 Interpretace výsledků: Nejčetnější variantou znaku barva vlasů u žen v datovém souboru je tmavá barva (wtmavé = 46). Nejvíce žen v datovém souboru mělo tmavé vlasy. Analogicky najdeme modus znaku Y = zakončení palmárních linií. K získání modu znaku Y u žen musíme zjistit četnost výskytu jednotlivých variant tohoto znaku bez ohledu na barvu vlasů žen. Funkci apply() nyní použijeme se specifikací argumentu MARGIN = 2. 34 (n.k <- apply(data.f, MARGIN = 2, FUN = sum)) vysoké stredni nizke 34 38 28 35 36 Interpretace výsledků: Nejvíce žen v datovém souboru mělo střední zakončení palmárních linií (nstřední = 38). Jft Příklad 3.4. Charakteristika závislosti mezi dvěma nominálními znaky Zaměřme se nyní na oba znaky X = barva vlasů a Y = zakončení palmárních linií u žen najednou. Určete míru závislosti mezi znaky X &Y. Řešení příkladu 3.4 Protože X a Y jsou znaky nominálního typu, použijeme na určení míry závislosti mezi nimi Cramérův koeficient. Hodnotu Cramérova koeficientu stanovíme pomocí funkce cramersV() z knihovny Isr. 37 lsr::cramersV(data.f) [1] 0.1785374 38 Interpretace výsledků: Cramérův koeficient nabývá hodnoty 0.1785. Mezi barvou vlasů a zakončením palmárních linií u žen existuje slabý stupeň závislosti. Jft 3.2 Číselné charakteristiky pro ordinální znaky Příklad 3.5. Základní číselné charakteristiky pro ordinální znak Načtěte datový soubor 17-anova-newborns.txt, ze souboru odstraňte neznámé hodnoty a zjistěte dimenzi datové tabulky. Zaměřte se tentokrát na všechny novorozence v datovém souboru a vytvořte tabulku vhodných základních číselných charakteristik pro znak X = počet starších sourozenců. Řešení příkladu 3.5 Nejprve načteme datový soubor (read.delimQ), odstraníme neznámé hodnoty (na.omitQ) a vypíšeme dimenzi datové tabulky (dimQ). 4 39 data <- read.delim('17-anova-newborns.txt') 40 data <- na.omit(data) 41 dim(data) [1] 1382 42 Po odstranění neznámých hodnot obsahuje datová tabulka údaje o 1382 novorozencích, přičemž u každého novorozence máme záznamy o čtyřech znacích. Znak X = počet starších sourozenců novorozence je příkladem ordinálních dat. Ordinální data můžeme navzájem porovnávat, (nula starších sourozenců je méně než jeden starší sourozenec a to je méně než dva starší sourozenci), ale uvědomujeme si, že rozestupy mezi sousedními variantami nejsou stejné (rozdíl prvorodičkou a druhorodičkou je propastnější než rozdíl mezi druhorodičkou a třetirodičkou). V tabulce základních charakteristik budou obsaženy následující charakteristiky: minimální hodnota, dolní kvartil, medián, horní kvartil, maximální hodnota a mezikvar-tilové rozpětí. Výpočet a-kvantilu xa Předpokládejme, že a je libovolná hodnota z intervalu (0; 1). Pojmem a-kvantil, nebo také a x 100% kvantil, značíme takové číslo xa, pro které a x 100% hodnot z datového soubotu leží nalevo od xa a (1 — a) x 100% hodnot leží napravo od xa. Výpočet a-kvantilu je tedy úzce spjatý s počtem objektů v datovém souboru n. Při výpočtu a-kvantilu mohou nastat dvě situace: 1. n x a = c, kde c je celé číslo. V takovém případě dopočítáme hodnotu kvantilu xa jako aritmetický průměr c-tého a (c+ l)-tého čísla v posloupnosti seřazených naměřených hodnot, tj. xa=(d 2. n x a = c, kde c není celé číslo. V takovém případě zaokrouhlíme c na nejbližší vyšší celé číslo a hodnota kvantilu xa je rovna c-tému číslu v posloupnosti seřazených naměřených hodnot, tj. C(c) (2) Nejprve se zaměříme na výpočet dolního kvartilu znaku X = počet starších sourozenců. Koeficient a je v tomto případě rovný 0.25, počet novorozenců n = 1382. Součin c = n x a = 1382 x 0.25 = 345.5 není celé číslo, proto jej zaokrouhlíme na nejbližší vyšší celé číslo, tj. 346. Dolní kvartil 0:0.25 bude potom odpovídat 346. hodnotě v posloupnosti seřazených naměřených hodnot. Hodnoty ve vektoru prch seřadíme vzestupně pomocí příkazu sort(). V pořadí 346. hodnotu ze seřazeného vektoru prch získáme pomocí operátoru [ ]. 43 prch <- sort(data$prch) 44 prch [346] [1] 0 45 «0.25 = «(346) = 0- (3) V případě výpočtu mediánu 2:0.50 Je a = 0-50 a počet novorozenců n = 1382. Součin c = n x a = 1382x0.50 = 691 je celé číslo, proto hodnotu mediánu stanovíme jako průměr hodnot na 691. a 692. pozici v seřazeném vektoru prch. 46 prch [691] 47 [1] 1 48 prch [692] [1] 1 I 49 5 x(691) + x(692) 1 + 1 1 «0.50 = -ž- = — = 1. Při výpočtu horního kvartilu ^0.75 je a = 0.75 a počet novorozenců n = 1382. Součin c = n x a = 1382 x 0.75 = 1036.5 není celé číslo, proto jej zaokrouhlíme na nejbližší vyšší celé číslo, tj. 1037, a horní kvartil bude odpovídat 1037. hodnotě v posloupnosti seřazených naměřených hodnot. 50 prch[1037] [1] 1 I 51 XO.75 = £(1037) = 1. Mezikvartilové rozpětí spočítáme odečtením dolního kvartilu od horního kvartilu, tj. IQR = OJo.75 - «0.50 = 1-0=1. Všechny výše zmíněné charakteristiky můžeme vypočítat také pomocí funkcí implementovaných v softwaru ď. Hodnoty kvantilů stanovíme příkazem quantile(). Prvním argumentem příkazu bude vektor seřazených nebo neseřazených údajů o počtu starších sourozenců (prch). Druhým argumentem probs specifikujeme hodnotu a (0.25, 0.50, resp. 0.75). Nakonec specifikací argumentu type = 2 vybereme z devíti možných metod výpočtu, které funkce quantile() poskytuje, metodu odpovídající ručnímu výpočtu. Interkvartilové rozpětí vypočítáme pomocí funkce IQR() opět se specifikací argumentu type = 2. Nakonec stanovíme minimální, resp. maximální počet starších sourozenců u novorozenců v datovém souboru pomocí příkazu min(), resp. max() a všechny hodnoty vložíme do tabulky příkazem data.frame(). 52 x0.25 <- quantile(prch, probs = 0.25, type = 2) 53 x0.50 <- quantile(prch, probs = 0.50, type = 2) 54 x0.75 <- quantile(prch, probs = 0.75, type = 2) 55 IQR <- IQR(prch, type = 2) 56 min <- min(prch) 57 max <- max(prch) 58 (Tab <- data.frame(min = min, dolni.kv = xO.25, medián = xO.50, 59 horni.kv = x0.75, max = max, IQR = IQR, 60 row.names = 'počet st. sourozenců')) min dolni.kv median horni kv max IQR počet st . sourozenců 0 0 1 1 9 1 Interpretace výsledků: Počet starších sourozenců u novorozenců v datovém souboru se pohybuje v rozmezí 0-9. Dolní kvartil počtu starších sourozenců nabývá hodnoty 0, tj. 25% novorozenců v datovém souboru nemá více než nula starších sourozenců. Medián počtu starších sourozenců nabývá hodnoty 1, tj. 50% novorozenců v datovém souboru má jednoho staršího sourozence nebo méně. Horní kvartil počtu starších sourozenců nabývá hodnoty 1, tj. 75% novorozenců v datovém souboru má jednoho staršího sourozence nebo méně. Hodnota mezikvartilového rozpětí je rovna jedné. Jft Příklad 3.6. Krabicový diagram Sestrojte krabicový diagram pro znak X = počet starších sourozenců novorozence. Zaměřte se na vzhled vykresleného grafu a zamyslete se nad polohou mediánu, dolního kvartilu, horního kvartilu a mezikvartilového rozpětí v krabicovém diagramu. Řešení příkladu 3.6 Krabicový diagram vykreslíme příkazem boxplot(). Prvním argumentem bude vektor počtu starších sourozenců prch, argumentem type = 2 vybereme k výpočtu kvantilů zobrazených v grafu metodu analogickou ručnímu výpočtu. Dále nastavíme barvu výplně grafu (col), barvu ohraničení grafu (border), barvu mediánu (medcol) v zelených odstínech a vodorovné vykreslení popisků u měřítka osy y (las). Argumentem xlab = ' ' zamezíme vypsání popisku osy x. Ten doplníme do grafu samostatně pomocí příkazu mtext(). Prvním argumentem tohoto příkazu bude text popisku. Argumentem side = 1 specifikujeme umístění popisku pod dolní stranu grafu a argumentem line zvolíme umístění popisku do výšky 1.5. 6 63 boxplot(prch, type = 2, col = 'darkolivegreenl', 64 border = 'chartreuse4', medcol = 'darkgreen', 65 las = 1, xlab = '') 66 mtext('počet starších sourozenců', side = 1, line = 1.5) počet starších sourozenců Příklad 3.7. Charakteristika závislosti mezi ordinálními znaky Zaměřme se nyní na znaky X = počet starších sourozenců &Y = porodní hmotnost novorozence najednou. Určete míru závislosti mezi znaky X &Y. Řešení příkladu 3.7 Znak X je ordinálního typu, zatímco znak Y je typickým případem znaku intervalového typu. Vzhledem k tomu, že znaky intervalového typu jsou bohatší na informace než znaky ordinálního typu, můžeme k nim bez jakékoli újmy přistupovat jako k ordinálním znakům. Konkrétně tedy na znak Y budeme v tomto případě nahlížet jako na ordinální znak. Ke stanovení míry závislosti mezi znaky X a Y použijeme Spearmanův koeficient pořadové korelace r$- Tento koeficient nabývá hodnoty mezi -1 a 1, tj. r$ G (—1; 1), přičemž kladné znaménko koeficientu určuje přímý směr pořadové závislosti a záporné znaménko určuje nepřímý směr pořadové závislosti. Stupnice těsnosti závislosti mezi dvěma znaky podle hodnoty Spearmanova koeficientu r s je uvedena v tabulce 4. Detailněji se na výpočet Spear-manova koeficientu pořadové korelace zaměříme v kapitole ??. Spearmanův koeficient pořadové korelace r$ vypočítáme pomocí funkce cor() se specifikací argumentu method = 'spearman'. První dva argumenty zadané do funkce budou vektory naměřených hodnot znaků X (prch) a Y (wei). 67 prch <- data$prch.N 68 wei <- data$wei 69 (rS <- cor(prch, wei, method = 'spearman')) [1] 0.04761724 70 Interpretace výsledků: Hodnota Spearmanova koeficientu pořadové korelace r s = 0.0476. Mezi počtem starších sourozenců a porodní hmotností novorozence existuje velmi nízký stupeň přímé pořadové závislosti. £ Příklad 3.8. Dvourozměrný tečkový diagram Pro znaky X = počet starších sourozenců &Y = porodní hmotnost novorozence vykreslete dvourozměrný tečkový diagram. Pozastavte se nad vzhledem tečkového diagramu a jeho vztahem k hodnotě Spearmanova koeficientu pořadové korelace. 7 Tabulka 4: Stupnice míry závislosti pro Spearmanův a Pearsonův korelační koeficient \rs\, resp. ri2 Interpretace 0.0 Pořadová (resp. lineární) nezávislost (0.0 0.1) Velmi nízký stupeň závislosti (0.1 0.3) Nízký stupeň závislosti (0.3 0.5) Mírný stupeň závislosti (0.5 0.7) Význačný stupeň závislosti (0.7 0.9) Vysoký stupeň závislosti (0.9 1.0) Velmi vysoký stupeň závislosti 1.0 Úplná pořadová (resp. lineární) závislost Řešení příkladu 3.8 Dvourozměrný tečkový diagram sestrojíme příkazem dotplot(), který je součástí RSkriptu Sbirka-AS-l-2018-funkce.R. Ten načteme příkazem source(). Vykreslovaným bodům přisoudíme kulatý tvar pch = 21 s tmavě zeleným obvodem (col) a světlezelenou výplní (bg). Pomocí příkazu abline() dokreslíme do grafu horizontální referenční čáry (specifikace argumentu h) a vertikální referenční čáry (specifikace argumentu v). Poznamenejme, že v příkazu dotplot() jsme volbou argumentu main = ' ' zakázali vypsání nadpisu a volbou argumentu xlab = ' ' zase vypsání popisku osy x. Popisek osy x doplníme do grafu samostatně příkazem mtext(). Pomocí stejné funkce v kombinaci s funkcí bquote() přidáme do grafu druhý popisek s hodnotu Spearmanova koeficientu pořadové korelace r$ zaokrouhlenou na čtyři desetinná místa. Funkce bquote() zadaná uvnitř příkazu mtext() umožňuje vytvoření specifického popisku. Zápis r[S] vysází písmeno r s indexem S, tj. r$- Symbol == v příkazu bquote() odpovídá syntaxi symbolu = a vyjádření .(rS) vyčíslí hodnotu uloženou v proměnné rS, tj. 0.0476. 71 source('Sbirka-AS-I-2018 -funkce.R') 72 rS <- round(rS, digits = 4) 73 74 dotplot (prch , wei , main = ' ' , xlab = ' ' , 75 yla-b = 'porodni hmotnost novorozence (g) ' , pch = 21, 76 bg = 'darkolivegreenl', col = 'darkgreen') 77 78 abline(h = seq(0, 5000, by = 500), col = 'grey80', lty = 2) 79 abline(v = seq(l, 10, by = 1), col = 'grey80', lty = 2) 80 mtext('pocet starsich sourozenců', side = 1, line = 2.2) 81 mtext(bquote(r[S] == .(rS)), side = 1, line = 3.5) 8 5000 S 4000 - o 0 1 3000 - 2000 - o | 1000 o 0 2 4 6 počet starších sourozenců rs = 0.0476 3.3 Číselné charakteristiky pro intervalové znaky Příklad 3.9. Základní číselné charakteristiky pro intervalový znak Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Zaměřte se pouze na znak X = největší šířka mozkovny pro skelety mužského pohlaví. Vytvořte tabulku základních číselných charakteristik pro znak X. Řešení příkladu 3.9 Načtení datového souboru provedeme příkazem read.delim(), odstranění NA hodnot příkazem na.omit(). Pomocí podmnožinového operátoru [ ] vybereme z tabulky data pouze údaje o největší šířce mozkovny (skuli.B) pro muže. Naměřené hodnoty si příkazem sort() vzestupně seřadíme. 82 data <- read.delim('01-one-sample-mean-skuli-mf.txt') 83 data <- na.omit(data) 84 skuli.BM <- data[data$sex == 'm', 'skuli.B'] 85 skuli.BM <- sort(skuli.BM) 86 length(skuli.BM) [1] 216 87 Po odstranění neznámých hodnot obsahuje datová tabulka údaje o 216 skeletech mužského pohlaví. Znak X = největší šířka mozkovny pro skelety mužského pohlaví je příkladem intervalového typu dat. V tabulce základních číselných charakteristik budou obsaženy následující charakteristiky: aritmetický průměr, rozptyl, směrodatná odchylka, koeficient variace, minimální hodnota, dolní kvartil, medián, horní kvartil, maximální hodnota, mezikvartilové rozpětí, koeficient šikmosti a koeficient špičatosti. Nejprve se podíváme na ruční výpočet každé z těchto číselných charakteristik a následně provedeme kontrolu výsledků pomocí softwaru Qt. Aritmetický průměr m vypočítáme pomocí vzorce 1 ™ i=l kde Xi, i = 1,..., n, je i-tá naměřená hodnota a n = 216. 9 1 29 632 m =-(124 + 127 H-----h 149 + 149) =-= 137.1852. 216 216 Rozptyl s2 vypočítáme pomocí vzorce 1 ™ s2 =-^(^-m)2, (5) i=l kde Xi, i = 1,..., n, je i-tá naměřená hodnota, n = 216 a m je aritmetický průměr. s2 = — ((124 - 137.1852)2 + (127 - 137.1852)2 H-----h (149 - 137.1852)2 + (149 - 137.1852)2) 216 = — ((-13.1852)2 + (-10.1852)2 H-----h 11.81482 + 11.81482) 216 = 23.1694. Směrodatnou odchylku s vypočítáme jako odmocninu z rozptylu, tj. s = v^2 = V23.1694 = 4.8135. Koeficient variace v je definovaný jako podíl směrodatné odchylky a aritmetického průměru vynásobený 100%, tj. s 4 8135 v = — x 100% = —- x 100% = 0.035087 x 100% = 3.5087%. m 137.1852 Minimální naměřenou hodnotu nalezneme na první pozici v seřazeném vektoru skuli.BM. skuli.BM [1] [1] 124 89 V případě výpočtu dolního kvartilu postupujeme analogicky jako v příkladu 3.5. Koeficient a = 0.25, počet naměřených hodnot n = 216. Součin c = n x a = 216 x 0.25 = 54 je celé číslo, tedy hodnotu dolního kvartilu ^0.25 stanovíme jako průměr 54. a 55. hodnoty v posloupnosti seřazených naměřených hodnot. 90 skuli.BM [54] [1] 134 91 93 92 skuli.BM [55] [1] 134 «(54) + «(55) 134+ 134 «0.25 =-2-=-2-= Pro výpočet mediánu £0.50 Je a = 0-50 a počet naměřených hodnot n = 216. Součin c = n x a = 216 x 0.50 = 108 je celé číslo, proto hodnotu mediánu 2:0.50 stanovíme jako průměr hodnot na 108. a 109. pozici v posloupnosti seřazených naměřených hodnot. 94 skuli.BM [108] 95 [1] 137 96 skuli.BM [109] [1] 137 97 10 «(108) + «(109) 137+ 137 1or7 «0.50 =-^-=-2-= V případě výpočtu horního kvartilu je a = 0.75 a počet naměřených hodnot n = 216. Součin nxa = 216x0.75 = 162, je celé číslo, tedy hodnota horního kvartilu bude rovná průměru 162. a 163. hodnoty v posloupnosti seřazených naměřených hodnot. 98 skuli.BM [162] 99 [1] 140 100 skuli.BM [163] 101 [1] 140 «(162) +«(163) 140 + 140 «0.75 = —-'-^-L = -^- = M0- Maximální naměřenou hodnotu nalezneme na poslední pozici v seřazeném vektoru skull.BM. 102 skuli.BM [216] [1] 149 103 «max 149 Mezikvartilové rozpětí IQ R získáme odečtením hodnoty dolního kvartilu od hodnoty horního kvartilu, tj. IQR = x0.75 - x0,25 = 140 - 134 = 6. Koeficient šikmosti b\ vypočítáme pomocí vzorce h = iEľ=1(«;-^)3; (6) n s* kde Xi, i = 1,..., n, je i-tá naměřená hodnota, n = 216, m je aritmetický průměr a s je směrodatná odchylka. _ 1 (124 - 137.1852)3 + (127 - 137.1852)3 + ■ ■ ■ + (149 - 137.1852)3 + (149 - 137.1852)3 1 ~ 216 23.27723 1 ( —13.1852)3 + ( —10.1852)3 H-----h 11.81483 + 11.81483) ~ 216 4.8246423 = 2040-2" = 0.0841094 = 0.0841. 24257.67 Koeficient špičatosti &2 vypočítáme pomocí vzorce b2 = ^M-m)* -3, (7) n kde Xi, i = 1,..., n, je i-tá naměřená hodnota, n = 216, m je aritmetický průměr a s je směrodatná odchylka. _ 1 (124 - 137.1852)4 + (127 - 137.1852)4 H-----h (149 - 137.1852)4 + (149 - 137.1852)4 2 ~ 216 8.4246424 1 (—13.1852)4 + ( —10.1852)4 H-----h 11.81484 + 11.81484 ~ 216 4.8246424 316498.6 = ř™-3 = -°-295683 =-0-2957- Všechny výše zmíněné základní charakteristiky můžeme vypočítat pomocí funkcí zabudovaných v softwaru Oř. Aritmetický průměr získáme příkazem mean(), rozptyl pomocí funkcí mean() a sum() a směrodatnou odchylku jako odmocninu z rozptylu pomocí příkazu sqrtQ. Koeficient variace vypočítáme jako podíl směrodatné odchylky a 11 aritmetického průměru vynásobený stem. Minimální resp. maximální naměřenou hodnotu získáme příkazem min() resp. max(). Hodnotu dolního kvartilu, mediánu a horního kvartilu vypočítáme funkcí quantile() s volbou ruční metody výpočtu (type = 2), kde specifikací argumentu probs stanovíme hodnotu koeficientu a (0.25, 0.50 a 0.75) Mezikvartilové rozpětí spočítáme příkazem IQRQ opět se specifikací argumentu (type = 2). Koeficient šikmosti, resp špičatosti získáme pomocí funkce skewness(), resp. kurtosis(), které jsou součástí balíčku el071. Volbou argumentu type = 3 vybereme ze tří dostupných metod výpočtu koeficientů metody analogické vzorcům 6 a 7. Poznamenejme že balíček el071 není mezi defaultně nainstalovanými balíčky a je tedy potřeba jej doinstalovat. Na závěr všechny hodnoty vložíme do jedné tabulky (data.frame()), kterou vypíšeme se zaokrouhlením na čtyři desetinná místa (round()). 104 m <- mean(skuli.BM) 105 s2 <- 1 / 216 * sum ((skuli . BM - m)"2) 106 s <- sqrt(s2) 107 v <- s / m * 100 108 109 110 111 112 113 114 115 116 117 118 119 tab <- data.frame(m, var = s2, s, v, min, dolni.k = xO.25, medián = x0.50. 120 horni.k = xO.75, max, IQR, sikmost , spicatost, 121 row.names = 'm-S') 122 round(tab, digits = 4) min <- min ( skuli . BM) xO.25 <- quantile(skuli.BM , probs = = 0. 25, type = 2) x0.50 <- quantile(skuli.BM, probs = = 0. 50, type = 2) xO.75 <- quantile(skuli.BM , probs = = 0. 75, type = 2) IQR <- IQR(skuli.BM , type = 2) max <- max(skull.BM) sikmost <- e 1071 : :skewness(skull BM , type = 3) spicatost <- e 1071::kurto si s(skull BM , type = 3) m var s v min dolni.k median horni.k max IQR sikmost spicatost -S 137.1852 23.1694 4.8135 3.5087 124 134 137 140 149 6 0.0841 -0.2957 123 124 Interpretace výsledků: Naměřené hodnoty největší šířky mozkovny pro skelety mužského pohlaví se pohybují v rozmezí 124-149 mm. Průměrná hodnota největší šířky mozkovny u skeletů mužského pohlaví je 137.19 mm se směrodatnou odchylkou 4.81 mm, přičemž směrodatná odchylka představuje 3.51% aritmerického průměru. 25% naměřených hodnot je menších nebo rovných 134 mm, 50% naměřených hodnot je menších nebo rovných 137 mm a 75% naměřených hodnot je menších nebo rovných 140 mm. Mezikvartilové rozpětí má rozsah 6 mm. Hodnota koeficientu šikmosti, 0.0841, ukazuje na kladně zešikmená data s prodlouženým pravým koncem. Hodnota koeficientu šikmosti je však tak blízká nule, že zmíněný efekt zešikmení nebude téměř znatelný. Hodnota koeficientu špičatosti, -0.2957, ukazuje na plošší charakter dat. Jft Příklad 3.10. Charakteristika závislosti pro znaky intervalového typu Zaměřme se nyní na znaky X = největší šířka mozkovny a Y = největší délka mozkovny pro skelety mužského pohlaví najednou. Určete míru závislosti mezi znaky X &Y. Řešení příkladu 3.10 Oba znaky X a Y jsou intervalového typu. Ke stanovení míry závislosti mezi těmito znaky použijeme Pearsonův korelační koeficient r\2- Tento koeficient nabývá hodnoty mezi -1 a 1, tj. r\2 G ( — 1; 1), přičemž kladné znaménko koeficientu určuje přímý směr lineární závislosti a záporné znaménko určuje nepřímý směr lineární závislosti. Stupnice těsnosti závislosti mezi dvěma znaky podle hodnoty Pearsonova korelačního koeficientu je uvedena v tabulce 4 společně se stupnicí pro Spearmanův koeficient pořadové korelace. Hodnotu Pearsonova korelačního koeficientu spočítáme příkazem cor() se specifikací argumentu method = 'pear-son'. První dva argumenty příkazu budou vektory naměřených hodnot znaků X (skuli.BM) a Y (skuli.LM). 125 skuli.BM <- data[data$sex == 'm', 'skuli.B'] 126 skuli.LM <- data [data$sex == 'm', 'skuli.Ľ] 127 (rl2 <- cor(skuli.BM, skuli.LM, method = 'pearson')) 12 [1] 0.168157 128 Interpretace výsledků: Pearsonův korelační koeficient nabývá hodnoty 0.1682. Mezi největší šířkou a délkou mozkovny u skeletů mužského pohlaví existuje nízký stupeň přímé lineární závislosti. Jft Příklad 3.11. Dvourozměrný tečkový diagram Výslednou míru závislosti mezi znaky X = největší šířka mozkovny a Y = největší délka mozkovny pro skelety mužského pohlaví vizualizujeme pomocí dvourozměrného tečkového diagramu sestrojeného v rámci příkladu ??. Do diagramu doplníme akorát popisek s hodnotou Pearsonova korelačního koeficientu r\2- Řešení příkladu 3.11 Dvourozměrný tečkový diagram vykreslíme příkazem plot(), přičemž první dva argumenty budou vektory naměřených hodnot znaku X (skuli.BM) a znaku Y (skuli.LM), viz str.??. Argumentem xlab = ' ' zabráníme vypsání popisku osy x, který následně doplníme do grafu samostatně (příkaz mtext()) pod osu x (argument side) do výšky 2.3 (argument line). Analogicky přidáme do grafu řádek s hodnotou korelačního koeficientu. Text řádku generujeme příkazem bquote(), kde r[12] je syntaxe zápisu r\i, symbol == odpovídá syntaxi znaménka = a .(rl2) zajistí vypsání hodnoty uložené v proměnné rl2, tj. 0.1682. 129 rl2 <- round(rl2, digits = 4) 130 plot(skuli.BM , skuli.LM , pch = 21, col = 'darkblue', bg = 'mintcream', 131 xlab = '', ylab = 'nejvetsi délka mozkovny (mm) - muži', las = 1) 132 133 mtext('nej vet si sirka mozkovny (mm) - muži', side = 1, line = 2.3) 134 mtext (bquote (r [12] == .(rl2)), side = 1, line = 3.5) -a 200 195 190 185 180 175 170 165 T °o o 8 0 n o°oo °88 o 008 o š8°8ooo OQ O 3 O O 8808° OO r O OZ. o T T n-1- 125 130 135 140 145 150 nejvetsi sirka mozkovny (mm) - muzi r12 = 0.1682 Dataset 4: Délkové rozměry klíčních kostí Hodnocený soubor představují osteometrická data klíční kosti (clavicula) anglického souboru dokumentovaných skeletů (Parsons, 1916; soubor 03-paired-means-clavicle2.txt). Konkrétně jde o délku klíční kosti z pravé a levé strany těla v párovém uspořádání. Jednotlivé kosti bez druhostranné kosti nebyly do souboru zařazeny. Popis proměnných: • id - pořadové číslo jednice; • sex - pohlaví (m - muž, f - žena); 13 • length.R - délka kosti z pravé strany (mm); • length.L - délka kosti z levé strany (mm). Příklad 3.12. Základní číselné charakteristiky pro intervalový znak Načtěte datový soubor 03-paired-means-clavicle2.txt a vypište první čtyři řádky z načtené tabulky. Zjistěte, zda datový soubor obsahuje neznámé hodnoty a případně je z načteného souboru odstraňte. Zaměřte se pouze na znak X = délka levé klíční kosti pro skelety ženského pohlaví. Vytvořte tabulku základních číselných charakteristik pro znak X. Řešení příkladu 3.12 Načtení datového souboru provedeme příkazem read.delim(), první čtyři řádky tabulky vypíšeme příkazem head() se specifikací argumentu n = 4. 135 data <- read.delim( '03-paired-means-clavicle2.txt') 136 head(dat a , n = 4) id sex length.R len gth.L 1 66 m 126 130 2 69 m 158 159 3 71 m 153 151 4 72 m 145 147 137 138 139 140 141 143 Pomocí funkce is.na() zjistíme, zda datový soubor obsahuje neznámé hodnoty. 142 sum(is.na(data)) [1] 0 Datová tabulka neobsahuje žádné neznámé hodnoty. Pomocí podmnožinového operátoru [ ] nyní vybereme z tabulky data pouze údaje o levé klíční kosti (length.L) u skeletů ženského pohlaví. Naměřené hodnoty si příkazem sort() vzestupně seřadíme. 144 length.LF <- data[data$sex == 'i', 'length.L'] 145 length.LF <- sort(length.LF) 146 length(length.LF) [1] 50 147 m Datová tabulka obsahuje údaje o délkách levostranných klíčních kostí u 50 skeletů ženského pohlaví. Znak X = délka levé klíční kosti pro skelety ženského pohlaví je příkladem intervalového typu dat. V tabulce základních číselných charakteristik budou obsaženy následující charakteristiky: aritmetický průměr, rozptyl, směrodatná odchylka, koeficient variace, minimální hodnota, dolní kvartil, medián, horní kvartil, maximální hodnota, mezikvartilové rozpětí, koeficient šikmosti a koeficient špičatosti. Nejprve provedeme ruční výpočet každé z těchto číselných charakteristik a následně uskutečníme kontrolu pomocí softwaru Oř. Začneme výpočtem aritmetického průměru m, tj. 1 n 1 6 92T = - V Xi = —(121 + 127 + • • • + 162 + 162) = —— = 138.54. n ^-^ 50 50 7=1 Rozptyl s2 vypočítáme jako 1 ™ i=l = ^- ((121 - 138.54)2 + (127 - 138.54)2 + • • • + (162 - 138.54)2 + (162 - 138.54)2) = ((-17.54)2 + (-11.54)2 + • • • + 23.462 + 23.462) = = 70.5684. 50 14 Směrodatnou odchylku s stanovíme jako odmocninu z rozptylu, tj. s = Vs2 = ^70.5684 = 8.4005. Koeficient variace v je dopočítáme jako podíl směrodatné odchylky a aritmetického průměru vynásobený 100%, tj. v = — x 100% = fárTT x 100% = 0.060636 x 100% = 6.0636%. m 138.54 Minimální naměřenou hodnotu nalezneme na první pozici v posloupnosti seřazených naměřených hodnot. 148 length.LF [1] [1] 121 149 V případě výpočtu dolního kvartilu postupujeme analogicky jako v příkladech 3.5 a 3.9. Koeficient a = 0.25, počet naměřených hodnot n = 50. Součin c = n x a = 50 x 0.25 = 12.5 není celé číslo, tedy c zaokrouhlíme na nejbližsí vyšší celé číslo, tj. 13, a dolní kvartil bude rovný hodnotě umístěné na 13. pozici v seřazeném vektoru skuli.LF. 150 length.LF [13] [1] 134 151 «0.25 = «(13) = 134. Pro výpočet mediánu £0.50 Je a = 0.50 a počet naměřených hodnot n = 50. Součin c = n x a = 50 x 0.50 = 25 je celé číslo, proto medián stanovíme jako průměr hodnot umístěných na 25. a 26. pozici v seřazeném vektoru skuli.LF. 152 length.LF [25] [1] 137 153 155 154 length.LF [26] [1] 138 «(25) +«(26) 137+ 138 «0.50 — -2- ~~ -2- ~~ 137.5. V případě výpočtu horního kvartilu je a = 0.75 a počet naměřených hodnot n = 50. Součin n x a = 50 x 0.75 = 37.5, není celé číslo, tedy c zaokrouhlíme na nejbližsí vyšší celé číslo, tj. 38, a horní kvartil bude rovný hodnotě umístěné na 38. pozici v seřazeném vektoru skuli.LF. 156 length.LF [38] [1] 142 157 «0.75 = «(38) = 142. Maximální naměřenou hodnotu nalezneme na poslední pozici v posloupnosti seřazených naměřených hodnot. 158 length.LF [50] [1] 162 159 «max — 162. Mezikvartilové rozpětí IQR získáme odečtením hodnoty dolního kvartilu od hodnoty horního kvartilu, tj. IQR = «0.75 - «0.25 = 142 - 134 = 8. (8) 15 Koeficient šikmosti b\ vypočítáme pomocí vzorce 6, tj. bi 1 Eľ=i(^ ~mf n s3 1 (121 - 138.54)3 + (127 - 138.54)3 + ■ ■ ■ + (162 - 138.54)3 + (162 - 138.54)3 50 8.4857863 1 (-17.54)3 + (-11.54)3 + ■ ■ ■ + 23.463 + 23.463) 50 8.4857863 24 867.09 0.8139141 = 0.8139. 30 552.47 Koeficient špičatosti &2 stanovíme pomoci vzorce 7, tj. h = lEľ=1(*:-^)4_3 n s4 1 (121 - 138.54)4 + (127 - 138.54)4 H-----h (162 - 138.54)4 + (162 - 138.54)4 ~ 50 8.4246424 1 (-17.54)4 + (-11.54)4 H-----h 23.464 + 23.464 ~ 50 8.4857864 3 963 700.5 259 261.7 3 = 0.7170956 = 0.7171. Všechny výše zmíněné základní charakteristiky vypočítáme nyní pomocí funkcí zabudovaných v softwaru ď. Na závěr všechny hodnoty vložíme do jedné tabulky (data.frame()), kterou vypíšeme se zaokrouhlením na čtyři desetinná místa (round()). 160 m <- mean(length.LF) 161 s2 <- 1 / 50 * sum((len gth.LF - m) -2) 162 s <- sqrt(s2) 163 v <- s / m * 100 164 165 min <- min(length.LF) 166 x0.25 <- quantile(length .LF, probs = 0.25, type = 2) 167 x0.50 <- quantile(length .LF, probs = 0.50, type = 2) 168 xO.75 <- quantile(length .LF, probs = 0.75, type = 2) 169 IQR <- IQR(length.LF , type = 2) 170 max <- max(length.LF) 171 172 sikmost <- e 1071 : :skewness(length .LF, type = 3) 173 spicatost <- e 1071::kurto si s(length .LF, type = 3) 174 175 tab <- data.frame(m, var = s2 , s, v , min, dolni.k = xO .25, median = xO.50 , 176 hôrni. k = xO.75, max, IQR, sikmost, spicatost , 177 row.names = 'f-L' ) 178 round(tab, digits = 4) m var s v min dolni.k median hôrni.k max IQR sikmost spicatost f-L 138.54 70.5684 8.4005 É .0636 121 134 137.5 142 162 8 0.8139 0.7171 179 180 Interpretace výsledků: Délka levé klíční kosti u skeletů ženského pohlaví v datovém souboru se pohybuje v rozsahu od 121 mm do 162 mm. Průměrná hodnota délky levé klíční kosti u skeletů ženského pohlaví je 138.54 mm se směrodatnou odchylkou 8.40 mm, přičemž směrodatná odchylka představuje 6.06% aritmerického průměru. 25% naměřených hodnot je menších nebo rovných 134 mm, 50% naměřených hodnot je menších nebo rovných 137.5 mm a 75% naměřených hodnot je menších nebo rovných 142 mm. Mezikvartilové rozpětí pro délku levé klíční kosti je 8 mm. Hodnota koeficientu šikmosti, 0.8139, ukazuje na výrazněji kladně zešikmená data s prodlouženým pravým koncem. Hodnota koeficientu špičatosti, 0.7171, ukazuje na strmější charakter dat. Jft 16 Příklad 3.13. Krabicový diagram Pro znak X = délka levé klíční kosti u žen sestrojte krabicový diagram. Do grafu doplňte hodnotu aritmetického průměru a vypište legendu. Řešení příkladu 3.13 Krabicový diagram vykreslíme analogicky jako v příkladu 3.6 příkazem boxplot(). Příkazem mtext() doplníme do grafu popisek osy x na řádek 1.5. Hodnotu aritmetického průměru zaneseme do grafu pomocí funkce points(), kde prvním argumentem bude hodnota aritmetického průměru, kterou máme vloženou v proměnné m. Vykreslený bod bude kulatého tvaru s plným vnitřkem (pch = 20) v hnědé barvě (col). Nakonec do grafu doplníme legendu příkazem legend(), kde prvním argumentem specifikujeme pozici legendy vpravo dole ('bottomrighť). První člen legendy bude plná čára (Ity = c(l, NA)) o tloušťce 2 (Iwd = c(2, NA)). Druhý člen legendy bude ve tvaru kulatého bodu s plným vnitřkem (pch = c(NA, 20)). Barvy a popisky obou členů legendy specifikujeme argumenty col a legend. Nakonec odstraníme černý rámeček okolo legendy nastavením argumentu bty = V. 181 boxplot(length.LF , type = 2, xlab = ' ', las = 1, 182 col = 'lightgoldenrodyellow', border = 'khaki4', medcol = 'lightgoldenrod3') 183 mtext('délka leve klicni kosti (mm) - zeny', side = 1, line = 1.5) 184 185 points(m, pch = 20, col = 'brown') 186 legend('bottomright', lty = c(l, NA), pch = c(NA, 20), lwd = c(2, NA), 187 col = c('lightgoldenrod3 ' , 'brown'), 188 legend = c('median', 'prumer'), bty = 'n') 160 150 140 130 120 délka leve klicni kosti (mm) - zeny * Příklad 3.14. Charakteristika závislosti pro znaky intervalového typu Zaměřme se nyní na znaky X = délka levé klíční kosti a Y = délka pravé klíční kosti u skeletů ženského pohlaví najednou. Určete míru závislosti mezi znaky X a Y. Řešení příkladu 3.14 Oba znaky X a Y jsou intervalového typu. Ke stanovení míry závislosti mezi těmito znaky použijeme Pearsonův korelační koeficient r\i, který spočítáme příkazem cor() se specifikací argumentu method = 'pearson'. Prvními dvěma argumenty příkazu jsou vektory naměřených hodnot znaků X (length.LF) a Y (length.RF). 189 length.LF <- data [data$ sex == 'f', 'length. Ľ] 190 length.RF <- data[data$sex == 'f', 'length.R'] 191 (rl2 <- cor(length.LF, length.RF, method = 'pearson')) [1] 0.9296909 192 median prumer 17 Interpretace výsledků: Pearsonův korelační koeficient nabývá hodnoty 0.9297. Mezi délkou pravé a levé klíční kosti u skeletů ženského pohlaví existuje velmi vysoký stupeň přímé lineární závislosti. S rostoucí délkou pravé klíční kosti roste délka levé klíční kosti a naopak. Jft Příklad 3.15. Dvourozměrný tečkový diagram Výslednou míru závislosti mezi znaky X = délka levé klíční kosti &Y= délka pravé klíční kosti u skeletů ženského pohlaví vizualizujte pomocí dvourozměrného tečkového diagramu. Do diagramu doplňte popisek s hodnotou Pear-sonova korelačního koeficientu r 12 a referenční přímku x = y. Řešení příkladu 3.15 Analogicky jako v příkladu 3.11 vykreslíme dvourozměrný tečkový diagram příkazem plot(). Rozsah obou os, x i y stanovíme stejný (xlim = c(120, 165), ylim = c(120, 165)). Řádek s hodnotou korelačního koeficientu r 12 doplníme do grafu pomocí příkazu mtext(), přičemž obsah řádku vygenerujeme pomocí funkce bquote(). Z grafu vidíme, že naměřené hodnoty obou znaků X & Y se pohybují v podobných rozsazích, navíc mezi nimi pozorujeme přímý lineární trend, který máme podložený vysokou hodnotou Pearsonova korelačního koeficientu. Pro zvýraznění lineárního trendu mezi oběma znaky dokreslíme do grafu referenční lineární přímku x = y (příkaz abline()) se sklonem 1 (argument b = 1) procházející bodem 0 (argument a = 0). Vykreslená přímka bude mít tloušťku 1 (Iwd = 1) a hnědou barvu (col = 'brown') . 193 rl2 <- round(rl2, digits = 4) 194 plot(length.LF , length.RF , pch = 21, xlim = c(120, 165), 195 ylim = c(120, 165), col = 'khaki4', bg = 'lightgoldenrodyellow', 196 xlab = '', ylab = 'délka pravé klicni kosti (mm) - zeny', las = 1) 197 198 mtext('delka leve klicni kosti (mm) - zeny', side = 1, line = 2.3) 199 mtext (bquote (r [12] == .(rl2)), side = 1, line = 3.5) 200 abline(a = 0, b = 1, lwd = 1, col = 'brown') 18 3.4 Příklady k samostatnému procvičování Příklad 3.16. Charakteristika polohy nominálního znaku V rámci sekce ?? jsme jako mezivýstup příkladu ?? získali kontingenční tabulku simultánních absolutních četností znaků X = počet starších sourozenců a Y = porodní hmotnost novorozence (viz tabulka 5). Najděte vhodnou charakteristiku polohy pro znak počet starších sourozenců. Tabulka 5: Simultánní absolutní četnosti znaků počet starších sourozenců a porodní hmotnost novorozence nízká norma vysoká žádný 123 456 11 jeden 91 399 21 dva 26 138 11 Řešení příkladu 3.16 zadny jeden 590 511 dva 175 201 202 Interpretace výsledků: Nejvíce novorozenců v datovém souboru bylo prvorozených s četností výskytu 590. Jft Příklad 3.17. Charakteristika závislosti mezi dvěma nominálními znaky Zaměřme se nyní na oba znaky X = počet starších sourozenců a Y = porodní hmotnost novorozence najednou. Určete míru závislosti mezi znaky X a Y. Výslednou míru závislosti porovnejte s mírou závislosti stanovenou v rámci příkladu 3.7 na základě hodnoty Spearmanova koeficientu pořadové korelace r$- Který z obou koeficientů bychom upřednostnili pro charakterizaci vztahu mezi počtem starších sourozenců a porodní hmotností novorozence a proč? Řešení příkladu 3.17 [1] 0.06940097 203 Interpretace výsledků: Mezi počtem starších sourozenců a porodní hmotností novorozence existuje zanedbatelný stupeň závislosti. Odpověď na otázku: Znak X = počet starších sourozenců je originálně proměnnou ordinálního typu, znak Y = porodní hmotnost novorozence je originálně proměnnou spojitého typu. Kategorizací obou proměnných, tedy jejich převodem na proměnné nominálního typu, přicházíme o informace, které původní proměnné poskytují. Preferovanou charakteristikou závislosti je v tomto případě Spearmanův keficient pořadové korelace (r$ = 0.0476; velmi nízký stupeň pořadové závislosti), který přistupuje k oběma proměnným jako k ordinálním, a pracuje tedy s širším množstvím informací než Cramérův koeficient. £ Příklad 3.18. Charakteristika polohy nominálního znaku Načtete datový soubor 22-multinom-palmar-lines.txt. Z tabulky vyselektujte pouze údaje týkající se znaků X = barva vlasů a Y = zakončení palmárních linií u mužů. Změňte záhlaví tabulky tak, aby názvy jednotlivých variant znaku X = barva vlasů byly: světlé, střední a tmavé; a názvy jednotlivých variant znaku Y = zakončení palmárních linií byly: vysoké, střední a nízké. Stanovte vhodnou charakteristiku polohy pro znak X i pro znak Y. Řešení příkladu 3.18 vysoké strední nízke svetle 6 6 4 strední 20 15 7 tmavé 18 12 12 204 205 206 207 208 209 Charakteristika polohy pro barvu vlasů svetle strední tmavé 16 42 42 19 Interpretace výsledků: Nejvíce mužů v datovém souboru mělo střední nebo tmavou barvu vlasů (nstřední ^tmavé — 42). Charakteristika polohy pro zakončení palmárních linií vysoké středili nizke 44 33 23 210 211 Interpretace výsledků: Nejvíce mužů v datovém souboru mělo vysoké zakončení palmárních linií s četností výskytu 44. £ Příklad 3.19. Charakteristika závislosti mezi dvěma nominálními znaky Zaměřme se nyní na oba znaky X = barva vlasů a Y = zakončení palmárních linií u mužů najednou. Určete míru závislosti mezi znaky X a Y. Míru závislosti mezi barvou vlasů a zakončením palmárních linií u mužů porovnejte s mírou závislosti mezi barvou vlasů a zakončením palmárních linií u žen (viz příklad 3.4). Zauvažujte, jak byste výsledek srovnání odborně zdůvodnili. Řešení příkladu 3.19 [1] 0.1014841 212 Interpretace výsledků: Mezi barvou vlasů a zakončením palmárních linií u mužů existuje slabý stupeň závislosti. Stejný závěr jsme stanovili také pro vztah mezi barvou vlasů a zakončením palmárních linií u žen. £ Příklad 3.20. Základní číselné charakteristiky pro intervalový znak Načtěte datový soubor 17-anova-newborns.txt, odstraňte z načtených dat NA hodnoty a zjistěte dimenzi datové tabulky. Zaměřte se pouze na znak X = porodní hmotnost novorozence. S pomocí softwaru ^ vytvořte tabulku základních číselných charakteristik pro znak X. Pro hodnoty kvantilů proveďte také ruční výpočet. Dále sestrojte krabicový diagram pro znak X a zaneste do něj hodnotu aritmetického průměru. Zamyslete se nad propojením diagramu s charakteristikami polohy a variability. Řešení příkladu 3.20 [1] 1382 4 Datový soubor obsahuj znacích. e údaje o 1382 novorozencích, přičemž u každého novorozence máme záznamy o čtyřech m var hmt 3078.94 485440.5 s 696.7356 v min dolni.k median 22.6291 580 2680 3175 horni.k 3570 max IQR sikmost 4970 890 -0.6094 spicatost hmt 0.4937 213 214 215 216 217 20 5000 4000 -3000 2000 -1000 - - median • prumer porodní hmotnost novorozence (g) Interpretace výsledků: Porodní hmotnost novorozenců v datovém souboru nabývá hodnot v rozmezí 580-4970 g. Průměrná hodnota porodní hmotnosti je 3078.94 g se směrodatnou odchylkou 696.74g, která představuje 22.63% aritmerického průměru. 25% naměřených hodnot je menších nebo rovných 2680 g, 50% naměřených hodnot je menších nebo rovných 3175 g a 75% naměřených hodnot je menších nebo rovných 3570 g. Mezikvartilové rozpětí pro porodní hmotnost novorozenců má rozsah 890 g. Hodnota koeficientu šikmosti, -0.6094, ukazuje na záporně zešikmená data s prodlouženým levým koncem. Hodnota koeficientu špičatosti, 0.4937, ukazuje na strmý charakter dat. Jft Příklad 3.21. Základní číselné charakteristiky pro intervalový znak Načtěte datový soubor 03-paired-means-clavicle2.txt, zjistěte, zda datový soubor obsahuje neznámé hodnoty a případně je z načteného souboru odstraňte. Zaměřte se pouze na znak X = délka pravé klíční kosti pro skelety ženského pohlaví. S pomocí softwaru W vytvořte tabulku základních číselných charakteristik pro znak X. Pro hodnoty kvantilů proveďte také ruční výpočet. Dále sestrojte krabicový diagram pro znak X a zaneste do něj hodnotu aritmetického průměru. Řešení příkladu 3.21 m var s f-R 137.68 73.5376 8.5754 v min dolni.k median horni.k max IQR sikmost spicatost 6.2285 124 131 136.5 143 164 12 0.971 0.7501 218 219 160 150 140 130 - median prumer délka pravé klicni kosti (mm) - zeny 21 Interpretace výsledků: Délka pravé klíční kosti u skeletů ženského pohlaví nabývá hodnot v rozmezí 124 mm až 164 mm. Průměrná délka pravé klíční kosti u skeletů ženského pohlaví v datovém souboru je 137.68 mm se směrodatnou odchylkou 8.58 mm, přičemž směrodatná odchylka představuje 6.23% aritmerického průměru. 25% naměřených hodnot je menších nebo rovných 131 mm, 50% naměřených hodnot je menších nebo rovných 136.5 mm a 75% naměřených hodnot je menších nebo rovných 143 mm. Mezikvartilové rozpětí má rozsah 12 mm. Hodnota koeficientu šikmosti, 0.9710, ukazuje na výrazněji kladně zešikmená data s prodlouženým pravým koncem. Hodnota koeficientu špičatosti, 0.7501, ukazuje na strmý charakter dat. Jft Příklad 3.22. Základní číselné charakteristiky pro intervalový znak Načtěte datový soubor 03-paired-means-clavicle2.txt. Zaměřte se na znak X = délka levé klíční kosti pro skelety mužského pohlaví. Pomocí softwaru CĚt vytvořte tabulku základních číselných charakteristik pro znak X. Pro hodnoty kvantilů proveďte také ruční výpočet. Řešení příkladu 3.22 m var s v min dolni.k median horni.k max IQR sikmost spicatost muzi-L 153.6 96.96 9.8468 6.4107 130 147 154.5 158 176 11 0.2093 -0.2896 220 221 Interpretace výsledků: Naměřené délky levých klíčních kostí u skeletů mužského pohlaví nabývají hodnot v rozsahu 130-176 mm. Průměrná délka levé klíční kosti u skeletů mužského pohlaví v datovém souboru je 153.60 mm se směrodatnou odchylkou 9.85 mm, přičemž směrodatná odchylka představuje 6.41% aritmerického průměru. 25% naměřených hodnot je menších nebo rovných 147 mm, 50% naměřených hodnot je menších nebo rovných 154.5 mm a 75% naměřených hodnot je menších nebo rovných 158 mm. Mezikvartilové rozpětí naměřených hodnot má rozsah 11 mm. Hodnota koeficientu šikmosti, 0.2093, ukazuje na kladně zešikmená data s prodlouženým pravým koncem. Hodnota koeficientu špičatosti, -0.2896, ukazuje na plošší charakter dat. Jft Příklad 3.23. Základní číselné charakteristiky pro intervalový znak Načtěte datový soubor 03-paired-means-clavicle2.txt. Zaměřte se na znak Y = délka pravé klíční kosti pro skelety mužského pohlaví. S pomocí softwaru ® vytvořte tabulku základních číselných charakteristik pro znak Y. Pro hodnoty kvantilů proveďte také ruční výpočet. Řešení příkladu 3.23 m var s v min dolni.k median horni.k max IQR s ikmost muzi-R 151.74 118.5124 10.i 3863 7.1743 126 143 153 160 175 17 -0.057 spi catost muži-R -0.646 222 223 224 225 Interpretace výsledků: Délka pravé klíční kosti u skeletů mužského pohlaví nabývá hodnot v rozsahu od 126 mm do 175 mm. Průměrná délka pravé klíční kosti u skeletů mužského pohlaví v datovém souboru je 151.74 mm se směrodatnou odchylkou 10.89 mm, přičemž směrodatná odchylka představuje 7.17% aritmerického průměru. 25% naměřených hodnot je menších nebo rovných 143 mm, 50% naměřených hodnot je menších nebo rovných 153 mm a 75% naměřených hodnot je menších nebo rovných 160 mm. Mezikvartilové rozpětí má rozsah 17 mm. Hodnota koeficientu šikmosti, -0.057, ukazuje na záporně zešikmená data s tendencí k prodlouženému levému konci. Hodnota koeficientu je však tak malá, že zešikmení dat nebude okem skoro viditelné. Hodnota koeficientu špičatosti, -0.6460, ukazuje na plochý charakter dat. £ Příklad 3.24. Krabicový diagram Vykreslete krabicový diagram (a) pro znak X = délka levé klíční kosti; (b) pro znak Y = délka pravé klíční kosti pro skelety mužského pohlaví. Řešení příkladu 3.24 22 180 - 170 -160 150 140 - 130 - median prumer 180 - 170 -160 150 140 - 130 - median prumer delka leve klicni kosti (mm) - muzi delka prave klicni kosti (mm) - muzi Příklad 3.25. Charakteristika závislosti pro znaky intervalového typu Zaměřme se nyní na znaky X = délka levé klíční kosti &Y= délka pravé klíční kosti u skeletů mužského pohlaví najednou. Určete míru závislosti mezi znaky laľ. Míru závislosti mezi znaky vizualizujte pomocí dvourozměrného tečkového diagramu. Do diagramu doplňte popisek s hodnotou korelačního koeficientu a referenční přímku x = y. Míru závislosti mezi délkou pravé a levé klíční kosti u skeletů mužského pohlaví porovnejte s mírou závislosti stanovenou u skeletů ženského pohlaví (viz příklad 3.14). Zauvažujte, jak byste výsledek srovnání odborně zdůvodnili. Řešení příkladu 3.25 170 160 150 140 - j2 130 - n-1-1-1-r 130 140 150 160 170 delka leve klicni kosti (mm) - muzi r12 = 0.9371 Interpretace výsledků: Pearsonův korelační koeficient nabývá hodnoty 0.9371. Mezi délkou pravé a levé klíční kosti u skeletů mužského pohlaví existuje velmi vysoký stupeň přímé lineární závislosti. S rostoucí délkou pravé klíční kosti roste délka levé klíční kosti a naopak. Stejný závěr jsme stanovili také pro vztah mezi délkou pravé a levé klíční kosti u skeletů ženského pohlaví (ri2 = 0.9297). Jft Příklad 3.26. Základní číselné charakteristiky pro intervalový znak Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Zaměřte se pouze 23 na znak X = největší délka mozkovny pro skelety ženského pohlaví. S pomocí softwaru ^! vytvořte tabulku základních číselných charakteristik pro znak X. Pro hodnoty kvantilů proveďte také ruční výpočet. Vraťte se k histogramu a krabicovému diagramu znaku největší délka mozkovny pro skelety ženského pohlaví sestrojených v rámci příkladu ??. Prozkoumejte, jak se vypočítané charakteristiky polohy, variability a nesymetrie projeví v tvaru histogramu a krabicového diagramu. Které číselné charakteristiky byste hledali v histogramu a které naopak v krabicovém diagramu? Řešení příkladu 3.26 m var s v min dolni.k median horni.k max IQR sikmost spicatost -D 174.5321 38.3224 6.1905 3.5469 157 170 175 178 188 8 -0.0383 -0.2611 226 227 Interpretace výsledků: Naměřené hodnoty největší délky mozkovny pro skelety ženského pohlaví se pohybují v rozmezí 157-188 mm. Průměrná hodnota největší délky mozkovny u skeletů ženského pohlaví je 174.53 mm se směrodatnou odchylkou 6.19 mm, přičemž směrodatná odchylka představuje 3.55% aritmerického průměru. 25% naměřených hodnot je menších nebo rovných 170 mm, 50% naměřených hodnot je menších nebo rovných 175 mm a 75% naměřených hodnot je menších nebo rovných 178 mm. Mezikvartilové rozpětí má rozsah 8 mm. Hodnota koeficientu šikmosti, -0.0383, ukazuje na téměř neznatelně záporně zešikmená data. Hodnota koeficientu špičatosti, -0.2611, ukazuje na plošší charakter dat. Odpověď na otázku: Pomocí histogramu můžeme vizualizovat hodnotu aritmetického průměru, rozptylu, resp. směrodatné odchylky, koeficientu šikmosti a špičatosti. Pomocí krabicového diagramu vizualizujeme minimální a maximální naměřenou hodnotu, dolní kvartil, medián, horní kvartil a mezikvartilové rozpětí, šikmost, špičatost a v neposlední řadě také aritmetický průměr, je-li v krabicovém diagramu zaznamenán. £ Příklad 3.27. Základní číselné charakteristiky pro intervalový znak Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat neznámé hodnoty. Zaměřte se pouze na znak Y = největší šířka mozkovny pro skelety ženského pohlaví. Pomocí softwaru <5ť vytvořte tabulku základních číselných charakteristik pro znak Y. Hodnoty kvantilů stanovte také ručním výpočtem. Vraťte se k histogramu a krabicovému diagramu znaku největší šířka mozkovny pro skelety ženského pohlaví sestrojených v rámci příkladu ??. Prozkoumejte, jak se vypočítané charakteristiky polohy, variability a nesymetrie projeví v tvaru histogramu a krabicového diagramu. Řešení příkladu 3.27 m var s v min dolni.k median horni.k max IQR sikmost spicatost f-S 134.1468 21.85 4.6744 3.4845 118 131 134 137 146 6 0.0297 0.4235 228 229 Interpretace výsledků: Naměřené hodnoty největší šířky mozkovny pro skelety ženského pohlaví se pohybují v rozmezí 118-146 mm. Průměrná hodnota největší šířky mozkovny u skeletů ženského pohlaví je 134.15 mm se směrodatnou odchylkou 4.67 mm, přičemž směrodatná odchylka představuje 3.48% aritmerického průměru. 25% naměřených hodnot je menších nebo rovných 131 mm, 50% naměřených hodnot je menších nebo rovných 134 mm a 75% naměřených hodnot je menších nebo rovnýchž 137 mm. Mezikvartilové rozpětí má rozsah 6 mm. Hodnota koeficientu šikmosti, 0.0297, ukazuje na téměř neznatelně kladně zešikmená data. Hodnota koeficientu špičatosti, 0.4235, ukazuje na strmější charakter dat. £ Příklad 3.28. Charakteristika závislosti pro znaky intervalového typu Zaměřme se nyní na znaky X = největší délka mozkovny a Y = největší šířka mozkovny pro skelety ženského pohlaví najednou. Určete míru závislosti mezi znaky X a Y. Míru závislosti mezi znaky vizualizujte pomocí dvourozměrného tečkového diagramu (viz příklad ??). Do diagramu doplňte popisek s hodnotou korelačního koeficientu. Míru závislosti mezi největší délkou a šířkou mozkovny u skeletů ženského pohlaví porovnejte s mírou závislosti stanovenou u skeletů mužského pohlaví (viz příklad 3.11). Zauvažujte, jak byste výsledek srovnání odborně zdůvodnili. Řešení příkladu 3.28 24 - zeny 145 - a" 140 - o o o o__8 „ Ä o s, >> oo o o o ° o o° C%^0B£ 080 oo ° 0000 ° ° c 135 - o M „o o °o„ ^008 8 „°oo ti O 130 - o § 8cT o °° s o ° °°8 8°n sirk 125 - o vetsi 120 - 'ä? o 1 1 1 1 1 1 160 165 170 175 180 185 nejvetsi délka mozkovny (mm) - zeny r12 = 0.3809 Interpretace výsledků: Mezi největší šířkou a délkou mozkovny pro skelety ženského pohlaví existuje mírný stupeň přímé lineární závislosti (ri2 = 0.3809). Naproti tomu mezi největší šířkou a délkou mozkovny pro skelety mužského pohlaví existuje pouze nízký stupeň přímé lineární závislosti (ri2 = 0.1682). Jft 25