1) Rozjezd Vypočítejte průměr, směrodatnou odchylku, minimum a maximum pro proměnné Věk a Děti. Dátabázi rozčleňte dle proměnných Pohlaví a Práce. Využijte groub_by a summarise. Katan %>% group_by(Pohlaví, Práce) %>% summarise(průměr_Věk = mean(Věk), sd_Věk= sd(Věk), min_Věk= min(Věk), max_Věk= max(Věk), průměr_Děti = mean(Děti), sd_Děti = sd(Děti), min_Děti = min(Děti), max_Děti = max(Děti)) 2) Společně Katan %>% group_by(Pohlaví, Práce) %>% summarise_each(funs(mean, sd, min, max), Věk, Děti) 3) Úkol Zjistěte průměr, medián a směrodatnou odchylku u proměnných Partie a Věk. Hodnoty určete pro skupiny rozřazené dle proměnných Vzdělání a Pohlaví (tj. ZŠ - muž, ZŠ - žena, SŠ - muž, SŠ - žena atd.). Ve skriptu využijte příkaz trubka. Katan %>% group_by(Vzdělání, Pohlaví) %>% summarise_each(funs(mean, median, sd), Partie, Věk) 4)Chybějící hodnoty: společně Katan$Věk[1] <- NA mean(Katan$Věk) 5) Úkol Přepište skript předchozího příkladu tak, aby fungoval i pro chybějící hodnoty. Katan %>% group_by(Pohlaví, Práce) %>% summarise_each(funs(mean(na.rm = TRUE), sd(na.rm = TRUE), min(na.rm = TRUE), max(na.rm = TRUE)), Věk, Děti) Katan %>% group_by(Pohlaví, Práce) %>% summarise(průměr_Věk = mean(Věk, na.rm=TRUE), sd_Věk= sd(Věk, na.rm=TRUE), min_Věk= min(Věk, na.rm=TRUE), max_Věk= max(Věk, na.rm=TRUE), průměr_Děti = mean(Děti, na.rm=TRUE), sd_Děti = sd(Děti, na.rm=TRUE), min_Děti = min(Děti, na.rm=TRUE), max_Děti = max(Děti, na.rm=TRUE)) 6) Společně: trubka a chybějící hodnoty: učebnice Katan$Partie %>% mean(.) Katan$Věk %>% mean(., na.rm = TRUE) Katan %>% group_by(Pohlaví, Práce) %>% summarise_each(funs(mean(., na.rm = TRUE), sd(., na.rm = TRUE), min(., na.rm = TRUE), max(., na.rm = TRUE)), Věk, Děti) 7) Zjistěte počty zrušených a nezrušených letů podle destinací (Dest). install.packages("hflights") library(hflights) flights <- hflights flights %>% group_by(Dest) %>% summarise(Cancelled = sum(Cancelled), Not_Cancelled = n()-sum(Cancelled)) # proměnná Dest označuje kód cílového letiště # proměnná Cancelled obsahuje nuly a jedničky (zrušený let) 8) Příkaz arrange + další příkazy z dplyru - ukázka Katan2 <- arrange(Katan, Věk, Pohlaví, Partie) 9) Zjistěte pro jednotlivé dopravce tři největší zpoždění v roce (top_n(3, proměnná)). Výsledná databáze by měla obsahovat proměnné: UniqueCarrier, Month, DayofMonth, DepDelay. flights %>% group_by(UniqueCarrier) %>% select(Month, DayofMonth, DepDelay) %>% top_n(3, DepDelay) %>% arrange(UniqueCarrier, DepDelay) ------