Bi8190 Manipulace a vizualizace dat v R

Přírodovědecká fakulta
podzim 2025
Rozsah
0/2/0. 2 kr. (plus ukončení). Ukončení: k.
Vyučováno kontaktně
Vyučující
Mgr. Irena Axmanová, Ph.D. (cvičící)
Mgr. Bc. Klára Klinkovská (cvičící)
Garance
Mgr. Irena Axmanová, Ph.D.
Ústav botaniky a zoologie – Biologická sekce – Přírodovědecká fakulta
Kontaktní osoba: Mgr. Irena Axmanová, Ph.D.
Dodavatelské pracoviště: Ústav botaniky a zoologie – Biologická sekce – Přírodovědecká fakulta
Rozvrh seminárních/paralelních skupin
Bi8190/01: Po 12:00–13:50 D36/225, I. Axmanová, K. Klinkovská
Bi8190/02: Po 9:00–10:50 D31/238, I. Axmanová, K. Klinkovská
Předpoklady
Bi7560 Úvod do R ||SOUHLAS
Předpokladem pro bezproblémový průchod kurzem je základní znalost práce v R, ideálně absolvování Úvodu do R Bi7560 Úvod do R před tímto kurzem.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 18 stud.
Momentální stav registrace a zápisu: zapsáno: 19/18, pouze zareg.: 0/18, pouze zareg. s předností (mateřské obory): 0/18
Mateřské obory/plány
předmět má 7 mateřských oborů, zobrazit
Cíle předmětu
V průběhu kurzu představíme pokročilé metody manipulace a vizualizace dat v programu R, zejména s využitím knihoven z kolekce tidyverse (tidyr, dplyr, tibble, purr, stringr, ggplot2, readr). Cílem předmětu je naučit studenty rutinní manipulaci s daty, tak aby si je uměli importovat, upravit, filtrovat, připojit nové informace z externích dat, vytvořit nové proměnné (např. na základě výpočtu), seskupit vzorky na základě nějaké charakteristiky/informace a pro tyto skupiny vypočítat další parametry. Dále se studenti naučí základní i pokročilé metody vizualizace dat pomocí ggplot2 a tvorbu základních map v R. Cílem předmětu je i osvojení přístupu open data science, kdy se naučí připravit skript tak, aby bylo možné ho na závěr publikovat na platformě GitHub.
Výstupy z učení
Po úspěšném absolvování předmětu bude student schopen:
- ovládat import, úpravy a filtrování dat v prostředí R;
- integrovat datové soubory s externími zdroji a rozšířit je o doplňující informace;
- vytvořit nové proměnné, včetně těch odvozených z výpočtů;
- uspořádat data do skupin podle zadaných kritérií a vypočítat souhrnné statistiky pro jednotlivé skupiny;
- navrhnout a vytvořit základní i pokročilé vizualizace dat pomocí ggplot2;
- vytvořit jednoduché mapy v prostředí R;
- připravit reprodukovatelné skripty v souladu s principy open data science pro publikaci a sdílení na platformě GitHub.
Osnova
  • 1 Úvod
  • R jako programovací jazyk
  • Tidyverse package, %>%, |>
  • projekty v RStudiu, cheatsheets, keyboard shortcuts
  • zásady tidy skriptu (úprava, nadpisy, záložky, poznámky)
  • zdroje informací a kde hledat pomoc, včetně AI nástrojů
  • import pomocí readr, readxl, na co si dávat pozor (encoding)
  • struktura dat (names, table, glimpse)
  • tidy data (zásady, příprava, kontrola), přejmenování proměnných (rename)
  • 2 Základní manipulace s daty
  • základní manipulace s daty (select, filter, mutate, arrange, slice)
  • export dat (write_csv)
  • 3 Vizualizace dat pomocí ggplot
  • logika ggplot
  • základní geom funkce (point, line, boxplot, histogram, barplot)
  • prokládání trendů
  • symboly, barvy
  • legenda, popisky os
  • theme
  • uložení grafu (ggsave)
  • 4 Wide vs. long format
  • převody formátů (pivot)
  • nové proměnné (mutate, group_by, summarise)
  • species richness, součty/podíly různých hodnot v rámci vzorku (count)
  • 5 Join funkce
  • spojovací funkce (left_join, full_join), přidání informací z jiných datových souborů
  • filtrovací funkce: semi_join, anti_join
  • podíly určitých skupin podle vlastností, indikační hodnoty, CWM
  • úprava nomenklatury (pokročilé mutate, summarise), slučování duplicit
  • mutate s vícenásobnou podmínkou (ifelse, case_when)
  • 6 Pokročilá vizualizace dat
  • ggplot advanced – faceting, patchwork, ggpubr, ggeffects
  • shiny trailer (ukázka)
  • 7 Automatizace skriptu
  • použití smyček (for loops)
  • napsání vlastní funkce
  • ukázka práce s nested dataframes (purrr)
  • 8 Mapy v R
  • mapy pomocí terra
  • zobrazení vzorků v prostoru (přehledová mapa, měřítko, legenda…) na podkladě open street maps
  • kartogramy, mapování v gridu
  • 9 Pokročilé mapy v R
  • extrakce dat z rastru, digitální model
  • výběr dat pomocí masky
  • škálování mapovaných bodů podle hodnot (barva, symbol)
  • 10 Od databáze ke grafu (opakovací hodina)
  • import dat z databáze, propojení různých datových souborů, úprava struktury dat, filtrování podsouboru
  • sloučení duplicit např. vzniklých převodem nomenklatury
  • napojení externích vlastností, výpočty vážených průměrů
  • příprava grafu pro publikaci
  • sloučení celého procesu do jedné pipeliny
  • 11 GitHub
  • jak funguje, stažení dat z veřejných projektů
  • vlastní účet
  • vytvoření vlastního úložiště (repository), propojení s R projektem v počítači
  • spolupráce na projektu (branch, commit, push, pull)
  • publikace skriptu, zveřejnění (doi, zásady readme)
Literatura
    doporučená literatura
  • WICKHAM, Hadley; Mine ÇETINKAYA-RUNDEL a Garrett GROLEMUND. R for data science : import, tidy, transform, visualize, and model data. 2nd edition. Tokyo: O'Reilly, 2023, xxiii, 548. ISBN 9781492097402. info
  • WICKHAM, Hadley a Carson SIEVERT. Ggplot2 : elegant graphics for data analysis. Second edition. Switzerland: Springer, 2016, xvi, 260. ISBN 9783319242750. info
Výukové metody
přednáška kombinovaná s praktickou výukou, samostatná práce na projektech, domácí úkoly, testování AI nástrojů, prezentace
Metody hodnocení
V průběhu kurzu studenti vypracovávají domácí úkoly. Pro absolvování kolokvia prokáží osvojené dovednosti ve vypracování projektu dle zadání, výsledky prezentují.
Náhradní absolvování
V případě zahraničního výjezdu nebo dlouhodobé nemoci je možné předmět absolvovat v náhradní podobě dle dohody s vyučujícím.
Navazující předměty
Informace učitele
https://botzooldataanalysis.github.io/
Tento předmět je určený k procvičování a rutinnímu zvládnutí základních operací s daty v programu R prostřednictvím R studia. Proto doporučujeme vlastní počítač, abychom společně vychytali případné problémy a student měl jistotu, že vše bude fungovat nejen ve škole, ale i při zpracování dalších dat.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2008 - akreditace, jaro 2007, jaro 2008, jaro 2010, jaro 2012, jaro 2012 - akreditace, jaro 2014, podzim 2016, podzim 2018, podzim 2024.
  • Statistika zápisu (nejnovější)
  • Permalink: https://is.muni.cz/predmet/sci/podzim2025/Bi8190