E7527 Analýza dat v R

Přírodovědecká fakulta
podzim 2024
Rozsah
2/0/0. 2 kr. (plus ukončení). Doporučované ukončení: k. Jiná možná ukončení: zk.
Vyučováno kontaktně
Vyučující
Mgr. Soňa Smetanová, Ph.D. (přednášející)
Mgr. Jan Böhm (přednášející)
Mgr. Eva Budinská, Ph.D. (přednášející)
Garance
Mgr. Eva Budinská, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: Mgr. Soňa Smetanová, Ph.D.
Dodavatelské pracoviště: RECETOX – Přírodovědecká fakulta
Rozvrh
St 12:00–13:50 D29/347-RCX2
Předpoklady
E5540 Biostatistika - základní kurz || E5046 Biostatistika pro mat. biol.
Bi5040 Biostatistika – základní kurz, Bi8600 Vícerozměrné statistické metody, Bi8660 Analýza dat na PC II. Pro absolvování kurzu je nutná základní znalost používání programu R, dále znalost základních statistických metod nejméně v rozsahu předmětu Bi5040 Biostatistika-základní kurz a znalost vícerozměrných statistických metod v rozsahu předmětu Bi8600 Vícerozměrné statistické metody.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 30 stud.
Momentální stav registrace a zápisu: zapsáno: 28/30, pouze zareg.: 0/30, pouze zareg. s předností (mateřské obory): 0/30
Jiné omezení: Doporučení absolvovat Bi8600, DSMBz01, Bi3060
Mateřské obory/plány
Cíle předmětu
Cílem kurzu je obeznámit studenty se statistickým softwarem pro analýzu dat R a to na pokročilé úrovni z pohledu jeho syntaxe i z pohledu funkcí vhodných pro úpravy a (nejen) statistickou analýzu dat a tvorbu grafů publikační kvality. Jedná se o základní kurz, který nepočítá s předchozí zkušeností s prací v R.
Výstupy z učení
Po absolvování tohoto kurzu student:
Rozumí syntaxi skriptovacího jazyku R
Ovládá datové struktury R
Zná rozdíl mezi skriptem a funkcí
Vytvoří jednoduchou i složitou funkci.
Vytvoří skripty pro dávkové spouštění příkazů.
Umí spouštět dávkové příkazy.
Zná syntaxi základních cyklů a podmínek (for, repeat, if...)
Instaluje balíky funkcí.
Automaticky tvoří objekty s názvy definovanými variabilní proměnnou.
Automatizuje skripty.
Optimalizuje časovou náročnost algoritmu vhodným použitím méně náročných funkcí.
Načítá a ukládá různé datové soubory.
Transformuje matice a datové tabulky.
Spojuje tabulky různých typů.
Efektivně překóduje proměnné.
Testuje hypotézy.
Používá rozličné funkce pro shlukování dat.
Zná všechny způsoby ukládání grafů.
Zná základní grafické prostředí R a umí s ním pracovat.
Umí pracovat v různých grafických prostředích (lattice, grid a ggplot2).
Vytváří a ukládá grafy v automatizovaném skriptu.
Tvoří komplexní barevné grafy.
Vytvoří graf publikační kvality.
Ukládá grafy v rozličných formátech.
Vytvoří srozumitelný/čitelný skript a pomocné funkce pro komplexní analýzu příkladových dat.
V závislosti na typu analýzy sestaví její plán a vybere vhodné funkce.
Optimalizuje takto vytvořený skript z hlediska časové náročnosti algoritmů.
Osnova
  • 1. přednáška – Úvod do R (historie R, co je to R, výhody a nevýhody R; stažení a instalace R; základní práce s R - nastavení pracovního adresáře, základní příkazy, operatory, knihovny; nápověda; co je to objekt a jeho základní charakteristiky)
  • 2.-5. přednáška – Objekty v R (vektory a základní práce s vektory; matice a základní práce s maticemi; datové tabulky; list; a další objekty)
  • 6.-7. přednáška – Programování v R (for cyklus, if podmínka, while, repeat, příkazy z rodiny apply; funkce; jak efektivně psát script)
  • 8.-9. přednáška – Načítání a ukládání souborů, úpravy objektů
  • 9.-10. přednáška – Grafy v R (tradiční grafika; Lattice (Trellis); Grid; ggplot2; ukládání grafů)
  • 11. přednáška - Vícerozměrná analýza, analýza reálného příkladu
  • 12. přednáška – Úvod do populárních balíků (tidyr,plyr,dplyr,ComplexHeatmap)
  • 13. přednáška – Vzájemné hodnocení projektů
Literatura
    doporučená literatura
  • TORGO, Luís. Data mining with R : learning with case studies. Boca Raton: Chapman and Hall/CRC, 2011, xv, 289. ISBN 9781439810187. info
  • MATLOFF, Norman S. The art of R programming : a tour of statistical software design. Eleventh printing. San Francisco: No Starch Press, 2011, xxiii, 373. ISBN 1593273843. info
  • GENTLEMAN, Robert. R programming for bioinformatics. Boca Raton: CRC Press, 2009, xii, 314. ISBN 9781420063677. info
  • MURRELL, Paul. R graphics. Boca Raton: Chapman & Hall/CRC, 2006, xix, 301. ISBN 158488486X. info
  • Bioinformatics and computational biology solutions using R and bioconductor. Edited by Robert Gentleman. New York: Springer, 2005, xix, 473. ISBN 0387251464. info
Výukové metody
Výuka probíhá formou simultánních přednášek a cvičení. Studentům jsou pomocí prezentace vysvětleny základy a teorie, a tyto znalosti pak po každé ucelené části přímo aplikují v uživatelském rozhraní R na počítačích ve speciální učebně. Počet studentů je dimenzován tak, aby každý měl k dispozici vlastní počítač. Studenti jsou motivováni k iniciativě a předkládání vlastních návrhů algoritmů řešení jednotlivých problémů.
Metody hodnocení
Kolokvium:
Během semestru budou mít studenti možnost získat maximálně 5 bodů z 5 (nepovinných) domácích úkolů. Dále studenti vypracují v průběhu semestru projekt hodnocený max. 10 body. Hodnotit se bude funkčnost a přehlednost skriptu vzhledem ke stanoveným cílům projektu. Pro splnění předmětu je nutné získat nejméně 8 bodů z 10, přičemž se počítají i body z domácích úkolů.
Zkouška:
Závěrečný praktický test v programu R se skládá ze sady úkolů - odevzdává se jejich řešení, spolu s kódem. Maximální počet bodů za test je 15. Je povoleno využívat studijní materiály. Finální hodnocení se provádí na základě celkového počtu bodů (dobrovolné úkoly v průběhu semestru; max. 5 bodů + projekt; max. 10 bodů + závěrečný test; max. 15 bodů), k úspěšnému ukončení je potřeba dosáhnout 17.5 bodů, z toho alespoň 5 bodů za projekt.
Hodnocení: <17.5 F, ≤20 E, ≤22.5 D, ≤25 C, ≤27.5 B, ≤30 A
Informace učitele
Eva Budinská, RECETOX, budinska@recetox.muni.cz, +420 775 07 30 30, web: btr.iba.muni.cz
Additional sources of information


• http://www.r-project.org


• http://www.bioconductor.org


• http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=2653488&blobtype=pdf


• http://www.stat.auckland.ac.nz/~paul/RGraphics/rgraphics.html


Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Nachází se v prerekvizitách jiných předmětů
Předmět je zařazen také v obdobích podzim 2022, podzim 2023.
  • Statistika zápisu (nejnovější)
  • Permalink: https://is.muni.cz/predmet/sci/podzim2024/E7527