Bi7527 Analýza dat v R

Přírodovědecká fakulta
jaro 2014
Rozsah
2/0/0. 2 kr. (příf plus uk plus > 4). Ukončení: zk.
Vyučující
Mgr. Eva Budinská, Ph.D. (přednášející)
RNDr. Ivana Ihnatová, Ph.D. (přednášející)
Garance
prof. RNDr. Ladislav Dušek, Ph.D.
RECETOX - Přírodovědecká fakulta
Kontaktní osoba: Mgr. Eva Budinská, Ph.D.
Dodavatelské pracoviště: RECETOX - Přírodovědecká fakulta
Rozvrh
Út 8:00–9:50 A1/609 - IBA (A1,6.p, Kamenice 3)
Předpoklady
Bi5040 Biostatistika - základní kurz || Bi5045 Biostatistika pro mat. biol.
Bi5040 Biostatistika – základní kurz, Bi8600 Vícerozměrné statistické metody, Bi8660 Analýza dat na PC II. Pro absolvování kurzu je nutná základní znalost používání programu R, dále znalost základních statistických metod nejméně v rozsahu předmětu Bi5040 Biostatistika-základní kurz a znalost vícerozměrných statistických metod v rozsahu předmětu Bi8600 Vícerozměrné statistické metody.
Omezení zápisu do předmětu
Předmět je otevřen studentům libovolného oboru.
Předmět si smí zapsat nejvýše 30 stud.
Momentální stav registrace a zápisu: zapsáno: 0/30, pouze zareg.: 0/30, pouze zareg. s předností (mateřské obory): 0/30
Jiné omezení: Doporučení absolvovat Bi8600, DSMBz01, Bi3060
Cíle předmětu
Po absolvování tohoto kurzu student:
Rozumí syntaxi skriptovacího jazyku R
Ovládá datové struktury R
Zná rozdíl mezi skriptem a funkcí
Vytvoří jednoduchou i složitou funkci.
Vytvoří skripty pro dávkové spouštění příkazů.
Umí spouštět dávkové příkazy.
Zná syntaxi základních cyklů a podmínek (for, repeat, if...)
Instaluje balíky funkcí.
Automaticky tvoří objekty s názvy definovanými variabilní proměnnou.
Automatizuje skripty.
Optimalizuje časovou náročnost algoritmu vhodným použitím méne náročných funkci (napr. apply namísto for)
Je oboznámen s možnostmi propojení R s dalšími programovacími jazyky (C, Python, Perl)
Načítá a ukládá různé datové soubory.
Transformuje matice a datové tabulky
Spojuje tabulky různých typů
Efektivně překóduje proměnné
Testuje hypotézy
Zná základní balíky a funkce pro analýzu přežití a umí je aplikovat.
Je schopen provést v R jednorozměrnou i vícerozměrnou lineární regresi
Ovládá funkce pro zobecněné lineární modely
Používá rozličné funkce pro zhlukování dat
Použije vybrané funkce pro klasifikaci (rozhodovací stromy, SVM...)
Zná všechny způsoby ukládání grafů
Zná základní grafické prostředí R a umí s ním pracovat.
Vytváří grafy v grafických prostředích lattice a grid.
Vytváří a ukládá grafy v automatizovaném skriptu.
Tvoří komplexní barevné grafy.
Vytvořit graf publikační kvality
Ukládá grafy v rozličných formátech
Vytvoří srozumitelný/čitelný skript a pomocné funkce pro komplexní analýzu příkladových dat.
V závislosti na typu analýzy sestaví její plán a vybere vhodné funkce.
Optimalizuje takto vytvořený skript z hlediska časové náročnosti algoritmů.
Nainstaluje Bioconductor - nástavbu R
Rozumí datovým typům Bioconductor
Zná využití Bioconductoru v bioinformatických analýzách.
Vyzkouší si práci s vybranými balíky Bioconductor
Osnova
  • 1. Rozšířené základy skriptování v R (přednášky 01-02)
  • 2. Základy optimálního skriptování (přednášky 03)
  • 3. Úprava a transformace dat v R (přednášky 04-06)
  • 4. Základní balíky pro analýzu dat v R (přednáška 07-08)
  • 5. Grafické výstupy R (přednášky 9-11)
  • 6. Příklad komplexní analýzy dat (přednáška 12)
  • 7. Úvod do Bioconductor (přednáška 13)
Literatura
    doporučená literatura
  • TORGO, Luís. Data mining with R : learning with case studies. Boca Raton: Chapman and Hall/CRC, 2011. xv, 289. ISBN 9781439810187. info
  • MATLOFF, Norman S. The art of R programming : tour of statistical software design. San Francisco: No Starch Press, 2011. xxiii, 373. ISBN 1593273843. info
  • GENTLEMAN, Robert. R programming for bioinformatics. Boca Raton: CRC Press, 2009. xii, 314. ISBN 9781420063677. info
  • MURRELL, Paul. R graphics. Boca Raton, Fla.: Chapman & Hall/CRC, 2006. xix, 301. ISBN 158488486X. info
  • Bioinformatics and computational biology solutions using R and bioconductor. Edited by Robert Gentleman. New York: Springer, 2005. xix, 473. ISBN 0387251464. info
Výukové metody
Výuka probíhá formou simultánních přednášek a cvičení. Studentům jsou pomocí prezentace vysvětleny základy a teorie, a tyto znalosti pak po každé ucelené části přímo aplikují v uživatelském rozhraní R na počítačích ve speciální učebně. Počet studentů je dimenzován tak, aby každý měl k dispozici vlastní počítač. Studenti jsou motivováni k iniciativě a předkládání vlastních návrhů algoritmů řešení jednotlivých problémů.
Metody hodnocení
Počas výuky budou mít studenti možnost vyřešit bonusové úkoly, za každý získávají 0.5 až 1 bodu. Závěrečný praktický test v programu R se skládá ze sady 8 úkolů - odevzdává se jejich řešení, spolu s kódem. Maximální počet bodů za test je 20. Je povoleno využívat studijní materiály. Finální hodnocení se provádí na základě celkového počtu bodů (úkoly + závěrečný test), k úspěšnému ukončení je potřeba dosáhnout 11 bodů. 20-19: A, 18-17:B, 16-15: C, 14-13: D, 12-11: E, 10-0: F
Informace učitele
Eva Budinská, Institute of Biostatistics and Analyses, budinska@iba.muni.cz, +420 775 07 30 30, web: btr.iba.muni.cz
Additional sources of information
• http://www.r-project.org
• http://www.bioconductor.org
• http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=2653488&blobtype=pdf
• http://www.stat.auckland.ac.nz/~paul/RGraphics/rgraphics.html
Další komentáře
Předmět je vyučován každoročně.
Předmět je vyučován blokově.
Předmět je zařazen také v obdobích jaro 2011 - akreditace, podzim 2009, jaro 2011, jaro 2012, jaro 2012 - akreditace, jaro 2013, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020.