Bi7490 Pokročilé neparametrické metody

Přírodovědecká fakulta
podzim 2020
Rozsah
1/1/0. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k.
Vyučováno online.
Vyučující
Mgr. Klára Komprdová, Ph.D. (přednášející)
Garance
prof. RNDr. Ladislav Dušek, Ph.D.
RECETOX - Přírodovědecká fakulta
Kontaktní osoba: Mgr. Klára Komprdová, Ph.D.
Dodavatelské pracoviště: RECETOX - Přírodovědecká fakulta
Rozvrh
Pá 12:00–13:50 D29/347-RCX2
Předpoklady
Bi5040 Biostatistika - základní kurz || Bi5045 Biostatistika pro mat. biol.
Nutným předpokladem je dobrá znalost základní metodologie biostatistiky. Doporučeno je absolvování předmětu Vícerozměrných statických metod (Bi8600).
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Cílem předmětu je seznámit studenty se základními i pokročilými klasifikačními a regresními neparametrickými metodami a naučit je aplikovat tyto metody v různých SW pro tvorbu modelů (R-project, Matlab, Statistica).
Výstupy z učení
Na koncitohoto kurzu bude student schopen:
- kriticky zhodnotit datový soubor z hlediska rozložení dat
- používat klasifikační a regresní neparametrické metody
- validovat výstupy modelů pomocí různých validačních technik
- srovnat výsledky různých modelů
- osvojení si různých SW pro tvorbu modelů (R-project, Matlab, Statistica)
- srovnat výhody a nevýhod přednášených metod
Osnova
  • 1. Úvod do neparametrických metod - Základy pojmy: proces modelování, typy proměnných, klasifikace modelů, klasifikace x regrese, parametrická a neparametrická vícerozměrná statistika – srovnání různých přístupů, představení různých SW (STATISTIKA, R-project, MATLAB).
  • 2. Rozhodovací stromy I - Topologie stromu, kriteriální statistika, stabilita stromu, krosvalidace, měření přesnosti stromu, prořezávání, zástupné proměnné, klasifikační x regresní stromy, algoritmus typu CART, výhody x nevýhody rozhodovacích stromů.
  • 3. Rozhodovací stromy II - Další algoritmy tvorby stromů: Patient Rule Induction Method (PRIM), Chi-squared Automatic Interaction Detector (CHAID), Quick, Unbiased and Efficient Statistical Tree (QUEST), Hierarchical Mixture of Experts (HME), Multivariate Adaptive Regression Splines (MARS).
  • 4. Náhodné lesy I - Nadstavba nad rozhodovacími stromy, tvorba validace lesů, různé typy lesů Bagging, Boosting, Arcing.
  • 5. Náhodné lesy II - Random forest - měření významnosti proměnných, efekt proměnných na predikci, shlukování, detekce odlehlých hodnot, predikce.
  • 6. Měření přesnosti modelů I - Matice záměn, „treshold dependent“ indexy: Normalized mutual information (MI), Average of mutual information (AMI), Celková přesnost (OA), Cohenovo kappa, Tau a další.
  • 7. Měření přesnosti modelů II - „Treshold independent“ indexy, specificita x senzitivita, Receiver Operating Characteristic curve (ROC) , Area Under the ROC Curve (AUC), koeficient determinace R2, deviance D2, maximum overall accuracy (MXOA), maximální kappa (MXKp), Mean cross entropy (MXE), Mean absolute prediction error (MAPE) a další.
  • 8. Validační techniky I - Validační, testovací a trénovací soubor, celková obecná chyba modelu, analytické metody - Akaikovo informační kritérium (AIC), Bayesovo informační kritérium (BIC), Minimum description length (MDL), Structural risk minimization (SRM).
  • 9. Validační techniky II - Metoda Monte Carlo, metody založeny na opakovaném použití pozorování: krosvalidace, jednoduché rozdělení, bootstrap a jacknife.
  • 10. Příklady použití neparametrických metod - Prediktivní modelování rozšíření druhů, výběr významných druhů a prediktorů pro různé habitaty, valenční křivky, typologické mapy, modelování koncentrací polutantů.
Literatura
  • Legendre P., Legendre L. (1998) Numerical ecology (second ed.), Elsevier, Amsterdam
  • Jan Klaschka, Emil Kotrč: Klasifikační a regresní lesy, sborník konference ROBUST 2004
  • Breiman L. (2001) Random forests. Machine Learning 45, pp. 5 32.
  • Lažanský et. Kol.: Umělá inteligence I.- IV.
  • Hastie T., Tibshirani R., Friedman J.: The Elements of Statistical Learning, Data mining, Inference and Prediction, Springer 2003
  • Breiman, L. et al (1984) Classification and Regression Trees, Chapman and Hall
  • Breiman L. (1996) Bagging predictors. Machine Learning 24, pp.123 140.
  • McCullagh C. E., Searle S. R. (2001): Generalized, Linear, and Mixed Models, John Wiley & Sons.
  • MANLY, Bryan F. J. Randomization, bootstrap and Monte Carlo methods in biology. 3rd ed. Boca Raton, Fla.: Chapman & Hall, 2007. 455 s. ISBN 9781584885412. info
  • EDGINGTON, Eugene S. a Patrick ONGHENA. Randomization tests. 4th ed. Boca Raton, FL: Chapman & Hall/CRC, 2007. 345 p. ISBN 1584885890. info
Výukové metody
Výuka probíhá formou powerpointových prezentací. Každý blok bude doplněn praktickou částí na PC, kde bude možno si jednotlivé modely vyzkoušet v různých SW. Budou řešeny praktické úlohy na reálných datech z oblasti experimentální biologie, ekologie, chemie. Student vypracuje během semestru projekt na jedno ze zadaných témat.
Metody hodnocení
Zakončením předmětu bude písemná zkouška zaměřená na ověření teoretické pochopení probíraných metod a hodnocení projektu.
Informace učitele
http://www.iba.muni.cz/vyuka/
Další komentáře
Studijní materiály
Předmět je dovoleno ukončit i mimo zkouškové období.
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2008 - akreditace, jaro 2011 - akreditace, podzim 2002, podzim 2003, podzim 2004, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2012 - akreditace, jaro 2013, podzim 2014, podzim 2015, podzim 2019, podzim 2021.