M8DM1 Data mining I

Přírodovědecká fakulta
jaro 2020
Rozsah
2/2/0. 4 kr. (příf plus uk plus > 4). Ukončení: zk.
Vyučující
RNDr. Radim Navrátil, Ph.D. (přednášející)
Mgr. Jan Böhm (cvičící)
Garance
doc. PaedDr. RNDr. Stanislav Katina, Ph.D.
Ústav matematiky a statistiky – Ústavy – Přírodovědecká fakulta
Kontaktní osoba: RNDr. Radim Navrátil, Ph.D.
Dodavatelské pracoviště: Ústav matematiky a statistiky – Ústavy – Přírodovědecká fakulta
Rozvrh
Čt 10:00–11:50 M1,01017
  • Rozvrh seminárních/paralelních skupin:
M8DM1/01: Út 10:00–11:50 MP1,01014, R. Navrátil
M8DM1/02: Čt 8:00–9:50 MP1,01014, R. Navrátil
M8DM1/03: Út 12:00–13:50 MP1,01014, J. Böhm
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 6 mateřských oborů, zobrazit
Cíle předmětu
Data mining je osvědčeným způsobem, jakým z dat získat maximum znalostí pro správné rozhodování. Obsahem kurzu je úvod do problematiky data miningu, definice základních pojmů, představení a procvičení v praxi používaných metod a technik. Studenti v průběhu studia získají základní znalosti těchto metod. Na cvičeních se studenti seznámí se statistickým softwarem SAS, v němž se naučí vyložené metody aplikovat na reálná data.
Výstupy z učení
Na konci tohoto kurzu bude student ovládat základní metody data miningu: (1) získání a příprava dat; (2) exploratorní analýzu a vizualizaci dat; (3) techniky deskriptivního modelování; (4) techniky prediktivního modelování.
Osnova
  • Historie data miningu, základní pojmy, přehled data miningového softwaru.
  • Organizace dat.
  • Příprava dat.
  • Průzkumová analýza, vizualizace dat, kontingenční tabulky.
  • Metody redukce dimenze: metoda hlavních komponent, faktorová analýza, mnohorozměrné škálování.
  • Analýza nákupního košíku.
  • Shluková analýza.
  • Lineární regrese, porušení předpokladů, robustifikace.
  • Logistická regrese. Evaluace modelu – LC (ROC), Gini, KS, Lift.
  • Rozhodovací stromy.
Literatura
  • GIUDICI, Paolo. Applied data mining : statistical methods for business and industry. Chichester: Wiley. xii, 364. ISBN 0470846798. 2003. info
  • HAN, Jiawei a Micheline KAMBER. Data mining : concepts and techniques. 2nd ed. San Francisco, CA: Morgan Kaufmann. xxviii, 77. ISBN 1558609016. 2006. URL info
  • HAND, D. J., Heikki MANNILA a Padhraic SMYTH. Principles of data mining. Cambridge, Mass.: MIT Press. xxxii, 546. ISBN 026208290X. 2001. info
  • Business modeling and data mining. Edited by Dorian Pyle. Boston: Morgan Kaufmann Publishers. xxvi, 693. ISBN 155860653X. 2003. info
  • Data mining and knowledge discovery handbook. Edited by Oded Z. Maimon - Lior Rokach. New York: Springer. xxxv, 1383. ISBN 0387244352. 2005. info
Výukové metody
Přednášky - získání znalostí a technik data miningu. Cvičení - osvojení technik data miningu pomocí zpracování dat ve statistickém softwaru SAS.
Metody hodnocení
Na cvičeních zápočtový test u počítače - k úspěšnému zvládnutí je potřeba dosáhnout alespoň poloviny bodů. Ústní zkouška - k úspěšnému zvládnutí je třeba získat alespoň 50 procent možných bodů a správně vypracovat semestrální projekt.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Nachází se v prerekvizitách jiných předmětů
Předmět je zařazen také v obdobích jaro 2011 - akreditace, jaro 2011, jaro 2012, jaro 2012 - akreditace, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2021, jaro 2022, jaro 2023, jaro 2024.