Informace k předmětu M9DM2 Data mining II
RNDr. Radim Navrátil, Ph.D.
Informace k předmětu M9DM2 Data mining II
Info
Období
podzim 2018
Požadavky ke zkoušce:
  • Aktivní účast na cvičeních.
  • Zpracování „reálných“ dat v týmu (max. 3 studentů) a prezentace výsledků analýzy 12. prosince.
  • Ústní zkouška z vyložené teorie.
Výsledná známka bude sestavena na základě hodnocení následujících částí:
  • Projekt (0-3 body)
  • Zkouška:
    • Praktická část u počítače (0-3 body)
    • Teoretická otázka (0-3 body)
  • K úspěšnému ukončení předmětu je potřeba z každé části získat aspoň 1 bod a v součtu alespoň 4.
Okruhy k praktické části u počítače (bude příp. ještě upřesněno nejpozději 12. týden):
  • práce s databází v MySQL (zápis dotazů řešících konkrétní úlohy v databázi, práce s tabulkami)
  • regulární výrazy v R (zápis regulárních výrazů, využití pro vyhledávání a nahrazování)
  • základy programování v Pythonu (základní datové typy a příkazy, interakce s uživatelem, načítání dat ze souboru, vytvoření jednoduchého skriptu)
  • práce s databázemi a tabulkami v R (použití knihovny sqldf)
Okruhy k teoretické části zkoušky:
  • Diskriminační analýza - lineární, kvadratická, neparametrická diskriminační analýza, metoda kNN
  • Credit scoring - skórkarta, definice targetu a vzorku, měřitelnost, příprava prediktorů a jejich stabilita, práce s chybějícími pozorováními
  • Základy text miningu - co je text mining, jak se provádí, příklady aplikací a použití 
  • Vizualizace dat - historie, principy a důvody vizualizace, příklady nevhodné vizualizace
  • Credit scoring - vývoj skórovací karty (9 kroků)
  • Social network analysis - příklady sociálních sítí, Milgramův experiment, základní koncepty konstrukce sítě pomocí teorie grafů, číselné charakteristiky pro vrcholy i celé grafy

Poznámky k projektům:
  • Utvořte maximálně tříčlenný tým, vyberte si vhodný datový soubor a položte otázky, na které se budete snažit odpovědět.
  • O této skutečnosti nás informujte e-mailem - uveďte, prosím, složení týmu, název projektu a jednu až dvě věty, co budete dělat.
  • Proveďte vlastní analýzu (v libovolném softwaru).
  • Připravte krátkou prezentaci (10 - 13 min.).
  • Prezentace projektů budou probíhat 12. prosince od 14:00.
  • V prezentaci publikum seznamte s vaším problémem, jak jste jej řešili a na co jste přišli.
  • Rozhodně není nutné popisovat použité metody a jiné technické záležitosti, zaměřte se hlavně na výsledky a jejich interpretaci.
  • Pro zpříjemnění předvánoční atmosféry můžete přinést cukroví či jiné pohoštění. Kávu a čaj zajistíme.
  • Svou prezentaci ve formátu pdf vložte do Odevzdávárny nejpozději do středy 12. prosince 12:00.
Časový pořad projektů:
  • Rejentová, Bajaník, Prchlová - The Beatles
  • Harmanová, Musayeva - Credit Scoring
  • Chábová, Žilková - Analýza titulků filmů
  • Hnilická - HR Analytics Case Study
  • Smržová - Divadelní anotace
  • Lasáková, Zdechovan, Radvánský - Shluková analýza na základě ekonomických ukazatelů
  • Felešová - Doctor Who
  • PŘESTÁVKA
  • Pechová, Tvrdíková, Katráková - Harry Potter
  • Skoták, Hamranová, Franková - Kvalita červeného vína
  • Kolenčíková, Železňáková - Korán, Nový a Starý zákon
  • Birošová, Cupáková, Fikarová - Restaurant Data with Consumer Ratings
  • Benková, Horváth - Game of Thrones
  • Burša, Jirků, Opálková - Shakespeare
Předchozí
Následující