MACHINE LEARNING Generalizace/specializace Entropie pro tvorbu rozhodovacích stromů Co je overfiting. Prořezávání rozhodovacího stromu. Confusion matrix Kvantitativní míry kvality klasifikačního algoritmu Metody vzorkování (sampling) Shlukování, k-means algoritmus, soft clustering (EM) Časté vzory (large itemsets) a asociační pravidla Detekce anomálií JAZYK R porozumění kódu TEXT MINING Základní úlohy Reprezentace a předzpracování dat Sumarizace textu. Extraktivní a abstraktivní s. SUmarizace z jednoho a z více dokumentů. Metody extraktivní s. ROUGE a vyhodnocování výsledků sumarizace. REPORTS LSA, LDA and beyond. Critical analysis of this class of methods Probabilistic methods (3) Translingual Mining (Transfer learning). From English to Latin Biomedical text mining TEXT MINING Stručně vysvětlete Tokenization Bag-of-words n-gram TF-IDF Morphological readings chunks name entities LSA nebo LDA Jaké jsou varianty TF-IDF? Předzpracování textu pro text mining Vysvětlete, co je feature selection. Popište jednu metodu Vysvětlete, co je feature construction. Popište jednu metodu Vysvětlete, co je aktivní učení a kde je výhodné ho použít. Uveďte na příkladu rozdíl mezi morfologickým značkováním angličtiny (např. Penn Tree Bank) a češtiny. Morfologická desambiguace Filtrování, klasifikace a kategorizace textů Extrakce informace z textu Hledání klíčových slov Sumarizace textu Shlukování dokumentů a termů Analýza sentimentu a opinion mining