© Institut biostatistiky a analýz Analýza a klasifikace dat – přednáška 5 – doplnění RNDr. Eva Koriťáková, Ph.D. Podzim 2017 Klasifikační (rozhodovací) stromy 2Koriťáková: Analýza a klasifikace dat Zmenšený hipokampus Zmenšená amygdalaZvětšené komory Pacient Kontrola KontrolaPacient Ano Ne Ano Ne Ano Ne Princip: Postupné rozdělování datasetu do skupin podle hodnot jednotlivých proměnných. Patří mezi metody sekvenční klasifikace. Podrobnější informace: https://www.iba.muni.cz/res/file/ucebnice/komprdova- rozhodovaci-stromy-lesy.pdf Klasifikační (rozhodovací) stromy - doplnění • kategoriální proměnné – rozdělení se provede podle kategorií (viz obrázek na předchozím slidu) • spojité proměnné – nalezne se nejlepší dělící hodnota a pak dojde k rozdělení; proměnná se může použít i vícekrát s různými dělícími hodnotami 3 • postup vytvoření stromu: – nejprve se vytvoří strom, kde v „listech“ (terminálních uzlech) jsou vždy jen subjekty z jedné skupiny – následuje tzv. „prořezávání stromu“ – odstraní se ty uzly, které jsou nejvíce zbytečné (příliš velký strom je totiž zpravidla přeučený a funguje špatně na testovacích datech) Koriťáková: Analýza a klasifikace dat • klasifikační lesy – použití více klasifikačních stromů ke klasifikaci • použije se zpravidla jen část dat na vytvoření (tzn. naučení) jednotlivých stromů: – náhodně vybrané subjekty – náhodně vybrané proměnné • finální klasifikace testovacích dat se provede „hlasováním“ výsledků z klasifikace pomocí jednotlivých stromů 4Koriťáková: Analýza a klasifikace dat Klasifikační (rozhodovací) lesy Neuronové sítě 5 Vstupní vrstva 1. skrytá vrstva Výstupní vrstva 2. skrytá vrstva Princip: Postupné učení neuronové sítě (tzn. postupné nastavování vah u jednotlivých neuronů), aby byla chyba klasifikace trénovací množiny minimální. Umožňuje i nelineární klasifikaci. Více typů neuronových sítí – např.: • Vícevrstvé neuronové sítě typu perceptron • RBF (Radial Basis Function) sítě • LVQ (Learing Vector Quantization) sítě pacienti kontroly Nelineární klasifikace x1 x2 Koriťáková: Analýza a klasifikace dat Typy neuronových sítí • Vícevrstvý perceptron (Multilayer Perceptron): – lze si představit jako modely logistické regrese seřazené do sítě (obrázek viz předchozí slide) – aktivační funkce: hyperbolický tangent, logistická funkce nebo případně další • RBF (Radial Basis Function) sítě: – kombinace učení s učitelem a bez učitele – aktivační funkce: radiální bázové funkce 6 http://www.data- compression.com/ lbgvq.gif.080 http://bio.felk.cvut.cz/biocmsms/uploads /images/nature_inspired//RBF_net.png • LVQ (Learing Vector Quantization) sítě: – založené na adaptivním shlukování (obdoba k-means) Koriťáková: Analýza a klasifikace dat