Diskriminační analýza Diskriminační analýza 1/1 Diskriminační analýza Data: • (x/5i,... ,x/5P, Yi)T pro / = 1,..., n. • x, = (x/i,... ,x/p)T je vektor (spojitých) regresorů . • Y; udává příslušnost /-tého pozorování k dané skupině. • Y; je kategoriální proměnná nabývající hodnot 1, 2,..., J. Cíl: Na základě dat zkonstruovat rozhodovací pravidlo, které bude co nejlépe klasifikovat nová pozorování (x*l3... ,x*p)T do příslušné skupiny. Metody diskriminační analýzy • Úloha supervised learning (učení s učitelem). o Zakladatel: R. A. Fisher (1936) - klasifikace kosatců (iris). • Způsoby odvození klasifikačního pravidla: • Kanonická diskriminační analýza (kombinace PCA a MANOVÁ - hledání nového souřadnicového systému, který maximalizuje podíl vnitro a meziskupinové variability). Parametrické metody (lineární a kvadratická diskriminační analýza). • Neparametrické metody (/c-nearest neighbors, metody založené na jádrových odhadech hustoty, na hloubce dat, apod.) Parametrické metody - rozhodovací pravidla • Nechť jsou naše data generována náhodným vektorem X = (Xi,... ,XP)/ a nechť Y značí náhodnou veličinu udávající příslušnost daného pozorování k dané skupině; Y nabývá hodnot 1, 2,..., J. 9 Předpokládejme, že známe hustotu rozdělení náhodného vektoru X pro j-tou skupinu, tj. nechť rozdělení X| Y = j má hustotu p/(x) (známá p-rozměrná hustota). • V praxi se pro určení pravidel nejčastěji používá princip maximální věrohodnosti a Bayesovský přístup. Princip maximální věrohodnosti: Pozorování x* zařaď do skupiny arg max{p/(x*);7 = 1,..., J}. Bayesovský přístup: Pozorování x* zařaď do skupiny arg max{p/(x*)7Ty; j" = 1,..., J}, kde ttj je apriorní pravděpodobnost, že pozorování patří do skupiny j, tj. ttj = P(Y = j). 9 Bayesovské pravidlo minimalizuje pravděpodobnost špatné klasifikace. Lineární diskriminační analýza Předpokládejme, že p/(x) jsou hustoty p-rozměrného normálního rozdělení A/^,(/u.;, Z) se stejnými variančními maticemi Z. P/W exp