logo-IBA logo-MU © Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ logo-MU ANALÝZA A KLASIFIKACE DAT RNDr. Eva Janoušová logo-IBA logo-MU © Institut biostatistiky a analýz VIII. ANALÝZA HLAVNÍCH KOMPONENT levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz ÚVOD – EXTRAKCE PŘÍZNAKŮ þjedním z principů výběru příznaků þtransformace původních příznakových proměnných na menší počet jiných příznakových proměnných Þ tzn. hledání (optimálního) zobrazení Z, které transformuje původní m-rozměrný prostor (obraz) na prostor (obraz) n-rozměrný (m ³ n) þpro snadnější řešitelnost hledáme zobrazení Z v oboru lineárních zobrazení þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz ÚVOD – EXTRAKCE PŘÍZNAKŮ þ3 kritéria pro nalezení optimálního zobrazení Z: èobrazy v novém prostoru budou aproximovat původní obrazy ve smyslu minimální střední kvadratické odchylky èrozložení pravděpodobnosti veličin v novém prostoru budou splňovat podmínky kladené na jejich pravděpodobnostní charakteristiky èobrazy v novém prostoru budou minimalizovat odhad pravděpodobnosti chyby è þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz ÚVOD – EXTRAKCE PŘÍZNAKŮ þ3 kritéria pro nalezení optimálního zobrazení Z: èobrazy v novém prostoru budou aproximovat původní obrazy ve smyslu minimální střední kvadratické odchylky èrozložení pravděpodobnosti veličin v novém prostoru budou splňovat podmínky kladené na jejich pravděpodobnostní charakteristiky èobrazy v novém prostoru budou minimalizovat odhad pravděpodobnosti chyby è þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz ANALÝZA HLAVNÍCH KOMPONENT þPCA – Principal Component Analysis þosnova: èopakování učiva z Vícerozměrných statistických metod èjiný (obecnější) pohled na PCA èpříklad – výpočet PCA krok po kroku èPCA při rozdělení obrazů do klasifikačních tříd èrozšiřující poznatky o PCA è þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA - OPAKOVÁNÍ þsnaha redukovat počet proměnných nalezením nových latentních proměnných (hlavních komponent) vysvětlujících co nejvíce variability původních proměnných þnové proměnné (X1, X2) lineární kombinací původních proměnných (Y1, Y2) þ Y2 Y1 X1 X2 Y2 Y1 levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA - OPAKOVÁNÍ þvstup do PCA: èkovarianční matice èmatice korelačních koeficientů þhlavní komponenty odpovídají vlastním vektorům kovarianční matice (či matice korelačních koef.) þvariabilita vysvětlená příslušnou komponentou odpovídá vlastním číslům þvlastní vektory seřazeny podle vlastních hodnot (sestupně) Þ vybráno prvních n komponent vyčerpávajících nejvíce variability původních dat þpředpoklady: kvantitativní proměnné s normálním rozdělením levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA – JINÝ (OBECNĚJŠÍ) POHLED þ þdáno K obrazů charakterizovaných m příznakovými proměnnými (nerozdělenými do klasifikačních tříd) þ þaproximujme nyní kterýkoliv obraz yk lineární kombinací n ortonormálních vektorů ei (n ≤ m) þ þkoeficienty cki lze považovat za velikost i-té souřadnice vektoru yk vyjádřeného v novém systému souřadnic s bází ei, i=1,2,…,n þ p1 p2 … pm y1 y2 … yK příznaky levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA – KRITÉRIUM MINIMÁLNÍ STŘEDNÍ KVADRATICKÉ ODCHYLKY þnalezení optimálního zobrazení pomocí kritéria minimální střední kvadratické odchylky: þ þ þvztah lze pomocí dříve uvedených vztahů upravit na: þ þ þstřední kvadratická odchylka pro všechny obrazy yk, k=1,…,K je þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA – KRITÉRIUM MINIMÁLNÍ STŘEDNÍ KVADRATICKÉ ODCHYLKY þmusíme zvolit bázový systém ei tak, aby střední kvadratická odchylka ε2 byla minimální þ þdiskrétní konečný rozvoj podle vztahu s bázovým systémem ei, optimálním podle kritéria minimální střední kvadratické chyby, nazýváme diskrétní Karhunenův – Loevův rozvoj levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA – KRITÉRIUM MINIMÁLNÍ STŘEDNÍ KVADRATICKÉ ODCHYLKY þstřední kvadratická odchylka je minimální, když je maximální výraz je autokorelační matice řádu m. Protože je symetrická a semidefinitní, jsou její vlastní čísla λi, i=1,…,m, reálná a nezáporná a vlastní vektory vi, jsou buď ortonormální, nebo je můžeme ortonormalizovat (v případě násobných vlastních čísel). levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA – KRITÉRIUM MINIMÁLNÍ STŘEDNÍ KVADRATICKÉ ODCHYLKY þuspořádáme-li vlastní čísla sestupně podle velikosti, tj. λ1 ³ λ2 ³ … ³ λm ³ 0 þ a podle toho očíslujeme i odpovídající vlastní vektory, lze dokázat, výše uvedený výraz dosahuje maxima, jestliže platí þei = vi, i=1,…,n þ a pro velikost maxima je þ þ þpak pro minimální střední kvadratickou platí þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA – VSTUPNÍ MATICE þautokorelační matice – data nejsou nijak upravena (zohledňována průměrná hodnota i rozptyl původních dat) þkovarianční (disperzní) matice – data centrována (od každé příznakové proměnné odečtena její střední hodnota) – zohledňován rozptyl původních dat þmatice korelačních koeficientů – data standardizována (odečtení středních hodnot a podělení směrodatnými odchylkami) – použití pokud mají proměnné různá měřítka levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA – VSTUPNÍ MATICE þautokorelační matice – data nejsou nijak upravena (zohledňována průměrná hodnota i rozptyl původních dat) þkovarianční (disperzní) matice – data centrována (od každé příznakové proměnné odečtena její střední hodnota) – zohledňován rozptyl původních dat þmatice korelačních koeficientů – data standardizována (odečtení středních hodnot a podělení směrodatnými odchylkami) – použití pokud mají proměnné různá měřítka þkaždou úpravou původních dat ale přicházíme o určitou informaci! levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA – VLASTNOSTI KARHUNENOVA-LOEVOVA ROZVOJE þpři daném počtu n členů rozvoje poskytuje ze všech možných aproximací nejmenší střední kvadratickou odchylku; þpři použití disperzní matice jsou transformované souřadnice nekorelované; pokud se výskyt obrazů řídí normálním rozložením zajišťuje nekorelovanost i jejich nezávislost; þvliv každého členu uspořádaného rozvoje se zmenšuje s jeho pořadím; þzměna požadavků na velikost střední kvadratické odchylky nevyžaduje přepočítávat celý rozvoj, nýbrž jen změnit počet jeho členů. levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA – GEOMETRICKÁ INTERPRETACE 001.jpg X1 X1 X2 X2 v1 v2 y použití obou hlavních komponent použití 1. hlavní komponenty použití 2. hlavní komponenty x2 x1 X1 X2 v2 y x2 X1 v1 y x1 X2 levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA - PŘÍKLAD þ þdata: A 101 16 B 105 18 C 103 42 D 98 23 E 93 6 levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA – ROZDĚLENÍ DO TŘÍD þVýskyt obrazů v jednotlivých klasifikačních třídách bude popsán podmíněnými hustotami pravděpodobnosti p(y|ωr), r=1,2,…,R a apriorní pravděpodobnost klasifikačních tříd bude P(ωr). þ þ þ þ þ þV tom případě autokorelační matice bude þ 002.jpg levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PCA – ROZDĚLENÍ DO TŘÍD þdisperzní matice – vztah 1: þ þ þ kde þ þrozlišení klasifikačních tříd jen podle disperze þtransformované příznak. proměnné nekorelované þ þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þdisperzní matice – vztah 2: þ þ þkde þ þneodstraňuje vliv středních hodnot obrazů v jednotlivých třídách – použití pokud jsou stř. h. výrazně odlišné a nesou velké množství informace þ þ PCA – ROZDĚLENÍ DO TŘÍD levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þvýpočet PCA, když je m >> K þsouvislost se singulárním rozkladem (SVD – Singular Value Decomposition) PCA – ROZŠIŘUJÍCÍ POZNATKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þPříprava nových učebních materiálů þoboru Matematická biologie þje podporována projektem ESF þč. CZ.1.07/2.2.00/07.0318 þ„VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE“ INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ logo-MU