Vit^ľwziii^ľiiíi íiiiíily'Zíi ílíil _ MU IBA ^ Jiří Jarkovský tiky a analýz án kurzu 0 Každých 14 dni 4 vyučovací hodiny 0 Ukončení zkouškou -»Písemná -»Zaměřená na principy a aplikace analýz 0 Cil kurzu -»Vysvětlit principy vícerozměrných analýz, jejich aplikaci v biologii a jejich interpretaci -»Přehled základního software ■»Příklady na reálných datech ___________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _mt L'"",,r Vícerozměrná analýza dat © Institut biostatistiky a analýz IfeV JBI/ Náplň kurzu I Vícerozměná analýza dat - smysl a cíle * Příklady užití vícerozměrných analýz Výhody a nevýhody vícerozměrné analýzy dat * Parametrická a neparametrická vícerozměrná statistika Statistické SW pro vícerozměrnou analýzu dat Podobnost a vzdálenost objektů ve vícerozměrném prostoru ■* Metriky podobnosti a vzdálenosti a jejich úskalí J Obecné metriky podobnosti a vzdálenosti j Metriky podobnosti pro biologická společenstva - problém double zero * Asociační matice j Struktura asociační matice □ Práce s asociační maticí □ Mantelův test Vícerozměrné statistické testy a rozložení * Vícerozměrné normální rozložení Vícerozměrné charakteristiky - medoid * Hottelingovo T, Wishartovo rozdělení Základy maticové algebry Typy matic a jejich využití při vícerozměrné analýze dat I Matematické operace s maticemi Eigenvalues (vlastní čísla) a eigenvectory (vlastní vektory) matic Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Náplň kurzu II Shluková analýza Kriteria posuzování výsledků shlukovacích metod □ Minimální vnitroshluková varibilita □ Maximální mezishluková variabilita □ Silhouette width Hierarchické aglomerativní shlukování □ Shlukovací algoritmy • nearest neighbour (single linkage) • farthest neighbour (complete linkage) • UPGMA • WPGMA • UPGMC • WPGMC • Ward's method * Hierarchické divizivní shlukování □ TWINSPAN * Nehierarchické divizivní shlukování □ K-means clustering □ X-means clustering □ Partitioning around medoids (PAM) Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Náplň kurzu III Ordinační analýzy Principy ordinačních analýz - redukce dimenzionality □ Eigenvektor □ Eigenvalue Základní typy ordinační analýzy a jejich užití □ PCA □ CA J DCA □ CCA □ DCCA J RDA J MDS □ PCoA □ Kanonická korelace Analýza hlavních komponent PCA na základě euklidovské vzdálenosti * PCA na základě korelací a kovariancí ■* Normalised PCA ■* Biplot a jeho interpretace Korespondenční analýza a její varianty * CA, DCA, CCA, DCCA MDS a PCoA - ordinační analýza na libovolné asociační matici Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Software pro vícerozměrnou analýzu 0 „Klikaci všeobecne SW * Statistica \A * SAS 0 Specializované SW ■* PcORD * CANOCO * PAST * WEKA * ORANGE * SW pro microarray analýzu Nejrůznější utility na netu 0 Univerzálni SW R - ADE4 atd. Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ feit Základní statistické výpočty s vazbou na vícerozměrnou analýzu Vztah klasické a vícerozměrné statistiky 0 Vícerozměrná analýza dat využíva prístupu klasické statistiky 0 Zároveň je citlivá i na ieiich problémy ^ ^ 0 Agregace dat pres sumární statistiku nebo kontingenční tabulky - korespondenční analýza 0 Korelace - analýza hlavních komponent, faktorová analýza, diskriminační analýza Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Kontingenční tabulka 3 Důchodový vek p^-^^ Ano Ne ^ I Ano 20 82 102 I 1 Ne 10 54 64 I | Z 30 136 166 | 0 Kontingenční tabulka je používána pro hodnocení vztahu kategoriálních proměnných Kontingenční tabulka v obrázku Nákup: ANO c: 49% Důchodce Ekonomicky aktivní % Nákup: NE 84,4 Důchodce Ekonomicky aktivní Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Kontingenční tabulky - princip analýzy Binomické jevy (1/0) 2 Ľ I pozorovaná četnost očekávaná četnost ] očekávaná četnost 2 pozorovaná očekávaná 2 četnost četnost + očekávaná četnost Příklad I. jev 1 II. jev 2 / 10 000 lidí hází mincí rub: 4 000 případů (R) líc: 6 000 případů (L) Lze výsledek považovat za statisticky významně odlišný (nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ? Stejným způsobem, tedy hodnocením odchylek od očekávaného vyrovnaného počtu případů hodnotí data i korespondenční analýza Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Korelační analýza • Korelace - vztah (závislost) dvou znaků (parametrů) i Y- Korelace mezi parametry jsou základem faktorové analýzy a analýzy hlavních komponent, pokud vazby mezi parametry nejsou tyto metody postrádají smysl. Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA Rizika korelační analýzy Problém rozložení hodnot Problém typu modelu * ..v • • • •• • v. • • t y i • • • • ► r = 0,981 (p < 0,001) * *> r = 0,761 (p < 0,032) i r* • Problém velikosti vzorku r = 0,891 (p < 0,214) r = 0,212 (p < 0,008) • 0 m m •-> • Vícerozměrná analýza dat © Institut biostatistiky a analýz ■i .-■■"■ -. *— IUI MU IBA M změř Význam vícerozměrného hodnocení dat Vícerozměrné vnímání skutečnosti — nová kvalita analvzv dat skupina 2° ° skupina 2 Vícerozměrný systér* X2 j X2 i-----► l + I í—► skup. skup. skup. skup. 2 12 1 Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Bezna sumarizace dat „likviduje ______individualitu jedince______ 0 2 9 A A l 1 \ /r A A o JOL. . ~ Prumer ± SE \f \f BEZNA STATISTICKÁ SUMARIZACE s Zpřehlednění dat s Neodlišípůvodní měření Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Vícerozměrné hodnocení ... s ohledem na individualitu ! Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Vícerozměrné hodnocení - nová kvalita Pouze kombinované parametry mají odpovídající informační sílu A A A BBB """V6 AbbbBbbB* aa b b b příklad: XI = Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Vícerozměrné hodnocení vychází z jednoduchých principů příklad: vícerozměrná vzdálenost měření mezi dvěma objekty (body) b = ifc- *i = 4 Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Vícerozměrné modelování je strategickou disciplínou Kn technické parametry automobilu ^n+: řidičovy schopnosti a jeho stav kp+i rychlost, povrch, situace Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ feit Základní principy vícerozměrného hodnocení dat Pojmy vícerozměrných analýz 0 0 0 0 Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu. Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz. Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik. Vícerozměrná analýza dat © Institut biostatistiky a analýz 1BA * Vstupní matice vícerozměrných analýz NxP MATICE asociační matice t- cm co i_ i— i— "S "S "ffi E E E ní ní ní Q. Q. . Q. z /\ \ objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 objekt 6 Hodnoty parametru pro jednotlivé bbjekty Výpočet metriky podobností/ vzdáleností t- (N CO ^ * lO (D _*: _*; ^ _*: _*; ^ a) aj a) a) aj a) .Q _Q .Q _Q _Q .Q o o o o o o objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 /\ objekt 6 ^H Korelace, kovariance, vzdálenost, podobnost Vícerozměrná analýza dat © Institut biostatistiky a analýz JfiA v^ í typy vícerozměrných analýz SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY vytvářeni shluku objektu na základě jejich podobnosti 0 identifikace typů objektů 0 zjednodušení vícerozměrného problému do menšího počtu rozměrů 0 principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Typy vícerozměrných analýz SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY t podobnost t t Faktorové J>sy t** 4-4 x n* x Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ MU IBA M změř Asociační matice Vícerozměrná vzdálenost a podobnost Seznam taxonů - vícerozměrný popis společenstva 0 Na seznam taxonu lze pohlížet take jako seznam rozmeru společenstva 0 Záznam o nalezených taxonech tak vlastně tvoří vícerozměrný popis daného společenstva 0 Společenstva můžeme srovnávat podle jejich vzájemné pozice v n-rozměrném prostoru 0 Pro srovnání společenstev lze teoreticky využít libovolnou metriku vícerozměrné podobnosti nebo vzdálenosti -l4{Xl,X2 ) — a a a {a + b)(a + c) ^{a + b)(a + c) Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Faith (1983) e V tomto koeficientu je neshoda (přítomnost na jedné a absence na druhé lokalitě) vážena proti duplicitní prezenci. Hodnota S26 klesá s růstem double-zero a + d /2 ^ 26 V*í >-^ ) — p Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr MU IBA o*»*,„ m. změř Kvantitativní koeficienty »^ Klasické44 indexy podobnosti 0 Sorensenův kvantitativní koeficient, kde aN a bN jsou celkové počty jedinců v společenstvech A a B, jN je pak suma abundancí pokud se druh nachází v obou společenstvech, je počítána vždy z nižší abundance daného druhu ve společenstvu r = 2jN (aN + bN) 0 Morisita-Horn index, kde aN je celkový počet jedinců ve společenstvu A a an; počet jedinců druhu i ve společenstvu A (obdobně platí pro společenstvo B) ^mH (da + db).aN.bN da- Z an, aN' Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Jednoduchý srovnávací koeficient (Sokal & Michener. iq<=;81 U 0 modifikovaný simple matching coefficient múze byt použit pro multistavove deskriptory - čitatel obsahuje počet deskriptorů, pro které jsou dva objekty ve stejném stavu - např. je-li dvojice objektů popsána následujícími deseti multistavovými deskriptory: hodnota SI,vypočítaná pro 10 multistavových deskriptorů bude Sl,(xl,x2) = 4 agreements/ 10 descriptors = 0.4 0 Podobným způsobem je možné rozšířit všechny binární koeficienty pro multistavove deskriptory. ol (X19X2 ) — agreements P Deskriptors S Object Xj 9 3 7 3 4 9 5 4 0 6 Object x2 2 3 2 1 2 9 3 2 0 6 Agreements 0 + 1 + 0 + 0 + 0 + 1 + 0 + 0 + 1 + 1 4 Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Gowerův obecný koeficient podobnosti (1971) ___________________L____________ ■ 0 4z pj=i 'I2y Pro binární deskriptory sj=l (shoda) nebo 0 (neshoda). Gower navrhl dvě formy tohoto koeficientu. Následující forma je symetrická, dává sj=l double-zero. Druhá forma, Gowerův asymetrický koeficient S19 dává pro double-zero sj=0 Kvalitativní a semikvantitivní deskriptory jsou upraveny podle jednoduchého zaměňovacího pravidla, sj=l při souhlasu a s j = 0 při nesouhlasu deskriptorů. Double zero jsou ošetřeny stejně jako v předchozím odstavci. Kvantitativní deskriptory (reálná čísla) jsou zpracovány následovně: pro každý deskriptor se nejprve vypočte rozdíl mezi stavy obou objektů který je poté vydělen největším rozdílem (Rj), nalezeným pro daný deskriptor mezi všemi objekty ve studii (nebo v referenční populaci - doporučuje se vypočítat největší diferenci Rj každého deskriptoru j pro celou populaci, aby byla zajištěna konzistence výsledků pro všechny parciální studie). Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA '•$& Gowerův obecný koeficient podobnosti (1971) ___________________IL____________ ■ 0 normalizovaná vzdálenost může být odečtena od 1 aby byla transformována na podobnost: 0 Suj = 1 - y m - y 2j R Goweruv koeficent muže být nastaven tak, aby zahrnoval přídavný flexibilní prvek: žádné porovnání není vypočítáno u deskriptorů, u nichž chybí informace buď u jednoho, nebo u druhého objektu. Toto zajišťuje člen wj, nazývaný Kroneckerovo delta, popisující přítomnost/nepřítomnost informace v obou objektech: je-li informace o deskriptoru yj přítomna u obou objektů (w/=l), jinak (*v/=0), tento koeficient nabývá hodnot podobnosti mezi 0 a 1 (největší podobnost objektů). Další možností je vážení různých deskriptorů prostým přiřazením čísla v rozsahu 0-1 wj. o15(Xj,X2 ) — Wi2y*i2y P Z y m Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr feit Různé vícerozměrné metriky vzdáleností Euklidovská vzdálenost 0 Jde o základni metrické merítko vzdálenosti a pocita vzdálenost objektů obdobně jako Pythagorova věta počítá přeponu pravoúhlého trojúhelníku. Metoda je citlivá na rozdílný rozsah hodnot vstupujících proměnných (vhodným řešením může být standardizace) a double zero problém. Nemá horní hranici hodnot. Dl(xl,x2) = ^TJpj=l(ylj -y2j) Jako dalsi merítko se používa take čtverec teto vzdálenosti. . Jeho nevýhodou jsou semimetrické vlastnosti. y21 K /"\ Diíx^) / y22 X2^/ ,/ y12 y11 Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Průměrná vzdálenost 0 Euklidovská vzdálenost je prepočítaná na počet parametrů (druhů v případě vzdálenosti společenstev odběrů). 2 1 ^ D(x1,x2) = — IJP(yli -y2j) P D2(xl,x2) = ^JD Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Chord distance (Orlóci, 1967) 0 Odstraňuje double zero problém a vliv rozdílného počtu jedinců druhů ve vzorcích při výpočtu Euklidovské vzdálenosti. Její maximální hodnota je druhá odmocnina ze dvou a minimum 0. Při výpočtu počítá pouze s poměry druhů v rámci jednotlivých vzorků. Jde vlastně o Euklidovskou vzdálenost počítanou pro vektory vzorků standardizované na délku 1, nebo je možný přímý výpočet už zahrnující standardizaci. Vnitřní část výpočtu je vlastně cosinus úhlu svíraného vektory, zápis vzorce je možný i v této formě. / L>3 (Xj, X2 ) — \1 1- ^U y^y-ii \ \ zu y\, ZU ylj j D3 = ^2(1 - cos e) Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Geodetická metrika 0 Počíta del ku vyseče jednotkové kružnice mezi normalizovanými vektory (viz. Chord distance). D4 (Xj x2) = arccos 1- U3 (Xj, x2) Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ M ahalanobisova vzdálenost (Mahalanobis _________________193áÉ______________ 0 Jde o obecné měřítko vzdálenosti beroucí v úvahu korelaci mezi parametry a je nezávislá na rozsahu hodnot parametrů. Počítá vzdálenost mezi objekty v systému souřadnic jehož osy nemusí být na sebe kolmé. V praxi se používá pro zjištění vzdálenosti mezi skupinami objektů. Jsou dány dvě skupiny objektů wl a w2 o ni a n2 počtu objektů a popsané p parametry: D25{wx,w2) = dnV~xdn Kde dn je vektor o délce p rozdílů mezi průměry p parametrů v obou skupinách. V je vážená disperzní matice (matice kovariancí parametrů) uvnitř skupin objektů. v = 1 nx+n2-2 [(Wl-l)S1+(w-2)S2] kde SI a S2 jsou disperzní matice jednotlivých skupin. Vektor měří rozdíl mezi p- rozměrnými průměry skupin a V vkládá do rovnice kovariancí mezi parametry. Vícerozměrná analýza dat © Institut biostatistiky a analýz ■i .■■'"■ -. m__IUJ ISA -WJ Minkowskeho metrika 0 Je obecnou formou výpočtu vzdálenosti - podle zadaného koeficientu může odpovídat např. Euklidovské nebo Manhattanske metrice. Se stoupající koeficientem umocňování stoupá významnost větších rozdílů. Existuje PH ještě obecnější forma, kdy koeficient umocňování a odmocňování je zadáván zvlášť. Manhattanska vzdálenost 0 Jde vlastně o součet rozdílů jednotlivých parametrů popisujících objekty JJrj yxx, x2 ) — 2-1'j=i y y - y2j Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Mean character difference (Czekanowski 0 Manhattanska vzdálenost prepočítaná na počet parametrů. D%\xl,x2) — 2^/=1 P y u - y y Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Whittakerův asociační index (Whittakerj losa* 0 Je dobre použitelný pro data abundanci, kazdy druh je nejprve transformován ve svůj podíl ve společenstvu, následující výpočet je opět obdobou Manhattanské vzdálenosti. Dg (Xj , X2 ) — 2j ,-=1 2 yij yij i;=1 ytJ Y.pj=x y2j 0 Jeho hodnota je 0 v případě identických proporcí druhů. Stejný výsledek lze získat i jako součet nejmenších podílů v rámci obou vzorků. 9 \*^1 ? 2 / f 1-min y \ j \J-Uyjj Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Canberra metric (Lance & Williams 1966) 0 Varianta Manhattanské vzdálenosti (před výpočtem musí být odstraněny double zero a není jimy tedy ovlivněna). Stejný rozdíl mezi početnými druhy ovlivňuje vzdálenost méně než mezi druhy vzácnějšími, p xy10(X1,X2 ) — / 7=1 K--JY Uy+J^) 0 Stephenson et al. (1972) a Moreau & Legendre (1979) použili tuto metriku jako součást koeficientu podobnosti S(xx, x2) = 1 Z)10 P Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Koeficient divergence s Obdobná metrika jako DIO ale založená na Euklidovské vzdálenosti a vztažená na počet parametrů. i Dll{xl,x2)— /,,_, P r V y m - y v Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Coefficient of racial likeness (Pearson 1926) 0 Umožňuje srovnávat skupiny objektů podobně jako Mahalanobisova vzdálenost, ale na rozdíl od ní neeliminuje vliv korelace parametrů. Dvě skupiny objektů wl a w2 jsou charakterizovány (průměr parametrů ve skupinách) a (rozptyl parametrů ve skupinách). Dn (wi ^2) = 1 p \ p j=l bij-yijj fs2) + (4)\ 2_ P Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA v^ %2 metrika (Roux & Reyssac 1975) První ze skupiny metrik založených na %2 pro výpočet vzdáleností odběrů založených na abundancích druhů nebo jiných frekvenčních datech (nejsou přípustné žádné záporné hodnoty). Data původní matice abundancí/frekvencí Y jsou nejprve přepočítána do matice poměrných frekvencí (součty frekvencí v řádcích (odběry) jsou rovny 1). Jako dodatečné charakteristiky uplatňované při výpočtu jsou spočteny součty řádků yi+ a sloupců y+j celé! matice n(i) odběrů x p(j) druhů. Y = y u y* -> y u yl+ D(xl,x2) = jY P /V v ^ yy yy y\+ y 2+ J [y+J K+ 0 Výpočet odstraňuje problém Rouble zero. Nejjednodušším výpočtem je obdoba Euklidpvské vzdálenosti 0 která je dále vážena součty jednotlivých druhů D15(x19x2) = W — ryy yij^1 m y+j Ui+ y 2 + j Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ X2 vzdálenost (Lébart & Fénelon 1971) 0 Výpočet je podobný %2 metrice, ale vážení je prováděno relativní četností řádku v matici místo jeho absolutního součtu, při výpočtu se užívá parametr y++ (celkový součet matice). Je využívána také při výpočtu vztahů řádků a sloupců kontingenční tabulky. lul6(xl,x2) — / , f m y+j yij y \ 2j V^l+ y2+ J ++ í yij y \ 2j Ui+ y^) Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Hellingerova vzdálenost (Rao 1995) 0 Koeficient související s D15 a D16. p Z^ 7 (x,, x?) — J 7, 7=1 yy yv -\2 y\ + y 2+ Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Analýza hlavních komponent Faktorová analýza . Vícerozměrná analýza dat © Institut biostatistiky a analýz ■i .-■■"■ -. IBA -Ws Principy cirmlý-zy h luv ní ch komponent 1 0 Vstupní data: -> Spojité nebo dummy proměnné popisující jednotlivé respondenty 0 Výstupy analýzy |f -» Vztahy všech původních faktorů v jednoduchém xy grafu -> Pozice respondentů v prostoru - jednoduchá identifikace segmentů a vlivů faktorů na různé skupiny 0 Kritické problémy analýzy -» Odlehlé hodnoty -» Zcela nezávislé proměnné - není zde žádná duplicitní informace k vysvětlení Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Principy cíf)cílý-zy hhivnloh komponent 11 0 Proměnné jsou vzájemně korelovány, tedy část informace v souboru je duplicitní 0 Analýza odstraní duplicitu z dat a zobrazí pouze unikátní informaci Faktorové d>sy +-* ¥ X 1. Faktorová "osa vyčerpá nejvíce celkové variability x Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Vstupy vypučí u P CA [H STATISnCA - [Data: Activitif llllll File Edit View Insert Format Statistics Graphs Tools Data Window Help D^0| # Hk Jt ^1 H ^ | ^ Oft Add to Wortoook - Add to Report - #¥?. 3nľ3iB z !^|ATá.T^'I^S n éi1 É' ö | zl EMU MMU swu M M E SWE UWY SMY Activities timetable data for 28 population groups modified example data reported in Exploratory and Multivariate Data 1 WORK HOUSEHOLD 4 5 CHILDREN SHOPPING PERSONAL CARE 510 475 10 515 179 585 482 652 510 20 655 168 542 389 650 578 24 552 434 527 433 650 560 10 650 260 515 433 140 120 94 133 3c 1Ú 12£ •iž 196 134 296 710 E 10 18 22 5£ 115 141 58 12c 145 115 Nezbytnost analýzy l/ztahu proměnných -pnalýza předpokladu. 102 :: 90 94 13 Ú 3£ y^tupní tabulka spoji at tých HÜUSLHÜLU °oQD °g ca300ö CD o 0 ocSo °° 0 O^ o °^ 8° SHOPPINU o°<9° 63? oo° o9 ° o6«3 ° o ° Oa*o o l o°o <%°h> Qo°o0o8c|0o55. IP *b0 0% o ^& ^OSoD ° PbhiyUNALCAhib ^ScP^C, o° °°SS °o8o 5° |Q> 0 0 0 o Qo °aQ°ocí^) 0° o ° o°6> ° ^ o t& V^" To 6?o8T o° 8 o g?/" o ---------BEAT--------- Sö° ^ °° ŕ> ° o ° ß 00 "*> o o oCP ° ° °%^ 8s00orjy° 0^° ô ° ° oo§ $ °o0° o <$o*°° E^M° ÜLLLP o>°otťj : °°o 4 j o°0o°o e k J V ° ° 0 0\°Q8o°o0 o @p 0 ° % ° 8 cP o%9°° oo0°| 0V°°° _______________________________________I Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA * Výstupy nnníý-zy h luv ní ch komponent Pozice faktoru = míra azby parametru s danou osou (-1,+1) Důležitá pro interpretaci. -1.0 -0.5 0.0 0.5 Factor 1 : 45.87% A 1.0 Množství vyčerpané Vícerozměrná analýza dat variability (informační hqrLnpta osy) ^^^^^^m _--.ö. © Institut biostatistiky a analýz ^yf JBfr Výstupy nnníý-zy h luv ní ch komponent Factor 1:45.87% < Vícerozměrná analýza dat nožství vyčerpané variability (informační hodůpta osy) ^^^^^^m ... © Institut biostatistiky a analýz ^yf JBfr w Puklo r o vů iinulý-zii 0 Cím se liší od analýzy hlavních komponent? -» Jediným rozdílem je rotace proměnných tak aby se vytvořené faktorové osy daly dobře interpretovat ■* Výhodou je lepší interpretace vztahu původních proměnných * NevyKcňäou je prostor pro sutfígiai^ffriřfažor analytika i,oH 0,5- CM i 0,0- -0,5- -1,0- •accBl -1,0 ~~r~ -0,5 weight engine ___horse o,o CörrponenM "T" 0,5 "T" 1,0 i,oH 0,5- 0,0- -0,5- -1,0- Oaocel -1,0 -0,5 Ohorse endne T o,o CörrponenM "T" 0,5 "T" 1,0 Vícerozměrná analýza dat © Institut biostatistiky a analýz ■i .-■■"■ -. IBA -Ws Korespondenční analýza Vícerozměrná analýza dat © Institut biostatistiky a analýz ■i .-■■"■ -. IBA -Ws Principy korespondenční uniilý-zy 0 Vstupní data: -> Tabulka obsahující souhrny proměnných (počty, průměry) za skupiny respondentů 0 Výstupy analýzy -» Vztahy všech původních faktorů a/nebo skupin respondentů v jednoduchém xy grafu 0 Kritické problémy analýzy -» Skupiny s malým počtem hodnot mohou být zatíženy značným šumem a náhodnou chybou -» Obtížná interpretace velkého množství malých skupin respondentů Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Principy korespondenční uniilý-zy 0 Korespondenční analýza hledá, které kombinace řádků a sloupců hodnocené tabulky '-I. * íce přispívají k její varia bil i I Realite f^^C^ Vs. Teoretická rovnáno Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Výstupy korespondenční imiilý-zy ÜJ STATlSnCA - [Data: mark_pruzkum* [5v by 5c}] in File Edit View Insert Format Statistics Graphs Tools Data Window Help Q^0"S|#ßM>&l*i©'sfl'00' Vzájemná pozice faktorů a skupin respondentů: vzájemnou pozici lze interpretovat Variabilita vyčerpaná danou faktorovou osou Vícerozměrná analýza dat -0.10 -0.14 -0.12 -0.10 -0.08 -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06 0.08 0.10 Dimension 1; Eigenvalue: .00303 (48.54% of Inertia) © Institut biostatistiky a analýz ■i .■■'"■ -. IBA -Ws Shluková analýza Vícerozměrná analýza dat © Institut biostatistiky a analýz ■i .-■■"■ -. IBA -Ws Principy shluková unulý-zy 0 Vstupní data: -> Tabulka spojitých nebo kategoriálních dat popisujících respondenty nebo jejich skupiny 0 Výstupy analýzy -» Tzv. dendrogram popisující vazby mezi respondenty nebo parametry -» Rozdělení respondentů nebo parametrů do daného počtu skupin 0 Kritické problémy analýzy -» Velké množství parametrů nebo respondentů v dendrogramu je obtížně interpretovatelné -» Analýza je silně závislá na zvolení vhodné metriky vzdáleností • Analýza je silně závislá na shlukovacím algoritmu Vícerozměrná analýza dat © Institut biostatistiky a analýz ■i .-■■"■ -. m__IUJ ISA -WJ P osí u p výpočtu hwrurahlaké shluková umilý-zy W STATISTKA - [Data: mark_priizkiim* [5v by 5c}] H File Edit View Insert Format Statistics Graphs Tools Data Window Help |DöEis|#a|*%t^ stupni datová tabulka Matice vzdáleností Euclidean distances ima\_pruzkumj Dostupnost Obi výrobků 13% průzkum; 3t>Hkenost firmy Cena výrobků Reklama Výběr vhodne metriky vzdáleností je klíčový pro výsledek shlukové analýzy - různé typy proměnných vyžadují různé metriky vzdáleností Vícerozměrná analýza dat 3.36Dendrogram -oÍ9i schéma J-JJ podobnosti jrjesponilentu Kvalita Dostupnost výrobků Shlukovací pravidlo je dalším velmi důležitým krokem při shlukové analýze a může změnit její Cena výrobků Oblíbenost firmy Reklama o nil mel rielpo paranrTetrůl *..............* ...... 0.5 1.0 1.5 2.0 2.5 Linkage Distance 3.0 3.5 4.0 Euklidovská vzdálenost dij=&(xik-xjky k=\ Vážená euklidovská vzdálenost------------- 4=lŽW*(**~*7*): k=\ fej-označení objektu dy - vzdálenost objektu / aj p-počet parametru k-k-tý parametr fvk - váha parametru k Vícerozměrná analýza dat Minkowski (power distance) i p dit = iUJx*- xjk ä k=i - celé číslo = 1 Manhattan (city block) = 2 Euklidovská vzdálenosti Chebychev dH = max xik xjk © Institut biostatistiky a analýz fl^ VJBI/ 0 Jde o základní metrické měřítko vzdálenosti a počítá vzdálenost objektů obdobně jako Pythagorova věta počítá přeponu pravoúhlého trojúhelníku. Metoda je citlivá na rozdílný rozsah hodnot vstupujících proměnných (vhodným řešením může být standardizace) a double zero problém. Nemá horní hranici hodnot. Dx(xX9x2) = JLpj=l{yXj -y2j)2 Jako dalsi merítko se používa take čtverec teto y21 K /"\ Diíx^) / y22 X2^/ ,/ y12 y11 Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Pnkkiüy shlukovciolüh cilgomwü -|- centroid Na tuto vzdálenost se ptá single linkage Na tuto vzdálenost se ptá complete linkage Další metody počítají s průměrnou vzdáleností všech objektů shluků nebo vzdáleností centroidu (vzdálenost může být vážena velikostí shluků). Wardova metoda se snaží minimalizovat variabilitu uvnitř shluků. Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA '•$& ŕJsfjwrzircfjJcJíô zhluku vúííj Respondenti jsou na základě zadaného počtu shluků rozděleni podle kritéria maximální homogenity shluku Rizika analýzy - Při špatném odhadu počtu shluku dává metoda chybné výsledky - Výpočet je možný pouze na Euklidovských ^ídáíeneštech se všemi jéj o o o o X X Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Diskriminační analýza Vícerozměrná analýza dat © Institut biostatistiky a analýz ■i .-■■"■ -. IBA -Ws Principy ďizkríffrímiôfrí zinnlyiy 0 Vstupní data: -> Tabulka spojitých dat popisujících respondenty -> Respondenti jsou rozděleni do předem daných |H skupin 0 Výstupy analýzy -» Seznam parametrů významně rozlišujících různé skupiny respondentů -» Zobrazení pozice respondentů v diskriminačním prostoru -» Model pro zařazení nových respondentů do skupin 0 Kritické problémy analýzy -» Odlehlé hodnoty a asymetrické rozložení uvnitř skupin respondentů -» Silná korelace mezi prediktory f Nutná expertní znalost významu parametrů čm&^hH diskriminačních model^mmMh^ «ŕ | Vicer Principy ďi^krisnimiôní zinnlyiy 0 Analýza nachází takovou kombinaci vstupních parametrů, která odděluje od H sebe skupiny respondentů o o o Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Výstupy djskľjf/jjrwč/jj iimilý-zy lilii STATISTICA - [Datu: bankloan* [12v by S50c)] |j| File Edit View Insert Format Statistin Graphs pols Data Window I _elp |ütfBS|§aUM^| m rn | ft Add to Wortoook - Add to Report - í!Jb | # Itf T II1 Arial d I10 d B /u|l 1« A^ .-1-1^111^1*1? AGE I ED EMPLOY ADDRESS INCOME DEBTINC CREDDEBT OTHDEB' 1 41ISome college 17 12 176.00 9.30 11.36 5.0 2 27 Did not complete higl 10 6 3100 17 30 1.36 4.0I 3 40 Did not complete higl 15 14 55 00 5.50 0.86 21 4 41 Did not complete higl 15 14 120 00 2.90 2.66 0.8! 5 24 High school degree 2 0 28 00 17 30 1.79 3.0 6 41 High school degree 5 5 25 00 10.20 0.39 2.ll o .......% Í.O.......S......... o o O On 1 0 O o ^U □ ooM j —o-X-Ěl □??_] n ........Ä......... D .... i ... . j -10 -5 O Root 1 10 15 Význam parametru pro klasifikaci Predikční schopnost modelu Pozice v diskriminační m prostoru Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA * ürühmorn zirmlýiy 31 jaj J ch srovnúní 0 Analýza hlavních komponent, faktorová analýza, korespondenční analýza a diskriminační analýza se snaží zjednodušit vícerozměrnou strukturu dat výpočtem souhrnných os 0 Metody se liší v logice tvorby těchto os -» Maximální variabilita (analýza hlavních komponent, korespondenční analýza) -» Maximální interpretovatelnost os (faktorová analýza) -» Maximální diskriminace skupin (diskriminační analýza) Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj