CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita <**"*/> / Vícerozměrné metody Vícerozměrné metody 1. Vstupní data pro vícerozměrné analýzy 2. Metriky podobností a vzdáleností 3. Cluster Analysis Projection of the variables on the factor-plane (1x2) 4. Principal component analysis 5. Correspondence analysis * J 0,005 6. Canonical analysis 7. Discriminant analysis § °00° 8. Factor analysis ?0005 9. Multidimensional scaling £ oo° -0,015 -0,020 „,_ -0,020 -0,015 -0,010 -0,005 0,000 0,005 0,010 Factor 1 : 50,55% KU VÝUKA Ar CENTRUM BIOSTATISTIKY A ANALÝZ Inner root phor total lejiflib-—■ s \ • Base of anchors ® \ /entraPtó- length VentraV bar widi i..... ...... .....i ...... Úvod do vícerozměrných metod I. Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu. Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz. Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik. VÝUKA mu CENTRUM BIOSTATISTIKY A ANALÝZ Vstupní matice vícerozměrných analýz NxP MATICE t- (N CO i_ i— i— "S "ffi "ffi E E E ní ní ní i_ i— i— ní ní to o. o. o. objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 objekt 6 Hodnoty parametrů pro jednotlivé objekty | ASOCIAČNÍ MATICE | t- CM CO Tj- lO CD -4—' j_, ^_, ^_, ^_, ^_, _*; ^ _*: _*; ^ _*: aj a) a) aj a) a) .Q .Q _Q _Q .Q _Q o o o o o o objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 /\ objekt 6 Korelace, I t í I Násobení řádků matic Celkové sečtení Nezbytné pro operace s maticemi. VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Měření vzdálenosti objektů Euklidovská vzdálenost p dij = JE(** ~xjk) T^L Vážená euklidovská vzdálenost dij=Jllwl(xik-xjký ij - označení objektů dy - vzdálenost objektů i a j p - počet parametrů &-k-tý parametr wk - váha parametru k VÝUKA Minkowski (power distance) 4=íEk- x jk Á k=\ celé číslo :1 Manhattan (city block) 2 Euklidovská vzdálenost Chebychev d.. = max xik xjk CBA CENTRUM BIOSTATISTIKY A ANALÝZ Měření podobnosti objektů Binární koeficienty podobnosti Obj ekt 2 Objekt 1 1 0 1 0 I c I d a, b, c, d = počet případů, kdy souhlasí binární charakteristika objektu 1 a 2 a+b+c+d=p Symetrické binární koficienty - není rozdíl mezi případem 1-1 a 0-0 Simple matching coefficient O l ./Ví Jí>r\ I — a + d P Hamman, Yule coefficient, Pearson's >? (phi) a další koeficienty VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Asymetrické binární koeficienty - odstranění double zero Jaccard's coefficient O l Jí] Jíj ) — a a+b+c Sorensen's coefficient Ol JLlJi/rs I --- 2a 2a+b+c Rada dalších koeficientů dávajících různou váhu jednotlivým kombinacím parametrů VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Kvantitativní koeficienty Obdoby binárních koeficientů pro více parametrů než 0/1 Simple matching coefficient pro více parametrů g (x x ) = sou p=počet parametrů P Gowerův koeficient Zahrnutí podobnosti podle různých typů parametrů - binární, kvalitativní a semikvantitativní i kvantitativní (odlišný výpočet pro jednotlivé typy). Celkový součet podobností je podělen počtem parametrů. Může zahrnovat podmínku nepočítat s chybějícími parametry - Kroneckefs delta. Více informací a další měření vzdáleností a podobností najdete v knize LEGENDRE, P. & LEGENDRE, L. (1998). Numerical ecology. Elseviere Science BV, Amsterodam. VÝUKA «Sr CENTRUM BIOSTATISTIKY A ANALÝZ Vícerozměrné metody v giWMWřlféĚW^j^áS, jijjj STATISTKA - RutilusBrill.sta Statistica 6 - nabídková větev Multivariate Exploratory Techniques V menu Statistics B [h JG í* I «■ *esume- STATISTICA Module Switcher IIIIH Data Management/MFM •Ť^Ĺ Factor Analysis Í- ^v Canonical Analysis 7^! Multidimensional Scaling £}\ Classification Trees [^ji Correspondence Analysis il SEPATH Cluster analysis and classification methods for cases or variables: tree joining, various distance measures (and amalgamation/linkage rules); k-means clustering; and two-way joining techniques; A Switch To ]_fi Customize list. End & Switch To Cancel VYUKA I Arial CE TJ [7Č I3i Basic Statistics/Tables File Edit View Insert Format Statistics Graphs lools Data Window Help Ctrl+R A1 1 luctype A1 A1 TVPR lütl Nonparametrics : Distribution Fitting TVPR \d}._ Advanced Linear/Nonlinear Models "TVPR m industrial Statistics & Six Sigma I^PP audi Power Analysis "TVPR Tr, TVPR TVPR | Statistics of Block Data TVPR TVPR m STATISTICA Visual Basic TVCH \ }£A Probability Calculator TaW TVCH tsjti— zapi I jar97 I pred I zapi I jar97 pľeo I pred >Ě 0,534711 0.534711 iar97 TVPR zapl p" Cluster Analysis ijj^ Factor Analysis ^ Principal Components & Classification Analysis %i Canonical Analysis = [jj Reliability/Item Analysis fiti Classification Irees ÍTJjí Correspondence Analysis ^ Multidimensional Scaling d^ Discriminant Analysis 1 ( [^j General Discriminant Analysis Models 9,5 \p$áSóál U.^bci^ \mi I VUH zapl Statistica 5.5 - několik samostatných modulů volitelných ze základní nabídky (Cluster Analysis, Factor Analysis, Canonical Analysis, Multidimensional Scaling, Correspondence Analysis a jiné) CBA CENTRUM BIOSTATISTIKY A ANALÝZ Statistics » Multivariate Exploratory Techniques » Cluster Analysis iijjjSTATISTICA - RutilusBr h iwmmm-.immmm File Edit View Insert Format Statistics Graphs iaU^Í^ B^ume... lools Data Window Help D »t I Arial CE ~7}^ 1 2 luctype | localit A1 TVPR TVPR TVPR TVPR TVPR TVPR TVPR TVPR TVPR TVPR TVCH TVCH Jiia Basic Statistics/Tables \/ Multiple Regression M ANOVA lütl Nonparametrics |3£ Distribution Fitting ik ' Add to Report ' | 0 1^? ^Clustering Method: RutilusBrill.sta w* Advanced Linear/Nonlinear Models ^laimajaBHBW ^ Industrial Statistics & Six Sigma ^Jti Power Analysis Ts; Data-Mining ü Statistics of Block Data M STATISTICA Visual Basic š£R Probability Calculator 7 Brill2 Brillouin n f^^7i 1 loc+season jar97TVPR zapl r.yQ-7 TV/DD -r^, TVCH TVCH jar97 ar97 prea I pred zapi zapi zapl I P" Cluster Analysis ► íj)í Factor Analysis ^ Principal Components St Classification Analysis ►' *ifi Canonical Analysis = d Reliability/Item Analysis ^ Classification Trees rrJ^ Correspondence Analysis ^ Multidimensional Scaling [Uíŕj Discriminant Analysis 1 ( [^ General Discriminant Analysis Models 9,b U,ybtitíJ2 U,ybtiüd2 jaľd/ IVCHľapi--------- JxJ OK: Cancel JS Options t 1 S Open Data | 5ELECT CH5E5 i ß} W • Joining (tree clustering) - hierarchické shlukování, podle vzdálenosti mezi objekty jsou tyto skládány do skupin pomocí různých algoritmů. • K - means clustering (hypotéza existence x Clustern a její ověření analogické k ANOVA - sestavení Clustern tak aby se minimalizovala jejich vnitřní variabilita a maximalizovala variabilita mezi clustery), nehierarchické shlukování • Two-way joining (shlukování je prováděno zároveň na základě jak objektů, tak parametrů) VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ "Klasická" shluková analýza hierarchicky spojující objekty do skupin podle vzdálenosti v asociační matici Vstupní soubor je matice objekty x parametry nebo matice vzdáleností Mají být shlukovány sloupce nebo řádky vstupní matice objekty x i parametry? Shlukovací algoritmus Automatizovaný výstup Vybrání proměnných pro výpočet jjfli Cluster Analysis: Joirfíg (Tree Clustering): RutilusBrill.sta Quick Advanced !Čy Variables: | none Input file: | Raw data ^>Cluster: Variables (columns) Amalgamation (linkage) rule: Distance measure: Single Linkage [Euclidean distances Batch processing and reporting ^LJxjl OK! Cancel P Opti MD deletion— (* Casewise C Mean substitution ^i Výběr z dat Použitá vzdálenost mezi objekty Smazání chybějících (jen matice objekty x parametry) dat nebo jejich nahrazení průměrem VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Joining (Tree Clustering) - shlukovací algoritmy -|- centroid Na tuto vzdálenost se ptá single linkage ------Na tuto vzdálenost se ptá complete linkage Další metody počítají s průměrnou vzdáleností všech objektů shluků nebo vzdáleností centroidu (vzdálenost může být vážena velikostí shluků). Wardova metoda se snaží minimalizovat variabilitu uvnitř shluků. VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Výsledky programu Statistica se typicky dělí na záložky Quick (nejdůležitější výstupy) a Advanced (podrobnější analýza, nastavení vlastností výstupů) Horizontální a vertikální dendrogram Pravoúhlé větve stromu Vzdálenost v % Postup skládání c stromu v podobě : tabulky a grafu jjŠDjoining Results: Zuby - cluster.sta Popis analýzy Numb er of var i ab 1 e s: S Number of cases: 32 Joining of cases Hissing data were casewise deleted Amalgamation (joining) rule: Unweighted pair-group average Distance metric is: Euclidean distances (non-standardized) ^>|ť^-| Graph of amalgamation schedule Matice vzdáleností Popis objektů (průměr a SD) Export matice vzdáleností (podle zvolené metriky) do speciálního souboru Statistica pro matice vzdáleností VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Dendrogram představuje grafický výstup shlukové analýzy, kde jsou objekty propojeny tak, jak postupovalo jejich shlukování Shlukované objekty ľ > Acura Olds Chrysler Dodge VW Honda Pontiac Mitsub. Nissan Audi Mercedes BMW Saab Volvo Mazda Toyota Buick Ford Isuzu Eagle Corvette Porsche Tree Diagram for 22 Cases Complete Linkage Euclidean distances y^^ Popis analýzy 20 Vzdálenost (zde v %) C^7 40 60 (Dlink/Dmax)*100 80 100 VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Almagenation schedule a graf poskytují uživateli přehled nad celým procesem shlukování, tj. při jaké vzdálenosti a jaké objekty nebo jejich skupiny se shlukly Vzdálenost na níž došlo k shlukování kage istance ,4580483 ,6231085 ,6670490 J060042 Amalgamation Schedule (Cars.sta) Complete Linkage Euclidean distances Obj. No. I Obj. No. I Obj. No. Obf No. Obj. No. 1 I 2 3 I 4 I 5 Chrysler Dodge Audi Mercedes Honda Saab Chrysler /sler Pontiac Vo lve 1,202407 1,284603 1,537968 1,834401 Dodge Dodge Toyota Acura ___Audi Mercedes Chrysler Dodge Kroky shlukování Honda Q (D Shlukované objekty 8 7 6 5 4 3 2 Plot of Linkage Distances across Euclidean distances Steps 1 0 ■i 10 12 14 16 18 20 22 Step Linkage Distance VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Joining (Tree Clustering) - asociační matice Asociační matice představují speciální typ souborů programu Statistica (přípona .smx), jde o čtvercové matice nesoucí informaci o vztazích mezi řádky a sloupci, tvoří alternativní vstup pro vícerozměrné analýzy,některé analýzy lze provádět pouze na datech v tomto formátu. Na rozdíl od běžných souborů obsahují 4 speciální řádky, pro správnou funkci je nezbytné dodržet jejich přesnou syntaxi. Vlastní matice vzdáleností Průměr a SD proměnných (není nutné pro matici podobností a nepodobností) Počet případů = počet z nějž byla matice vytvořena, ne počet jejích řádků Var1 Var1 1.00 Var 2 I .20 Var 3 .30 Means 12 Std. Dev. 3 No. Cases 50 Matrix íŕ Var 2 .20 1.00 .10 11 Var 3 .30 .10 1.00 10 Typ matice 1 = korelace, 2 = podobnosti, 3 = nepodobnosti, 4 = kovariance VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Shluková analýza K-means clustering K-means clustering se snaží rozdělit objekty do zadaného počtu shluků tak, aby byla minimalizována variabilita uvnitř shluků a maximalizována mezi shluky Vybrání proměnných pro výpočet Mají být shlukovány sloupce nebo řádky vstupní matice objekty x parametry? Počet očekávaných shluků Počet iterací - kroků výpočtu jgjj Cluster Analysi#K-Means Clustering: Zuby - cluster.sta JLLJx] 3uick Advance J | Automatizovaný výstup Variables: |Cases( Cluster: Number of clusters: [2 Number of iterations: pO [0| Initial cluster centers — C Choose observations to maximize initial between-cluster distances (* Sort distances and take observations at constant intervals C Choose the first N (Number of clusters) observations OK! Cancel ÍS Optic 5ELECT r. I Ä. ,,., Batch processing an reporting rMD deletion— (* Casewise C Mean substitution l ■ Nastavení počátečních shluků, smazání ch.ybějících od nichž se výpočet odvíjí dat nebo jejich nahrazeni průměrem VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ K-means clustering - výsledky K-means clustering pracuje s objekty pouze na základě Euklidovské vzdálenosti, na tuto skutečnost je nezbytné pamatovat pokud tato metrika není pro data vhodná. Euklidovská vzdálenost středu shluků ^Sjjk - Means Clustering Results: Zuby - cluster.sta ?l-lxl Popis analýzy Numb er of var i ab1e s: S Numb er of cases: 3 £ K-means clustering of cases Hissing data were casewise deleted Number of clusters: 3 Solution was obtained after 2 iterations Quick Advanced | Sä Summary: Cluster means & Euclidean distances t> Analysis of variance ED Graph of means ANOVA pro jednotlivé« proměnné Graf průměrů jednotlivých proměnných v shlucích B £^^0^ and distances Descriptive statistics for each cluster Members of each cluster t. distances Průměr, rozptyl, SD parametrů v shlucích Objekty v shlucích a jejich vzdálenost od centroidu Uloží příslušnost k shluku doplněnou o vzdálenost k centroidu pro všechny objekty (+ vybrané parametry). VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ K-means clustering - tabulky výsledků Variable Var! Var2 Var3 Var4 Var5 Cluster Means (D2_5tatistica_Cluster.sta) Cluster No. 1 Cluster No. 2 Cluster No. 3 Cluster No. 4 ANOVA jednotlivých parametrů rozdělených podle shluků 2^0000001.1.285714 Var6 H Var7 Var8 2,833333 1,000000 0,83333311 2,000000 2,500000 3,000000 3.000000 2.9333331 0.0000001 Euclidean Distances between Clusters (D2_ Distances below diagonal Squared distances above diagonal________ Cluster Number No. 1 No. 1 0,000000 fol 0,974120 0,Q 1,033266 1,H " "171825 1 Á Variable Var1 Var2 Středy a vzdálenosti středů shluků Var3 Var4 VarS Var6 Var7 VarS Analysis ofVariance (D2_\ /stica_Cluster.sta) Between SS 32.60685 25,53542 5,46875 6,66667 24,15446 24,91786 22,13542 11,47500 df Within signif. Variable VaM Var2 .Var3 Var4 Var5 _ĽL Descriptive Statistics for Cluster 3 Cluster contains 15 cases Mean Standard Deviation Variance 2^333331 2,600000 1,000000 1,000000 3,600000 3.400F-- 1,333: 1,800( 0,258199 0,632455 0,000000 0,000000 0,507092 0,066667 0,400000 0,000000 Popisná statistika shluků Distance 0,000000 0,257143 r-i j- j<--ir-ij—t Members of Cluster Number 4 (02_Statistic and Distances from Respective Cluster Cen Cluster contains 4 cases reindeer 0,176777 elk deer moose 0,17677710,17877710,178777 - Členové shluku a jejich vzdálenost od středu shluku VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Průměry v shlucích K-means clustering - průměry parametrů 2,0 1,5 1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0 -2,5 -3,0 -3,5 Plot of Means for Each Cluster *: J ^ r o >— -J7 ~fr J> < > \ : D --<> PRICE BRAKING MILAGE ACCELER HANDLING ^ Variables Čáry pro jednotlivé shluky -o- Cluster 1 d Cluster 2 o Cluster 3 Jednotlivé parametry VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Statistics » Multivariate Exploratory Techniques » Principal components .. 1. proměnné pro výpočet 2. suplementary variables nejsou použity pro výpočet, ale objeví se na výsledku 3. active cases - vybrání cases (řádků), které se použijí pro výpočet, ostatní se mohou pouze zobrazit 4. grouping variables - pro označení skupin objektů Analýza je založena na matici korelací (standardizace proměnných) nebo kovariancí (vliv rozdílných rozptylů) Hm Principal Components and Classification Analysis: Dactylogyrus.sta | JxJ ses Quick Advanced | SQ Variables: | Variables for analysis: Supplementary variables: Variable with active cases: none Grouping variable (labeling): none Code for active cases: | none none Analysis based on-(* Correlations C Covariances p Compute variances-] P asSS/(N-1) T asSS/N -z/Ns— Pro výpočet rozptylu se používá n nebo n-1. Cancel £S Options t B Open Data 5ELECT Cň5E5 s rMD deletion— (* Casewise C Mean substitution Ij Smazání chybějících dat nebo jejich nahrazení průměrem VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Principal component analysis - výsledky quick Koordináty parametrů na faktorových osách Koordináty objektu na faktorových osách Počet faktorů n Km Principal Componerils and Classification Analysis Results: Dactyiogyrus.s No. of active varl No. of active casl 7 Is: 52 Poöisoana)vw ■No. of supplBnenia: supp Eigenvalues: 2,9»9 1,84175 ,763241 ,707241 ,329524 ,ry vars: 2 ary cases: 0 Number of factors : [ľ S Qualify of representation : 100,0 Z Quick Variables | Cases | Descriptions | Factor coordinates of variables I l@l Plot var. factor coordinates, 2L" ^P* [ffl Factor coordinates of cases | Uftffj Plot case factor coordinates, 2D | Eigenvalues ~ variabilita vyčerpaná faktorovými osami, jejich součet = počet parametrů Eigenvalues S Screeplot 2D graf parametrů vzhledem k faktorovým osám 2D graf objektů vzhledem k faktorovým osám Grafické znázornění eigenvalues VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ parametry Factor coordinates of variables = korelace Factor coordinates of the variables, based on correlations (D4_PCA.sta) Factor 1 I Factor 2 Factor 3 Factor 4 Factors Factor 6 Fa 0,0886221 0,311857 -0,045525 -0,074889 0,210860 -0,290247 0,317073 -0,766312 0,179947 0,129830 0,070210 0,381471 0,109716-0,0064021 0,0737561 0,311478 ■0.808490 0.272021 -0,311633 ■0.277173 0.297602 0.058910 0.207165 -0.069102 0.463059 -0,006431 0.253811 -0,649814 0,3809401 -0,435705 -0,032^4 0,052953 0,041551 0.271819 0.014072 Faktorové osy Pozice parametrů - na faktorových osách Factor coordinates of cases Case HEL objekty HVE HVE MEL ROH STR HEL ROH Factor coordinates of cases, based on correlations (04_PCA.sta) Labelling variable: Sezóna Factor 1 Factor 2 -0,616231-1,33188 -0,50161 '-1,09014 Factor 3 Factor 4 FactorS Factor 6 -0,74946 -1,53568 -0,82916 3,32389 -0,47377 -0,01107 0,43497 0,72130 -0,04405 0,02535 -0,66209 -0,52632 -0,96700 -0,68288 1,64883 -0,46771 4,59087 -0,60010 -0,33993 -1,01963 0,14927 n OĽnoc 2,57010 -1,24455 0,78839 -0,94204 0,67263 0,32726 1,51434 0,43192 -0,84114 -1,14800 -0,42177 0,39321 n (2A^-?(2 -2,36792 0,00428 1,33177 -0,57108 -0,27091 0,65528 1,06891 -1,07576 n -iT-icn 1,77638 0,43506 -0,00030 0,15838 0,03909 0,27617 0,17579 -1,82878 0,37240 0,50764 -0,57325 -0,45581 0,83232 n riTTno 0,02305 0,81362 -0,21815 -0,24892 0,14791 -0,25525 -0,65651 0,21582 -0,54825 -0,35601 -0,14760 -0,06605 -0,47288 0,10822 -0,30062 -0,16454 0,27923 -0,71097 0,75136 -1,36117 0,21496 0,16225 0,49180 -0,21073 -0,17656 -0,85026 0,28317 0,06124 -0,44771 ezona autumn 97 autumn 97 aup^Viri q7 autvjiii z>{ autumn 97 spring 97 spring 97 spring 97 spring 97 rr^^: spring 981 autumn 971 Faktorové osy Příslušnost objektů do ■ skupin Pozice parametrů na faktorových osách n oonon nn-irM-ill.-.,,+ VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Eigenvalues vyjadřují variabilitu vyčerpanou faktorovými osami, jejich hodnoty slouží při rozhodnutí kolik faktorových os je pro nás zajímavých Eigenvalue variabilita vyčerpaná příslušnou osou Value number envalues of cd elation matrix, an. nive variables &J Eigenvalue % Total variance 1,883153 1,134548 37,66307 22,69096 0,8291191 0,723700 0,4294791 16,58238 14,47401 8,58959 Cumulative Eigenvalue 1,883153 3,017701 3,846820 4,570521 5,000000 Cumulative % 37,66:3 60,354 76,939 91,410 ioo,ooq Eigenvalue í> Principal component vytvořená PCA Kumulativní eigenvalue/vy čerpaná variabilita 37,66°/ q Eigenvalues of correlation matrix Active variables only Průběh scree plot 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 Eigenvalue number VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Plot variables factor coordinates - vynáší do prostoru faktorových os původní parametry, zobrazuje jejich korelaci s faktorovými osami Projection of the variables on the factor-plane (1x2) Vybrané faktorové osy a vyčerpaná variabilita 1,0 0,5 CO PRICE oHANDUNG —o------- -1,0 ACCELER .....o. -0,5 0,0 0,5 Factor 1 : 37,66% 1,0 Původní parametry v ordinačním prostoru PCA o Active VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Plot variables cases coordinates Výpočet je založen na původní NxP matici a matici eigenvektoru, zobrazuje vzájemné vzdálenosti objektů Vybrané faktorové osy a vyčerpaná variabilita Projection of the cases on the factor-plane (1x2) Cases with sum of cosine square >= 0,00 Porsche —jo—- Corvette -0-4— Mazda ° Toyota Ford o Mit£ -3 -2-10 1 Factor 1:37,66% Objekty v ordinačním prostoru PCA o Active VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Principal component analysis - výsledky II parametry Koordináty parametrů na faktorových osách J Principal Components and Classification Analysis Results: Dactylogyrus.s tujO No. of active vars: 7 No. of active cases: 52 No. of supplementary No. of supplementary Eigenvalues: 2,91879 1,84175 ,763241 ,707241 ,3 Number of factors : [Ť O Quality of representation : 100,0 Z Quick Variables Cases | Descriptives | ttttI Factor coordinates of variables fffff] Factor & variable correlations 2D graf Ľ parametrů vzhledem k faktorovým osám >m Plot var. factor coordinates, 2D — Options for plot of factor coord. - |7 Vectors (points to origin) I? Unit circle C Variable names Í* Variable numbers C No Names/Numbers Communalities (Cosine 2) Contributions of variables Eigenvalues [£] Screeplot =ň Eigenvectors Nastavení grafu Eigenvectors - vektory faktoru v původním prostom Korelace proměnných a faktoru Podíl variability proměnných vyčerpaný daným počtem faktoru Příspěvek proměnných k jednotlivým faktorům Eigenvalues Grafické znázornění eigenvalues VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Eigenvectors parametry eigenvektor Eigenvectors of correlation matrix (04_PCA.sta) Active variables only Factor 2 druh2 druh3 druh4 druh6 druh7 0,128282 0,580416 0,208348 0,385665 -0,259438 -0,200980 Factor 3 Factor 4 Factor 5 Factor 6 0,074402 0,395628 -0,046321 -0,101580 0,506499 0,484207 0.578343 0,288827 -0.293658 -0,047020 -0.791463 0,353300 0,113317 -0,748786 -0,256705 0,275625 0,280949 0,213964 -0,071370 0.054560 0.478256 -0,089109 0,214690 -0,007638 -0,371802 -0,007673 -0,775276 0,454490 0,334073 0,205892 0,116967 0.160906 0,402509 0,713842 -0,690967 0,083976 0,431067 0,080069 -0,074492 0,095226 0.032251 faktory Contribution of variables Communalities IVariable druhí druh2 druh3 druh4 druhS druh6 druh7 Variable contributions, based on correlations (D4_PCA.sta) Factor 1 | Factor 2 | Factor 3 | Factor 4 Factor 5 Factor 6 Factor 7 _____I________I________I________ 0,34681310.005536 0,083421 ----1----------------■■ ■ ■ _________ 0,016456 0,156522 0,086235 0,336883 0 0,043409 0 0,148738 O 0,067308 0 ,2: 0,040393 0,3: ,002146 0 ,0103190 ,y\4Tm U56 0 ksi 0 ,124821 ,560680 ,065897 ,075969 ,002977 0,002211 0,626413 0,012841 0,078932 0,045781 0,005094 0,228729 0,007940 0,046092 0,000058 0,133236 i 0,162013 0,000059 0,111608 0,042391 0,013681 0,442471 0,025891 0,509570 0,006411 0,601053 0,206561 0,477436 0,007052 0,185819 0,005549 0,009068 0,001040 Příspěvek parametru k variabilitě faktoru Variable druhí druh2 druh3 druh4 druhS druh6 druh7 Communalities, based on correlations (04_PCA.sta) From 1 factor 0,7586191" From 2 factors From 3 factors From 4 factors From 5 factors From 6 factors From 7 factors 0,035996 0,736899 0,094953 0,325349 0,147230 0,0883561 0,766473 0,258064 0,739943 0,109592 0,689322 0,479869 0,5629071 0,863728 0,358600 0,885463 0,763249 0,766146 0,568436 0,566377 0,865800 0,945834 0,897500 0,837244 0,809064 0,573211 0,871379 0,978215 0,897541 0,934360 0,915756 0,995071 0,902981 0,998779 0,780801 0,809105 0,995470 0,9259161 0,998944 0,998274 0,999802 1,000000 1,0000001 1,000000 1,000000 1,000000 1,000000 1,000000 VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Principal component analysis - výsledky III objekty Koordináty objektů na faktorových osách @S Principal Components and Classification Analysis Results: Dactylogyrus.sbE | 2D graf objektů vzhledem k faktorovým osám Nastavení grafu No. of active vars: 10 No. of active cases: 52 No. of supplementary vars: 0 No. of supplementary cases: 0 Eigenvalues: 3,64782 2,22589 1,83681 ,725770 ,527 Number of factors : |l 0 S Quality of representation : 100,0 Z uick I Variables Cases Descriptives I Factor coordinates of cases Plot case factor coordinates, 2D — Options for plot of factor coord.— (* Case names C Case numbers C No names/numbers C Grouping labels Plot cases with nr-------g sum of cosjtfe 2 >= I ' H 7A Factor score coefficient: Contributions of cases Cosine 2 [fg Save case statistics | (* Factor coordinates C Factor scores Výběr objektů podle sumy cos2 objektu pro dané faktory Factor scores Factor scores coefficients Příspěvek i proměnných k jednotlivým faktorům Cos2 úhlu mezi faktorem a vektorem objektu (communalities) Uložit koordináty nebo scores objektů VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Factor scores •ase HEL objekty HVE MEL HEL HVE MEL ROH STR hactor scores, based on correlations tLWj-'UA.staj Labelling variable: Sezóna Factor 1 Factor 2 Factor 3 Factor 4 -0,416651-1,11817 -0,43878 -0,04549 -0,91522 -0,01025 0,02618 -0,69611 0,40285-0,68382 "2790551 0,66803|-0,54360 Factors Facto- Faktorové osy -0,33916 -0,50674 -1,03833 -0,65383 -0,46172 1,11484 -0,31624 3,10406 -0,40575 2,15771 -1,04486 0,66189 -0,79088 0,56471 -0,70617 0,30309 n nnno a I n nc-Don 0,40003 -2,19306 0,00396 1,23343 -0,52891 n cnc-on 1,56404 -0,27980 1,83468 0,04664 0,32949 0,20973 -2,18187 0,44430 0,44933 -0,00031 0,16358 n cnnriT 0,60565 0,02750 0,97071 -0,26027 0,23456 -0,40478 -1,04113 -0,29698 n 000-1 a 0,34226 -0,86945 -0,56458 -2,15863 0,34089 0,25731 -0,33826 -0,15138 -1,08374 0,24803 -0,68897 -0,37709 0,64897 0,14034 Sezóna tupí tVr IL9ZJ aut auf autumn 97 autumn 97 Tin wm Tin 971 Tin 971 ing97l ina 97 ■ 0,77993 ^Ö>*J2f5I autumn 97 spring 97 spring 97 spring 97 no-Dd-inl nnTn-inll springy/1 r.r.„\r.~ no I Příslušnost objektů do skupin Factor coordinates dělené odmocninou eigenvalue Factor scores coefficients parametry Variable druhí druh2 druh3 Ngh4 druh5 druh7 Factor score coefficients, based on correlations (Q4_PCA.sta) Factor 1 Factor 2 Factor 3 Factor 4 Factor 5 Fact < 0,39818411 0,062464 "' 0,332148 0,2674981 -0,043563 -0,106314| 0,529801 -1,524461 0,036736 0,392442 0,140872 0,260763 0,271972 0,038883! 0,327210 druh6 I -0,175416 I -0,135890 -0,035281 0,4252291 0,406514 0,485545 -0,693490 -0,237748 0,255271 0,050531 -0,817438 0,117036 0,290170 0,220986 ■0,073712 0,493953 0,256141 -0,009112 -0,443587 -0,009155 -0,924961 0,542240 Faktorové osy Eigenvektory podělené odmocninou eigenvalue VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Principal component analysis - popisná statistika Průměr a SD proměnných Korelační a kovarianční matice proměnných, inverze, uložení Popisné grafy jednotlivých proměnných 1 Principal Components and Classification Analysis Results: Dactylogyrus.st >LJx| No. of active vars: 10 No. of active cases: 52 No. of supplementary vars: 0 No. of supplementary cases: 0 Eigenvalues: 3,64782 2,22589 1,83681 ,725770 ,527417 Number of factors : |10 (í! Quality of representation : 100,0 Z uick I Variables I Cases Descriptions I Summary descriptives____ a Save correlation matrix Correlation matrix Inverse Covariance matrix I Inverse Save covariance matrix Include in plots — (* All cases C Active cases only C Supplementary cases only H Box k Whisker | Histograms Normal prob, plots 10*\ 2D scatterpplots | Ufc 3D scatterplots I» Surface plots Zobrazení objektů podle různých proměnných VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Statistics » Multivariate Exploratory Techniques » Correspondence Analysis Podstatou korespondenční analýzy je analýza kontingenčních tabulek, tj. tabulek kde průsečíky řádků a sloupců obsahují frekvenci dané kombinace ,11!]! Correspondence Analysis (CA): Table Specifications Correspondence Analysis ÍCA] I Multiple Correspondence Analysis (MCA) | -Input— (* Raw data (requires tabulation) C Frequencies with grouping variables C Frequencies w/out grouping vars You car tabulate variable with codes, or input a i tacked)table of fnequen ies, with/out coding i ariables. Row and column variable(s) I none Codes for grouping variables none / JLLJx] H OK! Cancel j§] Opti ions NOTE: If more than one variable is selected in a list, a multi-way table mill be analyzed. (rj* Open Data | SJ s| &^\ Nastavení vstupních dat raw data - proměnné s názvy řádků a sloupců tabulky - frekvence se dopočítají frekvence s třídící proměnnou - sloupec názvů řádků, názvů sloupců, sloupec s frekvencemi frekvence bez řídící proměnné - klasická tabulka - řádky X sloupce, na průsečíku frekvence VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Correspondence analysis - výsledky Quick Koordináty řádků a sloupců v souřadném systému Výstup všech základních výsledků Počet rozměrů pro grafy a tabulky Vybere počet os, vyčerpávajících určitou hodnotu inertia j Correspondence Analysis Results: Dactylogyrus.sta Number of variables (columns of the table):10 Number of valid cases (rows o f the table):10 _~ . , fthetabie):Sz Popisanalýzy Eigenvalues: ,0922 ,0308 ,0139 ,0120 ,0092 ,0052 ,0023 ,0017 ,0009 Total chi-square=l,92321 df=4S9 p=l,000 Quick Advanced I Options] Review] Supplementary points | Summary: Row & column coordinates Print/report summary of results Number of dimensions— (* Number of dimensions:[2 S C Cumulative contribution to inertia: |90,0 ^^ (or more) Plots of coordinates- Row&coLlD IŽLÍI 2D UU 3D A 1D, 2D, 3D grafy řádků a sloupců v souřadném systému Mil £3 Optic VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Row and column coordinates Koordináty v ordinačním prostoru CA Obdoba kvality (cos2 a relative inertia pro jednotlivé dimenze Sloupce nebo (samostatné tabulky) řádky Column Name druhí druh2_ >uh3 druh4 druh5 druh6 druh7 druhS druh9 druhlO Column Coordinl Input Table (Rov| Standardizatio 3S andl y, Col J Column Coon Number Dim.1 5j 4)w aiy *o iřovň. I CooVain bntributions to Inertia (05_Correspondence.sta| ns): 33 x 26 lumn profiles in. Dim.2 Mass I Quality 10 0,36515 -0,34050 0,36340 0,10790 0,09317 0,31392 0,14225 0,07044 0,32366 0,26360 0,18414 Celkový podíl řádku v tabulce relativních frekvencí (výpočet závisí na nastavení záložky options) 0,26874 0,212£ 0,07 f Relative Inertia OJ 23461 ,453295 ,006517 ,019551 0.09A865 0,5(7^95 0,0/ VI2 ooBrS4 InertiaN Dim.1 íosm Dim.1 u Inertia Dim.2 Cosine2 Dim.2 0,010138 0,021925 0,079724 L000101 0251 Ok NI331 0,OC\\39 0,0001 0,001448 0,028602 0,046343 0,008689 0,105720 Kvalita zobrazení daného bodu daným počtem dimenzí (proporce bodu k celkové inertii dané počtem dimenzí) 0,049138 0,327038 0,002051 0,005066 0,020710 0,000458 0,028166 0,064419 0,000580 0,000197 0,000403 0,000096 0,042727 0,178857 0,007961 0,002689 0,004249 0,000761 0,004879 0,058103 0,001524 0,0036331 0,0000071 0,000159 472 0,001903 0,010916 I r-i r-iŕ-iŕ-iŕ-iŕ-ir-i I r-i ŕ-iŕ-ir-iŕ-iŕ-ir-i I Podíl bodu na celkové inertii (neovlivněno počtem dimenzí) VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Grafy CA 1D,2D,3D 0,8 r- 0,6 0,4 [ 0,2 [ 0,0 -0,2 -0,4 [ -0,6 [ -0,8 -1,0 -1,2 L 1D Plot of Row and Column Coordinates for Dimension: 3 Input Table (Rows x Columns): 34 x 16 Standardization: Row and column profiles Eigenvalue: ,09920 (9,9196% of Inertia) Contribution to Chi-square: 26,981 Row17 Row39 ROCV25 Row Coordinates SPRITE_Y 2D Plot of Row and Column Coordinates; Dimension: 2x3 Input Table (Rows x Columns): 34 x 16 Standardization: Row and column profiles Grafy mohou být generovány pro všechny kombinace dimenzí. 0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0 -1,2 SPRITE_Y Row17 -4--0--- Row9 o Row29 4-0--"-Ŕoi Row28 o PEPSI N SŠWÍOP Y od - Row8 4° Row1 o coke; CF DCOKI Row19 m o rc R D7UP_Y D DPE -1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 Dimension 2; Eigenvalue: ,1514; Grafy obsahují koordináty jak řádků, tak sloupců původní tabulky. Row2Z o NfcPVMI ID M 3D Plot of Row and Column Coordinates; Dimension: 1x2x3 Input Table (Rows x Columns): 34 x 16 Standardization: Row and column profiles ^ 9 Row.Coords P Col.Coords VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Correspondence analysis - nastavení Počet rozměrů pro grafy a tabulky Vybere počet os, vyčerpávajících určitou hodnotu inertia M]j Correspondence Analysis Results: Frekvence.sta Způsob standardizace koordinátu 1. Interpretace vzdáleností v rámci řádků i sloupců 2. Kanonická standardizace 3. Interpretace jen v rámci řádků 4. Interpretace jen rámci sloupců Number of variables (columns of the table): 26 Number of valid cases (rows of the table):33 Eigenvalues: ,7508 ,5082 ,4073 ,3549 ,2427 ,1961 ,1302 ,0843 ,0703 Total chi-square=16353,l df=800 p=0,000 1 Quick | Advanced Options Review] Supplementary points | Number of dimensions (* Number of dimensions: |2 S C Cumulative contribution to inertia: 190,0 ^Z or more] r Standardization of coordinates— (* Row & column profiles C Canonical standardization C Row profiles (interpret row dist.) C Column profiles (interpret col. dist.] JS Options ▼ VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Correspondence analysis - výsledky Advanced Koordináty řádků a sloupců v souřadném systému Výstup všech základních výsledků Eigenvalues ~ inertia "vysvětlená"sloupci + graf Tabulka frekvencí výskytu + nestandartizované koordináty j Correspondence Analysis Results: Frekvence.sta U*! Number of variables (columns of the table):26 Number of valid cases (rows of the table):33 Eigenvalues: ,7508 ,5082 ,4073 ,3549 ,2427 ,1961 ,1302 ,0843 ,0703 Total chi-square=16853,l df=800 p=0,000 jck Advanced Options] Review] Supplementary points | - Plnfs nf nnnrrlinflfps Row and column coordinates Row J D Column, 1D Row & col. , 1 D f Plot selected dimensions only I™ Truncate labels to | [4j chars f Use identical XA7(Z] scales 7V Mil 1D, 2D, 3D grafy řádků a sloupců v souřadném systému Nastavení grafů - výběr os, zkrácení popisek, identické měřítko VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Jednotlivé dimenze eigenvalue Number of Dims. 1 2. 10 11 12 Eigenvalues and Input Table (Row| Total lnertia=1,0 Singular Values 0,694078 0,389141 0,314954 0,297800 0,275500 0,221580 0,174100 &? Eige Values 0,481745 0,151430 % inertia a kumulativní inertia vybraná dimenzí liertia for all DK^nsions (Be^ xColumnsV^M x 16 Chi2=2/~i00 df=495Ax1,0000 Peroftf Inertia 0,099196 0,088685 0,075900 0,049098 0,030311 0,153736 0,023635 0,000000! 0,000000 9,91959 8,86851 7,59004 Cumulatv Percent 48,17449 48,1745 15,14304| 63,3175 4,90976 3,03109 73,23 82,10 89,69 94,60 97,63 O.OOOOOOl 0,000000 0,000000 0,000000 0,000000 0,000000 2,36348 0,00000 0,00000 100,00 100,00 100,00 0,00000 100,00 l 0,00000 100,00 I eigenvalue i> 0,6 0,5 0,4 0,3 0,2 0,1 0,0 Vysvětlený y} Plot of Eigenvalues Input Table (Rows x Columns): 34 x 16 Total lnertia=1,0000 Chi2=272,00 df=495 p=1,0000 Počet dimenzí 10 12 Number of Dimensions VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Korespondenční analýza analyzuje kontingenční tabulky, k původní tabulce frekvencí je vytvořena tabulka očekávaných frekvencí a tyto dvě tabulky jsou pomocí X2 srovnány, analýza hledá takové nové dimenze, které vyčerpávají maximální část celkové x2 hodnoty (tzv. inertia) HEL TY M KYJ MOR KYJ MOR KYJ MOR Matrix of Relative Frequencies (05_Correspondence.sta) Input Table (Rows x Columns): 33 x 26_______________ druhí druh22 0,000000 0.00144B 0,000000 0.000000 druh23 0,000000 0,000000 0,000000 0,000000 0,000000 druh24 druh25 druh26 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,001086 0,000000 0,000000 0,001267 0,000000 0,000000 0,0003621 0,0000001 o.ooooooT0,0000001 0,0001311 0,0000[ 0,000000 0.033128 0.123461 0,000000 0,000000 0,000000 0,000000 0J 0.000000 0.0b dOOO 0.000000 0.000C Tjoooc 0.000905 O.Od D362 0.002896 0.002715 0.0001 1,000000 řádky U relativní frekvence bodů v původní matici sloupce o,oiG655| Podíly SJÄ řádků a ujSuaĹ^ sloupců 0/l^gerf 14938 0,003077 j suma celé matice VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Correspondence analysis - přehledy Pozorované četnosti Podíly v řádcích Podíly v sloupcích Podíly v celé tabulce Wu Correspondence Analysis Results: Frekvence.sta Number of variables (columns of the table): 26 Number of valid cases (rows of the table):33 Eigenvalues: ,7508 ,5082 ,4073 ,3549 ,2427 ,1961 ,1302 ,0843 ,0703 Total chi-square=16353,l df=800 p=0,000 Očekávané četnosti Rozdíl pozorovaných a očekávaných frekvencí Standartized deviates - odmocnina vlivu na Chi - square + doplnění znaménka Vliv jednotlivých položek tabulky na celkový Chi-square VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ K výsledkům analýzy je možné přidat další řádky nebo sloupce, jejichž pozice v souřadném prostoru se spočítají na základě CA, ale její výpočet neovlivní (obdoba suplementary variables a ne-active cases u PCA Přidání dalších řádků nebo sloupců Přidají se do analýzy na základě již spočítaných parametrů 1^3 Correspondence Analysis Results: Frekvence.sta ?I-Ix| Number of variables (columns of the table): 26 Number of valid cases (rows of the table):33 Eigenvalues: ,7508 ,5082 ,4073 ,3549 ,2427 ,1961 ,1302 ,0843 ,0703 Total chi-square=16353,l df=800 p=0,000 Quick | Advanced | Options | Review Supplementary points upplerinentarii row and/or column points — c£j Add row points none Add column points I none Statistics forsuppl. points will be included in the Spreadsheets and plots of row and col. coordinates. J^l Options t| VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Statistics » Multivariate Exploratory Techniques » Canonical Analysis «Canonical Analysis: 08_Factor.sta Výběr proměnných Typ vstupních dat - n x p matice nebo korelační matice Quick | / ^y Variables: I none putFi|e: IBi^flflHHZI P Review descriptive statistics and correlation matrix Ijfl Review Descriptive Statistics: 08_Factor.sta | | | 1 missing- data casewise deleted 32:7 cases selected, 19 -with missing data 308 valid cases accepted Mill IS ^B Quick Advanced Matrix | ■ ;.QKj ^h ^E Cancel fffffl Means & standard deviations | l£3J5| Boh & whisker plot of vars | JU Correlations WE Matrix plot of correlations 1 |g Options t | HH Covariances |~~ S D=S urns of Squares/N J^l Opt ions E? Open Data SB a I a^| rMD deletion— P Casewise P Mean substitution wmsmmmmmm^^^^m ila*i\ \^ ',„»—*^ Descriptives Im [ok! 1 Cancel ^y Variables for canonical analysis First List Secora T Batet A none TÍone ;essingAeporting J&l Options ^ | Výběr proměnných pro jednotlivé tabulky Deskriptívni statistika a korelační matice Grafy a popisná statistika VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Canonical analysis umožňuje nadefinovat některé z parametrů jako nezávislé, jiné jako závislé, smyslem je studium vztahů těchto skupin parametrů souhrn analýzy eigenvalues graf eigenvalues y§ Canonical Analysis Results: Ü8_Factor.sta ÍLU*! Canonical R: ,6134441 Chi-Square: 148,2822 Number of valid cases: Left set: Ri ght s et: No. of vars. 4 3 df = ( 12) 308 Variance extracted 73,486764010% 100,00000000% 0,000000 Total redundancy given the other set 14,930043926% 19,312344202% Jfel * Quick Canonical factors Factor structures | Canonical scores, Summary: Canonical results Eigenvalues Plot of eigenvalues l^mmar^j | Chi square tests X2 testy - slouží pro rozhodnutí kolik canonical roots vybrat jako reprezentační Canonical scores a weights (užití pro výpočet scores a interpretaci canonical roots) m—Mwq Canonical R: ,61344 Chi-Square: 143,23 Number of valid cas^ No. of vars. X Ĺ df = ( 12) p = 0,000000 303 Variance Total redundancy extracted given the other set 173,436764010% 14,930043926% LOO,00000000% 19,312344202% Quick | Canonical factors |\ /tor structures Canonical scores rmnl í Summary; I anonncal v Left & right set canonical weights Save canonical scores Options t VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Souhrn výsledků h |n=30S Canonical Analysis Sun Canonical R: ,61344 Chi2(12)=148,28 p=0,0C Left Right Set Set |Ho. of variables 41 3| |Variance extracted 73,4868%" 100,000% | 1 Total redundancy 14,9300% 19,3123% 1Variables: 1 ROZ1 ROZ5 2 ROZ2 ROZ6 3 ROZ3 ROZ8| 4 ROZ4 Eigenvalues Root Root Eigenvalues (08_Factor.sta) Canonici Canonici Root 3 Root 1 Root 2 lvalue 0,3763141 0,017034 0,0000921 1—'-----------* " VÝUKA X2 testy Root Removed Chi-Square Tests with Successive Roots Removed (03_Fa Canonici Canonici Chi-sqr. R R-sqr. df P Lambda Prime 0 0.613444JI 0,376314 143,2822 12 0,000000] 0,613006i t 0,130514 0,017034 5,2336 6 0,5142341 0,9828761 |2 0,009591 0,000092 0,0279 2 0,986159 0,999903 ■■■■■■■■■■■■■■■■■■■ 0,6 0,5 0,1 0,0 Graf eigenvalues Pm. of Eigenvalues o V—^ _ 1 2 3 Number of Canonical Roots A CENTRUM BIOSTATISTIKY A ANALÝZ Canonical analysis - výsledky II Korelace mezi proměnnými v rámci tabulek a mezi nimy Graf kanonických korelací c XY graf faktorů proti sobě y§ Canonical Analysis Results: Ü8_Factor.sta Canonical R: ,6134441 Chi-Square: 148,2822 Number of valid cases: Left set: Ri ght s et: No. of vars. 4 3 df = ( 12) 308 Variance extracted 73,486764010% 100,00000000% 0,000000 Total redundancy given the other set 14,930043926% 19,312344202% Quick ( Canonical factors Factor structures I Canonical scores | Correlations within & between sets Lineplot of canonical correlations Lag] Scatterplot of canonical correlations Facj^r structures & redundancies If ISummar^i Cancel JS Opti ions Struktura faktorů a redundance VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Statistics » Multivariate Exploratory Techniques » Discriminant Analysis Diskriminační analýza na základě námi daného rozdělení objektů do skupin vytváří model pro jejich rozdělení podle parametrů Nastavení proměnných s hodnotami a se skupinami + definice rozlišovaných skupin Rozšířené možnosti specifikování modelu gg Discriminant Function Analysis: Dactylogyrus.sta Quick I Variables Grouping: none Independent: none | Codes for grouping variable: | none Advanced options (stepwise analysis) For advanced discriminant function analyses use the General Discriminant analysis Models module. (* Casewise C Mean substitution Výběr z dat Smazání chybějících dat nebo jejich nahrazení průměrem VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Discriminant analysis - definice modelu Rychlé nastavení metody Typ metody: • Štandartní • Forward stepwise • Backward stepwise Nastavení stepwise metod Ig Model Definition: PCAall.STA Variables: ^R0Z4 QuiclT^dvanced Descriptive^ -iod: (Standard lolerance: fülÜ [|j Stepwise options: ^c IF to enter: pTÖü ^ F to remove: [ÖÖÖ ^ Number of steps: [4 Display results: | Summary only Popisná statistika VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Discriminant analysis - výsledky Popis výsledků - příspěvek jednotlivých proměnných k diskriminaci objektů Vzdálenosti diskriminovaných t skupin Kanonická analýza Discriminant Function Analysis Results: Dactylogyrus.sta iLJxJ Number of variables in the model: iPopis analýzy Wilks' Lambda: ,7133904 approx. F (10,41) = 1,607203 p < ,1339 Quick Advanced Classification | Summary: Variables in the model Variables not in the model Distances between groups Perform canonical analysis Stepwise analysis summary Umri Summary"! Cancel g] Opti ions VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Discriminant analysis - výsledky tabulky F spojené s danou WL Willťs Lambda po vyjmutí parametru (0=perfektní diskriminace, 1=žádná diskriminace) ,-----<\ p spojené s daným F to remove N=436 R0Z1 R0Z2 R0Z3 R0Z4 R0Z5 R0Z6 iscriminant Function Ana bis SuH pary (06_Discrirninant.sta) of vars in model: 7; Gl Ziping: Dl UH (2 grps) s' Lambda: ,01612 approx. F (7y/78)=4167,7 p<0.0000 ks" Partial Lambda! Lambda I 0,01650010,97^933 1971 Ě584 B588 [022 p56 P5Ö3 F-re move (1.478) p-level Toler. 1-Toler./1- 0,026691 0, 0,017607 0, 0.017084 0.9 0,016169 0,016212 0.016610 0,9 0.9 11,2589 313,4290 44,0711 28.5772 1,4279 2.7133 14.5281 0,000856 0,000000 0,000000 0,000000 0,23269810,6^ 0.100175 0.9 0.000156 0.567739 0.415633 0,276056 0,535372 0,332323 0.097729 0.237203 parametry Wilk's Lambda spojená s unikátním příspěvkem parametru k diskriminační síle modelu Tolerance = měřítko redundance R2 (spjato s tolerance) VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Discriminant analysis - výsledky klasifikace Předem nastavená pravděpodobnost zařazení do skupiny Klasifikační funkce Mahalanobisova vzdálenost2 objektů od centroidů skupin Pravděpodobnost zařazení Discriminant Function Analysis Results: Dat tylogyrus.sta JxJ Number of variables in the model: 10 \ Wilks' Lambda: ,7183904 approx. F (11,41) = 1,607203 p < ,1389 X\ Quid Pozorované a vypočítané x\ příslušnosti do skupin ^. ^ Klasifikace objektů ^ ^^ Quick | Advanced Classification | Classification functions selection conditions to SELECT q . ify selected cases only ťň5E5 select | f Same for all groups a priori ciassincation proDaDinties-(* Pjoportional to group sizes Classification matrix C User defined !_ Classification of cases Squared Mahalanobis distances Posterior probabilities (* Save classification for case C Save distance for case C Save posterior probability for case Save scores Max. numt ;r of cases in a Max. numc ;r or cases in a i — nq single resu s spreadsheet: I1UUI-W g Cancel JS Opti ions Uložení klasifikace (jaký parametr a kolik objektů uložit) VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Discriminant analysis - výsledky klasifikace Koeficienty klasifikační funkce Vzdálenost do centroidů Variable R0Z1 R0Z2 R0Z3 R0Z4 R0Z5 ROZB ROZS Constant Classification Functior PBIN p= ,63374 PAN p= ,36626 6960,975 5447.041 956.913JÍ 1923,03 11766,81 7612,331 1054,7301 2527,011 20,245 509,99 j 2333,167 1509,32 j 2047 701 1062.15 -359.064 -861.43 ■ Objekt patří do skupiny pro kterou mu vyšla vyšší hodnota funkce Objekt Jeho klasifikace Vzdálenost od centroidů is i\\stances fn lonswre rnarkei VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Statistics » Multivariate Exploratory Techniques » Factor Analysis Faktorová analýza - Účelem je zjištění struktury vztahů proměnných na základě korelace a redukce počtu proměnných. Výběr proměnných Typ vstupního souboru (matice n x p nebo asociační matice korelací gg Factor Analysis : Ü8_Factor.sta I j^W file: | Raw Data ?I-Ix| a ;ok I Cancel jg3 Options t | Eg Open Data | SELECT CR5E5 S ^^ w r MD deletion— (* Casewise C Pairwise C Mean substitution VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ ui.HMBiwüBifflwiJüBüaimi.afflWEB Quick I Advanced Descriptives | H Review correlations, means, standard deviations H Compute multiple regression analyses Typ extrakce jednotlivých faktorů Faktorová analýza - extrakce faktorů Deskripce - popis parametrů, korelace, multiple regression atd. Ha Define Method of Factor Extraction: 08 Factor.sta ssing data were casewise LLJx. deleted POpJS VStUpU ,ses were processed (selected) cases were accepted rix was computed for 7 variables Quick Advanced Descriptives] r Extraction methodic Principal components Principal factor analysis: C Communalities=multiple R 2 C Iterated commun. (MINRES) C Maximum likelihood factors C Centroid method C Principal axis method Max. no. of factors: [2 Mini, eigenvalue: 11,000 g— r Iterated communalities-------- Min. change in rr-------rn communality: ľ Q Maximum no. of iterations: ^~E Počet faktoru, které mají být extrahovány Jejich minimální eigenvalue VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Faktorová analýza - výsledky Bg Factor Analysis Results: OQ_Factor.sta JLLJxJ Eigenvalues Způsob rotace Factor loadings a jeho graf Number of variables: Method: Principal components log(10) determinant of correlation matrix: Number of factors extracted: 2 Eigenvalues: 2,53072 1,40020 -,68607 Quick! Explained variance | Loadings] Scores] Descriptions | Eigenvalues ^Factor rotation: | VarimaK normalized Summary: Factor loadings Plot of factor loadings, 2D _: fc|_iJ IraSl Summary Cancel JS Options t VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Eigenvalues Scree plot (všechny eigenvalues) Faktorová analýza - výsledky II E§ Factor Analysis Results: OQ_Factor.sta Number of variables: Method: Principal components log(10) determinant of correlation matrix: Number of factors extracted: 2 Eigenvalues: 2,53072 1,40020 -,68607 Quick Explained variance Loadings] Scores] Descriptions | 5 Eigenvalues Cornrnunalities! í>[^ Scree plot Goodness of fit test (JU Reproduced/residual corrs. y Highlight residuals i—t------g greater thaiy\ H Z\ Reprodukovaná a residuální korelační matice Cornrnunalities VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Faktorová analýza - výsledky gg Factor Analysis Results: Ü8_Factor.sta >LJx| Numb er of var i ab 1 e s: Method: Principal components 1 o g (1Ü ) det e rminant of correlati on mat r i x: Number of factors extracted: 2 Eigenvalues: 2,53072 lŕ40020 rĚS607 Quick I Explained variance Loadings Scores Descriptives ■A rrmfl: Summary] ZpUSOb ľOtSCS I ^> Factor rotation: |puartimaH raw Factor loadings a jeho graf --------------------3 g Summary: Factor loadings I JSiS'SStef than: P° i Plot of loadings, 2D Plot of loadings, 3D Hierarchical analysis of oblique factors 7\ Hierarchical analysis of oblique factors - dvoustupňová analýza (nejprve výběr shluků proměnných podle jejich „unikátnosti", pak tvorba sekundárních (se sdílenou variabilitou) a primárních faktorů (shluky podobných proměnných)) VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Faktorová analýza - výsledky IV Factors scores coefficients Factor scores a jejich uložení Eg Factor Analysis Results: 08_Factor.sta Number of variables: 7 Method: Principal components 1o g(10) det e rminant of correlati on mat rix: Number of factors extracted: Z Eigenvalues: Z,S307Z lf400Z0 Deskripce - popis parametrů, korelace, multiple regression atd. •— Victor Analysis Results: Ü8_Factor.sta LLJxJ er of variables: 7 Method: Principal components log(10) determinant of correlation matrix: Number of factors extracted: 2 Eigenvalues: 2f53072 1,40020 I Quick | Explained variance | Loadings | Scores Descriptives H Review correlations, means, standard deviations ,63607 ^l_iJ Multiple regression in]: Summary; Cancel J?3 Options t VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Statistics » Multivariate Exploratory Techniques » Multidimensional Scaling Multidimensional scaling dokáže na základě asociační matice s libovolnou metrikou vytvořit její Euklidovskou reprezentaci (příklad: na základě tabulky vzdáleností měst vytvoří mapu). Výběr parametrů (vstupní soubor musí mít formát asociační matice) Počet dimenzí k extrakci smramiBss LLJxl Quick fl yfons | B Variables: | ALL \ Number of dimensions: p S m ok: i Cancel £3 Optic Q Open Data | Vzdálenosti menší než jsou ■ považovány za 0 Počty iterací Počáteční konfigurace [S Multidimensional Scaling: Vr_MatriK_MD5.smK Quick Options | Starting configuration \r Standard Guttman-Lingoes C From input file \^> Configuration file File: none f* I a-r-h fih-ial r-rih-ifini ir ahn Í>E| Epsilon: Minimum number of iterations: 6 Maximum number of iterations: [SO g ?I-Ix| H M I Cancel J^l Options ■* | Eg Open Data | VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Multidimensional Scaling - výpočet Multidimensional scaling může sloužit pro přípravu podkladů pro k-means clustering pokud nemůžeme na naše data použít Euklidovskou vzdálenost. Metoda je výpočetně velmi náročná. Parameter Estimation: 07 Matrix MDS.smu JÜ2Ü iter. [dim=1] D-st ar s: t: cosin step raw stress D-star alienation D-hat r aw stress d-hat stress 59 1 60 61 62 63 64 6S 66 67 63 69 70 71 72 73 72 ,753 ,513 ,672 ,391 ,826 ,424 ,515 ,901 ,942 ,604 ,262 ,770 ,939 ,302 ,360 ,081 ,051 ,055 ,099 ,098 ,050 ,043 ,094 ,141 ,069 ,041 ,063 ,122 ,093 ,043 ,0000000 ,0000057 56 1 57 1 53 1 ,624 ,054 ,795 ,074 ,350 ,096 ,0000005 ,0000004 ,0000004 ,0000003 ,0000002 ,0000002 ,0000002 ,0000001 ,0000001 ,0000001 ,0000001 ,0000001 ,0000000 ,0000000 ,0000000 ,0000000 ,0000010 ,0000003 ,0000006 K ,0000214 ,0000197 ,0000133 ,0000159 ,0000141 ,0000129 ,0000122 ,0000107 ,0000033 ,0000030 ,0000075 ,0000063 ,0000053 ,0000051 ,0000047 ,0000047 ,0000300 ,0000271 ,0000233 Estimation procedure converged Parametry měnící se při přepočtech VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Multidimensional Scaling - výsledky Quick Výstup nových dimenzí + charakteristiky Výstupní 2D a D graf |S Results: U7_MatrÍH_MDS.smH Ul>^ 33 vars. from file Number of dimensions: 2 Start config.: (last final) Last iteration computed: 185; D-star: Raw stress = ,0000818; D-hat: Raw stress = ,0000549; Popis analýzy Best iteration: 100 Alienation = ,0002741 Stress = ,0002246 Mil uick Advanced I Review & save | —a Summary: Final configuration Graph final configuration, 2D Graph final configuration, 3D Shepard diagram Eml (Summary Cancel £3 Optic Shephard diagram ~ věrnost reprezentace VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Multidimensional Scaling - výsledky tabulky objekty Final Configuration (07_Matrix_MDS.smx) D-star: Raw stress = ,0000818; Alienation = ,0002741 D-hat: Raw stress = ,0000549; Stress = .0002246 Stress - měřítko reprezentace, čím nižší, tím lepší reprezentace Alienation - cizost, čím nižší, tím lepší reprezentace ■í2 1,5 -0,5 L Shepard diagram Shepard Diagram o Distances and ----- D-Hats vs. Data aDOBeararaEi vzdálenosti ü -100 0 100 200 300 400 500 Data i0 700 800 D-hat ~ průběh vzdáleností při dobré reprezentaci VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Multidimensional Scaling - výsledky Advanced 51 Results: 07 Matrix MDS.smH Výstup nových dimenzí + charakteristiky D-hat, D-star Matice vzdáleností (reprodukovaná) 33 vars. from file Number of dimensions: 4 Start config.: (last final) Last iteration computed: Z70; Best iteration: 100 D-star: Raw stress = ,0868132; Alienation = ŕ003í D-hat: Raw stress = ,0559948; Stress = r007J Advanced Review & save | lmary: Final configuration D-hat values D-star values Distance matrix Summary statistics Sumární hodnoty (reprodukovaná vzdálenost, D-hat, D-star) Shepard diagram Výstjjpní 2D a 3D graf J D-hat, D-star versus reprodukovaná vzdálenost ~ věrnost reprodukce VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ 2D graf 0,1 0,0 [ Scatterplot 2D Final Configuration, dimension 2 vs. dimension 4 o o^ KYJ TÔS M%DVC o o o STR Shepard diagram 4,5 Shepard Diagram o Distances and ----- D-Hats vs. Data 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 100 200 300 400 500 600 700 800 Data VÝUKA Vzdálenosti x D-har (D-star) Distances vs. D-hat <ŕ S y y -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 Distance 3D graf Scatterplot 3D Final Configuration Dimension 2 vs. Dimension 4 vs. Dimension 3 H '■CJT ? MNV MQR !p v^> ľfiA CENTRUM BIOSTATISTIKY A ANALÝZ