Koriťáková: Vícerozměrné metody - cvičení Výpočet shlukové analýzy v softwarech 1 Koriťáková: Vícerozměrné metody - cvičení STATISTICA – hierarchické aglomerativní shlukování • Statistics – Multivariate Exploratory Techniques – Cluster Analysis – Joining (tree clustering) – OK • Variables: výběr proměnných (např. objem hipokampu, amygdaly a pallida) • Cluster: zvolit, zda chceme shlukovat proměnné (Variables (columns)) či subjekty (Cases (rows)) • Amalgamation (linkage) rule = volba shlukovacího algoritmu: – Single Linkage – metoda nejbližšího souseda – Complete Linkage – metoda nejvzdálenějšího souseda – Unweighted pair-group average – metoda průměrné vazby (nevážená) – Weighted pair-group average – metoda průměrné vazby (vážená) – Unweighted pair-group centroid – centroidová metoda (nevážená) – Weighted pair-group centroid (median) – centroidová metoda (vážená) = mediánová metoda – Ward’s method – Wardova metoda • Distance measure = volba metrik vzdáleností objektů (subjektů): – Squared Euclidean distances – čtverec Euklidovy vzdálenosti – Euclidean distances – Euklidova metrika – City-block (Manhattan) distances – Hammingova (manhattanská) metrika – Chebychev distance metric – Čebyševova metrika – Power: SUM(ABS(x-y)**p)**1/r – pokud r=p, jde o Minkovského metriku – Percent disagreement – 1-Pearson r – jedna mínus Pearsonův korelační koeficient 2 Koriťáková: Vícerozměrné metody - cvičení STATISTICA – hierarch. aglom. shluk. – pokračování 3 asociační matice Euklidových vzdáleností Koriťáková: Vícerozměrné metody - cvičení STATISTICA – nehierarchické shlukování • Statistics – Multivariate Exploratory Techniques – Cluster Analysis – K-means clustering – OK – přepnout se na záložku Advanced • Variables: výběr proměnných (např. objem hipokampu, amygdaly a pallida) • Cluster: zvolit, zda chceme shlukovat proměnné (Variables (columns)) či subjekty (Cases (rows)) • Number of clusters: zvolit počet shluků (např. 3) • Number of iterations: volba počtu iterací (metoda k-průměrů je iterativní metoda) • Initial cluster centers: volba počátečních středů shluků 4 • příslušnost jednotlivých subjektů do shluků nalezneme na záložce Advanced v „Members of each cluster & distances“ Koriťáková: Vícerozměrné metody - cvičení SPSS – hierarchické aglomerativní shlukování • Analyze – Classify – Hierarchical Cluster... • Cluster: zvolit, zda chceme shlukovat proměnné (Variables) či subjekty (Cases) • Statistics...: zatrhnout Proximity matrix (= asociační matice vzdáleností či podobností) • Plots...: zatrhnout Dendrogram (možnost volby Vertical či Horizontal) • Method...: – Cluster Method = volba shlukovacího algoritmu: ‐ Between-groups linkage – metoda průměrné vazby mezi skupinami ‐ Within-groups linkage – metoda průměrné vazby uvnitř skupin ‐ Nearest neighbor – metoda nejbližšího souseda ‐ Furthest neighbor – metoda nejvzdálenějšího souseda ‐ Centroid clustering – centroidová metoda (nevážená) ‐ Median clustering – centroidová metoda (vážená) = mediánová metoda ‐ Ward’s method – Wardova metoda – Distance measure: volba metrik vzdáleností objektů (subjektů): ‐ Euclidean distance – Euklidova metrika ‐ Squared Euclidean distance – čtverec Euklidovy vzdálenosti ‐ Cosine – kosinová metrika ‐ Pearson correlation – Pearsonův korelační koeficient ‐ Chebychev – Čebyševova metrika ‐ Block – Hammingova (manhattanská) metrika ‐ Minkowski – Minkovského metrika ‐ Customized – výpočet pomocí SUM(ABS(x-y)**p)**1/r – Transform Values, Transform Measure – je možno transformovat původní data nebo vypočtené vzdálenosti 5 Koriťáková: Vícerozměrné metody - cvičení SPSS – nehierarchické shlukování • Analyze – Classify – K-Means Cluster... • Variables: výběr proměnných (např. objem hipokampu, amygdaly a pallida) • Number of clusters: zvolit počet shluků (např. 3) • Method: přepnout na „Classify only“ v případě, že známe středy shluků, které můžeme načíst pomocí „Read initial“ • Iterate... – Maximum Iterations (volba počtu iterací – metoda k-průměrů je iterativní metoda) • Options... – zatrhnout „Cluster information for each case“, abychom získali tabulku, do kterého shluku patří který subjekt 6 Koriťáková: Vícerozměrné metody - cvičení Software R – hierarchické aglomerativní shlukování • funkce dist na výpočet vzdáleností objektů (či subjektů) : – „euclidean“ – Euklidovska metrika – „maximum“ – Čebyševova metrika – „manhattan“ – Hammingova (manhattanská) metrika – „canberra“ – Canberrská metrika – „minkowski“ – Minkovského metrika 7 • funkce hclust na výpočet shlukové analýzy: – „ward.D“ a „ward.D2“ – dva algoritmy pro Wardovu metodu – „single“ – metoda nejbližšího souseda (single linkage) – „complete“ – metoda nejvzdálenějšího souseda (complete linkage) – „average“ – metoda průměrné vazby (nevážená) (average linkage) – „mcquitty“ – metoda průměrné vazby (vážená) – „median“ – centroidová metoda (vážená) = mediánová metoda – „centroid“ – centroidová metoda (nevážená) • podrobná ukázka v souboru Shlukovky_skript.R Koriťáková: Vícerozměrné metody - cvičení Software R – nehierarchické shlukování • funkce kmeans • ukázka: cl <- kmeans(data.vyber, 3) # provedeni shlukove analyzy table(cl$cluster,groupCodes) # zjisteni, kolik subjektu bylo spatne zarazenych 8 Koriťáková: Vícerozměrné metody - cvičení Matlab – hierarchické aglomerativní shlukování [num, txt] = xlsread('Data_neuro_shlukovky.xlsx',1); data=num(:,[23,24,26]); Z=linkage(data,'complete','euclidean'); % provedeni shlukove analyzy dendrogram(Z) % vykresleni dendrogramu c=cluster(Z,'maxclust',3); % vytvoreni definovaneho poctu shluku crosstab(c,num(:,3)) % zjisteni, kolik subjektu bylo spatne zarazenych 9 • volba shlukovacího algoritmu: – „average“ – metoda průměrné vazby (nevážená) (average linkage) – „centroid“ – centroidová metoda (nevážená) – „complete“ – metoda nejvzdálenějšího souseda (complete linkage) – „median“ – centroidová metoda (vážená) = mediánová metoda – „single“ – metoda nejbližšího souseda (single linkage) – „ward“ – Wardova metoda – „weighted“ – metoda průměrné vazby (vážená) • funkce linkage, která umožňuje volbu shlukovacího algoritmu i volbu metriky vzdálenosti mezi objekty (subjekty) • volba metriky vzdáleností – stejná nabídka jako u funkce pdist • ukázka: Koriťáková: Vícerozměrné metody - cvičení Matlab – nehierarchické shlukování 10 • funkce kmeans • ukázka: [idx,C]=kmeans(data,3); % provedeni shlukove analyzy (matice C – centroidy skupin) crosstab(idx,num(:,3)) % zjisteni, kolik subjektu bylo spatne zarazenych • funkce kmedoids • bohužel není ve starých verzích Matlabu • ukázka: [idx,C]=kmedoids(data,3); % provedeni shlukove analyzy (matice C – medoidy skupin) crosstab(idx,num(:,3)) % zjisteni, kolik subjektu bylo spatne zarazenych