logo-IBA logo-MU © Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ logo-MU ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. logo-IBA logo-MU © Institut biostatistiky a analýz V. KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PRINCIPY KLASIFIKACE þpomocí diskriminačních funkcí – funkcí, které určují míru příslušnosti k dané klasifikační třídě; þpomocí definice hranic mezi jednotlivými třídami a logických pravidel; þpomocí vzdálenosti od reprezentativních obrazů (etalonů) klasifikačních tříd; þpomocí ztotožnění s etalony; levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PRINCIPY KLASIFIKACE þpomocí diskriminačních funkcí – funkcí, které určují míru příslušnosti k dané klasifikační třídě; þpomocí definice hranic mezi jednotlivými třídami a logických pravidel; þpomocí vzdálenosti od reprezentativních obrazů (etalonů) klasifikačních tříd; þpomocí ztotožnění s etalony; levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz METRIKA - VZDÁLENOST þMetrika ρ na X je funkce ρ: X × X ® R, kde R je množina reálných čísel, taková, že: þ$ρ0ÎR: -¥ < ρ0 £ ρ(x,y) < +¥, "x,y Î X þρ(x,x) = ρ0, "x Î X þa þρ(x,y) = ρ(y,x), "x,y Î X. (symetrie) þKdyž dále þρ(x, y) = ρ0 když a jen když x = y (totožnost) èa ρ(x, z) £ ρ(x, y) + ρ(y, z), "x,y,z Î X. (D nerovnost) þ þProstor X, ve kterém metrika ρ definována, nazýváme metrickým prostorem. þVzdálenost je hodnota určená podle metriky. levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz METRIKA PODOBNOSTI - PODOBNOST þMetrická míra podobnosti s na X je funkce s: X × X ® R, kde R je množina reálných čísel, taková, že: þ$s0ÎR: -¥ < s(x,y) £ s0< +¥, "x,y Î X þs(x,x) = s0, "x Î X þa þs(x,y) = s(y,x), "x,y Î X. (symetrie) þKdyž dále þs(x,y) = s0 když a jen když x = y (totožnost) èa s(x,y).s(y,z) £ [s(x,y) + s(y,z)].s(x,z), "x,y,z Î X. levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz MÍRY PODOBNOSTI VS. NEPODOBNOSTI þVzdálenostní míry (míry nepodobnosti) mohou být transformovány na podobnostní míry různými transformacemi, např. þsij = 1/ρij þ þsij = 1/(1+ ρij) þ þsij = c - ρij, c ³ max ρij, "i,j þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz MÍRY PODOBNOSTI VS. NEPODOBNOSTI þVzdálenostní míry (míry nepodobnosti) mohou být transformovány na podobnostní míry různými transformacemi, např. þsij = 1/ρij þs(x,y).s(y,z) £ [s(x,y) + s(y,z)].s(x,z), "x,y,z Î X þsij = 1/(1+ ρij) þ þsij = c - ρij, c ³ max ρij, "i,j þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz MÍRY PODOBNOSTI VS. NEPODOBNOSTI þVzdálenostní míry (míry nepodobnosti) mohou být transformovány na podobnostní míry různými transformacemi, např. þsij = 1/ρij þs(x,y).s(y,z) £ [s(x,y) + s(y,z)].s(x,z), "x,y,z Î X þsij = 1/(1+ ρij) þ þsij = c - ρij, c ³ max ρij, "i,j þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz MÍRY PODOBNOSTI VS. NEPODOBNOSTI þVzdálenostní míry (míry nepodobnosti) mohou být transformovány na podobnostní míry různými transformacemi, např. þsij = 1/ρij þs(x,y).s(y,z) £ [s(x,y) + s(y,z)].s(x,z), "x,y,z Î X þsij = 1/(1+ ρij) þs(x,y).s(y,z) £ [s(x,y) + s(y,z) - s(x,y).s(y,z)].s(x,z), "x,y,z Î X þsij = c - ρij, c ³ max ρij, "i,j þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz MÍRY PODOBNOSTI VS. NEPODOBNOSTI þVzdálenostní míry (míry nepodobnosti) mohou být transformovány na podobnostní míry různými transformacemi, např. þsij = 1/ρij þs(x,y).s(y,z) £ [s(x,y) + s(y,z)].s(x,z), "x,y,z Î X þsij = 1/(1+ ρij) þs(x,y).s(y,z) £ [s(x,y) + s(y,z) - s(x,y).s(y,z)].s(x,z), "x,y,z Î X þsij = c - ρij, c ³ max ρij, "i,j þs(x,z) ³ s(x,y) + s(y,z) - c levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz TYPY MĚR VZDÁLENOSTI (PODOBNOSTI) þdle typu příznaků (numerické hodnoty, nominální či ordinální hodnoty, binární hodnoty); þdle objektů, jejichž vztah hodnotíme – obrazy (vektory), množiny obrazů (vektorů), rozdělení þdeterministické (nepravděpodobnostní) vs. pravděpodobnostní míry levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz MÍRY VZDÁLENOSTI þobecné poznámky: þvýběr konkrétní metriky závisí na použití þ kritéria: èoptimální výsledky (klasifikační chyby, ztráta, …) èvýpočetní nároky ècharakter rozložení dat þobecně nelze doporučit vhodnou metriku pro určité standardní situace levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz NUMERICKÉ PŘÍZNAKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz EUKLIDOVA METRIKA þmetrika zřejmě s nejnázornější geometrickou interpretaci þ þ þ þgeometrickým místem bodů s toutéž Euklidovou vzdáleností od daného bodu je hyperkoule (kruh ve dvourozměrném prostoru); þdává větší důraz na větší rozdíly mezi souřadnicemi (žádoucí nebo nežádoucí? – volba i podle toho, jak chceme zdůrazňovat rozdíly mezi jednotlivými souřadnicemi) þčtverec euklidovské vzdálenosti (lépe se počítá) je stále mírou nepodobnosti, ale není metrikou levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz EUKLIDOVA METRIKA þmetrika zřejmě s nejnázornější geometrickou interpretaci þ þ þ þSokalova metrika levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz HAMMINGOVA METRIKA þ(metrika Manhattan, city-block m., taxi driver m.) Bild:Manhattan distance.svg levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz HAMMINGOVA METRIKA þ(metrika Manhattan, city-block m., taxi driver m.) þ þ þ þgeometrickým místem bodů ve dvou rozměrném prostoru je kosočtverec; þnižší výpočetní nároky než E.m. Þ použití v úlohách s vysokou výpočetní pracností þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz MINKOVSKÉHO METRIKA þzobecnění Euklidovy a Hammingovy metriky; þvolba m záleží na míře důrazu – čím větší m, tím větší váha na velké rozdíly mezi příznaky, þ pro m®¥ metrika konverguje k Čebyševově metrice levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz ČEBYŠEVOVA METRIKA þpoužívá se ve výpočetně kriticky náročných případech, kdy je pracnost výpočtu dle euklidovsky orientovaných metrik nepřijatelná; þgeometrickým místem bodů s toutéž Čebyševovou vzdáleností od daného bodu je hyperkrychle (čtverec ve dvourozměrném prostoru) levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz SROVNÁNÍ GEOMETRICKÝCH MÍST levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz ČEBYŠEVOVA METRIKA þpokud je třeba použít „euklidovskou“ metriku, ale s nižší výpočetní pracností, používá se v první řadě Hammingova nebo Čebyševova metrika; þlepším přiblížením je kombinace obou metrik þ þ (ve dvourozměrném prostoru tvoří geometrické místo bodů o téže vzdálenosti osmiúhelník) levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz KVADRATICKÁ VZDÁLENOST þvhodný výběr matice Q je inverzní matice kovariance uvnitř množiny obrazů; þpak se to jmenuje Mahalanobisova metrika levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz METRIKA CANBERRA þje vhodná pro proměnné s nezápornými hodnotami èpokud jsou obě hodnoty x1i a x2i nulové, potom předpokládáme, že hodnota zlomku je nulová; èje-li jenom jedna hodnta nulová, pak je zlomek roven jedné, nezávile na velikosti druhé hodnoty; èněkdy se nulové hodnoty nahrazují malým kladným číslem (menším, než nejmenší naměřené hodnoty); levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz NELINEÁRNÍ VZDÁLENOST þkde D je prahová hodnota a H je nějaká konstanta. Uvádí se, že dobrý výběr hodnot H a D by měl splňovat vztah þ þ þkdyž D splňuje nestrannost a konzistenční podmínku Parzenova odhadu, především DnN®¥ a D®0, když N®¥ (N je počet obrazů v množině) levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz ÚHLOVÁ VZDÁLENOST þÚhlová vzdálenost (je to spíš míra podobnosti, než nepodobnosti) určuje úhel mezi jednotkovými vektory, které mají směr obou zkoumaných vektorů. þVhodná v případě, pokud je informativní pouze relativní hodnota příznaků. levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz ÚHLOVÁ VZDÁLENOST þÚhlová vzdálenost (je to spíš míra podobnosti, než nepodobnosti) určuje úhel mezi jednotkovými vektory, které mají směr obou zkoumaných vektorů. þVhodná v případě, pokud je informativní pouze relativní hodnota příznaků. co takhle korelační koeficient ? levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þnevýhody: þfyzikální nesmyslnost vytvářet kombinaci veličin s různým fyzikálním rozměrem þjsou-li příznakové veličiny zahrnovány do výsledné vzdálenosti se stejnými vahami, zvyšuje se vliv korelovaných veličin þ NEPRAVDĚPODOBNOSTNÍ METRIKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þmožné odstranění (potlačení) nevýhod: þvztažením k nějakému vyrovnávacímu faktoru, např. střední hodnotě, směrodatné odchylce, normě daného obrazu x=(x1, x2, …,xn) þ þ þrozpětí þ þresp. standardizací podle vztahu þ þ þ NEPRAVDĚPODOBNOSTNÍ METRIKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þmožné odstranění (potlačení) nevýhod: þlze i subjektivně či na základě nějaké apriorní informace o úloze přiřadit každé příznakové proměnné váhový koeficient, např. váhovaná Minkovského metrika má tvar þ NEPRAVDĚPODOBNOSTNÍ METRIKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þmožné odstranění (potlačení) nevýhod: þváhování příznaků lze zapsat maticově þui = TC.xi, þ kde prvky transformační matice C jsou definovány jako þ cii = ai, pro i = 1, …, n þ cij = 0, pro i ≠ j þZa tohoto formalismu je Euklidova metrika definována vztahem þ NEPRAVDĚPODOBNOSTNÍ METRIKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þmožné odstranění (potlačení) nevýhod: þpokud jsou složky transformovaného obrazu dány lineární kombinací více složek původního obrazu, není ani matice C, ani matice C.TC čistě diagonální. Použijeme-li místo matice C.TC inverzní kovarianční matice K-1, pak definiční vztah pro váhovanou Euklidovu metriku je definičním vztahem pro Mahalanobisovu metriku NEPRAVDĚPODOBNOSTNÍ METRIKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þmožné odstranění (potlačení) nevýhod: þpokud jsou složky transformovaného obrazu dány lineární kombinací více složek původního obrazu, není ani matice C, ani matice C.TC čistě diagonální. Použijeme-li místo matice C.TC inverzní kovarianční matice K-1, pak definiční vztah pro váhovanou Euklidovu metriku je definičním vztahem pro Mahalanobisovu metriku þ þKovarianční matice dvou (náhodných) vektorů x=T(x1,…,xm) a y=T(y1,…,yn) je dána vztahem þK(x,y)=E((x-Ex).(y-Ey)T) = [cov(xi,yj)]m,n þ NEPRAVDĚPODOBNOSTNÍ METRIKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ þNominální proměnná je taková, o jejíž dvou hodnotách můžeme pouze říci, zda jsou stejné či různé (škola, fakulta, obor). Hodnotami mohou být texty (písmena), případně i číselné kódy. Lze u nich zjišťovat jen rozdělení četností, nemůžeme provádět aritmetické operace (sčítat apod.), výjimkou jsou binární proměnné (viz dále). þOrdinální (pořadová), u jejíž dvou hodnot můžeme navíc určit pořadí (úroveň spokojenosti, vzdělání). Jako hodnoty lze použít text, datum, číslo. Pro statistické analýzy (s výjimkou zjišťování četností) je třeba texty převést na čísla. S typem datum lze provádět jen některé výpočty, a to pouze v některých programových systémech. þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ þNominální proměnné jsou často reprezentovány binárně kódem jedna z m. Vzdálenost mezi takovými obrazy je dána součtem příspěvků od jednotlivých proměnných þV případě ordinálních proměnných vzdálenost mezi dvěma vektory nezávisí jednoduše na hodnotách proměnných. þPokud proměnná v jednom vektoru nabývá hodnoty m a v druhém hodnoty k (mm þHodnota δmk je velice závislá na řešeném problému. þPř. rostlina s krátkými, dlouhými a velmi dlouhými plody. Samozřejmě chceme, aby vzdálenost mezi velmi dlouhým a krátkým plodem byla větší než mezi dlohým a krátkým plodem. To splňuje kódování 1,2,3, ale také 1,10,100. þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz BINÁRNÍ PROMĚNNÉ þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz BINÁRNÍ PROMĚNNÉ þKOEFICIENTY ASOCIACE levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz KOEFICIENTY ASOCIACE þKoeficienty asociace jsou míry podobnosti mezi obrazy obsahujícími logické (binární, dichotomické) příznakové veličiny. þKe zjištění podobnosti je třeba sledovat shodu či neshodu hodnot odpovídajících si příznaků Þ čtyři možné situace levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz KOEFICIENTY ASOCIACE A.u obou obrazů sledovaný jev nastal (oba odpovídající si příznaky mají hodnotu true) – pozitivní shoda; B.u obrazu xi jev nastal (xik = true), zatímco u obrazu xj nikoliv (xjk = false); C.u obrazu xi jev nenastal (xik = false), zatímco u obrazu xj ano (xjk = true); D.u obou obrazů sledovaný jev nenastal (oba odpovídající si příznaky mají hodnotu false) – negativní shoda; levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz KOEFICIENTY ASOCIACE 001.jpg levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz KOEFICIENTY ASOCIACE þsledujeme, kolikrát pro všechny příznaky obrazů xi a xj nastaly případy shody a neshody èA+D celkový počet shod příznaků; èB+C celkový počet neshod příznaků; èA+B+C+D =n tj. počet příznaků obou obrazů þ þNa základě počtu zjištěných shod a neshod jsou definovány různé koeficienty asociace. þKoeficienty asociace jsou míry podobnosti levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz KOEFICIENTY ASOCIACE þSokalův- Michenerův koeficient (koeficient jednoduché vazby) þ þ þProblém je se hodnotou D – společná absence jevu – problém „double zero“. þTo, že někde něco není často nevede k větší podobnosti (ekologie), nebo naopak společná absence se špatně určuje (detekce určitých prvků v signálu). levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz KOEFICIENTY ASOCIACE þJaccardův (Tanimotův) koeficient þ þ èvůbec neobsahuje člen D – masivní využití v ekologii ènení definován pro dvojice obrazů, které vykazují negativní shodu ve všech příznacích; è levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz KOEFICIENTY ASOCIACE þDiceův koeficient (Czekanowského) þ þ þv podstatě totéž jako Jaccardův koeficient, pouze koincidence má dvojnásobnou váhu levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz KOEFICIENTY ASOCIACE þRusselův- Raoův koeficient þ þ þ Asociační koeficienty zpravidla nabývají hodnot z intervalu á0,1ñ. V případě R-R koeficientu je při srovnání dvou týchž obrazů hodnota sRR = 1 pouze když došlo u všech příznaků jen k pozitivní shodě. þ þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þZ koeficientů asociace, které vyjadřují míru podobnosti lze zpravidla odvodit koeficienty nepodobnosti þ þV případě Jaccardova a Dicova koeficientu nepodobnosti je dodefinována hodnota i pro případy úplné negativní shody tak, že þdJ(xi,xj) = dD(xi,xj) = 0 pro A = B = C = 0 þ KOEFICIENTY ASOCIACE levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz KOEFICIENTY ASOCIACE þRogersův-Tanimotův koeficient þ þ þHammanův koeficient þ þ Na rozdíl od všech předcházejících nabývá Hammanův koeficient hodnot z intervalu á-1,1ñ, přičemž hodnoty -1 nabývá, pokud se příznaky neshodují ani jednou, 0 nabývá když je počet shod a neshod v rovnováze a +1 je v případě úplné shody mezi všemi příznaky. þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þNa základě četností A až D lze vytvářet také dříve uvedené míry: þHammingova vzdálenost þ þ þEuklidova vzdálenost KOEFICIENTY ASOCIACE levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þNa základě četností A až D lze vytvářet také dříve uvedené míry: þPearsonův korelační koeficient þ þ þkritérium shody c2 KOEFICIENTY ASOCIACE levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PODOBNOST MEZI TŘÍDAMI þ„podobnost“ jednoho obrazu s více obrazy jedné třídy (skupin, množin, shluků); þ„podobnost“ obrazů dvou tříd (skupin, množin, shluků); þ þzavedeme funkci, která ke každé dvojici skupin obrazů (Ci, Cj) přiřazuje číslo D(Ci, Cj), které podobně jako míry podobnosti či nepodobnosti (metriky) jednotlivých obrazů musí splňovat minimálně podmínky: levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PODOBNOST MEZI TŘÍDAMI þPODMÍNKY þ þ(S1) D(Ci, Cj) ³ 0 þ(S2) D(Ci, Cj) = D(Cj, Ci) þ(S3) D(Ci, Ci) = maxi,jD(Ci, Cj) þ(pro míry podobnosti) þ(S3’) D(Ci, Ci) = 0 pro všechna i þ (pro míry podobnosti) levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz METODA NEJBLIŽŠÍHO SOUSEDA þje-li d libovolná míra nepodobnosti (vzdálenosti) dvou obrazů a Ci a Cj jsou libovolné skupiny množiny obrazů {xi}, i=1,…,K, potom metoda nejbližšího souseda definuje mezi skupinami Ci a Cj vzdálenost þ þ þPozn.: þPři použití této metody se mohou vyskytovat v jednom shluku často i poměrně vzdálené obrazy. Tzn. metoda nejbližšího souseda může generovat shluky protáhlého tvaru. þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz METODA K NEJBLIŽŠÍCH SOUSEDŮ þJe zobecněním metody nejbližšího souseda. þJe definována vztahem þ þ þtj. vzdálenost dvou shluků je definována součtem k nejkratších vzdáleností mezi obrazy dvou skupin obrazů. þ þPozn.: þPři shlukování metoda částečně potlačuje generování řetězcových struktur. levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz METODA NEJVZDÁLENĚJŠÍHO SOUSEDA þopačný princip než nejbližší sousedi þ þ þPozn.: þGenerování protáhlých struktur tato metoda potlačuje, naopak vede ke tvorbě nevelkých kompaktních shluků. þ þje možné i zobecnění pro více nejbližších sousedů þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz METODA CENTROIDNÍ þvychází z geometrického modelu v euklidovském n rozměrném prostoru a určuje vzdálenost dvou tříd jako čtverec Euklidovy vzdálenosti těžišť obou tříd. þ je-li těžiště třídy definováno jako střední hodnota z obrazů patřících do této třídy, tj. þ þ þ pak þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz METODA PRŮMĚRNÉ VAZBY þvzdálenost dvou tříd Ci a Cj je průměrná vzdálenost mezi všemi obrazy tříd Ci a Cj. Obsahuje-li shluk Ci P obrazů a Cj Q obrazů, pak jejich vzdálenost je definována vztahem þ þ þ þPozn.: þMetoda často vede k podobným výsledkům jako metoda nejvzdálenějšího souseda. levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz WARDOVA METODA þvzdálenost mezi třídami (shluky) je definována přírůstkem součtu čtverců odchylek mezi těžištěm a obrazy shluku vytvořeného z obou uvažovaných shluků Ci a Cj oproti součtu čtverců odchylek mezi obrazy a těžišti v obou shlucích Ci a Cj. levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz WARDOVA METODA þjsou-li a těžiště tříd Ci a Cj a těžiště sjednocené množiny, pak Wardova vzdálenost obou shluků je definována výrazem þ þ þ þ þ þPozn.: þMetoda má tendenci vytvářet shluky zhruba stejné velikosti, tedy odstraňovat shluky malé, resp. velké. levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz 001.jpg WARDOVA METODA levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þPříprava nových učebních materiálů þoboru Matematická biologie þje podporována projektem ESF þč. CZ.1.07/2.2.00/07.0318 þ„VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE“ INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ logo-MU