© Institut biostatistiky a analýz Analýza a klasifikace dat – přednáška 3 RNDr. Eva Koriťáková, Ph.D. Podzim 2017 Typy klasifikátorů – podle principu klasifikace 2Koriťáková: Analýza a klasifikace dat • klasifikace pomocí diskriminačních funkcí: – diskriminační funkce určují míru příslušnosti k dané klasifikační třídě – pro danou třídu má daná diskriminační funkce nejvyšší hodnotu • klasifikace pomocí vzdálenosti od etalonů klasif. tříd: – etalon = reprezentativní objekt(y) klasifikační třídy – počet etalonů klasif. třídy různý – od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) • klasifikace pomocí hranic v obrazovém prostoru: – stanovení hranic (hraničních ploch) oddělujících klasifikační třídy x1 x2 ? x1 x2 ? 0 1 2 3 4 5 6 7 4 6 8 10 12 14 0 0.05 x1x2 x2 x1 Poznámka • jednotlivé objekty je možno znázornit pomocí bodů v p-rozměrném prostoru (p je počet proměnných) 3 𝐗 𝐷 = 2 12 4 10 3 8 , 𝐗 𝐻 = 5 7 3 9 4 5 pacienti kontroly 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu Objemmozkovýchkomor Koriťáková: Analýza a klasifikace dat Metrika – vzdálenost Metrika D na X je funkce D: X × X  R, kde R je množina reálných čísel taková, že: D0R: - < D0  D(x,y) < +, x,y  X D(x,x) = D0, x  X a D(x,y) = D(y,x), x,y  X (symetrie) D(x, y) = D0 když a jen když x = y (totožnost) D(x, z)  D(x, y) + D(y, z), x,y,z  X ( nerovnost) Prostor X, ve kterém metrika D definována, nazýváme metrickým prostorem. Vzdálenost je hodnota určená podle metriky. Poznámka: zpravidla D0=0. 4Koriťáková: Analýza a klasifikace dat Metrika – podobnost Metrická míra podobnosti S na X je funkce S: X × X  R, taková, že:  S0R: - < S(x,y)  S0< +, x,y  X S(x,x) = S0, x  X a S(x,y) = S(y,x), x,y  X (symetrie) S(x,y) = S0 když a jen když x = y (totožnost) S(x,y)·S(y,z)  [S(x,y) + S(y,z)]·S(x,z), x,y,z  X Podobnost je hodnota určená podle metrické míry podobnosti. Poznámka: zpravidla S0=1 (ale neplatí to vždy, u některých metrik je maximální hodnota podobnosti jiná než 1) 5Koriťáková: Analýza a klasifikace dat Metriky podobnosti vs. metriky vzdálenosti Vzdálenostní míry (míry nepodobnosti) mohou být transformovány na podobnostní míry různými transformacemi, např.: Sij = 1/Dij Sij = 1/(1+ Dij) Sij = c - Dij, c  max Dij, i,j 6Koriťáková: Analýza a klasifikace dat Typy měr vzdálenosti (podobnosti) 7Koriťáková: Analýza a klasifikace dat • podle typu proměnné (kvalitativní proměnné, kvantitativní proměnné) • podle počtu objektů, jejichž vztah hodnotíme – objekty (vektory), množiny objektů (vektorů) • deterministické (nepravděpodobností) vs. pravděpodobností míry • výběr konkrétní metriky závisí na: – výpočetních nárocích – charakteru rozložení dat – dosažení optimálních výsledků (klasifikační chyba, ztráta,...) • chybný výběr metriky může vést k chybných závěrům analýzy (stejně jako v klasické statistické analýze výběr nevhodného testu) • obecně bohužel není možné dopředu doporučit vhodnou metriku pro danou situaci Typy metrik a konkrétní příklady 8 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY MEZI DVĚMA SKUPINAMI OBJEKTŮ Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., RusselůvRaovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Koriťáková: Analýza a klasifikace dat Metriky pro určení vzdálenosti mezi dvěma objekty 9Koriťáková: Analýza a klasifikace dat Typy metrik a konkrétní příklady 10 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., RusselůvRaovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda MEZI DVĚMA SKUPINAMI OBJEKTŮ Koriťáková: Analýza a klasifikace dat Nejpoužívanější metriky pro určení vzdálenosti mezi dvěma objekty s kvantitativními proměnnými 11Koriťáková: Analýza a klasifikace dat • Euklidova metrika • Hammingova (manhattanská) metrika • Minkovského metrika • Čebyševova metrika • Mahalanobisova metrika • Canberrská metrika 12 • zřejmě nejpoužívanější metrika s velmi názornou geometrickou interpretací Euklidova metrika pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objemmozkovýchkomor Objem hipokampu 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objemmozkovýchkomor Objem hipokampu Koriťáková: Analýza a klasifikace dat 𝐷 𝐸 𝐱1, 𝐱2 = ෍ 𝑖=1 𝑛 x1𝑖 − x2𝑖 2 13 Euklidova metrika Koriťáková: Analýza a klasifikace dat • zřejmě nejpoužívanější metrika s velmi názornou geometrickou interpretací 𝐷 𝐸 𝐱1, 𝐱2 = ෍ 𝑖=1 𝑛 x1𝑖 − x2𝑖 2 • geometrickým místem bodů s toutéž Euklidovou vzdáleností od daného bodu je povrch hyperkoule (ve dvourozměrném prostoru kružnice) • dává větší důraz na větší rozdíly mezi souřadnicemi žádoucí nebo nežádoucí? • občas se používá čtverec euklidovské vzdálenosti, protože se lépe počítá než euklidovská vzdálenost (není to ale pravá metrika vzdálenosti) 14 Hammingova (manhattanská) metrika Koriťáková: Analýza a klasifikace dat • v AJ názvy: Manhattan distance, city-block distance, taxi driver distance 𝐷 𝐻 𝐱1, 𝐱2 = ෍ 𝑖=1 𝑛 x1𝑖 − x2𝑖 • nižší výpočetní nároky než Euklidova metrika → použití v úlohách s vysokou výpočetní náročností 15 Hammingova (manhattanská) metrika Koriťáková: Analýza a klasifikace dat 𝐷 𝐻 𝐱1, 𝐱2 = ෍ 𝑖=1 𝑛 x1𝑖 − x2𝑖 pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objemmozkovýchkomor Objem hipokampu 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objemmozkovýchkomor Objem hipokampu • geometrickým místem bodů s toutéž manhattanskou vzdáleností od daného bodu je hyperkrychle (ve dvourozměrném prostoru čtverec) 16 Minkovského metrika Koriťáková: Analýza a klasifikace dat • zobecněním Euklidovy a Hammingovy (manhattanské) metriky 𝐷 𝑀 𝐱1, 𝐱2 = ෍ 𝑖=1 𝑛 x1𝑖 − x2𝑖 𝑚 Τ1 𝑚 • Euklidova metrika pro 𝑚 = 2, Hammingova (manhattanská) metrika pro 𝑚 = 1 • volba 𝑚 závisí na tom, jak moc chceme váhovat velké rozdíly mezi proměnnými (čím větší 𝑚, tím větší váha na velké rozdíly mezi proměnnými) • pro 𝑚 → ∞ metrika konverguje k Čebyševově metrice 𝐷 𝐶 𝐱1, 𝐱2 = lim 𝑚→∞ 𝐷 𝑀 𝐱1, 𝐱2 = max ∀𝒊 x1𝑖 − x2𝑖 17 • odvozena z Minkovského metriky pro 𝑚 → ∞ 𝐷 𝐶 𝐱1, 𝐱2 = max ∀𝒊 x1𝑖 − x2𝑖 Čebyševova metrika pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objemmozkovýchkomor Objem hipokampu 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objemmozkovýchkomor Objem hipokampu Koriťáková: Analýza a klasifikace dat 18 Čebyševova metrika Koriťáková: Analýza a klasifikace dat • odvozena z Minkovského metriky pro 𝑚 → ∞ 𝐷 𝐶 𝐱1, 𝐱2 = max ∀𝒊 x1𝑖 − x2𝑖 • používá se ve výpočetně kriticky náročných případech, kdy je pracnost výpočtu pomocí Euklidovy metriky nepřijatelná • geometrickým místem bodů s toutéž Čebyševovou vzdáleností od daného bodu je hyperkrychle (ve dvourozměrném prostoru čtverec), ale jinak orientovaná než v případě Hammingovy (manhattanské) vzdálenosti 19 Srovnání metrik Koriťáková: Analýza a klasifikace dat ρC ... Čebyševova metrika ρE ... Euklidova metrika ρH ... Hammingova (manhattanská) metrika 20 • pokud je potřeba použít „euklidovskou“ metriku, ale s nižší výpočetní náročností, používá se v první řadě Hammingova nebo Čebyševova metrika • případně kombinace obou metrik: 𝐷𝐴 𝐱1, 𝐱2 = max 2𝐷 𝐻/3; 𝐷 𝐶 • geometrickým místem bodů s toutéž vzdáleností je pak ve dvourozměrném prostoru osmiúhelník Srovnání metrik Koriťáková: Analýza a klasifikace dat 21 Nevýhody metrik Koriťáková: Analýza a klasifikace dat • je zpravidla problematické vytvářet součet rozdílů veličin s různým rozsahem • při začlenění korelovaných veličin se zvyšuje jejich vliv na výslednou hodnotu • řešení: 1. transformace proměnných: ‐ vztažení k nějakému vyrovnávacímu faktoru (střední hodnotě, směrodatné odchylce, rozpětí i = maxj xij - minj xij) či pomocí standardizace u𝑖𝑗 = x 𝑖𝑗−തx 𝑗 𝜎 𝑗 ; 𝑖 = 1, … , 𝑛; 𝑗 = 1, … , 𝑝 ; kde 𝑛 je počet subjektů a 𝑝 je počet proměnných 2. váhování: ‐ např. Minkovského váhovaná metrika: 𝐷 𝑊𝑀 𝐱1, 𝐱2 = ሺσ𝑖=1 𝑛 𝑎𝑖 ∙ ȁx1𝑖 − 3. začlenění kovarianční matice do výpočtu: ‐ začleněním inverze kovarianční matice získáváme Mahalanobisovu metriku (což je Euklidova metrika váhovaná inverzí kovarianční matice): 𝐷 𝑀𝐴 𝐱1, 𝐱2 = 𝐱1 − 𝐱2 𝑇 ∙ 𝐒−1 ∙ 𝐱1 − 𝐱2 22 Canberrská metrika Koriťáková: Analýza a klasifikace dat • relativizovaná varianta Hammingovy (manhattanské) metriky 𝐷 𝐶𝐴 𝐱1, 𝐱2 = ෍ 𝑖=1 𝑛 x1𝑖 − x2𝑖 x1𝑖 + x2𝑖 • vhodná pro proměnné s nezápornými hodnotami • pokud se vyskytují nulové hodnoty: – pokud jsou obě hodnoty x1𝑖 a x2𝑖 nulové, potom předpokládáme, že hodnota zlomku je nulová – je-li jenom jedna hodnota nulová, pak je zlomek roven 1 bez ohledu na velikost druhé hodnoty – někdy se nulové hodnoty nahrazují malým kladným číslem (menším než nejmenší naměřené hodnoty) • velice citlivá na malé změny souřadnic, pokud se oba objekty nacházejí v blízkosti počátku souřadnicové soustavy; naopak méně citlivá na změny hodnot proměnných, pokud jsou tyto hodnoty velké 23 Jsou dány dva vektory x1 = (0,001; 0,001)T a x2 = (0,01; 0,01)T. Předpokládejme, že se souřadnice prvního vektoru změní na x´1 = (0,002; 0,001)T. Jaká je Hammingova (manhattanská) a canberrská vzdálenost v obou případech a jaká je relativní změna vzdáleností, vyvolaná uvedenou modifikací? Příklad 1a Koriťáková: Analýza a klasifikace dat 𝑑 𝐻 𝐱1, 𝐱2 = 0,001 − 0,01 + 0,001 − 0,01 = 0,009 + 0,009 = 0,018 𝑑 𝐻 𝐱′1, 𝐱2 = 0,002 − 0,01 + 0,001 − 0,01 = 0,008 + 0,009 = 0,017 𝑑 𝐶𝐴 𝐱1, 𝐱2 = 0,001−0,01 0,001 + 0,01 + 0,001−0,01 0,001 + 0,01 = 0,009 0,011 + 0,009 0,011 = 1,6364 𝑑 𝐶𝐴 𝐱′1, 𝐱2 = 0,002−0,01 0,002 + 0,01 + 0,001−0,01 0,001 + 0,01 = 0,008 0,012 + 0,009 0,011 = 1,4849 Relativní změny vzdáleností, určující citlivost té které metriky, které jsou způsobeny změnou hodnoty první souřadnice, jsou: ∆𝑑 𝐻 = 𝑑 𝐻 𝐱1,𝐱2 −𝑑 𝐻 𝐱′1,𝐱2 𝑑 𝐻 𝐱1,𝐱2 = 0,018−0,017 0,018 = 0,001 0,018 = 0,056 ∆𝑑 𝐶𝐴 = 𝑑 𝐶𝐴 𝐱1,𝐱2 −𝑑 𝐶𝐴 𝐱′1,𝐱2 𝑑 𝐶𝐴 𝐱1,𝐱2 = 1,6364−1,4849 1,6364 = 0,093 Ze získaných výsledků je zřejmé, že relativní změna vzdáleností je v případě canberrské metriky pro toto zadání téměř dvakrát větší. 24 Nyní mějme dány dva vektory x1 = (1000; 1000)T a x2 = (100; 100)T a předpokládejme, že se souřadnice prvního vektoru změní na x´1 = (1002; 1000)T. Jaká je Hammingova (manhattanská) a canberrská vzdálenost v obou případech a jaká je relativní změna vzdáleností, vyvolaná uvedenou modifikací? Příklad 1b Koriťáková: Analýza a klasifikace dat 𝑑 𝐻 𝐱1, 𝐱2 = 1000 − 100 + 1000 − 100 = 900 + 900 = 1800 𝑑 𝐻 𝐱′1, 𝐱2 = 1002 − 100 + 1000 − 100 = 902 + 900 = 1802 𝑑 𝐶𝐴 𝐱1, 𝐱2 = 1000−100 1000 + 100 + 1000−100 1000 + 100 = 900 1100 + 900 1100 = 1,6364 𝑑 𝐶𝐴 𝐱′1, 𝐱2 = 1002−100 1002 + 100 + 1000−100 1000 + 100 = 902 1102 + 900 1100 = 1,6367 Relativní změny vzdáleností, určující citlivost té které metriky, které jsou způsobeny změnou hodnoty první souřadnice, jsou: ∆𝑑 𝐻 = 𝑑 𝐻 𝐱1,𝐱2 −𝑑 𝐻 𝐱′1,𝐱2 𝑑 𝐻 𝐱1,𝐱2 = 1800−1802 1800 = 2 1800 = 0,0011 ∆𝑑 𝐶𝐴 = 𝑑 𝐶𝐴 𝐱1,𝐱2 −𝑑 𝐶𝐴 𝐱′1,𝐱2 𝑑 𝐶𝐴 𝐱1,𝐱2 = 1,6364−1,6367 1,6364 = 0,00018 Ze získaných výsledků je zřejmé, že citlivost canberrské metriky je v tomto případě řádově nižší. 25 Nelineární metrika Koriťáková: Analýza a klasifikace dat       D),(kdyžH D),(když0 ),( 21E 21E 21N xx xx xx • kde D je prahová hodnota a H je nějaká konstanta • i když existují doporučení, jak volit obě hodnoty na základě statistických vlastností vektorového prostoru (např. pomocí H = Г Τ𝑛 2 𝐷 𝑛 𝜋 𝑛 ), výhodnější je volit obě hodnoty na základě expertní analýzy řešeného problému • ve vztahu může figurovat jakákoliv metrika vzdálenosti, nejen Euklidova metrika Typy metrik a konkrétní příklady 26 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., RusselůvRaovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda MEZI DVĚMA SKUPINAMI OBJEKTŮ Koriťáková: Analýza a klasifikace dat Příklad 27Koriťáková: Analýza a klasifikace dat Předpokládejme, že množina F obsahuje symboly {0, 1, 2}, tj. k = 3 a vektory x a y jsou následující 6-prvkové vektory (tj. p = 6): x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T Kontingenční matice A(x,y) je: Součet hodnot všech prvků matice A(x,y) je roven délce p obou vektorů, tj. v našem případě:            101 021 010 ),( yxA    2 0i 2 0j ij 6a Spočtěte vzdálenost obou vektorů. Hammingova metrika vzdálenosti 28 • definována počtem pozic, v nichž se oba vektory liší        1 0 1 0 ),( k i k ji j ijHQ aD yx • tzn. je dána součtem všech prvků matice A, které leží mimo hlavní diagonálu. x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T Příklad: x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T dHQ(x,y) = 3 liší se ve 3 souřadnicích 𝐀 𝐱, 𝐲 = 0 1 0 1 2 0 1 0 1 𝐀 𝐱, 𝐲 = 0 1 0 1 2 0 1 0 1 dHQ(x,y) = 3 3 prvky mimo diagonálu Koriťáková: Analýza a klasifikace dat Hammingova metrika vzdálenosti 29Koriťáková: Analýza a klasifikace dat • pro k = 2, kdy jsou hodnoty obou vektorů binární, se definiční vztah Hammingovy vzdálenosti transformuje na: kde třetí člen v závorce kompenzuje případ, kdy jsou hodnoty xi i yi rovny jedné a součet prvních členů v závorce je tím pádem roven dvěma, nicméně nastává shoda hodnot, která k celkové vzdálenosti nemůže přispět.   p i iiiiHQB yxyxD 1 )2(),( yx    p i ii p i iiiiHQB yxyxyxD 1 2 1 22 )()2(),( yx   p i iiHQB yxD 1 ),( yx • protože xi a yi nabývají hodnot pouze 0 a 1, můžeme také psát: • díky speciálnímu případu hodnot xi a yi je možná i nejjednodušší forma: Hammingova metrika vzdálenosti – příklad 2 30 Určete Hammingovu vzdálenost binárních vektorů x = (0, 1, 1, 0, 1)T a y = (1, 0, 0, 0, 1)T. Podle definičního principu (tzn. počet pozic, ve kterých se oba vektory liší): dHQB(x,y) = 3 Dle jiného vztahu: 3)11211()00200()01201()01201()10210( )2(),( 1    ++++++++ yxyxd p i iiiiHQB yx Dle dalšího vztahu: 300111)11()00()01()01()10( )(),( 22222 1 2    ++++ yxd p i iiHQB yx Dle posledního vztahu: 300111 1100010110 ),( 1     p i iiHQB yxd yx Koriťáková: Analýza a klasifikace dat Hammingova metrika vzdálenosti 31Koriťáková: Analýza a klasifikace dat V případě bipolárních vektorů, kdy jednotlivé složky vektorů nabývají hodnot +1 a -1, je Hammingova vzdálenost určena vztahem: 2 ),( 1          p i ii HQP yxp D yx Příklad 3: Určete Hammingovu vzdálenost bipolárních vektorů x = (1, 1, 1, -1, 1)T a y = (1, -1, 1, -1, -1)T. Podle definičního principu (tzn. počet pozic, ve kterých se liší): dHQP(x,y) = 2 Z kontingenční matice (součet prvků mimo hlavní diagonálu): Pomocí vztahu:   2 2 15 2 )11111(5 2 ))1(1())1()1(()11())1(1()11(5 ),(       yxHQPd 𝐀 𝐱, 𝐲 = 2 2 0 1 Metriky pro určení podobnosti mezi dvěma objekty 32Koriťáková: Analýza a klasifikace dat Typy metrik a konkrétní příklady 33 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., RusselůvRaovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda MEZI DVĚMA SKUPINAMI OBJEKTŮ Koriťáková: Analýza a klasifikace dat Skalární součin 34   n i ii T ss xxS 1 212121 .),( xxxx Většinou pro vektory x1 a x2 o stejné délce (např. a); záleží na úhlu, který svírají: úhel 0° úhel 90° úhel 180° Sss = a2 Sss = -a2Sss = 0 • skalární součin invariantní vůči rotaci – absolutní orientace nepodstatná, důležitý pouze úhel • skalární součin není invariantní vůči lineární transformaci (tzn. závisí na délce vektorů) odvození metriky vzdálenosti: ),(),( 21 2 21 xxxx ssss SaD  Koriťáková: Analýza a klasifikace dat Metrika kosinové podobnosti 35 21 21 21cos . . ),( xx xx xx T S  kde je norma (délka) vektoru xi = skalární součin vektorů o jednotkové délce • vhodná v případě, pokud je informativní pouze relativní hodnota příznaků • hodnoty cos(x1, x2) jsou rovny kosinu úhlu mezi oběma vektory ix úhel 0° úhel 90° úhel 180° Scos = 1 Scos = -1Scos = 0 Koriťáková: Analýza a klasifikace dat Pearsonův korelační koeficient 36 21 21 21cos . . ),( xx xx xx T S  Metrika kosinové podobnostiPearsonův korelační koeficient 21 21 21 . . ),( dd d T d PCS xx xx xx  kde 𝐱 𝑑𝑖 = x𝑖1 − തx𝑖, x𝑖2 − തx𝑖, … , x𝑖𝑝 − തx𝑖 𝑇 𝐱 𝑑𝑖 jsou tzv. diferenční vektory také nabývá hodnot z intervalu -1;1 odvození metriky vzdálenosti: 2 ),(1 ),( 21 21 xx xx PC PC S D   → hodnoty se (díky dělení dvěma) vyskytují v intervalu 0;1 → používá se např. při analýze dat genové exprese Koriťáková: Analýza a klasifikace dat Tanimotova metrika podobnosti 37Koriťáková: Analýza a klasifikace dat Přičteme-li a odečteme-li ve jmenovateli výraz x1 Tx2 a podělíme-li čitatele i jmenovatele zlomku toutéž hodnotou, dostaneme Tanimotova podobnost vektorů x1 a x2 je nepřímo úměrná kvadrátu Euklidovy vzdálenosti vektorů x1 a x2 vztažené k jejich skalárnímu součinu. Pokud skalární součin považujeme za míru korelace obou vektorů, můžeme formulovat výše uvedený vztah tak, že ST(x1,x2) je nepřímo úměrná kvadrátu Euklidovy vzdálenosti podělené velikostí jejich korelace, což znamená, že je korelaci, jako míře podobnosti přímo úměrná. 21 2 2 2 1 21 21 ),( xxxx xx xx T T TS   21 2121 21 )()( 1 1 ),( xx xxxx xx T TTS    „Bezejmenná“ metrika podobnosti 38Koriťáková: Analýza a klasifikace dat 21 21 21 ),( 1),( xx xx xx   E C D S Vzdálenost podle metriky je rovna jedné, když x1 = x2 a svého minima (tj. = -1) nabývá, když x1 = -x2. ),( 21 xxCS Typy metrik a konkrétní příklady 39 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., RusselůvRaovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda MEZI DVĚMA SKUPINAMI OBJEKTŮ Koriťáková: Analýza a klasifikace dat Metriky pro určení podobnosti 2 objektů s kvalitativními prom. 40 1. případy obecné 2. případy s dichotomickými příznaky, pro které je definována celá řady tzv. asociačních koeficientů. (Asociační koeficienty až na výjimky nabývají hodnot z intervalu 0, 1, hodnoty 1 v případě shody vektorů, 0 pro případ nepodobnosti.) Koriťáková: Analýza a klasifikace dat 𝐀 𝐱, 𝐲 = 0 1 0 1 2 0 1 0 1 x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T 41 Obecné metriky – Hammingova metrika podobnosti ),(),( yxyx HQHQ DpS  Příklad: dHQ(x,y) = 3 liší se ve 3 souřadnicích dHQ(x,y) = 3 3 prvky mimo diagonálu sHQ(x,y) = 6 – 3 = 3 sHQ(x,y) = 6 – 3 = 3 x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T 𝐀 𝐱, 𝐲 = 0 1 0 1 2 0 1 0 1 shoda ve 3 souřadnicích součet prvků na diagonále roven 3 Koriťáková: Analýza a klasifikace dat 42 Obecné metriky – Tanimotova metrika Pro výpočet Tanimotovy podobnosti dvou vektorů s kvalitativními příznaky jsou použity všechny páry složek srovnávaných vektorů, kromě těch, jejichž hodnoty jsou obě nulové.       1k 1i 1k 0j ijx an       1k 0i 1k 1j ijy an               1 1 1 1 1 1 ),( k i k j ijyx k i ii TQ ann a nnn n S YXYX YX yx x=0 x=1 x=2 y=0 y=1 y=2 Koriťáková: Analýza a klasifikace dat 43 Obecné metriky – Tanimotova metrika – příklad Určete hodnoty Tanimotových podobností sTQ(x,x), sTQ(x,y) a sTQ(x,z), když: x = (0, 1, 2, 1, 2, 1)T a y = (1, 0, 2, 1, 0, 1)T a z = (2, 0, 0, 0, 0, 2)T. Ze zadání je množina symbolů F = {0, 1, 2}, k = 3, p = 6. Kontingenční tabulky jsou:            200 030 001 ),( xxA            002 102 100 ),( zxA 1 555 5 ),(   xxTQs 5,0 345 3 ),(   yxTQs 0 125 0 ),(   zxTQs            101 021 010 ),( yxA Koriťáková: Analýza a klasifikace dat 44 • definovány pomocí různých prvků kontingenční matice A(x,y) Další obecné metriky • některé z nich používají pouze počet shodných pozic v obou vektorech (ovšem s nenulovými hodnotami): • některé z nich používají i shodu s nulovými hodnotami: p a S k i ii    1 1 1 ),( yx 00 1 1 2 ),( ap a S k i ii      yx p a S k i ii    1 0 3 ),( yx Koriťáková: Analýza a klasifikace dat 45 Asociační koeficienty A - u obou objektů sledovaný jev nastal (obě odpovídající si proměnné mají hodnotu true, resp.1) – pozitivní shoda; B - u objektu xi jev nastal (xik = true), zatímco u objektu xj nikoliv (xjk = false, resp.0); C - u objektu xi jev nenastal (xik = false), zatímco u objektu xj ano (xjk = true); D - sledovaný jev nenastal ani u jednoho z objektů (obě odpovídající si proměnné mají hodnotu false, resp. 0) – negativní shoda. A D B C Při výpočtu podobnosti dvou objektů sledujeme, kolikrát pro všechny souřadnice obou vektorů xj a xj nastaly případy shody či neshody: • A+D určuje celkový počet shod • B+C celkový počet neshod • A+B+C+D = p (tj. celk. počet souřadnic obou vektorů – tzn. počet proměnných) Koriťáková: Analýza a klasifikace dat 46 Jaccardův – Tanimotův asociační koeficient což je díky zjednodušení i dichotomická varianta metriky podle vztahu: CBA A SJT  ),( yx           1 1 1 1 1 1 ),( k i k i ijyx k i ii TQ ann a S yx Tento vztah se dominantně používá v ekologických studiích. Koriťáková: Analýza a klasifikace dat 47 Další asociační koeficienty I DCBA A SRR  ),( yx dichotomická varianta metriky: p a S k i ii    1 1 1 ),( yx Russelův – Raoův asociační koeficient Sokalův – Michenerův asociační koeficient DCBA DA SSM   ),( yx dichotomická varianta metriky: p a S k i ii    1 0 3 ),( yx Koriťáková: Analýza a klasifikace dat 48 Další asociační koeficienty II Diceův (Czekanowského) asociační koeficient )()( 2 2 2 ),( CABA A CBA A SDC    yx V případě Jaccardova a Diceova koeficientu pokud nastane úplná negativní shoda (tzn. A = B = C =0), pak často: SJT(x,y) = SDC(x,y) = 1. Rogersův – Tanimotův asociační koeficient )()()(2 ),( DCBACB DA CBDA DA SRT      yx Hamanův asociační koeficient DCBA CBDA SHA    )( ),( yx nabývá na rozdíl od všech dříve uvedených koeficientů hodnot z intervalu -1, 1. Hodnoty -1, pokud se příznaky pouze neshodují; hodnoty 0, když je počet shod a neshod v rovnováze; +1 v případě úplné shody všech příznaků Koriťáková: Analýza a klasifikace dat 49 Asociační koeficienty – poznámka Na základě četností A až D lze pro případ binárních příznaků vytvářet i zajímavé vztahy pro již dříve uvedené míry: Hammingova metrika Euklidova metrika Pearsonův korelační koeficient CBDH ),( yx CBDH ),( yx )()()()( ),( DBCADCBA CBDA SPC   yx Koriťáková: Analýza a klasifikace dat 50 Výpočet vzdáleností z asociačních koeficientů Z asociačních koeficientů, které vyjadřují míru podobnosti, lze jednoduše odvodit i míry nepodobnosti (vzdálenosti) pomocí: ),(1),( yxyx XX SD  Koriťáková: Analýza a klasifikace dat 51 Výpočet vzdáleností v Matlabu Funkce: • pdist (vzdálenost mezi páry objektů matice X či páry proměnných matice XT) • pdist2 (vzdálenost mezi maticemi X a Y) Výběr metrik vzdáleností u obou těchto funkcí: • ‘euclidean’ – Euklidova metrika vzdálenosti • ‘squaredeuclidean’ – čtverec Euklidovy metriky vzdálenosti • ‘seuclidean’ – standardizovaná Euklidova metrika vzdálenosti • ‘cityblock’ – Hammingova (manhattanská) metrika vzdálenosti • ‘minkowski’ – Minkovského metrika vzdálenosti • ‘chebychev’ – Čebyševova metrika vzdálenosti • ‘mahalanobis’ – Mahalanobisova metrika vzdálenosti • ‘cosine’ – 1 mínus kosinová podobnost • ‘correlation’ – 1 mínus Pearsonův korelační koeficient • ‘spearman’ – 1 mínus Spearmanův korelační koeficient • ‘hamming’ – Hamminova vzdálenost (pro kvalitativní proměnné) • ‘jaccard’ – 1 mínus Jaccardův koeficient • lze případně nadefinovat i jinou metriku 52 Výpočet vzdáleností v R Funkce dist na výpočet vzdáleností objektů (či subjektů) s výběrem metrik: – „euclidean“ – Euklidovska metrika – „maximum“ – Čebyševova metrika – „manhattan“ – Hammingova (manhattanská) metrika – „canberra“ – Canberrská metrika – „minkowski“ – Minkovského metrika Metriky pro určení vzdálenosti mezi dvěma skupinami objektů 53Koriťáková: Analýza a klasifikace dat 54 • vzdálenost mezi skupinami dána: Vzdálenost mezi skupinami objektů • zavedeme funkci, která ke každé dvojici skupin objektů (Ci, Cj) přiřazuje číslo D(Ci, Cj), které podobně jako míry podobnosti či nepodobnosti (metriky) jednotlivých objektů musí splňovat minimálně podmínky: (S1) D(Ci, Cj)  0 (S2) D(Ci, Cj) = D(Cj, Ci) (S3) D(Ci, Ci) = maxi,jD(Ci, Cj) (pro míry podobnosti) (S3’) D(Ci, Ci) = 0 pro všechna i (pro míry vzdálenosti) – „vzdáleností“ jednoho objektu s jedním či více objekty jedné skupiny (třídy) – použitelné při klasifikaci – „vzdáleností“ skupin (třídy, shluku) objektů či „vzdáleností“ jednoho objektu z každé skupiny – použitelné při shlukování Koriťáková: Analýza a klasifikace dat Typy metrik a konkrétní příklady 55 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., RusselůvRaovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda MEZI DVĚMA SKUPINAMI OBJEKTŮ Koriťáková: Analýza a klasifikace dat Nejpoužívanější metriky pro určení vzdálenosti mezi dvěma množinami objektů 56Koriťáková: Analýza a klasifikace dat • Metoda nejbližšího souseda • Metoda k nejbližších sousedů • Metoda nejvzdálenějšího souseda • Metoda průměrné vazby • Wardova metoda 57 Metoda nejbližšího souseda • výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení - citlivé na odlehlé hodnoty - zpravidla nevhodné při nevyvážených počtech objektů ve skupinách • je-li d libovolná míra nepodobnosti (vzdálenosti) dvou objektů a 𝜔𝑖 a 𝜔𝑗 jsou libovolné skupiny objektů, potom metoda nejbližšího souseda definuje mezi skupinami 𝜔𝑖 a 𝜔𝑗 vzdálenost ),(min),( qp x x jiNN xxdD jq ip       pacienti kontroly testovací subjekt x1 x2 → testovací subjekt zařadíme do třídy, ze které je jeho nejbližší soused Koriťáková: Analýza a klasifikace dat 58 Metoda k nejbližších sousedů 58 • zobecněním metody nebližšího souseda • definována vztahem tzn. vzdálenost dvou shluků je definována součtem nejkratších vzdáleností mezi objekty obou skupin pacienti kontroly testovací subjekt x1 x2 ,),(min),(     k qp x x jiNNk xxdD jq ip    • výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení + méně citlivé na odlehlé hodnoty - zpravidla nevhodné při nevyvážených počtech objektů ve skupinách → testovací subjekt zařadíme do třídy, která převažuje mezi jeho k nejbližšími sousedy Koriťáková: Analýza a klasifikace dat 59 • opačný princip než metoda nejbližšího souseda: • pozn.: pro klasifikaci je obtížně použitelná • pozn. 2: je možné zobecnění i pro více nejvzdálenějších sousedů Metoda nejvzdálenějšího souseda Koriťáková: Analýza a klasifikace dat )x,x(dmax),(D qp x x iiFN jq ip C C CC    ,)x,x(dmax),(D k qp x x iiFNk jq ip     C C CC 60 • vychází z výpočtu centroidů pro jednotlivé skupiny • při klasifikaci: zařazení objektu do skupiny s nejbližším centroidem Centroidová metoda pacienti kontroly testovací subjekt x1 x2 centroid pacientů centroid kontrol • výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení (pokud je však centroid počítán jako vícerozměrný průměr, může nenormalita působit trochu problémy) + méně citlivé na odlehlé hodnoty než metoda nejbližšího souseda + nebývá problém při nevyvážených počtech objektů ve skupinách Koriťáková: Analýza a klasifikace dat 61 • vzdálenost dvou tříd je průměrná vzdálenost mezi všemi objekty těchto tříd • při klasifikaci: zařazení subjektu do skupiny s nejmenší průměrnou vzdálenosti od všech objektů dané skupiny Metoda průměrné vazby pacienti kontroly testovací subjekt x1 x2 • výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení + méně citlivé na odlehlé hodnoty než metoda nejbližšího souseda + nebývá problém při nevyvážených počtech objektů ve skupinách - časově náročnější než centroidová metoda při větším počtu objektů Koriťáková: Analýza a klasifikace dat 62 • vzdálenost mezi třídami (shluky) je definována přírůstkem součtu čtverců odchylek mezi těžištěm a objekty shluku vytvořeného z obou uvažovaných shluků Ci a Cj oproti součtu čtverců odchylek mezi objekty a těžišti v obou shlucích Ci a Cj. • pozn. (při použití Wardovy metody pro shlukování): Metoda má tendenci vytvářet shluky zhruba stejné velikosti, tedy odstraňovat shluky malé, resp. velké. • pozn. 2: pro klasifikaci se používá zřídka Wardova metoda Koriťáková: Analýza a klasifikace dat 63 Bylo provedeno měření objemu hipokampu a mozkových komor (v cm3) u 3 pacientů se schizofrenií a 3 kontrol: 𝐗 𝐷 = 2 12 4 10 3 8 , 𝐗 𝐻 = 5 7 3 9 4 5 . Určete, zda testovací subjekt 𝐱 = 3,5 9 patří do skupiny pacientů či kontrolních subjektů pomocí různých metod klasifikace podle minimální vzdálenosti. Příklad 2 Koriťáková: Analýza a klasifikace dat pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu Objemmozkovýchkomor Typy metrik a konkrétní příklady 64 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., RusselůvRaovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda MEZI DVĚMA SKUPINAMI OBJEKTŮ Koriťáková: Analýza a klasifikace dat Metriky založené na pstních charakteristikách 65 Klasifikační třídy (množiny objektů se společnými charakteristikami) nemusí být definovány jen výčtem objektů, ale i vymezením obecnějších vlastností: • definicí hranic oddělujících část obrazového prostoru náležející dané klasifikační třídě • diskriminační funkcí • pravděpodobnostními charakteristikami výskytu objektů v dané třídě • atd. Koriťáková: Analýza a klasifikace dat Metriky založené na pstních charakteristikách 66 Základní myšlenkou je využití pravděpodobnosti způsobené chyby při klasifikaci (tzn. zařazení objektu do skupiny). Čím více se hustoty pravděpodobnosti výskytu objektů x v jednotlivých množinách překrývají, tím je větší pravděpodobnost chyby. Tzn. tyto metriky splňují následující vlastnosti: 3. J nabývá maxima, pokud jsou obě množiny disjunktní, tj. když 1. J = 0, pokud jsou hustoty pravděpodobnosti obou množin identické, tj. když p(x|1) = p(x|2) 2. J > 0     0)ω()ω( 2 xxx 1 dpp x1 f(x1) x1 x2 x1 f(x1) x1 f(x1) x1 x2 x1 x2 (Jak vidíme, není mezi vlastnostmi pravděpodobnostních metrik uvedena trojúhelníková nerovnost, jejíž splnění by se zajišťovalo obtížně.) Koriťáková: Analýza a klasifikace dat Typy metrik a konkrétní příklady 67 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., RusselůvRaovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda MEZI DVĚMA SKUPINAMI OBJEKTŮ Koriťáková: Analýza a klasifikace dat 68Koriťáková: Analýza a klasifikace dat Příprava nových učebních materiálů pro obor Matematická biologie je podporována projektem OPVK č. CZ.1.07/2.2.00/28.0043 „Interdisciplinární rozvoj studijního oboru Matematická biologie“