IV1O7 Bioinformatika I -Prednaška 11 Shluková analýza PCA - Principál component analysis LDA - Linear Discriminant Analysis Baýesova teorie priste Zkouška Katedra informaccních technologií Masarykova Univerzita Brno Jaro 2O11 Předchozí týden IV107 Bioinformatika I -Přednáška 11 Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Bayesova teorie Algoritmy v bioinformatice Zkouška ► Vyhledávání v řetězcích - Boyer-Moore - pomocí konečného automatu - suffixové stromy - suffixové pole ► Tandemové opakování ► Palindromy ► DP - varianty algoritmu Needleman-Wunsch Statistické učení a klasifikace IV107 Bioinformatika I -Přednáška 11 Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Bayesova teorie Statistika více proměnných, ale na rozdíl např. od analýzy rozptylu a regresní analýzy pozorované proměnné nejsou spojité. Data patří do diskrétních tříd. ► Shlukování ► Diskriminační analýza ► Rozhodovací stromy ► Umělé neuronové sítě ► SVM Outline IV107 Bioinformatika I -Prednaška 11 Shluková analýza Shluková analýza PCA - Principál component analysis LDA - Linear Discriminant Analysis Baýesova teorie Příste Zkouška LD ilýšiš irie ŕka B Shlukování IV107 Bioinformátiká I -Přednáška 11 Shluková ánályzá PCA - Principál component ánálysis LDA - Lineár Discriminánt Análysis Báyesová teorie PFíste Zkouěká Rozdělení dát do skupin podle spoleCnych vlástností, resp. blízkosti v nejákem prostoru Typy shlukování IV107 Bioinformatika I -Přednáška 11 Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Bayesova teorie Příště Zkouška ► Hierarchické - zespodu - shora ► Nehierarchické (např. centroidní "k-means") Typy shlukování - podle vzdálenostní funkce Lp-normy (D = (dxP + dyP)VP) ► Manhattan (D = dx + ďy) ► euklidovská (D = ^/cfee2 + dy2) Čebyševova (D = max(dx, dy)) vektorový součin (D = X.Y) korelační koeficient editační ► Levinshtein ► Hamming IV107 Bioinformatika I -Přednáška 11 Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Bayesova teorie Příště Zkouška Data můžou být definovana vlastnostmi (souradnice) IV107 Bioinformatika I -Prednaska 11 Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Bayesova teorie Příste Zkouška A = (3,1,"white") B = (4,1,"blue") C = (3,2,"white") D = (3,0,"red") Data můZou být definovana pomocí parove vzdálenosti IV107 Bioinformatika I -Prednaska 11 Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Bayesova teorie Příste Zkouška A B C D AO B 3 0 C24O D 3 l 2 O Vzdálenostní matice Typy shlukování - podle určování vzdálenosti ► nejbližší soused ► nejvzdálenější soused ► centroidní ► párová (podobné centroidnímu, když centroid nelze spočítat) IV107 Bioinformatika I -Přednáška 11 Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Bayesova teorie Příště Zkouška Hierarchické aglomerativní shlukování IV107 Bioinformatika I -PrednáSka 11 Shlukova analýza PCA - Principal component analýsis LDA - Linear Discriminant Analýsis Baýesova teorie PFíste Nehierarchicke centroidní shlukovaní IV107 Bioinformatika I -PrednaSka 11 Aplikace shlukování v bioinformatice IV107 Bioinformatika I -Přednáška 11 Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Bayesova teorie Příště Zkouška ► expresní profily genů ► sekvence genů/proteinů ► proteiny podle schopnosti interakce ► struktury proteinů (CATH) ► segmentace Shlukování genů podle expresních profilů IV107 Bioinformátiká I -PrednáSká 11 Shlukování genů podle expresních profilů vede ke skupinám s podobnou funkcí. Podobných výsledků lze dosáhnout použitím informací o interakcích mezi proteiný IV107 Bioinformatika I -Přednáška 11 Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Bayesova teorie Příště Zkouška Outline IV107 Bioinformatika I -Prednaška 11 Shluková analýza PCA - Principal component analysis Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Bayesova teorie Příste Zkouška LD ilyšiš irie ŕka B PCA IV107 Bioinformatika I -Přednáška 11 Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Baýesova teorie priste Zkouška Transformuje data do nového ortogonálního souřadnicového systému tak, že osi nejnižSího rádu pokrývají nejvétsí Cast variability dat. Transformace souřadnicové soustavy v PCA y IV107 Bioinformatika I -PrednaSka 11 Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Bayesova teorie Přísté Zkouška Outline IV107 Bioinformatika I -Prednaška 11 Shlukova analýza Shlukova analýza PCA - Principal component analýšiš LDA - Linear Dišcriminant Analýšiš Baýešova teorie Pŕíšte Zkouška LDA - Linear Dišcriminant Analýšiš irie ŕka B LDA IV107 Bioinformatika I -Přednáška 11 Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Baýesova teorie Pnšte Zkouška Nalezne linearní transformaci jednotlivých parametru, ktera poskytuje nejlepší separaci do tříd. LDA najde linearní kombinaci vlastností, podle ktere lze nejlepe data klasifikovat IV107 Bioinformatika I -Prednaska 11 Shlukova analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Baýesova teorie Príste Zkouška Outline IV107 Bioinformatika I -Prednaška 11 Shlukova analýza Shlukova analýza PCA - Principal component analýšiš LDA - Linear Dišcriminant Analýšiš Baýešova teorie Pŕíšte Zkouška LD ilýšiš Baýešova teorie ŕka Bayesova veta IV107 Bioinformatika I -PŕednaSka 11 P (A\B) Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Baýesova teorie Příste Zkouška P(B\A)P(A) P(6) _ Lze odvodit ze vztahu P(X\Y) = p^y) V případě aplikace v klasifikaci a statistickém učení budou A rUzné hypotézy o přísluSnosti dat k určité třídě. B budou pozorované parametry. Příklad klasifikace s použitím Bayesovy teorie IV107 Bioinformatika I -PřednaSka 11 Shluková analýza PCA - Principal component analysis LDA - Linear Discriminant Analysis Bayesova teorie PŕíSte Zkouška Hypotéza 1) bydlí na západě 2) bydlí na východě USA Experiment: zavolám náhodné zvolenému aměricanovi a zěptám se koho volil, republikany (modre) nebo demokraty (Červené). Vysledek: podle odpovedi se zmení = -O a. O Outline IV107 Bioinformatika I -Prednaška 11 Shlukova analýza Shlukova analýza PCA - Principal component analýšiš LDA - Linear Dišcriminant Analýšiš Baýešova teorie Pŕíšte Zkouška LD ilýšiš irie Pšíšte Zkouška B Příště IV107 Bioinformatika I Přednáška 11 Shluková analýza PCA - Principal componěnt analýšiš LDA - Liněar Dišcriminant Analýšiš Baýěšova těoriě Příště Zkouška Zkouška A107 30.5.2008 14:00 13.6.2008 16:00 20.6.2008 14:00 28.6.2008 10:00 opravný □ 3 - - -1 = -OQ.O Outline IV107 Bioinformatika I -Přednáška 11 Dodatek For Further Reading Dodatek For Further Reading IV107 Bioinformatika I -Prednaska 11 Dodatek For Further Reading X