Předpovídání skupin (class prediction) Výuka IBA Společná schéma analýzy dat Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Kontrola kvality Normalizace Sumarizace Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Design experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Tradiční schéma analýzy • Učení s učitelem (supervised learning) • V tomto případě zobecňujeme známou strukturu dat na nové data • Porovnávání skupin (class comparison) • hledáme rozdíly v expresi, počtu kopií genů nebo abundanci proteinů mezi již definovanými skupinami • Předpovídání skupin (class prediction) • na známých skupinách se snažíme vytvořit klasifikátor, který by dokázal zařadit nového pacienta do jedné ze skupin • Učení bez učitele (unsupervised learning) • V tomto případe struktura v datech není známá a musíme ji objevit • Objevování skupin (class discovery) • na základě informací o genech/proteinech hledáme nové skupiny • onemocnění X je velmi heterogenní a snažíme se identifikovat specifičtější podtypy, které by mohli být cílem cílené terapie Společné znaky analýzy dat • Velké množství proměnných • Malé množství vzorků • Proměnné jsou často korelované, s velmi komplexními vztahy • Data obsahují množství šumu – biologická i technická variabilita Předpovídání skupin AML ALL ? • V tomto typu analýzy se snažíme předpovědět příslušnost k jedné ze známých skupin na základě jejich genomického nebo proteomického profilu • Například předpovídáme: • typ diagnózy • odpověď na terapii • přežití pacienta • Cílem je vytvořit klasifikační pravidlo (soubor pravidel), které toto umožní • Vytvoření klasifikátoru může sloužit jako nástroj pro selekci genů, které významně diskriminují mezi skupinami • Shlukování s učitelem (supervised clustering) • Regresní metody Princip 1. Výběr proměnných pro klasifikaci • Vybíráme geny nebo proteiny, které se v klasifikátoru použijí 2. Trénování • Na trénovacích datech vytvoříme klasifikační pravidlo (klasifikátor, model) 3. Testování • Vytvořený klasifikátor se otestuje na testovacích datech • K odhadnutí výkonnosti (přesnosti) klasifikátoru a optimalizaci parametrů Výběr proměnných I. • Důvody k redukci dimenzionality dat: • Ze statistického hlediska Eliminace tisíců nerelevantních genů významně ovlivní komplexitu vybraného klasifikátoru, stane se robustnější. • Z biologického hlediska Výběr vhodných genů/proteinů silně korelovaných s danou skupinou pomůže pochopit mechanismus jejich působení. • Z praktického hlediska Čím méně genů potřebujeme pro predikci, tím snadnější je uplatnení klasifikátoru v praxi. Výběr proměnných II. • U genomických a proteomických dat je výběr proměnných trochu problematický, protože geny jsou velmi korelované • Výběr jednoho reprezentanta je víceméně náhodný • Malé změny v trénovacích datech, případně aplikace jiného klasifikátoru může vyústit do úplně jiné selekce genů To je v pořádku, ale pozor na interpretaci! • Při interpretaci je třeba brát na zřetel, že se jedná pouze o podskupinu genů • Biologické závěry o podskupinách vzorků by měly být založené na studiu celé množiny významných genů Příklad Výběr proměnných III. • Dva základní typy metod výběru proměnných: • Filtrace • Na základě variability proměnných • Na základě diskriminační schopnosti jednotlivých proměnných (odlišně exprimované geny, prognostické geny,…) • Wrapper metody • Vybírají se přímo skupiny genů, na kterých se vybuduje klasifikátor, jehož výkon se následně otestuje • Forward sequential selection: geny jsou postupně vybrané na základě informace, kterou přispívají k diskriminaci • Backward selection začíná s celou množinou a postupně odstraňuje ty, které nepřispívají k diskriminaci (vzhledem k ostatním genům) • Tento přístup je výpočtově náročný, protože nemůžeme otestovat všechny možné podskupiny • Můžou být velmi nestabilní, výběr i-tého genu je velmi závislý na podmnožině už vybraných genů Metody klasifikace vzorků I. Black-box metody •Často používají celý datový soubor použitý na trénování •Obvykle nejsou jednoduše interpretovatelné •K-nejbližších sousedů •Support vector machines •Neuronové sítě Metody klasifikace vzorků II. Metody vytvářející klasifikační pravidla •Více intuitivní, jednoduše použitelné v praxi •Dostáváme přímo skupinu důležitých parametrů, připadně jasně interpretovatelné klasifikační pravidlo •Regresní modely •Bayesovský klasifikátor •Fisherova diskriminační analýza •Klasifikační stromy a lesy •Top Scoring Pairs •AdaBoost,… Gene 356 ALL Gene 3850 >2.5<=2.5 ALL AML <-1.5>= -1.5 Odhad výkonnosti • Výkonnost každého klasifikátoru musí být otestovaná na jiném validačním souboru Proč odhadovat výkonnost klasifikátoru? • Omezení trénovacím souborem • Bez předpokladu o rozložení neexistuje žádný vzorec pro výpočet • Často existuje jen jeden datový soubor pro trénování a testování klasifikátoru • Odhad výkonnosti klasifikátoru na trénovacích datech je optimisticky zkreslený Odhad výkonnosti Základní myšlenka: Převzorkováním rozdělit (opakovaně) datový soubor na trénovací a testovací, vytvořit klasifikátor na trénovacím souboru a změřit výkonnost klasifikátoru jen na datech, které nebyly použity pro jeho vytvoření. UPOZORNĚNÍ: Všechny kroky, které závisí na převzorkování a které vedou k finálnímu modelu musí být zopakované identicky na každém rozdělení na trénovací a testovací soubor. Patří sem například výběr proměnných, trénovaní klasifikátoru, optimalizace parametrů,... Trénovací soubor Testovací soubor Původní souborZde klasifikátor vytváříme Zde klasifikátor testujeme Odhad výkonnosti II. • Každé dva trénovací soubory vytvořené z původního datového souoboru s pomocí převzorkování se do jisté míry překrývají -> vytvořené klasifikátory tedy nejsou úplně nezávislé • Variabilita je obvykle podhodnocená Převzorkovací metody • Jednoduché rozdělení na dva soubory • k-násobná křížová validace (k-fold cross validation) • Opakovaná k-násobná křížová validace • Monte-Carlo křížová validace • Leave-one-out křížová validace (n-násobná křížová validace, kde n je počet vzorků) • Bootstraping Krížová validace • Oddělený trénovací a testovací soubor • Náhodné rozdělení dat do k podmnožin • Vytvoření klasifikátoru na k-1 množinách a otestování na zůstávající • Každá podmnožina je jednou testovací • Obvykle k=5 nebo k=10 (pokud se k=počtu vzorků, pak se jedná o leave-one-out odhad) • Opakovaná křížová validace – ještě lepší odhad Train TestTrainStep 1. Test TrainTrainStep 2. Train TrainTestStep 3. k=3 Bootstrapping Odhad výkonnosti III • Zjistíme očekávanou výkonnost klasifikátoru na validačním souboru • Můžeme identifikovat nejstabilnější proměnné (geny/proteiny) • Které vzorky jsou stále špatné klasifikované (pokud takové jsou, naznačuje to odlehlé hodnoty) Standardy pro mikročipy Standardy pro mikročipy II Na k-1 fold datech výběr modelu (typ nebo parametrů) – opakuje se pro každý model (sadu parametrů modelu) Nejlepší model bude jiný v každé externí CV Znovu se opakuje interní krosvalidace na novém rozdělení k-fold (zde je k jiné číslo než v externí CV) Statistika performance vybraných modelů v k-fold externí CV Validace • Vždy na nezávislém datovém souboru • Velmi důležitá pro otestování skutečné robustnosti klasifikátoru • Absolutně nevyhnutné v medicíně • Testovací soubor by měl splňovat následující vlastnosti: • Musí obsahovat parametry použité v klasifikátoru • Musí být známá příslušnost vzorků ke skupinám, které se klasifikátor snaží diskriminovat • Podobná struktura s ohledem na klinické a patologické parametry (např. stejné rozložení věku, zastoupení pohlaví apod.) Design experimentu je důležitý! • Myslete na dostatečně velký trénovací i testovací datový soubor! Příklad: 5 podtypů karcinomu prsu – 96 vzorků (N1=48, N2=16, N3=8, N4=8, N5=16) • Datové soubory musí reprezentovat populaci, na které budete klasifikátor používat Trénovací soubor Testovací soubor Málo vzorků ve skupině, nemožnost tuningu, malá variabilita -> přetrénování => nefunguje na testovacím souboru. Stačí jeden špatně klasifikovaný vzorek a výrazně se sníží výkonnost! Shrnutí • Je užitečné vybrat proměnné před aplikováním klasifikátoru • Je lepší používat jednoduché klasifikátory • Odhadujte výkonnost klasifikátoru a optimalizujte parametry na trénovacím souboru • Vždy klasifikátor validujte na úplně jiném datovém souboru