Vícerozměrné statistické metody  Smysl a cíle vícerozměrné analýzy dat a modelování, vztah  jednorozměrných a vícerozměrných statistických metod Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody  Smysl a cíle vícerozměrné analýzy dat Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Význam a cíle vícerozměrné analýzy dat • většina dat pořízených při výzkumu jsou data vícerozměrná – chceme zjistit celou  řadu vlastností daných subjektů či objektů 3 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 … PROMĚNNÉ (VLASTNOSTI) SUBJEKTY • zpravidla nestačí analyzovat každou proměnnou zvlášť – pro úplně pochopení vztahů většinou potřeba analyzovat proměnné současně → použití VÍCEROZMĚRNÝCH METOD Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  • vícerozměrné metody umožňují: – znázornit a popsat vícerozměrná data – zjišťovat vztahy mezi jednotlivými proměnnými a mezi subjekty (resp. objekty) 4 Význam a cíle vícerozměrné analýzy dat II • mnoho způsobů dělení vícerozměrných metod do skupin – např. dělení podle cíle, kterého chceme vícerozměrnou analýzou dosáhnout: 1. Testování hypotéz o vícerozměrných datech 2. Vytvoření shluků subjektů, objektů nebo proměnných  3. Redukce vícerozměrných dat 4. Klasifikace subjektů či objektů 5. Predikce spojitých hodnot Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Příklady: • ověření, zda má vliv pohlaví a typ léku na počet uzdravených pacientů s daným  onemocněním • výzkum vztahu typu onemocnění na objem hipokampu,  amygdaly a mozkových komor • zjištění, zda je rozdílná spotřeba elektrické energie ve městech a na vesnicích během  týdne a o víkendu 5 Hippocampus_volume(mm3) Gender: M Gender: F CN MCI AD 5600 5800 6000 6200 6400 6600 6800 7000 7200 7400 7600 Cíle vícerozměrné analýzy dat 1. Testování hypotéz o vícerozměrných datech Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Příklady: • vytvoření skupin diagnóz onemocnění s podobnými léčebnými náklady • vytvoření skupin lokalit podle výskytu určitých druhů rostlin a živočichů • vytvoření skupin genů a subjektů na základě dat genové exprese • vytvoření skupin subjektů se schizofrenií podle kognitivních skóre a  neurologických parametrů 6 Cíle vícerozměrné analýzy dat 2. Vytvoření shluků subjektů, objektů nebo proměnných  Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Cíle vícerozměrné analýzy dat 3. Redukce vícerozměrných dat Příklady: • vytvoření souhrnného skóre odpovědi pacientů na radioterapii z původních  několika proměnných • vytvoření menšího počtu nových proměnných z původních dat, které nám umožní  znázornit vícerozměrná data ve 2‐D či 3‐D grafech • výběr oblastí mozku, které nejvíce odlišují pacienty s neuropsychiatrickým  onemocněním od zdravých subjektů 7 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Cíle vícerozměrné analýzy dat 4. Klasifikace subjektů či objektů Příklady: • zjištění (diagnostika) schizofrenie na základě kognitivních testů • rozhodnutí, zda banka poskytne či neposkytne hypotéku danému subjektu na  základě jeho příjmů, rodinné situace atd. • diagnostika demence (tzn. zařazení nového subjektu do skupiny pacientů či  kontrol) podle obrázku mozku 8 Pacienti Zdravé  subjekty Nový subjekt Pacient? x Zdravý? Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  • Obecným cílem je snaha vysvětlit  variabilitu predikované  proměnné (endpoint, Y) pomocí  prediktorů (vysvětlující  proměnná, faktor, X) • Jak predikovaná proměnná, tak  prediktor mohou být různého  typu – Binární  – Kategoriální – Ordinální – Spojitá – Cenzorovaná (‐> analýza přežití) • Kombinace datového typu  predikované proměnné a  prediktoru určuje použitou  metodu analýzy 9 4 4 .5 5 5 .5 6 6 .5 7 7 .5 8 8 .5 Proč variabilita ? 4 4 .5 5 5 .5 6 6 .5 7 7 .5 8 8 .5 Vysvětluje kategoriální  prediktor? 0 0 .2 0 .4 0 .6 0 .8 1 1 .2 1 .4 1 .6 1 .8 2 2 .2 2 .4 2 .6 4 4 .5 5 5 .5 6 6 .5 7 7 .5 8 8 .5 Vysvětluje spojitý  prediktor? Cíle vícerozměrné analýzy dat 5. Predikce spojitých hodnot Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Cíle vícerozměrné analýzy dat ‐ doplnění • Každý objekt reálného světa můžeme popsat  jeho pozicí v mnohorozměrném prostoru,  v extrémním případě jde až o desetitisíce  dimenzí  • Více než 3D prostor je pro nás vizuálně  neuchopitelný a hledání vztahů ve více než 3  dimenzích je problematické  • Vícerozměrná analýza se tento problém snaží  řešit různými přístupy: – Redukce dimenzionality dat „sloučením“  korelovaných proměnných do menšího počtu  „faktorových“ proměnných  – Identifikace shluků objektů ve vícerozměrném  prostoru a následná redukce  vícedimenzionálního problému kategorizací  objektů do zjištěných shluků 10 Zjednodušení Interpretace  Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Příklad vícerozměrného popisu objektů 11 Dimenze 1 Dimenze 2 Dimenze 3 Dimenze 4 ID objektu SEPALLEN SEPALWID PETALLEN PETALWID SETOSA 5.0 3.3 1.4 0.2 VIRGINIC 6.4 2.8 5.6 2.2 VERSICOL 6.5 2.8 4.6 1.5 VIRGINIC 6.7 3.1 5.6 2.4 VIRGINIC 6.3 2.8 5.1 1.5 SETOSA 4.6 3.4 1.4 0.3 VIRGINIC 6.9 3.1 5.1 2.3 VERSICOL 6.2 2.2 4.5 1.5 VERSICOL 5.9 3.2 4.8 1.8 SETOSA 4.6 3.6 1.0 0.2 … … … … SEPALLEN SEPALWID PETALLEN PETALWID Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Vícerozměrná analýza dat = pohled ze správného úhlu • Vícerozměrná analýza nám pomáhá nalézt v x‐dimenzionálním prostoru  nejvhodnější pohled na data poskytující maximum informací o analyzovaných  objektech 12 Všechny obrázky ukazují stejný objekt z různých úhlů v 3D prostoru. Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Obecný princip redukce dimenzionality dat • V převážné většině případů existují mezi dimenzemi korelační vztahy, tedy dimenze  se navzájem vysvětlují a pro popis kompletní informace v datech není třeba všech  dimenzí vstupního souboru • Všechny tzv. ordinační metody využívají principu identifikace korelovaných dimenzí  a jejich sloučení do souhrnných nových dimenzí zastupujících několik dimenzí  vstupního souboru • Pokud mezi dimenzemi vstupního souboru neexistují korelace, nemá smysl hledat  zjednodušení vícerozměrné struktury takovéhoto souboru !!! 13 Jednoznačný vztah dimenzí x a y umožňuje  jejich nahrazení jedinou novou dimenzí z  x y z x y ? ? ? ? ?? ? ? V případě neexistence vztahu mezi x a y nemá  smysl definovat nové dimenze – nepřináší  žádnou novou informaci oproti x a y Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Obecný princip hledání shluků v datech • Vzájemnou pozici objektů ve vícerozměrném prostoru lze popsat jejich vzdáleností • Dle vzdálenosti objektů je můžeme slučovat do shluků a přiřazení  objektů ke  shlukům ve vícerozměrném prostoru následně využít pro zjednodušení jejich x‐ dimenzionálního popisu  • Smysluplnost výsledků shlukování závisí jednak na objektivní existenci shluků v  datech, jednak na arbitrárně nastavených kritériích definice shluků  14 Jednoznačné odlišení existujících  shluků v datech (obdoba  multimodálního rozložení) Shluková analýza je možná i v tomto  případě, nicméně hranice shluků jsou  dány pouze naším rozhodnutím. Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Omezení vícerozměrné analýzy dat • Vícerozměrná analýza může přinést zjednodušení dimenzionality dat pouze v případě, kdy data  skrývají nějakou identifikovatelnou vícerozměrnou strukturu  – Mezi dimenzemi existují vztahy (korelace) umožňující nahrazení korelovaných dimenzí zástupnou  souhrnnou dimenzí – Objekty vytváří v x‐dimenzionálním prostoru shluky nebo jiné nenáhodné struktury • Pro náhodně rozmístěné objekty bez korelací mezi dimenzemi jejich x‐dimenzionálního prostoru  nepřináší vícerozměrná analýza žádné nové informace oproti původním dimenzím • Důležitý je poměr počtu objektů (řádky tabulky) a dimenzí (sloupce tabulky). Čím je tento poměr  menší tím větší je šance, že výsledky analýzy jsou ovlivněny náhodnými procesy.  Za minimální  poměr pro získání validních výsledků je považováno 10 objektů na 1 dimenzi.  • Pro vícerozměrné analýzy platí obdobné předpoklady jako pro jednorozměrnou statistickou analýzu;  vzhledem k jejich možnému porušení na úrovni kombinace několika dimenzí  je tyto předpoklady  třeba kontrolovat ještě pečlivěji než u jednorozměrné analýzy  • Kromě klasických statistických předpokladů je při vícerozměrných analýzách třeba věnovat  pozornost výběru metrik vzdáleností mezi objekty (klíčové ovlivnění interpretace výsledků) a jejich  předpokladům  • Pokud výsledky vícerozměrné analýzy nejsou interpretovatelné je třeba zvážit, zda použití  vícerozměrné analýzy přináší oproti sadě jednorozměrných analýz nějakou přidanou hodnotou • Využitelná vícerozměrná analýza by měla být: – Vybrána vhodná metoda pro řešení daného problému – korektně spočítána za dodržení všech předpokladů  – Interpretovatelná a přinášející novou informaci oproti analýze původních dimenzí  15 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Korelace jako princip výpočtu vícerozměrných analýz • Kovariance a Pearsonova korelace je základem analýzy hlavních komponent,  faktorové analýzy jakož i dalších vícerozměrných analýz pracujících s lineární  závislostí proměnných • Předpokladem výpočtu kovariance a Pearsonovy korelace je: – Normalita dat v obou dimenzích  – Linearita vztahu proměnných • Pro vícerozměrné analýzy je nejzávažnějším problémem přítomnost odlehlých  hodnot 16 x y x y x y Lineární vztah – bezproblémové použití  Personovy korelace Korelace je dána dvěma skupinami  hodnot – vede k identifikaci skupin  objektů v datech Korelace je dána odlehlou  hodnotu – analýza popisuje  pouze vliv odlehlé hodnoty  Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Analýza kontingenčních tabule jako princip výpočtu  vícerozměrných analýz • Abundance taxonů (nebo počet jakýchkoliv objektů) na lokalitách lze brát jako  kontingenční tabulku a mírou vztahu mezi řádky (lokality) a sloupci (taxony) je  velikost chi‐kvadrátu 17  2 )1( pozorovaná četnost očekávaná četnost očekávaná četnost= 2 ‐ Počítáno pro  každou buňku  tabulky   A 10 0 B 0 10 Pozorovaná tabulka   A 5 5 B 5 5 Očekávaná tabulka Hodnota chi‐kvadrátu definuje míru odchylky dané buňky (v našem kontextu vztahu  taxon‐lokalita) od situace, kdy mezi řádky a sloupci (taxon‐lokalita) není žádný vztah Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Euklidovská vzdálenost jako princip výpočtu  vícerozměrných analýz • Nejsnáze představitelným měřítkem vztahu dvou objektů ve vícerozměrném  prostoru je jejich vzdálenost • Nejjednodušším typem této vzdálenosti (bohužel s omezeným použitím na data  společenstev) je Euklidovská vzdálenost vycházející z Pythagorovy věty 18 a b c y11 y12 y21 y22 2 211211 )(),( jj p j yyxxD   X1 X2 • vytváření shluků objektů na základě  jejich podobnosti • identifikace typů objektů • Na základě vícerozměrné  kombinace prediktorů zařazujeme  objekty do skupin (klasifikace) nebo  predikujeme spojitou proměnnou  (predikce) • zjednodušení vícerozměrného  problému do menšího počtu  rozměrů • principem je tvorba nových  rozměrů, které lépe vyčerpávají  variabilitu dat SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY Základní typy vícerozměrných analýz   KLASIFIKACE / PREDIKCE Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Typy vícerozměrných analýz 20 Diskriminační prostor y x SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY x y Faktorové osy y x podobnost KLASIFIKACE / PREDIKCE Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Pojmy vícerozměrných analýz  21 • Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena  jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a  každý z těchto parametrů můžeme považovat za jeden rozměr objektu. • Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice  tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. • NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do  vícerozměrných analýz.  • Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další  výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď  objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité  metody a typu dat, některé metody umožňují použití uživatelských metrik.  Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Vstupní matice vícerozměrných analýz  22 Hodnoty parametrů pro jednotlivé objekty NxP MATICE ASOCIAČNÍ MATICE Korelace, kovariance, vzdálenost, podobnost Výpočet metriky  podobností/ vzdáleností Vícerozměrné statistické metody  Jednorozměrná  statistická analýza jako předpoklad vícerozměrné  analýzy dat  Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Význam statistické analýzy dat • Výzkum na základě sběru dat je naším způsobem porozumění realitě • Ale jak přesné a pravdivé je naše porozumění?  24 Statistika je jedním z  nástrojů vnášejících do  našich výsledků určitou  spolehlivost. Statistiku můžeme  považovat za ekvivalent k  mikroskopu či jinému  laboratornímu nástroji Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Variabilita jako základní pojem ve statistice • Naše realita je variabilní a statistika je vědou zabývající se variabilitou  • Korektní analýza variabilita a její pochopení přináší užitečné informace o naší  realitě • V případě deterministického světa by statistická analýza nebyla potřebná 25 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Práce s variabilitou v analýze dat • V analýze dat existují dva hlavní přístupy k práci s variabilitou 26 Variabilita  dat Popisná analýza: charakterizace variability Testování hypotéz: vysvětlení  variability ? Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Co může statistika říci o naší realitě?  • Statistika není schopna činit  závěry o jevech  neobsažených v našem  vzorku. • Statistika je nasazena v  procesu získání informací z  vzorkovaných dat a je  podporou v získání naší  znalosti a pochopení  problému. • Statistika není náhradou  naší inteligence !!! 27 Možnosti Realita Vzorek Data Informace Znalost Pochopení Statistika Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Statistika a zobecnění výsledků • Cílem analýzy není pouhý popis  a analýza vzorku, ale zobecnění  výsledků ze vzorku na jeho  cílovou populaci  • Pokud vzorek nereprezentuje  cílovou populaci, vede  zobecnění k chybným závěrům 28 Neznámá  cílová populace Vzorek Analýza Díky zobecnění výsledků  známe vlastnosti cílové  populace Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Vzorkování a jeho význam ve statistice • Statistika hovoří o realitě prostřednictvím vzorku!!! • Statistické předpoklady korektního vzorkování je  nutné dodržet • Náhodný výběr z cílové populace • Representativnost: struktura vzorku musí  maximálně reflektovat realitu • Nezávislost: několikanásobné vzorkování téhož  objektu nepřináší ze statistického hlediska žádnou  novou informaci 29 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Velikost vzorku a přesnost statistických výstupů • Existuje skutečné rozložení a skutečný  průměr měřené proměnné • Z jednoho měření nezjistíme nic  • Vzorek určité velikosti poskytuje odhad  reálné hodnoty s definovanou spolehlivostí • Vzorkování všech existujících objektů  poskytne skutečnou hodnotu dané popisné  statistiky, nicméně tento přístup je ve  většině případech nereálný.  30 ??? Odhad  průměru atd. Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Předpoklady statistické analýzy • WWW.WIKIPEDIA.ORG: – Statistika je matematickou vědou zabývající se shromážděním,  analýzou, interpretací, vysvětlením a prezentací dat. Může být  aplikována v širokém spektru vědeckých disciplín od přírodních  až po sociální vědy. Statistika je využívána i jako podklad pro  rozhodování, kdy nicméně může být záměrně i nevědomky  zneužita.  • Statistika využívá matematické modely reality k zobecnění  výsledků experimentů a vzorkování.  • Statistika funguje korektně pouze pokud jsou splněny  předpoklady jejích metod a modelů.  31 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Normální rozložení jako předpoklad statistické analýzy  dat • Normální rozložení (Gaussova křivka) je jedním z hlavních modelů ve statistické analýze dat • Řada metod popisné statistiky je založena na modelu normálního rozložení – Průměr, směrodatná odchylka atd. • Řada metod testování hypotéz je založena na modelu normálního rozložení – T‐test, ANOVA, korelace, regrese  • Použití modelu je možné pouze pokud reálná data odpovídají danému modelovému  rozložení 32 Průměr a směrodatná odchylka  dobře popisují realitu Průměr a směrodatná odchylka  nepopisují realitu Reálná data Model normálního  rozložení Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Obecné schéma aplikace statistické analýzy 33 Vzorkování Experimentální  design Jak velký vzorek je nezbytný pro statisticky relevantní výsledky?  Klíčová stratifikační kritéria cílové populace. Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku. Uložení a  management dat Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je  klíčovým krokem statistické analýzy. Vizualizace dat Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti  lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat,  představu o jejich rozložení, vazbách proměnných apod. Popisná analýza Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou  realističnost naměřených rozsahů dat. Testování hypotéz Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich  variabilitu a tím přispět k pochopení řešeného problému. Modelování Možným vyvrcholením analýzy je využití získaných znalostí a pochopení  problému k vytvoření prediktivních modelů. Vícerozměrné statistické metody  Popisná statistika a její spolehlivost Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Typy proměnných a jejich popisné statistiky • Kvalitativní/kategorická – binární  ‐ ano/ne – nominální  ‐ A,B,C … několik kategorií – ordinální ‐ 1<2<3 …několik kategorií a můžeme se ptát, která je větší – Popis procentuálním zastoupením kategorií • Kvantitativní – nespojitá – čísla, která však nemohou nabývat všech hodnot (např. počet porodů) – spojitá – teoreticky jsou možné všechny hodnoty (např. krevní tlak) – Popis celou řadou deskriptivních statistik (průměr, medián, percentily, směrodatná  odchylka, rozsah hodnot apod.) 35 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Řada dat a její vlastnosti 36 Kategorie Četnost B 5 C 8 D 1 Kvalitativní data Tabulka s četností jednotlivých kategorií. Kvantitativní data Četnost hodnot rozložení v  jednotlivých intervalech. Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Populace a vzorek • Populace představuje veškeré možné objekty vzorkování, např. veškeré  obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné parametry  rozložení • Z populace je prováděno vzorkování za účelem získání reprezentativního vzorku  (sample) populace, toto vzorkování by mělo být náhodné, důležitá je také velikost  vzorku, ze vzorku získáme odhady parametrů rozložení 37 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Popisná statistika: odhad reality • Při výpočtu popisné statistiky počítáme popisnou statistiku vzorku, která je zároveň  odhadem pro celou cílovou populaci • Skutečnou hodnotu statistiky v cílové populaci nemůžeme poznat bez vzorkování  celé cílové populace  38 O populaci nevíme nic Odhadujeme popisné  statistiky populace Známe skutečnou hodnotu  statistiky v populaci Nesmyslné Obvykle  nerealizovatelné Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Koncept intervalu spolehlivosti a jeho interpretace • Při výpočtu odhadu popisné statistiky nás zajímá nejenom její vlastní hodnota  (bodový odhad) ale také její rozsah spolehlivosti • Interval spolehlivosti závisí na: – Velikosti vzorku – Variabilitě dat – Požadované spolehlivosti • Interval spolehlivosti lze spočítat pro jakoukoliv statistiku (průměr, směrodatná  odchylka, korelace, procentuální zastoupení apod.) • Interval spolehlivosti poskytuje vodítko jak „spolehlivé“ jsou naše výsledky a s  jakou pravděpodobností jich je možné opakovaně dosáhnout • 95% interval spolehlivosti je rozsah hodnot do nějž se při opakování studie trefíme  s 95% pravděpodobností • Tvrzení, že v rozsahu 95% intervalu spolehlivosti leží s 95% pravděpodobností  skutečný průměr populace není pravdivé, skutečný průměr populace neznáme !!! 39 Rozložení odhadu pro N=10 Rozložení odhadu pro N=100 Rozložení parametru v populaci Průměr (odhadovaný parametr) Vícerozměrné statistické metody  Testování hypotéz Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Testování hypotéz: základní principy • Formulace hypotézy • Výběr cílové populace a z ní reprezentativního vzorku • Měření sledovaných parametrů • Použití odpovídajícího testu závěr testu • Interpretace výsledků 41 Cílová populace Vzorek Reprezentativnost ? Závěr ? Interpretace Měření parametrů Testy hypotéz ? Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Statistické testování – základní pojmy 42 Nulová hypotéza HO Alternativní hypotéza HA Testová statistika Kritický obor testové statistiky 0 T Pozorovaná hodnota – Očekávaná hodnota Variabilita dat Testová statistika = HO: sledovaný efekt je nulový HA: sledovaný efekt je různý mezi skupinami * Velikost vzorku Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model – testová statistika. Statistická významnost (p) – odvozena z testové statistiky a znamená pravděpodobnost, že pozorovaný rozdíl je výsledkem pouhé náhody Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Co znamená pravděpodobnost, že pozorovaný rozdíl  je výsledkem pouhé náhody ? 43 Je tu rozdíl? Jak by vypadal rozdíl, kdyby byl náhodný? Nasimulujme si ho !!!  Léčba Placebo X2 X1 X2 X1 Rozdíl? Rozdíl X2 X1 Rozdíl …. Mnoho- krát Rozdíl ? Rozložení možných náhodných rozdílů Kde leží skutečný rozdíl? Jak moc je pravděpodobné, že je náhodný? 0 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Možné chyby při testování hypotéz 44 Závěr testu Hypotézu nezamítáme Hypotézu zamítáme β 1‐ β 1‐ α α Skutečnost H0 Platí H0 Neplatí • I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při  rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby. Správné rozhodnutí Správné rozhodnutí Chyba II. druhu Chyba I. druhu Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Klinická a statistická významnost • Samotná statistická významnost nemá žádný reálný význam, je pouze měřítkem  náhodnosti hodnoceného jevu • Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné hodnoty 45 Statistická  významnost Praktická významnost ANO NE ANO OK, praktická i statistická  významnost je ve shodě,  jednoznačný závěr Významný výsledek je  statistický artefakt velkého  vzorku, prakticky nevyužitelné NE Výsledek může být pouhá  náhoda, neprůkazný výsledek OK, praktická i statistická  významnost je ve shodě,  jednoznačný závěr Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Statistická vs. klinická významnost 46 Bodový odhad  efektu + IS Možnost Statistická významnost Klinická významnost a) ne možná b) ne možná c) ano možná d) ano ano e) ne ne f) ano ne a) b) c) d) e) f) Střední hodnota v  populaci Klinicky významná  odchylka Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Parametrické vs. neparametrické testy 47 Parametrické testy Neparametrické testy • Mají předpoklady o rozložení vstupujících dat (např. normální rozložení) • Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy  neparametrické • Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla  testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný  • Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při  asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném rozložení • Snížená síla těchto testů je způsobena redukcí informační hodnoty původních  dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji  pouze jejich pořadí Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  One‐sample vs. two sample testy 48 One – sample testy Two – sample testy • Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční  hodnotou (popřípadě se statistickým parametrem cílové populace) • V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem  (referenční hodnota, hodnota cílové populace) • Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodnot  i dalším statistickým parametrům popisujícím vzorek • Srovnávají navzájem dva vzorky (two sample, dvouvýběrové vzorky) • V testu jsou srovnávány dvě rozložení hodnot • Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu  hodnot i dalším statistickým parametrům popisujícím vzorek • Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin  dat Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  One‐tailed vs. Two‐tailed testy 49 One – tailed testy Two – tailed testy • Hypotéza testu je postavena asymetricky, tedy  ptáme se na větší než/ menší než • Test může mít pouze dvojí výstup – jedna z  hodnot je větší (menší) než druhá a všechny  ostatní případy • Hypotéza testu se ptá na otázku rovná  se/nerovná se • Test může mít trojí výstup – menší ‐ rovná se – větší než • Situace nerovná se je tedy souhrnem dvou  možných výstupů testu (menší+větší) Kritický obor Kritický obor Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Nepárový vs. párový design 50 Nepárový design Párový design • Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např. lidé z různých zemí, nezávislé skupiny pacientů s odlišnou léčbou atd. • Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat • Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci, reakce stejného kmene krys atd. • Vazba může být buď přímo dána nebo pouze předpokládána (v tom případě je nutné ji ověřit) • Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich původních datech Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Statistické testy a normalita dat 51 • Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na  předpokladu nějakého rozložení) – např. t‐testy • Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro  výpočet (t‐rozložení) a test tak může lhát • Řešením je tedy: – Transformace dat za účelem dosažení normality jejich rozložení – Neparametrické testy – tyto testy nemají žádné předpoklady o rozložení dat Typ srovnání Parametrický test Neparametrický test 2 skupiny dat nepárově: Nepárový t‐test Mann Whitney test 2 skupiny dat párově: Párový t‐test Wilcoxon test, sign test Více skupin nepárově: ANOVA Kruskal‐ Wallis test Korelace: Pearsonův koeficient Spearmanův koeficient Vícerozměrné statistické metody  Základní statistické testy Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  One sample t‐test 53 H0 HA Testová statistika Interval spolehlivosti t t > t t t < t t |t| > t Průměr – cílová vs. výběrová populace n s μx t   (n‐1) 1‐α (n‐1) α (n‐1) 1‐α/2 x x x x x x V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací.  Pro parametrické testy musí mít datový soubor normální rozložení.  Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Dvouvýběrové testy: párové a nepárové  54 • Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich  základním dělením je podle designu experimentu na testy párové a  nepárové.  Základním testem pro srovnání dvou  nezávislých rozložení spojitých čísel  je nepárový two‐sample t‐test  Základním testem pro srovnání dvou  závislých rozložení spojitých čísel je  párový two‐sample t‐test Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Dvouvýběrové testy: párové a nepárové 55 Data Nezávislé uspořádání Párové uspořádání ………. ………. ………. X1  X2 X1‐ X2 = D ………. ……….X1  X2 Design uspořádání  zásadně ovlivňuje interpretaci parametrů  2 Ds D n 0D:H0  (n = n2 = n1) 210 μμ:H  2 1 2 1 s x n 2 2 2 2 s x n Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Dvouvýběrové testy: párové a nepárové 56 ………. ……….X1  X2 X1 X2 X1 X2 r = 0,954 (p < 0,001) r = 0,218 (p < 0,812) Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Předpoklady nepárového dvouvýběrového t‐testu 57 • Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací • Nezávislost obou srovnávaných vzorků • Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem  nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu,  normalita může být testována testy normality • Rozptyl v obou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je  testován několika možnými testy – Levenův test nebo F‐test. • Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické  srovnání a ověření předpokladů normality a homogenity rozptylu – nenahradí statistické  testy, ale poskytne prvotní představu.  0 (x) μ | | | • • | | • • X Varianta 1 Varianta 2 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Nepárový dvouvýběrový t‐test – výpočet I 58 1. nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou  shodné, two tailed test 2. prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a  nehomogenita rozptylu, provést F –test F‐test pro srovnání dvou výběrových  rozptylů •Používá se pro srovnání rozptylu  dvou skupin hodnot, často za  účelem ověření homogenity  rozptylu těchto skupin dat. • V případě ověření homogenity je testována hypotéza shody rozptylů (two tailed); v případě  shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t‐testu, v opačném případě  není vhodné test počítat.  H0 HA Testová statistika 2 2 2 1   2 2 2 1   2 2 2 1   2 2 2 1   2 2 2 1   2 2 2 1   2 2 2 1 s s F  2 1 2 2 s s F     2 2 2 1 2 2 2 1 ;min ;max ss ss F  Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Nepárový dvouvýběrový t‐test – výpočet II 59 3. Výpočet testové statistiky (stupně volnosti jsou): 4. výsledné t srovnáme s tabulární hodnotou t pro dané stupně volnosti a  (obvykle =0,05) 5. Lze spočítat interval spolehlivosti pro rozdíl průměrů (např. 95%), počet stupňů volnosti a s2 odpovídají předchozím vzorcům     2 11 21 2 22 2 112    nn snsn s 221  nn vážený odhad  rozptylu  2 1 2 0,975 1 2 1 2 0,975 1 2 1 1 ( ) ( ) ( )x x t SE x x x x t s n n                      21 2 21 11)( _ nn s xx ěrůrozdílprůoSE průrůměRozdíl t Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Dvouvýběrový t‐test ‐ příklad 60 Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou zvýšenou dávkou potravy.  Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy pak 24 ovcí. • Vlastní experiment byl prováděn tak, že na začátku máme  54 ovcí (ideálně stejného plemene, stejně staré atd.), které náhodně rozdělíme do dvou skupin (náhodné rozdělování objektů  do pokusných skupin je objektem celého specializovaného odvětví statistiky  nazývaného randomizace). Poté co experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využití nepárového t‐testu.  Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na kterých můžeme posoudit normalitu a  homogenitu rozptylu, kromě  okometrického pohledu můžeme pro ověření normality použít testy normality, pro ověření homogenity rozptylu pak F‐test • Pokud platí všechny předpoklady Two sample nepárového t‐testu, můžeme spočítat testovou charakteristiku, výsledné t je 2,43 s  52  stupni volnosti, podle tabulek je a t0,975 (52)= 2,01, tedy t> t0,975 (52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost  je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou.  • Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly  jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91  kg. To, že konfidenční interval nezahrnuje 0 je dalším potvrzením, že mezi skupinami je významný rozdíl – jde o další způsob testování  významnosti rozdílů mezi skupinami dat – nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě  zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0).     2 11 21 2 22 2 112    nn snsn s 221  nn 2 1 2 0,975 1 2 1 2 0,975 1 2 1 1 ( ) ( ) ( )x x t SE x x x x t s n n                      21 2 21 11)( _ nn s xx ěrůrozdílprůoSE průrůměRozdíl t Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Test dobré shody ‐ základní teorie 61 Binomické jevy (1/0)  2 )1( pozorovaná četnost očekávaná četnost očekávaná četnost = + 2 pozorovaná četnost očekávaná četnost očekávaná četnost I. jev 1 II. jev 2 ‐ 2‐ 0 1 Příklad 10 000 lidí hází mincí           rub: 4 000 případů (R) líc: 6 000 případů (L) Lze výsledek považovat za statisticky významně odlišný (nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ? Rozdíl je vysoce statisticky významný (p << 0,001]     400 5000 50006000 5000 50004000 22 2 )1(      Tabulková hodnota: )195,0(84,3)1( 2 )95,0(   Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Kontingenční tabulky ‐ 0 :Nezávislost dvou jevů A a B 62 Kontingenční  tabulka 2 x 2 N = a + b + c + d     N ba BP       N dc BP   + ‐ Podíl (+) + a b ‐ c d Podíl (+) B A  ca a   db b   ba a   dc c  p1 p2 Očekávané četnosti:    N caba F A  )(    N dbba F B  )(    N cdca F C  )(    N dcdb F D  )(       4 1 2 2 1 i i ii F Ff  )1(*)1(1  cr    BA PP ;       ij ijij c F Ff 2 2 5,0  Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Kontingenční tabulky: příklad 63 FA = 102 * 30 / 166 = 18,43 FB = 102 * 136 / 166 = 83,57 FC = 11,57 FD = 52,43         423,0 43,52 43,5254 57,11 57,1110 57,83 57,8382 43,18 43,1820 2222 2 )1(          84,3423,0 )1(2 95,0   Ano Ne  Ano 20 82 102 Ne 10 54 64  30 136 166 gen  Kontingenční tabulka v obrázku 15,6 84,4 Zemřelí Žijící % 20 80 Zemřelí Žijící %c: 49% d: 33% a: 12% b: 6% Gen: ANO Gen: NE Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  ANOVA – základní výpočet 64 • Základním principem ANOVY je porovnání rozptylu připadajícího na: – Rozdělení dat do skupin (tzv. effect, variance between groups) – Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o  náhodnou variabilitu (=error) 1. Variabilita mezi skupinami Rozptyl je počítán pro celkový průměr (tzv.  grand mean) a průměry v  jednotlivých skupinách dat Stupně volnosti jsou odvozeny od počtu  skupin (= počet skupin ‐1) 2. Variabilita uvnitř skupin Rozptyl je počítán pro průměry  jednotlivých skupin a objekty  uvnitř příslušných, celková  variabilita je pak sečtena pro  všechny skupiny Stupně volnosti jsou odvozeny od počtu  hodnot (= počet hodnot ‐ počet  skupin) 11  k kn 2 groupswithin groupsbetween F _ _  Výsledný poměr  (F) porovnáme s  tabulkami F  rozložení pro v1 a  v2 stupňů volnosti SS=sum of  squares Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Jednoduchý ANOVA design 65 Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho  parametru. Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Nested ANOVA 66 • Rozdělení skupin na náhodné podskupiny (např. opakování experimentu) • Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou • Nejprve je testována shoda podskupin v hlavních skupinách,  • pokud jsou shodné, je vše v pořádku • pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od  celkové variability Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Two way ANOVA 67 Pro rozdělení do kategorií je zde více parametrů Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené  zásahy (např.vliv pH a koncentrace O2) Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Modely analýzy rozptylu ‐ základní výstup 68 Základním výstupem analýzy rozptylu je Tabulka ANOVA - frakcionace komponent rozptylu Zdroj rozptylu Pok. zásah (mezi skupinami) Uvnitř skupin Celkem SSB/SST MSB/MST St. v. a ‐1                        SSB SSB/(a ‐1)        MSB/MSE N ‐ a                       SSE  SSE/(N ‐ a) N ‐1                        SST SS MS F Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém  rozptylu Statistická významnost rozdílu Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Základy korelační analýzy I 69 Korelace ‐ vztah (závislost) dvou znaků (parametrů) Y2 X1 Y2 X1 Y2 X1 ANO NE ANO a b NE c d X1 X2 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Základy korelační analýzy II 70 Parametrické míry korelace Kovariance Pearsonův koeficient  korelace)).((),( yyxxEyxCov ii  0 0 0 ‐‐ x ‐‐ y Y2 X1 r = 1 r = ‐1 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Základy korelační analýzy III 71 PI (zem) 10 14 15 32 40 20 16 50 PI (rostl.) 19 22 26 41 35 32 25 40 6;8;,.....,1  vnnI     7176,0 11 1 . ),( 2222                   iiii iiii yx y n yx n x yx n yx SS yxCov r I. 05,0::0  H   7076,06 vr:tab II.  :0H 2 1 2         n r r t 2 nv 0 , 0 5 P         447,2 524,26 6965,0 7176,0 )2( 975,0 n t t :tab Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Základy regresní analýzy 72 Regrese ‐ funkční vztah dvou nebo více proměnných Jednorozměrná y = f(x) Vícerozměrná y = f(x1, x2, x3, ……xp) Vztah x, y Deterministický Regresní, stochastický Y X Y X Y X Pro každé x existuje pravděpodobnostní rozložení y Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Regresní analýza přímky: lineární regrese 73   XexbaY y xbyaa  :)(intercept slope)(sklon;xbX     xNe ye 22 ;0;0   :složkanáhodná- }Komponenty  tvořící y se  sčítají  ‐ náhodná složka modelu přímky = rezidua přímky   reziduírozptyl 22 xye 