Institut biostatistiky a analýz Stochastické modelováníStochastické modelování JiJiřříí JarkovskýJarkovský Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Organizace kurzuOrganizace kurzu Každých dní (úterý 8-12 hodin) ­ počítačová učebna IBA Obecný úvod do problematiky modelování Principy Statistické hodnocení dat Vícerozměrná analýza ,,Klasické" statistické modelování ANOVA Regrese GLM, GAM Pokročilé metody Prostorové modelování Rozhodovací stromy a lesy Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz ffgf 3 Statistika: oStatistika: o ččem toem to vlastnvlastněě je?je? Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Výzkum, reVýzkum, reáálný svlný svěět a statistikat a statistika Výzkum je způsobem poznávání světa Jak přesné a pravdivé je naše pochopení světa? Statistika je jedním z nástrojů přinášejících spolehlivost do našich výsledků Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Variabilita naVariabilita naššeho sveho svěětata Varabilita je základem našeho světa a statistika je vědou zabývající se variabilitou Správná analýza a vysvětlení variability nám dává informaci o světě V případě deterministického světa je statistika zbytečná Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz StatistikaStatistika Co tento termín znamená? WWW.WIKIPEDIA.ORG: Statistics is a mathematical science pertaining to the collection, analysis, interpretation or explanation, and presentation of data. It is applicable to a wide variety of academic disciplines, from the physical and social sciences to the humanities. Statistics are also used for making informed decisions and misused intentionally or accidently. Statistika používá matematické modely reality pro zobecnění našich informací získaných z experimentů a vzorkování. Statistika je korektní pouze při naplnění předpokladů jejích matematických modelů !!! Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Srozumitelný popis dat a jejich vizualizace Porozumění vztahům mezi proměnnými Získat znalost v dané oblasti Schopnost interpretace Využití této znalosti dále Korektní postup při zpracování Pouhý přehled čísel Vzorce, rovnice a matematickou teorii Neinterpretovatelné výsledky Rozpor mezi zkušeností, selským rozumem a čísly Obvykle znamenají chybu Smysl zpracovSmysl zpracováánníí datdat CO JE CÍLEM CO NENÍ CÍLEM Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz CoCo řřííkkáá statistika o nastatistika o naššem svem svěěttěě?? Možnost Realita Vzorek Data Informace Znalost Pochopení Vědomost Statistika Statistika může být využita při získání informací z vzorkovaných dat a jako podpora naší znalosti a pochopení problému. Statistika neříká nic o věcech nespojených s naším vzorkem. Statistika není náhradou naší inteligence !!! Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz VzorkovVzorkováánníí ve statistickve statistickéém slova smyslum slova smyslu Statistika hovoří o realitě skrz vzorek !!! Statistické předpoklady korektního vzorkování. Reprezentativnost: struktura vzorku by měla kopírovat realitu jak je to jen možné Nezávislost: v opakovaném vzorkování stejného objektu není žádná nová informace Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Velikost vzorku a pVelikost vzorku a přřesnost statistikyesnost statistiky Existuje skutečné rozložení a skutečný průměr proměnné. Z jednoho měření nevíme nic Vzorek: ????? Vzorek určité velikosti poskytuje odhad skutečné hodnoty s určitou spolehlivostí. vzorek: Odhad průměru, SD atd. Vzorkování všech hodnot poskytne skutečnou průměrnou hodnotu proměnné, nicméně je v realitě většinou nemožné. Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz ffgf 11 Data a jejich popisData a jejich popis Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Jak vznikajJak vznikajíí data?data? Záznamem skutečnosti ... ... více či méně dokonalým Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Malá data Velká data Obrovská data Umění uchopit Umění prodat Umění pochopit Předpoklady úspěšné analýzy * Znalost problému * Znalost analýzy dat Charakter datCharakter dat Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Hladina cholesterolu v krvi, Doba do progrese Teplota ve °C Performance status, Počet mobilních telefonů Pohlaví, Krevní skupina Kolikrát ?KolikrKolikráát ?t ? O kolik ?O kolik ?O kolik ? Větší, menší ?VVěěttšíší, men, menšíší ?? Rovná se ?RovnRovnáá se ?se ? Data poměrová Data intervalová Data ordinální Data nominální Spojitá data SpojitSpojitáá datadata Diskrétní data DiskrDiskréétntníí datadata Kategoriální otázky Otázky ,,Ano/Ne" Samotná znalost typu dat ale na dosažení informace nestačí ............. Typy datTypy dat Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Různé typy dat sumarizujeme a analyzujeme různým způsobem jiná úskalí při analýze Různé analytické metody jsou vhodné pro různé typy dat Data jsou variabilní Vysvětlení variability (např. v odpovědi pacienta na léčbu) je naším hlavním cílem Bez variability by nebylo potřeba analýzy dat !!! Data = zData = zááznam informaceznam informace Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz VVAARRIIAABBIILLIITTAA CHYBACHYBA INFORMACEINFORMACE ?? Data jsou variabilnData jsou variabilníí Cílem analýzy dat je popis a vysvětlení maximálního množství variability v datech, zbytek lze přisuzovat chybám měření. Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Variabilita dat?Variabilita dat? Data 2,1 2,8 3,2 1,2 5,2 2,9 Variabilita opakovaných mVariabilita opakovaných měřěřeneníí rozptyl znaku, přirozená variabilita 165 cm 140 cm 182 cm 163 cm Variabilita znaku v populaciVariabilita znaku v populaci chyba = nepřesnost modelu VariabilitaVariabilita modelovaných datmodelovaných dat VariabilitaVariabilita ččasovýchasových řřadad VariabilitaVariabilita veve skladbskladběě biologickbiologickýýchch spolespoleččenstevenstev DRUH 1 DRUH 2 DRUH 3 DRUH 4 15 30 40 14 biodiverzitafluktuace, časová proměnlivost chyba y x y čas Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz VÝSLEDKY cílová populace výběr dle optimálního plánu reprezentativní vzorek n jedinců (faktor F) měření znaku variabilita hodnot ve výběrovém souboru ? Účel analýzy: Popisný ... analyzovaný znak cílové populace (X) ... jiný významný faktor charakterizující cílovou populaci (F) ZÁVĚRY(reprezentativnost,spolehlivost) Reprezentativnost Přesnost Spolehlivost ? VariabilitaVariabilita ­­ jejjejíí popispopis Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz VÝSLEDKY cílová populace výběr subjektů pro vstup do hodnocení / studie Rozdělení do kategorií měření znaku X variabilita hodnot X v rameni A ? Účel analýzy: Srovnávací ... analyzovaný znak cílové populace (X) ... jiný významný faktor charakterizující cílovou populaci (F) ZÁVĚRY(rozlišovacíschopnost,rozdílramenA xB,srovnatelnostramen,reprezentativnost) variabilita hodnot X v rameni B rameno A rameno B Srovnatelnost Přesnost Spolehlivost ? VariabilitaVariabilita ­­ srovnsrovnáánníí dvou skupindvou skupin Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz x f(x) x f(x) x f(x) x f(x) RozdRozděělenleníí hodnot jako zhodnot jako zááklad statistickklad statistickééhoho hodnocenhodnoceníí Data podléhají určitému rozdělení hodnot Počet bílých krvinek Výška f (x) x f (x) x Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz RozloRozložženeníí hodnot jako model: Phodnot jako model: Přřííkladklad -- NormNormáálnlníí rozlorozložženeníí N (,) (x) N (0,1) (z) 0 Tabelovaná podoba Standardizovaná forma x z z = x - 2 2 2 )( . 2. 1 )( - - = x ex 2 2 . .2 1 )( z ez - = Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Parametry charakterizujParametry charakterizujííccíí normnormáálnlníí rozlorozložženeníí aa jejich významjejich význam (x) x mediánprůměr ~ x průměr - ukazatel středu 2 ~ s2 rozptyl xi x a) b) ~ s směrodatná odchylka Pravidlo 3s koeficient variance c) d) 2 ss = xsc = 1 )( 2 2 - - = n xx s i E (x) ~ x ~ D (x) ~ s2 ~ 2 Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Statistické výpočty jsou často postaveny na teoretických předpokladech Tyto předpoklady platí jak pro klasické, tak pro vícerozměrné analýzy Tyto předpoklady nejsou často dodrženy, zejména při malém vzorku Všechny výpočty založené na předpokladu normálního rozložení mohou poskytovat zavádějící výsledky Průměr jako ukazatel středu je silně ovlivněn tvarem dat a odlehlými hodnotami !!! V případě odlehlých hodnot nebo asymetrie si analýza myslí, že existuje ,,normální" tvar dat a průměr PrPrůůmměěr jako odhad str jako odhad střřednedníí hodnotyhodnoty Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Průměr ­ vhodný ukazatel středu u normálního/symetrického rozložení, kde xi jsou jednotlivé hodnoty a N jejich počet Medián ­ jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné Popis stPopis střředu datedu dat ­­ prprůůmměěr a medir a mediáánn Medián 1 2 3 4 5 6 7 8 9 f(x) Medián x Průměr f (x) x MediánPrůměr Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz PrPrůůmměěr vs. medir vs. mediáánn Student A: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 5 (N = 14) Příklad známkování ve škole: Student B: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2 (N = 14) Průměr: 1.35 Medián: 1.00 Průměr: 1.13 Medián: 1.00 Příklad platu v ČR v roce 2003: f(x) Medián x Průměr Medián: 12 400 Průměr: 18 697 Kč Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz P (L1 < Odhad < L2) 1 - /2Obecný tvar: Odhadovaný parametr Kvantil modelového rozložení KV pro (1 - /2) Intervalové Interval pravděpodobných hodnot Spolehlivost Bodové Číslo (chyba) (Odhad parametru) (Pravděpodobnostní interpretace) SE (odhadu) Odhady parametrOdhady parametrůů Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Interval spolehlivostiInterval spolehlivosti -- informace o pinformace o přřesnosti odhaduesnosti odhadu f(x) -3s +3s Původní proměnná x f(x) Výběr n=10 pro odhad průměru f(x) Výběr n=100 pro odhad průměru Se zvětšující se velikostí vzorku (při zachování) reprezentativnosti se zvětšuje přesnost našeho odhadu o celém trhu Interval spolehlivosti je hodnocen pro (1 - ) procentní spolehlivost Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz ffgf 28 StatistickStatistickéé testovtestováánníí Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Princip testovPrincip testováánníí hypothypotéézz Cílová populace Vzorek Reprezentativnost ? Závěr ? Interpretace Formulace hypotézy Výběr cílové populace a z ní reprezentativního vzorku Měření sledovaných parametrů Použití odpovídajícího testu závěr testu Interpretace výsledků Měření parametrů Testy hypotéz ? Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz StatistickStatistickéé testovtestováánníí ­­ zzáákladnkladníí pojmypojmy Nulová hypotéza HO Alternativní hypotéza HA Testová statistika Kritický obor testové statistiky 0 T Pozorovaná hodnota ­ Očekávaná hodnota Variabilita dat Testová statistika = HO: sledovaný efekt je nulový HA: sledovaný efekt je různý mezi skupinami * Velikost vzorku Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model ­ testová statistika. Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Co znamenCo znamenáá nnááhodný rozdhodný rozdííl?l? Je tu rozdíl? Jak by vypadal rozdíl, kdyby byl náhodný? Nasimulujme si ho !!! Léčba Placebo X2 X1 X2 X1 RozdRozdííl?l? Rozdíl X2 X1 Rozdíl .... Mnoho- krát RozdRozdííl ?l ? Rozložení možných náhodných rozdílů Kde leží skutečný rozdíl? Jak moc je pravděpodobné, že je náhodný? 0 Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz MoMožžnnéé chyby pchyby přři testovi testováánníí hypothypotéézz Závěr testu Hypotézu nezamítáme Hypotézu zamítáme 1- 1- Skutečnost H0 Platí H0 Neplatí I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby. Správné rozhodnutí Správné rozhodnutí Chyba II. druhu Chyba I. druhu Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Význam chyb pVýznam chyb přři testovi testováánníí hypothypotéézz Pravděpodobnost chyby 1. druhu Pravděpodobnost nesprávného zamítnutí nulové hypotézy Pravděpodobnost chyby 2. druhu Pravděpodobnost nerozpoznání neplatné nulové hypotézy Síla testu 1Pravděpodobnostně vyjádřená schopnost rozpoznat neplatnost hypotézy Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz NepNepáárový vs. prový vs. páárový designrový design Nepárový design Párový design * Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např. lidé z různých zemí, nezávislé skupiny pacientů s odlišnou léčbou atd. * Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat * Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci, reakce stejného kmene krys atd. * Vazba může být buď přímo dána nebo pouze předpokládána (v tom případě je nutné ji ověřit) * Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich původních datech Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz StatistickStatistickéé testy a normalita dattesty a normalita dat Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu nějakého rozložení) ­ např. t-testy Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet (t-rozložení) a test tak může lhát Řešením je tedy: Transformace dat za účelem dosažení normality jejich rozložení Neparametrické testy ­ tyto testy nemají žádné předpoklady o rozložení dat Typ srovnání Parametrický test Neparametrický test 2 skupiny dat nepárově: Nepárový t-test Mann Whitney test 2 skupiny dat párově: Párový t-test Wilcoxon test, sign test Více skupin nepárově: ANOVA Kruskal- Wallis test Korelace: Pearsonův koeficient Spearmanův koeficient Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz 27 měsíců JednovýbJednovýběěrovýrový tt--test: ptest: přřííkladklad Příklad: Nový lék na rakovinu plic (předpokládáme studii s dostatečně velkým n) Průměrná doba přežití pacientů je prodlužuje nový lék přežití? Průměrná doba přežití bez léku je 22 měsíců H0: = 22,2 měsíce H1: > 22,2 měsíce Testová statistika: T = 6,120 5% kritická hodnota normálního rozdělení 1,645 Jelikož hodnota statistiky T překračuje kritickou hodnotu Zamítáme H0 Doba přežití léčených pacientů se oproti neléčeným prodlouží. Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz ffgf 37 Výzvy statistickVýzvy statistickéé analýzy datanalýzy dat Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Popisná analýza dat (,,exploratorní" analýzy) Data mining (,,investigativní" analýzy) Srovnávací analýzy, testy hypotéz Stochastické modelování, hodnocení prognóz Analýza časových řad, analýzy trendů Vícerozměrné analýzy, ,,pattern recognition" Analýza biodiverzity (species community associations, ....) Experimentální plány (,,experimental design") QA/QC Věda přinášející novou kvalitu BIOSTATISTIKA: otevBIOSTATISTIKA: otevřřenenáá oblastoblast Analýza biomedicínských dat Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz SloSložžitý biologický systitý biologický systéémm Jednorozměrná popisná statistika Jednorozměrné testování Modelování Vícerozměrná analýza a modelování Metaanalýza 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 8.5 0 5 10 15 20 25 30 35 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 8.5 Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz ModelovModelováánníí datdat Prediktory Vysvětlovaná proměnná 1.Tvorba modelu ˇParametry ovlivňující vysvětlovanou charakteristiku pacienta * Rovnice umožňující predikci * Platnost modelu pouze v rozsahu prediktorů 2.Validace modelu * Nebezpečí ,,přeučení" modelu * Testování modelu na známých datech ˇKrosvalidace 3. Aplikace modelu * Individuální predikce stavu neznámých případů * Model musí být podložen korektní statistikou a rozsáhlými daty ? ? ? Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz VVíícerozmcerozměěrnrnéé vnvníímmáánníí skuteskuteččnostinosti ­­ novnováá kvalita analýzy datkvalita analýzy dat x1 x2 n skupina 1 x1 skupina 2 VVíícerozmcerozměěrnýrný systsystéémm skup. 1 skup. 2 x1 x2 x2 skup. 2skup. 1 KlasickKlasickáá jednorozmjednorozměěrnrnáá analýzaanalýza Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz BBěžěžnnáá sumarizace datsumarizace dat ,,,,likvidujelikviduje"" individualitu jedinceindividualitu jedince Průměr SE BĚŽNÁ STATISTICKÁ SUMARIZACE Zpřehlednění dat Neodliší původní měření ? Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz VVíícerozmcerozměěrnrnéé hodnocenhodnoceníí XX22 XX33 ............ XXpp XX33 ............ XXpp WW XX11 XX33 ............ XXpp . . . . . . . . . . . XX11 . . . . . . . . . . . XX22 XX11 XX22 ... s ohledem na individualitu ! Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz VVíícerozmcerozměěrnrnéé hodnocenhodnoceníí ­­ novnováá kvalitakvalita A A A A A A A A AA A A A A A A A A A B B B B B B B B B B B B B B B B B B B B A X2 X1 B B ppřřííklad: X1 =klad: X1 = Pouze kombinovanPouze kombinovanéé parametry majparametry majíí odpovodpovíídajdajííccíí informainformaččnníí ssíílulu Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz VVíícerozmcerozměěrnrnéé hodnocenhodnoceníí vychvycháázzíí z jednoduchých principz jednoduchých principůů ppřřííklad: vklad: víícerozmcerozměěrnrnáá vzdvzdáálenost mlenost měřěřeneníí mezi dvmezi dvěěma objekty (body)ma objekty (body) X1 X2 X22 X21 X11 X12 a = x12 - x11 = d1 b = x22 - x21 = d2 1 2 c = a2 + b22 Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz VVíícerozmcerozměěrnrnéé modelovmodelováánníí je strategickou disciplje strategickou disciplíínounou XX11 XX22 XX55XX33 XX44 XXpp XX11 ............ XXnn technické parametry automobilu XXnn+1+1 ............ XXpp řidičovy schopnosti a jeho stav XXpp+1+1 ............ XX22 rychlost, povrch, situace Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz vytváření shluků objektů na základě jejich podobnosti identifikace typů objektů zjednodušení vícerozměrného problému do menšího počtu rozměrů principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY ZZáákladnkladníí typy vtypy víícerozmcerozměěrných analýzrných analýz KLASIFIKACE Model zařazení neznámých pacientů do předem daných skupin Řada algoritmů Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz Diskriminační prostor y x Typy vTypy víícerozmcerozměěrných analýzrných analýz SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY x y Faktorové osy y x podobnost KLASIFIKACE Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz ffgf 49 ShrnutShrnutíí Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz SoftwareSoftware pro statistickou analýzupro statistickou analýzu Komplexní software pro všechny úkoly neexistuje Obecné komerční statistické balíky jako je SPSS, SAS, Statistica, S+, ArcGis nabízí širokou škálu metod v uživatelsky přívětivém prostředí,ale ... některé specializované metody nejsou k dispozici Specializované nástroje (freeware i komerční) jsou nezbytné pro některé analýzy­ R (www.r-project.org) je dobrým řešením pro specializované analýzy Standardní statistické balíky pro rutinní úlohy Otevřený modifikovatelný SW pro specializované analýzy Potřebné nástroje jsou dostupné Jiří Jarkovský: Statistická analýza dat Institut biostatistiky a analýz ShrnutShrnutíí Statistická analýza je nezbytná na všech úrovních výzkumu Statistická analýza je pouhým nástrojem, který má za úkol data zpřehlednit, zviditelnit a sumarizovat. Požadovány jsou nezkreslené, reprezentativní a spolehlivé závěry. Budoucnost je v individuálním posuzování vývoje jednotlivých případů ­ vícerozměrná analýza a modelování. Enjoy your analyses !!!