Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pozice statistické analýzy ve vědě a klinické praxi Význam statistických výstupů I. Statistika ve vědecké praxi Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Statistická analýza biologických dat je jedním z nástrojů, s jejichž pomocí se snažíme zjistit odpovědi na naše otázky týkající se pochopení živé přírody. Jako každý nástroj je i statistickou analýzu nezbytné na jedné straně korektně využívat a na druhou stranu nepřeceňovat její možnosti.  Klíčovým faktem při statistické analýze dat je nahlížení na realitu prostřednictvím vzorku a přijmutí toho, že výsledky naší analýzy jsou jen tak dobré, jak dobrý je náš vzorek. Reprezentativnost a náhodnost vzorku spolu s jeho velikostí jsou důležité faktory ovlivňující věrohodnost našich závěrů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Výzkum, realita, statistika  Výzkum je naším způsobem porozumění realitě  Ale jak přesné a pravdivé je naše porozumění? Statistika je jedním z nástrojů vnášejících do našich výsledků určitou spolehlivost. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Význam variability  Naše realita je variabilní a statistika je vědou zabývající se variabilitou  Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě  V případě deterministického světa by statistická analýza nebyla potřebná Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Data 2,1 2,8 3,2 1,2 5,2 2,9 Variabilita opakovaných měření rozptyl znaku, přirozená variabilita 165 cm 140 cm 182 cm 163 cm Variabilita znaku v populaci chyba = nepřesnost modelu Variabilita modelovaných dat Variabilita časových řad Variabilita ve skladbě biologických společenstev DRUH 1 DRUH 2 DRUH 3 DRUH 4 15 30 40 14 biodiverzitafluktuace, časová proměnlivost chyba y x y čas Biostatistika - různé přístupy k variabilitě Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek …. a ty určují přístup k jejímu hodnocení Maskování a minimalizace vlivu Respektování a odhadování vlivu Přímé využití k predikcím chování systému Pojem VARIABILITA má mnoho významů ……… Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika – význam a definice WWW.WIKIPEDIA.ORG: Statistika je matematickou vědou zabývající se shromážděním, analýzou, interpretací, vysvětlením a prezentací dat. Může být aplikována v širokém spektru vědeckých disciplín od přírodních až po sociální vědy. Statistika je využívána i jako podklad pro rozhodování, kdy nicméně může být záměrně i nevědomky zneužita. Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování. Statistika funguje korektně pouze pokud jsou splněny předpoklady jejích metod a modelů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Co může statistika říci o naší realitě? Možnosti Realita Vzorek Data Informace Znalost Pochopení Statistika Statistika je nasazena v procesu získání informací z vzorkovaných dat a je podporou v získání naší znalosti a pochopení problému. Statistika není schopna činit závěry o jevech neobsažených v našem vzorku. Statistika není náhradou naší inteligence !!! Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Cílová populace  Cílová populace – klíčový pojem statistického zpracování  Skupina objektů o nichž se chceme něco dozvědět (např. pacienti s danou diagnózou, všichni lidé nad 60 let, měření hemoglobinu v dané laboratoři)  Musí být definována ještě před zahájením sběru dat  Na cílové populaci probíhá vzorkování dat, které musí cílovou populaci dobře (reprezentativně) charakterizovat Cílová populace Klíčové faktory cílové populace Design experimentu a vzorkovací plán Vzorkování a analýza dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika a zobecnění výsledků  Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci  Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům Neznámá cílová populace X, Y, Z Díky zobecnění výsledků známe vlastnosti cílové populace Vzorek Analýza Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vzorkování a jeho význam ve statistice  Statistika hovoří o realitě prostřednictvím vzorku!!!  Statistické předpoklady korektního vzorkování Representativnost: struktura vzorku musí maximálně reflektovat realitu Nezávislost: několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou novou informaci Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Velikost vzorku a přesnost statistických výstupů Existuje skutečné rozložení a skutečný průměr měřené proměnné Z jednoho měření nezjistíme nic Vzorek: ????? Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí Vzorek: Odhad průměru atd. Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Malá data Velká data Obrovská data Umění uchopit Umění prodat Umění pochopit Různá role statistiky při různě velkém vzorku Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0.0 0.2 0.4 0.6 0.8 1.0 0 100 200 300 400 Data Schopnost: vidět data – komunikovat – interpretovat - prodávat Přístup biostatistiky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek VÝSLEDKY cílová populace výběr dle optimálního plánu reprezentativní vzorek n jedinců (faktor F) měření znaku variabilita hodnot ve výběrovém souboru ? Účel analýzy: Popisný … analyzovaný znak cílové populace (X) … jiný významný faktor charakterizující cílovou populaci (F) ZÁVĚRY(reprezentativnost,spolehlivost) Reprezentativnost Přesnost Spolehlivost ? Experimentální design: nezbytná výbava biologa Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek VÝSLEDKY cílová populace výběr subjektů pro vstup do hodnocení / studie RANDOMIZACE vzájemně srovnatelné vzorky (faktor F) měření znaku X variabilita hodnot X v rameni A ? Účel analýzy: Srovnávací (2 ramena) … analyzovaný znak cílové populace (X) … jiný významný faktor charakterizující cílovou populaci (F) ZÁVĚRY(rozlišovacíschopnost,rozdílramenAx B,srovnatelnostramen,reprezentativnost) variabilita hodnot X v rameni B rameno A rameno B Srovnatelnost Přesnost Spolehlivost ? Experimentální design: nezbytná výbava biologa Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Praktická a statistická významnost  Samotná statistická významnost nemá žádný reálný význam, je pouze měřítkem náhodnosti hodnoceného jevu  Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné hodnoty Statistická významnost Praktická významnost ANO NE ANO OK, praktická i statistická významnost je ve shodě, jednoznačný závěr Významný výsledek je statistický artefakt velkého vzorku, prakticky nevyužitelné NE Výsledek může být pouhá náhoda, neprůkazný výsledek OK, praktická i statistická významnost je ve shodě, jednoznačný závěr Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Obecné schéma využití statistické analýzy Vzorkování Experimentální design Jak velký vzorek je nezbytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace. Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku. Uložení a management dat Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy. Vizualizace dat Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod. Popisná analýza Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat. Testování hypotéz Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému. Modelování Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Prospektivně – modelově - postihuje chování jevů při respektování variability Stochastické modelování: predikce neurčitých jevů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Osa X Parametr nebo kombinace parametrů 0,0 0,2 0,4 0,6 0,8 1,0 0 10 20 30 40 50 60 70 80 Age = 55 years P =0.80 P =0.40 0,0 0,2 0,4 0,6 0,8 1,0 -4,0 -2,0 0,0 2,0 4,0 Data konkrétních pacientů (subjektů) k přímému hodnocení Stochastické modelování: predikce neurčitých jevů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Schopnost: vytvářet prakticky využitelné nástroje Stochastické modelování: predikce neurčitých jevů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Klíčový význam korektního uložení získaných dat Pravidla pro ukládání dat Čištění dat před analýzou II. Příprava dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové“ tabulky umožňující jejich zpracování v libovolné aplikaci.  Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezeno ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametry (znaky) Opakování DATA – ukázka uspořádání datového souboru Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek  Správné a přehledné uložení dat je základem jejich pozdější analýzy  Je vhodné rozmyslet si předem jak budou data ukládána  Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě  Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky  Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce  Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.)  Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty  Komentáře jsou uloženy v samostatných sloupcích  U textových dat nezbytné kontrolovat překlepy v názvech kategorií  Specifickým typem dat jsou datumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy v korektním formátu  Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku  Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office Zásady pro ukládání dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukládání dat v MS Office  MS Excel  Kontingenční tabulky – rychlá sumarizace rozsáhlých tabulek  Možnost výpočtů a grafových výstupů přímo v aplikaci  Visual Basic – složitější aplikace – Omezení tabulky na 256x65536 buněk (do verze 2003) – Omezená kontrola chyb při zadávání  MS Access  Plnohodnotná databáze vhodná pro velké množství dat, řádky omezeny v podstatě jen dostupnou pamětí  Kontrola typu dat  Relace tabulek – omezení velikosti souboru  Visual Basic a formuláře – složitější aplikace – Omezení tabulky na 255 sloupců – Výpočty a grafy jsou složitější než v Excelu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Možnosti MS Excel  Správa a práce s tabulárními daty  Řazení dat, výběry z dat, přehledy dat  Formátování a přehledné zobrazení dat  Zobrazení dat ve formě grafů  Různé druhy výpočtů pomocí zabudovaných funkcí  Tvorba tiskových sestav  Makra – zautomatizování častých činností  Tvorba aplikací (Visual Basic for Aplications) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Import a export dat  Import dat  Manuální zadávání  import – podpora importu ze starších verzí Excelu, textových souborů, databází apod.  kopírování přes schránku Windows – vkládání z nejrůznějších aplikací – MS Office, Statistica atd.  využití textových souborů jako kompatibilního formátu pro přenos dat mezi různými aplikacemi  Export dat  Ukládáním souborů ve formátech podporovaných jinými SW, časté jsou textové soubory, dbf soubory nebo starší verze Excelu  Přímé kopírování přes schránku Windows Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Tipy a triky  Výběr buněk  CTRL+A – výběr celého listu  CTRL + klepnutí myší do buňky – výběr jednotlivých buněk  SHIFT + klepnutí myší na jinou buňku – výběr bloku buněk  SHIFT + šipky – výběr sousedních buněk ve směru šipky  SHIFT+CTRL+END (HOME) – výběr do konce (začátku) oblasti dat v listu  SHIFT+CTRL+šipky – výběr souvislého řádku nebo sloupce buněk  SHIFT + klepnutí na objekty – výběr více objektů  Kopírování a vkládání  CTRL+C – zkopírování označené oblasti buněk  CTRL+V – vložení obsahu schránky – oblast buněk, objekt, data z jiné aplikace  Myš a okraje buňky  Chycení myší za okraj umožňuje přesun buňky nebo bloku buněk  Při chycení čtverečku v pravém dolním rohu výběru je tažením možno vyplnit více buněk hodnotami původní buňky (ve vzorcích se mění relativní odkazy, je také možné vyplnění hodnotami ze seznamu – např. po sobě jsoucí názvy měsíců. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Databázová struktura dat v Excelu Jednotlivé záznamy (taxon, lokalita atd.) Sloupce tabulky = parametry záznamů, hlavička udává obsah sloupce – stejný údaj v celém sloupci Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Automatický zadávací formulář  Slouží k usnadnění zadávání dat do databázových tabulek  Načítá automaticky hlavičky sloupců jako zadávané položky Názvy sloupců Obsah dané buňky - editovatelný Nový záznam Vyhledávání Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Automatické seznamy  Vytváří se z hodnot buněk v daném sloupci a umožňují vložit hodnotu výběrem ze seznamu již zadaných hodnot – usnadnění zadávání Taxon Abundance Lokalita etc. Sloupec z nějž je seznam vytvořen a pro který platí Buňka, do níž se vloží vybraná hodnota Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Automatická kontrola dat  Umožňuje ověřit typ, rozsah nebo povolit pouze určitý seznam hodnot zadávaných do sloupce databázové tabulky Co je povoleno – definiční obory čísel, seznamy, vzorce atd. Rozsahy hodnot, načtení seznamů apod. komunikace s uživatelem Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Seznamy  Skupiny hodnot zachovávající logické pořadí, některé jsou zabudované (např. dny v týdnu, měsíce v roce), další je možné uživatelsky vytvořit, slouží pro účely řazení a automatického vyplňování dat Výběr buněk pro nový seznam Načtení nového seznamu Existující seznamy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řazení dat  Řazení dat je nejjednodušším způsobem jejich zpřehlednění, užitečným hlavně u menších/výsledkových tabulek Zkontrolujte, zda seřazení nezničí vazby mezi buňkami = kontrola oblasti, kterou řadíte. Využít první řádek oblasti jako záhlaví Další možnosti – řazení řádků, řazení podle seznamu Podle čeho řadit Směr řazení – vzestupně, sestupně Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Automatický filtr  Pomocí automatického filtru je snadné vybírat úseky dat pro další zpracování na základě hodnot ve sloupcích databázové tabulky, výběr je možný i podle více sloupců (např. určitá skupina pacientů)  Funkce automaticky rozezná hlavičky sloupců v souvislé oblasti buněk  U sloupců použitých pro filtraci jsou rozbalovací seznamy zbarveny modře  Výhodné pro čištění dat (vyhledávání překlepů, kombinace textu a čísel) Výběr hodnot pro filtraci Rozbalení seznamu hodnot nalezených ve sloupci Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Typy grafické vizualizace Rizika desinterpretace grafického zobrazení dat III. Vizualizace dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Prvním krokem v analýze dat je jejich vizualizace. Různé typy dat nám umožňující získání představy o rozložení dat, zastoupení kategorií i vztazích proměnných navzájem. Prostřednictvím vizualizace získáváme vhled do dat a začínáme vytvářet hypotézy o zákonitostech panujících mezi proměnnými v hodnoceném souboru dat. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 1. Výskyt kategorií (1, 2, 3,) Koláčový (výsečový) graf Absolutnípočty 2. Vývoj hodnot (v čase) Y vs. X (t) % Y Y Y Sloupcový graf 0 20 40 1 2 3 Řada2 Bodový graf 0 15 30 0 5 10 15 20 25 X Plošný graf 0 15 30 1 2 3 10 20 X Řada2 30% 40% 30% 1 2 3 30% 30% 40% 1 2 3 Sloupcový graf 0 50 100 1 2 3 Řada2 Spojnicový graf 0 15 30 1 2 3 10 20 X Řada Řada Grafická prezentace dat - umění komunikace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 3. Vztahy mezi proměnnými - korelace 0 15 30 1 2 3 10 20 X2 Řada2 X1 0 15 30 0 5 10 15 20 25 X2 Řada2 X1 0 15 30 1 2 3 10 20 X2 Řada2 X1 0 15 30 1 2 3 10 20 X2 Řada2 X1 Bodový - korelační diagram AGE LN_CRP CD56 CD57 CD80 Bodový - korelační diagram Grafická prezentace dat - umění komunikace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 4. Kvantitativní hodnoty parametru(ů) - X - v rámci kategorií A, B, C Sloupcový grafKrabicový graf X 0 20 40 A B C Řada2 0 50 100 A B C Řada2 X 0 50 100 A B C Řada2X 0 2 4 6 8 10 12 14 16 18 20 22 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 0 5 10 15 20 25 30 35 40 -50 0 50 100 150 200 250 300 0 1 2 3 4 5 6 7 8 9 0 50 100 150 5. Histogram Grafická prezentace dat - umění komunikace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 6. Zviditelnění primárních dat n x1 x2 x3 Grafická prezentace dat - umění komunikace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 7. Vztahy mezi proměnnými - interakce dvou parametrů, reakční plochy Grafická prezentace dat - umění komunikace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek BUNKY2 BUNKY1 ENZYM2 -100 100 300 500 700 900 Case1 Case2 Case3 Case4 Case5 Case6 Case7 Case8 Case9 Case10 Case11 Case12 Case13 Case14 Case15 Case16 Case17 Case18 Case19 Case20 Case21 Case22 Case23 Case24 Case25 Case26 Case27 Case28 Case29 Case30 BUNKY2 BUNKY1 ENZYM2 -100 100 300 500 700 900 Case1 Case2 Case3 Case4 Case5 Case6 Case7 Case8 Case9 Case10 Case11 Case12 Case13 Case14 Case15 Case16 Case17 Case18 Case19 Case20 Case21 Case22 Case23 Case24 Case25 Case26 Case27 Case28 Case29 Case30 BUNKY2 BUNKY1 ENZYM2 0 100 200 300 400 500 600 700 800 900 Case 1 Case 2 Case 3 Case 4 Case 5 Case 6 Case 7Case 8Case 9 Case 10 Case 11 Case 12 Case 13 Case 14 Case 15 Case 16 Case 17 Case 18 Case 19 Case 20 Case 21 Case 22Case 23Case 24 Case 25 Case 26 Case 27 Case 28 Case 29 Case 30 BUNKY2 BUNKY1 ENZYM2 -100 100 300 500 700 900 Case 1 Case 2 Case 3 Case 4 Case 5 Case 6 Case 7Case 8Case 9 Case 10 Case 11 Case 12 Case 13 Case 14 Case 15 Case 16 Case 17 Case 18 Case 19 Case 20 Case 21 Case 22Case 23Case 24 Case 25 Case 26 Case 27 Case 28 Case 29 Case 30 BUNKY2 BUNKY1 ENZYM2 Stacked Plot (DISKRIM.STA 7v*30c) 0 100 200 300 400 500 600 700 800 900 Case1 Case2 Case3 Case4 Case5 Case6 Case7 Case8 Case9 Case10 Case11 Case12 Case13 Case14 Case15 Case16 Case17 Case18 Case19 Case20 Case21 Case22 Case23 Case24 Case25 Case26 Case27 Case28 Case29 Case30 8. Grafické zviditelnění má nekonečně mnoho možností Grafická prezentace dat - umění komunikace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nesprávné užití grafů: problém rozsahu číselné osy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nesprávné užití grafů: problém standardizace hodnot Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Grafy zaměřené na vícerozměrné soubory dokáží zviditelnit i veliké soubory dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace Rozložení dat IV. Teoretické pozadí statistické analýzy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Základním principem statistiky je pravděpodobnost výskytu nějaké události. Prostřednictvím vzorkování se snažíme odhadnout skutečnou pravděpodobnost událostí.Klíčovou otázkou je velikost vzorku, čím větší vzorek, tím větší šance na projevení se skutečné pravděpodobnosti výskytu jevu. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek JAK vznikají informace ? základní pojmy Skutečnost Náhoda (vybere jednu z možností pokusu) Jev podmnožina všech možných výsledků pokusu/děje, o které lze říct, zda nastala nebo ne Pozorovatel Rozliší, co nastalo a) podle možností b) podle toho, jak potřebuje Jevové pole třída všech jevů, které jsme se rozhodli nebo jsme schopni sledovat Skutečnost + Jevové pole = Měřitelný prostor Experimentální jednotka - objekt, na kterém se provádí šetření Populace - soubor experimentálních jednotek Znak - vlastnost sledovaná na objektu Sledovaná veličina - číselná hodnota vyjadřující výsledek náhodného experimentu Znak se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním objektu ze základního souboru Výběr - výběrová populace - cílová populace Náhodný výběr Reprezentativnost Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0 0.1 0.2 0.3 0 1 2 3 4 5 6 JAK vznikají informace ? „Empirical approach“ „Classical approach“ Empirický postup možné jevy: čísla 1 – 6 n – počet hodů (opakování) f n n = 10 0 0.1 0.2 0.3 0 1 2 3 4 5 6 f n n = 50 0 0.1 0.2 0.3 0 1 2 3 4 5 6 f n n = ∞ U složitých stochastických systémů se pravda získá až po odvedení značného množství experimentální práce: musíme dát systému šanci se projevit Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0 0.1 0.2 0.3 0 1 2 3 4 5 6 JAK vznikají informace ? Empirický postup možné jevy: čísla 1 – 6 n – počet hodů (opakování) f n n = 10 0 0.1 0.2 0.3 0 1 2 3 4 5 6 f n n = 50 0 0.1 0.2 0.3 0 1 2 3 4 5 6 f n n = ∞ Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější) …. diskutabilní je ale ovšem míra zobecnění konkrétního experimentu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Empirický zákon velkých čísel Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty. Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A, která každému jevu A přiřadí nezáporné reálné číslo P(A) z intervalu 0 - 1. . A . B. C . D A P(A) 0 1 Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost P (A) = 1 …………………………… jev jistý P (A) = 0 …………………………… jev nemožný P (A ∩ B) = P (A) . P (B/A) …..……závislé jevy P (A ∩ B) = P (A) . P (B)…………. nezávislé jevy P (A / B) = P (A ∩ B) / P (B) ……….podmíněná pravděpodobnost Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pravděpodobnost výskytu jevu – rozložení dat „vše je možné“: pouze jev s pravděpodobností 0 nikdy nenastane existuje pravděpodobnost výskytu jevů (nedeterministické závěry) 0 pravděpodobnost výskytu x1 počet chlapců v rodině s X dětmi 2 3 4 5 ϕ(x) x výška postavy plocha = pravděpodobnost výskytu pravděpodobnost lze zkoumat retrospektivně i prospektivně Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Spojitá a kategoriální data Základní popisné statistiky Grafický popis dat V. Základní typy dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené.  Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací – histogramů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? – různé typy dat znamenají různou informaci Kolikrát ? Podíl hodnot větší/menší než specifikovaná hodnota ? O kolik ? Větší, menší ? Rovná se ? Procenta odvozené hodnoty Data poměrová Data intervalová Data ordinální Data nominální Spojitá data Diskrétní data Kategoriální otázky Otázky „Ano/Ne“ Samotná znalost typu dat ale na dosažení informace nestačí …………. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? – různé typy dat znamenají různou informaci PRŮMĚR MEDIÁN MODUS Data poměrová Data intervalová Data ordinální Data nominální Spojitá data Diskrétní data Statistika středu X Y = f Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek JAK vznikají informace ? - opakovaná měření informují rozložením hodnot KOLIK se naměřilo CO se naměřilo Diskrétní data Spojitá data A B C D E y x I II III IV V y x X: měřený znak Y: frekvence - absolutní / relativní Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X: Průměrný počet výrobků v prodejně Y: Odhad prostoru průměrně nabízeného k vystavení výrobku X: 1,2 : (1,15 - 1,24) Y: 1,8 : (1,75 - 1,84) X/Y = 0,667 : 1,15 1,84 1,24 1,75 ( ) Odvozená data: Pozor na odvozené indexy Znak X: Hmotnost Znak Y: PlochaPříklad I: Příklad II: + / - 3,8 % + / - 2,5 % + / - 6,2 % průměr (min - max): Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek N: 100 dětí (hemofiliků) x: znak: počet krvácivých epizod za měsíc n(x) – absolutní četnost x p(x) – relativní četnost; p(x) = n(x) / n N(x) – kumulativní četnost hodnot nepřevyšujících x; N(x) = Σ n(t) F(x) – kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu Primární data Frekvenční sumarizace x n(x) p(x) N(x) F(x) 0 20 0,2 20 0,2 1 10 0,1 30 0,3 2 30 0,3 60 0,6 3 40 0,4 100 1,0 0 0 1 2 1 1 3 1 1 2 . . . . . . n = 100 Počtyepizodpron=100hemofiliků t ≤ x DISKRÉTNÍ DATA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? Grafické výstupy z frekvenční tabulky n(x) x p(x) x N(x) x F(x) x3210 0 1 2 3 0 1 2 3 0 1 2 3 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu Příklad: x: koncentrace látky v krvi n = 100 pacientů Primární data Frekvenční sumarizace n = 100 opakovaných měření (100 pacientů) x: koncentrace sledované látky v krvi (20 – 100 jednotek) d(l) – šířka intervalu n(l) – absolutní četnost n(l) / n – intervalová relativní četnost N(x’’) – intervalová kumulativní četnost do horní hranice X’’ F(x’’) – intervalová relativní kumulativní četnost do horní hranice X’’ interv d(l ) n(l) n(l)/n N(x’’) F(x’’) <20, 40) 20 20 0,2 20 0,2 <40, 60) 20 10 0,1 30 0,3 <60, 80) 20 40 0,4 70 0,7 <80, 100) 20 30 0,3 100 1,0 1,21 1,48 1,56 0,31 1,21 1,33 0,33 . . . n = 100 Hodnotypron=100osob SPOJITÁ DATA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční sumarizace spojitých dat x 0 1 20 40 60 80 100 x F(x) Intervalová relativní kumulativní četnost Histogram Výběrová distribuční funkce 0.000 0.005 0.010 0.015 0.020 0.025 f(x)= Intervalová hustota četnosti 20 40 60 80 100 Plocha: n(l) / n n(l) / n d(l) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Počet zvolených tříd a velikost souboru určují kvalitu výstupu k = 10 tříd k = 5 tříd 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 1 2 3 4 5 k = 20 tříd 1,0 2,0 3,0 4,0 5,0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Histogram vyjadřuje tvar výběrového rozložení x xx x x f(x) f(x) f(x)f(x) f(x) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad: věk účastníků vážných dopravních nehod 0 50 100 150 200 250 300 350 0 10 20 30 40 50 60 70 80 0 5 10 15 20 25 30 35 0 10 20 30 40 50 60 70 80 Věk (roky) Věk (roky) Frekvence Správný histogram ? Správný histogram ? Věk 0 - 4 5 - 9 10 - 15 16 - 19 20 - 24 25 - 59 > 60 f 28 46 58 20 114 316 103 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pojem ROZLOŽENÍ - příklad spojitých dat ϕ(x) 0 F(x) Rozložení x Distribuční funkce 0 Je - li dána distribuční funkce, je dáno rozložení x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Výběrové rozložení hodnot lze modelově popsat a definovat tak pravděpodobnost výskytu X f(x) x f(x) x f(x) x ϕ(x) ϕ(x) ϕ(x) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Distribuční funkce jako užitečný nástroj pro práci s rozložením x ϕ(x) 1,00 F(x) P(X x) = Φ(x) = F(x") Φ(x) … distribuční funkce P(X x) = ϕ(x) d(x) M ϕ(x) d(x) = 1 − ∞ ∞ ≤ ≤ F(x): Pravděpodobnost, že se X vyskytuje v intervalu M M Známe-li distribuční funkci, pak známe rozložení sledované veličiny. Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří. Plocha = relativní četnost x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční sumarizace spojitých dat Grafické výstupy z frekvenční tabulky – spojitá data f(x) x 0 1 20 40 60 80 100 F(x) x KVANTIL 0 0.005 0.01 0.015 0.02 0.025 20 40 60 80 100 Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé jednotlivé hodnoty X0.1; X0.9; X0.5; Xθ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním? X0,95 x j(x) 0,95 Φ(x) Hledáme: P(X xθ) = 0,95 = θ xθ = (x0,95) = ? θ = 0,95 … Pravděpodobnost Jakékoliv číslo na ose x je kvantilem 5 % F (xθ ) = θ Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován ≤ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako statistický model Aplikace modelových rozložení Přehled modelových rozložení VI. Modelová rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Klasickým postupem statistické analýzy je na základě vzorku cílové populace identifikovat typ a charakteristiky modelového rozložení dat, využít jeho matematického modelu k popisu reality a získané výsledky zobecnit na hodnocenou cílovou populaci.  Využití tohoto přístupu je možné pouze v případě shody reálných dat s modelovým rozložením, v opačném případě hrozí získání zavádějících výsledků.  Nejklasičtějším modelovým rozložením, od něhož je odvozena celá řada statistických analýz je tzv. normální rozložení, známé též jako Gaussova křivka. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Rozložení hodnot jako model: Normální rozložení N (µ,σ) ϕ(x) µ N (0,1) ϕ(z) 0 Tabelovaná podoba Standardizovaná forma x z z = x - µ σ 2 2 2 )( . 2. 1 )( σ µ πσ ϕ − − = x ex 2 2 . .2 1 )( z ez − = π ϕ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametry charakterizující normální rozložení a jejich význam ϕ(x) x mediánprůměrµ ~ x průměr - ukazatel středu σ2 ~ s2 rozptyl xi x a) b) µ σ ~ s směrodatná odchylka Pravidlo ± 3s koeficient variance c) d) 2 ss = xsc = 1 )( 2 2 − −Σ = n xx s i E (x) ~ x ~ µ D (x) ~ s2 ~ σ2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Rozptyl není univerzálním ukazatelem variability xi x xi s2 = ⇒ neúměrně zvýší s2 Σ(xi – x)2 n - 1 x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako model I. Použitelnost modelu A) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,4; 3.8 n = 7 opakování medián = 1,8 rozptyl (s2) = Je předpoklad normálního rozložení oprávněný ? Jaký předpokládáte možný rozsah hodnot tohoto znaku ? ?? ( ) 03,22,14 7 1 8,34,20,28,16,14,12,1 7 1 7 11 7 11 ==++++++== ∑∑ == i i n i i xx n ( ) 766,0 6 03,2 1 )( 7 1 2 1 2 = − = − − ∑∑ == i i n i i x n xx sm. odchylka (s) = 875,0766,02 ==s průměr = Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako model I. Použitelnost modelu B) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,2; 2,4; 3,8; 8,9 n = 9 opakování průměr = sm. odchylka (s) = Jak hodnotíte model u těchto dat ? medián = 2 ( ) 81,23,25 9 1 9,88,34,22,20,28,16,14,12,1 9 1 9 11 9 11 ==++++++++== ∑∑ == i i n i i xx n ( ) 79,5 8 81,2 1 )( 9 1 2 1 2 = − = − − ∑∑ == i i n i i x n xx 269,279,52 ==s rozptyl (s2) = Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stochastické rozložení jako model Předpoklad: Znak x je rozložen podle daného modelu Znak x je naměřen o n hodnotách s modelovými parametry: x a s Znak x je převeden na formu odpovídající tabulkovému standardu: Využije se tabelované (modelové) distribuční funkce pro testy o rozložení hodnot x Platnost modelu ? 1 2 3 4 σ µ− = x Zi Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako model - příklad Tabulky distribuční funkce • Data z průzkumu jsou publikována jako: Kosti prehistorického zvířete: n = 2000 průměrná délka = 60 cm sm. odchylka (s) = 10 cm Předpokládáme, že je oprávněný model normálního rozložení Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ? Kolik kostí mělo zřejmě délku větší než 66 cm ? Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost 66 cm: P (x > 66) ? ( ) ( ) 27425,06,01) 10 6066 (1)66(166 =−= − ≤ − −=≤−=> F s mx PxPxP ( ) )66(166 ≤−=> xPxP a platí, že ( )XFxXP =≤ )( σ µ− = x Z tedy ( ) 5482000*27425,0*66 ==> nxP ( ) ( ) ( ) 22575,006,0 10 6066 10 6060 6660 =−=      − << − =<< FFZPxP 22,6% kostí leží v rozsahu 60-66cm Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Rozložení Parametry Stručný popis Normální Průměr (µ) Rozptyl (σ2) Symetrická funkce popisující intervalovou hustotu četnosti; nejpravděpodobnější jsou průměrné hodnoty znaku v populaci. Log- normální Medián Geometrický průměr Rozptyl (σ2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Weibullovo α - parametr tvaru β - parametr rozsahu hodnot Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. Rozložení využívané i jako model k odhahu LC50 nebo EC50 u testů toxicity. Rovnoměrné Medián Geometrický průměr Rozptyl (σ2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Triangulární f(x) = [b - ABS (x - a)] / b2 a - b < x < a + b Pravděpodobnostní funkce pro typ rozložení, kdy jsou střední hodnoty výrazně pravděpodobnější než hodnoty okrajové. Gamma Parametry distribuční funkce: α - parametr tvaru β - parametr rozsahu hodnot Umožňuje flexibilně modelování distribučních funkcí nejrůznějších tvarů. Např. χ2 rozložení je rozložení typu Gamma. Gamma rozložení s a = 1 je známo jako exponenciální rozložení. Stručný přehled modelových rozložení I. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stručný přehled modelových rozložení II.Rozložení Parametry Stručný popis Beta Parametry distribuční funkce: α - parametr tvaru β - parametr rozsahu hodnot Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do intervalu [0; 1]. Je matematicky komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné v ohraničeném intervalu. Studentovo Stupně volnosti uvažuje velikost vzorku Průměr Rozptyl Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k normálnímu rozložení. Pearsonovo Stupně volnosti uvažuje velikost vzorku Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat. Fisher- Snedecorovo Dvojí stupně volnosti uvažuje velikost dvou vzorků Používá se k testování hodnot průměrů - F test pro porovnání dvou výběrových rozptylů; F test, ANOVA atd. Stručný přehled modelových rozložení II. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Log-normální rozložení jako častý model reálných znaků ϕ (x) Medián xPrůměr U asymetrických rozložení je medián velmi vhodným alternativním ukazatelem středu Průměr - těžiště osy x Medián - frekvenční střed x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Log-normální rozložení lze jednoduše transformovat f(x) Medián xPrůměr f(x) Medián ln (x) Průměr= Y = Ln [X] Y ± Standardní chyba EXP (Y) = Geometrický průměr X ∑= = n i i n Y Y 1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu Logaritmická transformace Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění proporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient variance, ačkoli mají různý průměr. Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale také vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logaritmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = ln (X+1). Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometrický průměr původních dat. Transformace dat - legitimní úprava rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných pokusech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci: nebo nebo Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecně jestliže s2 x = k (výběrový průměr). Odmocninová transformace xY = 1+= xY 1++= xxY Transformace dat - legitimní úprava rozložení Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi n hodnocenými jedinci - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze souborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace však není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je: - tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový počet jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit transformaci: Arcsin transformace pY arcsin=       + + + + = 1 1 arcsin 1 arcsin 2 1 n x n x Y Transformace dat - legitimní úprava rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Popisné statistiky dat Vizualizace dat VII. Popisná statistika dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Popisná analýza dat je po vizualizaci dat dalším krokem v procesu statistického hodnocení. Poskytuje představu o rozsazích hodnocených dat a umožňuje vyhodnotit, srovnámí s literárními údaji nebo dosavadní zkušeností, jejich realističnost.  Již při výběru vhodné popisné statistiky se uplatňuje znalost rozložení dat. Některé popisné statistiky, odvozené od modelových rozložení, je možné využít pouze v případě, že data mají dané modelové rozložení. Typickým příkladem je průměr a směrodatná odchylka, jejichž předpokladem je přítomnost normálního rozložení. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Typy proměnných  Kvalitativní/kategorická  binární - ano/ne  nominální - A,B,C … několik kategorií  ordinální- 1<2<3 …několik kategorií a můžeme se ptát, která je větší  Kvantitativní  nespojitá – čísla, která však nemohou nabývat všech hodnot (např. počet porodů)  spojitá – teoreticky jsou možné všechny hodnoty (např. krevní tlak) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řada dat a její vlastnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Frekvenční rozložení Kategorie Četnost B 5 C 8 D 1 Kvalitativní data Tabulka s četností jednotlivých kategorií. Kvantitativní data Četnost hodnot rozložení v jednotlivých intervalech. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametry rozložení  Soubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení  Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele:  Středu (medián, průměr, geometrický průměr)  Šířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka)  Tvaru rozložení (skewness, kurtosis)  Kvantily rozložení – kolik % řady dat leží nad a pod kvantilem ϕ(x) x MediánPrůměr Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Populace a vzorek  Populace představuje veškeré možné objekty vzorkování, např. veškeré obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné parametry rozložení  Z populace je prováděno vzorkování za účelem získání reprezentativního vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je také velikost vzorku, ze vzorku získáme odhady parametrů rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele středu rozložení I  Průměr – vhodný ukazatel středu u normálního/symetrického rozložení, kde xi jsou jednotlivé hodnoty a n jejich počet  Medián – jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem  V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné ∑= == n i i n x xxE 1 )( ϕ(x) Medián x Průměr ϕ(x) x MediánPrůměr Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele středu rozložení II. log Medián, geometrický průměr Průměr Průměr (logaritmovaných dat)  Geometrický průměr – antilogaritmus průměru logaritmovaných dat, je vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu  Takto asymetrická data je možné převést logaritmickou transformací na normální rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele šířky rozložení  Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru.  Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení  Směrodatná odchylka je druhá odmocnina z rozptylu  Koeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr 3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty v rozložení – ukazatel problémů s normalitou dat 1-n )(x 2 i2 ∑ − = x s Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele tvaru rozložení  Skewness – ukazatel „šikmosti“ rozložení, asymetrie rozložení  Kurtosis – ukazatel „špičatosti/plochosti“ rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Další parametry rozložení  Počet hodnot – důležitý ukazatel, znamená jak moc lze na data spoléhat  Střední chyba odhadu průměru - je založena na směrodatné odchylce rozložení a počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozložení, tím je náš odhad skutečného průměru přesnější.  Suma hodnot  Modus – nejčastější hodnota, vhodný např. při kategoriálních datech  Minimum, maximum  Rozsah hodnot  Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Bodové a intervalové odhady Význam intervalu spolehlivosti VIII. Provádění odhadů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Dva základní přístupy statistického hodnocení jsou popis dat a testování hypotéz. Při popisu dat je třeba si uvědomit, že popisné statistiky získané ze vzorku nejsou skutečnou hodnotou v cílové populaci, ale pouze jejím odhadem. Přesnost odhadu závisí jednak na variabilitě dat, jednak na velikosti vzorku, při navzorkování celé cílové populace by výsledná popisná statistika již byla přesnou hodnotou, nikoliv odhadem.  Odhady a s nimy související intervaly spolehlivosti jsou univerzálním statistickým postupem a je možné je dopočítat k libovolné popisné statistice. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika v průzkumném studiu Provádění odhadů Testy hypotéz Cílová populace Vzorek Ověření Výsledek POPIS OTÁZKY Závěr ? Interpretace Závěr ? Reprezentativnost ? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek INTERVAL SPOLEHLIVOSTI velmi užitečná míra věrohodnosti odhadů P (L1 < Odhad < L2) ≥ 1 - α/2Obecný tvar: Odhadovaný parametr Kvantil modelového rozložení ± × KV pro (1 - α/2) Intervalové ODHADY Interval pravděpodobných hodnot Spolehlivost Bodové Číslo (chyba) (Odhad parametru) (Pravděpodobnostní interpretace) SE (odhadu) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek NORMÁLNÍ ROZLOŽENÍ: model pro odhad průměru Cílová populace Vzorek: n ϕ(x) Xµ X ...... odhad průměru n;x; s n;x; s n n;x; c n;x; Interval spolehlivost i pro odhad průměru Prezentace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek NORMÁLNÍ ROZLOŽENÍ: odhad průměru je rovněž normálně rozložen X Náhodné výběry o n = 100 Cílová populace X: ϕ(x) Xµ X1 X2 X3 X4 .... Xi µ µ ± 3 . s n s n ~ Standardní chyba odhadu průměru znak x x: µ ± 3s průměr x )(xϕ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ODHAD PRŮMĚRU: Vztahy Bodový Intervalový       n s x; ( ) ( ) n s tx n s tx nn ⋅+≤≤⋅− −= − −= − 1 2 1 1 2 1 ν α ν α µ ( ) n s tx n ⋅± −= − 1 2 1 : ν αµ ( ) x n stx ⋅± −= − 1 2 1 : ν αµ t ... příslušný kvantil Studentova rozložení 1 - α ... spolehlivost hodnoceného intervalu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Interval spolehlivosti odhadu průměru je pouze informací o přesnosti tohoto odhadu Interval spolehlivosti je hodnocen pro (1 - α) procentní spolehlivost Výběrové populace Cílová populace Šířku intervalu určuje: a) velikost vzorku b) rozptyl (variabilita) vzorku c) požadovaná spolehlivost ϕ(x) -3s +3sµ Původní proměnná x ϕ(x) Výběr n=10 pro odhad průměru ϕ(x) Výběr n=100 pro odhad průměru µ µ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ODHAD PRŮMĚRU: Příklad X: Cena výrobku v n = 21 obchodech Data: 95% Interval spolehlivosti: t1-α/2 = t 0,975 = 2,086 (u = n-1) 3,423 ≤ µ ≤ 3,737 P (3,423 ≤ µ ≤ 3,737) ≥ 0,95 (20) x sx .086,2: ±µ 12,0;58,3;21 2 === sxn 075,02112,0 ==x s 075,0.086,258,3075,0.086,258,3 +≤≤− µ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Interval spolehlivosti pro odhad rozptylu Interval spolehlivosti ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )1 21 2 2 1 2 2 2 1 21 2 2 1 2 2 2 1 21 2 2 2 1 2 2 2 2 11 :nproc) 11 :prob) 11 :proa) − − − − − − − − − − ≤≤ − − ≤≤ − − ≤≤ − nn nn nn n sn nn sn snsn snsn αα αα αα χ σ χ σ χ σ χ σ χ σ χ σ -směrodatná odchylka odhadu průměru (S.E.) nσ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Linie 1 n = 50 s2(x) = 10 (mg/ml)2 s(x) = 3,16 mg/ml x = 2 mg/ml sx = 0,447 mg/ml Interval spolehlivosti pro odhad rozptylu: příklad Příklad: měření produkce metabolitu (x) u buněk dvou nádorových linií Linie 1 n = 100 s2(x) = 16 (mg/ml)2 s(x) = 4 mg/ml x = 2,8 mg/ml sx = 0,4 mg/ml 36,73 16992 42,128 1699 ∗ ≤≤ ∗ σ c = 1,43 95% IS c = 1,58 56,31 10492 22,77 1049 ∗ ≤≤ ∗ σ 95% IS 53,1598,6 2 ≤≤ σ 49,1333,12 2 ≤≤ σ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Výpočet mediánu z frekvenčních dat a jeho odhady a) Určete medián tohoto souboru dat: 1,3,4,5,7,8 [4,5] b) Určete medián tohoto souboru dat: 5,1,8,3,4 [4] Frekvence zastoupení dosahuje nejvyšší hodnoty u třídy od 40,5 – 60,5 dnů. Druhý (menší) frekvenční pík lze pozorovat u intervalu od 100,5 do 120,5 dní. Existence dvou maxim (bimodální data) je důkazem nenormality tohoto konkrétního souboru. Class limits (days) 0,5- 20,5 20,5- 40,5 40,5- 60,5 60,5- 80,5 80,5- 100,5 100,5- 120,5 120,5- 140,5 140,5- 160,5 160,5- 180,5 180,5- 200,5 200,5- 220,5 Frequency 8 33 50 32 15 20 11 6 2 1 1 Cumulative frequency 8 41 91 123 138 158 169 175 177 178 179 c) Tento příklad je ukázkou výpočtu mediánu u velkého souboru dat. V následující tabulce je uveden rozbor rozložení souboru dat od 179 krav, kde sledovanou veličinou byl počet dní od narození telete do znovuobnovení menstruačního cyklu. Uvedená data jsou velmi zjednodušena a jsou zde uvedena pouze pro ilustraci: Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek kde f gl XM L ,+= Jelikož n =179, pak je medián devadesátá hodnota od počátku souboru, a dále je zřejmé, že bude velmi blízko horní hranici třídy 40,5 – 60,5 dní. Za předpokladu, že 50 hodnot této třídy je v ní rovnoměrně rozmístěno lze použít následující vzorec: XL = hodnota X (sledované veličiny) na spodní hranici třídy obsahující medián: zde 40,5 dní g = pořadová hodnota mediánu minus kumulativní frekvence do horní hranice předchozí třídy, tj. 90 - 41= 49 l = třídní interval: 20 dní f = frekvence ve třídě obsahující medián Dosadíme-li do uvedeného vzorce, získáme odhad mediánu jako 60 dní. Průměr tohoto datového souboru je 69,9, což je významně odlišná hodnota, a potvrzuje znovu nenormální charakter dat. U velkých vzorků z normálních populací je výběrový odhad mediánu normálně rozložen kolem populační hodnoty se směrodatnou odchylkou . U normálního rozložení, kde medián i průměr představují odhad stejné hodnoty, je medián méně přesný než průměr. Proto hlavní význam mediánu spočívá u nesymetrických distribucí. Existuje velmi jednoduchá metoda pro výpočet intervalu spolehlivosti pro odhad mediánu a jako horní a spodní hranice slouží pořadová čísla vypočítaná podle následujícího vztahu: nσ253,1 kde nzn , 22 )1( ± + n představuje velikost datového souboru, z je kvantil standardizovaného normálního rozložení pro příslušnou pravděpodobnost. U našeho příkladu je n = 179 a pro 95% interval spolehlivosti je z přibližně rovno 2. Horní a spodní limit pro odhad mediánu tedy je a 103. 95% interval spolehlivosti je tedy tvořen počty dní, které mají pořadí 77 a 103:7717990 =± 77: Počet dní = 40,5+(36)(20)/50 = 55 dní 103: Počet dní = 60,5+(12)(20)/32 = 68 dní Medián cílové populace byl tedy odhadnut 95% intervalem spolehlivosti jako hodnota ležící mezi 55 a 68 dny. Interpretujte tento výsledek. Výpočet mediánu z frekvenčních dat a jeho odhady Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Princip statistického testování hypotéz Pojmy statistických testů Normalita dat a její význam pro testování IX. Základy testování hypotéz Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Testování hypotéz je po popisné statistice druhým hlavním směrem statistických analýz. Při testování pokládáme hypotézy, které se snažíme s určitou pravděpodobností potvrdit nebo vyvrátit.  Tzv. nulovou hypotézu lze nejlépe popsat jako situaci, kdy předpokládáme vliv náhody (rozdíl mezi skupinami je pouhá náhoda, vztah dvou proměnných je pouhá náhoda apod.), alternativní hypotéza předpokládá vliv nenáhodného faktoru.  Výsledkem statistického testu je v zásadě pravděpodobnost nakolik je hodnocený jev náhodný nebo ne, při překročení určité hranice (nejčastěji méně než 5% pravděpodobnost, že jev je pouhá náhoda) deklarujeme, že pravděpodobnost náhody je pro nás dostatečně nízká abychom jev prohlásili za nenáhodný  Statistická významnost je ovlivnitelná velikostí vzorku a tak je pouze indicií k prohlášení např. rozdílu dvou skupin pacientů za skutečně významný. V ideální situaci je nezbytné aby rozdíl byl významný nejenom statisticky (=nenáhodný), ale i prakticky (=nejde pouze o artefakt velikosti vzorku). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika v průzkumném studiu Provádění odhadů Testy hypotéz Cílová populace Vzorek Ověření Výsledek POPIS OTÁZKY Závěr ? Interpretace Závěr ? Reprezentativnost ? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Princip testování hypotéz Cílová populace Vzorek Reprezentativnost ? Závěr ? Interpretace  Formulace hypotézy  Výběr cílové populace a z ní reprezentativního vzorku  Měření sledovaných parametrů  Použití odpovídajícího testu závěr testu  Interpretace výsledků Měření parametrů Testy hypotéz ? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistické testování – základní pojmy Nulová hypotéza HO Alternativní hypotéza HA Testová statistika Kritický obor testové statistiky 0 T Pozorovaná hodnota – Očekávaná hodnota Variabilita dat Testová statistika = HO: sledovaný efekt je nulový HA: sledovaný efekt je různý mezi skupinami * Velikost vzorku Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model – testová statistika. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Co znamená náhodný rozdíl? Je tu rozdíl? Jak by vypadal rozdíl, kdyby byl náhodný? Nasimulujme si ho !!!  Léčba Placebo X2 X1 X2 X1 Rozdíl? Rozdíl X2 X1 Rozdíl …. Mnoho- krát Rozdíl ? Rozložení možných náhodných rozdílů Kde leží skutečný rozdíl? Jak moc je pravděpodobné, že je náhodný? 0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Možné chyby při testování hypotéz Závěr testu Hypotézu nezamítáme Hypotézu zamítáme β 1- β 1- α α Skutečnost H0 Platí H0 Neplatí  I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby. Správné rozhodnutí Správné rozhodnutí Chyba II. druhu Chyba I. druhu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Význam chyb při testování hypotéz Pravděpodobnost chyby 1. druhu α Pravděpodobnost nesprávného zamítnutí nulové hypotézy Pravděpodobnost chyby 2. druhu β Pravděpodobnost nerozpoznání neplatné nulové hypotézy Síla testu 1-β Pravděpodobnostně vyjádřená schopnost rozpoznat neplatnost hypotézy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametrické vs. neparametrické testy Parametrické testy Neparametrické testy • Mají předpoklady o rozložení vstupujících dat (např. normální rozložení) • Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy neparametrické • Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný • Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném rozložení • Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek One-sample vs. two sample testy One – sample testy Two – sample testy • Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční hodnotou (popřípadě se statistickým parametrem cílové populace) • V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace) • Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek • Srovnávají navzájem dva vzorky (two sample, dvouvýběrové vzorky) • V testu jsou srovnávány dvě rozložení hodnot • Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek • Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek One-tailed vs. Two-tailed testy One – tailed testy Two – tailed testy • Hypotéza testu je postavena asymetricky, tedy ptáme se na větší než/ menší než • Test může mít pouze dvojí výstup – jedna z hodnot je větší (menší) než druhá a všechny ostatní případy • Hypotéza testu se ptá na otázku rovná se/nerovná se • Test může mít trojí výstup – menší - rovná se – větší než • Situace nerovná se je tedy souhrnem dvou možných výstupů testu (menší+větší) Kritický obor Kritický obor Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nepárový vs. párový design Nepárový design Párový design • Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např. lidé z různých zemí, nezávislé skupiny pacientů s odlišnou léčbou atd. • Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat • Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci, reakce stejného kmene krys atd. • Vazba může být buď přímo dána nebo pouze předpokládána (v tom případě je nutné ji ověřit) • Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich původních datech Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistické testy a normalita dat  Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu nějakého rozložení) – např. t-testy  Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet (t-rozložení) a test tak může lhát  Řešením je tedy:  Transformace dat za účelem dosažení normality jejich rozložení  Neparametrické testy – tyto testy nemají žádné předpoklady o rozložení dat Typ srovnání Parametrický test Neparametrický test 2 skupiny dat nepárově: Nepárový t-test Mann Whitney test 2 skupiny dat párově: Párový t-test Wilcoxon test, sign test Více skupin nepárově: ANOVA Kruskal- Wallis test Korelace: Pearsonův koeficient Spearmanův koeficient Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Testy normality  Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí. 145 155 165 175 185 195 205 215 0 50 100 150 200 250 •Test dobré shody V testu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě histogramu), tyto intervaly jsou normalizovány (převedeny na normální rozložení) a podle obecných vzorců normálního rozložení jsou k nim dopočítány očekávané hodnoty v intervalech, pokud by rozložení bylo normální. Pozorované normalizované četnosti jsou poté srovnány s očekávanými četnostmi pomocí χ2 testu dobré shody. Test dává dobré výsledky, ale je náročný na n, tedy množství dat, aby bylo možné vytvořit dostatečný počet tříd hodnot. •Kolgomorov Smirnov test Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše se symetrií hodnot než přímo s normalitou. Jde o neparametrický test pro srovnání rozdílu dvou rozložení. Je založen na zjištění rozdílu mezi reálným kumulativním rozložením (vzorek) a teoretickým kumulativním rozložením. Měl by být počítán pouze v případě, že známe průměr a směrodatnou odchylku hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho modifikace – Lilieforsův test. •Shapiro-Wilk`s test Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou testu, zvláště ve srovnání s alternativními typy testů, je zaměřen na testování symetrie. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Šikmost a špičatost jako testy normality  Parametry normálního rozložení, skewness a kurtosis mohou být využity pro testování normality, ale pouze pro velké vzorky (šikmost – 100, špičatost – 500). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Rootgram Rootgram deviation deviation -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0 10 20 305 15 Pb 25 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 0 20 8040 Zn 60 Grafická diagnostika normality Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Hanging Histobars. Hanging Histobars. frekvence frekvence 0 -0, 05 0 0,1 -0,1 0,2 -50 10 20 Pb 30 0,05 0,15 0 -0,28 -0,8 0,12 -0,48 0,32 -50 -10 10 30 Zn 50 70 90 Grafická diagnostika normality Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Cumulativepercent Cumulativepercent Normal Probability Plot Normal Probability Plot 5 20 80 1 99 50 95 0,1 0 20 40 Zn 60 99,9 80 5 20 80 1 99 50 95 0,1 0 10 20 Pb 305 15 25 99,9 Grafická diagnostika normality Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0,1 0,15 0,05 0,2 0,25 0 10 20 Pb 25 0,3 305 15 0,2 0,4 0,6 0 20 40 Zn 60 0,8 80 Frequency Histogram Frequency Histogram Frequency Frequency Grafická diagnostika normality Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jednovýběrový t-test Jednovýběrový test rozptylu X. Statistické testy o parametrech jednoho výběrů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Jednovýběrové statistické testy srovnávají některou popisnou statistiku vzorku (průměr, směrodatnou odchylku) s jediným číslem, jehož význam je ze statistické hlediska hodnota cílové populace  Z hlediska statistické teorie jde o ověření, zda daný vzorek pochází z testované cílové populace. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek “One sample“ testy I H0 HA Testová statistika Interval spolehlivosti t t > t t t < t t |t| > t Průměr – cílová vs. výběrová populace n s μx t − = (n-1) 1-α (n-1) α (n-1) 1-α/2 µ≤x µ≥x µ=x µ≠x µx V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek “One sample“ testy II Rozptyl – cílová vs. výběrová populace H0 HA Testová statistika Interval spolehlivosti 2 2 2 σ 1).s(n χ − = 2 χ 2 χ 2 χ 2 -1 2 χχ α> 22 χχ α< 2 /2 2 χχ α< 2 2/-1 2 χχ α> (n-1) nebo (n-1) 22 σ≤s 22 σ≥s 22 σ=s 22 σ≠s 22 σs V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Srovnání odhadu průměru s předpokládanou hodnotou I Koncentrace antibiotika v cílovém orgánu Při 1000 měřeních antibiotika byla zjištěna v cílovém orgánu průměrná koncentrace 202,5 jednotek a směrodatná odchylka 44 jednotek. Požadovaná koncentrace antibiotika je 200 jednotek. 1) Je daný rozdíl 2,5 významný vzhledem k variabilitě znaku na hladině významnosti 5%? 2) Jaká je skutečná hladina významnosti? 797,11000 44 5,2 == − = n s x t µ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Srovnání odhadu průměru s předpokládanou hodnotou II Aktivita enzymu v buňkách Při zjišťování aktivity enzymu v buňkách na vzorku 25 měření byl zjištěn průměr 3,5 jednotek a směrodatná odchylka 1. 1. otázka zní, zda se naměřené hodnoty našeho vzorku liší od výsledků dřívější rozsáhlé studie zaměřené na celou cílovou populaci, kde byla zjištěna průměrná aktivita 2,5 jednotky? H0: x=µ tedy two tailed test 525 1 5,25,3 = − = − = n s x t µ 064,224 975,0 =t 24 2/1 α−> tt H0 zamítnuta při α≤0,05 2. otázka – jakou minimální odchylku X od jiné hodnoty bychom zachytili při daných hodnotách? od jiné hodnoty bychom zachytili při daných hodnotách? n s d n s x t = − = µ  s n t d ν α 2/1− =  1 5 064,2 =d 3. za předpokladu, že z praktického hlediska je významná odchylka již 0,2 jednotky, jaký minimální počet měření musíme provést, abychom ji byli schopni prokázat ? n s d n s x t = − = µ  2 2/1       = − s d t n ν α Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 27 měsíců Srovnání odhadu průměru s předpokládanou hodnotou III  Příklad: Nový lék na rakovinu plic (předpokládáme studii s dostatečně velkým n) Průměrná doba přežití pacientů je prodlužuje nový lék přežití? Průměrná doba přežití bez léku je 22 měsíců H0: µ = 22,2 měsíce H1: µ > 22,2 měsíce Testová statistika: T = 6,120 5% kritická hodnota normálního rozdělení 1,645 Jelikož hodnota statistiky T překračuje kritickou hodnotu Zamítáme H0 Doba přežití léčených pacientů se oproti neléčeným prodlouží. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový párový a nepárový t-test Neparametrické alternativy t-testu XI. Statistické testy o parametrech dvou výběrů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Jedním z nejčastějších úkolů statistické analýzy dat je srovnání spojitých dat ve dvou skupinách pacientů. Na výběr je celá škála testů, výběr konkrétního testu se pak odvíjí od toho, zda je o srovnání párové nebo nepárové a zda je vhodné použít test parametrický (má předpoklady o rozložení dat) nebo neparametrický (nemá předpoklady o rozložení dat, nicméně má nižší vypovídací sílu).  Nejznámějšími testy z této skupiny jsou tzv. t-testy používané pro srovnání průměrů dvou skupin hodnot Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: párové a nepárové I  Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle designu experimentu na testy párové a nepárové.  Základním testem pro srovnání dvou nezávislých rozložení spojitých čísel je nepárový two-sample t-test  Základním testem pro srovnání dvou závislých rozložení spojitých čísel je párový two-sample t-test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: párové a nepárové II Data Nezávislé uspořádání Párové uspořádání ………. ………. ………. X1 X2 X1- X2 = D ………. ………. X1 X2 Design uspořádání zásadně ovlivňuje interpretaci parametrů 2 Ds D n 0D:H0 = (n = n2 = n1) 210 μμ:H = 2 1 2 1 s x n 2 2 2 2 s x n Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Identifikace párovitosti (Korelace, Kovariance) ………. ………. X1 X2 X1 X2 X1 X2 r = 0,954 (p < 0,001) r = 0,218 (p < 0,812) Dvouvýběrové testy: párové a nepárové III Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Předpoklady nepárového dvouvýběrového t-testu  Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací  Nezávislost obou srovnávaných vzorků  Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být testována testy normality  Rozptyl v obou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován několika možnými testy – Levenův test nebo F-test.  Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické srovnání a ověření předpokladů normality a homogenity rozptylu – nenahradí statistické testy, ale poskytne prvotní představu. 0 ϕ(x) μ | | | • • | | • • X Varianta 1 Varianta 2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nepárový dvouvýběrový t-test – výpočet I 1. nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two tailed test 2. prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a nehomogenita rozptylu, provést F –test F-test pro srovnání dvou výběrových rozptylů •Používá se pro srovnání rozptylu dvou skupin hodnot, často za účelem ověření homogenity rozptylu těchto skupin dat. • V případě ověření homogenity je testována hypotéza shody rozptylů (two tailed); v případě shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t-testu, v opačném případě není vhodné test počítat. H0 HA Testová statistika 2 2 2 1 σσ ≤ 2 2 2 1 σσ ≥ 2 2 2 1 σσ < 2 2 2 1 σσ > 2 2 2 1 σσ = 2 2 2 1 σσ ≠ 2 2 2 1 s s F = 2 1 2 2 s s F = ( ) ( )2 2 2 1 2 2 2 1 ;min ;max ss ss F = Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nepárový dvouvýběrový t-test – výpočet II 3. Výpočet testové statistiky (stupně volnosti jsou ): 4. výsledné t srovnáme s tabulární hodnotou t pro dané stupně volnosti a α (obvykle α=0,05) 5. Lze spočítat interval spolehlivosti pro rozdíl průměrů (např. 95%), počet stupňů volnosti a s2 odpovídají předchozím vzorcům ( ) ( ) 2 11 21 2 22 2 112 −+ −+− = nn snsn s 221 −+= nnυ vážený odhad rozptylu 2 1 2 0,975 1 2 1 2 0,975 1 2 1 1 ( ) ( ) ( )x x t SE x x x x t s n n   − ± − = − ± +          + − == 21 2 21 11)( _ nn s xx ěrůrozdílprůoSE průrůměRozdíl t Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový t-test - příklad Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou zvýšenou dávkou potravy. Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy pak 24 ovcí. • Vlastní experiment byl prováděn tak, že na začátku máme 54 ovcí (ideálně stejného plemene, stejně staré atd.), které náhodně rozdělíme do dvou skupin (náhodné rozdělování objektů do pokusných skupin je objektem celého specializovaného odvětví statistiky nazývaného randomizace). Poté co experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využití nepárového t-testu. Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na kterých můžeme posoudit normalitu a homogenitu rozptylu, kromě okometrického pohledu můžeme pro ověření normality použít testy normality, pro ověření homogenity rozptylu pak F-test • Pokud platí všechny předpoklady Two sample nepárového t-testu, můžeme spočítat testovou charakteristiku, výsledné t je 2,43 s 52 stupni volnosti, podle tabulek je a t0,975 (52)= 2,01, tedy t> t0,975 (52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou. • Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91 kg. To, že konfidenční interval nezahrnuje 0 je dalším potvrzením, že mezi skupinami je významný rozdíl – jde o další způsob testování významnosti rozdílů mezi skupinami dat – nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0). ( ) ( ) 2 11 21 2 22 2 112 −+ −+− = nn snsn s 221 −+= nnυ 2 1 2 0,975 1 2 1 2 0,975 1 2 1 1 ( ) ( ) ( )x x t SE x x x x t s n n   − ± − = − ± +          + − == 21 2 21 11)( _ nn s xx ěrůrozdílprůoSE průrůměRozdíl t Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Neparametrické alternativy nepárového t-testu X1 X2 ALL Rank ALL X1 rank X2 rank 27 25 25 5 6 5 35 29 29 7,5 11 7,5 38 31 31 9 13 9 37 23 23 4 12 4 39 18 18 2 14 2 29 17 17 1 7,5 1 41 32 32 10 15 10 19 19 3 3 27 6 35 11 38 13 37 12 39 14 29 7,5 41 15 Mann Whitney U-test •Stejně jako řada jiných neparametrických testů počítá i tento test s pořadím dat v souborech namísto s originálními daty. Jde o neparametrickou obdobu nepárového t-testu a z těchto neparametrických testů má nejvyšší sílu testu (95% párového t-testu). •V případě Mann-Whitney testu jsou nejprve čísla obou souborů sloučena a je vytvořeno jejich pořadí v tomto sloučeném souboru, pak jsou hodnoty vráceny do původních souborů a nadále se pracuje již jen s jejich pořadím. •Pro oba soubory je tedy vytvořen součet pořadí a menší z obou součtů je porovnán s kritickou hodnotou testu, pokud je tato hodnota menší než kritická hodnota testu, zamítáme nulovou hypotézu shody distribučních funkcí obou skupin. •Podobným způsobem je počítán i Wilcoxon rank sum test (pozor, existuje ještě Wilcoxnův párový test!!!) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Mann – Whitney U test - příklad  17 štěňat bylo trénováno v chození na záchod metodou pozitivního posilování (pochvala, když jde na záchod venku) nebo negativního (trest, když jde na záchod doma). Jako parametr bylo měřeno, za kolik dní je štěně vycvičeno.  nulová hypotéza je, že není rozdíl v metodách tréninku, tedy, že oběma metodami je štěně vycvičeno za stejnou dobu.  po srovnání rozložení + malý počet hodnot je vhodné použít neparametrický test  je vytvořeno pořadí sloučených hodnot  pořadí hodnot v jednotlivých skupinách dat je sečteno a menší ze součtů je použit pro srovnání s kritickou hodnotou testu  výsledkem testu je p<α, nulovou hypotézu tedy zamítáme a výsledkem testu je, že pozitivní působení při výcviku štěňat dává lepší výsledky pozitivne negativne 30 35 40 45 50 55 60 65 70 75 80 délkavýcviku Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Párové dvouvýběrové testy – předpoklady  Skupiny dat jsou spojeny přes objekt měření, příkladem může být měření parametrů pacienta před léčbou a po léčbě (nemusí jít přímo o stejný objekt, dalším příkladem mohou být např. krysy ze stejné linie).  Oba soubory musí mít shodný počet hodnot, protože všechna měření v jednom souboru musí být spárována s měřením v druhém souboru. Při vlastním výpočtu se potom počítá se změnou hodnot (diferencí) subjektů v obou souborech.  Před párovým testem je vhodné ověřit si zda existuje vazba mezi oběma skupinami – vynesení do grafu, korelace. Existuje několik možných designů experimentu, stručně lze sumarizovat: 1. pokus je párový a jako párový se projeví 2. párové provedení pokusu – párově se neprojeví • možná párovost není • špatně provedený pokus – malé n, velká variabilita, špatný výběr jedinců 3. čekali jsme nezávislé a jsou 4. čekali jsem nezávislé a nejsou • vazba • náhoda Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Párový dvouvýběrový t-test  Tento test nemá žádné předpoklady o rozložení vstupních dat, protože je počítán až na základě jejich diferencí.  Tyto diference by měly být normálně rozloženy a otázkou v párovém t-testu je, zda se průměrná hodnota diferencí rovná nějakému číslu, typicky jde o srovnání s nulou jako důkaz neexistence změny mezi oběma spárovanými skupinami.  V podstatě jde o one sample t-test, kde místo rozdílu průměru vzorku a cílové populace je uveden průměr diferencí a srovnávané číslo (0 v případě otázky, zda není rozdíl mezi vzorky).  Pro srovnání s 0 (testovou statistikou je t rozložení):  Někdy je obtížné rozhodnout, zda jde nebo nejde o párové uspořádání, párový test by měl být použit pouze v případě, že můžeme potvrdit vazbu (korelace, vynesení do grafu), jedním z důvodů proč toto ověřovat je fakt, že v případě párového t-testu není nutné brát ohled na variabilitu původních dvou souborů, tento předpoklad však platí pouze v případě vazby mezi proměnnými. Výpočet obou typů testů se vlastně liší v použité s, jednou jde o s diferencí, v druhém případě o složený odhad rozptylu obou souborů.  Zda je párové uspořádání efektivnější lze určit na základě:  Síly vazby  Je-li sD výrazně menší než sx1-x2  Závislost je možné rozepsat pomocí vzorce:  v případě Cov=0, tedy v případě neexistence vazby pak sD 2 odpovídá součtu původních rozptylů, tedy přibližně Sx1-x2. D t n s = 1nυ= − 1 2 2 2 2 1 22 ( ; )D x xs Cov x xσ σ≅ + − Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Párový dvouvýběrový t-test – příklad Byl prováděn pokus s dietou 11 diabetických psů, každý pes byl vystaven dvěma dietám s odlišným typem sacharidů (snadno vstřebatelné X pozvolna se rozkládající na glukózu), hodnoty krevní glukózy v průběhu jednotlivých diet mají být srovnány pro zjištění vlivu diety na hladinu krevní glukózy. Protože každý pes absolvoval obě diety, jde o párové uspořádání, kdy výsledky hodnoty v obou pokusech jsou spojeny přes pokusné zvíře. pes1 pes2 pes3 pes4 pes5 pes6 pes7 pes8 pes9 pes10 pes11 low high 4 6 8 10 12 14 16 18 20 22 24 1. Nulová hypotéza zní, že skutečný průměrný rozdíl mezi oběma dietami je 0, alternativní hypotéza zní, že to není 0. 2. Pro každého psa je spočítán rozdíl mezi jeho hladinou glukózy při obou dietách a měly by být ověřeny předpoklady pro one sample t-test – tedy alespoň přibližně normální rozložení. 3. Je spočítána testová charakteristika, výpočet vlastně probíhá jako one-sample t-test, kde je zjišťována významnost průměru diferencí obou souborů jako rozdíl mezi touto hodnotou a nulou (nula je hodnota, kterou by průměrná diference měla nabývat, pokud platí nulová hypotéza). T=4.37 s 10 stupni volnosti, skutečná hodnota p=0,0014 a tedy na hladině p=0,05 můžeme nulovou hypotézu zamítnou 4. Závěrem můžeme říci, že nulová hypotéza neexistence rozdílu mezi oběma dietami byla zamítnuta, což znamená, že high-fibre dieta má významný vliv na snížení hladiny krevní glukózy. _ _ _ _ ( ) rozdíl průměru vzorku a populace x x t n sSE průměru s n µ µ− − = = = Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Neparametrická obdoba párového t-testu Wilcoxon test  Jsou vytvořeny diference mezi soubory, je vytvořeno jejich pořadí bez ohledu na znaménko a poté je sečteno pořadí kladných a pořadí záporných rozdílů. Menší z těchto dvou hodnot je srovnána s kritickou hodnotou testu a pokud je menší než kritická hodnota testu, pak zamítáme hypotézu shody obou souborů hodnot. Pro test existuje aproximace na normální rozložení, ale pouze pro velká n>25. Před zásahem Po zásahu Změna Absolutní pořadí 6 2 4 10 2,5 3 -0,5 1,5 6,3 5 1,3 6 8,1 9 -0,9 5 1,5 2 -0,5 1,5 3,4 4 -0,6 3 2,5 1 1,5 8 1,11 2 0,89 4 2,6 4 -1,4 7 1 3 -2 9 ( ) ( )( ) 1 _ _ 4 1 2 1 24 n n Menší suma diferencí t n n n + − = + + Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Wilcoxonův test – příklad I člověk A B diference pořadí 1 142 138 4 4,5 2 140 136 4 4,5 3 144 147 -3 3 4 144 139 5 7 5 142 143 -1 1 6 146 141 5 7 7 149 143 6 9,5 8 150 145 5 7 9 142 136 6 9,5 10 148 146 2 2 A…….parametr krve před podáním léku B…….parametr krve po podání léku W+ …… pořadí kladných rozdílů = 51 W- …… = 4 W = min(W+;W-) = 4 počet párů = n = 10 Pokud je W menší než kritická hodnota testu, pak zamítáme hypotézu shody distribučních funkcí obou skupin. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Wilcoxonův test – příklad II Byla testována nová dieta pro laboratorní krysy, při pokusu byl zjišťován její vliv na různých liniích krys, bylo proto zvoleno párové uspořádání kdy krysy v obou dietách jsou spojeny přes svoji linii, tj. na začátku byly dvojice krys stejné linie, jedna z nich byla náhodně přiřazena k dietě, druhá z dvojice pak do druhé diety. 1. nulová hypotéza je, že váha krys není ovlivněna použitou dietou, alternativní, že ovlivnění dietou existuje 2. spočítáme diference – tyto diference jsou nenormální a proto je vhodné využít neparametrický test 3. Spočítáme sumu pořadí kladných a záporných diferencí, zde je menší suma záporných diferencí – 31 4. výsledkem výpočtu je p>0,05 a tedy nemáme dostatečné důkazy pro zamítnutí nulové hypotézy, nelze říci, že by nová dieta byla efektivnější než stará 5. pro doplnění výsledků je vhodné zjistit také skutečnou velikost rozdílu hmotností ve skupinách, např. ve formě mediánu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Znaménkový test – příklad I Párově uspořádaný experiment pro nominální data I. Dva preparáty, každý na ½ listu - sledovaná veličina: počet skvrn (hodnoceno pouze jako rozdíl) Počet skvrn A V V M V V M M V V V B M M V M M V V M M M V – větší; M – menší n = 10 listů s rozdílnými výsledky A je větší: + n+ = 7 jev B je menší: - n- = 3 min(n+; n-) = 3 II. dvě protilátky z různých zdrojů (A;B) – aplikované na vzorek s antigenem n = 10 A + + - + - + - + + B - - + - + + - - + n – nenulových rozdílů: 6 A: n+ = 4 A: n- = 2 min(n+; n-) = 2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Znaménkový test – příklady II  Na konferenci veterinářů bylo předneseno,že průměrný čas konzultace je 12 minut. Následovala debata, zda je lepší použít medián nebo průměr. Jeden z nich se rozhodl ověřit teorii, že průměrná konzultace trvá 12 minut na vlastní praxi a zaznamenal si trvání svých 43 konzultací. K otestování hypotézy, že podíl konzultací kratších a delších než 12 minut použil znaménkový test. Délka konzultace Počet <12 22 12 6 >12 15 Celkem 43 Další výpočet probíhá obdobně jako v případě klasického znaménkového testu na diferencích dvou skupin dat. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: schéma analýzy Nezávislé uspořádání neparametrické testy testy: ANO NE ANO t-test nezávislý aproximace Man - Whitney Mediánový test normalit a ? homogenita rozptylu ? NE transformace NE χ2 test Kolmogorov-Smirnov test Shapiro-Wilks test F-test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: schéma analýzy Párové uspořádání neparametrické testy testy: ANODiference D t-test párový Znaménkový test Wilcoxonův test normalita ? NE transformace NE c2 test Kolmogorov-Smirnov test Shapiro-Wilks test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Popis binomického rozložení Testování hypotéz binomicky rozložených dat XII. Binomické rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Kromě spojitých dat se setkáváme také s daty kategoriálními, jejichž nejjednodušším případem jsou data binární. Binární data jsou popsána binomickým rozložením, od chování binomického rozložení je odvozena popisná statistika binárních dat (procento výskytu jevu), její interval spolehlivosti a binomické testy pro srovnání procentuálního výskytů jevů v různých skupinách. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Π(x) = Π pro X = 1 Π(x) = 1 - Π pro X = 0 Π(x) = 0 jinak X = 1 ......jev 0 1 X Π 1-Π Alternativní rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X ..... celkový počet nastání jevu v n nezávislých pokusech E(x)= n . Π D(x)= n . Π (1-Π) Π ~ p jediný parametr distribuce určuje tvar distribuce Π = 0,5 Π = 0,1 Binomické rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek n rp = p ~ π .. jediný parametr binomického rozložení p .... relativní četnost nastání jevu p .......… určuje tvar distribuce n ..... počet nezávislých opakování (dotazů) X ..... počet lidí s jistým symptomem r znamená celkový počet nastání jevu v n nezávislých experimentech r : 0 …… n X X 5,0=π 2,0=π Binomická proměnná X Binomické rozložení jako model pro zkoumání výskytu sledovaného jevu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jev: narození chlapce П = 0,5 n : rodina s 5 dětmi r: 0,1,2,3,4,5 chlapců ( ) ( )( ) ( ) ( )rnrrnr qp !rn!r !n p1p r n rP −− ⋅⋅ − =−⋅⋅      = r = 0 : r = 1 : r = 2: P(r) = 0,3125 r = 3: P(r) = 0,3125 r = 4: P(r) = 0,15625 r = 5: P(r) = 0,031 ( ) ( ) ( ) 031,05,05,0 !5!0 !5 50 =⋅⋅ ( ) ( ) ( ) 15625,05,05,0 !4!1 !5 41 =⋅⋅ X: Binomická proměnná Střed rozložení: Rozptyl: Příklad: n = 100 respondentů r = 20 má symptom je střed rozložení a nejpravděpodobnější …..hodnota ( ) pnx ⋅=E ( ) )1(D ppnx −⋅⋅= ( ) 20E =⋅= pnx Binomické rozložení jako model Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ( ) ( ) ( )rnr qp !rn!r !n rxP − ⋅⋅ − == q = 1 - p n = 10 p = 0,3 n = 30 p = 0,3 n = 100 p = 0,3 0 0,05 0,1 0,15 0,2 0,25 0,3 0 1 2 3 4 5 6 7 8 9 10 n = 50 p = 0,1 n = 50 p = 0,5 n = 50 p = 0,9 0 0,05 0,1 0,15 0,2 0,25 0,3 0 5 10 15 20 25 30 0 0,05 0,1 0,15 0,2 0,25 0,3 0 10 20 30 40 50 60 70 80 90 100 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2 0 5 10 15 20 25 30 35 40 45 50 0 0,02 0,04 0,06 0,08 0,1 0,12 0 5 10 15 20 25 30 35 40 45 50 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2 0 5 10 15 20 25 30 35 40 45 50 Binomické rozložení jako model Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 B not B B not B B B not B not B 0,0064 0,0736 0,0736 0,8464 2 1 1 0 Number in blood group B Probability Binomial distribution of number of people out of two in blood group B Number: blood group B in 2 cases 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0 1 2 Probability Výskyt krevní skupiny B v určité populaci: p = 0,08 0 0,1 0,2 0,3 0,4 0,5 0 1 2 3 4 5 6 7 8 9 10 Binomial distribution showing the number of subjects out of ten in blood group B based on the probability of being in in blood group B of 0,08. Number of subjects Probability Binomial distribution showing the number of subjects out of 100 in blood group B based on the probability of being in in blood group B of 0,08. Number of subjects Probability Aplikace binomického rozložení 0 10 20 30 40 50 60 70 80 90 100 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Aplikace binomického rozložení Populace: 60% jedinců má zvýšenou hladinu cholesterolu Výběr: 5 lidí I. Kolik lidí má ve výběru vyšší hladinu cholesterolu ? n. p = 5 . 0,6 = 3 lidé ~ E(x) n . p (1-p) = 1,2 ~ D(x) II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu cholesterolu ? ~ Tzn. Výběr přesně odpovídá dané populaci ? P(3) = ? P(3) = 35% Jaká je P, že většina jedinců (tedy minimálně 3) má vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň obecně odpovídá zkoumané populaci ? p(x) ( ) ( ) ( ) 346,04,06,0 5 23 3 =⋅⋅= !3)-(5!3 ! P P(X > 3) = P(3) + P(4) + P (5) = 0,346 + 0,259 + 0,078 = 68 % X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Při vícenásobném odhadu se parametr Π chová jako normálně rozložen ϕ(x) p n1;p1 n2;p2 n3;p3 0 p1 p1 p1 Π 1 p 0 Π 1 ϕ(x) p 0 Π 1 U malých nebo velkých hodnot p (Π) je však předpoklad normality omezen ϕ(x) Odhad parametru Π binomického rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Odhad parametru Π binomického rozložení 1) Bodový 2) Intervalový – aproximace n rpp =≈ ˆ;ˆπ ( ) 1 ˆ1ˆ ;ˆ 2 − − = n pp sp p ( ) ( ) 1 ˆ1ˆ ˆ 1 ˆ1ˆ ˆ 2 1 2 1 − − ⋅+≤≤ − − ⋅− −− n pp Zp n pp Zp αα π ( ) 1 1 ˆ: 2 1 − − ⋅± − n pp Zp απ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X: % jedinců s daným znakem n = 100 jedinců r = 60; Interval spolehlivosti : 95 % Z 0,975 = 1,96 6,0ˆ =p 049,0ˆ =ps 049,096,16,0049,096,16,0 ⋅+≤≤⋅− π 697,0504,0 ≤≤ π ⇓ ( ) 95,0697,0504,0 ≥≤≤ πP Odhad parametru Π binomického rozložení: příklad I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Intervalový odhad bez aproximací na normální rozložení spodní limit intervalu horní limit intervalu ( ) ( )21; 2 1 1 νν αFrnr r L ⋅+−+ = ( ) rrn 2;12 21 =+−= νν ( ) ( ) ( ) ( )21 21 ; 2 ; 2 2 1 1 νν α νν α ′′ ′′ ⋅++− ⋅+ = Frrn Fr L ( ) ( ) 22 212 12 21 −=−=′ +=+=′ νν νν rn r ( ) απ −≥≤≤ 121 LLP Odhad parametru Π binomického rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Náhodný vzorek n = 200 jedinců. Zjištěno pouze r = 4 jedinci bez určitého znaku. 95% interval spolehlivosti = ? Spodní hranice Horní hranice 02,0 200 4ˆ ==p ( ) ( ) ( ) ( ) 0055,0 67,3142004 4 67,3 8422 39414200212 1 8;394 2 1 2 1 = ⋅+−+ = = =⋅== =+−=+−= − L F r rn α ν ν ( ) ( ) ( ) ( ) ( ) ( ) 051,0 08,2144200 08,214 08,2 392420022 1012 2 392;10 2 1 2 1 = ⋅++− ⋅+ = = =−=−=′ =+=′ − L F rn r α ν ν Odhad parametru Π binomického rozložení: příklad II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Binomické rozložení v datech: vizualizace Pravděpodobnost výskytu hodnot X Xn1 Modelové rozložení odhadovaného parametru П (x) ϕ(x) pΠ Binární podstata původních hodnot jev ANOn opakování jev NE Interval spolehlivosti pro П I. П II.0 ANONE Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Liší se odhad p od předpokládané hodnoty P ? Liší se dva nebo více odhadů p ? Je výskyt kategorií dvou jevů nezávislý ? Hodnocení relativního rizika z výskytu určitého jevu v rámci skupiny lidí - závislé odhady - nezávislé odhady - II. I. III. IV. Statistické testování binomických dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jednovýběrový binomický test H0 HA Testová statistika Interval spolehlivosti p ≤ Π p > Π z z > z 1-α p ≥ Π p < Π z z < z α p = Π p ≠ Π z ½z½ > z 1-α/2 H0 HA Testová statistika Interval spolehlivosti p ≤ Π p > Π p = r / n > L1 p ≥ Π p < Π p < L2 p = Π p ≠ Π L1; L2 (F α/2; F 1-α/2) p < L2 v p > L1 ′′ ′′ ++− + = 21 21 ,, ,, 1 )1( )1( vv vv Frrn Fr L α α ′′+−+ = 21 ,, 2 )1( vv Frnr r L α Korekce na kontinuitu( ) ( )ppn npn ppn npn Z ˆ1ˆ 5,0ˆ ˆ1ˆ ˆ −⋅ −⋅−⋅ ≅ −⋅ ⋅−⋅ = ππ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test π ? p Stromy s pozměněným tvarem koruny n = 9 000 jedinců r = 2 250 změněných jedinců Jak je pravděpodobná změna u až 1/3 jedinců? ( ) 26,18 900075,025,0 30002250 1 −= ⋅⋅ − = ⋅− ⋅−⋅ = npp npn Z π α = 5 %; Z 1-α/2 = 1,96; Z 1-α = 1,645 Z > Z 1-α/2 ………zamítáme H0: p < 0,01 95 % Interval spolehlivosti … p: (0,241; 0,258) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test π ? p Příklad testu bez aproximace na normální rozložení 12 jedinců bylo zkoumáno pro výskyt určitého znaku, 10 jedinců znak nemělo Jak hodně se tento výsledek liší od výsledku 6 - 6: tedy od situace, kdy polovina jedinců znak má? a) Využití distribuční funkce P (r ≥ 10) = 0,01611 + 0,00393 + 0,00024 = 0,01928 H0: p = 0,5 je tedy značně nepravděpodobná b) Pozorované překročilo horní limit 95 % intervalu spolehlivosti pro p: 833,0 12 10ˆ ==p ( ) ( ) 755,0 64,216612 64,216 :5,0 2 = ⋅++− ⋅+ == Lp r 0 1 2 3 4 5 6 7 8 9 10 11 12 P(r) 0,0002 4 0,0029 3 0,0161 1 0,0537 1 0,1208 5 0,1933 5 0,2255 9 0,1933 6 0,1208 5 0,0537 1 0,0161 1 0,0029 3 0,0002 4 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový binomický test (p1 ? p2) ( ) ( ) 21 1 11 ˆˆ 2 n pp n pp pp Z − + − − = 21 2211 nn pnpn p + ⋅+⋅ = ( ) ( ) ( ) ( ) 21 2 121 11 ˆˆ n pp n pp Zpp − + − ⋅±− −α Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový binomický test (p1 ? p2) Tento příklad je ukázkou testování rozdílů mezi dvěma binomickými populacemi (tedy srovnání dvou odhadů parametru p). Celkem 49 pokusných myší bylo použito k testování toxického preparátu během dvouměsíční kultivace. Následující tabulka obsahuje původní data zároveň s testem nulové hypotézy: Podíl přežívajících jedinců je u zasažené populace stejný. 573,1 009996,0010413,0 225,0 25 )490,0()510,0( 24 )490,0()510,0( 400,0625,0 = + = + − =Z Z0,05(2) = t0,05(2) = 1,96 Nezamítáme H0: 0,10 < P < 0,20 287,1 143,0 420,0604,0 143,0 25 5,010 24 5,015 = − = + − − =Z S korekcí na kontinuitu: Z0,05(2) = t0,05(2) = 1,96 Nezamítáme H0: 0,10 < P < 0,20 Alive Dead Total Proportion alive Proportion dead Treated 15 9 24 Not Treated 10 15 25 Total 25 24 49 625,0ˆ1 =p 400,0ˆ2 =p 510,0ˆ =p 375,0ˆ1 =q 600,0ˆ2 =q 490,0ˆ =q Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad I a) Pravděpodobnost narození chlapce je asi 1/2. Máte zhodnotit výsledky průzkumu populace, která žije v silně poškozeném životním prostředí. Průzkum se týká 1000 náhodně vybraných rodin a zjištěný podíl narozených chlapců je 0.41. Jaké jsou vaše závěry o této populaci? Jak se váš odhad zpřesní, když použijete vzorek n = 10 000 rodin při zachování odhadu p = 0.41? b) Jaká je pravděpodobnost, že rodina se třemi dětmi bude mít 2 (3) chlapce? Podrobně analyzujte problém a použijte obecného definičního vztahu pro binomické rozložení. Použijeme jednovýběrový binomický test s nulovou hypotézou H0: p=π, hladina významnosti α=0,05 testová statistika ( ) 79,5 59,041,01000 5,0100041,01000 ˆ1ˆ ˆ −= ⋅⋅ ⋅−⋅ = −⋅ ⋅−⋅ = ppn npn Z π a příslušný kvantil 96,1975,0 2 1 == − ZZ α protože 975,0ZZ > nulovou hypotézu zamítáme. Chlapci se ve zkoumavé populaci nerodí s pravděpodobností 0,5. ( ) 03,041,0016,096,141,0046,04,0 1 1 ˆ: 975,0 2 1 ±=⋅±=⋅±= − − ⋅± − Z n pp Zp απinterval spolehlivosti pokud použijeme n=10 000, bude int. spolehlivosti užší ( ) 01,041,0005,096,141,0 1 1 ˆ: 2 1 ±=⋅±= − − ⋅± − n pp Zp απ n = 3 r = 2 p=0,5 (stejná pravděpodobnost narození chlapce jako narození dívky) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) 375,05,05,0 !1!2 !3 5,05,0 2 3 2P qp !rn!r !n p1p r n rP 1212 rnrrnr =⋅⋅=⋅⋅      = ⋅⋅ − =−⋅⋅      = −− pravděpodobnost narození 2 chlapců v rodině se třemi dětmi je 0,375 r = 3 platí ( ) 125,05,05,015,05,0 3 3 3P 0303 =⋅⋅=⋅⋅      = pravděpodobnost narození 3 chlapců v rodině se třemi dětmi je 0,125 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad II Předpokládá se, že lidé trpící určitou krevní chorobou mají abnormální jeden z chromozómů. S cílem odhadnout podíl takto postižených chromozómů bylo studováno 5 buněk od každého ze 120 pacientů a byl zjišťován počet buněk s postiženým chromozómem (tento počet = sledovaný jev = r). Výsledky jsou uvedeny v následující tabulce. Odhadněte podíl postižených chromozómů u populace nemocných lidí. r(četnost jevu) 0 1 2 3 4 5 celkem f(poč. pacientů) 6 31 42 29 10 2 120 Pro odhad p se používá vztah n fXf p k i i k i ii ∑∑ == = 11 ˆ Xi fi Xifi 0 6 0 1 31 31 2 42 84 3 29 87 4 10 40 5 2 10 5 120 252 1 1 = = = ∑ ∑ = = n f Xf k i i k i ii 42,0 5 120/252 ˆ ==p pravděpodobnost výskytu postiženého chromozómu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody Fisherův přesný test McNemar test Odds ratio a relativní riziko XIII. Kontingenční tabulky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými. Základním způsobem testování je tzv. chi-square test, který srovnává pozorované četnosti kombinací kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi proměnnými náhodný.  Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem daným určitým pravidlem (typickým příkladem je Hardy-Weinbergova rovnováha v genetice)  Specifickým typem výstupů odvozených z kontingenčních tabulek jsou tzv. odds ratia a relativní rizika, využívaná často v medicíně pro identifikaci a popis rizikových skupin pacientů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody - základní teorie Binomické jevy (1/0) χ 2 )1( pozorovaná četnost očekávaná četnost očekávaná četnost = + 2 pozorovaná četnost očekávaná četnost očekávaná četnost I. jev 1 II. jev 2 - 2- 0 1 Příklad 10 000 lidí hází mincí rub: 4 000 případů (R) líc: 6 000 případů (L) Lze výsledek považovat za statisticky významně odlišný (nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ? Rozdíl je vysoce statisticky významný (p << 0,001] ( ) ( ) 400 5000 50006000 5000 50004000 22 2 )1( = − + − =χ Tabulková hodnota: )195,0(84,3)1( 2 )95,0( ανχ −=== Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulky H0 :Nezávislost dvou jevů A a B Kontingenční tabulka 2 x 2 N = a + b + c + d ( ) ( ) N ba BP + =+ ( ) ( ) N dc BP + =− + - Podíl (+) + a b - c d Podíl (+) B A ( )ca a + ( )db b + ( )ba a + ( )dc c + p1 p2 Očekávané četnosti: ( )( ) N caba F A ++ =)( ( )( ) N dbba F B ++ =)( ( )( ) N cdca FC ++ =)( ( )( ) N dcdb F D ++ =)( ( ) ∑= = − = 4 1 2 2 1 i i ii F Ff νχ )1(*)1(1 −−== crν ( ) ( )BA PP ; ( ) ∑∑ −− = ij ijij c F Ff 2 2 5,0 χ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulky: příklad FA = 102 * 30 / 166 = 18,43 FB = 102 * 136 / 166 = 83,57 FC = 11,57 FD = 52,43 ( ) ( ) ( ) ( ) 423,0 43,52 43,5254 57,11 57,1110 57,83 57,8382 43,18 43,1820 2222 2 )1( = − + − + − + − =χ 84,3423,0 )1(2 95,0 =< χ Ano Ne Σ Ano 20 82 102 Ne 10 54 64 Σ 30 136 166 gen  Kontingenční tabulka v obrázku c: 49% d: 33% a: 12% b: 6% Gen: ANO Gen: NE Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek R x C kontingenční tabulka Výběr: N lidí ze sociologického průzkumu (delikventi) Jev A: Původ z rozvrácených rodin Jev B: Stupeň zločinnosti I < II < III < IV I. II. III. IV. Σ číslo 1ANO a b c d NE e f g h Σ A B číslo2 Stupně volnosti: (R-1) * (C-1) = 1 * 3 = 3 N čísločíslo Fa 21⋅ = )(2 )1( ν αχ −Tabulky: Očekávané četnosti: ea a pa + = fb b pb + = gc c pc + = hd d pd + = Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody: příklad I H0: Pozorovaná frekvence pro jednotlivé barvy květů jsou vzorkem populace mající poměr mezi žlutými a červenými květy 3 :1. Součet frekvencí u obou barev květů (fi) se rovná 100 a pozorované frekvence u kategorií barvy budou srovnány s očekávanými frekvencemi (uvedeny v závorkách): Ověřte na datech z pokusu se 100 květinkami určitého druhu, že barva květů se geneticky štěpí v poměru žlutá : červená = 3 : 1. Kategorie barvy Žlutá Červená n f poz. 84 16 100 f oček. 75 25 St. volnosti = n = k - 1 = 1 ( ) ( ) ( ) 320,4 25 2516 75 7584 22 . 2 ..2 = − + − = − = ∑ oč očpoz f ff χ Zamítáme hypotézu shody srovnávaných četností Při testování H0 jsme použili matematický zápis (0,025 < P < 0,05). Z tabulek χ2 rozložení vidíme, že pravděpodobnost překročení hranice 2,706 je 0,1 (10 %), což může být stručně zapsáno jako P (χ2 ≥ 2,706) = 0,10. Dále lze zjistit pro P (χ2 ≥ 3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové statistiky χ2 = 4,320. Pro tento případ lze tedy psát 0,025 < P (χ2 ≥ 4,320) < 0,05; a jednodušeji 0,025 < P < 0,05. Jde v podstatě o přibližné určení hranic chyby 1. druhu. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0. Tento příklad je rozšířením problému z příkladu 1 na srovnání pozorovaných a očekávaných frekvencí pro více kategorií sledovaného znaku: žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité n f poz. 152 39 53 6 250 f oček. 140,6250 46,8750 46,8750 15,6250 ν = k - 1 = 3 Zamítáme hypotézu shody pozorovaných četností s očekávanými 972,8 6250,15 6250,9 8750,46 1250,6 8750,46 8750,7 6250,140 3750,11 2222 2 =+++=χ Test dobré shody: příklad II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Předpokládejme, že chceme pro data z předchozí úlohy testovat hypotézu existence štěpného poměru 9 : 3 : 3 pro první tři kategorie semen: Složitější příklady řešené srovnáváním frekvencí je možné rozdělit na testování dílčích hypotéz: žluté/hladké žluté/vrásčité zelené/hladké n f poz. 152 39 53 244 f oček. 146,400 48,800 48,800 544,2 80,48 200,4 80,48 800,9 40,146 600,5 222 2 =++=χ n = k - 1 = 2 Nezamítáme hypotézu shody pozorovaných četností s očekávanými. Nyní otestujeme hypotézu štěpného poměru kategorií zelené/vrásčité:ostatní typy = 1:15 zelené/vrásčité ostatní n f poz. 6 244 25 f oček 15,625 234,375 n = k - 1 = 1 324,6 375,234 625,9 625,15 625,9 22 2 =+=χ Zamítáme hypotézu shody pozorovaných četností s očekávanými. Test dobré shody: příklad III Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody: příklad IV - využití aditivity testu U 193 párů dvojčat byly zjištěny následující poměry pohlaví: 56 Ch - Ch 72 Ch – H 65 H - H Za předpokladu, že narození chlapečka má stejnou pravděpodobnost jako narození holčičky, lze očekávat poměry pro výše uvedené skupiny = 0,25 : 0,5 : 0,25. Ověřte tento předpoklad na uvedeném vzorku populace. Σ 193 párů 1/4 : 1/2 : 1/4 očekávané četnosti = 48,25 : 96,50 : 48,25 Proč lze v předchozím případě očekávat zamítnutí H0? Testujte následující hypotézy: 1) Jsou relativní počty párů se shodným pohlavím ve shodě s očekávanými četnostmi? (ignorujte Ch – H páry) 2) Je relativní četnost kombinace Ch - Ch a H - H párů oproti párům s rozdílným pohlavím ve shodě s očekávanými četnostmi? Σ 121 párů 1 : 1 očekávané četnosti = 60,5 : 60,5 Σ 193 párů 1 : 1 očekávané četnosti = 96,5 : 96,5 ChCh HH − − 28,132 )2( =χ 669,02 )1( =χ 44,122 )1( =χ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Města - zatížení exhalacemi - třídy (A > B > C > D) Svět: A : B : C : D = 2 : 3 : 6 : 4 Konkrétní země (n = 184 měst): A : B : C : D = 32 : 151 : 182 : 116 H0: shoda fi a Fi a = 0,05 FA: 64,13 FC: 192,39 FB: 96,19 FD: 128,27 81,7: )3(2 95,0 )(2 1 ==− χχ ν αTabulky Zamítáme hypotézu shody pozorovaných četností s očekávanými. ( ) ( ) 06,49 27,128 27,128116 13,64 13,6432 22 2 )3( = − ++ − = χ Příspěvek kategorií A, B, C, D k celkové hodnotě χ2 Absolutní hodnota % A B C D A B C D Test dobré shody: příklad V Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jev: Úmrtnost na leukemii Předpoklad: Π = 0,6 Absolutní četnost jevu označena ri Sledovalo s autorů z s zemí: Autor ni ri pi 1 2 . . . s Test shody reálného r S p p i∑= ( ) ( )pp rppr iii S − − = ∑ ∑ − 1 2 1χTest homogenity binomických rozložení Po možném sloučení s výběrů ( )Π−⋅Π⋅       −Π⋅− = ∑ 1 2 1 2 2 )1( N Nri χ ( ) Π⋅∑ nari Nni =∑ Test homogenity binomických rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test homogenity binomických četností: příklad Bylo provedeno 6 nezávislých výběrů z populace mladých mužů, kteří v dětství onemocněli těžkým zánětem mozkových blan. H0: V této populaci se vyskytují praváci a leváci v poměru 1 : 1. Pomocí χ2 rozložení lze rovněž posuzovat homogenitu většího množství nezávislých pokusů testujících tutéž hypotézu. Nalezněte v literatuře příslušné vztahy pro testování homogenity všech šesti výběrových populací a na základě výsledků tohoto testu rozhodněte o dalším postupu. Následující tabulka obsahuje původní data a výsledek testování (v závorkách jsou uvedeny očekávané četnosti): Vzorek Praváci Leváci n χ2 St. volnosti 1 3 (7) 11 (7) 14 4,5714 1 2 4 (8) 12 (8) 16 4,000 1 3 15 (10) 5 (10) 20 5,000 1 4 14 (9) 14 (9) 18 5,5556 1 5 13 (8,5) 4 (8,5) 17 4,7647 1 6 17 (11) 5 (11) 22 6,5455 1 2,302 =taheterogeniχ 51=−= sν 001,0

300 Total Married 652 1537 598 242 3029 Divorced, separed or widowed 36 46 38 21 141 Single 218 327 106 67 718 Total 906 1910 742 330 3888 Caffeine consumption and marital status data Caffeine consumption (mg/day) Marital status 0 1 - 150 151 - 300 > 300 Total Married 22 % 51 % 20 % 8 % 3029 (100 %) Divorced, separed or widowed 26 % 33 % 27 % 15 % 141 (100 %) Single 30 % 46 % 15 % 9 % 718 (100 %) Total 23 % 49 % 19 % 8 % 3888 (100 %) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Contributions of each cell Caffeine consumption (mg/day) Marital status 0 1 - 150 151 - 300 > 300 Total Married 4,11 1,61 0,69 0,89 7,30 Divorced, separed or widowed 0,30 7,82 4,57 6,82 19,51 Single 15,36 1,88 7,02 0,60 24,86 Total 19,77 11,31 12,28 8,31 51,66 Expected frequencies Caffeine consumption (mg/day) Marital status 0 1 - 150 151 - 300 > 300 Total Married 705,8 1488 578,1 257,1 3029 Divorced, separed or widowed 32,9 69,3 26,9 12,0 141 Single 167,3 352,7 137 60,9 718 Total 906 1910 742 330 3888 χ2 test - příklad složitější kontingenční tabulky II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek χ2 test - příklad frakcionace složitější kontingenční tabulky I Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy chorob a krevními skupinami u lidí. Konkrétní data jsou uvedena v tabulce: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola Celkem 0 983 383 2892 4258 A 679 416 2625 3720 B 134 84 570 788 Celkem 1796 883 6087 8766 Vypočítejte testovou charakteristiku pro tuto kontingenční tabulku a otestujte nulovou hypotézu nezávislosti jevů (χ2 = 40,54; 4 st. volnosti) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek K podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní tabulky do podoby procentického zastoupení kategorií: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola 0 983 383 2892 A 679 416 2625 B 134 84 570 Celkem 1796 883 6087 Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a u skupiny nemocných rakovinou žaludku. Pacienti s vředy mají mnohem častěji krevní skupinu 0. Z této tabulky je patrné: Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje hypotézu o shodné distribuci krevních skupin pro nemocné rakovinou a pro zdravé lidi. Sestavte tuto tabulku a otestujte nulovou hypotézu. (χ2 = 5,64 (2 st. v.), P je přibližně rovna 0,06) χ2 test - příklad frakcionace složitější kontingenční tabulky II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou a zdravých lidí neboť se vzhledem k distribuci krevních skupin chovají jako homogenní populace. Dalším logickým krokem v podrobné analýze je testování shody relativních četností výskytu krevních skupin A a B mezi kombinovaným vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí nemocných žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0. Výsledkem tohoto testu je χ2 = 0,68 (1 st. vol.); P > 0,7. Vzorky pro krevní skupiny A a B lze tedy sloučit do směsného vzorku A + B. • Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to mezi kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem nemocných vředařů (χ2 = 34,29; 1 st. vol.). Lze tedy shrnout, že vysoká hodnota původního χ2 se 4 st. volnosti byla způsobena zvýšenou četností lidí s krevní skupinou 0 mezi nemocnými žaludečními vředy. χ2 test - příklad frakcionace složitější kontingenční tabulky III Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Srovnání St. volnosti χ2 0, A, B skupina u pacientů s rakovinou (r) x kontrola (k) 2 5,64 A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k) 1 0,68 0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k) 1 34,29 Celkem 4 40,61 Průběh hodnocení lze shrnout do tabulky: Celkový součet testových statistik χ2 (40,61) odpovídá přibližně původní hodnotě χ2 (40,54). Což platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme detailním rozborem vyčerpali informační obsah původní kontingenční tabulky a kromě popsané závislosti (zvýšený výskyt krevní skupiny 0 u lidí s žaludečními vředy) jsou jednotlivé kategorie zkoumaných jevů zcela nezávislé. χ2 test - příklad frakcionace složitější kontingenční tabulky IV Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulka 2 x 2: Řešení při nedostatečné velikosti vzorku Test analyzuje všechny možné 2 x 2 tabulky, které dávají stejnou sumu řádků a sloupců jako tabulka zdrojová. Algoritmus každé tabulce přiřazuje pravděpodobnost, že taková situace nastane, je-li H0 pravdivá. Yates' corection Fisher's exact test H0: Nezávislost jevů Spectacle wearing among juvenile delinquents and non-delinquents who failed a vision test (Weindling et al., 1986) Spectacle wearers Juvenile delinquents Non- deliquents Total Yes 1 5 6 No 8 2 10 Total 9 7 16 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek a b c d P ( I ) 0 6 9 1 0,00087 ( II ) 1 5 8 2 0,02360 ( III ) 2 4 7 3 0,15734 ( IV ) 3 3 6 4 0,36713 ( V ) 4 2 5 5 0,33042 ( VI ) 5 1 4 6 0,11014 ( VII ) 6 0 3 7 0,01049 Total 0,99999 Pravděpodobnost náhodného vzniku variant tabulky Všechny možné varianty tabulky s danou sumou řádků a sloupců 0 6 9 1 1 5 8 2 2 4 7 3 6 0 3 7 5 1 4 6 4 2 5 5 3 3 6 4 (I) (II) (III) (IV) (V) (VI) (VII) Kontingenční tabulka 2 x 2: Řešení při nedostatečné velikosti vzorku Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 2 x 2 frekvenční tabulka pro párové uspořádání: Mc Nemar's test Příklad: Srovnání 2 metod stanovení antigenu v krvi (antigen vždy přítomen) H0: metoda 1 = metoda 2 Metoda 1 Metoda 2 Frekvence úspěch úspěch 202 úspěch neúspěch 60 neúspěch úspěch 42 neúspěch neúspěch 10 102∑ = ( ) 83,2 102 14260 2 2 )( = −− =cχ 84,3: )1(2 1 == − ν αχTabulky H0 nezamítnuta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Aplikace analýzy 2 x 2 tabulky pro hodnocení rizika I. Prospektivní studie - odhad relativního rizika Jedinci jsou sledováni prospektivně, zda se vyskytne nějaká vlastnost. VÝBĚR JE DÁN SLOUPCEM OBECNĚ PŘÍKLAD Skupina 1 Skupina 2 Znak ANO a b NE c d Riziko: H0: RR = 1 ( )ca a + ( )db b + ( ) ( )db b ca a RR + + = Retardace plodu Symetrická Asymetrická Agar skore > 7 ANO 2 33 NE 14 58 2/16=0,13 33/91=0,36 345,0 91/33 16/2 ==RR Riziko u "symetrické skupiny" je asi 35 % rizika u asymetrické skupiny ( ) dbbcaa RRSE + −+ + −= 1111 ln IS: ln RR - Z 1-α/2 . SE (ln RR) ln RR + Z 1-α/2 . SE (ln RR) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Aplikace analýzy 2 x 2 tabulky pro hodnocení rizika II. Retrospektivní studie - "ODDS RATIO" Zcela zásadně odlišný přístup od retrospektivní studie VÝBĚR JE DÁN VLASTNOSTÍ - ŘÁDKEM Není tedy možné analyzovat relativní riziko, protože přípravou řádků můžeme měnit velikost kontrol. OBECNĚ PŘÍKLAD Skupina 1 Skupina 2 Znak ANO a b NE c d Vady chrupu ANO NE Plavání týdně < 6h 32 118 ³ 6h 17 127odds a/c b/d db ca ratioOdds / / : dcba ORSE 1111 )(ln +++= ( ) ( ) 026,2127/118/17/32 ==OR ( ) 706,0ln =OR ( )( ) 326,0ln =ORSE Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Relative risk vs. Odds ratio ?  Smysl RR a OR  Výpočet  Srovnatelnost  Interpretace  Výhody a nevýhody  Aplikace v klinickém hodnocení Relative risk (relativní riziko) Odds ratio (poměr šancí) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Smysl RR a OR  Popis vlivu faktoru (léčba, klinický parametr) na výskyt události (úmrtí, progrese aj.) Relative risk (relativní riziko) Odds ratio (poměr šancí)  Snadná přirozená interpretace rizik vyjádřených jako procento událostí ALE  Matematická omezení pro některé aplikace  Pouze málo lidí má přirozenou schopnost interpretovat OR ALE  OR v řadě aplikací výhodnější matematické vlastnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Výpočet Relative risk (relativní riziko) Odds ratio (poměr šancí) event A B RR= 2 10 3 10 6 == OR= 5.3 7 3 4 6 == bez eventu  Srovnání výskytu události mezi dvěma rameny (A,B) studie Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vztah mezi RR a OR Zhang, J. et al. JAMA 1998;280:1690-1691. Relative risk (relativní riziko) Odds ratio (poměr šancí) RR a OR je přímo srovnatelné pouze při nízkém bazálním riziku Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Srovnatelnost RR a OR I: maximum  RR mění své maximum podle bazálního rizika Relative risk (relativní riziko) Odds ratio (poměr šancí) Bazální riziko MaximálnímožnéRR  RR ve studiích s různým bazálním rizikem jsou nesrovnatelná !!!!  Odds ratio má vždy rozsah od 0 do nekonečna  Velikost OR není závislá na velikosti bazálního rizika  OR lze použít pro srovnání studií s různým bazálním rizikem !!!!  Výhodné pro metaanalýzu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Srovnatelnost RR a OR I: symetrie  Existuje mezi RR a O rozdíl v případě výměny definice eventu a non-eventu? Relative risk (relativní riziko) Odds ratio (poměr šancí) I II vs. RR(II)= 2 10 3 10 6 == OR(II)= 5.3 7 3 4 6 == RR(I)= 57.0 10 7 10 4 == OR(I)= 29.0 3 7 6 4 == )( 1 )( IIOR IOR = )( 1 )( IIRR IRR ≠ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek RR a OR ve studiích s různou mírou bazálního rizika ControlCase Výskyt eventu (%) Výskyt eventu (%) Bazální (control) výskyt eventu (%) Ve skupině „Case“ připadá na jednoho pacienta bez eventu 4x tolik pacientů s eventem než ve skupině „Control“ Odds ratio RR/OR Relative risk Pacient ve skupině „Case“ má x-krát zvýšenou pravděpodobnost výskytu eventu než pacient ve skupině „Control“. X-krát závisí na basálním výskytu eventu. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek RR a OR v prospektivních a retrospektivních studiích  Zpětné sledování příčin eventu  Převážně case-control studie  Výběrem pacientů ovlivňujeme bazální výskyt eventu Retrospektivní studieProspektivní studie  RR nelze použít –ovliněno bazálním výskytem eventu  Využití OR – není ovliněno designem studie  Sledování výskytu eventu a následná analýza jeho příčin  Převážně kohortní studie  Bazální výskyt eventu je dán vlastnostmi kohorty pacientů  Bezproblémové využití RR Relative risk (relativní riziko) Odds ratio (poměr šancí) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Relative risk vs. Odds ratio: shrnutí  Intuitivně snadno interpretovatelné  Pro prospektivní studie  Standardní výstup Coxovy regrese  Maximum se liší podle bazální hodnoty výskytu eventu Relative risk (relativní riziko) Odds ratio (poměr šancí)  Retrospektivní studie  Aplikace v metaanalýze  Standardní výstup logistické regrese  Rozsah vždy 0 až nekonečno, není ovlivněno bazálním výskytem eventu  Obtížnější interpretace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Popis rozložení a jeho využití XIV. Poissonovo rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Poissonovo rozložení se používá pro popis četnosti výskytu jevu na experimentální jednotku, příkladem může být počet mutací bakterií na Petriho misku nebo počet srdečních poruch na jednotku času Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonovo rozložení Celkový počet jevů v n nezávislých pokusech E(x) = n p D(x) = n p průměrný počet jevů z n pokusů ( ) !! r e r e r rr λµ λ µ ⋅= ⋅ = − − P == λµ ( ) µ− == eX 0P ( ) )2)(3( 3 3 µµ ⋅ == − e XP ( ) 2 1 µµ ⋅== − eXP ( ) 2 2 2 µµ ⋅ == − e XP ( ) )2)(3)(4( 4 4 µµ ⋅ == − e XP E(x) = D(x)} Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonovo rozložení jako model 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 1 2 3 4 5 6 7 8 9 10 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 0 1 2 3 4 5 6 7 8 9 10 ( ) !r erx r λλ ⋅== − P λ = 0,01 λ = 0,1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0 1 2 3 4 5 6 7 8 9 10 λ = 0,5 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2 0 1 2 3 4 5 6 7 8 9 10 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 λ = 5 λ = 10 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0 1 2 3 4 5 6 7 8 9 10 λ = 1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonovo rozložení v přírodě existuje Mutace bakterií na inkubačních miskách Výskyt jevu v prostoru (počet žížal na určitou plochu pole) Orientační stanovení jevu (při produkci plynu bakteriemi) + + +- The most probable number technique Výskyt jevu v čase (srdeční arytmie v určitých časových intervalech) čas Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonovo rozložení jako model pro náhodný výskyt jevů Uniform Clustered Random µσ <2 µσ >2 Předpoklad: náhodná distribuce jevu mezi studovanými objekty (příp. v čase, v prostoru). µσ =2 Poisson Pokud je λ spíše větší (~ 5 - 10), pak Poisson odpovídá spíše binomickému až normálnímu rozložení. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Formální prezentace Poissonova rozložení 5,210/25 25 ==≈ = λx r 25,096,15,225,096,15,2 ⋅+≤≤⋅− λ 95 % IS: Př: pokus......10 000 bakterií na misce n = 10 misek Jev: mutace (r=25) λ..........průměrný počet mutantů na jednu misku n x Zx n x Zx ⋅+≤≤⋅− −− 2 1 2 1 αα λ 48,352,1 ≤≤ λ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonova náhodná proměnná Výpočet intervalu spolehlivosti pro λ (bez aproximace na normální rozložení) Při měření počtu krvinek změněných určitou chorobou (relativně vzácné) je pozorován zředěný vzorek krve pod mikroskopem v komůrce rozdělené na stejně velká pole. Sledovaná veličina, udávající počet krvinek v i-tém poli může být považována za rozdělenou podle Poissonova rozložení: n = 169 = počet nezávislých pozorování proměnné r = 10 = počet pozorovaných krvinek Jaká je hodnota parametru λ Poissonova rozložení a jaká je jeho interpretace ? Jaký je interval 95% spolehlivosti pro parametr λ ? Pokud bychom sledovali celkový počet červených krvinek (opět v n = 169 nezávislých políčkách), bylo by i tuto proměnnou možno považovat za rozloženou podle Poissonova rozložení ? Uvažujte celkový počet pozorovaných krvinek jako 2013. Spodní hranice IS Horní hranice IS 2 )212( 2 2 2 += = ff L αχ 2 )21( 2 2 1 1 rf L = − = αχ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonova náhodná proměnná Poissonova proměnná: * Výborný model pro experimenty, v nichž je během časového průběhu zjišťován počet výskytu určitého jevu ( ) i i p i e ix ~ ! λ λ − ⋅ ==P Počet intervalů s právě i zaznamenanými částicemi st teoretické četnosti npi i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 57 203 383 525 532 408 273 139 45 27 10 4 2 0 n = 2608 54,399 210,523 407,361 525,496 508,418 393,515 253,817 140,325 67,882 29,189 17,075 (= P{ ξ ≥ 10}) 2608,00 0,1244 0,2688 1,4568 0,0005 1,0938 0,5332 1,4498 0,0125 7,7132 0,1642 0,0677 12,8849 ( ) i ii np nps 2 − Konstantní zářič: n = 2608 časových intervalů (každý 7,5 s) i: počet částic v intervalu (x) si: pozorovaná četnost intervalů s i částicemi Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonovo rozložení: jednovýběrový test ! )( )( r e P r r λλ ⋅ = − Př: Počet hnízd křepelek na dané ploše n = 8 000 "pod lokalit" r = 28 Nechť je srovnávací soubor (předchozí průzkum) } λµ160008 ===⋅op ?16~: ≤≤ µoo ppH 0035,0=p 0020,0=op ^ 1) Vzít data jako pocházející z populace: 2) r = 28 je příliš velké pro populaci s po aby r = 28 bylo pravděpodobnější 00192,0 !28 16 )28( 2816 = ⋅ == − e rP ?)28( =≥rP zamítnutaH05,0 o=>< [ ]00411,0 } ,opp > Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametrická analýza rozptylu Post hoc testy XV. Analýza rozptylu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Analýza rozptylu je základním nástrojem pro analýzu rozdílů mezi průměry v několika skupinách pacientů.  Základní myšlenka, na níž je ANOVA založena, je rozdělení celkové variability v datech (neznámé, dané pouze náhodným rozložením) na část systematickou (spjatou s kategoriemi pacientů, vysvětlená variabilita) a část náhodnou. Pokud systematická, tedy nenáhodná a vysvětlitelná část variability převažujeme, považujeme daný kategoriální faktor za významný pro vysvětlení variability dat.  Analýza rozptylu vyhodnocuje pouze celkový vliv faktoru na variabilitu, v případě analýzy jednotlivých kategorií je třeba využít tzv. post-hoc testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Základní technika sloužící k posouzení rozdílů mezi více úrovněmi pokusného zásahu Kontrola KoncentraceX1 KoncentraceX3 .............. KoncentraceXp Rostoucí koncentrace testované látky / látek Celkově významné změny v reakci biologického systému Vzájemné rozdíly účinku jednotlivých dávek Rozdíly účinku dávek od kontroly KoncentraceX2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Významné kroky analýzy, vedoucí k efektivnímu srovnání variant .............. Rostoucí koncentrace testované látky / látek Splnění předpokladů analýzy Transformace dat Relevantnost kontroly (vliv vlastní aplikace látek) Vhodnost modelu ANOVA pro účely testu Vlastní srovnání variant Minimalizace chyb při ověřování hypotéz Kontrola KoncentraceX1 KoncentraceX3 KoncentraceXp KoncentraceX2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA ANOVA = parametrická analýza dat Předpoklad nezávislosti opakování experimentu Normalita rozložení v rámci pokusných variant Homogenita rozptylu v rámci pokusných variant SPLNĚNÍ PŘEDPOKLADŮ ANOVA JE NEZBYTNOU PODMÍNKOU POUŽITÍ TÉTO TECHNIKY ALTERNATIVOU JSOU NEPARAMETRICKÉ METODY 1. 3. 2. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Předpoklady analýzy rozptylu jsou nezbytné pro dosažení síly testu • Symetrické rozložení hodnot a normalita odchylek od hodnoceného modelu ANOVA. Velkou část dat lze adekvátně normalizovat použitím logaritmické transformace. Předpoklad lognormální transformace může pochopitelně být teoreticky vyloučen u mnoha datových souborů obsahujících diskrétní parametry, kde je indikována vhodnost jiného typu transformace. U asymetricky rozložených a u diskrétních dat je nutné využít neparametrické alternativy analýzy rozptylu. • Homogenita rozptylu je nutným předpokladem pro smysluplnost vzájemných srovnání pokusných variant. U testů toxicity by splnění tohoto předpokladu mělo být ověřováno (Bartlettův test), neboť vážné rozdíly (až řádové) v jednotkách testovaného parametru mohou nastat v důsledku inhibice dávkami látky. Nehomogenita rozptylu je často ve vztahu k nenormalitě (asymetrii) dat a lze ji odstranit vhodnou normalizující transformací. • Statistická nezávislost reziduí vyhodnocovaného modelu ANOVA. Pokud odhad a posouzení korelačních vztahů mezi pokusnými variantami není přímo předmětem výzkumu, lze jejich vliv na vyhodnocení odstranit znáhodněním dat v rámci pokusných variant - tedy změnou pořadí v náhodné. Rozsah vlivu těchto autokorelačních vztahů musí být ovšem primárně omezen správností experimentálního uspořádání. • Aditivita jako předpoklad týkající se složitějších experimentálních uspořádání. Exaktní otestování aditivity více pokusných faktorů je procedura poměrně náročná na experimentální design vyvážený co do počtu opakování. Je rovněž obtížné testovat interakci na nestandardních datech, neboť případná transformace může změnit charakter odchylek původních dat od hodnoceného modelu ANOVA. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Omezení aplikace ANOVA lze řešit • Chybějící data. Vážným problémem jsou chybějící údaje o celé skupině kombinací testovaných látek, například u faktoriálních pokusů, kdy je znemožněno hodnocení experimentu jako celku. • Různé počty opakování Jde o typický jev pro experimentální datové soubory. Při různých počtech opakování v experimentálních variantách jsou testy ANOVA citlivější na nenormalitu dat. Pokud jsou počty opakování zcela odlišné(až na řádové rozdíly), je nutno použít neparametrické techniky nebo analýzu rozptylu nevyvážených pokusů. • Nehomogenita rozptylu. Velmi častý nedostatek experimentálních dat, často související s nenormalitou rozložení nebo s odlehlými hodnotami. • Odlehlé hodnoty. Ojedinělé odlehlé hodnoty musí být před parametrickou analýzou rozptylu vyloučeny. • Nedostatek nezávislosti mezi rezidui modelu. Jde o závažný nedostatek, zkreslující výsledek F-testu. Velmi často je tato skutečnost důsledkem špatného provedení nebo naplánování experimentu. • Nenormalita dat. I v tomto případě lz situaci upravit vyloučením odlehlých hodnot nebo normalizující transformací. • Neaditivita kombinovaného vlivu více pokusných zásahů. Tuto situaci lze testovat jednak speciálními testy aditivity nebo přímo F testem kontrolujícím významnost vlivu interakce pokusných zásahů. Při významné interakci je nutné prozkoumat především její charakter ve vhodném experimentálním uspořádání. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Modely analýzy rozptylu Model I. Pevný model Model II. Náhodný model X0 . . . . . . . . . . . . . . . . . . . . X2 . . . . . . . . . . X3 . . . . . . . . . . X4 . . . . . . . . . . A B C D E ijiijy εαµ ++= . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ijiij Ay εµ ++= X1 X0 X1 X2 X3 X4 Y . . . . . . . . . . . . . . . . . . . . A B C D E Y Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ANOVA – základní výpočet  Základním principem ANOVY je porovnání rozptylu připadajícího na:  Rozdělení dat do skupin (tzv. effect, variance between groups)  Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o náhodnou variabilitu (=error) 1. Variabilita mezi skupinami Rozptyl je počítán pro celkový průměr (tzv. grand mean) a průměry v jednotlivých skupinách dat Stupně volnosti jsou odvozeny od počtu skupin (= počet skupin -1) 2. Variabilita uvnitř skupin Rozptyl je počítán pro průměry jednotlivých skupin a objekty uvnitř příslušných, celková variabilita je pak sečtena pro všechny skupiny Stupně volnosti jsou odvozeny od počtu hodnot (= počet hodnot počet skupin) 11 −= kν kn −=2ν groupswithin groupsbetween F _ _ = Výsledný poměr (F) porovnáme s tabulkami F rozložení pro v1 a v2 stupňů volnosti SS=sum of squares Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jednoduchý ANOVA design Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho parametru. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nested ANOVA • Rozdělení skupin na náhodné podskupiny (např. opakování experimentu) • Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou • Nejprve je testována shoda podskupin v hlavních skupinách, • pokud jsou shodné, je vše v pořádku • pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové variability Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Two way ANOVA Pro rozdělení do kategorií je zde více parametrů Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené zásahy (např.vliv pH a koncentrace O2) Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Modely analýzy rozptylu - základní výstup Základním výstupem analýzy rozptylu je Tabulka ANOVA - frakcionace komponent rozptylu Zdroj rozptylu Pok. zásah (mezi skupinami) Uvnitř skupin Celkem SSB/SST MSB/MST St. v. a -1 SSB SSB/(a -1) MSB/MSE N - a SSE SSE/(N - a) N -1 SST SS MS F Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu Statistická významnost rozdílu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - obecný F test obecný F test H0: m1 = m2 = m3 = .... = mp Kontrola KoncentraceX1 KoncentraceX3 ......... ..... KoncentraceXp F test: H0 KoncentraceX2 Látka nepůsobí H0 neplatí Látka působí Další analýzy H0 platí Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - Testy kontrastů ANOVA:H0 zamítnuta Testy kontrastů .......... Kontrola KoncentraceX1 KoncentraceX3 KoncentraceXp KoncentraceX2 Rozdíly v smysluplných kombinacích ? Testování kontrastů "Multiple range testy" Parametrické Neparametrické Plánované Neplánované Pro srovnání variant s kontrolou Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad: Anova - One way Dávka rostlinného stimulátoru (0, 4, 8, 12 mg/l) A = 4 ; n = 8 I. ANOVA Bartlett's test: P = 0,9847 K-S test: P = 0,482 - 0,6525 pro jednotlivé kategorie Source D. f. SS MS F Between Groups 3 305,8 101,9 8,56 Within Groups 28 322,2 11,9 Total (corr.) 31 638,0 II. Multiple Range Test NKS -test Level Average Homogenous Groups 0 34,8 x 4 41,4 x 12 41,8 x 8 52,6 x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad: Anova - One way I. Zásah: 4 klinická stadia virové choroby (napadá kr. buňky) Sledovaná veličina: aktivita enzymu v těchto krevních buňkách 4321: µµµµ ===oH n = 3 MODEL = ? II.II 16,4 17,8 19,1 53,3 17,8 III 11,2 18,2 15,8 45,2 15,1 IV 14,2 10,1 12,8 37,1 12,4 Σ průměr Source Between groups Within groups Total (corr.) D.f. 3 8 11 MS 49,6 5,9 - F 8,39 P 0,0075 I 22,8 19,4 12,5 65,7 21,9 57,14 3 9,56,49 ~ 22 = − = − = n MSMS S eA AAσ 22 5,2 eA SS ⋅= 7142,0~ 22 2 = + = eA A II SS S rρ IV.III. Komponenta rozptylu: Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Srovnání variant v testech Srovnáváni variant po celkovém testu ANOVA Mnoho existujících algoritmů není vhodných pro konkrétní případ Day and Quin Ecological Monographs,1989 Test Využití Poznámka Dunnett Williams Srovnání s kontrolou Ex. i modifikace pro různá n. ANOVA testy (F) Orthogonální kontrasty Plánovaná srovnání Ryan Q test Jednoduché kontrasty Vyhodnocen jako nejlepší test Testy pro jednoduché kontrasty Scheffe Tukey LSD Bonferroni Dunn- Sidák Kramer Duncan Student - Newmann-Keuls Waller-Duncan k ratio Testy nevhodné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řada post-hoc testů v různých SW Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ANCOVA  Rozšíření ANOVA  Současná analýza kategoriálních a spojitých prediktorů  Testování hypotézy paralelismu regresních vztahů Spojitý prediktor Hodnocenáproměnná kategorie Spojitý prediktorHodnocenáproměnná kategorie Kategorie pacientů (pokusný zásah) neovlivňuje vztah proměnných Kategorie pacientů (pokusný zásah) ovlivňuje vztah proměnných Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametrická a neparametrická korelace Lineární regrese XVI. Korelace a regrese Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické  Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy - I. Korelace - vztah (závislost) dvou znaků (parametrů) Y2 X1 Y2 X1 Y2 X1 ANO NE ANO a b NE c d X1 X2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy - II. Parametrické míry korelace Kovariance Pearsonův koeficient korelace)).((),( yyxxEyxCov ii −−= 0 0 0 -- x -- y Y2 X1 r = 1 r = -1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy - III. PI (zem) 10 14 15 32 40 20 16 50 PI (rostl.) 19 22 26 41 35 32 25 40 6;8;,.....,1 === vnnI ( ) ( ) 7176,0 11 1 . ),( 2222 =     −    − − == ∑ ∑∑ ∑ ∑ ∑ ∑ iiii iiii yx y n yx n x yx n yx SS yxCov r I. 05,0::0 == αφρH ( ) 7076,06 ==vr:tab II. φρ =:0H 2 1 2 −⋅      − = n r r t 2−= nv 0,05P ≤     = =⋅= − 447,2 524,26 6965,0 7176,0 )2( 975,0 n t t :tab Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy - IV. Srovnání dvou korelačních koeficientů (r) 1. 2. 682,0 1258 1 1 = = r n 402,0 462 2 2 = = r n Krevní tlak x koncentrace kysl. radikálů ( ) ( )i i i r r Z − + ⋅= 1 1 log1513.1 833,01 =Z 426,02 =Z 05,0: 210 == αρρ ;H:Test 461,7 0545,0 407,0 3 1 3 1 21 21 == − + − − = nn ZZ Z 96,1975,0 =Z:tabulky 7,461 >> 1,96 => P << 0,01 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy - V. Neparametrická korelace (rs) PI v půdě 1 2 3 6 7 5 4 8 PI v rostl. 1 2 4 8 6 5 3 7 dI 0 0 1 2 -1 0 -1 -1 i = 1, ….. n; n = 8 => v = 6 ( ) 9048,0 1 6 1 2 2 = − ⋅ −= ∑ nn di rs ( ) 89,06 ==vrs:tab ( ) 857,0 1497 86 1 = − ⋅ −=sr P = 0,358 Pacient č. 1 2 3 4 5 6 7 Lékař 1 4 1 6 5 3 2 7 Lékař 2 4 2 5 6 1 3 7 dI 0 -1 1 -1 2 -1 0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Korelace v grafech I. Y X Y X Vztahy velmi často implikují funkční vztah mezi Y a X. Y = a + b . X Y = a + b1 . X1 + b2 . X2 + b3 . X3 Y = a + b1 . X1 + b2 . X2 Y = a + b1 . X1 + b2 . X2 + b3 . X1 . X2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Korelace v grafech II. Problém rozložení hodnot Problém typu modelu X Y X r = 0,981 (p < 0,001) r = 0,761 (p < 0,032) Y Problém velikosti vzorku Y X Y X r = 0,891 (p < 0,214) r = 0,212 (p < 0,008) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Modelování klinických dat Prediktory Vysvětlovaná proměnná 1.Tvorba modelu •Parametry ovlivňující vysvětlovanou charakteristiku pacienta • Rovnice umožňující predikci • Platnost modelu pouze v rozsahu prediktorů 2.Validace modelu • Nebezpečí „přeučení“ modelu • Testování modelu na známých datech •Krosvalidace 3. Aplikace modelu • Individuální predikce stavu nenámých pacientů • Model musí být podložen korektní statistikou a rozsáhlými daty ? ? ? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy regresní analýzy Regrese - funkční vztah dvou nebo více proměnných Jednorozměrná y = f(x) Vícerozměrná y = f(x1, x2, x3, ……xp) Vztah x, y Deterministický Regresní, stochastický Y X Y X Y X Pro každé x existuje pravděpodobnostní rozložení y Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Regresní analýza přímky: lineární regrese εβα +⋅+≈+⋅+= XexbaY y xbyaa ⋅−=≈ :)(interceptα slope)(sklon;xbX ⋅≈⋅β ( ) ( )xNe ye 22 ;0;0 σσε =Ν≈ :složkanáhodná- }Komponenty tvořící y se sčítají ε - náhodná složka modelu přímky = rezidua přímky ( ) reziduírozptyl⇒⋅ 22 xye σσ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základní regresní analýzy: model přímky v datech I y 1 n x y1 n 1 n = a + b . x y - y = e Y X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek x x y y y y e e = 0 2 ys 2 es Y X y b = 0 22 ey ss = Y X y b > 0 22 ey ss > Základní regresní analýzy: model přímky v datech II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 1) X: Pevná, nestochastická proměnná 2) Rozložení hodnot y pro každé x je normální 3) Rozložení hodnot y pro každé x má stejný rozptyl 4) Rezidua jsou navzájem nezávislá a mají normální rozložení: yyd xy  −=⋅ ( )XXbyy i −+= ( )XXbyyd ixy −−−=⋅ Smysl proložení přímky minimalizace odchylek ( )[ ]∑ −−−→⋅ XXyd ixy βα 2 Metoda nejmenších čtverců ( )2 ;0 eσΝ Y X Y + [X;Y] X Xi }Y } ( )XXb i −⋅ ( )XXb i −⋅ ( )XXb i −⋅ {xy d ⋅ xy d ⋅ xy d ⋅ Y Y Základní regresní analýzy: model přímky v datech I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek I. ( )( ) ( )∑ ∑ − −− = 2 ~ XX YYXX bb i ii :β ( ) 2 2 22 1 :~ xy i b S XX S ⋅⋅ −∑ βσ regressionfromdeviationstandardsample regressionfromdeviationsquaredmean = = ⋅ ⋅ xy xy S S2 ( ) 22 22 2 2 2 2 − −⋅−− = − = ∑ ∑∑ ∑ ⋅ ⋅ n XXb n Y Y n d S i i i xy xy II. XbYaa ⋅−=:~ α intercept 2 2 2 222 1 ~ xya S X X n SS ⋅⋅         += ∑αασ III. Y : modelová hodnota ii XbaY ⋅−=  ( ) ( ) ∑ − +⋅= ⋅ 2 2 1 X XX n SS i xyyi  Základní regresní analýzy: model přímky v datech I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Smysl lineární regrese X: Množství spáleného odpadu (tuny) Y: Koncentrace kovu ve vzduchu(ng/m3) Platí: X = 0; 10; 100; 150; 200; 250; 300 tun Model: Y = a + b . X     →⋅+= 3 ;123,014 m YXY kovng :Výsledek  Např. : Skutečná data pro X = 200 t: Yi = 16; 25; 41; 28; 31; 20 => Yi = 26.8 Odhadnuto z modelu pro X = 200 t: Y = 14 + 0,123 . 200 = 38,6 Y X Y 10 200 Y Y ( ) XbaY XXbYY ⋅+= −⋅+=   } XbYa ⋅−= Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Regresní analýza v grafech I εε 0 0 !ε y (i; x) 0 ε 0 y (i; x) ε 0 y (i; x) ! Grafy residuí modelů (příklady) Obecné tvary residuí modelů (schéma) e i, xj, y e i, xj, y a b e i, xj, y e i, xj, y c dd Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Regresní analýza v grafech II Y X Y X 1) Y vs. X Y Y Y Y Y Y 2) Y vs. Y Y X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Lineární regrese - příklad X: Koncentrace drogy: 0; 2; 6; 8; 10; 12; 15 mg/ml krve Y: Koncentrace volných metabolitů Pro každé X: 3 opakování Y Model: Y = a + b . x Y = 0,11 + 0,092 . X I. 00,4 023,0;092,0 05,0;0:0 ==    == == bb S b t sb H αβ P < 0,01 ( ) 093,219 975,0 ==v t ( ) b n Stb ⋅± − − 2 2/1: αβ ( ) 95,0140,0044,0 =≤≤ βP II. ( ) 093,2793,3 029,0;11,0 05,0;0: 19 975,0 0 ===    == == =v aa t S a t sa H αα ( ) a n St ⋅± − − 2 2/1: ααα ( ) 95,0171,0049,0 =≤≤ αP Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu jako nástroj analýzy regresních modelů - příklad na modelu přímky y1 . x0 x1 x2 x3 x4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . yn x0 x1 x2 x3 x4 s0 2 s1 2 s2 2 s3 2 s4 2 1) Experimentální data 2) Celková ANOVA "one way" Zdroj rozptylu St.v. SS MS F Mezi skupinami a-1 SSB SSB /(a-1) MSB/MSE Uvnitř skupin na-a SSE SSE /(na- a) Celkem na-1 SST sy 2 1− = na SST Y X Y X Y X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu jako nástroj analýzy regresních modelů: příklad na modelu přímky 3) Celková ANOVA SSB/SST (variance ratio) MSB/MSE = F 4) Analýza rozptylu regresního modelu (zde přímky) (SSMOD/SST) . 100 = % rozptylu Y "vyčerpaného" přímkou = koeficient determinace (R2) Zdroj rozptylu st.v. SS MS F Model (přímka) 1 SSMOD MSMOD MSMOD / MSR Residuum na - 2 SSR MSR celkem na - 1 SST Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Lineární regrese - příklad X: konc.Cd: 1,2,3,4,5,6 ng/ml Y: absorb: 0,23; 0,49; 0,72; 0,90; 1,16; 1,39 b=0,228 a=0,016 Sb=4,99.10-3 Sa=0,019 P = 0,000 P = 0,457 r = 0,999 R2 = 99,81% St. Error of est: 0,021 s2 y.x = 4,25 . 10-4 s2 y = 0,18275 Source D.f. SS MS F P Model 1 0,912 0,912 2086,3 0 Residual 4 0,0017 0,000425 Total ( c ) 5 0,9138 ANOVA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Principy a využití vícerozměrné analýzy dat XVII. Vícerozměrná analýza dat: úvod Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Vícerozměrná analýza dat představuje nadstavbu nad klasickou, jednorozměrnou statistikou a je zvláště vhodná pro biologická a medicínská data, která jsou vícerozměrná již svou podstatou  Při vícerozměrné analýze je nicméně nezbytné si uvědomit, že povětšinou vychází ze stejných principů jako jednorozměrné analýzy a tedy i zde je nezbytné dodržovat předpoklady na nichž je výpočet založen. Tento fakt je důležité si uvědomit zejména vzhledem k relativní dostupnosti vícerozměrných analýz v moderních statistických software. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vztah klasické a vícerozměrné statistiky  Vícerozměrná analýza dat využívá přístupů klasické statistiky  Zároveň je citlivá i na jejich problémy  Agregace dat přes sumární statistiku nebo kontingenční tabulky – korespondenční analýza  Korelace – analýza hlavních komponent, faktorová analýza, diskriminační analýza ! Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vícerozměrné vnímání skutečnosti – nová kvalita analýzy dat x1 x2 n skupina 1 x1 skupina 2 Vícerozměrný systém skup. 1 skup. 2 x 1 x2 x2 skup. 2skup. 1 Klasická jednorozměrná analýza Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Běžná sumarizace dat „likviduje“ individualitu jedince Průměr ± SE BĚŽNÁ STATISTICKÁ SUMARIZACE Zpřehlednění dat Neodliší původní měření ? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vícerozměrné hodnocení X2 X3 …… Xp X3 …… Xp W X1 X3 …… Xp . . . . . . . . . . . X1 . . . . . . . . . . . X2 X1 X2 … s ohledem na individualitu ! Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vícerozměrné hodnocení – nová kvalita A A A A A A A A AA A A A A A A A A A B B B B B B B B B B B B B B B B B B B B A X2 X1 B B Pouze kombinované parametry mají odpovídající informační sílu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vícerozměrné hodnocení vychází z jednoduchých principů příklad: vícerozměrná vzdálenost měření mezi dvěma objekty (body) X 1 X 2 X 22 X 21 X 11 X 12 a = x12- x11 = d1 b = x22- x21 = d2 1 2 c = a 2 + b 22 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vícerozměrné modelování je strategickou disciplínou X1 X2 X5X3 X4 Xp X1 …… Xn technické parametry automobilu Xn+1 …… Xp řidičovy schopnosti a jeho stav Xp+1 …… X2 rychlost, povrch, situace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek  Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu.  Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty.  NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz.  Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik. Pojmy vícerozměrných analýz Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Hodnoty parametrů pro jednotlivé objekty NxP MATICE ASOCIAČNÍ MATICE Korelace, kovariance, vzdálenost, podobnost Výpočet metriky podobností/ vzdáleností Vstupní matice vícerozměrných analýz Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek  vytváření shluků objektů na základě jejich podobnosti  identifikace typů objektů  zjednodušení vícerozměrného problému do menšího počtu rozměrů  principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY Základní typy vícerozměrných analýz KLASIFIKACE  Model zařazení neznámých pacientů do předem daných skupin  Řada algoritmů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Diskriminační prostor y x Typy vícerozměrných analýz SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY x y Faktorové osy y x podobnost KLASIFIKACE