Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 1 MIAM021p(s) Analýza a management dat pro zdravotnické obory – přednáška a cvičení (jaro 2023) MICHAL SVOBODA Institut biostatistiky a analýz LF MU svoboda@iba.muni.cz Adobe Systems Institut biostatistiky a analýz LF – Výuka 2 Osnova ̶Excel: opakování, příprava dat, základní vzorce ̶Základy popisné statistiky ̶Základní rozdělení pravděpodobnosti, testování hypotéz ̶Parametrické testy ̶Neparametrické testy ̶Analýza kontingenčních tabulek ̶Základy korelační analýzy a lineární regrese Adobe Systems Institut biostatistiky a analýz LF – Výuka 3 Důležité informace ̶Výuka: 11:00–13:30, D29/347-RCX2 ̶Materiály v IS ̶Software: Microsoft Office - Excel, Statistica ̶Pro získání zápočtu/kolokvia je třeba: 1.Účast – povoleny jsou 2 absence 2.Domácí úkoly – povoleno 1 neodevzdání ̶za účelem procvičení, dostanete zpětnou vazbu, na dalším cvičení se vrátíme, kdyby byl problém 3.Závěrečný úkol – praktické úkoly (povoleny materiály) o Adobe Systems Institut biostatistiky a analýz LF – Výuka 4 Organizace výuky •21. 2. – Excel: opakování, příprava dat, základní vzorce •28. 2. – Základy popisné statistiky •7. 3. – Základní rozdělení pravděpodobnosti, testování hypotéz •14. 3. – Parametrické testy •21. 3. – Neparametrické testy •28. 3. – Analýza kontingenčních tabulek, testy dobré shody •4. 4. – Základy korelační analýzy + opakování vybraných témat •11. 4. – Volitelné sezení, návrat k vybraným tématům •18. 4. – Ukončení předmětu, test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 5 Základy popisné statistiky Typy proměnných Popisná statistika Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 6 Typy proměnných ̶Kvalitativní (kategoriální) proměnná lze ji řadit do kategorií, ale nelze ji kvantifikovat Příklad: ?? ̶ ̶Kvantitativní (numerická) proměnná můžeme ji přiřadit číselnou hodnotu Příklad: ?? Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 7 Typy proměnných ̶Kvalitativní (kategoriální) proměnná lze ji řadit do kategorií, ale nelze ji kvantifikovat Příklad: pohlaví, HIV status, barva vlasů … ̶ ̶Kvantitativní (numerická) proměnná můžeme ji přiřadit číselnou hodnotu Příklad: výška, hmotnost, teplota, počet hospitalizací … Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 8 Kvalitativní proměnné, znaky ̶Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost znaku) a 0 (nepřítomnost znaku). Příklad: ?? ̶ ̶Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. Příklad: ?? ̶ ̶Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). Příklad: ?? ̶ Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 9 Kvalitativní proměnné, znaky ̶Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost znaku) a 0 (nepřítomnost znaku). Příklad: Diabetes (1 – ano, 0 – ne), Pohlaví (1 – muž, 0 – žena). ̶Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. Příklad: krevní skupiny (A – B – AB – 0) ̶ ̶Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). Příklad: stupeň bolesti (mírná – střední – velká) stadium maligního onemocnění (I – II – III – IV) ̶ Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 10 Popis a vizualizace kvalitativních proměnných ̶ ̶Popis kvalitativních dat: četnost jednotlivých kategorií ̶Vizualizace kvalitativních dat: koláčový nebo sloupcový graf Známka n % A 11 18,0 B 20 32,8 C 16 26,2 D 9 14,8 E 5 8,2 F 0 0,0 Celkem 61 100,0 Koláčový graf Sloupcový graf Frekvenční tabulka Příklad: Známka z biostatistiky (podzim 2014) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 11 Kvantitativní parametry – popisné statistiky ̶Charakteristiky polohy (míry střední hodnoty, míry centrální tendence) Udávají, kolem jaké hodnoty se data centrují, resp. které hodnoty jsou nejčastější; popis „těžiště“ – míry polohy. Aritmetický průměr, medián, modus, ̶Charakteristiky variability (proměnlivosti) Zachycují rozptýlení hodnot v souboru (proměnlivost dat). Rozptyl, směrodatná odchylka, kvantily, rozsah hodnot (min–max) ̶ Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 12 Charakteristiky polohy ̶Modus: nejčastěji se vyskytující hodnota proměnné v souboru (u kvalitativních proměnných). ̶α-kvantil: je-li α Є (0,1), pak α-kvantil xα je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1-α všech dat. ̶x0,50 – medián, x0,25 – dolní kvartil, x0,75 – horní kvartil, x0,1…. x0,9 – decily ̶Medián: hodnota, jež dělí řadu podle velikosti seřazených hodnot na dvě stejně početné poloviny. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 13 Charakteristiky polohy ̶Aritmetický průměr: je definován jako součet všech naměřených údajů vydělený jejich počtem, kde xi jsou jednotlivé hodnoty a n jejich počet ̶ „Těžiště“ dat – tzn. součet rozdílů podprůměrných hodnot od průměru je stejný jako součet rozdílů nadprůměrných hodnot od průměru • 25 54 64 73 x1 x2 x3 x 29 19 10 = (25+64+73) / 3 = 54 x 29 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 14 Průměr vs. medián ̶POZOR: Průměr je silně ovlivněn extrémními hodnotami (tzv. odlehlá pozorování), medián jimi ovlivněn není. ̶Průměr je vhodný ukazatel středu souboru u normálního, resp. symetrického rozložení, medián i v případě proměnných s neznámým rozdělením. ̶V případě symetrického rozložení jsou průměr a medián v podstatě shodné, v případě asymetrického rozložení nikoliv! Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 15 Charakteristiky variability ̶Kvartilové rozpětí: q = x0,75 - x0,25 ̶Rozptyl (variance): ukazatel šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru (jeho vypovídací schopnost je nejvyšší v případě symetrického/normálního rozložení). ̶ ̶Směrodatná odchylka (SD): druhá odmocnina z rozptylu ̶Standardní chyba průměru (SE): říká, jak přesný je výpočet průměru Adobe Systems Definujte zápatí - název prezentace / pracoviště 16 Rozptyl, SD, SE 25 54 64 73 x1 x2 x3 x ̶ ̶ ̶ ̶ ̶ ̶ ̶ ̶SE – neplést s SD ̶Říká, jak přesný je výpočet průměru: ̶velký počet subjektů (n), z nichž počítáme průměr → tím menší je SE (tzn. tím přesnější je průměr) ̶malý počet subjektů (n), z nichž počítáme průměr → tím větší je SE (tzn. tím méně přesný je průměr) ̶ Adobe Systems Definujte zápatí - název prezentace / pracoviště 17 Kvantily Rozpětí Interkvartilové rozpětí 85 5 56 21 40 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 18 Popis kvantitativních dat ̶Popis kvantitativních dat: charakteristika středu (průměr, medián aj.), charakteristika variability (rozptyl, rozsah hodnot, interkvartilové rozpětí aj.) Příklad: Popis výšky pacientů (cm) Popisné statistiky Charakteristika N 61 Průměr (cm) 161,5 Medián (cm) 161,0 Sm. odchylka (cm) 4,7 Rozptyl (cm2) 22,2 Min–max (cm) 144–169 Dolní–horní kvartil (cm) 158–164 Průměr a medián se téměř shodují. Co nám to říká? Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 19 Vizualizace kvantitativních dat ̶Vizualizace kvantitativních dat: nejčastěji pomocí krabicového grafu nebo histogramu Histogram Krabicový graf Příklad: Popis výšky pacientů (cm) maximum (100% kvantil) horní kvartil (75% kvantil) medián (50% kvantil) dolní kvartil (25% kvantil) minimum (0% kvantil) Jsou data symetrická? Odlehlá hodnota? Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 20 Program Statistica Představení programu Statistica Praktické cvičení v programu Statistica Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 21 Program Statistica Jak získat program Statistica: https://inet.muni.cz ̶ Login a heslo: UČO a primární heslo jako do IS-u. V nabídce zvolit: Provozní služby – Software – Nabídka softwaru Nalézt: Statistica 14 – kliknout Získat a postupovat dle návodu ̶ Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 22 Praktické cvičení v programu Statistica Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 23 Datový soubor Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 24 Rehabilitace po mozkovém infarktu ̶Cvičný datový soubor obsahuje záznamy o celkem 407 pacientech hospitalizovaných pro mozkový infarkt na neurologickém oddělení akutní péče, kde jim byla poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. ̶Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních aktivitách (ADL) pomocí tzv. indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení. ̶Po dvou týdnech byl opět dle BI vyhodnocen stupeň soběstačnosti a pacienti byli buď propuštěni do ambulantní péče, nebo přeloženi na oddělení následné péče. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 25 Sbírané informace: ̶základní demografické údaje (pohlaví a věk), ̶informace o samotné diagnóze mozkové příhody (etiologie a lokalizace uzávěru cévy), ̶informace o léčbě (typ indikované terapie a výskyt komplikací) ̶informace o způsobu ukončení rehabilitace. ̶Stupeň soběstačnosti před rehabilitací byl dodatečně zjištěn z neurologie a na konci rehabilitace byl vyplněn nový dotazník pro určení výsledného indexu Barthelové. Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 26 Úkol č. 1 – Popis kategoriálních dat Zadání: „Proveďte základní popis zastoupení pohlaví u pacientů s mozkovým infarktem. Následně také srovnejte zastoupení pohlaví mezi třemi skupinami pacientů dle etiologie mozkové příhody.“ Postup: 1.Pro popis dat je vhodné určit absolutní a relativní četnosti. 2.Grafické znázornění je ideální pomocí koláčového grafu. 3.V programu Statistica lze získat výsledky pro jakoukoli podskupinu souboru pomocí obecné funkce „By Group“ nebo „Select Cases“. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 27 Úkol č. 1 – Řešení v programu Statistica 3 2 •V menu Statistics zvolíme Basic statistics a vybereme Frequency tables. •Vybereme proměnnou (Variables), kterou chceme analyzovat a na záložce Options zaškrtneme možnost Percentages (relative frequencies). 4 Chceme-li získat výsledky zvlášť pro podskupiny jiné proměnné, aktivujeme funkci By Group (vybrat třídící proměnnou a zaškrtnout Accumulate tabular results in a single spreadsheet). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 28 Úkol č. 1 – Výsledky v Statistica Zastoupení mužů a žen v celém souboru je 61 % oproti 39 %. Při srovnání pacientů dle etiologie mozkového infarktu se nejvíce liší pacienti s embolií, u kterých je podíl mužů jen 54 % oproti 46 % žen. Frekvenční tabulka proměnné pohlaví u pacientů s CMP Frekvenční tabulka proměnné pohlaví u pacientů s CMP dle etiologie centrální mozkové příhody Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 29 Úkol č. 1 – Řešení v programu Statistica •V menu Graphs zvolíme nabídku 2D grafů a vybereme Pie Charts. •Vybereme proměnnou (Variables), kterou chceme analyzovat a na záložce Advanced vybereme v nastavení legendy možnost Text and Percent. •Chceme-li získat výsledky zvlášť pro podskupiny jiné proměnné, aktivujeme By Group (opět vybrat třídící proměnnou). 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 30 Úkol č. 1 – Výsledky v Statistica Zastoupení mužů v celém souboru je 61 % oproti 39 % žen. Při srovnání pacientů dle etiologie mozkového infarktu se nejvíce liší pacienti s embolií, u kterých je podíl mužů jen 54 % oproti 46 % žen. Koláčový graf proměnné pohlaví u pacientů s CMP Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 31 Úkol č. 2 – Popis kvantitativních dat Zadání: „Proveďte základní popis soběstačnosti dle indexu Barthelové na konci rehabilitace po mozkovém infarktu. Následně také tento ukazatel srovnejte podle míry komplikací během léčby.“ Postup: 1.Pro popis dat je vhodné určit průměr, medián, směrodatnou odchylku, případně minimum a maximum. 2.Grafické znázornění je ideální pomocí histogramu. V případě srovnávání různých skupin je vhodný krabicový graf. 3.V programu Statistica lze získat výsledky pro jakoukoli podskupinu pomocí „By Group“ nebo „Select Cases“. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 32 Úkol č. 2 – Řešení v programu Statistica •V menu Statistics zvolíme Basic statistics a vybereme Descriptive statistics. •Vybereme proměnnou (Variables), kterou chceme analyzovat a na záložce Advanced zaškrtneme možnosti výpočtu Mean, Median, Std. Dev, Min. & Max. •Chceme-li získat výsledky zvlášť pro podskupiny jiné proměnné, použijeme By Group (vybrat třídící proměnnou a zaškrtnout Accumulate tabular results in a single spreadsheet). 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 33 Úkol č. 2 – Výsledky v Statistica Celková průměrná hodnota indexu Barthelové je 62 bodů s mediánem 70 bodů. V závislosti na skóre komorbidit a komplikací během léčby je zřetelný pokles výsledné soběstačnosti s průměrem 67 bodů u nekomplikovaných případů až k 49 bodům u pacientů se stupněm komplikací 3. Popisná statistika indexu Barthelové na konci rehabilitace u pacientů s CMP Popisná statistika indexu Barthelové na konci rehabilitace u pacientů s CMP dle stupně komplikací Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 34 Úkol č. 2 – Řešení v programu Statistica •V menu Graphs zvolíme rovnou Histogram (a) nebo Box (b). •U histogramu pouze vybereme proměnnou (Variables), kterou chceme analyzovat. •U box-plotu vybereme proměnnou (Variables), kterou chceme analyzovat (dependent), a proměnnou obsahující skupiny, které srovnáváme (grouping). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 35 Úkol č. 2 – Výsledky v Statistica Histogram indexu Barthelové na konci rehabilitace u pacientů s CMP Krabicový graf indexu Barthelové na konci rehabilitace dle stupně komplikací Celková průměrná hodnota indexu Barthelové je 62 bodů a tvar distribuce je asymetrický s hodnotami vyskytujícími se hlavně v rozmezí cca 50 až 90 bodů. V závislosti na skóre komorbidit a komplikací během léčby je zřetelný pokles výsledné soběstačnosti.