Adobe Systems Institut biostatistiky a analýz LF – Výuka 1 MIAM021p(s) Analýza a management dat pro zdravotnické obory – přednáška a cvičení (jaro 2023) MICHAL SVOBODA Institut biostatistiky a analýz LF MU svoboda@iba.muni.cz Adobe Systems Institut biostatistiky a analýz LF – Výuka 2 Osnova ̶Excel: opakování, příprava dat, základní vzorce ̶Základy popisné statistiky ̶Základní rozdělení pravděpodobnosti, testování hypotéz ̶Parametrické testy ̶Neparametrické testy ̶Analýza kontingenčních tabulek ̶Základy korelační analýzy a lineární regrese Adobe Systems Institut biostatistiky a analýz LF – Výuka 3 Důležité informace ̶Výuka: 11:00–13:30, D29/347-RCX2 ̶Materiály v IS ̶Software: Microsoft Office - Excel, Statistica ̶Pro získání zápočtu/kolokvia je třeba: 1.Účast – povoleny jsou 2 absence 2.Domácí úkoly – povoleno 1 neodevzdání ̶za účelem procvičení, dostanete zpětnou vazbu, na dalším cvičení se vrátíme, kdyby byl problém 3.Závěrečný úkol – praktické úkoly (povoleny materiály) o Adobe Systems Institut biostatistiky a analýz LF – Výuka 4 Organizace výuky •21. 2. – Excel: opakování, příprava dat, základní vzorce •28. 2. – Základy popisné statistiky •7. 3. – Základní rozdělení pravděpodobnosti, testování hypotéz •14. 3. – Parametrické testy •21. 3. – Neparametrické testy •28. 3. – Analýza kontingenčních tabulek, testy dobré shody •4. 4. – Základy korelační analýzy + opakování vybraných témat •11. 4. – Volitelné sezení, návrat k vybraným tématům •18. 4. – Ukončení předmětu, test Adobe Systems Institut biostatistiky a analýz LF – Výuka 5 Motivace ̶Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové“ tabulky umožňující jejich zpracování v libovolné aplikaci. ̶Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezena ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy. Adobe Systems Institut biostatistiky a analýz LF – Výuka 6 Příprava dat, MS Excel Datová tabulka Zásady správné tvorby dat Možnosti MS Excel Adobe Systems Institut biostatistiky a analýz LF – Výuka 7 Ukázka datového souboru Parametry (znaky) Adobe Systems Institut biostatistiky a analýz LF – Výuka 8 Zásady pro ukládání dat ̶Správné a přehledné uložení dat je základem jejich pozdější analýzy. ̶Je vhodné rozmyslet si předem jak budou data ukládána. ̶Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě. ̶Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky. ̶Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku. ̶Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Excel. ̶ Adobe Systems Institut biostatistiky a analýz LF – Výuka 9 ̶Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce; ̶Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.); ̶Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty; ̶Komentáře jsou uloženy v samostatných sloupcích; ̶U textových dat je nezbytné kontrolovat překlepy v názvech kategorií; ̶Specifickým typem dat jsou data, u nichž je nezbytné kontrolovat, zda jsou uloženy v korektním formátu. Zásady pro ukládání dat Adobe Systems Institut biostatistiky a analýz LF – Výuka 10 MS Excel ̶Tabulkový procesor. ̶Aktualizace každé 2 až 3 roky; nové funkce, rozšíření počtu řádků a sloupců, změna formátu. ̶Starší formát: .xls, novější: .xlsx. ̶Aktuální verze 2016 umožňuje ukládat tabulku o 1 048 576 řádcích a 16 384 sloupcích. Adobe Systems Institut biostatistiky a analýz LF – Výuka 11 Možnosti MS Excel ̶ Správa a práce s tabulárními daty. ̶ Řazení dat, výběry z dat, přehledy dat. ̶ Formátování a přehledné zobrazení dat. ̶ Zobrazení dat ve formě grafů. ̶ Různé druhy výpočtů pomocí zabudovaných funkcí. ̶ Tvorba tiskových sestav. ̶ Makra – zautomatizování častých činností. Adobe Systems Institut biostatistiky a analýz LF – Výuka 12 Import a export dat Import dat ̶Manuální zadávání ̶Import – podpora importu ze starších verzí Excelu, textových souborů, databází apod. ̶Kopírování přes schránku Windows – vkládání z nejrůznějších aplikací – MS Office, Statistica atd. Export dat ̶Ukládáním ve formátech podporovaných jinými SW, časté jsou textové soubory, dbf soubory nebo starší verze Excelu ̶Přímé kopírování přes schránku Windows Adobe Systems Institut biostatistiky a analýz LF – Výuka 13 Databázová struktura dat v Excelu Excel neumožňuje pojmenování řádků a sloupců vlastními názvy. Řádky tabulky => jednotlivé záznamy (taxon, lokalita, měření, pacient atd.) Sloupce tabulky => parametry záznamů, hlavička udává obsah sloupce – stejný údaj v celém sloupci Adobe Systems Institut biostatistiky a analýz LF – Výuka 14 Typy a triky jak se v datech pohybovat Výběr buněk ̶CTRL+HOME – přesunutí na levý horní roh tabulky ̶CTRL+END – přesunutí na pravý dolní roh tabulky ̶CTRL+A – výběr celého listu ̶CTRL + klepnutí myší do buňky – výběr jednotlivých buněk ̶SHIFT + klepnutí myší na jinou buňku – výběr bloku buněk ̶SHIFT + šipky – výběr sousedních buněk ve směru šipky ̶SHIFT+CTRL+END (HOME) – výběr do konce (začátku) oblasti dat v listu ̶SHIFT+CTRL+šipky – výběr souvislého řádku nebo sloupce buněk ̶SHIFT + klepnutí na objekty – výběr více objektů Kopírování a vkládání ̶CTRL+C – zkopírování označené oblasti buněk ̶CTRL+V – vložení obsahu schránky – oblast buněk, objekt, data z jiné aplikace Myš a okraje buňky ̶Chycení myší za okraj umožňuje přesun buňky nebo bloku buněk ̶Při chycení čtverečku v pravém dolním rohu výběru je tažením možno vyplnit více buněk hodnotami původní buňky (ve vzorcích se mění relativní odkazy) Adobe Systems Institut biostatistiky a analýz LF – Výuka 15 Ověření dat ̶Nastavení pravidel, jaké hodnoty lze do jednotlivých sloupců ̶Nastavíme před zadáním prvního pacienta do dat ̶Zamezení překlepů v datech, kombinování více typů proměnných ̶ 1. Označení sloupce a zapnutí ověření dat 2. Nastavení možných hodnot pro daný sloupec (například hodnoty od 0 do 100) Adobe Systems Institut biostatistiky a analýz LF – Výuka 16 Automatický filtr ̶Pomocí automatického filtru je snadné vybírat úseky dat pro další zpracování na základě hodnot ve sloupcích databázové tabulky, výběr je možný i podle více sloupců (např. určitá skupina pacientů) ̶Funkce automaticky rozezná hlavičky sloupců v souvislé oblasti buněk ̶Výhodné pro čištění dat (vyhledávání překlepů, kombinace textu a čísel) Výběr hodnot pro filtraci 1. Zapnutí filtru (alternativa klávesová zkratka Crtl+Shift+L) 2. Objeví se rozbalovací šipka s výčtem všech unikátních hodnot v daném sloupci dat Adobe Systems —Záložka „Domů“ → „Podmíněné formátování“. —Barevné označení buněk nebo výplň buňky symbolem podle námi zadaných kritérií, např.: •numerická hodnota větší/menší než průměr •datum z konkrétního období •podobná slova •duplicitní údaje o •Co s barevnými buňkami? •Použijeme filtr! ̶ Institut biostatistiky a analýz LF – Výuka 17 Podmíněné formátování Adobe Systems Institut biostatistiky a analýz LF – Výuka 18 Ukotvení příček ̶Umožňuje ukotvení libovolných řádků a sloupců pro pohodlné vkládání a prohlížení dat v tabulce. ̶Umožňuje číst řádky/sloupce ze začátku tabulky i po přesunutí se dále. ̶Záložka „Zobrazení“ → „Ukotvit příčky“. ̶Odstranění ukotvení: Po ukotvení příček se automaticky možnost „Ukotvit příčky “ změní na „Uvolnit příčky“. ̶Možnosti: Ukotví řádky nad označenou buňkou a sloupce vlevo od označené buňky Adobe Systems Institut biostatistiky a analýz LF – Výuka 19 Vzorce ̶vpisují se do buněk sešitu ̶vzorce jsou vždy uvozeny = (lze též + -) ̶aritmetické operátory + zabudované funkce Excelu ̶pro „sčítání“ nečíselných položek se používá & ̶výpočet je založen buď na číselných konstantách nebo odkazech na buňky ̶ =3*odmocnina(A1) uvození vzorce konstanta zabudovaný vzorec Excelu odkaz na buňku aritmetický operátor Adobe Systems Institut biostatistiky a analýz LF – Výuka 20 Vzorce – odkaz na buňku Relativní odkazy ̶A1 = buňka 1. řádku sloupci A ̶A1:B6 = blok buněk – levý horní roh je v 1. řádku, sloupec A,pravý dolní na řádku 6, sloupec B ̶relativní odkaz se při automatickém vyplnění buněk vzorcem posune ̶mění se s kopírováním, při vložení a odstranění řádku nebo sloupce Absolutní odkaz ̶odkaz na buňku je pevně dán, při kopírování nebo automatickém vyplnění se nemění ̶lze uzamknout jak řádky, tak sloupce samostatně $A$1 uzamčení sloupce uzamčení řádku Pamatuj: Adresu upevníme pomocí znaku $ (klávesa F4) Adobe Systems Institut biostatistiky a analýz LF – Výuka 21 Vzorce – využití seznamu vzorců Funkce a její stručný popis Kategorie vzorců Průvodce funkcí Adobe Systems Institut biostatistiky a analýz LF – Výuka 22 Vzorce – užitečné funkce ̶SUMA – součet číselných hodnot oblasti; ̶SUMIF – podmíněný součet (podmínky v doplňkové oblasti); ̶PRŮMĚR – aritmetický průměr číselných hodnot oblasti; ̶GEOMEAN – geometrický průměr číselných hodnot oblasti; ̶COUNTIF – počet hodnot oblasti splňujících zadanou podmínku; ̶KDYŽ – logická podmínka (IF); ̶MAX, MIN – maximum/minimum číselných hodnot oblasti; ̶MEDIAN – výpočet mediánu; ̶PERCENTIL – výpočet percentilů; ̶DATUAM, ROK, MĚSÍC, DEN – práce s kalendářními daty; ̶ABS – absolutní hodnota; ̶SVYHLEDAT – spojování tabulek podle identifikátoru - řádku. Adobe Systems Institut biostatistiky a analýz LF – Výuka 23 Statistické funkce v MS Excel ̶CONFIDENCE.NORM – výpočet intervalu spolehlivosti (při normálním rozdělení); ̶CORREL, PEARSON – výpočet Pearsonova korelačního koeficientu; ̶COVARIANCE.S – výpočet kovariance dvou množin dat; ̶COUNTIF – počet hodnot oblasti splňujících zadanou podmínku; ̶DEVSQ – součet čtverců odchylek od výběrového průměru; ̶F.DIST, GAMMA.DIST, T.DIST, NORM.DIST aj. – různá rozdělení pravděpodobnosti; ̶PRŮMODCHYLKA – průměrná hodnota absolutních odchylek; ̶SLOPE – směrnice lineárního modelu; ̶T.TEST, Z.TEST, CHISQ.TEST – statistické testy shodnosti; ̶ŘADU DALŠÍCH FUNKCÍ VŠAK EXCEL POSTRÁDÁ A JE TŘEBA VYUŽÍT SILNĚJŠÍHO NÁSTROJE. Adobe Systems Institut biostatistiky a analýz LF – Výuka 24 Kopírování a vkládání ̶Kopírování vzorců, textů, celých sloupců (zkopírování pomocí Ctrl+C); dále „Vložit jinak...“ Adobe Systems Institut biostatistiky a analýz LF – Výuka 25 Praktické cvičení Adobe Systems Institut biostatistiky a analýz LF – Výuka 26 Datový soubor Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka 27 Rehabilitace po mozkovém infarktu ̶Cvičný datový soubor obsahuje záznamy o celkem 407 pacientech hospitalizovaných pro mozkový infarkt na neurologickém oddělení akutní péče, kde jim byla poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. ̶Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních aktivitách (ADL) pomocí tzv. indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení. ̶Po dvou týdnech byl opět dle BI vyhodnocen stupeň soběstačnosti a pacienti byli buď propuštěni do ambulantní péče, nebo přeloženi na oddělení následné péče. Adobe Systems Institut biostatistiky a analýz LF – Výuka 28 Sbírané informace: ̶základní demografické údaje (pohlaví a věk), ̶informace o samotné diagnóze mozkové příhody (etiologie a lokalizace uzávěru cévy), ̶informace o léčbě (typ indikované terapie a výskyt komplikací) ̶informace o způsobu ukončení rehabilitace. ̶Stupeň soběstačnosti před rehabilitací byl dodatečně zjištěn z neurologie a na konci rehabilitace byl vyplněn nový dotazník pro určení výsledného indexu Barthelové. Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka 29 Úkol č. 1 – kontrola a příprava dat 1.Do všech řádků tabulky vyplňte do sloupce Barthel_index_reference hodnotu 64,4. 2.Ukotvěte ID pacientů a názvy proměnných ve sloupcích. (nápověda: vyber buňku pro levý horní roh → karta „Zobrazení“→ funkce Ukotvit příčky). 3.Zapněte automatický filtr nad celou datovou tabulkou a zkontrolujte přítomnost chybných hodnot ve sloupcích Pohlavi, Vek, Etiologie, Lokalizace, Terapie. Chybné hodnoty opravte. (nápověda: označ všechny sloupce → karta „Data“→ funkce Filtr). Adobe Systems Institut biostatistiky a analýz LF – Výuka 30 Úkol č. 1 – kontrola a příprava dat 4.Pomocí podmíněného formátování nalezněte duplicitní záznamy ID pacientů. Jsou všechny Vámi označené záznamy skutečně duplicitní? Duplicitní údaj smažte. (nápověda: označ sloupec → karta „Domů“→ podmíněné formátování → zvýraznit pravidla buněk → duplicitní hodnoty → filtrovat podle barvy). 5.Spočítejte hodnoty ve sloupci Barthel_index_po_rehabilitaci jako celkový součet dosažených bodů v jednotlivých otázkách Barthelové testu po rehabilitaci. (nápověda: prostý součet jednotlivých buněk nebo funkce SUMA(…) ). Adobe Systems Institut biostatistiky a analýz LF – Výuka 31 6.Spočítejte hodnoty ve sloupci Barthel_index_zmena jako rozdíl Barthelové indexu před a po rehabilitaci (nápověda: prostý vzorec pro rozdíl). 7.Sloupce Barthel_index_pred_rehabilitaci a Barthel_index_po_rehabilitaci překódujte do sloupců Kategorie_zavislosti_pred_rehabilitaci a Kategorie_zavislosti_po_rehabilitaci následovně: 0 až 40 = vysoce závislý, 45 až 100 = částečně soběstačný. (nápověda: pomocí funkce KDYŽ(…) ). Úkol č. 1 – kontrola a příprava dat