Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 1 BIOSTATISTIKA Tato prezentace je autorským dílem vytvořeným zaměstnanci Masarykovy univerzity. Studenti předmětu mají právo pořídit si kopii prezentace pro potřeby vlastního studia. Jakékoliv další šíření prezentace nebo její části bez svolení Masarykovy univerzity je v rozporu se zákonem. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 2 Osnova ̶Excel: opakování, příprava dat, základní vzorce ̶Základy popisné statistiky ̶Základní rozdělení pravděpodobnosti, testování hypotéz ̶Parametrické testy ̶Neparametrické testy ̶Analýza kontingenčních tabulek ̶Základy korelační analýzy a lineární regrese Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 3 Motivace ̶Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové“ tabulky umožňující jejich zpracování v libovolné aplikaci. ̶Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezena ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 4 Příprava dat, MS Excel Datová tabulka Zásady správné tvorby dat Možnosti MS Excel Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 5 Ukázka datového souboru Parametry (znaky) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 6 Zásady pro ukládání dat ̶Správné a přehledné uložení dat je základem jejich pozdější analýzy. ̶Je vhodné rozmyslet si předem jak budou data ukládána. ̶Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě. ̶Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky. ̶Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku. ̶Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Excel. ̶ Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 7 ̶Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce; ̶Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.); ̶Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty; ̶Komentáře jsou uloženy v samostatných sloupcích; ̶U textových dat je nezbytné kontrolovat překlepy v názvech kategorií; ̶Specifickým typem dat jsou data, u nichž je nezbytné kontrolovat, zda jsou uloženy v korektním formátu. Zásady pro ukládání dat Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 8 MS Excel ̶Tabulkový procesor. ̶Aktualizace každé 2 až 3 roky; nové funkce, rozšíření počtu řádků a sloupců, změna formátu. ̶Starší formát: .xls, novější: .xlsx. ̶Aktuální verze 2016 umožňuje ukládat tabulku o 1 048 576 řádcích a 16 384 sloupcích. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 9 Možnosti MS Excel ̶ Správa a práce s tabulárními daty. ̶ Řazení dat, výběry z dat, přehledy dat. ̶ Formátování a přehledné zobrazení dat. ̶ Zobrazení dat ve formě grafů. ̶ Různé druhy výpočtů pomocí zabudovaných funkcí. ̶ Tvorba tiskových sestav. ̶ Makra – zautomatizování častých činností. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 10 Import a export dat Import dat ̶Manuální zadávání ̶Import – podpora importu ze starších verzí Excelu, textových souborů, databází apod. ̶Kopírování přes schránku Windows – vkládání z nejrůznějších aplikací – MS Office, Statistica atd. Export dat ̶Ukládáním ve formátech podporovaných jinými SW, časté jsou textové soubory, dbf soubory nebo starší verze Excelu ̶Přímé kopírování přes schránku Windows Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 11 Databázová struktura dat v Excelu Excel neumožňuje pojmenování řádků a sloupců vlastními názvy. Řádky tabulky => jednotlivé záznamy (taxon, lokalita, měření, pacient atd.) Sloupce tabulky => parametry záznamů, hlavička udává obsah sloupce – stejný údaj v celém sloupci Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 12 Typy a triky jak se v datech pohybovat Výběr buněk ̶CTRL+HOME – přesunutí na levý horní roh tabulky ̶CTRL+END – přesunutí na pravý dolní roh tabulky ̶CTRL+A – výběr celého listu ̶CTRL + klepnutí myší do buňky – výběr jednotlivých buněk ̶SHIFT + klepnutí myší na jinou buňku – výběr bloku buněk ̶SHIFT + šipky – výběr sousedních buněk ve směru šipky ̶SHIFT+CTRL+END (HOME) – výběr do konce (začátku) oblasti dat v listu ̶SHIFT+CTRL+šipky – výběr souvislého řádku nebo sloupce buněk ̶SHIFT + klepnutí na objekty – výběr více objektů Kopírování a vkládání ̶CTRL+C – zkopírování označené oblasti buněk ̶CTRL+V – vložení obsahu schránky – oblast buněk, objekt, data z jiné aplikace Myš a okraje buňky ̶Chycení myší za okraj umožňuje přesun buňky nebo bloku buněk ̶Při chycení čtverečku v pravém dolním rohu výběru je tažením možno vyplnit více buněk hodnotami původní buňky (ve vzorcích se mění relativní odkazy) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 13 Automatický filtr ̶Pomocí automatického filtru je snadné vybírat úseky dat pro další zpracování na základě hodnot ve sloupcích databázové tabulky, výběr je možný i podle více sloupců (např. určitá skupina pacientů) ̶Funkce automaticky rozezná hlavičky sloupců v souvislé oblasti buněk ̶Výhodné pro čištění dat (vyhledávání překlepů, kombinace textu a čísel) Výběr hodnot pro filtraci 1. Zapnutí filtru (alternativa klávesová zkratka Crtl+Shift+L) 2. Objeví se rozbalovací šipka s výčtem všech unikátních hodnot v daném sloupci dat Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 14 Ukotvení příček ̶Umožňuje ukotvení libovolných řádků a sloupců pro pohodlné vkládání a prohlížení dat v tabulce. ̶Umožňuje číst řádky/sloupce ze začátku tabulky i po přesunutí se dále. ̶Záložka „Zobrazení“ → „Ukotvit příčky“. ̶Odstranění ukotvení: Po ukotvení příček se automaticky možnost „Ukotvit příčky “ změní na „Uvolnit příčky“. ̶Možnosti: Ukotví řádky nad označenou buňkou a sloupce vlevo od označené buňky Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 15 Vzorce ̶vpisují se do buněk sešitu ̶vzorce jsou vždy uvozeny = (lze též + -) ̶aritmetické operátory + zabudované funkce Excelu ̶pro „sčítání“ nečíselných položek se používá & ̶výpočet je založen buď na číselných konstantách nebo odkazech na buňky ̶ =3*odmocnina(A1) uvození vzorce konstanta zabudovaný vzorec Excelu odkaz na buňku aritmetický operátor Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 16 Vzorce – odkaz na buňku Relativní odkazy ̶A1 = buňka 1. řádku sloupci A ̶A1:B6 = blok buněk – levý horní roh je v 1. řádku, sloupec A,pravý dolní na řádku 6, sloupec B ̶relativní odkaz se při automatickém vyplnění buněk vzorcem posune ̶mění se s kopírováním, při vložení a odstranění řádku nebo sloupce Absolutní odkaz ̶odkaz na buňku je pevně dán, při kopírování nebo automatickém vyplnění se nemění ̶lze uzamknout jak řádky, tak sloupce samostatně $A$1 uzamčení sloupce uzamčení řádku Pamatuj: Adresu upevníme pomocí znaku $ (klávesa F4) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 17 Vzorce – využití seznamu vzorců Funkce a její stručný popis Kategorie vzorců Průvodce funkcí Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 18 Vzorce – užitečné funkce ̶SUMA – součet číselných hodnot oblasti; ̶SUMIF – podmíněný součet (podmínky v doplňkové oblasti); ̶PRŮMĚR – aritmetický průměr číselných hodnot oblasti; ̶GEOMEAN – geometrický průměr číselných hodnot oblasti; ̶COUNTIF – počet hodnot oblasti splňujících zadanou podmínku; ̶KDYŽ – logická podmínka (IF); ̶MAX, MIN – maximum/minimum číselných hodnot oblasti; ̶MEDIAN – výpočet mediánu; ̶PERCENTIL – výpočet percentilů; ̶DATUAM, ROK, MĚSÍC, DEN – práce s kalendářními daty; ̶ABS – absolutní hodnota; ̶SVYHLEDAT – spojování tabulek podle identifikátoru - řádku. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 19 Statistické funkce v MS Excel ̶CONFIDENCE.NORM – výpočet intervalu spolehlivosti (při normálním rozdělení); ̶CORREL, PEARSON – výpočet Pearsonova korelačního koeficientu; ̶COVARIANCE.S – výpočet kovariance dvou množin dat; ̶COUNTIF – počet hodnot oblasti splňujících zadanou podmínku; ̶DEVSQ – součet čtverců odchylek od výběrového průměru; ̶F.DIST, GAMMA.DIST, T.DIST, NORM.DIST aj. – různá rozdělení pravděpodobnosti; ̶PRŮMODCHYLKA – průměrná hodnota absolutních odchylek; ̶SLOPE – směrnice lineárního modelu; ̶T.TEST, Z.TEST, CHISQ.TEST – statistické testy shodnosti; ̶ŘADU DALŠÍCH FUNKCÍ VŠAK EXCEL POSTRÁDÁ A JE TŘEBA VYUŽÍT SILNĚJŠÍHO NÁSTROJE. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 20 Kopírování a vkládání ̶Kopírování vzorců, textů, celých sloupců (zkopírování pomocí Ctrl+C); dále „Vložit jinak...“ Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 21 Praktické cvičení Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 22 Datový soubor Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 23 Rehabilitace po mozkovém infarktu ̶Cvičný datový soubor obsahuje záznamy o celkem 407 pacientech hospitalizovaných pro mozkový infarkt na neurologickém oddělení akutní péče, kde jim byla poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. ̶Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních aktivitách (ADL) pomocí tzv. indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení. ̶Po dvou týdnech byl opět dle BI vyhodnocen stupeň soběstačnosti a pacienti byli buď propuštěni do ambulantní péče, nebo přeloženi na oddělení následné péče. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 24 Sbírané informace: ̶základní demografické údaje (pohlaví a věk), ̶informace o samotné diagnóze mozkové příhody (etiologie a lokalizace uzávěru cévy), ̶informace o léčbě (typ indikované terapie a výskyt komplikací) ̶informace o způsobu ukončení rehabilitace. ̶Stupeň soběstačnosti před rehabilitací byl dodatečně zjištěn z neurologie a na konci rehabilitace byl vyplněn nový dotazník pro určení výsledného indexu Barthelové. Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 25 Úkol č. 1 – kontrola a příprava dat 1.Do všech řádků tabulky vyplňte do sloupce Barthel_index_reference hodnotu 64,4. 2.Ukotvěte ID pacientů a názvy proměnných ve sloupcích. (nápověda: vyber buňku pro levý horní roh → karta „Zobrazení“→ funkce Ukotvit příčky). 3.Zapněte automatický filtr nad celou datovou tabulkou a zkontrolujte přítomnost chybných hodnot ve sloupcích Pohlavi, Vek, Etiologie, Lokalizace, Terapie. Chybné hodnoty opravte. (nápověda: označ všechny sloupce → karta „Data“→ funkce Filtr). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 26 Úkol č. 1 – kontrola a příprava dat 4.Pomocí podmíněného formátování nalezněte duplicitní záznamy ID pacientů. Jsou všechny Vámi označené záznamy skutečně duplicitní? Duplicitní údaj smažte. (nápověda: označ sloupec → karta „Domů“→ podmíněné formátování → zvýraznit pravidla buněk → duplicitní hodnoty → filtrovat podle barvy). 5.Spočítejte hodnoty ve sloupci Barthel_index_po_rehabilitaci jako celkový součet dosažených bodů v jednotlivých otázkách Barthelové testu po rehabilitaci. (nápověda: prostý součet jednotlivých buněk nebo funkce SUMA(…) ). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 27 6.Spočítejte hodnoty ve sloupci Barthel_index_zmena jako rozdíl Barthelové indexu před a po rehabilitaci (nápověda: prostý vzorec pro rozdíl). 7.Sloupce Barthel_index_pred_rehabilitaci a Barthel_index_po_rehabilitaci překódujte do sloupců Kategorie_zavislosti_pred_rehabilitaci a Kategorie_zavislosti_po_rehabilitaci následovně: 0 až 40 = vysoce závislý, 45 až 100 = částečně soběstačný. (nápověda: pomocí funkce KDYŽ(…) ). Úkol č. 1 – kontrola a příprava dat