Epi Info - jeho popis a praktický význam Petr Kachlík Brno, 2017 FILES > Co je Epi Info •zdarma získatelný a pro nekomerční účely použitelný softwarový balík typu „public domain“ (https://www.cdc.gov/epiinfo/support/downloads.html) •je určený především pro odborníky i další zájemce v oblasti veřejného zdravotnictví •Epi Info je obchodní značkou (TM) CDC (Centers for Disease Control and Prevention), Atlanta, Georgia, USA •software, dokumentace a výukové materiály jsou ale veřejným vlastnictvím a lze je bez omezení kopírovat, distribuovat a překládat Z čeho se Epi Info skládá a co umí •sběr, záznam, zpracování a prezentace dat •modulární systém •spolupráce s databázemi, tabulkovými procesory a webovými prohlížeči •program výživy a antropometrie •příprava formulářů, kontrola dat na vstupu, jejich ochrana, komprese a kódování •výuková cvičení Z čeho se Epi Info skládá a co umí •5 základních modulů: Make View (tvorba dotazníků), Enter (vkládání dat), Analysis (statistická analýza), Epi Map (prezentace údajů v geografických souvislostech), Epi Report (generování výstupů) •v současnosti je třeba k instalaci alespoň Win XP SP3, kolem 300 MB volného místa na HDD, alespoň 128 MB RAM, takt CPU minimálně 300 MHz •starší verze běžely pod MS-DOS, Win 9x, NT, 2k…, v. 6 byla lokalizovaná do Cz vč. helpu Epi Info Museum 1 •1976: minipočítače se začínají prosazovat ve veřejném zdravotnictví v US, epidemiologie prasečí chřipky (sw SOCRATES, lg. FORTRAN) •1978-84: Epidemiologic Analysis System (EAS), lg. BASIC, Georgia •1978-84: sdružení epidemiologů, sestavení počítačové pracovní skupiny •1984: počátek systémového vývoje epidemiologického sw EPI-AID pro terénní praxi a výzkum Epi Info Museum 1 eiHistA_ADean eiHistA_auda1 cdcHeaderLogo > Epi Info Museum 2 •1986: Epi Info verze 1, běželo pod DOSem •distribuován 27stránkový manuál k programu a 5 1/4palcová (!) disketa •Programs for Automatic File Definition, Data Entry and Tabulation = Epi Info •sw zvládal sestavování dotazníků, sběr a analýzu dat, stal se rychle populárním Epi Info Museum 2 eiHistB_1 eiHistB_2 eiHistB_3 > Epi Info Museum 3 •1987: Epi Info verze 2 •vázaný 112stránkový manuál, menu, modulární struktura •tvorba dotazníku (EPED), práce s daty (ENTER, ANALYSIS), epi kalkulátor (STATCALC), grafika - histogramy (EPICURVE), práce se soubory (MERGE, IMPORT, CONVERT), základní statistické výstupy •1988: Epi Info verze 3 •150stránkový manuál, vylepšená statistika a grafické výstupy Epi Info Museum 3 eiHistC_1 eiHistC_2 eiHistC_3 eiHistC_4 > Epi Info Museum 4 •1988: Epi Info verze 4, mnoho nových funkcí, ale též řada chyb, spolupráce CDC a WHO •vytvořen základ pro verzi 5 eiHistD_3 Epi Info Museum 5 •1990: Epi Info verze 5 •384stránkový manuál, kódování proměnných, regresní funkce, inovace grafiky, generátor zpráv, nutriční antropometrie •první mezinárodní distribuce, dovolovala evropský formát data a národní abecedy •zdrojové kódy byly přeloženy do francouzštiny, španělštiny, čínštiny, arabštiny a ruštiny •1992: Epi Map verze 1 a 2, ovládané myší Epi Info Museum 5 eiHistE_1 eiHistE_2 eiHistE_3 eiHistE_4 > Epi Info Museum 6 •1992: Epi Info verze 6 •600stránkový manuál, vylepšená statistika, grafika, rozsáhlejší příklady, programovatelné menu, generování epidemiologických hlášení •verzi 6 užívala i WHO a lokálně výzkumníci mnoha zemí světa, položen základ Win verze •1993: konference Microcomputers and the Future of Epidemiology, Atlanta •1994: Epi Info distribuováno již on-line, hotline, manuály v řadě jazyků včetně češtiny (!) Epi Info Museum 6 •1996: diskusní skupina na netu, další překlady sw a manuálu (celkem do 14 jazyků) •1997: ověřování sw a zpětná vazba od uživatelů, 150000 kopií ve 117 zemích, 1207 citací, 52 síťových zdrojů Epi Info nabízelo ke stažení •1998: příprava kompatibility s „y2k“, a to i zpětně (starší datové soubory) – v. 6.04b, c •2001: v 6.04d - rekompilace programu po úpravě zdrojového kódu v lg. TURBO PASCAL, řešila přechod na moderní CPU architekturu PC, typická distribuce na 3 FDD 3,5 palce, 1,44 MB Epi Info Museum 6 eiHistF_01 eiHistF_02 eiHistF_04 eiHistF_05 > Epi Info Museum 6 eiHistF_06 eiHistF_07 eiHistF_09 eiHistF_11 > Epi Info Museum 7 •1998: vznik týmu pro vývoj Epi Info 2000 •1999: vydána beta verze Epi Info 2000 pro Win 95, 98 a NT, výstup ANALYSIS ve formátu html •snadnější tvorba formulářů s dotazníky, manipulace s databázemi, statistikou, vylepšené grafické prezentace •zpětná vazba, sdílení dat po internetu • Epi Info Museum 7 eiHistG_4 eiHistG_5 > Epi Info: současnost a budoucnost •2000-2016: nové verze 3.5.x pro OS Windows vč. WXP a W7 •v současnosti aktuální Epi Info verze 7.2 (2017) •vázne lokalizace do Cz, u EI 3.5.x existuje však Sk verze •rychlé a účinné sdílení informací •vývoj portable version (mobily, tablety, notebooky) •snadný přístup k odborným zdrojům přeloženým do hlavních světových jazyků Epi Info: současnost a budoucnost •vývoj metod pro přístup a analýzu dat pocházejících z klinických zdrojů s výstupy do veřejného zdravotnictví •komunikace s domácnostmi (uživateli, respondenty) pomocí adresných služeb (videokonference, IT) •zadávání dat z terénu pomocí hlasového vstupu •adaptace sw pro nové operační systémy •... Epi Info 3.5.1 Seznámení s programovým balíkem rgtaylor-csc-net-computer[1] rgtaylor-csc-net-computer[1] > Epi Info: úvodní obrazovka •základní přehled a rychlá nabídka podprogramů •pro verzi 3.5.1 existuje oficiální částečná lokalizace do slovenštiny, čeština bohužel chybí •položky Zadat data, Náhled, Analýza dat, Výstup, Mapy, Hlášení, Web •z menu Výživa navíc přístup k nutriční epidemiologii Epi Info: práce s daty •data lze: načítat, importovat, propojit, ukládat, exportovat, slučovat, editovat •proměnné lze: definovat, zobrazit, přiřadit, překódovat •lze vybrat data dle různých požadavků na jejich třídění •základní statistika: seznam proměnných, tabulky absolutních a relativních četností, testování (ANOVA, x2), grafy, kartogramy Epi Info: práce s daty 2 •pokročilá statistika: regresní analýza, analýza přežití,… •výstupy: nastavení záhlaví, typu výstupu, tisku a ukládání souborů •uživatelské programy a příkazy, makra •interakce s uživatelem a nastavení prostředí (jazyk, pracovní adresář, typ a verze databáze…) Epi Info: práce s daty 3 •porovnávání dat: výpis odlišných záznamů a odlišných proměnných včetně konkrétního rozdílu •EpiLock: zaheslování a dekódování dat, archivace •EpiInfi Help: standardní nápověda včetně rejstříku, vyhledávání klíčových slov a slovníku výrazů Epi Info: pomocné programy •StatCalc: čtyř- a vícepolní tabulky po test dobré shody (x2 test) •výpočet velikosti vzorku Epi Info: StatCalc > Epi Info: StatCalc > Epi Info: StatCalc > Epi Info: StatCalc > Epi Info: co je co (typy dat) •data nominální: kvalitativní či kategoriální, neexistuje u nich velikost (pohlaví, rodinný stav, krevní skupina, DNA sekvence), dichotomická (alternativní): jen možnosti ANO/NE, diskrétní •data ordinální: lze je uspořádat a určit, která hodnota je „vyšší“a která „nižší“, nelze ale posoudit vzdálenost jednotlivých hodnot či kategorií (nejvyšší dosažené vzdělání), diskrétní •data intervalová: lze je třídit a určovat i vzdálenosti mezi hodnotami (teplota tělesa), nezahrnují však vzájemný poměr hodnot, spojitá •data poměrová: mimo jiné jsou vymezeny i poměry jednotlivých hodnot (obvykle základní fyzikální veličiny, u nichž je jasně definovaná nula), spojitá •spojitá data lze převádět na diskrétní (vytvoření kategorií) Epi Info: co je co (poloha) •aritmetický průměr: součet členů souboru dělený jejich počtem, nevýhodou jsou extrémy (průměrné známky, platy) •vážený průměr: absolutní četnosti vyjádříme jako relativní, jako podíly z celkového počtu; součet relativních četností (vah) v souboru je roven 1 •geometrický průměr: všechny hodnoty (n) se vzájemně vynásobí, ze součinu se vypočte n-tá odmocnina; užívá se zejména v ekonomii •medián: přesný střed hodnot seřazených podle velikosti •modus: hodnota s nejvyšší třídní četností Epi Info: co je co (variabilita) •zjišťuje se, jak se vzájemně liší jednotlivé prvky statistického souboru •variační rozpětí: rozdíl mezi maximem a minimem, je citlivý na extrémy •mezikvartilové rozpětí: rozdíl mezi horním (0,75) a dolním (0,25) kvartilem, není citlivý na extrémy •rozptyl: disperse hodnot souboru kolem střední hodnoty základního souboru •směrodatná odchylka: druhá odmocnina z rozptylu, má stejné jednotky jako sledovaná veličina •variační koeficient (%): používá se při hodnocení znaků majících odlišné jednotky nebo lišících se mírou polohy, jde o relativní variabilitu vztaženou k průměru Epi Info: StatCalc, co je co (prevalence) •udává podíl obyvatel, kteří mají (nebo měli) určitý znak v dané lokalitě v daném časovém období •v medicíně jde typicky o stav, chorobu nebo rizikový faktor (deprese, kouření,…) •zjišťujeme ji v prevalenčních (průřezových) studiích) •intervalová prevalence: v celém průběhu sledovaného období •bodová prevalence (k určitému datu) Epi Info: StatCalc, co je co (incidence) •poměr nově vzniklých onemocnění (v určitém časovém rozmezí) k celkovém počtu osob ve sledované skupině •kumulativní incidence: poměr počtu osob, které onemocní ve sledovaném období, k celkovému počtu osob zahrnutých do studie •udává se přepočtena na určitý počet osob a délku sledování, v úvahu je brána pouze populace riziková pro příslušné onemocnění; nabývá hodnot od 0 do 1 •incidence rate: rychlost, s jakou se ve sledované populaci vyskytují dané zdravotní jevy, uvádí se jako počet případů za jednotku osobočasu (např. 0,20 případů na osoborok znamená, že se daný jev vyskytne u 1 osoby v průměru jednou za 5 let); nabývá hodnot od 0 do nekonečna Epi Info: StatCalc, co je co (RR) •relativní riziko (RR): ukazatel vystihující vztah mezi expozicí rizikovému faktoru a zdravotním následkem •RR=1: daný faktor NEMÁ na vznik onemocnění vliv •RR>1: expozice je RIZIKOVÝM faktorem •RR<1: expozice je PROTEKTIVNÍM faktorem •RR je vyjádřeno poměrem incidencí v exponovaném a neexponovaném souboru Epi Info: StatCalc, co je co (AR) •absolutní riziko (RR): pozorovaná nebo vypočítaná pravděpodobnost výskytu daného onemocnění ve studované populaci Epi Info: StatCalc, co je co (CI) •interval spolehlivosti (CI): intervalový odhad k získání představy o relativní četnosti a průměru základního souboru •šířkou CI lze posuzovat náhodnou výběrovou chybu, čím užší CI, tím více se blíží hodnotám základního souboru •hodnoty alfa rovny 0,9; 0,95; 0,99; 0,995 •pro 95% CI odpovídá hodnota 1,96 a pro 99% CI 2,58 •hodnota 95% nebo 99% znamená, že průměr leží uvnitř tohoto intervalu s touto pravděpodobností •CI pokrývá hodnotu známého průměru s danou spolehlivostí •99% CI znamená, že se ve 100 náhodných výběrech objeví daná charakteristika právě 99krát Epi Info: StatCalc, co je co (ODDS) •poměr šancí, ODDS ratio, OR: používá se u studie případů a kontrol, kde nelze aplikovat relativní riziko, poněvadž není k dispozici kumulativní incidence, ale můžeme kvantifikovat pravděpodobnost expozice případů a kontrol •OR=a*d/b*c (políčka čtyřpolní tabulky) •OR=1: ŽÁDNÝ korelát mezi rizikovým faktorem a onemocněním •OR>1: pozitivní souvislost, NEGATIVNÍ rizikový faktor •OR<1: PROTEKTIVNÍ faktor Epi Info: StatCalc, co je co (kontingenční tabulka) •užívá se k vizualizaci vztahu dvou statistických znaků a testování vztahů mezi nimi •v řádcích tabulky jsou hodnoty prvního znaku, ve sloupcích hodnoty druhého znaku •nezávislost: znaky se navzájem neovlivňují vtom, jakých konkrétních hodnot nabývají •homogenita: očekávané četnosti v políčcích každého řádku jsou ve vzájemném poměru bez ohledu na konkrétní volbu řádku •ověřuje test dobré shody (x2 test) Epi Info: StatCalc, co je co (x2 test) •nulová hypotéza: rozložení znaků se navzájem neovlivňuje •alternativní hypotéza: rozložení znaků se vzájemně ovlivňuje •v políčkách čtyřpolní tabulky četnosti větší než 5, jinak x2 není korektní, použijeme např. Fisher exact test •chyba prvního druha (alfa): zamítáme nulovou hypotézu, když platí (hladina významnosti) •chyba druhého druhu (beta): přijímáme nulovou hypotéz, když neplatí •při testování si předem zvolíme úroveň chyby (alfa), tj. hladinu významnosti (v medicíně obvykle 0,1 %, 1 % a 5 %) Epi Info: co je co (korelace) •vzájemný vztah mezi dvěma procesy či veličinami •na základě korelace ještě nelze rozhodnout, co je příčinou a co následkem (korelace neimplikuje kauzalitu) •určuje lineární vztah mezi znaky, její míru vyjadřuje korelační koeficient, který nabývá hodnot od -1 do +1 •-1: nepřímá závislost, +1: přímá závislost, 0: nezávislost, ale pozor: i při koeficientu 0 může existovat závislost, jen ji nelze popsat lineární fcí ! Epi Info: co je co (regrese) •metody, které umožňují odhadovat hodnotu veličiny závisle proměnné (vysvětlované či cílové proměnné, regresanda) na základě znalosti jiných veličin (vysvětlujících či nezávislých proměnných, regresorů či kovariát) – např. odhad počasí přes den na základě znalosti jeho předpovědi a momentálního stavu ráno •je-li závisle proměnná skalár nebo vektor (např. délka dožití v letech), jde o tzv. lineární regresi x nelineární regrese-neuronové sítě •je-li závisle proměnná diskrétní, jde o tzv. diskriminační analýzu (kategorie, třídy bez možnosti určit střední hodnotu) – např. předpověď koupě typu nápoje na základě věku a pohlaví zákazníka