Cesk Slov Ne urol N 2008; 71/ 104(5): 603– 606 603 Okénko statistika Analýza dat v neurologii XI. Úvod do statistického usuzování – velikost účinku L. Dušek, T. Pavlík, J. Koptíková Institut biostatistiky a analýz Masarykova univerzita, Brno doc. RNDr. Ladislav Dušek, Dr. Institut biostatistiky a analýz Masarykova univerzita, Brno e-mail: dusek@cba.muni.cz  Ve všech dosavadních dílech seri álu jsme se zabývali tzv. explorační analýzo u dat a nabízeli jsme řešení pro popis různých typů výběrových rozdělení náhodných veličin. Vždy šlo o situ ace, kdy někdo nashromáždil konkrétní data a popisná analýza měla za úkol je popsat, zvidi‑ telnit, zpřehlednit. Nyní otevíráme další velko u kapitolu týkající se statistického usuzování, tzv. statistické inference. Zde již nepůjde o prostý popis dat, spíše na‑ opak. Na základě provedeného výběru a předpokladů o rozdělení hodnot se budeme snažit výsledky měření zobec‑ nit na širší skupinu subjektů, případně na celo u populaci. Jisto u část této problematiky jsme již probrali, neboť statistické usuzo‑ vání zahrnuje jednak metodiku odhado‑ vání charakteristik výběrového rozdělení a jednak metody tzv. statistického tes‑ tování. Již dříve vysvětlený bodový a in‑ tervalový odhad (např. aritmetického průměru) slo uží také k zobecnění hod‑ not výběrové populace na populaci cel‑ kovo u, neboť uvádíme interval, v němž se populační hodnota nachází s  urči‑ to u spolehlivostí. Při statistickém testo‑ vání pak již přímo provádíme rozhod‑ nutí o platnosti předem dané hypotézy, o rozdělení náhodné proměnné nebo o hodnotě určitého parametru v jedné nebo více populacích. Je zřejmé, že statistické usuzování je výrazně ambici óznější než sumari‑ zace naměřených dat v konkrétním vý‑ běru. Při usuzování bojujeme s vari abili‑ to u opakovaných výběrů a samozřejmě se snažíme, aby naše závěry co nejvíce odpovídaly re alitě v  cílové populaci. Všechny kroky procesu (způsob prove‑ dení výběru, velikost vzorku, správnost uplatněných předpokladů o výběrovém rozdělení, po užitá statistická metodika) mají na konečný výsledek výrazný vliv. Vždy, když vyslovíme nějaký „statistický so ud“ (např. že daná hypotéza prav‑ děpodobně neplatí), musíme ověřit, zda jsme v celém procesu postupovali sku‑ tečně správně a zda výsledek usuzování má i re álno u interpretační hodnotu. Předpokládáme, že čtenáři tohoto se‑ ri álu se již s běžnými postupy statistic‑ kého testování setkali (máme dano u hy‑ potézu k ověření  provedli jsme výběr z  populace  aplikujeme statistický test  hypotézu prohlásíme za statis‑ ticky platno u nebo neplatno u). V závěru hovoříme o „statistické významnosti“ vlivu pokusného zásahu, o významnosti rozdílu dvo u a více populací apod. Zcela záměrně ale náš výklad nezačínáme popisem techniky testování a  zařazu‑ jeme zamyšlení nad smyslem a interpre‑ tační hodnoto u statistického usuzování. Velmi často se totiž stává, že vlastní pro‑ vedení výpočtů statistických testů pře‑ váží nad úvahami o dosaženém a dosa‑ žitelném výsledku. A jelikož statistické usuzování vždy znamená jisté zobecnění z  náhodného výběru na celo u popu‑ laci, je ověření interpretační hodnoty vý‑ sledku minimálně stejně významné jako vlastní výpočet. Řeč tedy bude o věcné (klinické) významnosti výsledku, která nemusí vždy odpovídat jeho statistické významnosti. Vezměme si jako příklad srovnání průměrné výšky lidské postavy mezi dvěma populacemi, například Čechy a Slováky. Srovnáním bodových odhadů průměru na dvo u výběrech můžeme do‑ stat numerický rozdíl např. 0,5 cm, který při znalosti rozsahu hodnot jistě nikdo neoznačí za bi ologicky podstatný nebo významný. Přesto lze i tak malý rozdíl při velkém vzorku vyhodnotit jako sta‑ tisticky významný a naopak při malém vzorku neprokážeme statisticko u vý‑ znamnost ani pro velké rozdíly. Tyto roz‑ pory věcné a statistické významnosti lze v praxi minimalizovat, musíme ale k sta‑ tistickému testování přistupovat s  ro‑ zmyslem a plánovitě: 1. Kdykoli chystáme měření nebo expe‑ rimentování za účelem statistic‑ kého usuzování, měli bychom vědět, proč tak činíme, co chceme prokázat a jaké hodnoty měřených parametrů nebo jejich rozdíly jso u pro nás věcně podstatné. Měření bez této rozvahy nemá žádné opodstatnění a  neza‑ chrání ho ani sebedokonalejší sta‑ tistická analýza. Této části postupu říkáme plánování výběru nebo pláno‑ vání experimentu („sampling design, experimental design“) a  rozhodu‑ jeme zde především o způsobu a veli‑ kosti výběru nebo o typu uspořádání experimentálních vari ant. Experimen‑ tálními plány pro různé typy hypotéz se budeme zabývat v ně­kte­rém z dal‑ ších dílů seri álu. 2. Nad naměřenými daty v provedeném výběru vždy zkontrolujeme výběrová rozdělení a poso udíme, jakého jsme dosáhli numerického výsledku. Tato fáze znamená uplatnění prosté statis‑ 604 Analýza dat v neurologii. XI. Úvod do statistického usuzování – velikost účinku Cesk Slov Ne urol N 2008; 71/ 104(5): 603– 606 tické sumarizace na všechny získané výběrové so ubory. Zahrnuje kontrolu výběrových rozdělení, hledání od‑ lehlých hodnot, odhady statistických charakteristik. 3. Přistupujeme k aplikaci statistických testů dle jejich metodiky. Jak vidno, vlastní statistické výpočty jso u po uze nástrojem, který dokládá spo‑ lehlivost dosažených výsledků a umož‑ ňuje zobecnění závěrů. Nesmíme je tedy přeceňovat. Platí, že statisticky podlo‑ žené zobecňování věcně nepodstat‑ ných rozdílů nemá žádný smysl a může být dokonce velmi zavádějící. Výsledky úvah popsaných výše v bodě 1 a 2 jso u zásadní, rozhodují o věcném významu výsledku a určují po užitelno u statistic‑ ko u metodologii, neboť ta vždy vychází z  ověřených předpokladů o  výběro‑ vých rozděleních náhodných proměn‑ ných. V bodě 2 dále zjišťujeme, jakého efektu jsme u měřené proměnné experi‑ mentem dosáhli. Hovoříme o velikosti účinku (ES, Effect Size) experimentál‑ ního zásahu nebo intervence. Absolutní velikost účinku je při srov‑ nání kontrolní a pokusné vari anty měři‑ telná například jako rozdíl odhadů aritmetického průměru ( ). Jak ale zjistíme, jaký účinek je věcně pod‑ statný, významný a interpretovatelný? Zde žádné univerzální pravidlo neexis‑ tuje, neboť vše závisí na konkrétní si‑ tu aci, měřeném parametru a cílech vý‑ zkumu. V  jedné situ aci může být za podstatný považován účinek, který v ji‑ ném kontextu podstatný není. Nastavení vždy musí provádět člověk znalý věci, který čerpá ze znalosti problému nebo z informací dostupných z literatury. Ur‑ čením věcně podstatného účinku dá‑ váme zadání i pro plánování velikosti vý‑ běru, který musí být nastaven tak, aby minimálně právě takový účinek zachytil a prokázal jako statisticky významný. Tím, že si stanovíme, jaký účinek je pro nás podstatný, ovšem nijak neovlivňu‑ jeme výsledek vlastního měření, a tedy velikost skutečně dosaženého účinku musíme ověřit. K tomu slo uží tzv. koefi- ci enty velikosti účinku. Jejich význam je především v tom, že dosažený efekt standardizují a jso u tak využitelné pro srovnávání různých postupů nebo expe‑ rimentů. Hodnota těchto koefici entů je nezávislá na velikosti výběru. Proto také našly rozsáhlé uplatnění v tzv. metaana‑ lýzách, které sumarizují výsledky dvo u nebo více dílčích empirických studi í za‑ bývajících se stejným anebo podobným problémem. Pro taková srovnání je nutný odhad velikosti účinků bez ovlivnění ve‑ likostí vzorku v konkrétních experimen‑ tech. Jako učebnicový příklad takového koefici entu zde uvádíme Cohenův ko‑ efici ent d po užívaný pro hodnocení ve‑ likosti účinku v testech o dvo u výběro‑ vých odhadech průměru: kde značí rozdíl aritmetických průměrů naměřených hodnot dvo u sku‑ pin (pokus, kontrola) a  s  je společná směrodatná odchylka obo u měření. Ze vzorce vyplývá, že hodnota d skutečně standardizuje rozdíly mezi dvěma skupi‑ nami pomocí směrodatné odchylky a je nezávislá na rozsahu výběru. Pro jedno‑ duchost budeme uvažovat, že hodnota d nabývá po uze kladných hodnot, tedy že hodnoto u označíme větší z  vy‑ počtených průměrů obo u skupin a na‑ opak označíme menší z vypočtených průměrů obo u skupin. V literatuře se můžeme setkat s růz‑ nými formami výpočtu koefici entu d, které se liší v odhadu směrodatné od‑ chylky ve jmenovateli: Za určitých okolností je do vzorce za s  dosazována hodnota směrodatné odchylky po uze jedné z vari ant, typic‑ ky vari anty kontrolní. V literatuře ta‑ kový koefici ent figuruje také pod ná‑ zvem Glassovo delta. Tento postup je optimální za situ ace, kdy v experimen‑ tu existuje skutečná kontrolní vari anta a její vari abilita je pro měřeno u veliči‑ nu reprezentativnější než jiné hodnoty (například pokud je rozptyl hodnot v  experimentální vari antě změněn v důsledku provedeného zásahu). Běžně bývá za s dosazován prostý prů‑ měr obo u výběrových odhadů směro‑ datných odchylek. Tento postup lze doporučit, pokud jso u velikosti obo u výběrů přibližně stejné a  hodnoty s1  a s2  příslušející jednotlivým výběrům se podstatně neliší. Další možností je výpočet vážené smě‑ rodatné odchylky obo u výběrů, kdy je výsledný odhad s (v literatuře: Spo oled ) vážen velikostí vzorku v  jednotlivých výběrech. Výpočet můžeme vyjádřit následovně: Příklad na obr. 1 dokumentuje právě tento postup výpočtu Cohenova d dopl‑ něný 95% intervalem spolehlivosti. Rozhodování o velikosti účinku prová‑ díme na základě konvenčně daných li‑ • • • s n1, n2 s xx d 21 − = ( )21 2 21 21 ][ 2 nn d nn nn s d + + × + = ][96,1 dsd ×− ][96,1 dsd ×+ x1 =54,8 x2 =50,2 95% IS pro d: 0,34–1,24 s[d] = 0,23; d = 0,79n1 = 47 n2 = 35 s = 5,8 1x 2x Obr. 1. Výpočet Cohenova koeficientu d a jeho 95% intervalu spolehlivosti [3]. Analýza dat v neurologii. XI. Úvod do statistického usuzování – velikost účinku Cesk Slov Ne urol N 2008; 71/ 104(5): 603– 606 605 mitů pro hodnotu d: při d > 0,8, je efekt velký; pro d v intervalu 0,5– 0,8 je efekt střední; efekt pod hodnoto u 0,2 ozna‑ čujeme za malý. S rosto ucím rozdílem hodnot v  čitateli hodnota d logicky roste a  dělení směrodatno u odchyl‑ ko u činí z rozdílu měřítko překrývání srovnávaných výběrových rozdělení: při d = 0 jde o 100% překryv hodnot obo u skupin; d rovno 0,8 znamená, že hod‑ nota převyšuje 79 % všech hodnot ve skupině 2 atd. (tab. 1). Výpočet Cohenova d je dobrým příkla‑ dem univerzálnosti koefici entů účinku. Standardizace pomocí s  totiž roz‑ díl obo u průměrů vztahuje k  vari abi‑ litě (rozsahu) měřené veličiny. Lze tak rovnocenně srovnávat velikost účinku u dvo u studi í, které měří daný jev po‑ mocí různých ukazatelů, například s roz‑ sahy 0– 100 a 0– 10. Nutno ovšem při‑ pomeno ut, že všechny zde uvedené výpočty týkající se koefici entu d předpo‑ kládají normální rozdělení náhodné ve‑ ličiny. Koefici entů velikosti účinku exis‑ tuje samozřejmě více a jejich aplikace se liší podle typu experimentu a  roz‑ dělení měřené veličiny. Často jso u takto užívány korelační koefici enty pro hod‑ nocení míry vztahu dvo u proměnných. Jiným příkladem může být odvození ko‑ efici entu velikosti účinku z analýzy rozp‑ tylu. Tzv. Effect Size Correlati on i další pokročilé metody budo u námětem dal‑ ších dílů našeho seri álu. Velikost účinku lze částečně doložit také pomocí intervalů spolehlivosti pro‑ váděných odhadů. Při srovnání dvo u vý‑ běrových průměrů můžeme například porovnávat intervaly spolehlivosti pro odhad průměru v obo u výběrových po‑ pulacích, nebo bodový odhad průměru v jednom výběru s intervalem spoleh‑ livosti pro výběrový odhad průměru v  druhém výběru (experimentální va‑ ri antě). Takové srovnání nenahrazuje statistický test, ale umožní srovnat sku‑ tečné naměřené hodnoty s věcně vý‑ znamným účinkem. Alternativně mů‑ žeme provést intervalový odhad přímo pro rozdíl dvo u výběrových průměrů a  poso udit, zda je klinicky podstatný účinek tímto intervalem pokryt či nikoli. Příklad takového výpočtu je na obr. 2. Je zřejmé, že šířka intervalu spolehlivosti so uvisí s  velikostí vzorku, takže plně standardizované hodnocení účinku na‑ hradit nemůže. Přesto lze intervaly spo‑ lehlivosti doporučit pro prezentaci vý‑ sledků, zvláště pokud statistické testy neprokáží významné rozdíly srovnáva‑ ných skupin [6]. V takovém případě in‑ terval spolehlivosti pro rozdíl průměrů zahrnuje nulu (obr. 2, příklad 2). Z šířky intervalu můžeme usuzovat i na velikost hodnoceného účinku, která je podporo‑ vána již naměřenými daty. Pevně věříme, že jsme tímto úvodem k statistickému usuzování čtenáře ne‑ odradili od dalších dílů. V nich přine‑ seme jasné návody, jaké testy aplikovat v různých situ acích. Přesto se nám téma velikosti účinku bude ne ustále vracet a budeme ho rozebírat především v pří‑ padech, kdy výsledky vyjdo u statisticky nejasně. Kritické poso uzení věcného významu výsledků totiž nelze čekat od statistického software, je to úkol expe‑ rimentátorů a v klinickém výzkumu lé‑ ( ) ( ) 2 11 21 2 22 2 112 −+ −+− = nn snsn s s1, s2 n1, n2 SE s2 t ν 221 −+= nnυ 1x 2x       +±−=−±− 21 2 ), 2 ( 2121 ), 2 ( 21 11 )()()( nn stxxxxSEtxx νανα Obr. 2. Příklad výpočtu intervalu spolehlivosti (IS) pro rozdíl odhadů aritmetického průměru. Tab. 1. Interpretace velikosti účinku na základě Cohenova koeficientu d. Velikost d 0,0 0,2 0,5 0,8 1,0 1,2 1,6 2,0 podíl hodnot (v %) 50 58 69 79 84 88 95 98 ve skupině 2, které jsou nižší než průměr skupiny 1 podíl hodnot (v %), 0 15 33 47 55 62 73 81 které se ve skupině 1 a 2 nepřekrývají Pozn. Srovnávány jsou průměry hodnot měřené ve dvou skupinách jedinců: 1 a 2 606 Analýza dat v neurologii. XI. Úvod do statistického usuzování – velikost účinku Cesk Slov Ne urol N 2008; 71/ 104(5): 603– 606 kařů. Věříme, že po pročtení tohoto dílu bude čtenář so uhlasit s následujícím zla‑ tým pravidlem prezentace vědeckých vý‑ sledků: vedle statistické významnosti by měla být vždy doložena i velikost dosa‑ ženého účinku a ta doplněná intervalem spolehlivosti. Ačkoli to vypadá jako sa‑ mozřejmost, zdaleka ne vždy je toto pra‑ vidlo dodržováno. I proto zde na závěr dokládáme ukázku výsledkové tabulky (tab. 2), která vyčerpávajícím způsobem dokumentuje význam a spolehlivost na‑ měřených rozdílů mezi dvěma výběro‑ vými průměry. Literatura 1. Blahuš P. Statistická významnost proti vědecké průkaznosti výsledků výzkumu. Čes Kinantropologi e 2000; 4(2): 53– 72. 2. Cohen J. Statistical power analysis for the behavi oral sci ences. 2nd ed. Hillsdale: NJ: Earlba um 1998. 3. Hedges L. Olkin I. Statistical Methods for Meta‑Analysis. New York: Academic Press 1985. 4. Hoenig JM, Heisey DM. The abuse of power: the pervasive fallacy of power cal‑ culati ons for data analysis. Am Stat 2001; 55: 19– 24. 5. Ives B. Effect size use in studi es of le ar‑ ning disabiliti es. J Le arn Disabil 2003; 36(6): 490– 504. 6. Johnson DH. The insignificance of sta‑ tistical significance testing. J Wildl Manage 1999; 63(3): 763– 772. 7. Lipsey MW, Wilson DB. The efficacy of psychological, educati onal, and behavi oral tre atment: Confirmati on from meta‑analy‑ sis. Am Psychol 1993; 48(12): 1181– 1209. 8. Thompson B. Statistical significance and effect size reporting: portrait of a possible future. Rese arch in the Scho ols 1995; 5(2): 33– 38. Tab. 2. Sumarizace naměřených hodnot. Sumarizace naměřených hodnot Velikost účinku Statistický testExperiment (E) Kontrola (K) Rozdíl (E – K) výběrový odhad průměru doplněný standardní chybou výběrový odhad průměru doplněný standardní chybou rozdíl odhadů průměru (E a K) doplněný 95 % int. spolehlivosti Cohenovo d, odhad d doplněný 95% int. spolehlivosti výsledek vhodného statistického testu ověřujícího platnost hypotézy E = K Tabulka končí políčkem o provedení statistického testu a právě této problematice se bude věnovat další díl našeho seriálu www.epsychiatrie.cz