Tento příspěvek bych začal stylově: "Statistika nuda je."
Ve své praxi se setkávám se studenty, kteří absolvovali ucelenou výuku biostatistických metod, avšak navzdory solidnímu teoretickému základu se obávají používat statistiku prakticky. Právě pro ně, ale i pro všechny ostatní, jsem připravil tento krátký, téma nevyčerpávající příspěvek, jehož prostřednictvím bych chtěl sdílet část svých nabytých zkušeností. Asi takto tedy vidím statistiku já:
Základem jakéhokoliv statistického zpracování dat je rozhodnutí, zda se jedná o kvantitativní (tzn. na nějaké stupnici měřitelná) anebo kvalitativní data.
K V A N T I T A T I V N Í D A T A (průměry)
předpokladem korektního zpracování kvantitativních dat je kritérium normálního rozdělení podle známé Gaussovy křivky. Jestliže soubor kvantitativních dat splňuje tuto podmínku, pak můžeme data vyčerpávajícím způsobem popsat pomocí aritmetického průměru a směrodatné odchylky. Normální rozdělení má totiž tu dobrou vlastnost, že:
- 68,2 % všech hodnot leží v rozmezí ±1 směrodatné odchylky od průměru
- 95 % všech hodnot leží v rozmezí ±1,96 násobku směrodatné odchylky od průměru
- 95,4 % všech hodnot leží v rozmezí ±2 násobku směrodatné odchylky od průměru
- 99 % všech hodnot leží v rozmezí ±2,58 násobku směrodatné odchylky od průměru
- 99,6 % všech hodnot leží v rozmezí ±3 násobku směrodatné odchylky od průměru.
Směrodatná odchylka je definována jako √rozptylu; rozptyl se rovná součtu čtverců (=druhých mocnic) odchylek od průměru dělený počtem pozorování
Máme-li tedy soubor dat 1; 2; 3; 4; 5 (n = 5 pozorování), pak aritmetický průměr je 3; odchylky od tohoto průměru jsou -2; -1; 0; 1; 2 (součet odchylek je u normálního rozdělení vždy 0), čtverce těchto odchylek jsou pak 4; 1; 0; 1; 4 a součet čtverců je 10. Pokud vydělíme součet čtverců odchylek počtem pozorování n, dostaneme rozptyl 2, směrodatná odchylka = √2 = 1,41. V Excelu nám tento výpočet podstatně zrychlí funkce =SMODCH(oblast dat)
Známe-li směrodatnou odchylku, pak můžeme vypočítat interval spolehlivosti (konfidenční interval). Z definice normálního rozdělení vyplývá, že 95 % všech hodnot leží v intervalu průměr±1,96xsm.odch. Hovoříme o intervalu spolehlivosti na 95 % hladině významnosti. Obdobně pro 99 %-ni hladinu významnosti vypočítáme interval spolehlivosti v intervalu průměr±2,58xsm.odch.
Chceme-li porovnat dva soubory, pak nejjednodušším způsobem je vzájemné porovnání jejich intervalů spolehlivosti. Pokud se intervaly spolehlivosti pro 95 %-ní hladinu významnosti číselně prolínají, znamená to, že část hodnot v jednom i druhém souboru je totožná a nejspíš nebude možné spoléhat se na statisticky významný rozdíl mezi soubory.
Ve výše uvedeném příkladu by tedy mělo dle pravidel statistiky platit, že 95 % hodnot leží přibližně v intervalu 0,23 až 5,77. Je na tom něco divného? Samozřejmě, měli jsme 5 celých čísel, od 1 do 5, a najednou se nacházíme mimo toto rozpětí. To proto, že zvolený soubor jistě nemá normální rozložení a proto obecné principy nefungují! Nechť tento případ ilustruje metodiku výpočtu směrodatné odchylky, ale i následky, které mohou nastat, když počítáme průměr a směrodatnou odchylku pro malé soubory anebo pro soubory pozorování, které nedisponují daty podle teorie normálního rozložení.
Statistickou signifikanci umožňují formálně posoudit nejrůznější statistické testy pomocí hodnoty p, kýžený to produkt nejrůznějších statistických programů. Význam hodnoty p spočívá v tom, že určuje, jak veliká je shoda posuzovaných souborů (hodnota p = 0,12 říká, že hypotézu o shodnosti souborů (nulovou hypotézu) zamítáme s chybou 12 %. Chyba je větší, než obecně akceptovaná nejvýše 5 %-ni (p je menší, než 0.05). Klasickou metodou posuzování dvou kvantitativních souborů je výpočet Studentova t-testu. Výsledek můžeme zpřesnit F-testem na rozptyl (on-line kalkulátor).
K V A L I T A T I V N Í D A T A (frekvenční tabulky)
U některých typů údajů nemůžeme počítat aritmetický průměr (např. barva vlasů). Také původně kvantitativní data, pokud neodpovídají normálnímu rozdělení, není korektní popisovat pomocí aritmetického průměru. Taková data popisujeme pomocí frekvenčních tabulek. Pomocí frekvenčních tabulek můžeme vyjádřit kolik lidí má tmavé či blond vlasy. Ale i původní spojitá data (např. věk) můžeme rozdělit do vhodných intervalů (třeba po 10 letech) a poté jednoduše spočítat četnosti, kolik osob ze studovaného souboru náleží do příslušné věkové kategorie. Frekvenci můžeme vyjádřit v absolutním číslem, zlomkem i procentem.
U proporcionálních dat můžeme místo směrodatné odchylky vypočítat střední chybu proporce. Nejdříve musíme znát proporci P a její doplněk do 100 % (Q). Střední chyba proporce se pak rovná odmocnině součinu těchto dvou údajů, který je dělen počtem pozorování.
Máme-li soubor dat, u kterého je proporce tmavých vlasů či osob ve věku 30 až 39 let je 60 % (n=10), pak střední chybu proporce vypočítáme jako √(60x40)/10 = √240 = 15,49.
Interval spolehlivosti pro proporci na 95 %-ní hladině významnosti leží v intervalu proporce P±1,96 násobek střední chyby. Obdobně na 99 %-ní hladině významnosti proporce P±2,58 násobek stř.chyby
V našem příkladu je tedy 95 %-ní interval spolehlivosti proporce 60 %±1,96×15,49 = interval v rozmezí 29,64 až 90,36 %. V uvedeném intervalu se tedy bude nacházet s 95 %-ní pravděpodobností proporce každého dalšího výběrového souboru, pokud bude vybrán podle stejných kritérií. Interval spolehlivosti bude tím užší, čím větší bude soubor dat (n).
Pokud budeme porovnávat více souborů, hodí se jejich seskupení do kontingenčních tabulek, které vzniknou seskupením dvou a více jednoduchých frekvenčních tabulek. Nezávislost můžeme v kontingenčních tabulkách testovat pomocí tzv. chí-kvadrát testu (on-line kalkulátor).
Více obdobných statistických kalkulátorů naleznete na adrese http://www.openepi.com .
Věřím, že tento krátký příspěvek vás zcela zbaví obav ze statistiky.