Metody zpracování výsledků, základy statistiky Cílem kapitoly jsou základní informace o statistických metodách. Není zde uveden kompletní problematika jednotlivých statistických analýz, text je přizpůsoben a zjednodušen pro potřeby studentů, kteří se se statistikou setkávají poprvé. Zájemce odkazujeme na odbornou literaturu, zejména na knihu Jana Hendla - Přehled statistických metod zpracování dat: analýza a metaanalýza dat (Hendl, 2006). Statistika je metoda analýzy dat, která nachází široké uplatnění v celé řadě odvětví, oblast sportu, tělesné výchovy a kinantropologie nevyjímaje. Její význam s rozvojem výpočetní techniky a specializovaných software roste, což umožňuje urychlení a zkvalitnění při sběru a přenosu dat a také při zpracování a ukládání informací. Role statistiky je nezastupitelná, neboť nepřetržité vyhodnocování informací o celku i jeho částech dává důležité informace použitelné pro další rozhodovací procesy použitelné v běžné práce vysokoškolského pracovníka, studenta, managementu fakulty. Přiměřená znalost základních statistických pojmů pomáhá porozumět odborným textům, kde je statistiky v hojné míře obsažena. Aplikovat statistické metody a postupy znamená zaznamenávat data o jevech a zpracovávat je, tj. třídit, vyhodnocovat a interpretovat. Statistika se tak nachází v úzkém kontaktu s informačními technologie (informatika, výpočetní technika). Typy proměnných, z body, t body Při statistické analýze potřebujeme u každé proměnné určit její typ. Můžeme se setkat s několika způsoby klasifikace proměnných, v našem textu popisujeme přístup který za hlavní kritérium považuje typy vztahů mezi hodnotami. Podle Řezáčové u tohoto hlediska rozlišujeme proměnné: · Nominální. Hodnotou je číslo nebo text. U těchto proměnných můžeme provádět jen rozdělení četností, případně operaci porovnání. Příklad: student absolvoval motorický test „běh na 50 m“ s výkonem 7,4 s a motorický test „leh-sed s výsledkem 50 opakování za minutu. Číselné hodnoty 7,4 a 50 určují jen odlišné výsledků motorických testů, nic jiného se vyčíst nedá · Ordinální znaky umožňuje provádět srovnání a tím určit pořadí. V případě textových proměnných je nutné tyto převést na čísla. Příklad: v dotaznících vyjadřujeme míru souhlasu s daným tvrzením. Svou kondicí hodnotím jako: vynikající – velmi dobrou – dobrou – slabou – špatnou. Výroky respondentů můžeme určit pořadí, jak který respondent souhlasí s tvrzením. Však netvrdíme, že rozdíl mezi odpověďmi vynikající a velmi dobrou je stejný jako mezi slabou a špatnou. · Intervalové kromě porovnání můžeme provádět operaci součtu a rozdílu. Příklad: výška a hmotnost jedince. Naměříme-li u batolete výšku v cm po čtyřech měsících hodnoty 60, 62, 64, 66, znamená to, že každým měsícem dítě vyrostlo o 2 cm.. · Poměrové znaky umožňují interpretovat kromě operace rovnosti, uspořádání a rozdílu ještě operace podílu a součinu. Příklad: zaběhne-li atlet 100 m za 11 s a druhý atlet za 22 s, je možné prohlásit, že první je dvakrát rychlejší než druhý. Nominální a ordinální proměnné jsou souhrnně označovány jako kvalitativní; intervalové a poměrové proměnné jsou souhrnně označovány jako kvantitativní (numerické, kardinální). Kvantitativní proměnné můžeme podle jiného hlediska dělit na · diskrétní, které nabývají pouze celočíselných obměn (počet permanentek do posilovny), a · spojité (metrické), jež mohou nabývat libovolných hodnot z určitého intervalu (věk respondenta, výkon ve vrhu koulí). Nominální, ordinální a kvantitativní diskrétní proměnné můžeme souhrnně označit jako kategoriální (obměny těchto proměnných nazýváme kategoriemi). · dichotomické (alternativní), které nabývají pouze dvou kategorií (ekonomicky aktivní a neaktivní, kuřák a nekuřák), a · vícekategoriální (množné), jež nabývají více než dvou kategorií (rodinný stav, obor). Přepočty výsledků měření Velmi často je nutné porovnávat výsledků z jednotlivých testů. Jsou-li ve stejných jednotkách, je srovnání jednoduché. V případě, kdy jsou vyjádřeny v různých jednotkách, je srovnání obtížné. Jedním ze způsobů, jak najít společný jmenovat pro porovnání, je převést výsledky na normované. Nejčastěji používané jsou percentily, z-body, t-body a c-body. Společnou vlastností normovaných výsledků je vyjádření o kolik směrodatných odchylek je sledovaný výsledek horší než aritmetický průměr 1. Percentily. Percentily (procenily) vyjadřují, kolik procent měřených osob podává horší výsledek než právě hodnocený jedinec. Hodnota 25 percentilu udává, že 25% naměřených výsledků je horší než daný výkon a 75% je lepší než naměřený výsledek. 2. Kvantily jsou čísla, která rozděluji řadu výsledků testu, uspořádanou podle velikosti, na určitý počet skupin o stejně velkém počtu prvků. 50 kvantil je medián. 3. Z-body (z-skóre), rozdíl výsledku a průměru dělíme směrodatnou odchylkou souboru z=x-x/s. Interval z-hodnot je od -3 do 3. Aritmetický průměr má hodnotu 0 bodů, hodnota směrodatné odchylky se rovná 1 bodu. 4. T-body, je další metoda, kterou je odvozena ze z-bodů vztahem T = 50 + 2z. Interval t-bodů je od 0 do 100. Změnou naproti z-bodům je práce s nezápornými čísly.Průměr má hodnotu 50 bodů, směrodatná odchylka 10 bodů. 5. C-body. Jedná se o méně citlivější stupnici, kde C = 5+2z a interval c-bodů je od 1 do 9. Průměr má hodnotu 5 bodů. Pro všechny normované výsledky platí důležité pravidlo: znaménko výsledků normovaných na z-body, T-body, C-body měníme na opačné u těch testů, jejichž škála má k smyslu vzrůstání výkonů smysl opačný (v bězích platí, že menší čas znamená lepší výkon; ve skoku do dálky platí, že větší hodnota skoku vyjádřená v cm, znamená lepší výkon). Obr. 46. Vztahy mezi různými typy normovaných testových výsledků dle Měkota (1997) Příklad použití normovaných výsledků: porovnání různých výkonů u různých osob. Výsledek 7leté dívky ve skoku z místa je x[d] = 130 cm, přičemž populace těchto dívek má = 115 cm a s[d] = 10 cm. Výkon 15 letého chlapce v hodu míčkem je x[ch] = 41 m, přičemž populace těchto chlapců má = 32 m, s[ch] = 4 m. Máme určit, který ze dvou výkonů x[d] = 130 cm a x[ch] = 41 cm je lepší. Provedeme převod na normované body. norma norma z-body z[d] = (130 - 115) : 10 = 1,50 z-bodů z[ch] = (41 - 32) : 4 = 2,22 z-bodů T-body T[d] = 1,50 . 10 + 50 = 65 T-bodů T[ch] = 50 + 10.2,22 = 72 T-bodů C-body C[d]= 5 + 2 . 1,50 = 8 C-bodů C[ch] = 5 + 2,22 = 9 C-bodů Výkon chlapce v hodu 41 m je lepší než výkon dívky ve skoku 130 cm, neboť pravděpodobnost jeho výskytu v populaci je menší. Diference na T-stupnici je 72 T-bodů. Pozor: Rozdíly mezi normovanými výsledky jsou pochopitelně různé na různých stupnicích — např. 7 na T-, 0,7 na z-, l na C-stupnici. Podobně jsou však různé i poměry výkonů na různých stupnicích, nelze tedy obecně říci, že jeden výkon je např. „dvakrát lepší" než druhý, musíme současně udat stupnici, ve které to platí. Popisná statistika Procedury popisné statistiky použijeme k prvotnímu posouzení předložených dat. Nejčastěji používané statistické charakteristiky jsou · aritmetický průměr Definice následujících charakteristik předpokládají uspořádaný výběr, tj. · minimální hodnota = · maximální hodnota = · medián pro n sudé , pro n liché · dolní kvartil = , kde pro pořadový index k platí n .0,25 < k < n . 0,25 + 1 · horní kvartil = , kde pro pořadový index k platí n .0,75 < k < n . 0,75 + 1 Charakteristiky variability · variační rozpětí R = x[max] - x[min] · kvartilové rozpětí · výběrový rozptyl · výběrová směrodatná odchylka · variační koeficient nebo Charakteristiky kategoriální proměnné · Modus - hodnota nejčetnější kategorie · Četnost - počet pozorování spadajících do příslušné kategorie · Stanovení četností – absolutní a relativní Příklad a řešení: Máme k dispozici data 35 desetibojařů a jejich nejlepších výkonů v desetiboji, v běhu na 100 m a ve skoku do dálky v roce 2008, kteří přesáhli 8000 bodovou hranici: desetiboj 100m dálka 1 8832 10,39 739 2 8585 10,98 768 3 8534 10,43 775 4 8527 10,9 733 5 8511 10,9 777 6 8504 10,85 723 7 8497 10,86 701 8 8434 10,81 731 9 8381 11,06 753 10 8372 10,85 735 11 8273 11,11 745 12 8253 11,26 708 13 8248 10,76 774 14 8242 11 696 15 8241 11,21 768 16 8238 10,53 756 17 8233 11,17 727 18 8208 11,13 778 19 8199 11,06 757 20 8191 11,03 722 21 8178 11,15 704 22 8175 10,74 744 23 8143 11,16 709 24 8142 11,42 733 25 8123 10,85 747 26 8122 10,61 749 27 8118 10,89 729 28 8066 11,26 735 29 8057 10,4 774 30 8048 11,04 715 31 8040 11,14 695 32 8034 11,21 695 33 8025 10,77 720 34 8014 10,89 719 35 8013 11,25 714 desetiboj Popis N platných 35 počet hodnot Aritmetický průměr 8251,45 · statistická veličina, která v jistém smyslu vyjadřuje typickou hodnotu popisující soubor mnoha hodnot · nejčastější chybou je aplikace aritmetického průměru tam, kde je na místě využít jinou statistiku. Např. aritmetickým průměrem souboru { 10, 10, 10, 10, 10, 100 } je 25, přestože pět ze šesti hodnot tohoto souboru je menších. V obdobných případech je mnohem vhodnější použít pro vyjádření typické hodnoty medián (který je u této množiny roven 10, což je mnohem lepší popis typické hodnoty) Minimum 8013 · nejmenší hodnota Maximum 8832 · nejvyšší hodnota Medián 8208 · medián (označován Me nebo ) je hodnota, jež dělí řadu podle velikosti seřazených výsledků na dvě stejně početné poloviny. · není ovlivněný extrémními hodnotami. · medián lze definovat na každém souboru uspořádaném relací „menší nebo rovno“, i když se nejedná o soubor čísel. Například medián souboru {absolvent ZŠ, vyučen, vyučen s maturitou, vysokoškolák} je roven hodnotě „vyučen“, pokud kategorie vzdělání považujeme za seřazené podle náročnosti školy. Spodní kvartil 8118 · kvartily oddělují ze statistického souboru čtvrtiny. Rozlišuje se spodní kvartil Q[0,25] a horní kvartil Q[0,75]. Data předpokládají uspořádaný výběr. Horní kvartil 8381 Rozpětí 819 · rozdíl mezi maximem a minimem Kvartilové rozpětí 263 · pomocí horního a spodního kvartilu lze zavést mezikvartilové rozpětí, které definujeme jako hodnotu Q[0,75] − Q[0,25]. Rozptyl 38993,73 · rozptyl - jedná se o charakteristiku variability rozdělení pravděpodobnosti náhodné veličiny, která vyjadřuje variabilitu rozdělení souboru kolem střední hodnoty. Směrodatná odchylka 197,46 · jedná se o kvadratický průměr odchylek hodnot znaku od jejich aritmetického průměru. Vypovídá o tom, jak moc se od sebe navzájem liší typické případy v souboru zkoumaných čísel. Je-li malá, jsou si prvky souboru většinou navzájem podobné, a naopak velká směrodatná odchylka signalizuje velké vzájemné odlišnosti. Variační koeficient 2,39 · variační koeficient je použitelný i při porovnávání variability proměnných, které jsou v různých jednotkách Grafické posouzení dat Prvotní informaci o datech nám přinesou 2 základní grafy. Krabicový graf a histogram. Krabicový graf je znázornění pěti hodnot: minima, prvního kvartilu, mediánu, třetího kvartilu a maxima. Druhým typem grafu je histogram, který zobrazuje intervalové četnosti. V tabulce četností ve sloupci „četnosti“ obsahuje počet výskytů desetibojařského výkonu v stanovených intervalech (od 8000 bodů po 100 bodech). Obr. 47. Krabicový graf Obr. 49. Histogram Tabulka četností: desetiboj Četnost Kumulativní četnost Relativní četnost Kumulativní relativní četnost 8000 , pak hypotézu H[0] nezamítáme.V opačném případu, kdy p £ , pak hypotézu H[0 ]zamítáme. KORELAČNÍ ANALÝZA Korelace znamená vzájemný vztah mezi dvěma procesy nebo veličinami. Pokud se mezi dvěma procesy ukáže korelace, je pravděpodobné, že na sobě závisejí, nelze z toho však ještě usoudit, že by jeden z nich musel být příčinou a druhý následkem. To samotná korelace nedovoluje rozhodnout. V určitějším slova smyslu se pojem korelace užívá ve statistice, kde znamená vzájemný lineární vztah mezi znaky či veličinami x a y. Tento vztah může být kladný, pokud (přibližně) platí y = kx, nebo záporný (y = -kx). Míru korelace pak vyjadřuje korelační koeficient, který může nabývat hodnot od −1 až po +1. Hodnota korelačního koeficientu −1 značí zcela nepřímou závislost, tedy čím více se zvětší hodnoty v první skupině znaků, tím více se zmenší hodnoty v druhé skupině znaků, např. vztah mezi uplynulým a zbývajícím časem. Hodnota korelačního koeficientu +1 značí zcela přímou závislost, např. vztah mezi rychlostí běhu a běžeckou frekvencí kroků sprintera. Pokud je korelační koeficient roven 0, pak mezi znaky není žádná statisticky zjistitelná lineární závislost. Je dobré si uvědomit, že i při nulovém korelačním koeficientu na sobě veličiny mohou záviset, pouze tento vztah nelze vyjádřit lineární funkcí, a to ani přibližně. Může jít např. o nelineární závislost (kvadratickou, ...). Hendl (1997) uvádí nevýhody korelačního koeficientu, který je citlivý k náhodné chybě. Proto se používá ve srovnávacím experimentu. Naneštěstí je citlivý také k rozmezí měření. Často zvětšením rozsahu měření, dosáhneme značného přiblížení korelačního koeficientu k 1. Snad největší chyba spočívá v tom, že přisuzujeme důležitost tomu, že korelační koeficient je významné různý od nuly. Ve srovnávacích experimentech není tento typ uvažování na místě, přesto se údaje o této významnosti pravidelně objevují v hodnotících zprávách. Závažná je skutečnost, že korelační koeficient neodhaluje ani přítomnost proporcionální chyby ani chyby konstantní. Odpůrci korelačního koeficientu tvrdí, že tato statistika by se neměla nikdy používat při hodnocení dat srovnávacích experimentů. Doporučuje se nahradit/doplnit posouzení korelačního koeficientu, který je pouze mírou lineární závislosti výsledků, jinými postupy, např. Bland-Altmanovým rozdílovým grafem (Bland a Altman 1986). Příklad a řešení: Zjistěte míru závislosti výkonů v běhu na 100 m a skoku do dálky na celkovém bodovém součtu. desetiboj 100m skok do dálky desetiboj 1,00 -0,38 0,29 p=,02 p=,08 100m 1,00 -0,40 p=,017 skok do dálky 1,00 Vyhodnocení příkladu: Velikost korelačního koeficientu mezi proměnnými „100 m“ a „desetiboj“ je -0,38. Znaménko minus značí nepřímou úměru (čas v sekundách-menší hodnota znamená kvalitnější výkon). Korelační koeficient mezi proměnnou „desetiboj“ a „skok do dálky“ je roven hodnotě 0,29 (znaménko plus značí přímou úměru). Obě dvě hodnoty korelačního koeficientu značí vztah, který zde může považovat za prokazatelný, není však příliš těsný. Ani hodnota korelačního koeficientu mezi „stovkou“ a „dálkou“ není výrazný. Hodnota -0,40 napovídá, že výsledný výkon ve skoku do dálky závisí i na jiných faktorech (např. technické zvládnutí předodrazového rytmu), než je jen náběhová rychlost atleta. T-test T-test je metodou, která umožňuje ověřit hypotézu, zda dvě normální rozdělení mající stejný (byť neznámý) rozptyl, z nichž pocházejí dva nezávislé náhodné výběry, mají stejné střední hodnoty (resp. rozdíl těchto středních hodnot je roven určitému danému číslu). V praxi se t-test často používá k porovnání, zda se výsledky měření na jedné skupině významně liší od výsledků měření na druhé skupině. Princip t-testu Předpoklad, že oba výběry pocházejí z normálního rozdělení, nemusí být za každou cenu dodržen. Dle definice z encyklopedie Wikipedia T-test totiž pracuje s průměry obou výběrů, a ty již při rozsahu výběru v řádu desítek mají přibližně normální rozdělení díky centrální limitní větě. Před provedením t-testu by mělo být prověřeno, že oba náhodné výběry mají stejný rozptyl. K tomu může posloužit F-test. Existují i modifikace t-testu pro výběry s různými rozptyly. Pokud je rozsah výběru (resp. obou výběrů) velký (v řádu stovek a víc), lze místo kritických hodnot T rozdělení použít kritické hodnoty normálního rozdělení. Příklad Výkony desetibojařů z minulého příkladu jsme přepočítali na body pomocí oficiálních bodovacích tabulek pro atletický desetiboj. Pomocí t-testu chceme zjistit, zda desetibojaři získávájí z obou disciplín stejný počet bodů. 100m dálka 1001 908 865 980 992 997 883 893 883 1002 894 869 892 816 903 888 847 942 894 898 836 922 804 833 915 995 861 804 814 980 968 950 823 878 832 1005 847 952 854 866 828 823 919 920 825 835 769 893 894 927 949 932 885 883 804 898 999 995 852 850 830 802 814 802 913 862 885 859 806 847 Řešení: Krabicový graf naznačuje, že průměrný bodový zisk v skoku do dály je vyšší než v běhu na 100 m. Což potrzuje i tabulka výpočtu t-testu. Na 5% hladině statistické významnosti tvrdíme, že bodové zisky u obou disciplín jsou různé. Hladina věcné významnosti („size of effect“) byla posouzena pomocí Cohenova koeficientu účinku d (Blahuš, 2000). Velikost věcné významnosti („size of effect“) je definována jako relativní podíl experimentálního faktoru na rozptylu velikosti efektu, oproti jiným vlivům, zvláště náhodným, neznámým atp. Ve stručnosti to je podíl „vysvětleného“ rozptylu. Jednou z hlavních výhod koeficientu je jeho nezávislost na rozsahu výběru. Platí pro něj konvenční hodnoty, jež usnadňují rozhodnutí, kdy lze hovořit o velkém efektu. Pokud je d větší než 0,8, je efekt velký; pro d z intervalu 0,5 – 0,8 je efekt střední; efekt pod hodnotou 0,2 lze považovat za malý. V našem případě je d = 0,44 což můžeme považovat, že rozdíl mezi oběma disciplínami je i věcně i stastictiky významný. Sledovaní desetibojaři získali více bodů ze skoku do dálky než z běhu na 100 m. Obr. 5O. Krabicový graf Závěrečné poznámky V předchozím textu není zmíněna problematika tvorby norem testů. Při standardizačním procesu však dle našeho názoru není pro použití v disertačních a diplomových pracích tak nutná (s výjimkou studií, kde je standardizace testu hlavním výzkumným problémem). Normy jsou závislé na populaci a měly by být součástí standardizované testové baterie či dotazníku. Domníváme se však, že v naprosté většině studií je primární obsahová analýza výsledků testu, k jejichž správné interpretaci je potřeba zjistit základní charakteristiky testů, jako jsou validita a reliabilita, podle návodu uvedeného výše.