STATISTIKA přednáška 1 Martin Sebera, FSpS MU, 12.2.2014 Sázíte-li ve Sportce, je to hazard. Sázíte-li se, že vám v kartách přijdou tři postupky po sobě, je to zábava. Vsadíte-li se, že cena plynu stoupne o 10 %, je to podnikání. Vidíte ten rozdíl? Pravidla výzkumu z pohledu analýzy dat 1.příprava výzkumného šetření je nejdůležitější část 2.sběr a analýza dat slouží k zamítnutí/nezamítnutí předem stanovených úkolů práce a hypotéz (explorační vs. konfirmační přístup) 3.vždy mít na paměti věcné hledisko výzkumu, zejména v souvislosti s interpretací statistických výsledků Role statistiky •Porozumění a zkoumání hromadných jevů •Zjišťování zákonitostí •V kvantitativním výzkumu (deduktivní princip) – pojítko mezi teorií a výzkumem •Zpracování, popsání a analyzování dat • Základní pojmy •Základní a výběrový soubor a jeho rozsah (N) •Výběr: –náhodný (každý prvek má stejnou pravděpodobnost výběru - losování) –systematický (n-tý objekt, n, <,), •Metrické –Intervalová (lze říct o kolik je hodnota větší) –Poměrová (lze říct kolikrát je hodnota větší) –Př. teplota, čas, hmotnost, … První náhled na data – popisná statistika •průměr, sm. odchylka, medián, kvartily aj. •četnosti: absolutní, relativní, kumulativní •grafy: krabicový, histogram • •Proč? •chybná měření, extrémy •homogenitu souboru •chybějící data Intervalové rozložení četností x ni ri Ni Fi 18 1 0,05 (= 1/20) 1 0,05 19 2 0,10 (= 2/20) 3 0,15 20 8 0,40 (= 8/20) 11 0,55 21 6 0,30 (= 6/20) 17 0,85 22 3 0,15 (= 3/20) 20 1,00 Celkem 20 1,00 BMI: 18 19 19 20 20 20 20 20 20 20 20 21 21 21 21 21 21 22 22 22 N – rozsah souboru ni – absolutní četnost ri – relativní četnost Ni – kumulativní absolutní četnost Fi – kumulativní relativní četnost lze usuzovat na některé vlastnosti, záleží na počtu intervalů Základní statistické charakteristiky •Míry střední hodnota –Aritmetický a geometrický průměr, modus, medián •Míry variability –variační rozpětí, kvantily, rozptyl, směrodatná odchylka, variační koeficient •ztrácíme mnoho cenných informací o původních datech –1; 10; 22 průměr 11 SD 10,53 n = 3 –11; 11; 11 průměr 11 SD 0 n = 3 – Normalita •Kolmogorov-Smirnov a Shapiro-Wilks test •Proč? rozhodnutí, zda použít parametrické nebo neparametrické testy http://www.scio.cz/images/vyvoj_testu/1000px-Standard_deviation_diagram_%28decimal_comma%29_svg.png Korelace ANEB korelace není kauzalita •= vzájemný vztah mezi veličinami proměnnými, jevy (dostatečně velký rozsah) •Úkol: zjistit závislost a popsat ji •Př. 3 proměnné: –BMI –% fat –WHR • Korelační koeficient •R: <-1 do 1> •Omezení: –předpokládá 2-rozměrné norm.rozdělení –měří pouze vztahy lineární –nerozeznává, která proměnná je závislá a která nezávislá. Nelze rozhodnout o příčinnosti vztahu mezi proměnnými •interpretace ® dodatečné koeficienty, např. index determinace r2 •Pearsonův, neparametrický Spearmonův •jednoduchý, parciální, mnohonásobný http://upload.wikimedia.org/wikipedia/commons/thumb/d/d4/Correlation_examples2.svg/506px-Correlatio n_examples2.svg.png % fat WHR BMI % fat 1 0,36 0,41 WHR 0,36 1 0,85 BMI 0,41 0,85 1 Nejvyšší jednoduchý korelační koeficient je mezi proměnnými BMI a WHR a to 0,85. Celkem vysvětluje 72,2 % procent celkové variability mezi těmi to proměnnými. K číslu 72,2 % jsme dospěli pomocí koeficientu determinace (r2 = 0,852 = 0,722). Příklad T-testy •Testy o rovnosti středních hodnot dvou výběrů •Jaký konkrétní t-test vybrat? •varianta testu bude –parametrická (závislé, nezávislé soubory) –neparametrická (Wilcoxonův - závislé, Mann-Whitneyův test nezávislé hodnoty – •Statistická vs. věcná významnost • T-test • T-test - příklad •Cohenovo d –d > 0,8 ® velký efekt –d z intervalu 0,5 – 0,8 ® střední efekt –d < 0,2 ® malý efekt •d = 0,44 •rozdíl mezi oběma disciplínami je i věcně i statisticky významný. d={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{s}}. s={\sqrt {{\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}}}} Zdroje: •Cyhelský, L., Kahounová, J., & Hindls, R. (2001). Elementární statistická analýza. (2. dopl. vyd., 318 s.) Praha: Management Press. •Hendl, J. (2006). Přehled statistických metod zpracování dat: analýza a metaanalýza dat. (Vyd. 2., opr., 583 s.) Praha: Portál. •Meloun, M., & Militký, J. (1998). Statistické zpracování experimentálních dat. (2. vyd., xxi, 839 s.) Praha: East Publishing. • •Sebera, M. Vícerozměrné statistiky, 2013 (v tisku) •Sebera, M. Časové řady, 2013 (v tisku) •Zvonař, M., Pavlík, J ., Sebera, M., Vespalec, T. & Štochl, J. Vybrané kapitoly z antropomotoriky. Brno: Masarykova univerzita, 2010.