Odpovědi I. Střední hodnoty 1.1 10 1.2 n = 9, Md = 9 1.3 ∑[i]X[i] = 66, M = 7,33. 1.4 negativně zešikmené 2.1 modus 2.2 medián 2.3 medián 2.4 průměr 2.5 průměr a medián 2.6 ano 2.7 průměr 2.8 modus 2.9 medián 2.10 průměr 2.11 průměr 2.12 modus 2.13 medián 2.14 medián (výjimečně je v něm zachycen i průměr) 3. průměr 4. na 66,0 5. 49 000 6.1 90 6.2 10 7. modus = 3; medián = 2,8; průměr = 2,56 8. modus = 4; medián = 3,8; průměr = 3,56 9. modus = 9; medián = 8,4; průměr = 7,68 10. M=13,3. Společný medián nelze zjistit z mediánů jednotlivých skupin a jejich velikostí. 11. 1, 1, 5, 6, 7 – vysvětlení: a) s ohledem na medián musí být prostředním číslem pětka, b) s ohledem na modus musí být před pětkou alespoň dvě jedničky, aby byla jednička nejčastěji zastoupeným číslem, c) s ohledem na průměr musí všechna čísla dohromady dát součet dvacet, což je možné pouze tehdy, pokud k dosavadním dvěma jedničkám a pětce přidáme šest a sedm. 12. c – protože lze očekávat pozitivně zešikmené rozložení 13. 4 – u symetrických rozložení je průměr obvykle roven mediánu 14. 15. Předchozí cvičení ilustruje, že ∑(X – průměr) se rovná nule. Suma hodnot X mínus medián nebo modus se bude rovnat nule tehdy, pokud jsou stejné jako průměr, což je případ normálního rozložení. Ani rozložení A, ani B nejsou normální. Skutečnost, že pro rozložení A ∑(X – medián) = 0, je náhoda. 18. 7 19. Medián = 5,5 + [(30/2 – 4)/11 * 5] = 10,5 (Vypadá to složitě, ale jde o to, že medián umístíme do poměrné části intervalu, která odpovídá tomu, jaká část z případů v intervalu nám chybí do 50% (zde potřebujeme z 11 lidí všech 11 k dosažení 15(50%) a proto započítáme plnou šířku intervalu (5). BTW stejně se určují kvartily a percentily. Je třeba říci, že takto určený medián je pouze odhadem. Je to proto, že seskupením hodnot do intervalů dochází k redukci informace (zhrubnutí měřítka). Kdybychom se chtěli dopídit mediánu původních dat, uvažovali bychom asi následovně: Medián nelze přesně určit, protože bude záviset na konkrétních hodnotách zahrnutých v intervalech; v každém případě však bude nejméně 8,5 (situace, kdy patnácté číslo v řadě bude 6 a šestnácté 11) a nejvíce 12,5 (situace, kdy patnácté číslo v řadě bude 10 a šestnácté 15). Všimněte si, že průměr tohoto nejnižšího a nejvyššího odhadu je původně určených 10,5. Pokud máme k dispozici hrubá data, vždy je dobré počítat míry centrální tendence z nich, ale hodí se umět udělat odhad i např z tabulky četností prezentované v nějaké odborné komunikaci. S příklady je to vysvětleno i zde: http://www.mathsisfun.com/data/frequency-grouped-mean-median-mode.html 20. Medián = 21,5 + [(16/2 – 4)/6 * 3] = 23,5 21.a. Pozitivně zešikmené, b. Negativně zešikmené, c. Pravděpodobně symetrické, unimodální, d. Pravděpodobně symetrické, bimodální, e. Negativně zešikmené, f. Pozitivně zešikmené 22. 23. a. Průměr = 104,8, b. Medián = 101 24. Průměr = 109,73; Medián = 100,5; Modus = 100. Následující histogram ukazuje pozitivní zešikmení, což je v souladu s faktem, kdy průměr je větší než medián (Poznámka: některý počítačový software zobrazuje histogramy jako sloupcové grafy, tj. s mezerami mezi sloupci, což je i tento případ.) 25. Průměr = 28,12; Medián = 32; Modus = 35. Tento histogram ukazuje, že rozložení je negativně zešikmené, což je v souladu s faktem, kdy průměr je menší než medián. 26. 26.1 Modus = 5 a 12 26.2 Aritmetický priemer = 14,17 26.3 Medián = medzi 12 a 14, čiže 13 26.4 Frekvencia skóre 9 a 12 je 3 26.5 Skóre je najlepšie popísateľné ako bimodálne 26.6 Ak by priemer, medián a modus pre skóre hypotetickej premennje boli rovné hodnote 27, môžeme povedať, že distribúcia je symetrická, unimodálne. 27. odpoveď c 29. třeba 0 1 2 3 4 6 9 10 10 10 11 II. Variabilita 101.1 10 101.2 50 101.3 25 101.4 5 101.5 směrodatná odchylka i rozptyl zůstanou stejné 101.6 s=5*10 s^2=25*10^2 102. Nelze říci, které bude mít větší rozptyl, ale n = 60 poskytne pravděpodobně přesnější odhad rozptylu v populaci. Vzorek o n = 60 bude mít pravděpodobně větší variační rozpětí. 103. Na základě velikosti průměru nemůžete odhadnout rozptyl. 104. Průměr = 103,5, s = 5,24 105. Variační rozpětí = 8 – 1 = 7, rozptyl = 4,27, směrodatná odchylka = 2,07 106. s = 2,04; po provedení dané operace by se směrodatná odchylka zdvojnásobila na 4,08 107.1 IQR = 111-81 = 30 107.2 SIQR = (111-81)/2 = 15 108.1 σ 108.2 s 108.3 σ 108.4. s 109. σ = 4,83; σ^2 = 23,35 110. σ^2[A] = 7,125 > σ^2[B] = 5,90 111. Nelze 112 .Je velmi ovlivněno extrémními skóry. 113. σ = 2,66 114. Průměr = 14,5 a s^2 = 1,6 115. Průměr = 55; s = 30 116. Technika A Technika B U bodu a. je chybka, průměr u pretestu techniky B je 3.00, nikoli 3.50. 117. 118.1 Průměr = 7,07; s^2 = 17,61; s = 4,20; rozpětí = 14 118.2 Průměr = 96,52; s^2 = 138,56; s = 11,77; rozpětí = 39 118.3 Průměr = 965,24; s^2 = 13856,20; s = 117,71; rozpětí = 390 120. a. Je to jedna z vlastností průměru, že je to bod, od něhož je součet odchylek umocněných na druhou nejnižší možný pro danou sadu dat. Od každého jiného bodu, a tedy i mediánu, bude sm. och. větší (nebo stejná pokud M=Md). 122. Směrodatná odchylka – je nejsnadněji interpretovatelná, protože je v původních jednotkách měřené proměnné. 123.1 Ze zadání je patrné, že rozložení počtu studenty opakovaných předmětů je velmi zešikmené (dost možná se jedná o Poissonovo rozložení); aritmetický průměr tedy není dobrým odhadem střední hodnoty; ideální by bylo sdělit současně modus i medián. Protože je rozložení zešikmené(=> není normální), ani směrodatná odchylka nepodává dobrou informaci o míře rozptýlenosti. (Nevadí však, že její hodnota je vyšší než hodnota průměru.) Lepší by bylo uvést hodnotu 1. a 3. kvartilu. Vadí i variační rozpětí – vhodnější by zde bylo uvést minimum i maximum, nebo neuvádět vůbec. 123.2 s^2 = 6,25 123.3 max = 20 (předpokládáme, že ve vzorku byl alespoň jeden student, který žádný předmět neopakoval, a jeho hodnota tak představuje minimum) 124. rozložení hodnot je výrazně asymetrické a pozitivně zešikmené; vyskytuje se zde 5 outlierů; medián má hodnotu asi 0,035 (příčná čára uprostřed krabice), což je patrně méně než průměr (ten bude zvýšen outliery a celkovou zešikmeností rozložení); 50% hodnot se nachází zhruba mezi 0,025 a 0,065 (okraje krabice); většina hodnot se nachází zhruba mezi 0,02 a 0,11 (antény) 125. 126.1 60 126.2 mladší: n=441; m=12,4; s=0,40; starší: n=324; m=16,3; s=0,40. I když vám váš software spočítal m a s na více desetinných míst, v psychologii vzhledem k přesnosti měření uvádíme na 2-3 významné číslice. Bezdůvodným uváděním většího množství desetinných míst na sebe prozrazujete neznalost jak konvencí, tak významu čísel. 126.3 mladší: min=1; Q1=1; Md=2; Q3=2; max=5; IQR=1; starší: min=1; Q1=2; Md=3; Q3=3; max=5; IQR=1 126.4 Zatímco u chlapců je rozložení celkem symetrické, u děvčat je pozitivně zešikmené a strmější. 127. Rozpětí je 23. Maximum je 125, minimum 102, rozpětí = maximum – minimum, tedy 125 – 102 =23. Interkvartilové rozpětí je 5,5. Kvartily jsou 111,5 a 117, interkvartilové rozpětí je jejich rozdílem. Rozptyl je 38,91 a směrodatná odchylka 6,24. Všechny statistiky jsou ukazateli variability neboli rozptýlenosti dat. Nevýhodou rozpětí je, že je velmi ovlivněno velikostí vzorku. Výhodou kvartilového rozpětí je, že není ovlivněno odlehlými hodnotami. Navíc je jeho význam poměrně intuitivní (označuje interval, v němž leží 50% dat). Rozptyl a směrodatná odchylka jsou momentové statistiky, jsou tedy náchylné k extrémním hodnotám. Navíc je lze použít pouze pro metrická data. Na druhou stranu se s nimi dobře počítá. Výhodou směrodatné odchylky je stejná jednotka jako u původních dat, dá se tedy s nimi poměřovat. 128.1 a. Proč u známky z chování není průměr řeší otázka d). V případě sudého počtu hodnot je medián definován jako libovolné číslo z intervalu mezi dvěma prostředními hodnotami (tj. u hmotnosti mezi 47,3 a 49), zpravidla se však uvažuje střed tohoto interval (48,15). Věk Vesnice Váha Barva očí Známka z chování Kterou rukou píše Modus 10 Horní K. 49 modrá 1 pravá Medián 10 --- 48,15 --- 1 --- Průměr 10,3 --- 47 --- --- --- b. Modus se dá vypočítat u každé proměnné, jedná se o nejčastější hodnotu. Někdy může mít proměnná modů dokonce více. U nominální úrovně je modus jediná použitelná střední hodnota. c. Proměnná musí být měřena aspoň na ordinální škále (nebo na libovolné vyšší). d. Průměr bychom samozřejmě vypočítat mohli (vyšel by 1,4), ovšem smysl této operace je sporný. Ve statistice musíme mít neustále na mysli, co se za čísly v tabulce schovává. Známka z chování je proměnná na ordinální škále, aritmetický průměr u ní nemá smysl počítat – neboť rozdíly mezi jednotlivými hodnotami jsou nesrovnatelné. Průměr lze počítat pouze na intervalové a poměrové úrovni, tedy u metrických dat. Ve škole se samozřejmě průměry ze známek počítají neustále. V nevědeckém životě to není problém. Ve vědě musíme na úroveň měření dbát. 128.2 Všechny střední hodnoty se zvětší o 5, tedy Mo = 15, Md = 15, M = 15,3. Přičtení konstanty ke všem datům ovlivní stejně i střední hodnoty. 128.3 Všechny střední hodnoty se zvětší 12x, tedy Mo = 120, Md = 120, M = 123,6. Vynásobení všech dat konstantou opět ovlivní střední hodnoty stejně. 128.4 V tomto případě se změní pouze průměr: M = 50 kg. Modus i medián zůstanou stejné jako předtím (Mo = 49, Md = 48,15). 128.5 Průměr se opět změní, tentokrát na M = 51 kg. Modus zůstane stále stejný, Mo = 49 kg, avšak tentokrát se změní i medián, Md = 49 kg. 128.6 Variační rozpětí je 6, rozptyl 3,12 a směrodatná odchylka 1,77. 128.7 Pro rozpětí musí být měřena alespoň na ordinální škále. 128.8 Častěji se užívá (inter)kvartilové rozpětí (IQR), neboť variační rozpětí je velmi ovlivněno rozsahem vzorku. 128.9 Pro rozptyl musí být metrická, tedy měřena na intervalové či poměrové škále. 128.10 Stejně jako pro rozptyl, i pro směrodatnou odchylku musí být proměnná měřena na intervalové či poměrové úrovni. Směrodatná odchylka je vyjádřena v původních jednotkách proměnné – to je její výhoda oproti rozptylu. 128.11 Žádná míra variability se přičtením konstanty k datům nezmění. 128.12 Rozpětí a směrodatná odchylka se zvětší 12x, rozptyl se zvětší 144x, tedy variační rozpětí: 72, rozptyl: 449,6 a směrodatná odchylka: 21,2. 129.1 Český jazyk. Zbylé tři mají rozpětí téměř shodné a výrazně větší. 129.2 Anglický jazyk, matematika a tělesná výchova spolu s českým jazykem. 129.3 Medián je tučná čára uvnitř oranžových obdélníčků. Obdélníčky jsou ohraničeny prvním a třetím kvartilem, do oranžových obdélníčků tak spadá 50 % hodnot. 129.4 Dva outliery obsahuje tělesná výchova – kolečka nahoře. Outlieři jsou od bližšího kvartilu dále než 1,5 x IQR (tedy jsou od obdélníčku dále než jedenapůl násobek jeho délky). 129.5 Tělesná výchova a český jazyk – mají nesymetricky umístěn medián v obdélníčku i obdélníček v grafu. Bimodalita rozdělení skórů z anglického jazyka se v boxplotu neprojeví. Napovídat ji může pouze poměrně široké interkvartilové rozpětí. 130.1 Průměr je 3,10 a směrodatná odchylka 1,79 (rozptyl je 3,21). 130.2 Průměr je 12,50 a směrodatná odchylka 6,19 (rozptyl je 38,28). 130.3 U hodu jednou dvacetistěnnou kostkou bude odchylka větší. Každá hodnota zde má stejnou pravděpodobnost, že bude vržena. Při součtu čtyř šestistěnných kostek je nejvyšší pravděpodobnost hodnot uprostřed intervalu, zatímco pravděpodobnost hodu krajních hodnot je velmi nízká (pouze 1 z 1296 hodů). Hod dvacetistěnnou kostkou představuje diskrétní uniformní rozdělení, oproti tomu součet šestistěnných kostek se více podobá normálnímu rozdělení. Směrodatná odchylka je 4,71 (průměr 13,70, rozptyl 22,23). 131. odpoveď e 132. odpoveď c 133. Dĺžka krabice v boxplote je zobrazením distribúcie od prvého kvartilu po tretí kvartil. Rozdiel medzi Q[3] a Q[1 ]sa nazýva interkvartilové rozpätie. 134. N, min, Q[1], medián, Q[3], max III. Normální rozložení a z-skóry 201.1 16% 201.2 6,4 201.3 85 201.4 16% 201.5 a) 50%, b) 16%, c) 2% 201.6 a) 16%, b) 84%, c) 98% 201.7 a) 5,0; b) 5,9; c) 4,1 202. a) z = (176-163)/26 = 0,5; b) T = 50 + 10(0,5) = 55; c) P[69] 203. IQ=145 odpovídá z=3, tedy 0,13% z 300000, což je necelých 400 204. cca 68%, cca 50% 205. c) 206. c) 207. ne 208. 1 na 100 209. a) 1; b) 100 210. velkým; malým 211. a) 16%; b) 98%; c) 5%; d) 2,5%; e) 50%; f) cca 70%; g) cca 90% 212. a) 0; b) 1; c) -1; d) 1,64; e) 2,58; f) -2,58; g) 1,28 213.1 s[č ]≈ 3, s[m ]≈ 1,7 213.2. čtení 214. A: 7, B: 24, C: 38, D: 24, F: 7. 215. přibližně jeden z tisíce 216. a 217. 218., 219., 220. a 221. Zde lze využít funkci NORM.S.DIST v Excelu nebo pnorm(z) v R . 222. 0,025 + 0,025 = 2,5% + 2,5% = 5% 223. 0,45 + 0,45 = 45% + 45% = 90% 224. A zde lze použít NORM.S.INV v Excelu nebo qnorm(p) v R. 225. 0,71 - 0.11=0.60 nebo 0,39 + 0,21 = 0,60 (pnorm(0.56)-pnorm(-1.2), =NORM.S.DIST(0,56)- NORM.S.DIST(-1,2)) 226. 0,61-0,20=0,41 nebo 0,31 + 0,11 = 0,42 (pnorm(80,78,7)-pnorm(72,78,7), =NORM.DIST(80;78;7)- NORM.DIST(72;78;7)) Taky si můžete 80 a 72 převést na z-skóry a řešit to jako v předchozí úloze. 227. 0,32 228. (z = ± 1). Odpověď je 0,6826 229. z = ± 1,28 (např. qnorm(.1), qnorm(.9), NORM.S.INV(0,1), tabulky…) X = 70 ± 1,28(7) = 61 a 79 > 79 nejlepší studenti a < 61 nejhorší studenti Nebo qnorm(.1,70,7), qnorm(.9,70,7), NORM.INV(0,1;70;7)… 230. 231. Z skóry jsou používány k nalezení procenta skórů pod hodnotou hrubých skórů 232. 233. a 234. 235. a. z = 0,84 (z tabulky); b. Ne, potřebujete průměr a směrodatnou odchylku 236.1 skór 29 236.2 percentil 98 237.1 skór 16 237.2 percentil 84 238. hudební nadání (z-skór -1 odpovídá zhruba 16. percentilu, což je slabší výsledek než výkon na úrovni 20. percentilu) 239. verbální nadání (120 bodů ve verbálním testu odpovídá z-skóru 1, tedy 84. percentilu, což je více než 80. percentil) 240. dominují verbální kreativita a prostorová představivost, slabší je kresebná tvořivost (T-skór 75 odpovídá z-skóru 2,5, což je velmi nadprůměrný výsledek; hrubý skór 84 u prostorové představivosti odpovídá z-skóru 2 [(84-76)/4], což o něco nižší, ale rovněž vysoce nadprůměrné skóre; 40. percentil je lehce podprůměrný výsledek) 241. ne – výkon odpovídající 40. percentilu znamená podprůměrný výsledek (tj. lepší než 40% a horší než 60% ostatních) v jakémkoli rozložení 242.1 z-skór je -1 a percentil 16. z = (x - m) / s, percentil se vypočte pomocí grafu normálního rozdělení a plochy pod ním. Percentil je zaokrouhlen na celá čísla. 242.2 Z-skór je 2, percentil 98. 242.3 Dosáhl 61 bod, 2. percentil. 242.4 Z-skór 0, bodů 79. 243., 244 a 245 246. odpoveď d 247. medzi -3 a 3 248. nepatrí tam percentil, všetky ostatné sú štandardné skóre, ktoré dostávame štandardnou transformáciou a percentil patrí k mieram variability založenej na kvantiloch 249. odpoveď b 250. odpoveď c 251. 251.1 odpoveď 0 251.2 odpoveď 7 251.3 odpoveď 20% 251.4 odpoveď 40% 251.5 odpoveď 6 251.6 odpoveď 30% 252. odpoveď a 253. odpoveď d 254. linearizačná transformácia slúži pre zjednotenie rôznych premenných na rovnakú škálu (nemení sa konfigurácia rozloženia početností). 255. normal_distribution norcdf plot of the chi-square percent point function with the same values of nu as the pdf plots above student