Číselné charakteristiky znaků Doposud jsme se zabývali funkcionálními charakteristikami znaků, jako jsou empirická distribuční funkce F(x), simultánní četnostní funkce p(x,y), marginální četnostní funkce pi(x), p2(y), simultánní hustots četnosti f(x,y), marginální hustoty četnosti fi(x), f2(y), které nesou úplnou informaci o rozložení četností. Nyní zavedeme číselné charakteristiky, které nás informují o některých rysech tohoto rozložení četností: o poloze (úrovni) hodnot znaku, o jejich variabilitě (rozptýlení), o těsnosti závislosti dvou znaků a pod. Pro různé typy znaků se používají různé číselné charakteristiky, proto se nejdřív seznámíme s jednotlivými typy znaků. Typy znaků Nominální znak: připouští obsahovou interpretaci pouze u relace rovnosti =. O dvou variantách nominálního znaku lze pouze konstatovat, že jsou buď stejné nebo různé. Čísla, která přiřadíme jednotlivým variantám znaku, nereprezentují skutečnou hodnotu použitých čísel, ale jsou pouhým označením variant znaku. Příklady nominálních znaků: lékařská diagnóza, typ profese, barva očí, rodinný stav, národnost, ... Ordinální znak: připouští obsahovou interpretaci nejen u relace rovnosti =, ale též u relace uspořádání <. Můžeme tedy konstatovat, že varianta x^ je větší (dokonalejší, silnější, vhodnější) než varianta x[k]. Příklad ordinálního znaku: školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených žáků -jedničkář je lepší než dvojkař, ale intervaly mezi známkami nemají obsahovou interpretaci. Nelze tvrdit, že rozdíl ve znalostech mezi jedničkářem a dvojkařem je stejný jako mezi trojkařem a čtyřkařem. Další příklady: Různá bodování ve sportovních a uměleckých soutěžích, posuzování různých rysů sociálního chování, posuzování stavu pacientů, hodnocení postojů respondentů k různým otázkám, ... Typy znaků Intervalový znak: kromě relací rovnosti = a uspořádání < umožňuje obsahovou interpretaci také u operace rozdílu -, tj. stejný interval mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje i stejný rozdíl v extenzitě zkoumané vlastnosti. Příklad intervalového znaku: teplota měřená ve stupních Celsia. Např. naměříme-li ve čtyřech po sobě jdoucích dnech polední teploty 0, 2, 4, 6 °C, znamená to, že každým dnem stouply teploty o 2 °C. Nelze však říci, že z druhého na třetí den vzrostla teplota dvojnásobně, kdežto ze třetího na čtvrtý den pouze jeden a půl krát. Další příklady: kalendářní systémy, směr větru, inteligenční kvocient, ... Společný znak intervalových znaků: nula byla stanovena uměle, pouhou konvencí. Poměrový znak: kromě relací rovnosti = a uspořádání < umožňuje obsahovou interpretaci také u operací rozdílu - a podílu /, tj. stejný poměr mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje i stejný podíl v extenzitě zkoumané vlastnosti. Příklad poměrového znaku: délka předmětu měřená v cm. Má-li jeden předmět délku 8 cm a druhý 16 cm, má smysl prohlásit, že druhý předmět je dvakrát delší než první předmět. Další příklady: počet dětí v rodině, výška kapesného v Kč, hmotnost osoby, ... Společný znak poměrových znaků: Poměrový znak má přirozený počátek, ke kterému jsou vztahovány všechny další hodnoty znaku. Mimo uvedenou klasifikaci stojí alternativní znaky, které nabývají jen dvou hodnot, např. 0,1, což znamená absenci a prezenci nějakého jevu. Například 0 bude znamenat neúspěch, 1 úspěch při řešení určité úlohy. Alternativní znaky mohou být ztotožněny s kterýmkoliv z předcházejících typů. Typy znaků II > Demografické znaky: Klienta (věk, pohlaví, rodinný stav, počet dětí, druh bydlení, kraj/okres trvalého bydliště...) Prodejního místa (kraj/okres, typ, prodejní plocha,...) Prodejce (věk, pohlaví, kraj/okres trvalého bydliště...) > Behaviourální znaky: Klienta („stáří" klienta, doposud splacená jistina, dlužná jistina, počet dní po splatnosti,...) Prodejního místa („stáří" prodejny, počet uzavřených smluv, objem uzavřených smluv, podíl nesplácených úvěrů,...) Prodejce (počet uzavřených smluv, objem uzavřených smluv, podíl nesplácených úvěrů ...) > Produktové znaky: Výše úvěru, délka smlouvy, akontace, RPSN,... Číselné charakteristiky nominálních znaků Charakteristika polohy: modus - nejčetnější varianta resp. střed nejčetnějšího třídicího intervalu. Příklad na stanovení modu 20 náhodně vybraných osob mělo odpovědět na otázku, který z pěti výrobků (označíme je A, B, C, D, E) preferují. Výsledky máme v tabulce: Výrobek A B C D E Četnost odpovědí 3 5 3 6 3 Stanovte modus. Řešení: Modus = D Označení: x Cramérův koeficient Charakteristika těsnosti závislosti dvou nominálních znaků: Cramérův koeficient kontingence. Carl Harald Cramér (1893 - 1985): Švédský matematik Craméruv koeficient Nechť znak X nabývá variant X[i],..., x[r] a znak Y nabývá variant y^j,..., V[S]. Máme dvourozměrný datový soubor (x[j],y[k])> j = 1, ...,r, k= 1, ... ...... . Zjistíme absolutní četnosti njk dvojice variant xn yj s a uspořádáme je do kontingenční tabulky: x njk. y[i y[s] n Lj- X[l] *£rL nn ni£ n iL n rs_ ni. nr ILk_ n n n Vypočteme tzv. teoretické četnosti njAk a s jejich pomocí pak statistiku r s £jk nj-n-k n j=l k=l nj.n.k n Craméruv koeficient: v = K n(m-l) kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže jel, tím je těsnější závislost mezi X a Y, čím blíže je 0, tím je tato závislost volnější. ^ Cramérův koeficient Význam hodnot Cramérova koeficientu: mezi 0 až 0,1 ... zanedbatelná závislost, mezi 0,1 až 0,3 ... slabá závislost, mezi 0,3 až 0,7 ... střední závislost, mezi 0,7 až 1 ... silná závislost. Príklad Příklad na výpočet Cramérova koeficientu: 686 náhodně vybraných osob bylo dotázáno, zda vlastní auto (znak X, varianty 1 -ano, 2 - ne) a zda jsou ochotny používat MHD (znak Y, varianty 1 - ano, 2 - ne). Výsledky průzkumu jsou uvedeny v kontingenční tabulce: Vypočtěte a interpretujte Cramérův koeficient. X Y | nJ. ano ne ano 56 312 368 ne 283 35 318 |n.k |339 347 |686 Řešení: Nejprve vypočteme teoretické četnosti: ^^ = 181,8542,^^ = ^^7 = 186,1458, 686 n 686 ni.n i = n n^ = 318J39= n2ni = 686 318-347 = 160,8542 K 371,456 n ö8ö n 686 Nyní dosadíme do vzorce pro výpočet statistiky K: _ (56-181,8542^ | (312-186,1458)" ] (283-157,1458^ , (35-160,85427 _ 181,8542 186,1485 157,1458 160,8542 Nakonec vypočteme Cramérův koeficient: Í37U456 V 686-1 Hodnota Cramérova koeficientu svědčí o tom, že mezi znaky X a Y existuje silná závislost Číselné charakteristiky ordinálních znaků Charakteristika polohy: a-kvantil. Je-li a e(o;i), pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 - a všech dat. Pro výpočet a-kvantilu slouží algoritmus: x,„,+x, ./celé číslo c =>x„ = L(c) ^ A(c+1) \ necelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c => xa = x(c) Pro speciálně zvolená a užíváme názvů: x0,5o - medián, x0,25 - dolní kvartil, x0j5 horní kvartil, x0,i,..., x0,9 - decily, x0,oi,..., x0,99 - percentily. Charakteristika variability: kvartilová odchylka: q = xqj5 - x0,25- Príklad Příklad na výpočet kvantilů: U 50 žáků 7. ročníku jedné základní školy byly na pololetním vysvědčení zjištěny známky z matematiky: známka 1 2 3 4 5 četnost známky 9 15 20 4 2 Určete medián, 1. a 9. decil a kvartilovou odchylku. Řešení: Pro snadnější výpočet tabulku doplníme ještě o absolutní kumulativní četnosti: Rozsah souboru n = 50 známka 1 2 3 4 5 ni 9 15 20 4 2 Nj 9 24 44 48 50 a na c Xa 0,50 50.0,5=25 25 X(25) + X(26) 3 + 3 2 2 0,10 50.0,1 = 5 5 X(5) + X(6)_l + l_1 2 2 0,90 50.0,9 = 45 45 X(45) + x(46) _4 + 4_ 2 2 0,25 50.0,25 = 12,5 13 X(13) = 2 0,75 50.0,75 = 37,5 38 Xf381 = 3 Kvartilová odchylka: q = 3 -2=1. Interpretace např. dolního kvartilu: V souboru žáků je aspoň čtvrtina takových, kteří mají z matematiky jedničku nebo dvojk u (neboli v souboru 50 žáků jsou aspoň tři čtvrtiny takových, kteří mají z matematiky dvojku či horší známku). rr 2 3 4 5 6 7 8 9 10 11 12 13 14 15] i 4 4 5 6 8 8 12 12 13 14 14 14 18 19 X. 0,25 nj Nj Pj Fj 1 1 1 0,07 0,07 4 2 3 0,13 0,20 ^ « 5 1 4 0,07 0,27' 6 1 5 0,07 0,33 z? 8 2 7 0,13 0,47 <ť 12 2 9 0,13 0,60^ \ s 13 1 10 0,07 0,67 y 14 3 JL3Ü lo?o I 0 871 c^ 18 1 TT 0,07 0,93 ,___________________i 19 1 15 0,07 1,00 Součet 15 X 1,00 X rr X0,5 X0,25 ~~ ^ •*0,5 = x = 12 X 0,75 = 14 Jt = 14 TT x 0,75 *7 ~ **U75 ^0.25 — At- J — ^ X0 25 je tedy hodnota, u které Fj poprvé překročí 0,25. !!! Pokud ale Fj=a pro nějaké M 9 Xa ~ V X[j] + X[J+1] )/2 4 x0(2=(4+5)/2=4,5 Modus a kvantily pro intervalově tříděná data x = dm+ n» n^------h ^nm nm-\ nm+\ dm je dolní mez modálni třídy, nm->nm-i>nm+i je četnost modálni, předcházející a následující třídy, h je šířka třídy P-F _ Ji/ p — Ol p \ * ľL Pp dp je dolní mez třídy obsahující příslušný P-kvantil, P p je relativní četnost této třídy, Fp_x je kumulativní relativní četnost předcházející třídy, h je šířka třídy J Příklad Určete modus a medián. 1 -v, 1 Ni | 1 méně než 15> 1 22 1 1 (15;20> 34 1 1 (20;25> 72 1 1 (25;30> 102 1 1 (30;35> 127 1 | více než 35 | 135 | Príklad ' H méně než I5> [271 (15:20> ľŠľl (2Qj25> ľŤ2~1 (25S0> ľiôľ] (30Í> M2Ť] | víecne\35 rišrl x = 20 + = 23,82 2-38-12-30 x = 20 + \-----------5 = 24,46 -^ Spearmanův koeficient Charakteristika těsnosti závislosti dvou ordinálních znaků: Spearmanův koeficient pořadové korelace Charles Edward Spearman (1863 - 1945): Britský psycholog a statistik Nejprve je nutné vysvětlit pojem pořadí čísla v posloupnosti čísel. Nechť xi, ..., xn je posloupnost reálných čísel. a) Jsou-li čísla navzájem různá, pak pořadím Rj čísla xj rozumíme počet těch čísel xu ..., xn, která jsou menší nebo rovna číslu Xj. b) Vyskytují-li se mezi danými čísly skupinky stejných čísel, pak každé takové skupince přiřadíme průměrné pořadí. Príklad Příklad na stanovení pořadí a) Jsou dána čísla 9, 4, 5, 7, 3, 1. b) Jsou dána čísla 6, 7, 7, 9, 6, 10, 8, 6, 6, 9. Stanovte pořadí těchto čísel. Řešení ad a) usp. čísla 1 3 4 5 7 9 pořadí 1 2 3 4 5 6 adb) usp. čísla 6 6 6 6 7 7 8 9 9 10 pořadí 1 2 3 4 5 6 7 8 9 10 prům. pořadí 2,25 2,25 2,25 2,25 5,5 5,5 7 8,5 8,5 10 Spearmanuv koeficient Vzorec pro výpočet Spearmanova koeficientu: Předpokládejme, že máme dvourozměrný datový soubor hodnoty xí a Qi pořadí hodnoty yj, i = 1,..., n. \ yA vxn yny Označíme Rj pořadí r n Spearmanuv koeficient pořadové korelace: ^ =1—1-2—\Z(Rí -Qí)2 Vlastnosti Spearmanova koeficientu pořadové korelace: Koeficient nabývá hodnot mezi -1 a 1. Cím je bližší 1, tím je silnější přímá pořadová závislost mezi znaky X a Y, čím je bližší -1, tím je silnější nepřímá pořadová závislost mezi znaky X a Y. Je-li rs = 1 resp. rs = -1, pak dvojice (x;, Vj) leží na nějaké vzestupné resp. klesající funkci. Hodnoty rs se nezmění, když provedeme vzestupnou transformaci původních dat. Hodnoty rs se vynásobí -1, když provedeme sestupnou transformaci původních dat. Koeficient je symetrický. Koeficient je rezistentní vůči odlehlým hodnotám. Spearmanův koeficient Význam absolutní hodnoty Spearmanova koeficientu: mezi 0 až 0,1 ... zanedbatelná pořadová závislost, mezi 0,1 až 0,3 ... slabá pořadová závislost, mezi 0,3 až 0,7 ... střední pořadová závislost, mezi 0,7 až 1 ... silná pořadová závislost. Ilustrace významu Spearmanova koeficientu pořadové korelace rs = 0,82 rs = 0,99 O oo^ rs = 0 rs = 0,69 M rs = 0,5 8 8 rs = -l 1,5 ľt | M w* ■- P w % ^ I # w • • # € ^^ n n w v oo Příklad Příklad na výpočet Spearmanova koeficientu pořadové korelace: Je dán dvourozměrný datový soubor (2,5 13,4^1 3,4 15,2 1,3 11,8 5,8 13,1 U6 14,5j Vypočtěte Spearmanův koeficient pořadové korelace. Řešení: Xi 2,5 3,4 1,3 5,8 3,6 yi 13,4 15,2 11,8 13,1 14,5 Ri 2 3 1 5 4 Qi 3 5 1 2 4 (Ri-Qi)2 1 4 0 9 0 rs=l-^-iÉ(R1-Q1)2=l——(l + 4 + 0 + 9 + 0) = l-^ = 0,3 s n(n2-l)trV ' Vl' 5-24V ' 5-24 Znamená to, že mezi znaky X a Y existuje slabá přímá pořadová závislost. Číselné charakteristiky intervalových znaků Charakteristika polohy: aritmetický průměr je součet hodnot dělený jejich počtemí m = — Y xj. Pomocí průměru N__nttX zavedeme i-tou centrovanou hodnotu Xj - m (podle znaménka poznáme, zda i-tá hodnota je podprůměrná či nadprůměrná). Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem Rozdělení s různými polohami 500 400 -\ Často se aritmetický průměr označuje jč: 1 " n /=1 5 10 15 hodnota znaku 20 Príklad Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte aritmetické průměry znaků X, Y. 83 9« 106 111 82 104 BS 103 111 113 íl£ L 02 103 IQS 99 119 104 129 107 lift PS 140 97 115 10Ô 101 71 93 3Q G9 122 14? 33 52 78 117" 114 1ST . 125 M* Řešení: 154 + 133 + ... + 85 r um 178 1 133 ■::il 53 75 145 l&l 94 107 L13 141 «y 97 121 127 110 L3S 112 125 B& 9? 41 7^ »a 11* 45 89 99 10* 51 •:>}> 101 114 !' líj'.i 87 i;:: SS na 73 7E 77 85 47 61 S3 S5 137 142 44 «ft 93 HS 141 1&7 155 !-' 130 155 £2 81 13« 163 72 79 §0 S ■ľ- 61 113 123 42 85 133 147 1 153 179 as fll ml = 60 = 95,9, m2 = 178 + 164 + ... + 91 60 = 114,4 Aritmetický průměr Vlastnosti aritmetického průměru - Aritmetický průměr si lze představit jako těžiště dat - součet podprůměrných hodnot je stejný jako součet nadprůměrných hodnot - oba součty jsou v rovnováze. j n j n j n j - Průměr centrovaných hodnot j e nulový, protože — V (x: -m) = — V x: —Ym=m-----n-m = 0 = 0. n 1=1 n 1=1 n 1=1 n n - Výraz ^(x: -a)2 (tzv. kvadratická odchylka) nabývá svého minima pro a = m. Uvedený výraz charakterizuje i=i celkovou chybu, které se dopustíme, když datový soubor nahradíme jedinou hodnotou a. Tato chyba je tedy nejmenší, když datový soubor nahradíme aritmetickým průměrem, přičemž za míru chyby považujeme kvadratickou odchylku. - Aritmetický průměr je silně ovlivněn extrémními hodnotami. - Aritmetický průměr je vhodné použít, pokud je rozložení dat přibližně symetrické. Rozptyl, směrodatná odchylka Charakteristika variability: rozptyl je průměrná kvadratická odchylka hodnot od jejich aritmetického průměru 1 n . /— s2 = — ^(xí -m)2. Kladná odmocnina z rozptylu se nazývá směrodatná odchylka s = vs2 . Pomocí směrodatné odchylky i=l x — m zavedeme i-tou standardizovanou hodnotu —----- (vyjadřuje, o kolik směrodatných odchylek se i-tá hodnota odchýlila od průměru). 1 ^ Výpočetní tvar vzorce pro rozptyl: s2 = — V x:2 - m Znázornění rozložení četností dvou datových souborů, které se liší rozptylem: Rozdělení s různými variabilitami 0 5 10 15 20 25 hodnota znaku J Příklad Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte rozptyly a směrodatné odchylky znaků X, Y. Přitom již víme, že mi = 95,5 a m2 = 114,4. r i*i 178 1 83 9S 73 76 133 1Ö4 105 111 77 65 53 7", 1)2 104 17 6] 1 U5 151 ES 183 S3 as 94 107 112 113 ľ:7 142 | 113 141 9* L 02 44 03 m 9T 103 Úl* 92 116 m 127 99 ILO 141 1&7 119 L38 IM 128 l.V> !-" , ]]_> 12$ 107 u* 13S 155 85- 9"? 58 14Ö £2 81 41 7^ 97 115 136 163 SS 113 1ÜÖ 101 73 79 45 39 71 93 00 81 S3 109 ;üj es 42 &1 51 S5 122 147 113 123 101 114 33 52 \2 85 lL-0 18fl TS 117 13a MT j 87 101 LL4 137 153 ITS S3 133 12a M!: L as w ] Řešení: Sj2 =-Jx^-iii!2 =— (l542+1332+... + 852)-95,52 = 1052,40^ = ^1052,40 = 32,4 n i=1 60 s22 =-Xyi2"m22 =— (l782+1642+... + 912)-114,42 = 1057,21,Sl = Vl 057,21 = 32,5 n i=1 60 Rozptyl, směrodatná odchylka - vlastnosti Vlastnosti rozptylu a směrodatné odchylky: - Směrodatná odchylka je nulová pouze tehdy, když jsou všechny hodnoty stejné, jinak je kladná. i n in - Rozptyl centrovaných hodnot je roven původnímu rozptylu, neboť — J][(x{ -m)-0]2 = — V (xx -m)2 = s2 n i=i n 1=1 ^x- -m ^ 2 1 lf/ \2 S 2 1 n — Rozptyl standardizovaných hodnot jel, protože — ^ I ——— -OJ = -y • — X (xi ~ m)2 = ~2"= 1 *** ° s n j=j s n i=i v ö J Rozptyl či směrodatná odchylka j sou stejně jako průměr silně ovlivněny extrémními hodnotami. Rozptyl či směrodatná odchylka se nehodí jako charakteristiky variability, je-li rozložení dat nesymetrické. Šikmost ^í>,-m)' Charakteristika nesymetrie dat: šikmost a3 = —1-1 __------ Vs3 Je-li rozložení dat symetrické kolem aritmetického průměru, pak a3 = 0. Má-li rozložení dat prodloužený pravý konec, jde o kladně zešikmené rozložení, a3 > 0. Má-li rozložení dar prodloužený levý konec, jde o záporně zešikmené rozložení, a3 < 0. Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem a šikmostí Rozdělení s různými polohami a šikmostmi 5 10 15 20 25 hodnota znaku a, < 0: Pravostranná asymetrie a3 = 0: Symetrie ^TTÍU dbd a3 > 0: Levostranná asymetrie —n Spičatost Charakteristika koncentrace dat kolem průměru: spičatost oc4 = n 1-1 __--------3 Je-li rozložení dat normální (Gaussovo), pak a4 = 0. Je-li rozložení dat strmé, pak a4 > 0. Je-li rozložení dat ploché, pak a4 < 0. Znázornění rozložení četností dvou datových souborů, které se liší špičatostí Rozdělení s různými špičatostmi 250 200 četnost O Ol o o 50 2 7 12 17 22 hodnota znaku a a < 0: Podnormální spičatost a = 0: Normální spičatost aá > 0: Nadnormální spičatost Li 7 __ — N - ^ 1 Kovariance Charakteristika společné variability dvou intervalových znaků: kovariance '*. y,A Předpokládejme, že máme dvourozměrný datový soubor Označme mb m2 průměry znaků X, Y a sh s2 směrodatné odchylky znaků X, Y. Zavedeme kovarianci jako charakteristiku společné variability znaků X, Y kolem jejich průměrů =rí>. mi)(y1-m2)- Kovariance je průměrem součinů centrovaných hodnot. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s nadprůměrnými (podprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot Xi - mi a y{ - m2 vesměs kladné a jejich průměr (tj. kovariance) rovněž. Znamená to, že mezi znaky X, Y existuje určitý stupeň přímé lineární závislosti. Říkáme, že znaky X, Y jsou kladně korelované. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s podprůměrnými (nadprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot vesměs záporné a jejich průměr rovněž. Znamená to, že mezi znaky X a Y existuje určitý stupeň nepřímé lineární závislosti. Říkáme, že znaky X, Y jsou záporně korelované. Je-li kovariance nulová, pak řekneme, že znaky X, Y jsou nekorelované a znamená to, že mezi nimi neexistuje žádná lineární závislost. _________ Pro výpočet kovariance používáme vzoreo(Qi2 = — ^xlyl -m^ Kovariance Znázornění významu kovariance = 5,5 4 1 i > • >• • . (irhr 1ti2) • f 1 • I * • Si2 - -5,5 14 16 Sl2 = 0 • *á 1 p ' (ml C m2) • # 1 • 4 ► i > __________i___________i___________^___________.•_ Příklad Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte kovarianci znaků X, Y. Přitom již víme, že mi = 95,5, m2 = 114,4, si =32,4, s2 = 32,5 r im 17S 1 S3 9S 1 7:s 7G 133 lß4 106 lil :: 85 58 rs 1)2 ľ ■: ■17 61 1 145 151 fi5 103 íifc M 94 1D7 112 113 ľ>7 142 LL3 141 9* 102 44 ti» ať '.-'- «ra L 08 92 115 121 [Ti EŕEJ 1L9 Ml 157 110 138 104 126 Lvi !■■' 112 125 107 lift 136 L55 B& &7 58 140 32 SI 41 75 97 115 1« 163 S5 113 1ÜÖ L« 73 79- 45 S9 71 93 GS B] aa 109 ;üj 69 42 &1 51 95 122 147 113 123 101 114 33 52 42 5i ISA lflfl TS ilľ 133 L4T 87 10-1 LL4 m 155 175 ss |:i!J I2ä L49 L S* 91 J Řešení: s12 =-yxiyi-m1m2 =— (l54 • 178 +133 • 164 +... + 85 • 9l)- 95,5 • 11494 = 985,76 n 7^ 60 Pearsonuv koeficient korelace ICharakteristika těsnosti závislosti dvou intervalových znaků: Pearsonuv koeficient korelace Jsou-li směrodatné odchylky Si, s2 nenulové, pak definujeme Pearsonuv koeficient korelace znaků^X. Y vzorcem: e to průměr součinů standardizovaných hodnot. Počítá se podle vzorce Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte koeficient korelace znaků X, Y. Přitom již víme, že mi = 95,5, m2 = 114,4, si =32,4, s2 = 32,5, Si2 = 985,76. Řešení: j± = 985,76 12 sxs2 32,4.32,5 Koeficient korelace svědčí o tom, že mezi oběma znaky existuje velmi silná přímá lineární závislost - čím je vyšší mez plasticity, tím je vyšší mez pevnosti a čím je nižší mez plasticity, tím je nižší mez pevnosti. Vlastnosti Pearsonova koeficientu korelace: Pro koeficient korelace platí -1 < ri2 < 1 a rovnosti je dosaženo právě když mezi hodnotami Xi, ..., xn a y1? ..., yn existuje úplná lineární závislost, tj. existují konstanty a, b tak, že y i = a + bxÍ9 i = 1, ..., n, přičemž znaménko + platí pro b > 0, znaménko - pro b < 0. (Uvedená nerovnost se nazývá Cauchyova - Schwarzova - Buňakovského nerovnost.) Tedy čím je yu bližší 1, tím je silnější přímá lineární závislost mezi znaky X a Y, čím je bližší -1, tím je silnější nepřímá lineární závislost mezi X a Y. Je-li ri2 = 1 resp. ri2 = -1, pak dvojice (xÍ9 yi) leží na nějaké rostoucí resp. klesající přímce. Hodnoty yu se nezmění, když u x-ových a y-ových hodnot současně provedeme vzestupnou resp sestupnou lineární transformaci. Hodnoty ri2 se vynásobí -1, když u x-ových hodnot provedeme vzestupnou (resp. sestupnou) a u y-ových hodnot sestupnou (resp. vzestupnou) lineární transformaci. Koeficient je symetrický, tj. ri2 = r2i. Početní pravidla pro číselné charakteristiky______ Početní pravidla pro číselné charakteristiky Nechť mi je aritmetický průměr a s i rozptyl znaku X. Pak znak Y == a + bX má: aritmetický průměr m2= a + bm1 ,rozptyl 2 2 Nechť mi, m2 jsou aritmetické průměry, s i , S2 rozptyly a s 12 kovariance znaků X, Y. Pak znak U = X + Y má aritmetický průměr m3 = mx + m2 , rozptyl S3 - S\ + S2 + 2S 12 Nechť s 12 je kovariance znaků X, Y a m 1, m2 jsou aritmetické průměry znaků X, Y. Pak znaky U = a + bX, V = c + d Y mají kovarianci t^^A UĹAlňl r\ Príklad Příklad: a) Znak X má aritmetický průměr 2 a rozptyl 3. Najděte aritmetický průměr a rozptyl znaku Y = -1 + 3X. b) Znaky X a Y mají aritmetické průměry 3 a 2, rozptyly 2 a 3, kovarianci 1,5. Vypočtěte aritmetický průměr a rozptyl znakuZ = 5X-4Y. c) Součet rozptylů dvou znaků je 120, součin 1000 a rozptyl jejich součtů je 100. Vypočtěte koeficient korelace těchto znaků. Řešení: ad a) m2 = -1 + 3mi = -1 + 3 x 2 = 5, s22 = 32 x Sl2 = 9 x 3 = 27. ad b) m3 = 5m! - 4m2 = 5 x 3 - 4 x 2 = 7, s32 = 52 x Sl2 + (-4)2 x s22 + 2 x 5 x (-4) x Sl2 = 25 x 2 + 16 x 3 - 40 x 1,5 = 38. adc)si2 + s22= 120, Si2 x s22 = 1000, Si+22= 100 = Sj2 + s22 + 2sX2 => s12= -(s1+22- s,2- s22 )=-(l00-120)=-10 ri2=^^ = ^= = -0,3162. SjXSj VI000 ^ Vážené číselné charakteristiky Pokud nemáme k dispozici původní datový soubor, ale jenom tabulku rozložení četností (resp. kontingenční tabulku), můžeme vypočítat tzv. vážené číselné charakteristiky. i r Vážený aritmetický průměr: m = -Xnjxu] n j=1 1 r . . i r Vážený rozptyl: s2 =-Xnj(xü] _mľ =_Znjxü]2_m2 n j=1 n j=1 Vážená kovariance: s12 —ZZnjk(xm ~miXy[k] - m2)=-ŽÉ n j^ä] -mim2 n j=l k=l n j=l k=l Príklad Příklad na výpočet vážených číselných charakteristík Z dvourozměrného datového souboru rozsahu27, v němž znak X má varianty 1, 2, 3 a znak Y má rovněž varianty 1, 2, 3, byly určeny simultánní absolutní četnosti: r\\ = 5, ni2 = 1, nn = 3, n2i = 4, n22 = 3, n23 = 4, n3i = 2, n32 = 3, n33 = 2. a) Vypočtěte průměry a směrodatné odchylky znaků X a Y b) Vypočtěte a interpretujte koeficient korelace znaků X a Y Řešení: Kontingenční tabulka simultánních absolutních četností: ad a ) m, = —(l-9 + 2-ll + 3-7)= —= 1,926, m2 = —(l-ll + 2-7 + 3-9)= — = 1,926 X y nj. i 2 3 1 5 1 3 9 2 4 3 4 11 3 2 3 2 7 n.k 11 7 9 27 27 27 .2 27 27 2 1 Í2 n ,2,, ,2 „\ 52 116 2704 428 s, = — (l -9 + 22ll+3 -7 H — =--------------=-----,si = 0,766 27 127 J 27 729 729 'i = — í2-ll + 22-7 + 32-9>í—) 27 27 120 2704 = 536 27 729 729 , S2 = 0,857 adb) s12 =—(1-1-5 + 1-2-1 + 1-3-3 + 2-1-4 + 2-2-3 + 2-3-4 + 3-1-2 + 3-2-3 + 3-3-2)- —• — 12 27 27 27 102 2704 2754-2704 50 27 729 50 729 729 729 = 0,0685871 428 536 729 729 = 0,10439. Mezi znaky X a Y existuje velmi slabá přímá lineární závislost. Koeficient variace, geometrický průměr Pro poměrové znaky používáme jako charakteristiku variability koeficient variace —. Je to bezrozměrné m číslo, které se často vyjadřuje v procentech. Umožňuje porovnat variabilitu několika znaků. Jsou-li všechny hodnoty poměrového znaku kladné, pak jako charakteristiku polohy lze užít geometrický průměr ^/x1-...-xn . Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte koeficienty variace znaků X, Y. Přitom již víme, že ni! = 95,5, m2 = 114,4, Si =32,4, s2 = 32,5 Řešení: cv A. = ¥A = 0 339 =_h_ = jVČ_ = 0 284 1 m, 95,5 2 m2 114,4 Výpočty zavedením pomocné proměnné x —a pomocná proměnná => v, = - h konstanty: . a -^ střed třídy s nejvyšší četností . h -> šířka třídy Výpočty zavedením pomocné proměnné v —------=> x — v n + a h s 2 S V h 2 x_ 2 ^ 2 ,2 2 > sx=h sv Príklad Vypočítejte: 1 Xj í I <30-40) 1 <40-50) <50-60) <60-70) <70-80) 1 Celkem I v r aritmetický průměr, odchylku a variační pomocné proměnné 10 31 27 19 13 100 rozptyl, směrodatnou koeficient zavedením Příklad a = 45 h = 10 ' ' V| 35 10 -1 45 rol 0 55 27 1 ^ ^ 2 75 13 3 | Součet | 100 X | Příklad Xj m Vi Viftj 35 lí) "1 -ÍÔ 45 31 0 0 55 27 1 27 65 19 2 38 75 13 3 39 Součet 100 x | 94 | v = 0,94 =^> x = vh + a = = 0,94-10 + 45 = 54,4 Príklad X; Wi- Vi ti "i I 35 IO -1 10 45 31 0 0 55 27 1 27 65 19 2 76 75 13 3 117 Součet 100 x 230 1 S 2 v 1 n = —£ (vf/i,) - v2 = 2,3 - 0,8836 = 1,4164 2 7.2 ..2 1^2 x 52 = h2 -st =10-1.4164 =141,64 Príklad Sx = V?=v nebo Sx = h -s2v = cv„ = — = x nebo CV„ = ^. _ 11,9 x 55,4 h- ■Sv _ x — v -h + a 141,64 =11,9 10-^1,4164 =11,9 = 0,2188 10-119 ' =0,2188 0,94-10 + 45 Společný rozptyl 2 -2,2 S =S +S- X S ......vnitřoskupinová variabilita (s;)l S-......meziskupinová variabilita (s^) ^ Značení ze skript „Popisná statistika' Společný rozptyl vnitroskupinová variabilita k -2 * X^ 2 meziskupinová variabilita k 1 * =-Y<š,- sl -~7 (x~x Príklad Dl: 104 108 D2: 93 65 Vypočítejte: . dílčí průměry, . společný průměr, . dílčí rozptyly, . společný rozptyl. Príklad i n, Xj — / ,Xj — nx i=i 1 = -•(104 + 108 + 79 + 155) x2 =--(93 + 65 + 76 + 111) jč = —-(111,5-4 + 86,25-4) = 8 111,5 86,25 98,875 Príklad sxi ~ 2-i\xí x\) ~ 7.52+3.52+32.52+43.5 = 754,25 Sx2 ~ 6,752 + 21,252 +10,252 + 24,75: = 303.69 Príklad s"2=!í>.2-»,=ffá-4+4-4)= n ,_ 7=1 1 = - • (754,25 • 4 + 303,69 • 4) = 528,97 1 k « 7=1 «, = (111,5 - 98,875)2 • 4) + (86,25 - 98,875)2 • 4 8 = 159.39 Príklad 2 -2.2 S = S + S- = = 528,97 + 159,39 = 688,36 Pro kontrolu ještě spočteme rozptyl přímo: s2 =-Yxf-x2 =--83717 -98,875 n i=l 8 = 10464,63 - 9776,27 = 688,36