Číselné charakteristiky znaků Doposud jsme se zabývali funkcionálními charakteristikami znaků, jako jsou p(x,y), p[1](x), p[2](y), F(x), f(x,y), f[1](x), f[2](y), které nesou úplnou informaci o rozložení četností. Nyní zavedeme číselné charakteristiky, které nás informují o některých rysech tohoto rozložení četností: o poloze (úrovni) hodnot znaku, o jejich variabilitě (rozptýlení), o těsnosti závislosti dvou znaků a pod. Pro různé typy znaků se používají různé číselné charakteristiky, proto se nejdřív seznámíme s jednotlivými typy znaků. Typy znaků (třídění podle stupně kvantifikace) Nominální znak: připouští obsahovou interpretaci pouze u relace rovnosti =. O dvou variantách nominálního znaku lze pouze konstatovat, že jsou buď stejné nebo různé. Čísla, která přiřadíme jednotlivým variantám znaku, nereprezentují skutečnou hodnotu použitých čísel, ale jsou pouhým označením variant znaku. Příklady nominálních znaků: lékařská diagnóza, typ profese, barva očí, rodinný stav, národnost, … Ordinální znak: připouští obsahovou interpretaci nejen u relace rovnosti =, ale též u relace uspořádání <. Můžeme tedy konstatovat, že varianta x[[j]] je větší (dokonalejší, silnější, vhodnější) než varianta x[[k]]. Příklad ordinálního znaku: školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených žáků – jedničkář je lepší než dvojkař, ale intervaly mezi známkami nemají obsahovou interpretaci. Nelze tvrdit, že rozdíl ve znalostech mezi jedničkářem a dvojkařem je stejný jako mezi trojkařem a čtyřkařem. Další příklady: Různá bodování ve sportovních a uměleckých soutěžích, posuzování různých rysů sociálního chování, posuzování stavu pacientů, hodnocení postojů respondentů k různým otázkám, … Intervalový znak: kromě relací rovnosti = a uspořádání < umožňuje obsahovou interpretaci také u operace rozdílu -, tj. stejný interval mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje i stejný rozdíl v extenzitě zkoumané vlastnosti. Příklad intervalového znaku: teplota měřená ve stupních Celsia. Např. naměříme-li ve čtyřech po sobě jdoucích dnech polední teploty 0, 2, 4, 6 ºC, znamená to, že každým dnem stouply teploty o 2 ºC. Nelze však říci, že z druhého na třetí den vzrostla teplota dvojnásobně, kdežto ze třetího na čtvrtý den pouze jeden a půl krát. Další příklady: kalendářní systémy, směr větru, inteligenční kvocient, … Společný znak intervalových znaků: nula byla stanovena uměle, pouhou konvencí. Poměrový znak: kromě relací rovnosti = a uspořádání < umožňuje obsahovou interpretaci také u operací rozdílu - a podílu /, tj. stejný poměr mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje i stejný podíl v extenzitě zkoumané vlastnosti. Příklad poměrového znaku: délka předmětu měřená v cm. Má-li jeden předmět délku 8 cm a druhý 16 cm, má smysl prohlásit, že druhý předmět je dvakrát delší než první předmět. Další příklady: počet dětí v rodině, výška kapesného v Kč, hmotnost osoby, … Společný znak poměrových znaků: Poměrový znak má přirozený počátek, ke kterému jsou vztahovány všechny další hodnoty znaku. Mimo uvedenou klasifikaci stojí alternativní znaky, které nabývají jen dvou hodnot, např. 0,1, což znamená absenci a prezenci nějakého jevu. Například 0 bude znamenat neúspěch, l úspěch při řešení určité úlohy. Alternativní znaky mohou být ztotožněny s kterýmkoliv z předcházejících typů. Číselné charakteristiky nominálních znaků Charakteristika polohy: modus – nejčetnější varianta resp. střed nejčetnějšího třídicího intervalu. Charakteristika variability: mutabilita , nabývá hodnot z intervalu [0, 1]. Jsou–li všechny hodnoty znaku stejné, pak M = 0. Jsou-li všechny hodnoty znaku navzájem různé, pak M = 1. Příklad na stanovení modu a výpočet mutability: 20 náhodně vybraných osob mělo odpovědět na otázku, který z pěti výrobků (označíme je A, B, C, D, E) preferují. Výsledky máme v tabulce: Výrobek A B C D E Četnost odpovědí 3 5 3 6 3 Stanovte modus a vypočtěte mutabilitu. Řešení: Modus = D Mutabilita: Vidíme, že daný datový soubor vykazuje dosti vysokou míru proměnlivosti. Charakteristika těsnosti závislosti dvou nominálních znaků: Cramérův koeficient kontingence. Carl Harald Cramér (1893 – 1985): Švédský matematik Nechť znak X nabývá variant x[[1]], ..., x[[r]] a znak Y nabývá variant y[[1]], ..., y[[s]]. Máme dvourozměrný datový soubor . Zjistíme absolutní četnosti n[jk] dvojice variant (x[[j]],y[[k]]), j = 1, …, r, k = 1, …, s a uspořádáme je do kontingenční tabulky: y y[[1]] ... y[[s]] n[j.] x n[jk] x[[1]] n[11] ... n[1s] n[1.] ... ... ... ... x[[r]] n[r1] ... n[rs] n[r.] n[.k] n[.1] ... n[.s] n Vypočteme tzv. teoretické četnosti a s jejich pomocí pak statistiku . Cramérův koeficient: , kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je 1, tím je těsnější závislost mezi X a Y, čím blíže je 0, tím je tato závislost volnější. Význam hodnot Cramérova koeficientu: mezi 0 až 0,1 … zanedbatelná závislost, mezi 0,1 až 0,3 … slabá závislost, mezi 0,3 až 0,7 … střední závislost, mezi 0,7 až 1 … silná závislost. Příklad na výpočet Cramérova koeficientu: 686 náhodně vybraných osob bylo dotázáno, zda vlastní auto (znak X, varianty 1 – ano, 2 – ne) a zda jsou ochotny používat MHD (znak Y, varianty 1 – ano, 2 – ne). Výsledky průzkumu jsou uvedeny v kontingenční tabulce: X Y n[j.] ano ne ano[] 56 312 368 ne 283 35 318 n[.k] 339 347 686 Vypočtěte a interpretujte Cramérův koeficient. Řešení: Nejprve vypočteme teoretické četnosti: Nyní dosadíme do vzorce pro výpočet statistiky K: Nakonec vypočteme Cramérův koeficient: Hodnota Cramérova koeficientu svědčí o tom, že mezi znaky X a Y existuje silná závislost. Číselné charakteristiky ordinálních znaků Charakteristika polohy: α-kvantil. Je-li α , pak α-kvantil x[α] je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1 – α všech dat. Pro výpočet α-kvantilu slouží algoritmus: nα=[ ] Pro speciálně zvolená α užíváme názvů: x[0,50] – medián, x[0,25] – dolní kvartil, x[0,75] – horní kvartil, x[0,1], ..., x[0,9] – decily, x[0,01], ..., x[0,99] – percentily. Charakteristika variability: kvartilová odchylka: q = x[0,75] – x[0,25]. Příklad na výpočet kvantilů: U 50 žáků 7. ročníku jedné základní školy byly na pololetním vysvědčení zjištěny známky z matematiky: známka 1 2 3 4 5 četnost známky 9 15 20 4 2 Určete medián, 1. a 9. decil a kvartilovou odchylku. Řešení: Pro snadnější výpočet tabulku doplníme ještě o absolutní kumulativní četnosti: známka 1 2 3 4 5 n[j] 9 15 20 4 2 N[j] 9 24 44 48 50 Rozsah souboru n = 50 α nα c x[α] 0,50 50.0,5=25 25 0,10 50.0,1 = 5 5 0,90 50.0,9 = 45 45 0,25 50.0,25 = 12,5 13 x[(13)] = 2 0,75 50.0,75 = 37,5 38 x[(38)] = 3 Kvartilová odchylka: q = 3 – 2 = 1. Interpretace např. dolního kvartilu: V souboru 50 žáků je aspoň čtvrtina takových, kteří mají z matematiky jedničku nebo dvojku. Grafické znázornění ordinálních dat pomocí krabicového diagramu Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu (x[0,75 ]+ 1,5q, x[0,75 ]+ 3q) či v intervalu (x[0,25 ]- 3q, x[0,25 ]– 1,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x[0,75 ]+ 3q, ∞) či v intervalu (-∞, x[0,25 ]- 3q). Příklad na konstrukci krabicového diagramu Pro datový soubor známek z matematiky 50 žáků 7. ročníku ZŠ sestrojte krabicový diagram Řešení: Již jsme spočítali medián x[0,50] = 3, dolní kvartil x[0,25] = 2, horní kvartil x[0,75] = 3, kvartilová odchylka q = 3 – 2 = 1. Dále vypočítáme dolní vnitřní hradba: x[0,25 ]– 1,5q = 2 – 1,5.1 = 0,5, horní vnitřní hradba: x[0,75 ]+ 1,5q = 3 + 1,5.1 = 4,5, dolní vnější hradba: x[0,25 ]– 3q = 2 – 3.1 = -1, horní vnější hradba: x[0,75 ]+ 3q = 3 + 3.1 = 6. Nakonec sestrojíme krabicový diagram. Vidíme, že medián splyne s horním kvartilem, soubor známek tedy nemá symetrické rozložení četností. Vyskytuje se zde odlehlá hodnota 5, extrémní hodnoty nikoliv. Charakteristika těsnosti závislosti dvou ordinálních znaků: Spearmanův koeficient pořadové korelace Charles Edward Spearman (1863 – 1945): Britský psycholog a statistik Nejprve je nutné vysvětlit pojem pořadí čísla v posloupnosti čísel. Nechť x[1], …, x[n] je posloupnost reálných čísel. a) Jsou-li čísla navzájem různá, pak pořadím R[i] čísla x[i] rozumíme počet těch čísel x[1], …, x[n], která jsou menší nebo rovna číslu x[i]. b) Vyskytují-li se mezi danými čísly skupinky stejných čísel, pak každé takové skupince přiřadíme průměrné pořadí. Příklad na stanovení pořadí a) Jsou dána čísla 9, 4, 5, 7, 3, 1. b) Jsou dána čísla 6, 7, 7, 9, 6, 10, 8, 6, 6, 9. Stanovte pořadí těchto čísel. Řešení ad a) usp. čísla 1 3 4 5 7 9 pořadí 1 2 3 4 5 6 ad b) usp. čísla 6 6 6 6 7 7 8 9 9 10 pořadí 1 2 3 4 5 6 7 8 9 10 prům. pořadí 2,5 2,5 2,5 2,5 5,5 5,5 7 8,5 8,5 10 Předpokládejme, že máme dvourozměrný datový soubor . Označíme R[i] pořadí hodnoty x[i] a Q[i] pořadí hodnoty y[i], i = 1, ..., n. Spearmanův koeficient pořadové korelace: . Vlastnosti Spearmanova koeficientu pořadové korelace: Koeficient nabývá hodnot mezi –1 a 1. Čím je bližší 1, tím je silnější přímá pořadová závislost mezi znaky X a Y, čím je bližší –1, tím je silnější nepřímá pořadová závislost mezi znaky X a Y. Je-li r[S] = 1 resp. r[S] = -1, pak dvojice (x[i], y[i]) leží na nějaké vzestupné resp. klesající funkci. Hodnoty r[S] se nezmění, když provedeme vzestupnou transformaci původních dat. Hodnoty r[S] se vynásobí -1, když provedeme sestupnou transformaci původních dat. Koeficient je symetrický. Koeficient je rezistentní vůči odlehlým hodnotám. Význam absolutní hodnoty Spearmanova koeficientu: mezi 0 až 0,1 … zanedbatelná pořadová závislost, mezi 0,1 až 0,3 … slabá pořadová závislost, mezi 0,3 až 0,7 … střední pořadová závislost, mezi 0,7 až 1 … silná pořadová závislost. Ilustrace významu Spearmanova koeficientu pořadové korelace r[S] = 0,82 r[S] = 0,69 r[S] = 0,99 r[S] = 0,5 r[S] = 0 r[S] = -1 Příklad na výpočet Spearmanova koeficientu pořadové korelace: Je dán dvourozměrný datový soubor Vypočtěte Spearmanův koeficient pořadové korelace. Řešení: x[i] 2,5 3,4 1,3 5,8 3,6 y[i] 13,4 15,2 11,8 13,1 14,5 R[i] 2 3 1 5 4 Q[i] 3 5 1 2 4 (R[i]-Q[i])^2 1 4 0 9 0 Znamená to, že mezi znaky X a Y existuje slabá přímá pořadová závislost. Číselné charakteristiky intervalových znaků Charakteristika polohy: aritmetický průměr je součet hodnot dělený jejich počtem: . Pomocí průměru zavedeme i-tou centrovanou hodnotu x[i] – m (podle znaménka poznáme, zda i-tá hodnota je podprůměrná či nadprůměrná). Příklad na výpočet aritmetického průměru: Je dán datový soubor (2 8 9 10 1 0 5). Vypočtěte jeho průměr. Řešení: Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem Vlastnosti aritmetického průměru Aritmetický průměr si lze představit jako těžiště dat – součet podprůměrných hodnot je stejný jako součet nadprůměrných hodnot – oba součty jsou v rovnováze. Průměr centrovaných hodnot je nulový, protože = 0. Výraz (tzv. kvadratická odchylka) nabývá svého minima pro a = m. Uvedený výraz charakterizuje celkovou chybu, které se dopustíme, když datový soubor nahradíme jedinou hodnotou a. Tato chyba je tedy nejmenší, když datový soubor nahradíme aritmetickým průměrem, přičemž za míru chyby považujeme kvadratickou odchylku. Aritmetický průměr je silně ovlivněn extrémními hodnotami. Aritmetický průměr je vhodné použít, pokud je rozložení dat přibližně symetrické. Charakteristika variability: rozptyl je průměrná kvadratická odchylka hodnot od jejich aritmetického průměru . Kladná odmocnina z rozptylu se nazývá směrodatná odchylka s = . Pomocí směrodatné odchylky zavedeme i-tou standardizovanou hodnotu (vyjadřuje, o kolik směrodatných odchylek se i-tá hodnota odchýlila od průměru). Výpočetní tvar vzorce pro rozptyl: Příklad na výpočet rozptylu a směrodatné odchylky: Jsou dány dva datové soubory, a to (7 8 9) a (1 10 13). V obou případech vypočtěte rozptyl a směrodatnou odchylku. Řešení: Pro první datový soubor je průměr m[1] = 8, pro druhý datový soubor je průměr m[2] také 8. Výpočet pomocí definičního vzorce: Výpočet pomocí výpočetního vzorce: , Interpretace směrodatné odchylky pro první soubor: většina čísel se odchyluje od průměru 8 o méně než 1 v obou směrech, většina čísel leží tedy mezi 7 a 9. Interpretace směrodatné odchylky pro druhý soubor: většina čísel se odchyluje od průměru 8 o více než 5 v obou směrech, většina čísel leží tedy mezi 3 a 13. Znázornění rozložení četností dvou datových souborů, které se liší rozptylem: Vlastnosti rozptylu a směrodatné odchylky: Směrodatná odchylka je nulová pouze tehdy, když jsou všechny hodnoty stejné, jinak je kladná. Rozptyl centrovaných hodnot je roven původnímu rozptylu, neboť Rozptyl standardizovaných hodnot je 1, protože Směrodatná odchylka je stejně jako průměr silně ovlivněna extrémními hodnotami. Směrodatná odchylka se nehodí jako charakteristika variability, je-li rozložení dat zešikmené. Charakteristika nesymetrie dat: šikmost Je-li rozložení dat symetrické kolem aritmetického průměru, pak α[3] = 0. Má-li rozložení dat prodloužený pravý konec, jde o kladně zešikmené rozložení, α[3] > 0. Má-li rozložení dar prodloužený levý konec, jde o záporně zešikmené rozložení, α[3] < 0. Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem a šikmostí Charakteristika koncentrace dat kolem průměru: špičatost Je-li rozložení dat normální (Gaussovo), pak α[4] = 0. Je-li rozložení dat strmé, pak α[4] > 0. Je-li rozložení dat ploché, pak α[4] < 0. Znázornění rozložení četností dvou datových souborů, které se liší špičatostí Příklad na ilustraci významu špičatosti Tři skupiny studentů o počtech 149, 69 a 11 odpovídaly při testu na 10 otázek. Znak X je počet správně zodpovězených otázek. Známe absolutní četnosti znaku X ve všech třech skupinách. č. sk. X 0 1 2 3 4 5 6 7 8 9 10 1 2 5 15 20 25 15 25 20 15 5 2 2 4 3 2 1 0 49 0 1 2 3 4 3 1 0 0 0 0 9 0 0 0 0 1 Vypočtěte průměr, rozptyl, šikmost a špičatost počtu správně zodpovězených otázek ve všech třech skupinách. Nakreslete sloupkové diagramy absolutních četností. Řešení: 1. skupina 2. skupina 3. skupina Charakteristika společné variability dvou intervalových znaků: kovariance Předpokládejme, že máme dvourozměrný datový soubor . Označme m[1], m[2] průměry znaků X, Y a s[1], s[2] směrodatné odchylky znaků X, Y. Zavedeme kovarianci jako charakteristiku společné variability znaků X, Y kolem jejich průměrů . Kovariance je průměrem součinů centrovaných hodnot. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s nadprůměrnými (podprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot x[i] – m[1] a y[i] – m[2] vesměs kladné a jejich průměr (tj. kovariance) rovněž. Znamená to, že mezi znaky X, Y existuje určitý stupeň přímé lineární závislosti. Říkáme, že znaky X, Y jsou kladně korelované. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s podprůměrnými (nadprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot vesměs záporné a jejich průměr rovněž. Znamená to, že mezi znaky X a Y existuje určitý stupeň nepřímé lineární závislosti. Říkáme, že znaky X, Y jsou záporně korelované. Je-li kovariance nulová, pak řekneme, že znaky X, Y jsou nekorelované a znamená to, že mezi nimi neexistuje žádná lineární závislost. Znázornění významu kovariance s[12] = 5,5 s[12] = -5,5 s[12] = 0 Pro výpočet kovariance používáme vzorec: s[12] = . Charakteristika těsnosti závislosti dvou intervalových znaků: Pearsonův koeficient korelace Jsou-li směrodatné odchylky s[1], s[2] nenulové, pak definujeme Pearsonův koeficient korelace znaků X, Y vzorcem: . Je to průměr součinů standardizovaných hodnot. Počítá se podle vzorce . Vlastnosti Pearsonova koeficientu korelace: Koeficient nabývá hodnot mezi –1 a 1. Čím je bližší 1, tím je silnější přímá lineární závislost mezi znaky X a Y, čím je bližší –1, tím je silnější nepřímá lineární závislost mezi X a Y. Je-li r[S] = 1 resp. r[S] = -1, pak dvojice (x[i], y[i]) leží na nějaké vzestupné resp. klesající přímce. Hodnoty r[12] se nezmění, když provedeme vzestupnou lineární transformaci původních dat. Hodnoty r[12] se vynásobí -1, když provedeme sestupnou lineární transformaci původních dat. Koeficient je symetrický, tj. r[12] = r[21]. Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu znaků X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový. Příklad na výpočet Pearsonova koeficientu korelace Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Vypočtěte a interpretujte koeficient korelace. Pro usnadnění výpočtů máte k dispozici tyto součty: Řešení: Vypočteme aritmetické průměry a rozptyly: Dále vypočteme kovarianci: Dosadíme do vzorce pro výpočet koeficientu korelace: Lze tedy soudit, že mezi výsledky obou testů existuje středně silná přímá lineární závislost. Vážené číselné charakteristiky Pokud nemáme k dispozici původní datový soubor, ale jenom tabulku rozložení četností (resp. kontingenční tabulku), můžeme vypočítat tzv. vážené číselné charakteristiky. Vážený aritmetický průměr: Vážený rozptyl: Vážená kovariance: Při použití vážených číselných charakteristik u intervalového rozložení četnosti si musíme uvědomit, že výpočty jsou přesné jen tehdy, souhlasí-li průměry v jednotlivých třídicích intervalech se středy těchto intervalů, resp. vykompenzují-li se vzájemně chyby, které vzniknou v důsledku odchylek středů intervalů od průměru v těchto intervalech. Oba tyto případy jsou však vzácné a většinou se dopustíme určité chyby. Příklad na výpočet vážených číselných charakteristik Je dán datový soubor 12 1,1 6,3 3,9 11 5,8 2,5 8 4,1 2 9,5 6,6 1,7 3,4 4,9 3 10,3 2,2 5,4 15,5. Stanovíme třídicí intervaly Vypočtěte vážený průměr a vážený rozptyl. Řešení: Sestavíme tabulku rozložení četností: x[[j]] d[j] n[j] 1,5 1 3 3 2 5 5,5 3 6 9 4 4 13,5 5 2 Vážený průměr: Vážený rozptyl: Pro srovnání: průměr vypočítaný z původního datového souboru je 5,96, rozptyl 14,85 a směrodatná odchylka 3,85. Číselné charakteristiky poměrových znaků Charakteristika polohy: aritmetický průměr. Jsou-li všechny hodnoty znaku kladné, lze definovat geometrický průměr . Příklad na výpočet geometrického průměru: Rolník měl obdélníkový pozemek o stranách 80 m a 20 m. Rozoráním mezí získal pozemek čtvercový o stejné ploše. Jaká je strana čtverce? Řešení: Strana čtverce bude geometrickým průměrem stran obdélníka, tedy m. Charakteristiky variability: stejně jako u intervalových znaků používáme rozptyl a směrodatnou odchylku. Navíc definujeme koeficient variace . Často se vyjadřuje v procentech. Používá se zvláště tehdy, chceme-li porovnat variabilitu několika datových souborů. Příklad na výpočet koeficientu variace: Mezi místy A a B jezdí tramvaj a autobus. V době ranní špičky byla 6x použita tramvaj a 5x autobus. Naměřené časy cestování (v minutách) jsou pro tramvaj 32, 39, 42, 37, 34, 38 a pro autobus 30, 34, 28, 26, 32. Posuďte variabilitu časů cestování tramvají a autobusem pomocí koeficientů variace. Řešení: Vypočteme průměrné časy cestování: m[1] = 37, m[2] = 30. Dále vypočteme rozptyly a směrodatné odchylky: s[1]^2 = 10,67, s[2]^2 = 8,33, s[1] = 3,27, s[2] = 2,89. Po dosazení do vzorce pro koeficient variace dostaneme: , Vidíme, že poněkud vyšší variabilitu mají časy cestování autobusem. Charakteristika společné variability dvou poměrových znaků: kovariance. Charakteristika těsnosti lineární závislosti dvou poměrových znaků: Pearsonův koeficient korelace.