Jednorozměrné bodové rozložení četností Jestliže počet variant znaku X v jednorozměrném datovém souboru není příliš velký, pak přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností. Nechť je dán jednorozměrný datový soubor , v němž znak X nabývá r variant. Pro j = 1, ..., r definujeme: n[j] = N(X = x[[j]]) – absolutní četnost varianty x[[j]] ve výběrovém souboru p[j] = − relativní četnost varianty x[[j]] ve výběrovém souboru N[j] = N(X ≤ x[[j]]) = n[1] + ... + n[j] – absolutní kumulativní četnost prvních j variant ve výběrovém souboru F[j] = = p[1] + ... + p[j] – relativní kumulativní četnost prvních j variant ve výběrovém souboru Tabulka typu x[[j]] n[j] p[j] N[j] F[j] x[[1]] n[1] p[1] N[1] F[1] x[[r]] n[r] p[r] N[r] F[r] se nazývá variační řada (nebo též tabulka rozložení četností). Příklad: Máme jednorozměrný datový soubor, který obsahuje údaje o známkách z matematiky (znak X) u 20 studentů. Sestavte tabulku rozložení četností. Řešení: x[[j]] n[j] p[j] N[j] F[j] 1 7 0,35 7 0,35 2 3 0,15 10 0,50 3 2 0,10 12 0,60 4 8 0,40 20 1,00 - 20 1,00 - - Pomocí relativních četností zavedeme četnostní funkci. Funkce p(x) = se nazývá četnostní funkce. V našem případě má četnostní funkce tento graf: Četnostní funkce je nezáporná ( x R: p(x) 0) a normovaná ( = 1). Pomocí kumulativních relativních četností zavedeme empirickou distribuční funkci. Funkce F(x) = se nazývá empirická distribuční funkce. Empirická distribuční funkce je neklesající ( x[1], x[2 ] R, x[1] < x[2]: F(x[1]) F(x[2])), zprava spojitá ( x[0] R libovolné, ale pevně dané: F(x) = F(x[0])) a normovaná ( F(x) = 0, F(x) = 1). Platí . Vztah mezi četnostní funkcí a empirickou distribuční funkcí zachycuje obrázek: Existuje několik způsobů, jak graficky znázornit jednorozměrné bodové rozložení četností. Tečkový diagram: na číselné ose vyznačíme jednotlivé varianty znaku X a nad každou variantu nakreslíme tolik teček, jaká je její absolutní četnost. Polygon četnosti: je lomená čára spojující body, jejichž x-ová souřadnice je varianta znaku X a y-ová souřadnice je absolutní či relativní četnost této varianty. Sloupkový diagram: je soustava na sebe nenavazujících obdélníků, kde střed základny je varianta znaku X a výška je absolutní či relativní četnost této varianty. Výsečový graf: je kruh rozdělený na výseče, jejichž vnější obvod odpovídá absolutním četnostem variant znaku X. Dvourozměrné bodové rozložení četností Nechť je dán dvourozměrný datový soubor , kde znak X má r variant a znak Y má s variant. Pak definujeme: n[jk] = N(X = x[[j]] Y = y[[k]]) – simultánní absolutní četnost dvojice (x[[j]], y[[k]]) ve výběrovém souboru p[jk] = – simultánní relativní četnost dvojice (x[[j]], y[[k]]) ve výběrovém souboru n[j.] = N(X = x[[j]]) = n[j1] + ... + n[js] – marginální absolutní četnost varianty x[[j]] p[j.] = = p[j1] + ... + p[js]^ – marginální relativní četnost varianty x[[j]] n[.k] = N(Y = y[[k]]) = n[1k] + ... + n[rk] – marginální absolutní četnost varianty y[[k]] p[.k] = = p[1k] + ... + p[rk]^ – marginální relativní četnost varianty y[[k]] Simultánní četností zapisujeme do kontingenční tabulky. Kontingenční tabulka simultánních absolutních četností má tvar: y y[[1]] ... y[[s]] n[j.] x n[jk] x[[1]] n[11] ... n[1s] n[1.] ... ... ... ... x[[r]] n[r1] ... n[rs] n[r.] n[.k] n[.1] ... n[.s] n Příklad: Máme datový soubor, který obsahuje údaje o známkách z matematiky (znak X), z angličtiny (znak Y) a pohlaví studenta (znak Z, 0 – žena, 1 – muž) u 20 studentů: Vytvořte kontingenční tabulku simultánních absolutních a relativních četností pro známky z matematiky a angličtiny. Řešení: Kontingenční tabulka simultánních absolutních četností Kontingenční tabulka simultánních relativních četností Pomocí simultánních relativních četností zavedeme simultánní četnostní funkci: Funkce p(x, y) = se nazývá simultánní četnostní funkce. Pomocí marginálních relativních četností zavedeme marginální četnostní funkce pro znaky X a Y. Odlišíme je indexem takto: p[1](x) = , p[2](y) = . Mezi simultánní četnostní funkcí a marginálními četnostními funkcemi platí vztahy: p[1](x) = , p[2](y) = . Graf simultánní četnostní funkce pro známky z matematiky a angličtiny: Pomocí simultánních a marginálních relativních četností zavedeme pojem četnostní nezávislosti znaků v daném výběrovém souboru: Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé, právě když pro všechna j = 1, ..., r a všechna k = 1, ..., s platí multiplikativní vztah: p[jk] = p[j.] p[.k] neboli pro (x, y) R^2: p(x, y) = p[1](x) p[2](y). V našem příkladě nejsou známky z matematiky a angličtiny četnostně nezávislé, protože už pro j = 1, k = 1 je multiplikativní vztah porušen: p[11] = 0,20, p[1.] = 0,35, p[.1] = 0,20, tudíž 0,20 ≠ 0,35.0,20 Nyní zavedeme řádkově a sloupcově podmíněné relativní četnosti. p[j(k)] = - sloupcově podmíněná relativní četnost varianty x[[j]] za předpokladu y[[k]] p[(j)k] = - řádkově podmíněná relativní četnost varianty y[[k]] za předpokladu x[[j]]. V našem příkladě vypočítáme nejprve sloupcově podmíněné relativní četnosti. Vyjdeme z kontingenční tabulky simultánních absolutních četností. Interpretujeme např. třetí sloupec: z těch studentů, kteří měli trojku z angličtiny, mělo 2/7 = 29% jedničku z matematiky, 1/7 = 14% dvojku z matematiky, 1/7 = 14% trojku z matematiky a 3/7 = 43% čtyřku z matematiky. Nyní vypočítáme řádkově podmíněné relativní četnosti. Opět použijeme kontingenční tabulku simultánních absolutních četností. Interpretujeme např. první řádek: z těch studentů, kteří měli jedničku z matematiky, mělo 4/7 = 57% jedničku z angličtiny, 1/7 = 14% dvojku z angličtiny a 2/7 = 29% trojku z angličtiny. Dvourozměrné rozložení četností lze znázornit pomocí dvourozměrného tečkového diagramu. Na vodorovnou osu vyneseme varianty znaku X, na svislou varianty znaku Y a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dané dvojice. V našem příkladě se studenty dostaneme tento diagram: Dvourozměrný tečkový diagram svědčí o nepříliš výrazné tendenci k podobné klasifikaci v obou předmětech. Intervalové rozložení četností Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X je blízký rozsahu souboru, pak přiřazujeme nikoliv jednotlivým variantám, ale celým intervalům hodnot. Hovoříme pak o intervalovém rozložení četnosti. Číselnou osu rozložíme na intervaly typu , , ..., , tak, aby okrajové intervaly neobsahovaly žádnou pozorovanou hodnotu znaku X. Užíváme označení: – j-tý třídicí interval znaku X, j = 1, ..., r. d[j] = u[j+1] – u[j] – délka j-tého třídicího intervalu znaku X x[[j]] = – střed j-tého třídicího intervalu znaku X Třídicí intervaly volíme nejčastěji stejně dlouhé. Jejich počet určíme např. pomocí Sturgesova pravidla: r = 1 + 3,3 log[10]n, kde n je rozsah souboru. Hodnoty znaku X roztřídíme do r třídicích intervalů. Pro j = 1, ..., r definujeme: n[j] = N(u[j] < X ≤ u[j+1]) – absolutní četnost j-tého třídicího intervalu ve výběrovém souboru p[j] = – relativní četnost j-tého třídicího intervalu ve výběrovém souboru f[j] = – četnostní hustota j-tého třídicího intervalu ve výběrovém souboru N[j] = N(X ≤ u[j+1]) = n[1] + ... + n[j] – absolutní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru F[j] = = p[1] + ... + p[j] – relativní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru. Tabulka typu se nazývá tabulka rozložení četností. Příklad: Do laboratoře bylo dodáno 60 vzorků a byly zjištěny a hodnoty znaku X – mez plasticity (v kp/cm^2) a Y – mez pevnosti (v kp/cm^2). Datový soubor má tvar: a) Pro znak X stanovte optimální počet třídicích intervalů dle Sturgesova pravidla. b) Sestavte tabulku rozložení četností. Řešení: ad a) Rozsah souboru je 60. Podle Sturgesova pravidla je optimální počet třídicích intervalů r = 7. Budeme tedy volit 7 intervalů stejné délky tak, aby v nich byly obsaženy všechny pozorované hodnoty znaku X, z nichž nejmenší je 33, největší 160; volba u[1] = 30, ..., u[8] = 170 splňuje požadavky. ad b) Intervalové rozložení četností graficky znázorňujeme pomocí histogramu. Je to graf skládající se z r obdélníků, sestrojených nad třídicími intervaly, přičemž obsah j-tého obdélníku je roven relativní četnosti p[j] j-tého třídicího intervalu, j = 1, ..., r. V našem příkladě bude mít histogram pro mez plasticity oceli tvar: Histogram je shora omezen schodovitou čarou, která je grafem funkce zvané hustota četnosti: f(x) = Pomocí hustoty četnosti zavedeme intervalovou empirickou distribuční funkci: F(x) = . Vztah mezi hustotou četnosti a intervalovou empirickou distribuční funkcí je znázorněn na obrázku: Hustota četnosti je nezáporná ( ) a normovaná ( ). Intervalová empirická distribuční funkce je neklesající, spojitá a normovaná ( F(x) = 0, F(x) = 1). Dvourozměrné intervalové rozložení četností Dále se budeme věnovat dvourozměrnému intervalovému rozložení četností, tj. budeme pracovat s dvourozměrným datovým souborem. Zavedeme podobné pojmy jako u dvourozměrného bodového rozložení četností Nechť je dán dvourozměrný datový soubor , kde hodnoty znaku X roztřídíme do r třídicích intervalů , j = 1, ..., r s délkami d[1], ..., d[r] a hodnoty znaku Y roztřídíme do s třídicích intervalů , k = 1, ..., s s délkami h[1], ..., h[s]. Pak definujeme: n[jk] = N(u[j] < X ≤ u[j+1] v[k] < Y ≤ v[k+1]) – simultánní absolutní četnost (j, k)-tého třídicího intervalu. p[jk] = – simultánní relativní četnost(j, k)-tého třídicího intervalu. n[j.] = n[j1] + ... + n[js] – marginální absolutní četnost j-tého třídicího intervalu pro znak X. p[j.] = – marginální relativní četnost j-tého třídicího intervalu pro znak X. n[.k] = n[1k] + ... + n[rk] – marginální absolutní četnost k-tého třídicího intervalu pro znak Y. p[.k] = – marginální relativní četnost k-tého třídicího intervalu pro znak Y. f[jk] = – simultánní četnostní hustota v (j, k)-tém třídicím intervalu. f[j.] = – marginální četnostní hustota v j-tém třídicím intervalu pro znak X. f[.k] = – marginální četnostní hustota v k-tém třídicím intervalu pro znak Y. Kteroukoliv ze simultánních četností zapisujeme do kontingenční tabulky. Uveďme kontingenční tabulku simultánních absolutních četností: Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti (znak Y) oceli a) stanovte dle Sturgesova pravidla optimální počet třídicích intervalů pro znak Y b) sestavte kontingenční tabulku simultánních absolutních četností. Řešení: ad a) Rozsah datového souboru je 60. Podle Sturgesova pravidla je tedy optimální počet třídicích intervalů s = 7. Nejmenší hodnota je 52 a největší 189. Volíme v[1] = 50, v[2] = 70, ..., v[8] = 190. ad b) Dvourozměrné intervalové rozložení četností graficky znázorňujeme pomocí stereogramu. Je to graf skládající se z r x s kvádrů, sestrojených nad dvourozměrnými třídicími intervaly, přičemž objem (j, k)-tého kvádru je roven relativní četnosti p[jk] (j, k)-tého třídicího intervalu, j = 1, ..., r, k = 1, …, s. Výška kvádru tedy vyjadřuje simultánní četnostní hustotu. V našem příkladě s mezí plasticity a mezí pevnosti oceli bude mít stereogram tvar: Pomocí simultánních četnostních hustot zavedeme simultánní hustotu četnosti: Funkce f(x, y) = se nazývá simultánní hustota četnosti. Jejím grafem je schodovitá plocha shora omezující stereogram. Hustoty četnosti pro znaky X a Y odlišíme indexem takto: f[1](x) = , f[2](y) = . Mezi simultánní hustotou četnosti a marginálními hustotami četnosti platí vztahy: f[1](x) = , f[2](y) = . Pomocí simultánních a marginálních četnostních zavedeme pojem četnostní nezávislosti znaků v daném výběrovém souboru při intervalovém rozložení četností: Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé při intervalovém rozložení četností, jestliže pro všechna j = 1, ..., r a všechna k = 1, ..., s platí multiplikativní vztah: f[jk] = f[j.] f[.k] neboli pro : f(x, y) = f[1](x) f[2](y). V našem příkladě nejsou mez pevnosti a mez plasticity četnostně nezávislé, protože už pro j = 1, k = 1 je multiplikativní vztah porušen: , , , tudíž 0,000208 ≠ 0,006667.0,004167 = 0,000028