Link: OLE-Object-Data 2. Bodové a intervalové rozložení četností (Jak získat informace z datového souboru?) Po prostudování této kapitoly budete umět: ˙ konstruovat diagramy znázorňující rozložení četností ˙ vytvářet tabulky četností ˙ sestrojit grafy četnostní funkce, empirické distribuční funkce, hustoty četnosti a empirické intervalové distribuční funkce Nejprve se seznámíme s bodovým rozložením četností a ukážeme si, jak pomocí různých diagramů graficky znázornit bodové rozložení četností. Pro datový soubor známek z matematiky a angličtiny pak vytvoříme několik typů diagramů. 2.1. Definice Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X není příliš velký, pak přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností. 2.2. Definice Existuje několik způsobů, jak graficky znázornit bodové rozložení četností. Tečkový diagram: na číselné ose vyznačíme jednotlivé varianty znaku X a nad každou variantu nakreslíme tolik teček, jaká je její absolutní četnost. Polygon četnosti: je lomená čára spojující body, jejichž x-ová souřadnice je varianta znaku X a y-ová souřadnice je absolutní četnost této varianty. Sloupkový diagram: je soustava na sebe nenavazujících obdélníků, kde střed základny je varianta znaku X a výška je absolutní četnost této varianty. Výsečový graf: je kruh rozdělený na výseče, jejichž vnější obvod odpovídá absolutním četnostem variant znaku X. Dvourozměrný tečkový diagram: na vodorovnou osu vyneseme varianty znaku X, na svislou varianty znaku Y a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dané dvojice. 2.3. Příklad Pro datový soubor z příkladu 1.5 sestrojte a) jednorozměrné tečkové diagramy pro znak X a znak Y b) polygony četností pro znak X a znak Y c) sloupkové diagramy pro znak X a znak Y d) výsečové diagramy pro znak X a znak Y Řešení: ad a) Známka z M Známka z A ad b) ad c) ad d) Ze všech těchto diagramů je vidět odlišný přístup zkoušejících ke studentům. Matematik nešetří jedničkami, ale místo trojky raději rovnou dává čtyřku. Naproti tomu angličtinář považuje trojku za typickou studentskou známu. 2.4. Definice Nechť je dán jednorozměrný datový soubor, v němž znak X nabývá r variant. Pro j = 1, ..., r definujeme: n[j] = N(X = x[[j]]) -- absolutní četnost varianty x[[j]] ve výběrovém souboru p[j] = - relativní četnost varianty x[[j]] ve výběrovém souboru N[j] = N(X =< x[[j]]) = n[1] + ... + n[j] -- absolutní kumulativní četnost prvních j variant ve výběrovém souboru F[j] = = p[1] + ... + p[j] -- relativní kumulativní četnost prvních j variant ve výběrovém souboru Tabulka typu +-----------------------------------------------------------------------+ |]x[[j] |]n[j |]p[j |]N[j |]F[j | |--------------+--------------+-------------+-------------+-------------| |]x[[1] |]n[1 |]p[1 |]N[1 |]F[1 | |--------------+--------------+-------------+-------------+-------------| |--------------+--------------+-------------+-------------+-------------| |]x[[r] |]n[r |]p[r |]N[r |]F[r | +-----------------------------------------------------------------------+ ] se nazývá variační řada. Funkce p(x) = se nazývá četnostní funkce. Funkce F(x) = se nazývá empirická distribuční funkce. 2.5. Příklad Pro datový soubor z příkladu 1.5 sestavte variační řadu pro znak X. Nakreslete grafy četnostní funkce a empirické distribuční funkce. Řešení: +-------------------------------------------------------------------------------+ | x[[j] | n[j | p[j | N[j | F[j | |---------------+--------------+----------------+--------------+----------------| | ]1 | ]7 | ]0,35 | ]7 | ]0,35 | |---------------+--------------+----------------+--------------+----------------| | 2 | 3 | 0,15 | 10 | 0,50 | |---------------+--------------+----------------+--------------+----------------| | 3 | 2 | 0,10 | 12 | 0,60 | |---------------+--------------+----------------+--------------+----------------| | 4 | 8 | 0,40 | 20 | 1,00 | |---------------+--------------+----------------+--------------+----------------| | - | 20 | 1,00 | - | - | +-------------------------------------------------------------------------------+ V některých datových souborech je počet variant znaku příliš veliký a použití bodového rozložení četností by vedlo k nepřehledným a roztříštěným výsledkům. V takových situacích používáme intervalové rozložení četností. Definujeme třídicí interval a jeho absolutní a relativní četnost, absolutní a relativní kumulativní četnost. Nově zavádíme četnostní hustotu třídicího intervalu. Uvedené četnosti zapisujeme do tabulky rozložení četností. Počet třídicích intervalů stanovujeme např. podle Sturgesova pravidla. Intervalové rozložení četností použijeme v příkladu s datovým souborem obsahujícím údaje o mezích plasticity a pevnosti 60 vzorků oceli. 2.6. Definice Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X je blízký rozsahu souboru, pak přiřazujeme nikoliv jednotlivým variantám, ale celým intervalům hodnot. Hovoříme pak o intervalovém rozložení četnosti. 2.7. Definice Číselnou osu rozložíme na intervaly typu , , ..., , tak, aby okrajové intervaly neobsahovaly žádnou pozorovanou hodnotu znaku X. Užíváme označení: -- j-tý třídicí interval znaku X, j = 1, ..., r. d[j] = u[j+1] -- u[j] -- délka j-tého třídicího intervalu znaku X x[[j]] = -- střed j-tého třídicího intervalu znaku X Třídicí intervaly volíme nejčastěji stejně dlouhé. Jejich počet určíme např. pomocí Sturgesova pravidla: r = 1 + 3,3 × log[10]b, kde b je počet variant znaku X. 2.8. Definice Nechť je dán jednorozměrný datový soubor rozsahu n. Hodnoty znaku X roztřídíme do r třídicích intervalů. Pro j = 1, ..., r definujeme: n[j] = N(u[j] < X =< u[j+1]) -- absolutní četnost j-tého třídicího intervalu ve výběrovém souboru p[j] = -- relativní četnost j-tého třídicího intervalu ve výběrovém souboru f[j] = -- četnostní hustota j-tého třídicího intervalu ve výběrovém souboru N[j] = N(X =< u[j+1]) = n[1] + ... + n[j] -- absolutní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru F[j] = = p[1] + ... + p[j] -- relativní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru. Tabulka typu se nazývá tabulka rozložení četností. 2.9. Příklad Z fiktivního základního souboru všech vzorků oceli odpovídajících "všem myslitelným tavbám" bylo do laboratoře dodáno 60 vzorků a zjištěny a hodnoty znaku X -- mez plasticity a Y -- mez pevnosti. Datový soubor má tvar: a) Pro znak X stanovte optimální počet třídicích intervalů dle Sturgesova pravidla. b) Sestavte tabulku rozložení četností. Řešení: ad a) Znak X má 50 variant, tedy podle Sturgesova pravidla je optimální počet třídicích intervalů r = 7. Budeme tedy volit 7 intervalů stejné délky tak, aby v nich byly obsaženy všechny pozorované hodnoty znaku X, z nichž nejmenší je 33, největší 160; volba u[1] = 30, ..., u[8] = 170 splňuje požadavky. ad b) Ke grafickému znázornění intervalového rozložení četností slouží histogram. S jeho pomocí lze dobře vysvětlit, co znamená hustota četnosti, což je funkce zavedená pomocí četnostních hustot jednotlivých třídicích intervalů. S hustotou četnosti úzce souvisí intervalová empirická distribuční funkce (je všude spojitá, protože je funkcí horní meze integrálu z hustoty četnosti). Pro údaje o mezi plasticity oceli vytvoříme histogram a graf intervalové empirické distribuční funkce. Seznámíme se rovněž s vlastnostmi obou výše zmíněných funkcí. 2.14. Definice Intervalové rozložení četností graficky znázorňujeme pomocí histogramu. Je to graf skládající se z r obdélníků, sestrojených nad třídicími intervaly, přičemž obsah j-tého obdélníku je roven relativní četnosti p[j] j-tého třídicího intervalu, j = 1, ..., r. Histogram je shora omezen schodovitou čarou, která je grafem funkce zvané hustota četnosti: f(x) = Pomocí hustoty četnosti zavedeme intervalovou empirickou distribuční funkci: F(x) = . 2.15. Příklad Pro datový soubor z příkladu 2.12 nakreslete histogram pro znak X a pod histogram nakreslete graf intervalové empirické distribuční funkce. Řešení: Shrnutí Není-li v jednorozměrném datovém souboru počet variant znaku příliš velký, pak přiřazujeme četnosti jednotlivým variantám znaku a hovoříme o bodovém rozložení četností. To lze znázornit graficky pomocí různých diagramů (např. tečkový diagram, sloupkový diagram atd.). Pokud zapíšeme četnosti do tabulky, dostaneme variační řadu. Pomocí relativních četností zavedeme četnostní funkci, pomocí kumulativních relativních četností empirickou distribuční funkci, která má schodovitý průběh. Pracujeme-li s dvourozměrným datovým souborem, zavádíme simultánní četnosti a zapisujeme je do kontingenční tabulky. Na okrajích kontingenční tabulky jsou uvedeny marginální četnosti, které se vztahují jen k jednomu znaku. Pomocí simultánních kumulativních relativních četností zavádíme simultánní četnostní funkci. Simultánní a marginální četnosti či četnostní funkce nám snadno umožní ověřit četnostní nezávislost dvou znaků v daném výběrovém souboru. Je-li se počet variant znaku srovnatelný s rozsahem souboru, použijeme raději intervalové rozložení četností, při němž přiřazujeme četnosti nikoli jednotlivým variantám, ale třídicím intervalům. Jejich počet určíme např. pomocí Sturgesova pravidla. Četnosti třídicích intervalů zapisujeme do tabulky rozložení četností. Relativní četnosti třídicích intervalů znázorňujeme pomocí histogramu. Schodovitá čára shora omezující histogram je grafem hustoty četnosti. Spojitým protějškem schodovité empirické distribuční funkce je intervalová empirická distribuční funkce zavedená jako funkce horní meze integrálu z hustoty četnosti. Kontrolní otázky a úkoly 1. Jaké grafy znázorňující rozložení četností znáte? Popište způsob jejich konstrukce. 2. Jak vzniká variační řada? 3. Jaké četnosti zapisujeme do kontingenční tabulky? 4. Kdy jsou v daném výběrovém souboru znaky četnostně nezávislé? 5. K čemu slouží Sturgesovo pravidlo? 6. (S) U 50 náhodně vybraných posluchačů a posluchaček VŠE v Praze byla zjišťována jejich hmotnost v kg (znak X) a jejich výška v cm (znak Y). a) Pro znak X stanovte optimální počet třídicích intervalů podle Sturgesova pravidla, sestavte tabulku rozložení četnosti, nakreslete histogram a graf intervalové empirické distribuční funkce. b) Pro znak Y rovněž stanovte optimální počet třídicích intervalů podle Sturgesova pravidla. Pro vektorový znak (X, Y) sestavte kontingenční tabulku absolutních četností a nakreslete dvourozměrný tečkový diagram.