Link: OLE-Object-Data

                            2.   Bodové a intervalové rozložení četností

   (Jak získat informace z datového souboru?)

   
   Po prostudování této kapitoly budete umět:

   
   ˙        konstruovat diagramy znázorňující rozložení četností

   ˙        vytvářet tabulky četností

   ˙        sestrojit grafy četnostní funkce, empirické distribuční funkce, hustoty četnosti a
   empirické intervalové distribuční funkce

   
   Nejprve se seznámíme s bodovým rozložením četností a ukážeme si, jak pomocí různých diagramů
   graficky znázornit bodové rozložení četností. Pro datový soubor známek z matematiky a
   angličtiny pak vytvoříme několik typů diagramů.

  2.1.           Definice

                                                   Nechť je dán jednorozměrný datový soubor.
   Jestliže počet variant znaku X není příliš velký, pak přiřazujeme četnosti jednotlivým
   variantám a hovoříme o bodovém rozložení četností.

   
  2.2.           Definice

                                                   Existuje několik způsobů, jak graficky
   znázornit bodové rozložení četností.
   Tečkový diagram: na číselné ose vyznačíme jednotlivé varianty znaku X a nad každou variantu
   nakreslíme tolik teček, jaká je její absolutní četnost.
   Polygon četnosti: je lomená čára spojující body, jejichž x-ová souřadnice je varianta znaku X
   a y-ová souřadnice je absolutní četnost této varianty.
   Sloupkový diagram: je soustava na sebe nenavazujících obdélníků, kde střed základny je
   varianta znaku X a výška je absolutní četnost této varianty.
   Výsečový graf: je kruh rozdělený na výseče, jejichž vnější obvod odpovídá absolutním četnostem
   variant znaku X.
   Dvourozměrný tečkový diagram: na vodorovnou osu vyneseme varianty znaku X, na svislou varianty
   znaku Y a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dané
   dvojice.

   
  2.3.           Příklad

                           Pro datový soubor z příkladu 1.5 sestrojte

   a)      jednorozměrné tečkové diagramy pro znak X a znak Y

   b)      polygony četností pro znak X a znak Y

   c)      sloupkové diagramy pro znak X a znak Y

   d)      výsečové diagramy pro znak X a znak Y

   Řešení:

   ad a)

   Známka z M                      Známka z A

   
   ad b)

   
   ad c)

   
   ad d)

   
   Ze všech těchto diagramů je vidět odlišný přístup zkoušejících ke studentům. Matematik nešetří
   jedničkami, ale místo trojky raději rovnou dává čtyřku. Naproti tomu angličtinář považuje
   trojku za typickou studentskou známu.

   
  2.4.           Definice

                           Nechť je dán jednorozměrný datový soubor, v němž znak X nabývá r
   variant. Pro j = 1, ..., r definujeme:

                           n[j] = N(X = x[[j]]) -- absolutní četnost varianty x[[j]] ve výběrovém
   souboru

                           p[j] =   - relativní četnost varianty x[[j]] ve výběrovém souboru

                           N[j] = N(X =< x[[j]]) = n[1] + ... + n[j] -- absolutní kumulativní
   četnost prvních j variant ve výběrovém souboru

                           F[j] =  = p[1] + ... + p[j] -- relativní kumulativní četnost prvních j
   variant ve výběrovém souboru

                           Tabulka typu

   
   +-----------------------------------------------------------------------+
   |]x[[j]        |]n[j          |]p[j         |]N[j         |]F[j         |
   |--------------+--------------+-------------+-------------+-------------|
   |]x[[1]        |]n[1          |]p[1         |]N[1         |]F[1         |
   |--------------+--------------+-------------+-------------+-------------|
   |--------------+--------------+-------------+-------------+-------------|
   |]x[[r]        |]n[r          |]p[r         |]N[r         |]F[r         |
   +-----------------------------------------------------------------------+

   ]

   
                           se nazývá variační řada.

                           Funkce p(x) =  se nazývá četnostní funkce.

                           Funkce F(x) =  se nazývá empirická distribuční funkce.

   
  2.5.           Příklad

                                                               Pro datový soubor z příkladu 1.5
   sestavte variační řadu pro znak X. Nakreslete grafy četnostní funkce a empirické distribuční
   funkce.

   
                    Řešení:

   
   +-------------------------------------------------------------------------------+
   |     x[[j]     |     n[j      |      p[j       |     N[j      |      F[j       |
   |---------------+--------------+----------------+--------------+----------------|
   |      ]1       |      ]7      |     ]0,35      |      ]7      |     ]0,35      |
   |---------------+--------------+----------------+--------------+----------------|
   |       2       |      3       |      0,15      |      10      |      0,50      |
   |---------------+--------------+----------------+--------------+----------------|
   |       3       |      2       |      0,10      |      12      |      0,60      |
   |---------------+--------------+----------------+--------------+----------------|
   |       4       |      8       |      0,40      |      20      |      1,00      |
   |---------------+--------------+----------------+--------------+----------------|
   |       -       |      20      |      1,00      |      -       |       -        |
   +-------------------------------------------------------------------------------+

                    
   V některých datových souborech je počet variant znaku příliš veliký a použití bodového
   rozložení četností by vedlo k nepřehledným a roztříštěným výsledkům. V takových situacích
   používáme intervalové rozložení četností. Definujeme třídicí interval a jeho absolutní a
   relativní četnost, absolutní a relativní kumulativní četnost. Nově zavádíme četnostní hustotu
   třídicího intervalu. Uvedené četnosti zapisujeme do tabulky rozložení četností. Počet
   třídicích intervalů stanovujeme např. podle Sturgesova pravidla. Intervalové rozložení
   četností použijeme v příkladu s datovým souborem obsahujícím údaje o mezích plasticity a
   pevnosti 60 vzorků oceli.

  2.6.           Definice

                                                               Nechť je dán jednorozměrný datový
   soubor. Jestliže počet variant znaku X je blízký rozsahu souboru, pak přiřazujeme nikoliv
   jednotlivým variantám, ale celým intervalům hodnot. Hovoříme pak o intervalovém rozložení
   četnosti.

   
  2.7.           Definice

                                                               Číselnou osu rozložíme na
   intervaly typu , , ..., ,  tak, aby okrajové intervaly neobsahovaly žádnou pozorovanou hodnotu
   znaku X. Užíváme označení:

                                                                -- j-tý třídicí interval znaku X,
   j = 1, ..., r.

                                                               d[j] = u[j+1] -- u[j] -- délka
   j-tého třídicího intervalu znaku X

                                                               x[[j]] =  -- střed j-tého třídicího
   intervalu znaku X

                                                               Třídicí intervaly volíme
   nejčastěji stejně dlouhé. Jejich počet určíme např. pomocí Sturgesova pravidla: r = 1 + 3,3 ×
   log[10]b, kde b je počet variant znaku X.

   
  2.8.           Definice

                                                               Nechť je dán jednorozměrný datový
   soubor rozsahu n. Hodnoty znaku X roztřídíme do r třídicích intervalů. Pro j = 1, ..., r
   definujeme:

                                                               n[j] = N(u[j] < X =< u[j+1]) --
   absolutní četnost j-tého třídicího intervalu ve výběrovém souboru

                                                               p[j] =  -- relativní četnost j-tého
   třídicího intervalu ve výběrovém souboru

                                                               f[j] =  -- četnostní hustota j-tého
   třídicího intervalu ve výběrovém souboru

                                                               N[j] = N(X =< u[j+1]) = n[1] + ...
   + n[j] -- absolutní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru

                                                               F[j] =  = p[1] + ... + p[j] --
   relativní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru.

                                                              
   Tabulka typu

                                                               se nazývá tabulka rozložení
   četností.

   
  2.9.           Příklad

                                                               Z fiktivního základního souboru
   všech vzorků oceli odpovídajících "všem myslitelným tavbám" bylo do laboratoře dodáno 60
   vzorků a zjištěny a hodnoty znaku X -- mez plasticity a Y -- mez pevnosti. Datový soubor má
   tvar:

                                                          
   a)      Pro znak X stanovte optimální počet třídicích intervalů dle Sturgesova pravidla.

   b)      Sestavte tabulku rozložení četností.

   
                    Řešení:

                    ad a) Znak X má 50 variant, tedy podle Sturgesova pravidla je optimální počet
   třídicích intervalů r = 7. Budeme tedy volit 7 intervalů stejné délky tak, aby v nich byly
   obsaženy všechny pozorované hodnoty znaku X, z nichž nejmenší je 33, největší 160; volba u[1]
   = 30, ..., u[8] = 170 splňuje požadavky.

                    ad b)

                                                             
   Ke grafickému znázornění intervalového rozložení četností slouží histogram. S jeho pomocí lze
   dobře vysvětlit, co znamená hustota četnosti, což je funkce zavedená pomocí četnostních hustot
   jednotlivých třídicích intervalů. S hustotou četnosti úzce souvisí intervalová empirická
   distribuční funkce (je všude spojitá, protože je funkcí horní meze integrálu z hustoty
   četnosti). Pro údaje o mezi plasticity oceli vytvoříme histogram a graf intervalové empirické
   distribuční funkce. Seznámíme se rovněž s vlastnostmi obou výše zmíněných funkcí.

  2.14.       Definice

                                                               Intervalové rozložení četností
   graficky znázorňujeme pomocí histogramu. Je to graf skládající se z r obdélníků, sestrojených
   nad třídicími intervaly, přičemž obsah j-tého obdélníku je roven relativní četnosti p[j]
   j-tého třídicího intervalu, j = 1, ..., r. Histogram je shora omezen schodovitou čarou, která
   je grafem funkce zvané hustota četnosti: f(x) =

                                                               Pomocí hustoty četnosti zavedeme
   intervalovou empirickou distribuční funkci: F(x) = .

   
  2.15.       Příklad

                                                               Pro datový soubor z příkladu 2.12
   nakreslete histogram pro znak X a pod histogram nakreslete graf intervalové empirické
   distribuční funkce.

   
   Řešení:

   
                                              Shrnutí

               Není-li v jednorozměrném datovém souboru počet variant znaku příliš velký, pak
   přiřazujeme četnosti jednotlivým variantám znaku a hovoříme o bodovém rozložení četností. To
   lze znázornit graficky pomocí různých diagramů (např. tečkový diagram, sloupkový diagram
   atd.). Pokud zapíšeme četnosti do tabulky, dostaneme variační řadu. Pomocí relativních
   četností zavedeme četnostní funkci, pomocí kumulativních relativních četností empirickou
   distribuční funkci, která má schodovitý průběh.

               Pracujeme-li s dvourozměrným datovým souborem, zavádíme simultánní četnosti a
   zapisujeme je do kontingenční tabulky. Na okrajích kontingenční tabulky jsou uvedeny
   marginální četnosti, které se vztahují jen k jednomu znaku. Pomocí simultánních kumulativních
   relativních četností zavádíme simultánní četnostní funkci. Simultánní a marginální četnosti či
   četnostní funkce nám snadno umožní ověřit četnostní nezávislost dvou znaků v daném výběrovém
   souboru.

               Je-li se počet variant znaku srovnatelný s rozsahem souboru, použijeme raději
   intervalové rozložení četností, při němž přiřazujeme četnosti nikoli jednotlivým variantám,
   ale třídicím intervalům. Jejich počet určíme např. pomocí Sturgesova pravidla. Četnosti
   třídicích intervalů zapisujeme do tabulky rozložení četností. Relativní četnosti třídicích
   intervalů znázorňujeme pomocí histogramu. Schodovitá čára shora omezující histogram je grafem
   hustoty četnosti. Spojitým protějškem schodovité empirické distribuční funkce je intervalová
   empirická distribuční funkce zavedená jako funkce horní meze integrálu z hustoty četnosti.

   
                                      Kontrolní otázky a úkoly

   1.      Jaké grafy znázorňující rozložení četností znáte? Popište způsob jejich konstrukce.

   2.      Jak vzniká variační řada?

   3.      Jaké četnosti zapisujeme do kontingenční tabulky?

   4.      Kdy jsou v daném výběrovém souboru znaky četnostně nezávislé?

   5.      K čemu slouží Sturgesovo pravidlo?

   6.      (S) U 50 náhodně vybraných posluchačů a posluchaček VŠE v Praze byla zjišťována jejich
   hmotnost v kg (znak X) a jejich výška v cm (znak Y).

   a)      Pro znak X stanovte optimální počet třídicích intervalů podle Sturgesova pravidla,
   sestavte tabulku rozložení četnosti, nakreslete histogram a graf intervalové empirické
   distribuční funkce.

   b)      Pro znak Y rovněž stanovte optimální počet třídicích intervalů podle Sturgesova
   pravidla. Pro vektorový znak (X, Y) sestavte kontingenční tabulku absolutních četností a
   nakreslete dvourozměrný tečkový diagram.