Popisná statistika

o    úvod

o    rozdělení hodnot

o    míry centrální tendence

o    míry variability

o    míry šikmosti a špičatosti

o    grafy


                                                Úvod

o    užívá se k popisu základních vlastností dat

o    poskytuje jednoduché shrnutí hodnot proměnných ve výběrovém souboru

o    předchází induktivní statistiku (která odvozuje zjištění ze vzorku na populaci)

o    techniky deskriptivní statistiky pomáhají redukovat větší množství dat do zvládnutelné podoby --
grafické, tabulkové, do jednoho ukazatele

o    touto redukcí např. údajů o rychlosti čtení u 200 žáků na jeden ukazatel, např. na hodnotu
průměru samozřejmě část informací ztratíme

o    pro každou proměnnou obvykle popisujeme 3 charakteristiky

o    rozdělení hodnot (i graficky), středovou hodnotu a míru rozptýlení hodnot kolem tohoto středu


                                          Rozdělení hodnot

o    rozdělení (distribuce) hodnot - souhrn četností jednotlivých kategorií nebo intervalů hodnot
proměnné

o    jednou z možností, jak zobrazit rozložení hodnot proměnné je tabulka četností -- seznam
kategorií proměnné a u nich počet osob, které do každé kategorie spadají  

o    vždy je třeba uvést celkový počet osob (N)

o    relativní četnosti mohou být uvedeny buď jako procenta (8%) nebo podíly (0.08)

o    může jít rovněž o poměr (ratio) dvou kategorií (např. poměr dívek a chlapců s ADHD 1:4 (nebo
0,25))

o    jako míra (rate) se označuje počet výskytů nějakého jevu dělený počtem možných výskytů v
nějakém čase

o    např. míra úmrtnosti = počet mrtvých za rok / počet obyvatel x 1000

o    získáme hrubou míru úmrtnosti na 1000 obyvatel


                                          Rozdělení hodnot

o      stejná data je možno zobrazit i graficky (v příkladu sloupcový diagram -- barchart)

o    pokud proměnná nabývá mnoha hodnot, je vhodnější je sloučit do kategorií (intervalů)

o    počet intervalů by měl být přiměřený počtu hodnot

o    někdy se používá tzv. Sturgesovo pravidlo  k = 1 + 3,3 log10(n)

o     podle něj by pro 200 hodnot byl vhodný počet intervalů 9

o     záleží i na počtu osob -- pro menší výběry raději histogram s menším počtem sloupců


                                      Míry centrální tendence

o    míry centrální tendence (středu, polohy) jsou výsledkem snahy najít typickou hodnotu pro daný
znak

o    nejčastěji používané modus, medián, aritmetický průměr, méně často např. harmonický a
geometrický průměr


                                      Míry centrální tendence

o    modus -- nejčastěji se vyskytující hodnota (např. u příkladu s temperamentem to byl cholerik)

o    jediná použitelná charakteristika polohy pro nominální data; u pořadových a kardinálních jsou
většinou více typickými charakteristikami medián nebo průměr

o    pokud je v rozdělení více modů, jde o rozdělení vícevrcholové (obvykle bimodální) -- může
odhalit nehomogenitu výběru

o    např. rozdělení hodnot tělesné výšky může mít dva mody -- pro muže a pro ženy

o    modus není užitečnou statistikou pro zobecňování ze vzorku na populaci -- dá se očekávat, že
různé vzorky z téže populace budou mít různé mody


                                      Míry centrální tendence

o    medián - prostřední hodnota v řadě hodnot uspořádaných podle  velikosti (50% percentil)

o    je jen pro data, která je možno podle velikosti uspořádat, tj. pořadová a kardinální

o    dělí soubor na dvě poloviny (pro sudý počet hodnot je medián průměrem dvou prostředních
pozorování)

o    vzorec pro výběr s lichým počtem hodnot:

  Me = x[(n+1)/2

]o    vzorec pro výběr se sudým počtem hodnot:

  Me = (x[n/2] + x[n/2+1] )/2

o    používá se především, pokud chceme eliminovat vliv extrémních hodnot

o    příklad -- průměrný plat 20 tisíc může u 10 osob znamenat, že 9 z nich má 10 tisíc a jeden 110
tisíc; použijeme-li medián -- 10 tisíc, získáme více typickou hodnotu

o    můžeme ho vyčíst z tabulky četností, pokud jsou uvedeny kumulativní četnosti


                                      Míry centrální tendence

o    aritmetický průměr -- součet všech hodnot znaku  dělený jejich počtem

o    jen pro proměnné, u nichž je možno hodnoty smysluplně dělit (kardinální)

o    vzorec:

  n     m = S[i]X[i]/N (pro populaci)

  n     m = S[i]x[i]/n  (pro výběr)

o    součet odchylek od průměru =0

o    průměr zahrnuje každou hodnotu znaku -- což je jak výhoda, tak nevýhoda (citlivý na extrémní
hodnoty)

o    to je možno vyřešit použitím tzv. seříznutého průměru (trimmed mean), který se počítá tak, že
se vynechá určité % hodnot z obou stran rozdělení, např. 5% nejnižších a 5% nejvyšších

o    průměr špatně reprezentuje nehomogenní skupiny

o    příklad -- 30 osob v parku, průměrný věk 12.5 roku, průměrná výška 130 cm: nemusí jít o školní
děti, ale o 15 matek se 4-letými dětmi

o    pro znaky s normálním rozdělením hodnot je průměr nejúčinnější charakteristikou (tj. nejvíce
stabilní pro různé výběrové soubory) -- dá se nejlépe použít pro odhad parametru populace z
charakteristik výběru

o    je nejčastěji užívanou mírou polohy


                                      Míry centrální tendence

o    kterou statistiku použít a uvádět?

o    průměr -- pokud může být spočítán a pokud není rozdělení příliš šikmé

o    modus -- pokud je rozdělení multimodální (neexistuje jediná typická hodnota)

o    medián -- pokud je rozdělení šikmé a unimodální, pokud obsahuje odlehlé hodnoty


                                      Míry centrální tendence

o    příklad -- spočítejte modus, medián a aritmetický průměr následujícího rozdělení hodnot

  
    18  5  128   2   14   87   50   87   70       


                                          Míry variability

o    míry variability popisují kolísání
v rozdělení hodnot 

o    označují se i jako míry rozptýlenosti

o    užívá se rozpětí, mezikvartilové rozpětí, rozptyl, směrodatná odchylka, variační koeficient


                                          Míry variability

o    rozpětí (variační šíře, variační rozpětí) -- rozdíl mezi nejvyšší a nejnižší hodnotou

o    značně ovlivněno extrémními hodnotami, není dobrým odhadem parametru populace

o    používá se zřídka


                                          Míry variability

o    mezikvartilové rozpětí (interkvartilová odchylka) -- rozdíl mezi hodnotou horního kvartilu a
dolního kvartilu

o    kvartily -- dělí soubor na 4 stejné části; horní kvartil odděluje 25% nejvyšších hodnot, dolní
25% nejnižších

o    mezikvartilové rozpětí udává rozpětí pro středních 50% hodnot (=délka obdélníku v krabicovém
diagramu)

o    není (podobně jako medián) citlivé na extrémní hodnoty


                                          Míry variability

o     rozptyl (střední kvadratická odchylka průměru) - ukazuje, jak jsou hodnoty rozptýleny kolem
průměru

o     v populaci          [n            ]

            s^2 =  (1/(N)) aa (x[i] - m)^2 

                           ^i = 1          

o     výběr          [n            ]

s^2 =  (1/(n-1)) aa (x[i] - m)^2 

                      ^i = 1          


o    více než rozptyl se používá jeho odmocnina -- směrodatná odchylka průměru (je ve stejném měřítku
jako původní hodnoty)

o    oba ukazatele slouží jako vhodné doplnění průměru -- získáme představu o jeho věrohodnosti, jak
dobře reprezentuje všechny hodnoty


                                          Míry variability

o      příklad -- porovnejte variabilitu u těchto dvou rozložení hodnot (jde např. o počet správně
vyřešených úloh v didaktickém testu ve 2 třídách)


a)              4    5   4   3   5   5   3   4   3


b) 8    2   12   1   4   3   5   0   1


o    řešení příkladu

o    m[a] = 4, s[a] = 0.87

o    m[b] = 4, s[b] = 3.87

o    u prvního rozdělení je průměr lepší reprezentací hodnot; u druhého jsou hodnoty kolem průměru
hodně rozptýleny


                                          Míry variability

o    variační koeficient -- pro porovnání míry variability u různých souborů

o    pokud se u různých souborů měřené hodnoty výrazně liší svou úrovní anebo jsou dokonce v různých
jednotkách, nelze podle rozptylu či standardní odchylky porovnávat přímo, který ze souborů má větší
variabilitu - je třeba srovnávat relativní variabilitu

o    jde o podíl směrodatné odchylky a průměru

o    většinou se udává v procentech

o    VK = ( s / m ) *100%

o    příklad -- porovnejte variabilitu průměrného platu v ČR (v korunách) a v GB (v librách)
(fiktivní data)

o    m[GB]=1000 liber, s[GB=]600

o    m[CZ]=10 000 Kč, s[CZ=] 3000

o    řešení příkladu -- větší variabilita je v britských platech (60%) než v českých (30%)

                                     Míry šikmosti a špičatosti

o     hodnotíme, jak se rozdělení dat podobá normálnímu (Gaussovu) rozdělení

o     šikmost (skewness)  měří nesymetrii vzhledem k podélné ose

  n      pro symetrické rozdělení se koeficient šikmosti = 0

  n      pokud je > 0, je rozdělení s prodlouženým pravým koncem (doprava, kladně šikmé)

  n      pokud je < 0, je rozdělení s prodlouženým levým koncem (doleva, záporně šikmé)

o     i porovnáním hodnoty průměru a mediánu získáme představu o šikmosti rozdělení hodnot

  n      pokud je průměr větší než medián -- kladně zešikmeno

  n      průměr menší než medián -- záporně zešikmeno

  n      průměr = medián -- symetrické rozdělení

o     Pearsonův vzorec pro koeficient šikmosti na základě srovnání hodnot průměru a mediánu

  n      SK = 3* (m -- Me) / s


                                     Míry šikmosti a špičatosti

o    koeficient špičatosti (kurtosis)

  n     pro normální rozdělení = 0

  n     pokud je > 0, je rozdělení tzv. leptokurtické (více špičaté než normální)

  n     pokud je < 0, je rozdělení tzv. platykurtické (plošší než normální)

                                               Grafy

o     pouze základní typy

o     pro kategoriální data - sloupcový diagram, výsečový graf

o     pro spojitá data -- histogram, frekvenční polygon, krabicový diagram, stromový diagram

o     grafy je možno znázornit v kategorizované formě -- pro jednotlivé kategorie další proměnné
(např. pro muže a ženy)

                                               Grafy

o     výsečový graf (koláčový diagram, pie chart) -- užívá se více v populárních publikacích než v
odborných

o    histogram -- podobný sloupcovému diagramu, ale je pro spojitá data

o    jednotlivé sloupce reprezentují nikoliv jednotlivé kategorie, ale intervaly hodnot

o    tvar histogramu závisí do jisté míry na šířce intervalů

o     frekvenční polygon -- konstruován podobně jako histogram, jen místo sloupců jsou tečky spojené
čarou

o     krabicový diagram (boxplot, vousatá krabička) -- poskytuje bohaté zobrazení důležitých aspektů
rozdělení hodnot

o     délka krabice odpovídá interkvartilové odchylce; uvnitř krabice je vyznačen medián

o     "vousy" nebo "anténami" je ohraničeno rozmezí hodnot bez odlehlých hodnot (outliers) a
extrémních hodnot (více než 3x délky krabice od jejího konce)

o     stromkový diagram (stem-and-leaf plot; stonek a list) -- podobný histogramu (naležato), ale
obsahuje informace o každém případu

o     konstrukce diagramu -- hodnoty jsou rozděleny např. na desítky (stonek) a jednotky (list)

o     např. hodnota 85 = 8x10 + 5x1

o     pokud je hodnot pro některé desítky více, rozdělí se na další listy

o    čeho si v grafu všímat?

  n     tvaru rozdělení

  n     míst s největší četností hodnot (zhuštění, shluky)

  n     mezer

  n     odlehlých hodnot

                                          Kontrolní otázky

o    rozdíly mezi absolutními a relativními četnostmi, poměrem a mírou; kumulativní četnosti

o    3 základní míry centrální tendence (+ u jakých dat použijeme průměr, modus či medián)

o    základní míry variability, výpočet rozptylu

o    typy grafů


                                             Literatura

o    Hendl -- kapitola 3

o    doplňující (v IS):

  n    Wainer, H., & Velleman, PF (2001). Statistical graphics: Mapping the pathways of science.
  Annual Review of Psychology, 52, 305-335.