Odhady
o    bodové odhady
o    intervalové odhady
o    konstrukce intervalu spolehlivosti pro průměr
o    odhady podílů (kategoriální proměnné)


Odhady
o    v příkladech v předchozích přednáškách jsme znali hodnoty
  průměru a rozptylu populace
o    obvykle tomu ale bývá přesně naopak: známe hodnoty
(statistiky) výběru a neznáme hodnoty (parametry) populace
o    ty chceme z výběru odhadnout
Odhady
o    2 typy odhadů: bodové a intervalové
o    bodový odhad: použijeme průměr vzorku a odhadneme, že se
rovná průměru populace
Bodový odhad
o    bodový odhad je problematický v tom, že dva různé výběry nám
  mohou dát dva různé odhady
o    bodový odhad neobsahuje žádnou informaci o jeho přesnosti či
spolehlivosti
o    na čem závisí přesnost odhadu?
Bodový odhad
přesnost odhadu závisí na dvou charakteristikách
  n    velikost výběru (čím větší n, tím menší výběrová chyba)
n    variabilita hodnot v populaci (čím vyšší, tím vyšší i
výběrová chyba)
Intervalový odhad
o    poskytuje rozsah (interval) hodnot, který s určitou
  pravděpodobností obsahuje hledanou hodnotu parametru
Intervalový odhad
je založen na:
  n    bodovém odhadu
n    velikosti výběru
n    variabilitě znaku v populaci (známé nebo rovněž odhadované)
Intervalový odhad
o    ptáme se: jaká je hodnota m ?
Intervalový odhad
o    ptáme se: jaká je hodnota m ?
o    výběrový průměr určité hodnoty může pocházet z populací o
různých průměrech
o    proto nemůžeme jednoznačně určit hodnotu m
Intervalový odhad
Intervalový odhad
o    takže se místo toho snažíme určit, jaký je možný rozsah
  hodnot m
o    jaké populace (tj. s jakou hodnotou průměru) by mohly být
pravděpodobným zdrojem našeho vzorku?
Intervalové odhady
o    ze které populace nejpravděpodobněji pochází výběr, jehož
  průměr je v následujícím grafu naznačen svislou čarou?
RVP pro populace I-IV
Intervalové odhady
o    výběr pochází
  n    nejpravděpodobněji z populace II nebo III
n    méně pravděpodobně z populace I
n    a velmi málo pravděpodobně z populace IV
Intervalové odhady
o    intervalový odhad spočívá v konstrukci tzv. intervalu
  spolehlivosti (confidence interval) -- rozsahu hodnot, ve kterém s
  určitou pravděpodobností leží průměr populace
Interval spolehlivosti
o    nejprve je třeba si stanovit tuto pravděpodobnost -- tj.
  úroveň přesnosti(spolehlivosti);
o    obvyklá je např. 95% - snažíme se najít interval hodnot, ve
kterém s 95% pravděpodobností leží průměr populace
o    pak jde o tzv. 95% interval spolehlivosti
Interval spolehlivosti
o    poté najít hodnotu z pro tuto pravděpodobnost -- tj. rozsah,
  ve kterém bude ležet středních 95% hodnot (výběrových průměrů)
o    2,5% na každé straně rozdělení
Interval spolehlivosti
Interval spolehlivosti
o    tomu odpovídají hodnoty
  z=-1,96
  z=1,96

Interval spolehlivosti
Interval spolehlivosti - výpočet
Interval spolehlivosti - výpočet
Interval spolehlivosti
Interval spolehlivosti
o    interpretace intervalu spolehlivosti: máme 95%
  pravděpodobnost, že se v tomto intervalu nachází průměr populace
o    pokud bychom z populace vybrali 100 náhodných výběrů o
velikosti n a pro každý z nich sestrojili tento interval, 95
intervalů by obsahovalo průměr populace a 5 nikoliv
Interval spolehlivosti
o    oblíbený omyl:
  n    v 95% intervalu spolehlivosti leží 95% hodnot populace
    (NEPLATÍ!)
  
o    kromě 95% intervalu spolehlivosti se používá také např. 99%
  a 90% pravděpodobnost
  
  
Příklad
o    náhodný výběr 36 dětí romského původu, průměrné IQ vzorku =
  96
o    na základě tohoto zjištění odhadněte průměrné IQ populace
romských dětí (sestavte 95% (příp. 99% interval spolehlivosti)

Příklad
o    Postup:
  n    bodový odhad: m=96
n    výpočet výběrové chyby (směrodatné odchylky RVP):
 s/ăn = 15/ă36 = 15/6 = 2,5
n    stanovení úrovně spolehlivosti: 95% (nebo 99%)
n    najít hodnotu z pro 95% (resp. 99%) pravděpodobnost
  
Příklad
o    Postup:
  n    bodový odhad: m=96
n    výpočet výběrové chyby (směrodatné odchylky RVP):
 s/ăn = 15/ă36 = 15/6 = 2,5
n    stanovení úrovně spolehlivosti: 95% (nebo 99%)
n    najít hodnotu z pro 95% (resp. 99%) pravděpodobnost
  
Příklad
Příklad
Příklad
o    v tabulce normálního rozdělení najdeme hodnoty z
o    hodnoty z pro 95% : 1,96 a -1,96
   (hodnoty z pro 99% : 2,57 a -2,57)

Příklad
o    k výběrovému průměru přičteme (pro horní hranici intervalu)
  a odečteme (pro spodní hranici) výběrovou chybu, vynásobenou
  hodnotou z

Příklad
o    pro 95% :
                 m = 96 + 1,96*2,5 = 100,90
                 m = 96 -  1,96*2,5 = 91,10
95% interval spolehlivosti je 91,1 -- 100,9
o    pro 99% :
                 m = 96 + 2,57*2,5 = 102,43
                 m = 96 -  2,57*2,5 = 89,58
99% interval spolehlivosti je 89,6 -- 102,4
Interval spolehlivosti
o    hodnoty z pro nejčastěji užívané pravděpodobnosti:
  n    90% (zbývá 5% + 5%)       z= +/- 1,645
n    95% (zbývá 2,5% + 2,5%)  z= +/- 1,96
n    99% (zbývá 0,5% + 0,5%)  z= +/- 2,57
Interval spolehlivosti
o    v předchozích příkladech jsme předpokládali, že známe
  hodnotu variability znaku v populaci
o    ve skutečnosti je tomu tak však zřídka
o    je proto nutno odhadnout zároveň s průměrem i hodnotu
směrodatné odchylky
Interval spolehlivosti
  pro známé hodnoty směrodatné odchylky v populaci:
Studentovo rozdělení
o    pokud za s nahradíme s (směr. odchylku výběrového průměru),
  pak musíme při konstrukci intervalu spolehlivosti místo z
  rozdělení použít tzv. Studentovo t rozdělení
Interval spolehlivosti
  pro neznámé hodnoty směrodatné odchylky v populaci:
Studentovo rozdělení
o    má také zvonovitý tvar, ale je více ploché než normální
  rozdělení
o    je symetrické kolem průměru (0)
o    pro každou velikost výběru (počet stupňů volnosti, df)
existuje odlišné t rozdělení
df = n-1
Studentovo rozdělení
Studentovo rozdělení
o    srovnání s normálním rozdělením:
  n    t rozdělení má vyšší variabilitu
n    více plochy na okrajích, méně ve středu
n    vzhledem k vyšší variabilitě budou intervaly spolehlivosti
širší než u normálního rozdělení
n    jsou uváděny df obvykle jen do 100, protože pro n=100 se t
rozdělení blíží     normálnímu rozdělení
Studentovo rozdělení
o    tabulka t-rozdělení:
  n    každý řádek udává hodnoty t pro celé rozdělení pro daný
    počet stupňů volnosti (tj. n-1)
n    sloupce pro nejdůležitější percentily
  
Studentovo rozdělení
Studentovo rozdělení
Odhady podílů
o    u kategoriálních proměnných nemůžeme počítat průměry
o    odhadujeme proto podíly jednotlivých kategorií proměnné
Odhady podílů
o    např. podíl kuřáků v populaci českých adolescentů
o    podíl pacientů s rakovinou plic, kteří přežijí 5 let od
diagnózy
o    podíl chlapců mezi dětmi s poruchou pozornosti
Odhady podílů
o    pokud zkoumáme místo celé populace pouze výběr z ní,
  nezajímá nás tolik, jaký je podíl kategorií proměnné ve výběru
  (četnost p)
o    ale spíše jaký je skutečný podíl v populaci -- četnost p
Odhady podílů
o    při dostatečně velkém n platí i pro rozdělení podílů
  centrální limitní věta
o    rozdělení výběrových podílů je normální rozdělení, s
průměrnou četností p a směrodatnou odchylkou (výběrovou chybou)
Příklad 4
o    chceme zjistit, jaká je podpora zachování hlavního nádraží v
  Brně na stávajícím místě
o    náhodný výběr z populace brněnských voličů (n=1000 osob)
o    585 osob se vyjádřilo pro (p=0,585)
o    odhadněte s 95% spolehlivostí podporu zachování nádraží v
populaci brněnských voličů
Odhady podílů
o    interval spolehlivosti pro podíly se spočítá podobně jako
  pro průměry:
Odhady podílů
o    nemůžeme však spočítat výběrovou chybu, protože neznáme p
o    v tomto případě je však možné dosadit místo toho p a přitom
použít normální rozdělení (pokud je n>30)
o    pokud je n<30, pak dosadíme místo p hodnotu 0,5
Příklad 4
o    p=0,585
o    z=1,96
o    SE(p)= [0,585(1-0,585)/1000]
=0,156
interval spolehlivosti
  0.585 +/- 1.96(0.0156)
  0.585 +/- 0,0305
--- přesnost odhadu je +/- 3%



Příklad 4
o    s 95% pravděpodobností je podíl osob souhlasících se
  zachováním hlavního nádraží na stávajícím místě  mezi 55.4% a
  61.6%
o    tj. máme 95% pravděpodobnost, že kdyby se v době průzkumu
hlasovalo, bude většina pro
Odhady podílů
vztah mezi velikostí vzorku a přesností odhadu
  n    n=100     +/- 10%
n    n=200      +/- 7%
n    n=400      +/- 5%
n    n=1000     +/- 3%
n    n=2400     +/- 2%
n    n=9600     +/- 1%
Odhady podílů
o    požadovaná velikost vzorku roste mnohem rychleji než
  spolehlivost odhadu (pro zdvojnásobení spolehlivosti je nutné asi
  čtyřnásobně zvětšit vzorek)
o    důležité při plánování výzkumu -- jakou přesnost potřebujeme?
jaké budou náklady?
o    podobný vztah platí pro odhad průměrů
Kontrolní otázky
o    2 typy odhadů
o    na čem závisí šířka intervalu spolehlivosti? (není nutno
znát zpaměti vzorce, ale je třeba chápat princip výpočtu)
o    vztah velikosti výběru a spolehlivosti odhadu