Metodologie pro Informační studia a
knihovnictví 2
Modul 9: Úvod do induktivní statistiky
Obsah
Induktivní statistika................................................................................................................................. 2
Kdy můžeme zobecňovat? ..................................................................................................................... 2
Logika statistické indukce ...................................................................................................................... 3
Proč nelze jednoduše zobecnit ze vzorku na populaci aneb zobecňování průměrů .......................... 4
Výpočet intervalu spolehlivost v Excelu.................................................................................................... 5
Výpočet intervalu spolehlivost v SPSS ...................................................................................................... 6
Zobecňování výsledků třídění druhého stupně (kontingenčních tabulek).......................................... 6
Induktivní statistika
Dostáváme se nyní k nové kapitole statistického zpracování dat – k zobecňování na populaci.
Dosud naše výpočty vypovídaly vždy jen o našich respondentech – vzorku, který neodpověděl na
naše otázky. Cílem výzkumů je ale často vztáhnout výsledky na celou výzkumnou populaci, kterou
vzorek zastupuje
Připomeňme si rozdíly mezi deskriptivní a induktivní statistikou:
 Deskriptivní statistika: popisuje rozložení četností naměřených proměnných.
 Statistická indukce: umožňuje zkoumat vztahy mezi proměnnými a zobecňovat výsledky
na základní populaci.
Zdroj obrázku: http://new.euromise.org/czech/tajne/ucebnice/html/html/node3.html
Kdy můžeme zobecňovat?
Na úvod je důležité si říci, že zobecňování na populaci si nemůžeme automaticky dovolit v každém
výzkumu. Vzorek totiž musí být reprezentativní vzhledem k populaci. Toho lze docílit různými
způsoby, základním způsobem, se kterým ale počítá statistická indukce je prostý náhodný výběr.
Teorie statistické indukce – tedy zobecňování formou zjišťování statistické významnosti - je
vyvinuta pro případy velkých reprezentativních náhodných výběrů z velkých základních souborů.
Rabušic a Soukup (2007) říkají:
„Značná část českých sociálních vědců, nemluvě o značné proporci studentů, je posedlá statistickou
významností. Testy statistické signifikance v jejich povědomí (neboť tak „pochopili“ smysl testováni v
kurzech statistiky) slouží jako všemocné zaklinadlo. Jsou přesvědčeni, že bez testů statistických hypotéz
není možné získat vědecky relevantní poznatky. Domnívají se, že tyto testy musí aplikovat na všechny
výsledky bez ohledu na to, zdali jejich data pocházejí z pravděpodobnostního (náhodného) výběru,
vyčerpávajícího zjišťováni (z cenzu) nebo výběru nenáhodného (kvótního, záměrného, samovýběru).
Jsou přesvědčeni, že testy významnosti jim řeknou, co je v datech důležitého, prostřednictvím nalezené
statistické signifikance se snaží prokazovat těsnost vztahu dvou proměnných. Nic z toho ovšem
statistická významnost neumí.“
Logika statistické indukce
Přestože z úvodních řádků vyplývá, že statistickou indukci není možné aplikovat na značnou část
výzkumů, které se v praxi realizují, je přesto dobré seznámit se s její logikou.
Základem statistické indukce je testování statistických hypotéz, přesněji řečeno zejména
testování tzv. nulové hypotézy. Hypotéza je výrok o vztahu proměnných.
 Nulová hypotéza předpokládá stav neexistence rozdílu (tj. předpokládá stav shody) mezi
proměnnými/skupinami v populaci. (Arbuthnott, 1710)
 Alternativní hypotéza předpokládá existenci rozdílu (na základě teorie definujeme
předpoklady o rozdílech mezi jednotlivými skupinami v populaci)
Příklady nulových hypotéz:
 H0: Neexistuje rozdíl mezi rozložením proměnných ve vzorku a v populaci.
 H0: Neexistuje vztah mezi časem věnovaným internetu a pohlavím.
 Ho: Neexistuje rozdíl mezi průměrným příjmem mužů a žen zaměstnaných v knihovnách.
Příklady alternativních hypotéz:
 H0: Existuje rozdíl mezi rozložením proměnných ve vzorku a v populaci.
 H1: Neexistuje vztah mezi časem věnovaným internetu a pohlavím.
H1a: Muži tráví na internetu více času než ženy. (Abychom si mohli dovolit formulovat takto
orientovanou hypotézu, měli bychom mít podklady v předchozích výzkumech). NEBO
H2b: Ženy tráví na internetu více času než muži. (Abychom si mohli dovolit formulovat
takto orientovanou hypotézu, měli bychom mít podklady v předchozích výzkumech).
H0: Neexistuje rozdíl mezi průměrným příjmem mužů a žen zaměstnaných v knihovnách.
H1a: Muži zaměstnaní v knihovnách mají vyšší příjem než ženy. (Abychom si mohli dovolit
formulovat takto orientovanou hypotézu, měli bychom mít podklady v předchozích
výzkumech).
Pokud data neodpovídají H0, nulovou hypotézu zamítáme. Zamítnutí nulové hypotézy ovšem
samo o sobě většinou nestačí k přijetí hypotézy alternativní.
Pro přijetí či zamítnutí nulové hypotézy je klíčová hladina statistické významnosti.
Statistická významnost je pravděpodobnost, s jakou bychom – za předpokladu platnosti
nulové hypotézy – mohli obdržet data odporující nulové hypotéze. (Soukup 2010)
 Je-li statistická významnost nízká, nulová hypotéza nejspíš neplatí.
Zlaté pravidlo pro induktivní statistiku:
 Vysoká hodnota testu statistické významnosti (tj. α > 0,05)  rozdíl není statisticky
významný  držíme nulovou hypotézu.
 Nízká hodnota testu statistické významnosti (tj. α ≤ 0,05)  rozdíl je statisticky významný
 zamítáme nulovou hypotézu.
Princip většiny statistických testů spočívá v tom, že se výsledky naměřených hodnot porovnávají
s teoretickým modelem jejich rozložení – z něj jsou odvozeny tzv. kritické hodnoty testu (Reichel
2009). Pro různé druhy hypotéz existuje řada testovacích kritérií.
Proč nelze jednoduše zobecnit ze vzorku na populaci aneb zobecňování
průměrů
Představte si, že zkoumáme populaci magisterských studentů knihovnictví. Chceme vidět, jak se
měnil nějaký konkrétní ukazatel – třeba jejich váhu v kilogramech. Dejme tomu, že je studentů
celkem 200. Náš vzorek je 15 studentů (víme už, že takový vzorek by byl velmi malý, ale pro tento
příklad si jej ponechme).
Populační průměr sledované vlastnosti je 69,63. Pokaždé, kdy náhodně vybereme nějaký vzorek 15
studentů, dostaneme poněkud odlišné výsledky:
Číslo
měření
Průměr St.
odchylka
Minimum Medián Maximum Rozpětí
1. 66,12 9,21 47,2 65 87 39,8
2. 73,3 12,48 52,4 71,1 101,1 48,7
3. 68,67 10,78 54 69,1 85,4 31,4
4. 69,95 10,57 54,5 68 87,8 33,3
Takto bychom mohli pokračovat a při každém výběru bychom dostali poněkud jiné výsledky. Nyní
vidíme, že z jednoho měření nelze jednoduše zobecnit průměr – každý výběr je zatížen tzv.
výběrovou chybou.
Výběrová chyba je chyba, která vyplývá z faktu, že neměříme populaci, ale vzorek. Velikost
výběrové chyby vychází především z distribuce vlastnosti v populaci. Pokud je populace
homogenní vzhledem k vybranému kritériu, výběrová chyba bude pravděpodobně menší.
Výběrová chyba také bude klesat s velikostí vzorku. Vzorek 50 studentů bude mít pravděpodobně
nižší výběrovou chybu než vzorek 15 studentů.
Jak se vypořádat s výběrovou chybou? Musíme pochopit, že ze vzorku nemůžeme se
100%pravděpodobností usuzovat na výsledek (průměr) celé populace. O výsledku tedy můžeme
hovořit jen jako o odhadu v rámci určitého intervalu a s určitou mírou jistoty.
Je jasné, že čím nižší míra jistoty, tím menší může být interval, ve kterém se spolehlivě průměr
nachází v populaci, a naopak: pokud chceme mít vysokou míru jistoty, interval bude větší.
Nejčastěji volíme interval spolehlivosti 95 % nebo 99 %. To znamená, že o naměřeném výsledku
můžeme s 95% (respective 99%) spolehlivostí tvrdit, že se nachází v daném intervalu.
K výpočtu horní a spodní hranice interval spolehlivosti nám pomůže znalost velikosti směrodatné
odchylky.
Na obrázku vidíme normální rozložení hodnot v populaci. V intervalu jedné směrodatné odchylky
od průměru na obou stranách leží 68,2 % všech naměřených hodnot. V intervalu dvou
směrodatných odchylek už leží 95 % a v intervalu tří směrodatných odchylek leží 99 % naměřených
hodnot.
Výpočet intervalu spolehlivost v Excelu
V Excelu pro výpočet intervalu spolehlivosti používáme příkaz CONFIDENCE. Podrobný popis použití
příkazu najdete zde.
K výpočtu potřebujeme znát:
 koeficient spolehlivosti (0,05 pro 95% interval spolehlivosti a 0,01 pro 99% interval
spolehlivosti),
 směrodatnou odchylku v populaci,
 velikost výběrového souboru.
V praxi ale většinou neznáme hodnoty průměru v populaci či výši směrodatné odchylky. Proto byly
vyvinuty postupy realizovatelné při využití standardní odchylky naměřeného průměru – tzv. Trozložení
a T-test.
Výpočet intervalu spolehlivost v SPSS
V SPSS používáme záložku Explore, kde si na kartě Statistics upravíme velikost intervalu spolehlivosti:
SPSS vrátí informace o horní a spodní hranici intervalu spolehlivosti.
Zobecňování výsledků třídění druhého stupně (kontingenčních tabulek)
Druhým příkladem zobecňování z naměřených hodnot na populaci je zobecňování výsledků
třídění druhého stupně kategorizovaných dat.
Příklad: Chceme vědět, jak se liší frekvence čtení u skupin podle vzdělání. Formulujeme nulovou a
alternativní hypotézu:
 H0: Neexistuje rozdíl ve frekvenci čtení mezi skupinami třicátníků s různým vzděláním.
 Ha: Existuje rozdíl ve frekvenci čtení mezi skupinami třicátníků s různým vzděláním.
Uděláme si kontingenční tabulku (už ji umíme od modulu 7):
Vidíme poměrně zajímavé rozdíly! Můžeme je zobecnit?
Pro zobecňování rozdílů u kategorizovaných proměnných se používá jako testovací kritérium tzv.
test nezávislosti chí kvadrát (χ2).
Chí-kvadrát je založený na srovnávání naměřených a očekávaných proměnných
• Očekávaná četnost: počet jednotek, který by do dané kategorie spadl při náhodném
rozložení
• Naměřená četnost: počet jednotek, které jsme v dané kategorii ve vzorku naměřili
• Reziduál: rozdíl mezi OČ a NČ
• Adjustované reziduály: koeficient determinace (AR mají přibližně normální rozložení s
průměrem 0 a standardní odchylkou 1)
Chí kvadrát v SPSS
Chí-kvadrát – Analyze – Crosstabs: Statistics
Literatura:
Reichel, J. 2009. Kapitoly metodologie sociálních výzkumů. Praha: Grada.
Soukup, P. 2010. „Nesprávné užívání statistické významnosti a jejich možná řešení.“ Data a výzkum
– SDA Info 4(2): 77–104.
SOUKUP, Petr - RABUŠIC, Ladislav. Několik poznámek k jedné obsesi českých sociálních věd statistické
významnosti. Sociologický časopis. 2007, roč. 43, č. 2, s. 379-395. ISSN 0038-0288.