V předchozím dílu jsme si ukázali základní míry polohy. V tomto
článečku si ukážeme, jak aplikovat charakteristiky variability, neb
náhodně proměnlivá data nestačí popsat pouze střední hodnotou.
Znalost středních hodnot nám dává užitečnou informaci o tom, kde jsou
data „centrována“ (průměr, medián), případně která data jsou
nejčetnější (modus). Míra rozptýlenosti hodnot různých souborů se
stejnou střední hodnotou se však může velmi lišit, a proto je důležité
s popisem charakteristik polohy uvádět v rámci popisné statistiky také
charakteristiky variability, které nám řeknou, jak moc naše charakteristiky
polohy daný soubor vystihují.
Charakteristiky variability
Rozpětí - první jednoduchou charakteristikou variability, jíž si popíšeme, je variační rozpětí , které definujeme jako
rozdíl mezi maximální a minimální hodnotou řady, tedy
= x −	x .
Variační rozpětí je velice hrubou charakteristikou variability, protože neříká nic o proměnlivosti jednotlivých hodnot
v souboru. Maximální a minimální hodnoty mohou být navíc zkresleny odlehlými pozorováními. Nicméně, jistě uznáte, že
i jednoduchá informace o rozpětí dat, je přínosná.
Rozptyl - další charakteristikou variability je základní a nejpoužívanější statistika a tou je bezpochyby rozptyl.
Následující vzorec popisuje výběrový rozptyl, kterým z dostupných dat odhadujeme hodnotu populačního rozptylu:
=
∑ ( )
.
StatSoft
Popisná statistika –
míry variability
Směrodatná odchylka – výběrový rozptyl, který se počítá pomocí čtverců odchylek dat od průměru, nemá
stejný rozměr jako původní data. Do měřítka původních dat nás vrací odmocnina z rozptylu – výběrová směrodatná
odchylka se definuje jako:
= √ .
Výpočtem směrodatné odchylky změříme rozptýlenost kolem průměru. Je-li = 0, soubor má nulovou variabilitu a
všechna data jsou stejná.
Aplikace
Aplikaci si ukážeme na následujícím příkladu. Tabulka ukazuje
ha výnos dvou plodin a plochu, na které byl výnos dosažen.
Naším úkolem je vypočítat charakteristiky polohy a variability a
zjistit kolísavost ha výnosu u obou plodin. Vzhledem
k závislosti na velikost osevní plochy je potřeba využít vážené
charakteristiky.
K výsledku se nejprve dostaneme zkratkou, je to sice dál, ale zato horší cesta. Tento postup nám však ilustruje
výpočet bez použití funkcionality Váhy v softwaru STATISTICA a také ukazuje možnosti záložky Data. Soustřeďme se nyní
pouze na plodinu Ječmen, do otevřené tabulky postupně přidáme 3 nové proměnné. V softwaru STATISTICA přes tlačítko
Proměnné a v dialogu Přidat proměnné napíšeme příslušné vzorce, které později využijeme pro dosazení do vzorce pro
rozptyl.
Výsledná tabulka má tuto podobu:
Přes záložku Statistiky -> Základní statistiky/tabulky -> Popisné statistiky spočteme sumu všech proměnných (lze i přes
Statistiky -> Statistiky bloku dat…):
Pokud bychom chtěli mít tyto nové výsledky v jediné tabulce, pak to můžeme provést například následujícím způsobem:
Výslednou tabulku transponujeme přes záložku Data -> Transponovat (Soubor) a sloučíme s předcházející tabulkou přes
záložku Data -> Sloučit (Porovnat proměnné):
Výstupní tabulka má tento tvar:
Tento postup jsme si ukazovali hlavně proto, abychom nastínili široké možnosti ovládání softwaru STATISTICA,
kterým bude věnováno některé z příštích čísel. Výslednou tabulku však využijeme na dosazení do vzorců pro výpočet
charakteristiky polohy, resp. variability.
Máme k dispozici ha výnos dané plodiny a velikost osevní plochy pro každý výnos, kterou je třeba ve výpočtu zohlednit,
použijeme proto vážený průměr, který jsme si ukázali v minulém dílu:
x =
∑ x n
∑ n
=
21079,5
4750
= 4,4377
a vážený rozptyl:
=
∑ (x − x ) 	∙	n
∑ n − 1
=	
∑ x ∙ n − x ∙ ∑ x ∙ n
∑ n − 1
=
96334,265 − 4,4377 ∙ 21079,5
4750 − 1
= 0,587
Po odmocnění odhadu rozptylu získáme směrodatnou odchylku .
Celý výše uvedený postup v softwaru STATISTICA řeší jednoduše několika kliknutími funkcionalita Váhy případů:
Do okna Proměnné vah vepíšeme číslo proměnné (zde V2), nebo její celý název „plocha (Ha)“, resp. po poklikání do okna
můžeme proměnnou vybrat ze seznamu, který se Vám zobrazí v dialogu Zvolit proměnnou.
A klikneme na Výpočet popisných statistik:
Stejným způsobem vypočteme také charakteristiky variability pro druhou proměnnou. Pokud by byly váhy pro obě
proměnné stejné, výslednou tabulku bychom získali v jednom kroku výběrem obou proměnných najednou. Protože jsou
ale váhy odlišné, potřebujeme pro sloučení výsledků funkcionalitu Data -> Sloučit -> Tlačítko Porovnat proměnné
sloučíme obě výsledné tabulky v sešitu STATISTICA a dostaneme výslednou tabulku:
Variační koeficient - další mírou variability, kterou lze v softwaru STATISTICA vypočítat, je variační koeficient. Jde
o poměr výběrové směrodatné odchylky a průměru, který slouží pro posouzení relativní míry rozptýlenosti dat vzhledem
k průměru. Použijeme ho tehdy, pokud budeme porovnávat variabilitu dat jednoho parametru měřeného v různých
dávkách
Vk = 	∙ 100	(%).
Při použití variačního koeficientu je potřeba ale dávat pozor na to, jaká máme data. Jeho použití není univerzální!
Například použití na datech se zápornými hodnotami může dávat zavádějící výsledky. Více informací najdete například na
zde (případně na wikipedii).
Mezikvartilové rozpětí (Interquartile range IQR) – poslední charakteristikou rozptýlenosti, kterou si
představíme je mezikvartilové rozpětí. Vypočítáme ji jako rozdíl mezi horním kvartilem (75 % kvantil) a dolním
kvartilem (25 % kvantil)
= − .
Ačkoli tuto statistiku uvádíme jako poslední, neznamená to, že by nebyla důležitá, právě naopak. Mezikvartilové rozpětí je
nejpoužívanější neparametrickou mírou variability. Je totiž odolné vůči přítomnosti odlehlých hodnot v datech, což
například nejznámější a nejpoužívanější rozptyl v žádném případě není. Pokud tedy máte podezření, že se Vám v datech
vyskytují odlehlé hodnoty, je mezikvartilové rozpětí doporučenou volbou.
Všechny tyto i další charakteristiky naleznete na kartě Detailní výsledky v dialogu Popisné statistiky: Statistiky —> Základní
statistiky/tabulky —> Popisné statistiky