V předchozím dílu jsme si ukázali základní míry polohy. V tomto článečku si ukážeme, jak aplikovat charakteristiky variability, neb náhodně proměnlivá data nestačí popsat pouze střední hodnotou. Znalost středních hodnot nám dává užitečnou informaci o tom, kde jsou data „centrována“ (průměr, medián), případně která data jsou nejčetnější (modus). Míra rozptýlenosti hodnot různých souborů se stejnou střední hodnotou se však může velmi lišit, a proto je důležité s popisem charakteristik polohy uvádět v rámci popisné statistiky také charakteristiky variability, které nám řeknou, jak moc naše charakteristiky polohy daný soubor vystihují. Charakteristiky variability Rozpětí - první jednoduchou charakteristikou variability, jíž si popíšeme, je variační rozpětí , které definujeme jako rozdíl mezi maximální a minimální hodnotou řady, tedy = x − x . Variační rozpětí je velice hrubou charakteristikou variability, protože neříká nic o proměnlivosti jednotlivých hodnot v souboru. Maximální a minimální hodnoty mohou být navíc zkresleny odlehlými pozorováními. Nicméně, jistě uznáte, že i jednoduchá informace o rozpětí dat, je přínosná. Rozptyl - další charakteristikou variability je základní a nejpoužívanější statistika a tou je bezpochyby rozptyl. Následující vzorec popisuje výběrový rozptyl, kterým z dostupných dat odhadujeme hodnotu populačního rozptylu: = ∑ ( ) . StatSoft Popisná statistika – míry variability Směrodatná odchylka – výběrový rozptyl, který se počítá pomocí čtverců odchylek dat od průměru, nemá stejný rozměr jako původní data. Do měřítka původních dat nás vrací odmocnina z rozptylu – výběrová směrodatná odchylka se definuje jako: = √ . Výpočtem směrodatné odchylky změříme rozptýlenost kolem průměru. Je-li = 0, soubor má nulovou variabilitu a všechna data jsou stejná. Aplikace Aplikaci si ukážeme na následujícím příkladu. Tabulka ukazuje ha výnos dvou plodin a plochu, na které byl výnos dosažen. Naším úkolem je vypočítat charakteristiky polohy a variability a zjistit kolísavost ha výnosu u obou plodin. Vzhledem k závislosti na velikost osevní plochy je potřeba využít vážené charakteristiky. K výsledku se nejprve dostaneme zkratkou, je to sice dál, ale zato horší cesta. Tento postup nám však ilustruje výpočet bez použití funkcionality Váhy v softwaru STATISTICA a také ukazuje možnosti záložky Data. Soustřeďme se nyní pouze na plodinu Ječmen, do otevřené tabulky postupně přidáme 3 nové proměnné. V softwaru STATISTICA přes tlačítko Proměnné a v dialogu Přidat proměnné napíšeme příslušné vzorce, které později využijeme pro dosazení do vzorce pro rozptyl. Výsledná tabulka má tuto podobu: Přes záložku Statistiky -> Základní statistiky/tabulky -> Popisné statistiky spočteme sumu všech proměnných (lze i přes Statistiky -> Statistiky bloku dat…): Pokud bychom chtěli mít tyto nové výsledky v jediné tabulce, pak to můžeme provést například následujícím způsobem: Výslednou tabulku transponujeme přes záložku Data -> Transponovat (Soubor) a sloučíme s předcházející tabulkou přes záložku Data -> Sloučit (Porovnat proměnné): Výstupní tabulka má tento tvar: Tento postup jsme si ukazovali hlavně proto, abychom nastínili široké možnosti ovládání softwaru STATISTICA, kterým bude věnováno některé z příštích čísel. Výslednou tabulku však využijeme na dosazení do vzorců pro výpočet charakteristiky polohy, resp. variability. Máme k dispozici ha výnos dané plodiny a velikost osevní plochy pro každý výnos, kterou je třeba ve výpočtu zohlednit, použijeme proto vážený průměr, který jsme si ukázali v minulém dílu: x = ∑ x n ∑ n = 21079,5 4750 = 4,4377 a vážený rozptyl: = ∑ (x − x ) ∙ n ∑ n − 1 = ∑ x ∙ n − x ∙ ∑ x ∙ n ∑ n − 1 = 96334,265 − 4,4377 ∙ 21079,5 4750 − 1 = 0,587 Po odmocnění odhadu rozptylu získáme směrodatnou odchylku . Celý výše uvedený postup v softwaru STATISTICA řeší jednoduše několika kliknutími funkcionalita Váhy případů: Do okna Proměnné vah vepíšeme číslo proměnné (zde V2), nebo její celý název „plocha (Ha)“, resp. po poklikání do okna můžeme proměnnou vybrat ze seznamu, který se Vám zobrazí v dialogu Zvolit proměnnou. A klikneme na Výpočet popisných statistik: Stejným způsobem vypočteme také charakteristiky variability pro druhou proměnnou. Pokud by byly váhy pro obě proměnné stejné, výslednou tabulku bychom získali v jednom kroku výběrem obou proměnných najednou. Protože jsou ale váhy odlišné, potřebujeme pro sloučení výsledků funkcionalitu Data -> Sloučit -> Tlačítko Porovnat proměnné sloučíme obě výsledné tabulky v sešitu STATISTICA a dostaneme výslednou tabulku: Variační koeficient - další mírou variability, kterou lze v softwaru STATISTICA vypočítat, je variační koeficient. Jde o poměr výběrové směrodatné odchylky a průměru, který slouží pro posouzení relativní míry rozptýlenosti dat vzhledem k průměru. Použijeme ho tehdy, pokud budeme porovnávat variabilitu dat jednoho parametru měřeného v různých dávkách Vk = ∙ 100 (%). Při použití variačního koeficientu je potřeba ale dávat pozor na to, jaká máme data. Jeho použití není univerzální! Například použití na datech se zápornými hodnotami může dávat zavádějící výsledky. Více informací najdete například na zde (případně na wikipedii). Mezikvartilové rozpětí (Interquartile range IQR) – poslední charakteristikou rozptýlenosti, kterou si představíme je mezikvartilové rozpětí. Vypočítáme ji jako rozdíl mezi horním kvartilem (75 % kvantil) a dolním kvartilem (25 % kvantil) = − . Ačkoli tuto statistiku uvádíme jako poslední, neznamená to, že by nebyla důležitá, právě naopak. Mezikvartilové rozpětí je nejpoužívanější neparametrickou mírou variability. Je totiž odolné vůči přítomnosti odlehlých hodnot v datech, což například nejznámější a nejpoužívanější rozptyl v žádném případě není. Pokud tedy máte podezření, že se Vám v datech vyskytují odlehlé hodnoty, je mezikvartilové rozpětí doporučenou volbou. Všechny tyto i další charakteristiky naleznete na kartě Detailní výsledky v dialogu Popisné statistiky: Statistiky —> Základní statistiky/tabulky —> Popisné statistiky