1. Průzkumová analýza jednorozměrných dat, diagnostické grafy 1.1. Motivace Průzkumová analýza dat je odvětví statistiky, které pomocí různých postupů odhaluje zvláštnosti v datech. Při zpracování dat se často používají metody, které jsou založeny na předpokladu, že data pocházejí z nějakého konkrétního rozložení, nejčastěji normálního. Tento předpoklad nemusí být vždy splněn, protože data - mohou pocházet z jiného rozložení - mohou být zatížena hrubými chybami - mohou pocházet ze směsi několika rozložení. Proto je důležité provést průzkumovou analýzu dat, abychom se vyvarovali neadekvátního použití statistických metod. 1.2. Funkcionální charakteristiky datového souboru 1.2.1. Označení Na množině objektů zjišťujeme hodnoty znaku X. Hodnotu znaku X na objektu označíme xi, i = 1, ..., n. Tyto hodnoty zaznamenáme do jednorozměrného datového souboru . Uspořádané hodnoty x(1) ? x(2) ? ... ? x(n) tvoří uspořádaný datový soubor . Vektor , kde x[1] < ... < x[r] jsou navzájem různé hodnoty znaku X, se nazývá vektor variant. 1.2.2. Bodové rozložení četností Je-li počet variant malý, přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností. nj -- absolutní četnost varianty x[j] pj = - relativní četnost varianty x[j] Nj = n1 + ... + nj -- absolutní kumulativní četnost prvních j variant Fj = = p1 + ... + pj -- relativní kumulativní četnost prvních j variant Absolutní či relativní četnosti znázorňujeme graficky např. pomocí sloupkového diagramu či polygonu četností. Četnostní funkce: p(x) = Empirická distribuční funkce: F(x) = Příklad 1.: U 30 domácností byl zjišťován počet členů. Počet členů 1 2 3 4 5 6 Počet 2 6 4 10 5 3 domácností Öůôöďřte tabulku rozložení četností. Nakreslete grafy četností funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností počtu členů domácnosti. Řešení: Tabulka rozložení četností x[j] nj pj Nj Fj 1 2 2/30 2 2/30 2 6 6/30 8 8/30 3 4 4/30 12 12/30 4 10 10/30 22 22/30 5 5 5/30 27 27/30 6 3 3/30 30 1 Graf četnostní funkce Graf empirické distribuční funkce Sloupkový diagram Polygon četností 1.2.3. Intervalové rozložení četností Je-li počet variant velký, přiřazujeme četnosti nikoli jednotlivým variantám, ale třídicím intervalům , ..., a hovoříme o intervalovém rozložení četností. Názvy četností jsou podobné jako v bodě 1.2.2., navíc zavádíme četnostní hustotu j- tého třídicího intervalu fj = , kde dj = uj+1 -- uj. Stanovení počtu třídicích intervalů je dosti subjektivní záležitost. Často se doporučuje volit r blízké . Hustota četnosti: f(x) = (grafem hustoty četnosti je histogram) Intervalová empirická distribuční funkce: F(x) = . Příklad 2.: U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč). Výdaje Počet 7 16 27 14 4 2 dom. Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Řešení: Tabulka rozložení četností ozložení četností4etnost9 četností, nakreslete histogram a graf intervalové empirické distribuční funkce.e) vybraného teoretic (uj,uj+1] nj pj fj Nj Fj 7 7/70 7/2100 7 7/70 16 16/70 16/2100 23 23/70 27 27/70 27/2100 50 50/70 14 14/70 14/2100 64 64/70 4 4/70 4/2100 68 68/70 2 2/70 2/2100 70 1 Histogram Graf intervalové empirické distribuční funkce 1.3. Číselné charakteristiky datového souboru 1.3.1. Znaky nominálního typu Tyto znaky umožňují obsahovou interpretaci pouze u relace rovnosti. Charakteristikou polohy je modus, tj. nejčetnější varianta či střed nejčetnějšího intervalu. 1.3.2. Znaky ordinálního typu Lze u nich navíc obsahově interpretovat relaci uspořádání. Charakteristikou polohy je á-kvantil. Je-li á , pak á-kvantil xá je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl á všech dat a na horní úsek obsahující aspoň podíl 1 -- á všech dat. Pro výpočet á-kvantilu slouží algoritmus: ná= Pro speciálně zvolená á užíváme názvů: x0,50 -- medián, x0,25 -- dolní kvartil, x0,75 -- horní kvartil, x0,1, ..., x0,9 -- decily, x0,01, ..., x0,99 -- percentily. Jako charakteristika variability slouží kvartilová odchylka: q = x0,75 -- x0,25. Příklad 3.: Během semestru se studenti podrobili písemnému testu z matematiky, v němž bylo možno získat 0 až 10 bodů. Výsledky jsou uvedeny v tabulce: Počet bodů 0 1 2 3 4 5 6 7 8 9 10 Počet 1 4 6 7 11 15 19 17 12 6 3 studentů Úęéóôěte modus, medián, 1.decil, 9. decil a kvartilovou odchylku počtu bodů. Řešení: Modus je nejčetnější varianta znaku, v tomto případě tedy 6. Pro výpočet kvantilů musíme znát rozsah datového souboru: n = 1 + 4 + ... + 3 = 101. Výpočty uspořádáme do tabulky. á ná c xá=x( c) 0,5 50,5 51 6 0 0,1 10,1 11 2 0 0,9 90,9 91 8 0 0,2 25,2 26 4 5 5 0,7 75,7 76 7 5 5 q = 7 -- 4 = 3 1.3.3. Znaky intervalového a poměrového typu U těchto znaků lze navíc obsahově interpretovat operaci rozdílu resp. podílu. Charakteristika polohy: aritmetický průměr m = , u poměrových znaků, které nabývají pouze kladných hodnot, lze použít geometrický průměr . Charakteristika variability: rozptyl s2 = či směrodatná odchylka s = . (Rozptyl se zpravidla počítá podle vzorce s2 = .) U poměrových znaků se jako charakteristika variability používá též koeficient variace . Známe-li absolutní či relativní četnosti variant x[1], ..., x[r], můžeme spočítat vážený průměr m = či vážený rozptyl : s2 = . (Vážený rozptyl se zpravidla počítá podle vzorce s2 = .) Aritmetický průměr a rozptyl jsou speciální případy momentů. Zavedeme k-tý počáteční moment , k = 1, 2, ... a k-tý centrální moment , k = 1, 2, ... Pomocí 3. a 4. počátečního momentu se definuje šikmost a špičatost. Šikmost: - měří nesouměrnost rozložení četností kolem průměru. Špičatost: - měří koncentraci rozložení četností kolem průměru. Příklad 4.: Pro údaje z příkladu 1 vypočtěte průměr a rozptyl počtu členů. Řešení: Příklad 5.: Nechť m1 je průměr a s12 rozptyl hodnot x1, ..., xn. Nechť a, b jsou reálné konstanty. Položme yi = a + bxi, i = 1, ..., n. Vypočtěte průměr m2 a rozptyl s22 hodnot y1, ..., yn. Řešení: 1.4. Diagnostické grafy 1.4.1. Krabicový diagram Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu (x0,75 + 1,5q, x0,75 + 3q) či v intervalu (x0,25 - 3q, x0,25 -- 1,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x0,75 + 3q, ?) či v intervalu (-?, x0,25 - 3q). Příklad 6.: Pro údaje z příkladu 1 sestrojte krabicový diagram. Řešení: Rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky. á ná c xá 7,5 8 x(c)=x(8) 2 0,2 5 0,5 15 15 4 0 0,7 22, 23 x(c)=x(23 5 5 5 ) q = 5 -- 2 = 3 Dolní vnitřní hradba: x0,25 -- 1,5q = 2 -- 1,5.3 = -2,5 Horní vnitřní hradba: x0,75 + 1,5q = 5 + 1,5.3 = 9,5 1.4.2. Normal probability plot (NP-plot) Umožňuje graficky posoudit, zda data pocházejí z normálního rozložení. Způsob konstrukce: na vodorovnou osu vynášíme uspořádané hodnoty x(1) ? ... ? x(n) a na svislou osu kvantily , kde (jsou-li některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající takové skupince). Pocházejí-li data z normálního rozložení, pak všechny dvojice budou ležet na přímce. 1.4.3. Quantile - quantile plot (Q-Q plot) Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení (např. STATISTICA 6.0 nabízí 8 typů rozložení: beta, exponenciální, Gumbelovo, gamma, log-normální, normální, Rayleighovo a Weibulovo). Způsob konstrukce: na svislou osu vynášíme uspořádané hodnoty x(1) ? ... ? x(n) a na vodorovnou osu kvantily vybraného rozložení, kde , přičemž radj a nadj jsou korigující faktory ? 0,5, implicitně radj = 0,375 a nadj = 0,25. (Jsou-li některé hodnoty x(1) ? ... ? x(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.) Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadnou z dat nebo je může zadat uživatel. Body se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím je lepší soulad mezi empirickým a teoretickým rozložením. Příklad 7.: Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí N-P plot a P-P plot ověřte, zda se tato data řídí normálním rozložením. Řešení: usp.hodn 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 oty pořadí 1 2 3 4 5 6 7 8 9 10 průměrné 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 pořadí á(c) Î­Đ đěďô ę ˝ ¨+/-notu  ł  ´notu  śnotu  ¸  ą  +/-°(c) â(c) Ń­Ń đěďô ę ˝ ¨+/-notu  ł  ´notu  śnotu  ¸  ą  +/-°(c) Öúčěĺä ďâďő çňáćů nasvědčuje tomu, že data pocházejí z normálního rozložení. 1.4.4. Probability - probability plot (P-P plot) Používá se ke stejným účelům jako Q-Q plot, ale jinak se konstruuje. Způsob konstrukce: spočtou se standardizované hodnoty , j = 1, ..., n. Na vodorovnou osu se vynesou hodnoty teoretické distribuční funkce Ö(z(j)) a na svislou osu hodnoty empirické distribuční funkce F(z(j)) = j/n. (Jsou-li některé hodnoty x(1) ? ... ? x(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.)Pokud se body (Ö(z(j)), F(z(j))) řadí kolem hlavní diagonály čtverce [0,1] x [0,1], lze usuzovat na dobrou shodu empirického a teoretického rozložení. 1.4.5. Histogram Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. (Ve STATISTICE je pojem histogramu širší, skrývá se za ním i sloupkový diagram.) Způsob konstrukce ve STATISTICE: na vodorovnou osu se vynášejí třídicí intervaly (implicitně 10, jejich počet lze změnit, stejně tak i meze třídicích intervalů) či varianty znaku a na svislou osu absolutní nebo relativní četnosti třídicích intervalů či variant. Do histogramu se zakreslí tvar hustoty (či pravděpodobnostní funkce) vybraného teoretického rozložení. Kromě 8 typů rozložení uvedených u Q-Q plotu umožňuje STATISTICA použít ještě další 4 rozložení: Laplaceovo, logistické, geometrické, Poissonovo. Příklady k 1. kapitole Příklad 1. : U 20 studentů 1. ročníku byla zjišťována známka z matematiky na prvním zkušebním termínu. Známka 1 2 3 4 Počet 7 3 2 8 studentů Öůôöďřte tabulku rozložení četností. Nakreslete grafy četností funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností počtu členů domácnosti. Příklad 2. : U 60 vzorků oceli byl zjišťována mez plasticity. Mez plastici ty Počet 8 4 13 15 9 7 4 vzorků Óĺóôáöôĺ ôáâőěëő ňďúěďžení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Příklad 3. : Pro údaje z příkladu 2 vypočtěte průměr a rozptyl meze plasticity. (m = 96,67, s2 = 1148,89) Příklad 4. : V datovém souboru, z něhož byl vypočten průměr 110 a rozptyl 800, byly zjištěny 2 chyby: místo 85 má být 95 a místo 120 má být 150. Ostatních 18 údajů je správných. Opravte průměr a rozptyl. (m = 112, s2 = 851) Příklad 5. :Pro údaje z příkladu 1 sestrojte krabicový diagram. (Pomocné výpočty: x0,50 = 2,5, x0,25 = 1, x0,75 = 4, q = 3, dolní vnitřní hradba = -3,5, horní vnitřní hradba = 8,5) Práce se systémem STATISTICA Téma: Grafické a tabulkové zpracování četností, výpočet číselných charakteristik, diagnostické grafy Vedení pojišťovny (zaměřené na pojištění automobilů) požádalo manažera oddělení marketingového výzkumu o provedení průzkumu, který by ukázal názory zákazníků na uvažovaný nový systém pojištění aut. Náhodně bylo vybráno 110 současných zákazníků pojišťovny a ti byli telefonicky seznámeni s následujícím textem: "Naše pojišťovna nabízí nový systém pojištění aut výhradně pro cesty nad 300 km. Za roční poplatek 12 tisíc Kč budete pojištěni pro případ libovolných potíží s autem při všech cestách nad 300 km. V případě nehody pojišťovna uhradí opravu, cestovní náklady a popř. i některé další výlohy, jako je ubytování a stravování v hotelu, telefon atd. Stupnicí od 1 (jednoznačný nezájem) do 5 (jednoznačný zájem) laskavě vyjádřete svůj postoj k nabízenému novému typu pojištění. Dále uveďte svůj věk, počet cest nad 300 km v loňském roce, stáří vašeho auta a váš rodinný stav. Děkujeme." Získané odpovědi byly zaznamenány do datového souboru a zakódovány takto: POSTOJ ... postoj k novému typu pojištění (ne = 1, asi ne = 2, nevím = 3, asi ano = 4, ano = 5). RODSTAV ... rodinný stav (svobodný = 1, rozvedený, ovdovělý = 2, ženatý = 3). VEK ... věk v dokončených letech. STARIAUT ... stáří auta v letech. CESTY ... počet cest nad 300 km v předešlém roce. Úkoly: 1. Datový soubor pojist.sta načtěte do systému STATISTICA. Všem proměnným vytvořte návěští a popište význam jednotlivých variant proměnných POSTOJ a RODSTAV. Návod: File -- Open -- Soubory typu Data Files -- pojist.sta -- Otevřít. Názvy a vlastnosti proměnných se upravují v okně, do něhož vstoupíte, když 2x kliknete myší na název proměnné. Návěští se píše do Long Name, význam variant do Text labels. 2. Zjistěte absolutní a relativní četnosti a absolutní a relativní kumulativní četnosti proměnných POSTOJ a RODSTAV. Návod: Statistics -- Basic Statistics/Tables -- Frequency Tables -- OK -- Variables POSTOJ, RODSTAV -- OK -- Summary Frequency tables. Tabulky se uloží do workbooku, listovat v nich můžete pomocí stromové struktury v levém okně. 3. Proměnnou VEK zakódujte do 6 třídicích intervalů <23,29>, (29,35>, (35,41>, (41,47>, (47,53>, (53,59> a zjistěte jejich četnosti. Návod: Za VEK vložte novou proměnnou RVEK (Insert -- Add Variables --After VEK, Name RVEK, Type Integer, Long Name zakódovaný věk, OK). Nastavte se kurzorem na RVEK. Data -- Recode -- Category 1 Include If VEK >=23 and VEK <=29, New Value1, value1 atd. až Category 7 Include If VEK > 53 and VEK <=59, New Value 7 value 7, OK. Četnosti zjistíte analogicky jako v bodě 2. 4. Vypočtěte následující číselné charakteristiky: POSTOJ (ordinální proměnná) -- modus, medián, dolní a horní kvartil, kvartilová odchylka. RODSTAV (nominální proměnná) -- modus. VEK, STARIAUT, CESTY (poměrové proměnné) -- modus, medián, průměr, minimum, maximum, směrodatná odchylka, rozptyl, šikmost, špičatost. Návod: Statistics -- Basic Statistics/Tables - Descriptive Statistics -- OK, Variables -- název proměnné, Advanced -- vyberte příslušné charakteristiky (modus -- Mode, medián -- Median, průměr -- Mean, směrodatná odchylka -- Standard Deviation, rozptyl -- Variance, šikmost -- Skewness, špičatost -- Kurtosis, dolní a horní kvartil -- Lower&upper quartiles, kvartilová odchylka -- Quartile range). 5. Vytvořte sloupkový diagram, výsečový graf a polygon četností proměnných POSTOJ a RODSTAV. Návod: Sloupkový diagram: Graphs -- Histograms -- Variables POSTOJ, OK, Advanced -- Fit type Off, zaškrtneme Breaks between Columns, Y Axis %&N, OK. Výsečový graf: Graphs -- 2D Graphs -- Pie Charts -- Variables POSTOJ, OK, Advanced - Pie legend Text and Percent, OK. Polygon četností: ve workbooku vstupte do tabulky rozložení četností proměnné POSTOJ. Pomocí Edit -- Delete - Cases vymažte řádek označený Missing. Nastavte se kurzorem na Count a kliknutím pravého tlačítka vstupte do menu Line Plot: Entire Columns. Vytvoří se polygon četností. 6. Vytvořte histogram proměnné VEK se šesti třídicími intervaly <23,29>, (29,35>, (35,41>, (41,47>, (47,53>, (53,59>. Návod: Graphs -- Histograms -- Variables VEK, OK, Advanced -- zaškrtněte Boundaries -- Specify Boundaries -- Enter Upper Boundaries 29 35 41 47 53 59, OK. 7. Vytvořte kategorizovaný histogram proměnné VEK podle proměnné RODSTAV. Návod: Postupujte stejně jako v předešlém případě a zvolte Categorized -- X-categoried ON -- Change Variable RODSTAV, OK, Codes -- Specify Codes All, OK, OK. 8. Zjistěte, jaký je průměrný počet cest nad 300 km pro svobodné, rozvedené , ženaté zákazníky pojišťovny. Návod: Postupujte stejně jako v úkolu č. 4, ale klikněte na SELECT CASES -- zaškrtněte Enable Selection Conditions -- Include cases -- zaškrtněte Specific, selected by, By Expression RODSTAV = 1, OK. Pro rozvedené či ženaté zákazníky použijete RODSTAV = 2 či RODSTAV = 3, 9. Sestrojte krabicový diagram proměnné CESTY. S jeho pomocí zjistěte, zda proměnná CESTY obsahuje odlehlé či extrémní hodnoty. Návod: Graphs -- 2D Graphs -- Box Plots -- Variables -- Dependent variable CESTY -- OK -- OK. Interpretace: Medián je posunut k dolnímu kvartilu, což svědčí o kladně zešikmeném rozložení. Vyskytují se odlehlé i extrémní hodnoty, jedná se tedy o špičaté rozložení. 10. Pro proměnnou STARIAUT sestrojte NP plot a s jeho pomocí posuďte normalitu této proměnné. Návod: Graphs -- 2D Graphs -- Normal Probability Plots -- Variables STARIAUT -- OK. Interpretace: Vzhled NP plot svědčí o kladně zešikmeném rozložení, nejedná se tedy o normální rozložení. 11. Pro proměnnou STARIAUT nakreslete histogram s proloženou hustotou normálního rozložení. Ponechejte implicitní počet třídicích intervalů. Návod: Graphs -- Histograms -- Variables STARIAUT -- OK. Interpretace: Tvar histogramu svědčí o kladně zešikmeném rozložení, jehož hustota neodpovídá hustotě normálního rozložení.