M5VM05 Statistické modelování 1. Průzkumová analýza dat Jan Koláček (kolacek@niath.niuni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno podzim 2013 -i Jan Koláček (PřF MU) M5VM05 Statistické modelo podzim 2013 1/37 Průzkumová analýza jednorozměrných dat Průzkumová analýza dat je odvětví statistiky, které pomocí různých postupů odhaluje zvláštnosti v datech. Při zpracování dat se často používají metody, které jsou založeny na předpokladu, že data pocházejí z nějakého konkrétního rozložení, nejčastěji normálního. Tento předpoklad nemusí být vždy splněn, protože data mohou pocházet z jiného rozložení mohou být zatížena hrubými chybami ► mohou pocházet ze směsi několika rozložení. Proto je důležité provést průzkumovou analýzu dat, abychom se vyvarovali neadekvátního použití statistických metod. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 2/3 Funkcionální charakteristiky datového souboru Označení Na množině objektů {e^,... ,£„} zjišťujeme hodnoty znaku X. Hodnotu znaku X na objektu £,• označíme x-v i = 1,... ,n. V teorii pravděpodobnosti se jim také říká realizace náhodné veličiny X. Tyto hodnoty zaznamenáme do jednorozměrného datového souboru: x = {xi,..., xn) . Uspořádané hodnoty x^ < X(2) < ... < X(n-) tvoří uspořádaný datový soubor: >x{n))'- Vektor X[.] = (*[!],...,*[,.])', kde x^j < ... < X[r], r < n, jsou navzájem různé hodnoty znaku X, se nazývá vektor variant. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 3 / 37 Bodové rozložení četností indikátor množiny : h(x) = [ 1 x E B, 10 x i B. Pro datový soubor x = (x\,... ,xn)' definujeme následující pojmy • absolutní četnost varianty x^: n nJ = ĽI{*\j\}W i=l • relativní četnost varianty x^: Pi = ~ • absolutní kumulativní četnost prvních j variant: Nj = n1 + ... + tij Jan Koláček (PŕF MU) M5VM05 Statistické modelování podzim 2013 4 / 37 • relativní kumulativní četnost prvních j variant: F; = -^=Pl + ...+, • četnostní funkce : p{x) = » empirická distribuční funkce Pj pro x = x^, j = 1, 0 jinak n FM = iEJ(-oo^>(^) i=l Absolutní či relativní četnosti znázorňujeme graficky např. pomocí sloupkového diagramu či polygonu četností. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 5 / 37 Příklad U 30 domácností byl zjišťován počet členů. Počet členů_1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Vytvořte tabulku rozložení četností. Nakreslete grafy četnostní funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností počtu členů domácnosti. Řešení. Tabulka rozložení četností: x\f\ ni P) Ni Fj 1 2 2/30 2 2/30 2 6 6/30 8 8/30 3 4 4/30 12 12/30 4 10 10/30 22 22/30 5 5 5/30 27 27/30 6 3 3/30 30 1 Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 6/37 Příklad - pokračování počet členů domácnosti počet členů domácnosti Obr.: Graf četnostní funkce Obr.: Graf empirické distribuční funkce Koláček (PřF MU) M5VM05 Statistické ] Příklad - pokračování Intervalové rozložení četností ► třídicí intervaly («i, 112), ■ ■ ■, (ur, ur+i) ► doporučuje se volit r blízke \fn. Cetnostní hustota /-tého třídicího intervalu je definována vztahem f> ~ d j kde dj = Uj+i — Uj. Soustava obdélníků sestrojených nad třídicími intervaly, jejichž plochy jsou rovny relativním četnostem, se nazývá histogram . • hustota četnosti: f(x) jfj pro Uj < x < Uj+i, j = 1,..., r I 0 jinak (grafem hustoty četnosti je schodovitá čára shora omezující histogram) Intervalová empirická distribuční funkce : F(x)= Jf(t)dt. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 9 / 37 Příklad U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč). Výdaje_(35,65) (65,95) (95,125) (125,155) (155,185) (185,215) Počet domácností 7 16 27 14 4 2 Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Řešení. Tabulka rozložení četností (m,-,m,-+i> ni P; N,- Fi (35,65) 7 7/70 7/2100 7 7/70 (65,95) 16 16/70 16/2100 23 23/70 (95,125) 27 27/70 27/2100 50 50/70 (125,155) 14 14/70 14/2100 64 64/70 (155,185) 4 4/70 4/2100 68 68/70 (185,215) 2 2/70 2/2100 70 1 Příklad - pokračování 50 100 150 200 výdaje 5 35 65 95 125 155 185 215 235 výdaje Obr.: Histogram Obr.: Graf intervalové empirické distribuční funkce Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 11 / 37 Číselné charakteristiky datového souboru Znaky nominálního typu Nominální škála klasifikuje objekty do určitých předem vymezených tříd či kategorií. Hodnoty v nominální škále se dají vyjádřit slovně a mezi různými hodnotami není definováno žádné uspořádání. Pokud jsou hodnoty nominální škály někdy označovány číselně, mějme na paměti, že toto číslo je pouze jakousi zkratkou (kódem) slovní hodnoty. O znacích měřených v nominální škále hovoříme jako o znacích nominálního typu. Příklady znaků nominálního typu mohou být např.: pohlaví (s možnými hodnotami mužské, ženské) • barva očí (modrá, hnědá, černá) • výsledek léčby (uzdraven, zemřel) • národnost (česká, slovenská, polská, německá, ...) Charakteristikou polohy je modus - nejčetnější varianta či střed nejčetnějšího intervalu. (Modus je jediná charakteristika polohy vhodná pro nominální veličiny). Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 12 / 37 Číselné charakteristiky datového souboru Znaky ordinálního typu Znaky ordinálního typu lze podle sledované vlastnosti nejen rozlišovat, ale také uspořádat ve smyslu vztahů ,je větší", „je menší" nebo „předchází", „následuje", aniž bychom však byli schopni vyjádřit číselně vzdálenost mezi větším a menším či mezi předcházejícím a následujícím. Znaky ordinálního typu mohou být např.: • dosažené vzdělání (základní, střední, vysokoškolské) • prospěch ve školním předmětu (výborně, velmi dobře, dobře, nevyhověl) • stav pacienta (vyléčen, remise, recidíva) • hodnocení funkce technických zařízení (stupně závažnosti poruchy jaderné elektrárny) • hodnocení postojů v sociologických průzkumech (škála má hodnoty např. souhlasím, spíše souhlasím, spíše nesouhlasím, nesouhlasím) • četnost výskytu (často, občas, zřídka, nikdy) Vhodnou charakteristikou polohy je a-kvantil. Je-li a E (0; 1), pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 — a všech dat. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 13 / 37 Číselné charakteristiky datového souboru Pro výpočet a-kvantilu slouží algoritmus: (celé číslo c xa = *(c>+*(c+1> necelé číslo =>■ zaokrouhlíme nahoru na nejbližší celé číslo Xa = X(c) Pro speciálně zvolená a užíváme názvů: • x0,50 ~~ medián • x0,25 ~~ dolní kvartil • x0,75 ~ horní kvartil • • • • >x0,9 ~~ decily • x0fll> • • • /*0,99 ~~ percentily. Jako charakteristika variability slouží kvartilová odchylka : q = Xo,75 — x0,25 ■ Jan Koláček (PŕF MU) M5VM05 Statistické modelování podzim 2013 14 / 37 Příklad Během semestru se studenti podrobili písemnému testu z matematiky, v němž bylo možno získat 0 až 10 bodů. Výsledky jsou uvedeny v tabulce: Počet bodů 01234 5 6 7 89 10 Počet studentů 1 4 6 7 11 15 19 17 12 6 3 Zjistěte modus, medián, l.decil, 9.decil a kvartilovou odchylku počtu bodů. Řešení. Modus je nejčetnější varianta znaku, v tomto případě tedy 6. Vypočtěme rozsah datového souboru: n = l+ 4+ -- -+ 3 = 101. Výpočty uspořádáme do tabulky. a na c 0,50 50,5 51 6 0,10 10,1 11 2 0,90 90,9 91 8 0,25 25,25 26 4 0,75 75,75 76 7 Kvartilová odchylka: q = 7 — 4 = 3. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 15 / 37 Znaky intervalového a poměrového typu U znaků intervalového typu lze stanovit vzdálenost mezi hodnotami měřené veličiny. Je zde definována jednotka měření, avšak nula je definována pouze relativně. To nám dovoluje proto počítat s rozdíly naměřených hodnot, nikoliv s jejich podíly. Typickým příkladem je teplota, která se dá měřit v různých stupnicích (Celsiova, Fahrenheitova). U znaků poměrového typu lze určit nejen rozdíly (intervaly) mezi hodnotami, ale i podíly hodnot, neboť tyto znaky mají nulu stanovenu absolutně a jednoznačně. Charakteristiky polohy: • Aritmetický průměr x: 1 £ x=~Y^Xi (1) U poměrových znaků, které nabývají pouze kladných hodnot, lze použít • geometrický průměr : (2) Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 16 / 37 Znaky intervalového a poměrového typu Charakteristiky variability: • rozptyl: 1 " • směrodatná odchylka: s = • koeficient variace (pro poměrové znaky): s x n Rozptyl se zpravidla počítá podle vzorce s2 = i xf — i=l Jan Koláček (PŕF MU) M5VM05 Statistické modelování Znaky intervalového a poměrového typu Známe-li absolutní či relativní četnosti variant x^j,... ,x^, můžeme spočítat • vážený průměr : 1 r X=-Lnix\j] (6) nebo • vážený rozptyl: 1 r ;=1 Vážený rozptyl se zpravidla počítá podle vzorce s2 = ^ n,-x2., — x2. j=i Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 18 / 37 Znaky intervalového a poměrového typu Aritmetický průměr a rozptyl jsou speciální případy tzv. momentů. V následující definici obecně zavedeme k-tý počáteční a centrální moment. k-tý počáteční moment: / 1 r m -T x), \íáek= 1,2,... z=l • k-tý centrální moment : 1 " wij. = — (xi — m)k> kde k = 1,2,... n i=l Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 Znaky intervalového a poměrového typu Pomoci 3. a 4. centrálního momentu se definuje šikmost a špičatost: • šikmost : «3 = 5 (10) Só Šikmost měří nesouměrnost rozložení četností kolem průměru. • špičatost: -4 = ^-3 (11) Špičatost měří koncentraci rozložení četností kolem průměru. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 20 / 37 Příklad Pro údaje z příkladu o domácnostech vypočtěte průměr a rozptyl počtu členů domácnosti. Řešení ^5(1-2 + 2-6 + 3 -4 + 4-10 + 5-5 + 6- 3) = ^ = 3,63 s2 = ^ (l2 ■ 2 + 22 ■ 6 + 32 ■ 4 + 42 ■ 10 + 52 ■ 5 + 62 ■ 3) 1,965 (W\2 _ 1769 l 30 ) 900 Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 21 / 37 Příklad Nechť x je průměr a rozptyl hodnot X\,... ,xn. Nechť a, b jsou reálné konstanty. Položme y,- = a + bxi, i = 1,..., n. Vypočtěte průměr y a rozptyl s| hodnot x/i, ... ,y„. Řešení n n n y=lĽyi = lĽ{a + bxi) =a + b\ 1£xi = a + bx, z'=l z'=l z'=l s22 = lí (Vi -y)2 = lĽ(a + bxi - a - bxf = b11- £ (z* - xf = b2s\. i=l i=l i=l Jan Koláček (PŕF MU) M5VM05 Statistické modelování podzim 2013 22 / 37 Diagnostické grafy Krabicový diagram (Box plot) Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Můžete se setkat i z názvem box plot. Krabicový diagram je specifikován těmito pojmy: • Dolní vnitřní hradba : Horní vnitřní hradba: Dolní vnější hradba: Horní vnější hradba: *0,25 - 1/ 5í? *0,75 + 1, 5í7 xo,25 — 3<7 *0,75 + 3í? Odlehlá hodnota je hodnota, která leží mezi vnitřními a vnějšími hradbami. Extrémní hodnota je hodnota, která leží za vnějšími hradbami. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 23 / 37 Diagnostické grafy Způsob konstrukce krabicového diagramu: o o o odlehlá pozorování horní vnitřní hradba Xq.75 + 1-5 q Jan Koláček (PřF MU) M5VM05 Statistické modelo Příklad Pro data z příkladu o domácnostech sestrojte krabicový diagram. Počet členů_1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Řešení. Rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky. a na c 0,25 7,5 8 X(c) = X(g) 2 0,50 15 15 *(15)+*(16) 4 0,75 22,5 23 X(c) = X(23) 5 í/ = 5 — 2 = 3 Dolní vnitřní hradba: Xo,25 — í,5q = 2 — 1,5.3 = —2,5 Horní vnitřní hradba: + 1,5^ = 5 + 1,5.3 = 9,5 Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 25 / 37 Příklad 8 O 2 3 4 5 Obr.: Krabicový diagram Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 26 / 37 Diagnostické grafy Normál probability plot (N-P plot) N-P plot konstruujeme tak, že na vodorovnou osu vynášíme uspořádané hodnoty X(!j < ■ ■ ■ < X svislou osu kvantily normálního rozdělení ««., kde ' - 3i~1 3n + ľ , Jsou-li některé hodnoty x^ < ■ ■ ■ < x^ stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. • Pocházejí-li data z normálního rozložení, pak budou všechny dvojice ix^,ua.) ležet na přímce. • Pro data z rozložení s kladnou šikmostí se budou dvojice yx^yua.J řadit do konkávni křivky. • Pro data z rozložení se zápornou šikmostí se budou dvojice [x^,ua. řadit do konvexní křivky. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 27 / 37 Diagnostické grafy Quantile - quantile plot (Q-Q plot) Q-Q plot konstruujeme tak, že na svislou osu vynášíme uspořádané hodnoty *(i) < ■ ■ ■ < x{n) a na vodorovnou osu kvantily Ka.(X) vybraného rozložení, kde ' ;' " radj O.; = -—, ' n + nadj přičemž ra^ a na^ jsou korigující faktory < 0,5. Implicitně se klade ra^ = 0,375 a nadj = 0,25. Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadují z dat, nebo se volí na základě teoretického modelu. Body (KXj(X),X(j}) se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím lepší je soulad mezi empirickým a teoretickým rozložením. Jsou-li některé hodnoty < ■ ■ ■ < x^ stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 28 / 37 Příklad Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí N-P plotu a Q-Q plotu ověřte, zda se tato data řídí normálním rozložením. Řešení usp. hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 • N-P plot: ;'= (1,5; 3; 4,5; 6,5; 8; 9; 10) oij = fgf = (0,1129; 0,2581; 0,4032; 0,5968; 0,7419; 0,8387; 0,9355) ua = (-1,2112; -0,6493; -0,245; 0,245; 0,6493; 0,9892; 1,5179) Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 29 / 37 Příklad Q-Q plot: ;'= (1,5; 3; 4,5; 6,5; 8; 9; 10) aj = ;—^ = (0,1098; 0,2561; 0,4024; 0,5976; 0,7439; 0,8415; 0,939) ua = (-1,2278; -0,6554; -0,247; 0,247; 0,6554; 1,0005; 1,566) -0.5 0.0 teoretický kvantil Jan Koláček (PřF MU) M5VM05 Statistické modelován podzim 2013 30 / 37 Diagnostické grafy Probability - probability plot (P-P plot) Spočtou se standardizované hodnoty Z(J) = JŘ^' j=1.....n- Na vodorovnou osu se vynesou hodnoty teoretické distribuční funkce (z^) a na svislou osu hodnoty empirické distribuční funkce F(z^) = j/n. Pokud se body (^>(z^),F(z(j^)) řadí kolem hlavní diagonály čtverce (0,1) x (0,1), lze usuzovat na dobrou shodu empirického a teoretického rozložení. Jsou-li některé hodnoty x^ < ... < x^ stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. Koláček (PřF MU) M5VM05 Statistické i Diagnostické grafy Histogram Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. Např. normálního, Pearsonova, Studentova a jiných. Koláček (PŕF MU) M5VM05 Statistické i Diagnostické grafy Vzhled diagnostických grafů pro rozložení s různou šikmostí Vlastnosti rozložení četností datového souboru se projeví ve vzhledu histogramu, N-P plotu a krabicového diagramu, jak ukazují následující obrázky: Rozložení s kladnou šikmostí Normální rozložení Rozložení se zápornou šikmostí Obr.: Histogramy Jan Koláček (PřF MU) M5VM05 Statistické i Úlohy k procvičení Příklad 1.1 U 20 studentů 1. ročníku byla zjišťována známka z matematiky na prvním zkušebním termínu. Známka 12 3 4 Počet studentů 7 3 2 8 Vytvořte tabulku rozložení četností. Nakreslete grafy četnostní funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností známek. Koláček (PřF MU) M5VM05 Statistické i Úlohy k procvičení Příklad 1.2 U 60 vzorků oceli byla zjišťována mez plasticity. Mez plasticity (30,50) (50,70) (70,90) (90,110) (110,130) (130,150) (150,170) Počet vzorků 8 4 13 15 9 7 4 Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Příklad 1.3 Pro údaje z příkladu 1.2 vypočtěte průměr a rozptyl meze plasticity. [X = 96,67, s2 = 1148,89] Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 36 / 37 Úlohy k procvičení Příklad 1.4 V datovém souboru, z něhož byl vypočten průměr 110 a rozptyl 800, byly zjištěny 2 chyby: místo 85 má být 95 a místo 120 má být 150. Ostatních 18 údajů je správných. Opravte průměr a rozptyl. [x = 112, s2 = 851] Příklad 1.5 Pro údaje z příkladu 1.1 sestrojte krabicový diagram. 1*0,50 = 2,5, Xo,25 = 1, *o,75 = 4, c\ = 3, dolní vnitřní hradba = —3,5, horní vnitřní hradba = 8,5] Koláček (PřF MU) M5VM05 Statistické i