M5VM05 Statistické modelování 1. Průzkumová analýza dat Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modelování 1/37 Průzkumová analýza jednorozměrných dat Průzkumová analýza dat je odvětví statistiky, které pomocí různých postupů odhaluje zvláštnosti v datech. Při zpracování dat se často používají metody, které jsou založeny na předpokladu, že data pocházejí z nějakého konkrétního rozložení, nejčastěji normálního. Tento předpoklad nemusí být vždy splněn, protože data mohou pocházet z jiného rozložení mohou být zatížena hrubými chybami mohou pocházet ze směsi několika rozložení. Proto je důležité provést průzkumovou analýzu dat, abychom se vyvarovali neadekvátního použití statistických metod. Jan Koláček (PřF MU) M5VM05 Statistické modelování 2/37 Funkcionální charakteristiky datového souboru Označení Na množině objektů {či,...,£n} zjišťujeme hodnoty znaku X. Hodnotu znaku X na objektu £j označíme X\,i = 1,... ,n. V teorii pravděpodobnosti se jim také říká realizace náhodné veličiny X. Tyto hodnoty zaznamenáme do jednorozměrného datového souboru: Uspořádané hodnoty < X(2) < ... < x^ tvoří uspořádaný datový soubor: x(-) = (*(1)/- • -/*(n))'- Vektor x [.] — (*[!]/• • - rx[r])'' kde x^j < ... < Xjr], r ü -I—' o c "O o (d ü -xĺ C 'E >ü -t—» w TD O i_ Q_ E cd -I—' O c "O o počet členů domácnosti počet členů domácnosti Obr. : Graf četnost n f funkce Obr. : Graf empirické distribuční f u n kce Jan Koláček (PřF MU) M5VM05 Statistické modelování 7/ Příklad — pokračování CD Q. 3 4 počet členů domácnosti -CO > o o N O cl -t—> CĽ >o o Cl počet členů domácnosti Obr. : Sloupkový diagram Obr. : Polygon četností Jan Koláček (PřF MU) M5VM05 Statistické modelování 8/ Intervalové rozložení četností třídicí intervaly {u\, 112),..., {uľ, ur+\ doporučuje se volit r blízke y/ň. Cetnostní hustota j-tého třídicího intervalu je definována vztahem h dj kde dj = Uj+i — Uj. Soustava obdélníků sestrojených nad třídicími intervaly, jejich plochy jsou rovny relativním četnostem, se nazývá histogram . hustota četnosti 1 0 jinak (grafem hustoty četnosti je schodovitá čára shora omezující histogram) Intervalová empirická distribuční funkce : X F(x) = í f(t)dt. Jan Koláček (PřF MU) 00 M5VM05 Statistické modelování Příklad U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč). Výdaje_(35,65) (65,95) (95,125) (125,155) (155,185) (185,215) Počet domácností 7 16 27 14 4 2 Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Řešení. Tabulka rozložení četností (Uj, Uj+i) rij Pj fj Ni (35,65) 7 7/70 V '2100 7 7/70 (65,95) 16 16/70 !6 /2100 23 23/70 (95,125) 27 27/70 2ľ' /2100 50 50/70 (125,155) 14 14/70 14 /2100 64 64/70 (155,185) 4 4/70 4/ '2100 68 68/70 (185,215) 2 2/70 2/ '2100 70 1 Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad — pokračování i-1-1-1 i-1-1-1-1-1-1-1-1 50 100 150 200 5 35 65 95 125 155 185 215 235 výdaje výdaje Obr. : Histogram Obr. : Graf intervalové empirické distribuční funkce Jan Koláček (PřF MU) M5VM05 Statistické modelování Číselné charakteristiky datového souboru Znaky nominálního typu Nominální škála klasifikuje objekty do určitých předem vymezených tříd či kategorií. Hodnoty v nominální škále se dají vyjádřit slovně a mezi různými hodnotami není definováno žádné uspořádání. Pokud jsou hodnoty nominální škály někdy označovány číselně, mějme na paměti, že toto číslo je pouze jakousi zkratkou (kódem) slovní hodnoty. O znacích měřených v nominální škále hovoříme jako o znacích nominálního typu. Příklady znaků nominálního typu mohou být např.: o pohlaví (s možnými hodnotami mužské, ženské) • barva očí (modrá, hnědá, černá) o výsledek léčby (uzdraven, zemřel) a národnost (česká, slovenská, polská, německá, ...) Charakteristikou polohy je modus - nejčetnější varianta či střed nejčetnějšího intervalu. (Modus je jediná charakteristika polohy vhodná pro nominální veličiny). Jan Koláček (PřF MU) M5VM05 Statistické modelování 12/37 Číselné charakteristiky datového souboru Znaky ordinálního typu Znaky ordinálního typu lze podle sledované vlastnosti nejen rozlišovat, ale také uspořádat ve smyslu vztahů „je větší", „je menší" nebo „předchází", „následuje", aniž bychom však byli schopni vyjádřit číselně vzdálenost mezi větším a menším či mezi předcházejícím a následujícím. Znaky ordinálního typu mohou být např.: • dosažené vzdělání (základní, střední, vysokoškolské) • prospěch ve školním předmětu (výborně, velmi dobře, dobře, nevyhověl) o stav pacienta (vyléčen, remise, recidiva) • hodnocení funkce technických zařízení (stupně závažnosti poruchy jaderné elektrárny) a hodnocení postojů v sociologických průzkumech (škála má hodnoty např. souhlasím, spíše souhlasím, spíše nesouhlasím, nesouhlasím) • četnost výskytu (často, občas, zřídka, nikdy) Vhodnou charakteristikou polohy je #-kvantil . Je-li oc £ (0;1), pak #-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl oc všech dat a na horní úsek obsahující aspoň podíl 1 — oc všech dat. Jan Koláček (PřF MU) M5VM05 Statistické modelování 13 / 37 Číselné charakteristiky datového souboru Pro výpočet #-kvantilu slouží algoritmus: noc = < celé číslo c necelé číslo _ *(c)+*(c+l) zaokrouhlíme nahoru na nejbližší celé číslo xoc x[c) Pro speciálně zvolená oc užíváme názvů: 9 x0,50 ~ nnedián 9 x0,25 ~ dolní kvartil 9 x0,75 ~ horní kvartil « xq,1/ • • • /xo,9 ~ decily 9 xo,oi/ - • • /xo,99 ~ percentily. Jako charakteristika variability slouží kvartilová odchylka 9 — *o,75 — x0,25 Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Během semestru se studenti podrobili písemnému testu z matematiky, v němž bylo možno získat 0 až 10 bodů. Výsledky jsou uvedeny v tabulce: Počet bodů 0123456789 10 Počet studentů 1 4 6 7 11 15 19 17 12 6 3~~ Zjistěte modus, medián, l.decil, 9. decil a kvartilovou odchylku počtu bodů. Řešení. Modus je nejčetnější varianta znaku, v tomto případě tedy 6. Vypočtěme rozsah datového souboru: n = l+ 4+ -- -+ 3 = 101. Výpočty uspořádáme do tabulky. a. na. c 0,50 50,5 51 6 0,10 10,1 11 2 0,90 90,9 91 8 0,25 25,25 26 4 0,75 75,75 76 7 Kvartilová odchylka: q = 7 — 4 = 3. Jan Koláček (PřF MU) M5VM05 Statistické modelování 15/37 Znaky intervalového a poměrového typu U znaků intervalového typu lze stanovit vzdálenost mezi hodnotami měřené veličiny. Je zde definována jednotka měření, avšak nula je definována pouze relativně. To nám dovoluje proto počítat s rozdíly naměřených hodnot, nikoliv s jejich podíly. Typickým příkladem je teplota, která se dá měřit v různých stupnicích (Celsiova, Fahrenheitova). U znaků poměrového typu lze určit nejen rozdíly (intervaly) mezi hodnotami, ale i podíly hodnot, nebot tyto znaky mají nulu stanovenu absolutně a jednoznačně. Charakteristiky polohy: • Aritmetický průměr x: U poměrových znaků, které nabývají pouze kladných hodnot, lze použít • geometrický průměr: (i) \/X\ •... • xn (2) Jan Koláček (PřF MU) M5VM05 Statistické modelování 16/37 Znaky intervalového a poměrového typu Charakteristiky variability roz ptyl : 1 n směrodatná odchylka s = v s2 koeficient variace (pro poměrové znaky) s Rozptyl se zpravidla počítá podle vzorce s2 = ^ ^ x? — x2 z=l Jan Koláček (PřF MU) M5VM05 Statistické modelování Znaky intervalového a poměrového typu Známe-li absolutní či relativní četnosti variant x^j,... ,X[rj, můžeme spočítat • vážený průměr: nebo 1 r * = ň Ľ nix\j] (6) i=1 • vážený rozptyl : 1 r s2 = -Lnj(x\j]-*)2 (7) r Vážený rozptyl se zpravidla počítá podle vzorce s2 = ^ ^ — x2. Jan Koláček (PřF MU) M5VM05 Statistické modelování 18 / 37 Znaky intervalového a poměrového typu Aritmetický průměr a rozptyl jsou speciální případy tzv. momentů. V následující definici obecně zavedeme fc-tý počáteční a centrální moment. • fc-tý počáteční moment: 1 n mfk = -J^ x\, kdefc = l,2,... (8) • fc-tý centrální moment: 1 n m^ — — Y^(xz- — m)k, kdefc=l,2,... (9) n , i=i Jan Koláček (PřF MU) M5VM05 Statistické modelování 19 / 37 Znaky intervalového a poměrového typu Pomoci 3. a 4. centrálního momentu se definuje šikmost a špičatost • šikmost: Sikmost měří nesouměrnost rozložení četností kolem průměru • špičatost: = —r - 3 Špičatost měří koncentraci rozložení četností kolem průměru. Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Pro údaje z příkladu o domácnostech vypočtěte průměr a rozptyl počtu členů domácnosti. Řešení x=^(l.2 + 2-6 + 3-4 + 4-10 + 5-5 + 6-3) = =3,63 s2 = ^(12 . 2 + 22 . 6 + 32 . 4 + 42.1o + 5+5 + 62-3)- (^) =i$ = 1,965 Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Nechť x je průměr a s\ rozptyl hodnot X\,... ,xn. Nechť a,b jsou reálné konstanty. Položme yi = a + bx\, Vypočtěte průměr y a rozptyl hodnot y i / • • • / y n ■ Řešení y = \ E 3/z = \ E (0 + =a + bTi L*i = a + bx, i=l i=l i=l Š = \í (y, - y)2 = \ Ľ (« + - a - bx)2 = b2\ E (Xi - x)2 = b2s\. i=l i=l i=l Jan Koláček (PřF MU) M5VM05 Statistické modelování 22 / 37 Diagnostické grafy Krabicový diagram (Box plot) Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Můžete se setkat i z názvem box plot. Krabicový diagram je specifikován těmito pojmy: • Dolní vnitřní hradba : Horní vnitřní hradba : Dolní vnější hradba : Horní vnější hradba : *o,25 - 1/ 5q xo,25 — 3q x0,75 + 3íJ Odlehlá hodnota je hodnota, která leží mezi vnitřními a vnějšími hradbami Extrémní hodnota je hodnota, která leží za vnějšími hradbami. Jan Koláček (PřF MU) M5VM05 Statistické modelování 23 / 37 Diagnostické grafy Způsob konstrukce krabicového diagramu: dolní kvartil *0.25 horní kvartil *0.75 O O o odlehlá pozorovaní medián *0.5 horní vnitřní hradba xq.75 +1-5 q Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Pro data z příkladu o domácnostech sestrojte krabicový diagram. Počet členů_1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Řešení. Rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky. a na. c "X-a 0,25 7,5 8 x(c) — x(8) 2 0,50 15 15 x(15)+x(16) 2 4 0,75 22,5 23 x(c) = x(23) 5 q = 5-2 = 3 Dolní vnitřní hradba: Xq,25 — 1,5íj = 2 — 1,5.3 = —2,5 Horní vnitřní hradba: Xq/75 + 1,5^ = 5 + 1,5.3 = 9,5 Jan Koláček (PřF MU) M5VM05 Statistické modelování 25/ Příklad Obr. : Krabicový diagram Jan Koláček (PřF MU) M5VM05 Statistické modelování 26 Diagnostické grafy Normál probability plot (N-P plot) N-P plot konstruujeme tak, že na vodorovnou osu vynášíme uspořádané hodnoty *(l) < • • • < x (n) a na svislou osu kvantily normálního rozdělení kde _ 3J~1 Jsou-li některé hodnoty < • • • < x^ stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. • Pocházejí-li data z normálního rozložení, pak budou všechny dvojice • Pro data z rozložení s kladnou šikmostí se budou dvojice [x^yu^ řadit do konkávni křivky. o Pro data z rozložení se zápornou šikmostí se budou dvojice (x^yu^ řadit do konvexní křivky. Jan Koláček (PřF MU) M5VM05 Statistické modelování 27/37 Diagnostické grafy Quantile - quantile plot (Q-Q plot) Q-Q plot konstruujeme tak, že na svislou osu vynášíme uspořádané hodnoty < • • • < x(n) a na vodorovnou osu kvantily Xa.(X) vybraného rozložení, kde ] ~ ^adi J n + nadj přičemž ra^ a n^j jsou korigující faktory < 0,5. Implicitně se klade r^j = 0,375 a nadj = 0,25. Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadují z dat, nebo se volí na základě teoretického modelu. Body (X^.(X),x^) se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím lepší je soulad mezi empirickým a teoretickým rozložením. Jsou-li některé hodnoty x^ < • • • < x^ stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. Jan Koláček (PřF MU) M5VM05 Statistické modelování 28 / 37 Příklad Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí N-P plotu a Q-Q plotu ověřte, zda se tato data řídí normálním rozložením. Řešení usp. hod noty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 • N-P plot: / = (1,5; 3; 4,5; 6,5; 8; 9; 10) a. = Jg_ = (0,1129; 0,2581; 0,4032; 0,5968; 0,7419; 0,8387; 0,9355) ua. = (-1,2112; -0,6493; -0,245; 0,245; 0,6493; 0,9892; 1,5179) Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Q-Q plot: j =(1,5; 3; 4,5; 6,5; 8; 9; 10) - = (0,1098; 0,2561; 0,4024; 0,5976; 0,7439; 0,8415; 0,939) aj ~ n+0,25 ua. = (-1,2278; -0,6554; -0,247; 0,247; 0,6554; 1,0005; 1,566) Jan Koláček (PřF MU) M5VM05 Statistické modelování 30 / 37 Diagnostické grafy Probability - probability plot (P-P plot) Spočtou se standardizované hodnoty X X ^(j) ~ ' ] \f . . . fľl. Na vodorovnou osu se vynesou hodnoty teoretické distribuční funkce O(z^) a na svislou osu hodnoty empirické distribuční funkce F(z^) = j/n. Pokud se body ((zy)),F(zy))) řadí kolem hlavní diagonály čtverce (0,1) x (0,1), lze usuzovat na dobrou shodu empirického a teoretického rozložení. Jsou-li některé hodnoty < ... < stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. Jan Koláček (PřF MU) M5VM05 Statistické modelování 31/37 Diagnostické grafy Histogram Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. Např. normálního, Pearsonova, Studentova a jiných. Jan Koláček (PřF MU) M5VM05 Statistické modelování 32 Diagnostické grafy Vzhled diagnostických grafů pro rozložení s různou šikmostí Vlastnosti rozložení četností datového souboru se projeví ve vzhledu histogramu, N-P plotu a krabicového diagramu, jak ukazují následující obrázky: Rozložení s kladnou Normální rozložení Rozložení se zápornou šikmostí šikmostí Obr. : Histogramy Obr. : N-P plot Obr. : Box plot Jan Koláček (PřF MU) M5VM05 Statistické modelování Úlohy k procvičení Příklad 1 U 20 studentů 1. ročníku byla zjišťována známka z matematiky na prvním zkušebním termínu. Známka 12 3 4 Počet studentů 7 3 2 8 Vytvořte tabulku rozložení četností Nakreslete grafy četnostní funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností známek. Jan Koláček (PřF MU) M5VM05 Statistické modelování 35 / 37 Úlohy k procvičení Příklad 2 U 60 vzorků oceli byla zjišťována mez plasticity. Mez plasticity (30,50) (50,70) (70,90) (90,110) (110,130) (130,150) (150,170) Počet vzorků 8 4 13 15 9 7 4 Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Příklad 3 | Pro údaje z příkladu 2 vypočtěte průměr a rozptyl meze plasticity. I /ž = 96,67, s2 = 1148,897 I Jan Koláček (PřF MU) M5VM05 Statistické modelování 36 / 37 Úlohy k procvičení Příklad 4 V datovém souboru, z něhož byl vypočten průměr 110 a rozptyl 800, byly zjištěny 2 chyby: místo 85 má být 95 a místo 120 má být 150. Ostatních 18 údajů je správných. Opravte průměr a rozptyl. [x = 112, s2 = 85iy Příklad 5 i Pro údaje z příkladu 1 sestrojte krabicový diagram. I [x0,50 = 2,5, Xo,25 = 1/ xo,75 = 4, g = 3, dolní vnitřní hradba = —3,5, ňorn/l vnitřní hradba = 8,5/ Jan Koláček (PřF MU) M5VM05 Statistické modelování 37/37