Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Matematika III – 8. týden Jak na statistiku? Jan Slovák Masarykova univerzita Fakulta informatiky 9. 11. – 13. 11. 2015 Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Obsah přednášky 1 Literatura 2 Co je statistika? 3 Popisná statistika Míry polohy statistických znaků Míry variability statistických znaků 4 Pravděpodobnost 5 Náhodné veličiny Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Plán přednášky 1 Literatura 2 Co je statistika? 3 Popisná statistika Míry polohy statistických znaků Míry variability statistických znaků 4 Pravděpodobnost 5 Náhodné veličiny Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Kde je dobré číst? Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická pravděpodobnost statistika, Matfyzpress, 2006, 230pp. J. Slovák, M. Panák, M. Bulant, Matematika drsně a svižně, Muni Press, Brno 2013, v+773 s., elektronická edice www.math.muni.cz/Matematika_drsne_svizne Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. Marie Budíková, Tomáš Lerch, Štěpán Mikoláš, Základní statistické metody, Masarykova univerzita, 2005, 170 stran, ISBN 80-210-3886-1. Riley, K.F., Hobson, M.P., Bence, S.J. Mathematical Methods for Physics and Engineering, second edition, Cambridge University Press, Cambridge 2004, ISBN 0 521 89067 5, xxiii + 1232 pp. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Plán přednášky 1 Literatura 2 Co je statistika? 3 Popisná statistika Míry polohy statistických znaků Míry variability statistických znaků 4 Pravděpodobnost 5 Náhodné veličiny Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Statistika v širším slova smyslu = jakékoliv zpracování číselných dat o nějakém souboru objektů a jejich (více či méně přehledná) prezentace. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Statistika v širším slova smyslu = jakékoliv zpracování číselných dat o nějakém souboru objektů a jejich (více či méně přehledná) prezentace. Podstatou matematické statistiky je pro daná data zjišťovat: vlastnosti objektů věrohodnost odvozených výsledků. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Statistika v širším slova smyslu = jakékoliv zpracování číselných dat o nějakém souboru objektů a jejich (více či méně přehledná) prezentace. Podstatou matematické statistiky je pro daná data zjišťovat: vlastnosti objektů věrohodnost odvozených výsledků. Zpravidla jde o data (cíleně nebo náhodně vybrané) části souboru objektů, jejich následnou analýzu a konečně o vyslovení důsledků pozorování pro celý soubor. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Statistika v širším slova smyslu = jakékoliv zpracování číselných dat o nějakém souboru objektů a jejich (více či méně přehledná) prezentace. Podstatou matematické statistiky je pro daná data zjišťovat: vlastnosti objektů věrohodnost odvozených výsledků. Zpravidla jde o data (cíleně nebo náhodně vybrané) části souboru objektů, jejich následnou analýzu a konečně o vyslovení důsledků pozorování pro celý soubor. Teorie pravděpodobnosti studuje modely popisující chování abstraktních souborů prostřednictvím pravděpodobnosti jevů z jevového pole, matematická statistika studuje skutečné náhodné výběry z nějakého základního souboru a zdůvodňuje výběr teoretického pravděpodobnostního modelu a kvalitativní informace o jeho parametrech. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Example Za soubor objektů vezměme všechny studenty této přednášky, jako číselný údaj můžeme uvažovat 1 „průměrný počet bodů“ dosažený při hodnocení tohoto předmětu v poslední písemce, 2 průměrnou známku dosaženou u zkoušky z tohoto a z jiných pevně vybraných předmětů, 3 číslená data vypovídající o historii dřívějšího studia, 4 počet pracovních hodin týdně odpracovaných mimo fakultu. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Example Za soubor objektů vezměme všechny studenty této přednášky, jako číselný údaj můžeme uvažovat 1 „průměrný počet bodů“ dosažený při hodnocení tohoto předmětu v poslední písemce, 2 průměrnou známku dosaženou u zkoušky z tohoto a z jiných pevně vybraných předmětů, 3 číslená data vypovídající o historii dřívějšího studia, 4 počet pracovních hodin týdně odpracovaných mimo fakultu. Samotný aritmetický průměr bodů nám mnoho neřekne ani o kvalitě přednášky ani o kvalitě přednášejícího ani o samotném hodnocení. Zajímá nás např. hodnota, která bude „uprostřed souboru“, tj. počet bodů, pro které je stejně studentů pod ní a nad ní. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Example Za soubor objektů vezměme všechny studenty této přednášky, jako číselný údaj můžeme uvažovat 1 „průměrný počet bodů“ dosažený při hodnocení tohoto předmětu v poslední písemce, 2 průměrnou známku dosaženou u zkoušky z tohoto a z jiných pevně vybraných předmětů, 3 číslená data vypovídající o historii dřívějšího studia, 4 počet pracovních hodin týdně odpracovaných mimo fakultu. Samotný aritmetický průměr bodů nám mnoho neřekne ani o kvalitě přednášky ani o kvalitě přednášejícího ani o samotném hodnocení. Zajímá nás např. hodnota, která bude „uprostřed souboru“, tj. počet bodů, pro které je stejně studentů pod ní a nad ní. Obdobně první a poslední čtvrtina, desetina apod. Všem takovým údajům říkáme statistiky posuzované veličiny. V uvedených příkladech se jim říká medián, kvartil, decil apod. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Plán přednášky 1 Literatura 2 Co je statistika? 3 Popisná statistika Míry polohy statistických znaků Míry variability statistických znaků 4 Pravděpodobnost 5 Náhodné veličiny Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Popisná statistika není matematická disciplína ... Jde o dlouho řadu zvyklostí/postupů, jak zpracovávat a prezentovat data, a názvů pro jednotlivé typy sestav dat. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Popisná statistika není matematická disciplína ... Jde o dlouho řadu zvyklostí/postupů, jak zpracovávat a prezentovat data, a názvů pro jednotlivé typy sestav dat. Zpravidla pracujeme se statistickým souborem, který je sestaven ze statistických jednotek. Na statistických jednotkách se pak měří (zjišťují) jednotlivé statistické znaky. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Popisná statistika není matematická disciplína ... Jde o dlouho řadu zvyklostí/postupů, jak zpracovávat a prezentovat data, a názvů pro jednotlivé typy sestav dat. Zpravidla pracujeme se statistickým souborem, který je sestaven ze statistických jednotek. Na statistických jednotkách se pak měří (zjišťují) jednotlivé statistické znaky. Např. souborem mohou být všichni studenti MU, každý zvlášť je pak statistickou jednotkou. O těchto jednotkách pak můžeme schraňovat mnoho znaků – např. všechny číselné hodnoty zjistitelné z ISu, jakou mají nejraději barvu, co snědli večer před poslední písemkou, atd. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Popisná statistika není matematická disciplína ... Jde o dlouho řadu zvyklostí/postupů, jak zpracovávat a prezentovat data, a názvů pro jednotlivé typy sestav dat. Zpravidla pracujeme se statistickým souborem, který je sestaven ze statistických jednotek. Na statistických jednotkách se pak měří (zjišťují) jednotlivé statistické znaky. Např. souborem mohou být všichni studenti MU, každý zvlášť je pak statistickou jednotkou. O těchto jednotkách pak můžeme schraňovat mnoho znaků – např. všechny číselné hodnoty zjistitelné z ISu, jakou mají nejraději barvu, co snědli večer před poslední písemkou, atd. Základním objektem pro zkoumání jednotlivých znaků je pak soubor hodnot. Zpravidla jej máme ve formě uspořádaných hodnot. Uspořádání je buď dáno přirozeně (když jsou hodnotami např. reálná čísla) nebo je můžeme zavést pro určitost (třeba když budeme sledovat barvy, tak je můžeme vyjdřovat v RGB standardu a řadit podle tohoto příznaku). Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Statistický popis chce srozumitelně a přehledně sdělit něco o celém souboru. Musíme proto umět jednotlivé hodnoty nějak porovnovávat a poměřovat. Potřebujeme tedy nějaké měřítko. Podle toho jakého charakteru jsou hodnoty, hovoříme o měřítku: nominálním (mezi hodnotami není žádný vztah, jde pouze o četnosti možných hodnot, např. politická strana v ČR nebo učitelé MU při zkoumání obliby); ordinální (totéž jako předchozí, ale s přidaným uspořádáním, např. počet hvězdiček u hotelu v bedekrech); intervalové (jde o číselné hodnoty, ale jde o porovnání velikostí, nikoliv absolutní hodnotu, např. u měření teplot je poloha nuly dohodnuta, ale není podstatná); poměrové (máme pevně stanovené měřítko a nulu, např. většina fyzikálních veličin). Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny V dalším budeme pracovat se souborem hodnot x1, x2, . . . , xn (které vznikly měřením na n statistických jednotkách) a uspořádáme je do uspořádaného souboru hodnot x(1), x(2), . . . , x(n). Číslo n nazýváme rozsah souboru. Nejjednodušší je u rozsáhlých souborů znaků, které ale připouští jen málo hodnot uvádět pouze četnosti. Např. při průzkumu preferencí politických stran nebo u prezentace kvality hotelové sítě uvádíme u každé možné hodnoty počet jejích výskytů. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Pokud je i možných hodnot více (nebo dokonce připouštíme kontinuální reálné hodnoty), dělíme často možný rozsah hodnot na vhodný počet intervalů a o statistickém znaku uvádíme četnost hodnot v daných intervalech. Intervalům se často říká třídy a počtu znaku ve třídě pak třídní četnost. Používáme také kumulativní třídní četnosti, které vznikají prostým součtem třídních četností s hodnotami nejvýše jako má daná třída. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Pokud je i možných hodnot více (nebo dokonce připouštíme kontinuální reálné hodnoty), dělíme často možný rozsah hodnot na vhodný počet intervalů a o statistickém znaku uvádíme četnost hodnot v daných intervalech. Intervalům se často říká třídy a počtu znaku ve třídě pak třídní četnost. Používáme také kumulativní třídní četnosti, které vznikají prostým součtem třídních četností s hodnotami nejvýše jako má daná třída. Nejčastěji pak uvažujeme střed ai dané třídy za hodnotu, která ji reprezentuje a hodnota ai ni , kde ni je četnost výskytu této třídy představuje celkový příspěvek této třídy. Velmi často také místo četností zobrazujeme relativní četnosti ai /n, resp. relativní kumulativní četnosti. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Graf, který na jedné ose vynáší intervaly jednotlivých tříd a nad nimi obdélníky s výškou rovnou četnosti se nazývá histogram. Obdobně se znázorňuje kumulativní četnost. Na obrázku jsou histogramy souborů o rozsahu n = 500, které vznikly náhodným generováním dat s rozdělením normálním, χ2 a studentovým Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Míry polohy statistických znaků Chceme-li velikost hodnot, kolem kterých se jednotlivá pozorování znaků shromažďují používáme většinou následující: Definition Nechť (x1, . . . , xn) je soubor hodnot měřeného znaku. Průměr (nebo také výběrový průměr) je dán ¯x = 1 n n i=1 xi = 1 n m j=1 nj aj ; Geometrický průměr je dán ¯xG = n √ x1x2 · · · xn a má smysl pouze u kladných hodnot znaků. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Definition (pokračování ...) Harmonický průměr je dán ¯xH = 1 n n i=1 1 xi −1 a je také definován jen pro kladné hodnoty znaků. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Definition (pokračování ...) Harmonický průměr je dán ¯xH = 1 n n i=1 1 xi −1 a je také definován jen pro kladné hodnoty znaků. Výběrový průměr je jediný invariantní vůči afinním transormacím, tj. pro libovolné skaláry a, b platí (a + b · x) = a + b · ¯x. Ostatní průměry jsou proto nevhodné pro intervalová měřítka. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Definition (pokračování ...) Harmonický průměr je dán ¯xH = 1 n n i=1 1 xi −1 a je také definován jen pro kladné hodnoty znaků. Výběrový průměr je jediný invariantní vůči afinním transormacím, tj. pro libovolné skaláry a, b platí (a + b · x) = a + b · ¯x. Ostatní průměry jsou proto nevhodné pro intervalová měřítka. Logaritmus geometrického průměru je obyčejný průměr logaritmů znaků. Je obzvlášť vhodný pro znaky, které se kumulují multiplikativně, např. úrokové míry. Je-li totiž úroková míra v jednotlivých časových jednotkách xi %, bude za celé období výsledek takový, jakoby byla konstatní úroková míra ¯x%. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Definition (pokračování ...) Harmonický průměr je dán ¯xH = 1 n n i=1 1 xi −1 a je také definován jen pro kladné hodnoty znaků. Výběrový průměr je jediný invariantní vůči afinním transormacím, tj. pro libovolné skaláry a, b platí (a + b · x) = a + b · ¯x. Ostatní průměry jsou proto nevhodné pro intervalová měřítka. Logaritmus geometrického průměru je obyčejný průměr logaritmů znaků. Je obzvlášť vhodný pro znaky, které se kumulují multiplikativně, např. úrokové míry. Je-li totiž úroková míra v jednotlivých časových jednotkách xi %, bude za celé období výsledek takový, jakoby byla konstatní úroková míra ¯x%. Platí ¯xH ≤ ¯xG ≤ ¯x. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Medián, kvartil, decil, percentil, ... Jiný způsob vyjádření míry, jakou hodnotu nabývají znaky je najít pro číslo α mezi nulou a jedničkou takovou hodnotu xα, aby 100α% hodnot znaku bylo nejvýše xα a zbylé byly alespoň xα. Pokud takový znak není určen jednoznačně, volíme zpravidla průměr mezi dvěmi možnými hodnotami. Nejobvyklejší jsou: medián (často také výběrový medián) definovaný vztahem ˜x = x( n+1 2 ) pro liché n a ˜x = 1 2 (x(n/2)+x(n/2+1)); dolní a horní kvartil Q1 = x0,25 a Q3 = x0,75; p-tý kvantil (též výběrový kvantil nebo percentil) xp, kde 0 < p < 1 (zpravidla zadaný na dvě desetinná místa). Lze se setkat také s hodnotou modus, která udává hodnotu znaku s největší četností. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Míry variability statistických znaků Rozumným požadavkem na jakoukoliv míru variability je její invariance vůči konstantním posunutím. Definition Rozptyl souboru znaků x je definován vztahem s2 x = 1 n n i=1 (xi − ¯xi )2 = 1 n m j=1 nj (aj − ¯x)2 případně v jmenovateli zlomku používáme (n − 1). Směrodatná odchylka je dána jako odmocnina z výběrového rozptylu. Rozpětí výběru je R = x(n) − x(1), kvartilové rozpětí je Q = Q3 − Q1. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Rozptyl je „zprůměrovaný kvadrát“ standardní euklidovské vzdálenosti vektoru výběrových hodnot od jejich střední hodnoty. Díky této definici se chová velice přirozeně a budeme se s ním často potkávat. Používá se také tzv. průměrná odchylka dx = 1 n n i=1 |xi − ˜x|. Všimněme si, že tady jde o skutečný průměr vzdáleností hodnot znaků, ovšem od mediánu! Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Rozptyl je „zprůměrovaný kvadrát“ standardní euklidovské vzdálenosti vektoru výběrových hodnot od jejich střední hodnoty. Díky této definici se chová velice přirozeně a budeme se s ním často potkávat. Používá se také tzv. průměrná odchylka dx = 1 n n i=1 |xi − ˜x|. Všimněme si, že tady jde o skutečný průměr vzdáleností hodnot znaků, ovšem od mediánu! Následující věta říká, proč zrovna tyto míry volíme: Theorem Funkce S(t) = (1/n) n i=1(xi − t)2 nabývá svého minima pro t = ¯x, tj. pro výběrový průměr. Funkce D(t) = (1/n) n i=1 |xi − t| nabývá svého minima pro t = ˜x, tj. pro medián. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Diagramy Pro rychlé vstřebávání složitěji strukturovaných informací je člověk skvěle vybaven zrakově. Proto se pro zobrazení statistiky jednotlivých znaků nebo jejich korelací používá mnoho standardizovaných nástrojů. Jedním z nich jsou tzv. krabicové diagramy. Střední linka je medián, kraje boxu jsou kvartily, "packy"ukazují 1,5 kvartilového rozsahu, ne však víc než kraje rozsahu výběru, případné hodnoty mimo jsou přímo naznačeny body. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Běžné zobrazovací nástroje nám umožnějí dobře vidět případné závislosti dvou výběrů zjištěných znaků. Např. na obrázku jsou za souřadnice voleny hodnoty ze dvou nezávislých výběrů z normálních rozdělení se střední hodnotou 1 a rozptylem 1. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Entropie Variabilitu chceme postihnout i u nominálních typů znaků. K dispozici máme jen třídní četnosti a můžeme tedy relativní četnost i-té třídy, pi = ni n , vnímat jako pravděpodobnost, že náhodně vybraný prvek bude v této třídě. Podbízí se pro datový soubor x definovat entropii HX = − n i=1 pi ln(pi ). Je-li pk = 1 a ostaní pj = 0, pak je variabilita je nulová tomu odpovídá HX = 0. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Entropie je chrakterizovaná následující vlastností. Pro soubor znaků Z tvořený dvojicemi znaků ze souborů X a Y (např. můžeme na statistických jednotkách-osobách sledovat barvu očí a barvu vlasů), je variabilita znaků z součtem variabilit jednotlivých znaků, tj. HZ = HX + HY . Často se také místo HX pracuje s veličinou eHX = i p−pi i , případně totéž s jiným zvoleným základem pro logaritmus. Pro výběr X s k stejně velkými třídními četnostmi je eHX = (1 k )− 1 k k = k, nezávisle na velikosti výběru. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Plán přednášky 1 Literatura 2 Co je statistika? 3 Popisná statistika Míry polohy statistických znaků Míry variability statistických znaků 4 Pravděpodobnost 5 Náhodné veličiny Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Připomeneme (a trochu zobecníme) pojmy a výsledky z druhé přednášky prvního semestru. Definition (Náhodné jevy) Budeme pracovat s neprázdnou pevně zvolenou množinou Ω všech možných výsledků, kterou nazýváme základní prostor. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Připomeneme (a trochu zobecníme) pojmy a výsledky z druhé přednášky prvního semestru. Definition (Náhodné jevy) Budeme pracovat s neprázdnou pevně zvolenou množinou Ω všech možných výsledků, kterou nazýváme základní prostor. Prvky ω ∈ Ω představují jednotlivé možné výsledky. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Připomeneme (a trochu zobecníme) pojmy a výsledky z druhé přednášky prvního semestru. Definition (Náhodné jevy) Budeme pracovat s neprázdnou pevně zvolenou množinou Ω všech možných výsledků, kterou nazýváme základní prostor. Prvky ω ∈ Ω představují jednotlivé možné výsledky. Systém podmnožin A základního prostoru se nazývá jevové pole a jeho prvky se nazývají jevy, jestliže Ω ∈ A, tj. základní prostor, je jevem, je-li A, B ∈ A, pak A \ B ∈ A, tj. pro každé dva jevy je jevem i jejich množinový rozdíl, je-li Ai ∈ A, i ∈ I nejvýše spočetný systém jevů, pak také jejich sjednocení je jevem, tj. ∪i∈I Ai ∈ A. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Komplement Ac = Ω \ A jevu A je jevem, který nazýváme opačný jev k jevu A. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Komplement Ac = Ω \ A jevu A je jevem, který nazýváme opačný jev k jevu A. Průnik dvou jevů opět jevem, protože pro každé dvě podmnožiny A, B ⊂ Ω platí A \ (Ω \ B) = A ∩ B. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Komplement Ac = Ω \ A jevu A je jevem, který nazýváme opačný jev k jevu A. Průnik dvou jevů opět jevem, protože pro každé dvě podmnožiny A, B ⊂ Ω platí A \ (Ω \ B) = A ∩ B. Jevové pole je tedy systém podmnožin základního prostoru uzavřený na konečné průniky, spočetná sjednocení a množinové rozdíly. Jednotlivé množiny A ∈ A nazýváme náhodné jevy (vzhledem k A). Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: celý základní prostor Ω se nazývá jistý jev, prázdná podmnožina ∅ ∈ A se nazývá nemožný jev, Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: celý základní prostor Ω se nazývá jistý jev, prázdná podmnožina ∅ ∈ A se nazývá nemožný jev, jednoprvkové podmnožiny {ω} ∈ Ω se nazývají elementární jevy, Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: celý základní prostor Ω se nazývá jistý jev, prázdná podmnožina ∅ ∈ A se nazývá nemožný jev, jednoprvkové podmnožiny {ω} ∈ Ω se nazývají elementární jevy, společné nastoupení jevů Ai , i ∈ I, odpovídá jevu ∩i∈I Ai , nastoupení alespoň jednoho z jevů Ai , i ∈ I, odpovídá jevu ∪i∈I Ai , Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: celý základní prostor Ω se nazývá jistý jev, prázdná podmnožina ∅ ∈ A se nazývá nemožný jev, jednoprvkové podmnožiny {ω} ∈ Ω se nazývají elementární jevy, společné nastoupení jevů Ai , i ∈ I, odpovídá jevu ∩i∈I Ai , nastoupení alespoň jednoho z jevů Ai , i ∈ I, odpovídá jevu ∪i∈I Ai , A, B ∈ A jsou neslučitelné jevy, je-li A ∩ B = ∅, Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: celý základní prostor Ω se nazývá jistý jev, prázdná podmnožina ∅ ∈ A se nazývá nemožný jev, jednoprvkové podmnožiny {ω} ∈ Ω se nazývají elementární jevy, společné nastoupení jevů Ai , i ∈ I, odpovídá jevu ∩i∈I Ai , nastoupení alespoň jednoho z jevů Ai , i ∈ I, odpovídá jevu ∪i∈I Ai , A, B ∈ A jsou neslučitelné jevy, je-li A ∩ B = ∅, jev A má za důsledek jev B, když A ⊂ B, Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: celý základní prostor Ω se nazývá jistý jev, prázdná podmnožina ∅ ∈ A se nazývá nemožný jev, jednoprvkové podmnožiny {ω} ∈ Ω se nazývají elementární jevy, společné nastoupení jevů Ai , i ∈ I, odpovídá jevu ∩i∈I Ai , nastoupení alespoň jednoho z jevů Ai , i ∈ I, odpovídá jevu ∪i∈I Ai , A, B ∈ A jsou neslučitelné jevy, je-li A ∩ B = ∅, jev A má za důsledek jev B, když A ⊂ B, je-li A ∈ A, pak se jev B = Ω \ A nazývá opačný jev k jevu A, píšeme B = Ac. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Definition (Pravděpodobnost) Pravděpodobnostní prostor je jevové pole A podmnožin (konečného) základního prostoru Ω, na kterém je definována skalární funkce P : A → R s následujícími vlastnosti: je nezáporná, tj. P(A) ≥ 0 pro všechny jevy A, je aditivní, tj. P(∪i∈I Ai ) = i∈I P(Ai ), pro každý nejvýše spočetný systém po dvou disjunktních jevů, pravděpodobnost jistého jevu je 1. Funkci P nazýváme pravděpodobností na jevovém poli (Ω, A). Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Definition (Pravděpodobnost) Pravděpodobnostní prostor je jevové pole A podmnožin (konečného) základního prostoru Ω, na kterém je definována skalární funkce P : A → R s následujícími vlastnosti: je nezáporná, tj. P(A) ≥ 0 pro všechny jevy A, je aditivní, tj. P(∪i∈I Ai ) = i∈I P(Ai ), pro každý nejvýše spočetný systém po dvou disjunktních jevů, pravděpodobnost jistého jevu je 1. Funkci P nazýváme pravděpodobností na jevovém poli (Ω, A). Důsledky Pro všechny jevy platí P(Ac) = 1 − P(A). Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Definition (Pravděpodobnost) Pravděpodobnostní prostor je jevové pole A podmnožin (konečného) základního prostoru Ω, na kterém je definována skalární funkce P : A → R s následujícími vlastnosti: je nezáporná, tj. P(A) ≥ 0 pro všechny jevy A, je aditivní, tj. P(∪i∈I Ai ) = i∈I P(Ai ), pro každý nejvýše spočetný systém po dvou disjunktních jevů, pravděpodobnost jistého jevu je 1. Funkci P nazýváme pravděpodobností na jevovém poli (Ω, A). Důsledky Pro všechny jevy platí P(Ac) = 1 − P(A). Additivnost platí pro jakýkoliv spočetný počet neslučitelných jevů Ai ⊂ Ω, i ∈ I, tj. P(∪i∈I Ai ) = i∈I P(Ai ), kdykoliv je Ai ∩ Aj = ∅, i = j, i, j ∈ I. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Připomeňme si klasickou konečnou pravděpodobnost. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Připomeňme si klasickou konečnou pravděpodobnost. Definition Nechť Ω je konečný základní prostor a nechť jevové pole A je právě systém všech podmnožin v Ω. Klasická pravděpodobnost je pravděpodobnostní prostor (Ω, A, P) s pravděpodobnostní funkcí P : A → R, P(A) = |A| |Ω| . Zjevně takto zadaná funkce skutečně definuje pravděpodobnost. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Peterburgský paradox (Bernoulli, 1738) Typický příklad klasické pravděpodobnosti jsou jevy související s házením mincí. Představme si následující pravidla kasina: Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Peterburgský paradox (Bernoulli, 1738) Typický příklad klasické pravděpodobnosti jsou jevy související s házením mincí. Představme si následující pravidla kasina: Návštěvník zaplatí vklad C a poté hází mincí. Je-li T počet hodů potřebných k první hlavě, pak obdrží výhru 2T . Jaká je „fér hodnota“ pro vklad C? Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Peterburgský paradox (Bernoulli, 1738) Typický příklad klasické pravděpodobnosti jsou jevy související s házením mincí. Představme si následující pravidla kasina: Návštěvník zaplatí vklad C a poté hází mincí. Je-li T počet hodů potřebných k první hlavě, pak obdrží výhru 2T . Jaká je „fér hodnota“ pro vklad C? Pravděpodobnost, že padne hlava je u férové mince 1/2, je proto P(T = k) = 2−k. Pravděpodobnost, že po nějakém konečném počtu hodů hra skončí je dána součtem ∞ k=1 2−k = 1. Proto je úpravděpodobnost jevu, že stále padá orel nulová. Sečteme-li všechny pravděpodobnosti výsledků vynásobených výhrami 2k, dostaneme ∞ 1 1 = ∞. Zdá se proto, že se vyplatí vložit i velký vklad. . . Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Peterburgský paradox (Bernoulli, 1738) Typický příklad klasické pravděpodobnosti jsou jevy související s házením mincí. Představme si následující pravidla kasina: Návštěvník zaplatí vklad C a poté hází mincí. Je-li T počet hodů potřebných k první hlavě, pak obdrží výhru 2T . Jaká je „fér hodnota“ pro vklad C? Pravděpodobnost, že padne hlava je u férové mince 1/2, je proto P(T = k) = 2−k. Pravděpodobnost, že po nějakém konečném počtu hodů hra skončí je dána součtem ∞ k=1 2−k = 1. Proto je úpravděpodobnost jevu, že stále padá orel nulová. Sečteme-li všechny pravděpodobnosti výsledků vynásobených výhrami 2k, dostaneme ∞ 1 1 = ∞. Zdá se proto, že se vyplatí vložit i velký vklad. . . Ve skutečnosti simulací hry zjistíme, že nezávisle na počtu pokusů se prakticky všechny výhry budou pohybovat v rozmezí T do 6. Důvodem je, že vysoké výhry jsou velice nepravděpodobné a proto je při reálných úvahách nelze brát vážně. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Podmíněná pravděpodobnost Obvyklé je také klást dotazy s dodatečnou podmínkou. Např. „jaká je pravděpodobnost, že při hodu dvěmi kostkami padly dvě pětky, je-li součet hodnot deset?“. Připomeneme, že formalizovat takové úvahy umíme následovně. Definition Nechť H je jev s nenulovou pravděpodobností v jevovém poli A v pravděpodobnostním prostoru (Ω, A, P). Podmíněná pravděpodobnost P(A|H) jevu A ∈ A vzhledem k hypotéze H je definována vztahem P(A|H) = P(A ∩ H) P(H) . Definice odpovídá požadavku, že jevy A a H nastanou zároveň, za předpokladu, že A nastal s pravděpodobností P(A ∩ H)/P(A). Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Podmíněná pravděpodobnost Obvyklé je také klást dotazy s dodatečnou podmínkou. Např. „jaká je pravděpodobnost, že při hodu dvěmi kostkami padly dvě pětky, je-li součet hodnot deset?“. Připomeneme, že formalizovat takové úvahy umíme následovně. Definition Nechť H je jev s nenulovou pravděpodobností v jevovém poli A v pravděpodobnostním prostoru (Ω, A, P). Podmíněná pravděpodobnost P(A|H) jevu A ∈ A vzhledem k hypotéze H je definována vztahem P(A|H) = P(A ∩ H) P(H) . Definice odpovídá požadavku, že jevy A a H nastanou zároveň, za předpokladu, že A nastal s pravděpodobností P(A ∩ H)/P(A). Je také vidět přímo z definice, hypotéza H a jev A jsou nezávislé tehdy a jen tehdy, je-li P(A) = P(A|H). Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Bayesovy věty Přepsáním formule pro podmíněnou pravděpodobnost dostáváme P(A ∩ B) = P(B ∩ A) = P(A)P(B|A) = P(B)P(A|B). Theorem (Bayesovy věty) Pro pravděpodobnost jevů A a B platí 1 P(A|B) = P(A)P(B|A) P(B) . 2 P(A|B) = P(A)P(B|A) P(A)P(B|A)+P(A )P(B|A ) . Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Bayesovy věty Přepsáním formule pro podmíněnou pravděpodobnost dostáváme P(A ∩ B) = P(B ∩ A) = P(A)P(B|A) = P(B)P(A|B). Theorem (Bayesovy věty) Pro pravděpodobnost jevů A a B platí 1 P(A|B) = P(A)P(B|A) P(B) . 2 P(A|B) = P(A)P(B|A) P(A)P(B|A)+P(A )P(B|A ) . Důkaz. První tvrzení je přepsáním předchozí formule, druhé z prvého plyne doszením P(B) = P(A)P(B|A) + P(A )P(B|A ). Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Příklad – testování Předpokládejme, že předpokladem přijetí studentů na univerzitu jsou testy způsobilosti ke studiu. Inteligentní osoba v něm má 99% úspěšnost. Zároveň předpokládejme, že úspěšnost neinteligentních osob je 0.5%. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Příklad – testování Předpokládejme, že předpokladem přijetí studentů na univerzitu jsou testy způsobilosti ke studiu. Inteligentní osoba v něm má 99% úspěšnost. Zároveň předpokládejme, že úspěšnost neinteligentních osob je 0.5%. S jakou pravděpodobností je náhodně vybraný student/ka univerzity inteligentní, jestliže je v populaci je p promile inteligentních osob (tj. p osob z tisíce považujeme za inteligentní). Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Příklad – testování Předpokládejme, že předpokladem přijetí studentů na univerzitu jsou testy způsobilosti ke studiu. Inteligentní osoba v něm má 99% úspěšnost. Zároveň předpokládejme, že úspěšnost neinteligentních osob je 0.5%. S jakou pravděpodobností je náhodně vybraný student/ka univerzity inteligentní, jestliže je v populaci je p promile inteligentních osob (tj. p osob z tisíce považujeme za inteligentní). Označme A jev, že je daná osoba je inteligentní, a B jev, že prošla testem. Dle Bayesovy věty je hledaná pravděpodobnost P(A|B) = p/1000 · 99/100 p/1000 · 99/100 + (1000 − p)/1000 · 5/1000 Jestliže zvolíme za p nějaké konkrétní četnosti, dostaneme příslušné očekávatelné spolehlivosti testu. V následující tabulce je spočten výsledek pro několik p: Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny p 500 100 10 1 0.1 P(A|B) 0.99 0,96 0.67 0.17 0.02 Pokud stejné číselné zadání použijeme pro screening některé nemoci, řekněme HIV pozitivity, dostáváme hrozné výsledky! Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Výsledek asi neodpovídá naší intuici a může se zdát šokující ve vztahu k použití takovýchto testů. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Výsledek asi neodpovídá naší intuici a může se zdát šokující ve vztahu k použití takovýchto testů. Evidentně prostý výběr náhodné osoby a použití jediného testu, byť velmi citlivého, specifického a účinného, nejsou vhodné ani na otestování skutečného stavu populace, ani na preventivní vyšetření jednotlivců, pokud nemáme další podpůrné informace a lepší nástroje. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Výsledek asi neodpovídá naší intuici a může se zdát šokující ve vztahu k použití takovýchto testů. Evidentně prostý výběr náhodné osoby a použití jediného testu, byť velmi citlivého, specifického a účinného, nejsou vhodné ani na otestování skutečného stavu populace, ani na preventivní vyšetření jednotlivců, pokud nemáme další podpůrné informace a lepší nástroje. Právě matematická statistika dává nástroje na kvalifikovanější postupy v medicínské i průmyslové diagnostice, ekonomických modelech, vyhodnocování experimentálních dat atd. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Plán přednášky 1 Literatura 2 Co je statistika? 3 Popisná statistika Míry polohy statistických znaků Míry variability statistických znaků 4 Pravděpodobnost 5 Náhodné veličiny Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Vraťme se k jednoduchému a názornému příkladu statistik kolem výsledků studentů v daném předmětu. Je a není podobný klasické pravděpodobnosti a s ní související statistice při házení kostkou. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Vraťme se k jednoduchému a názornému příkladu statistik kolem výsledků studentů v daném předmětu. Je a není podobný klasické pravděpodobnosti a s ní související statistice při házení kostkou. Na jedné straně jsme připustili pouze konečný počet možných bodových hodnocení (celá čísla od 0 do 20), zároveň ale není patrně vhodné představovat si výsledky jednotlivých studentů jako analogii nezávislého házení kostkou (to by byla skutečně divně vedená přednáška). Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Vraťme se k jednoduchému a názornému příkladu statistik kolem výsledků studentů v daném předmětu. Je a není podobný klasické pravděpodobnosti a s ní související statistice při házení kostkou. Na jedné straně jsme připustili pouze konečný počet možných bodových hodnocení (celá čísla od 0 do 20), zároveň ale není patrně vhodné představovat si výsledky jednotlivých studentů jako analogii nezávislého házení kostkou (to by byla skutečně divně vedená přednáška). Místo toho máme na základním prostoru Ω všech studentů definovánu funkci bodového ohodnocení X : Ω → R. Je to typický příklad náhodné veličiny. S každou náhodnou veličinou potřebujeme umět pracovat s vhodnou množinou jevů. Zpravidla požadujeme, abychom mohli pracovat s pravděpodobnostmi příslušnosti hodnoty X do předem zadaného intervalu. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Na prostoru Rk uvažujme nejmenší jevové pole B obsahující všechny k–rozměrné intervaly. Množinám v B říkáme Borelovské množiny na Rk. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Na prostoru Rk uvažujme nejmenší jevové pole B obsahující všechny k–rozměrné intervaly. Množinám v B říkáme Borelovské množiny na Rk. Definition (Náhodné veličiny a distribuční funkce) Náhodná veličina X na pravděpodobnostním prostoru (Ω, A, P) je taková funkce X : Ω → R, že vzor X−1(B) patří do A pro každou Borelovskou množinu B ∈ B na R. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Na prostoru Rk uvažujme nejmenší jevové pole B obsahující všechny k–rozměrné intervaly. Množinám v B říkáme Borelovské množiny na Rk. Definition (Náhodné veličiny a distribuční funkce) Náhodná veličina X na pravděpodobnostním prostoru (Ω, A, P) je taková funkce X : Ω → R, že vzor X−1(B) patří do A pro každou Borelovskou množinu B ∈ B na R. Náhodný vektor (X1, . . . , Xk) na (Ω, A, P) je k–tice náhodných veličin. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Definice náhodné veličiny zajišťuje, že pro všechny −∞ ≤ a ≤ b ≤ ∞ existuje pravděpodobnost P(a ≤ X < b), kde používáme stručné značení pro jev A = (ω ∈ Ω; a ≤ X(ω) < b)). Definition Distribuční funkcí náhodné veličiny X je funkce F : R → R definovaná pro všechny x ∈ R vztahem F(x) = P(X < x). Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Definice náhodné veličiny zajišťuje, že pro všechny −∞ ≤ a ≤ b ≤ ∞ existuje pravděpodobnost P(a ≤ X < b), kde používáme stručné značení pro jev A = (ω ∈ Ω; a ≤ X(ω) < b)). Definition Distribuční funkcí náhodné veličiny X je funkce F : R → R definovaná pro všechny x ∈ R vztahem F(x) = P(X < x). Distribuční funkcí náhodného vektoru (X1, . . . , Xk) je funkce F : Rk → R definovaná pro všechny (x1, . . . , xk) ∈ Rk vztahem F(x) = P(X1 < x1 ∧ · · · ∧ Xk < xk). Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Diskrétní náhodné veličiny Předpokládejme, že pro náhodná veličina X na pravděpodobnostním prostoru (Ω, A, P) nabývá jen konečně mnoha hodnot x1, x2, . . . , xn ∈ R. Pak existuje tzv. pravděpodobnostní funkce f (x) taková, že f (x) = P(X = xi ) x = xi 0 jinak. Evidentně n 1 f (xi ) = 1. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Diskrétní náhodné veličiny Předpokládejme, že pro náhodná veličina X na pravděpodobnostním prostoru (Ω, A, P) nabývá jen konečně mnoha hodnot x1, x2, . . . , xn ∈ R. Pak existuje tzv. pravděpodobnostní funkce f (x) taková, že f (x) = P(X = xi ) x = xi 0 jinak. Evidentně n 1 f (xi ) = 1. Takové náhodné veličině se říká diskrétní. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Diskrétní náhodné veličiny Předpokládejme, že pro náhodná veličina X na pravděpodobnostním prostoru (Ω, A, P) nabývá jen konečně mnoha hodnot x1, x2, . . . , xn ∈ R. Pak existuje tzv. pravděpodobnostní funkce f (x) taková, že f (x) = P(X = xi ) x = xi 0 jinak. Evidentně n 1 f (xi ) = 1. Takové náhodné veličině se říká diskrétní. Každá náhodná veličina definovaná pro klasickou pravděpodobnost je diskrétní. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Diskrétní náhodné veličiny Předpokládejme, že pro náhodná veličina X na pravděpodobnostním prostoru (Ω, A, P) nabývá jen konečně mnoha hodnot x1, x2, . . . , xn ∈ R. Pak existuje tzv. pravděpodobnostní funkce f (x) taková, že f (x) = P(X = xi ) x = xi 0 jinak. Evidentně n 1 f (xi ) = 1. Takové náhodné veličině se říká diskrétní. Každá náhodná veličina definovaná pro klasickou pravděpodobnost je diskrétní. Obdobně lze definici pravděpodobnostní funkce rozšířit na veličiny se spočetně mnoha hodnotami (pracujeme pak s absolutně konvergentními nekonečnými řadami :-) Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Spojité náhodné veličiny I když hodnoty náhodné veličiny X nejsou diskrétní, můžeme postupovat podobně s užitím nástrojů diferenciálního a integrálního počtu. Intuitivně lze uvažovat takto: hustotu f (x) pravděpodobnosti pro X si představíme jako P(x ≤ X < x + dx) = f (x)dx. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Spojité náhodné veličiny I když hodnoty náhodné veličiny X nejsou diskrétní, můžeme postupovat podobně s užitím nástrojů diferenciálního a integrálního počtu. Intuitivně lze uvažovat takto: hustotu f (x) pravděpodobnosti pro X si představíme jako P(x ≤ X < x + dx) = f (x)dx. To znamená, že chceme pro −∞ ≤ a ≤ b ≤ ∞ P(a ≤ X < b) = b a f (x)dx. (∗) Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Spojité náhodné veličiny I když hodnoty náhodné veličiny X nejsou diskrétní, můžeme postupovat podobně s užitím nástrojů diferenciálního a integrálního počtu. Intuitivně lze uvažovat takto: hustotu f (x) pravděpodobnosti pro X si představíme jako P(x ≤ X < x + dx) = f (x)dx. To znamená, že chceme pro −∞ ≤ a ≤ b ≤ ∞ P(a ≤ X < b) = b a f (x)dx. (∗) Definition Náhodná veličina X, pro kterou existuje její hustota pravděpodobnosti splňující (∗), se nazývá spojitá. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Theorem Pro každou náhodnou veličinu X má její dstribuční funkce F : R → [0, 1] následující vlastnosti 1 F je neklesající funkce; 2 F má v každém bodě x ∈ R limitu zleva i limitu zprava; 3 F je zleva spojitá; 4 v nevlastních bodech má F limity lim x→∞ F(x) = 1, lim x→−∞ = 0; (1) 5 pravděpodobnost, že X nabývá právě hodnotu x je dána P(X = x) = lim y→x+ F(y) − F(x). (2) 6 Distribuční funkce náhodné veličiny má vždy nejvýše spočetně mnoho bodů nespojitosti. Literatura Co je statistika? Popisná statistika Pravděpodobnost Náhodné veličiny Důkaz věty je založený na pozorování vyplývajícím vcelku jednoduše z axiomů pravděpodobnosti: Theorem Uvažme pravděpodobnostní prostor (Ω, A, P) a neklesající řetězec jevů A1 ⊂ A2 ⊂ . . . . Pak platí P ∞ i=1 Ai = lim i→∞ P(Ai ). Pokud je naopak A1 ⊃ A2 ⊃ A3 ⊃ . . . , potom platí P ∞ i=1 Ai = lim i→∞ P(Ai ).