Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Drsná matematika III – 7. týden Závěrečné poznámky k diferenciálním rovnicím; přehled popisné statistiky Jan Slovák Masarykova univerzita Fakulta informatiky 31. – 4. 11. 2016 Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Obsah přednášky 1 Literatura 2 ODR vyšších řádů Obecná teorie Lineární diferenciální rovnice 3 Numerické řešení ODR Eulerova metoda 4 Co je statistika? 5 Popisná statistika Míry polohy statistických znaků Míry variability statistických znaků Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Plán přednášky 1 Literatura 2 ODR vyšších řádů Obecná teorie Lineární diferenciální rovnice 3 Numerické řešení ODR Eulerova metoda 4 Co je statistika? 5 Popisná statistika Míry polohy statistických znaků Míry variability statistických znaků Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Kde je dobré číst? J. Slovák, M. Panák, M. Bulant, Matematika drsně a svižně, Muni Press, Brno 2013, v+773 s., elektronická edice www.math.muni.cz/Matematika_drsne_svizne Riley, K.F., Hobson, M.P., Bence, S.J. Mathematical Methods for Physics and Engineering, second edition, Cambridge University Press, Cambridge 2004, ISBN 0 521 89067 5, xxiii + 1232 pp. Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická pravděpodobnost statistika, Matfyzpress, 2006, 230pp. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Plán přednášky 1 Literatura 2 ODR vyšších řádů Obecná teorie Lineární diferenciální rovnice 3 Numerické řešení ODR Eulerova metoda 4 Co je statistika? 5 Popisná statistika Míry polohy statistických znaků Míry variability statistických znaků Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Rovnice vyšších řádů Obyčejnou diferenciální rovnicí řádu k (vyřešenou vzhledem k nejvyšší derivaci) rozumíme rovnici y(k) (t) = f (t, y(t), y (t), . . . , y(k−1) (t)), kde f je známá funkce v k + 1 proměnných, x je nezávisle proměnná a y(x) je neznámá funkce v jedné proměnné. Ukážeme, že taková rovnice je vždy ekvivalentní systému k rovnic prvního řádu. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Rovnice vyšších řádů Obyčejnou diferenciální rovnicí řádu k (vyřešenou vzhledem k nejvyšší derivaci) rozumíme rovnici y(k) (t) = f (t, y(t), y (t), . . . , y(k−1) (t)), kde f je známá funkce v k + 1 proměnných, x je nezávisle proměnná a y(x) je neznámá funkce v jedné proměnné. Ukážeme, že taková rovnice je vždy ekvivalentní systému k rovnic prvního řádu. Zavedeme nové neznámé funkce v proměnné t takto: y0(t) = y(t), y1(t) = y0(t), . . . , yk−1(t) = yk−2(t). Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Nyní je funkce y(t) řešením naší původní rovnice tehdy a jen tehdy, když je první komponentou řešení systému rovnic y0(t) = y1(t) y1(t) = y2(t) ... yn−2(t) = yn−1(t) yn−1(t) = f (t, y0(t), y1(t), . . . , yn−1(t)). Přímým důsledkem vět o systémech ODR 1. řádu je proto následující věta: Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Theorem Nechť funkce f (t, y0, . . . , yk−1) : U ⊂ Rk+1 → R, má spojité parciální derivace na otevřené množině U. Pak pro každý bod (t0, z0, . . . , zk−1) ∈ U existuje maximální interval Imax = [x0 − a, x0 + b], s kladnými a, b ∈ R, a právě jedna funkce y(t) : Imax → R, která je řešením rovnice k-tého řádu y(k) (t) = f (t, y(t), y (t), . . . , y(k−1) (t)) s podmínkou y(t0) = z0, y (t0) = z1, . . . , y(k−1)(t0) = zk−1. Toto řešení navíc závisí diferencovatelně na počáteční podmínce a případných dalších parametrech vstupujících diferencovatelně do funkce f . Vidíme tedy, že pro jednoznačné zadání řešení obyčejné diferenciální rovnice k–tého řádu musíme zadat v jednom bodě hodnotu a prvních k − 1 derivací výsledné funkce. Obdobně lze diskutovat systémy rovnic libovolných řádů. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Operace derivování je lineární zobrazení z (dostatečně) hladkých funkcí do funkcí. Pokud derivace ( d dx )j jednotlivých řádů j vynásobíme pevnými funkcemi aj (x) a výrazy sečteme, dostaneme tzv. lineární diferenciální operátor: y(x) → D(y)(x) = ak(x)y(k) (x) + · · · + a1(x)y (x) + a0y(x). Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Operace derivování je lineární zobrazení z (dostatečně) hladkých funkcí do funkcí. Pokud derivace ( d dx )j jednotlivých řádů j vynásobíme pevnými funkcemi aj (x) a výrazy sečteme, dostaneme tzv. lineární diferenciální operátor: y(x) → D(y)(x) = ak(x)y(k) (x) + · · · + a1(x)y (x) + a0y(x). Řešit příslušnou homogenní lineární diferenciální rovnici pak znamená najít funkci y splňující D(y) = 0, tj. obrazem je identicky nulová funkce. Ze samotné definice je zřejmé, že součet dvou řešení bude opět řešením, protože pro libovolné funkce y1 a y2 platí D(y1 + y2)(x) = D(y1)(x) + D(y2)(x). Obdobně je také konstantní násobek řešení opět řešením. Celá mmnožina všech řešení lineární diferenciální rovnice k-tého řádu je tedy vektorovým prostorem. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Přímou aplikací předchozí věty o jednoznačnosti a existenci řešení rovnic dostáváme: Corollary Vektorový prostor všech řešení homogenní lineární diferenciální rovnice k–tého řádu je vždy dimenze k. Proto můžeme vždy řešení zadat jako lineární kombinaci libovolné množiny k lineárně nezávislých řešení. Taková řešení jsou zadána jednoznačně lineárně nezávislými počátečními podmínkami na hodnotu funkce y(x) jejích prvních (k − 1) derivací. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Připomeňme homogenní lineární diferenční rovnice. Analogie jde i dále v okamžiku, kdy jsou všechny koeficienty aj diferenciálního operátoru D konstantní. Už jsme viděli u takové rovnice prvního řádu, že řešením je exponenciála s vhodnou konstantou u argumentu. Stejně jako u diferenčních rovnic se podbízí vyzkoušet, zda takový tvar řešení y(x) = eλx s neznámým parametrem λ může splnit rovnici k–tého řádu. Dosazením dostaneme D(eλx ) = akλk + ak−1λk−1 + · · · + a1λ + a0 eλx . Parametr λ tedy vede na řešení lineární diferenciální rovnice s konstantními koeficienty tehdy a jen tehdy, když je λ kořenem tzv. charakteristického polynomu akλk + · · · + a1λ + a0. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Pokud má charakteristický polynom k různých kořenů, dostáváme bázi celého vektorového prostoru řešení. Pokud je λ násobný kořen, přímým výpočtem s využitím toho, že je pak také kořenem derivace charakteristického polynomu, dostaneme, že je řešením i funkce x eλx . Podobně pak pro vyšší násobnost dostáváme různých řešení eλ, x eλx , . . . , x −1 eλx . U obecné lineární diferenciální rovnice předepisujeme nenulovou hodnotu diferenciálního operátoru D. Opět úplně analogicky k úvahám o systémech lineárních rovnic nebo u lineárních diferenčních rovnic přímo vidíme, že obecné řešení takovéto (nehomogenní) rovnice D(y)(x) = b(x) pro nějakou pevně zadanou funkci b(x) je součtem jednoho jakéhokoliv řešení této rovnice a množiny všech možných řešení příslušné homogenní rovnice D(y)(x) = 0. Celý prostor řešení je tedy opět pěkný konečněrozměrný afinní prostor, byť ukrytý v obrovském prostoru funkcí. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Plán přednášky 1 Literatura 2 ODR vyšších řádů Obecná teorie Lineární diferenciální rovnice 3 Numerické řešení ODR Eulerova metoda 4 Co je statistika? 5 Popisná statistika Míry polohy statistických znaků Míry variability statistických znaků Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika V praxi se setkáváme s postupy, jak přibližně spočíst řešení rovnice, se kterou pracujeme (protože exaktní řešení jsou vzácná). Už jsme podobné úvahy dělali všude tam, kde jsme se zabývali aproximacemi (tj. zejména lze doporučit porovnání s dřivějšími úvahami o splajnech, Taylorových polynomech a Fourierových řadách). S trochou odvahy můžeme také považovat diferenční a diferenciální rovnice za vzájemné aproximace. V jednom směru nahrazujeme diference diferenciály (např. u ekonomických nebo populačních modelů), ve druhém pak naopak. Zastavíme se na chvilku u nahrazování derivací diferencemi. Nejdříve si však připomeneme obvyklé značení pro zápis odhadů chyb. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Definition Pro funkci f (x) v proměnné x řekneme, že je v okolí hromadného bodu x0 svého definičního oboru řádu velikosti O(ϕ(x)) pro nějakou funkci ϕ(x), jestliže existuje okolí U bodu x0 a konstanta C taková, že |f (x)| ≤ C · |ϕ(x)| pro všechny x ∈ U. Limitní bod x0 bývá často i nevlastní hodnota ±∞. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Nejobvyklejší příklady jsou O(xp) pro polynomiální řád velikosti a to v nule nebo v nekonečnu, O(ln x) pro logaritmický řád velikosti v nekonečnu atd. Všimněme si, že logaritmický řád velikosti nezávisí na volbě základu. Dobrým příkladem je aproximace funkce jejím Taylorovým polynomem řádu k v bodě x0. Taylorova věta pro funkce jedné proměnné říká, že chyba této aproximace je O(hk+1), kde h je přírůstek argumentu x − x0 = h. Podobné úvahy jsme dělali i u Fourierových řad. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika V případě obyčejných diferenciálních rovnic je nejjednodušším schématem aproximace tzv. Eulerovými polygony. Budeme ji prezentovat pro jednu obyčejnou rovnici s jednou nezávislou a jednou závislou veličinou. Úplně stejně ale funguje pro systémy rovnic, když skalární veličiny a jejich derivace v čase t nahradíme vektory závislé na času a jejich derivacemi. Uvažujme tedy opět rovnici (pro jednoduchost a bez újmy na obecnosti prvního řádu) y (t) = f (t, y(t)). Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Označme si diskrétní přírůstek času h, tj. tn = t0 + nh, a yn = y(tn). Z Taylorovy věty (se zbytkem druhého řádu) a naší rovnice vyplývá, že yn+1 = yn + y (tn)h + O(h2 ) = yn + f (tn, yn)h + O(h2 ). Jestliže tedy od t0 do tn uděláme n takových kroků o přírůstek h, bude očekávaný odhad celkové chyby vyplývající z lokálních nepřesností naší lineární aproximace nejvýše hO(h2), tj. chyba bude v řádu velikosti O(h). Ve skutečnosti vstupují při výpočtu do hry ještě zaokrouhlovací chyby. Při numerickém řešení Eulerovou metodou postupujeme tak, že za přibližné řešení považujeme po částech lineární polygon definovaný výše. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Plán přednášky 1 Literatura 2 ODR vyšších řádů Obecná teorie Lineární diferenciální rovnice 3 Numerické řešení ODR Eulerova metoda 4 Co je statistika? 5 Popisná statistika Míry polohy statistických znaků Míry variability statistických znaků Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Statistika v širším slova smyslu = jakékoliv zpracování číselných dat o nějakém souboru objektů a jejich (více či méně přehledná) prezentace. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Statistika v širším slova smyslu = jakékoliv zpracování číselných dat o nějakém souboru objektů a jejich (více či méně přehledná) prezentace. Podstatou matematické statistiky je pro daná data zjišťovat: vlastnosti objektů věrohodnost odvozených výsledků. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Statistika v širším slova smyslu = jakékoliv zpracování číselných dat o nějakém souboru objektů a jejich (více či méně přehledná) prezentace. Podstatou matematické statistiky je pro daná data zjišťovat: vlastnosti objektů věrohodnost odvozených výsledků. Zpravidla jde o data (cíleně nebo náhodně vybrané) části souboru objektů, jejich následnou analýzu a konečně o vyslovení důsledků pozorování pro celý soubor. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Statistika v širším slova smyslu = jakékoliv zpracování číselných dat o nějakém souboru objektů a jejich (více či méně přehledná) prezentace. Podstatou matematické statistiky je pro daná data zjišťovat: vlastnosti objektů věrohodnost odvozených výsledků. Zpravidla jde o data (cíleně nebo náhodně vybrané) části souboru objektů, jejich následnou analýzu a konečně o vyslovení důsledků pozorování pro celý soubor. Teorie pravděpodobnosti studuje modely popisující chování abstraktních souborů prostřednictvím pravděpodobnosti jevů z jevového pole, matematická statistika studuje skutečné náhodné výběry z nějakého základního souboru a zdůvodňuje výběr teoretického pravděpodobnostního modelu a kvalitativní informace o jeho parametrech. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Example Za soubor objektů vezměme všechny studenty této přednášky, jako číselný údaj můžeme uvažovat 1 „průměrný počet bodů“ dosažený při hodnocení tohoto předmětu v poslední písemce, 2 průměrnou známku dosaženou u zkoušky z tohoto a z jiných pevně vybraných předmětů, 3 číslená data vypovídající o historii dřívějšího studia, 4 počet pracovních hodin týdně odpracovaných mimo fakultu. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Example Za soubor objektů vezměme všechny studenty této přednášky, jako číselný údaj můžeme uvažovat 1 „průměrný počet bodů“ dosažený při hodnocení tohoto předmětu v poslední písemce, 2 průměrnou známku dosaženou u zkoušky z tohoto a z jiných pevně vybraných předmětů, 3 číslená data vypovídající o historii dřívějšího studia, 4 počet pracovních hodin týdně odpracovaných mimo fakultu. Samotný aritmetický průměr bodů nám mnoho neřekne ani o kvalitě přednášky ani o kvalitě přednášejícího ani o samotném hodnocení. Zajímá nás např. hodnota, která bude „uprostřed souboru“, tj. počet bodů, pro které je stejně studentů pod ní a nad ní. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Example Za soubor objektů vezměme všechny studenty této přednášky, jako číselný údaj můžeme uvažovat 1 „průměrný počet bodů“ dosažený při hodnocení tohoto předmětu v poslední písemce, 2 průměrnou známku dosaženou u zkoušky z tohoto a z jiných pevně vybraných předmětů, 3 číslená data vypovídající o historii dřívějšího studia, 4 počet pracovních hodin týdně odpracovaných mimo fakultu. Samotný aritmetický průměr bodů nám mnoho neřekne ani o kvalitě přednášky ani o kvalitě přednášejícího ani o samotném hodnocení. Zajímá nás např. hodnota, která bude „uprostřed souboru“, tj. počet bodů, pro které je stejně studentů pod ní a nad ní. Obdobně první a poslední čtvrtina, desetina apod. Všem takovým údajům říkáme statistiky posuzované veličiny. V uvedených příkladech se jim říká medián, kvartil, decil apod. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Z obecné zkušenosti nebo jako výsledek úvah mimo matematiku víme, jakou „strukturu“ by měla mít sledovaná data. Např. víme, že rozumné hodnocení studentů by mělo mít tzv. normální rozdělení. Tento pojem patří do teorie pravděpodobnosti. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Z obecné zkušenosti nebo jako výsledek úvah mimo matematiku víme, jakou „strukturu“ by měla mít sledovaná data. Např. víme, že rozumné hodnocení studentů by mělo mít tzv. normální rozdělení. Tento pojem patří do teorie pravděpodobnosti. Pokud je naše představa oprávněná, pak porovnáním výsledku třeba i docela malého náhodného výběru studentů s teoretickým modelem můžeme zjistit odhad parametrů takového rozdělení a činit závěry, zda je hodnocení „skutečně rozumné“. Zároveň budeme umět popsat věrohodnost našich závěrů. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Daleko zajímavější vývody ovšem můžeme činit, když porovnáním statistik pro různé veličiny budeme moci dovozovat informace o souvislostech. Pokud např. neexistuje žádná doložitelná souvislost mezi historií předchozího studia a výsledky v dané přednášce, je jedním z možných vysvětlení vývod, že je přednáška prostě špatná. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Daleko zajímavější vývody ovšem můžeme činit, když porovnáním statistik pro různé veličiny budeme moci dovozovat informace o souvislostech. Pokud např. neexistuje žádná doložitelná souvislost mezi historií předchozího studia a výsledky v dané přednášce, je jedním z možných vysvětlení vývod, že je přednáška prostě špatná. Závěr úvodních úvah: V matematice pracujeme s abstraktním matematickým popisem pravděpodobnosti. Vývody pro konktrétní soubory dat, pro které je zvolený model relevantní dává matematická statistika. Názor, zda je takový popis adekvátní pro konkrétní výběr dat, je také možné podpořit nebo zavrhnout pomocí metod matematické statistiky. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Plán přednášky 1 Literatura 2 ODR vyšších řádů Obecná teorie Lineární diferenciální rovnice 3 Numerické řešení ODR Eulerova metoda 4 Co je statistika? 5 Popisná statistika Míry polohy statistických znaků Míry variability statistických znaků Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Popisná statistika není matematická disciplína ... Jde o dlouho řadu zvyklostí/postupů, jak zpracovávat a prezentovat data, a názvů pro jednotlivé typy sestav dat. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Popisná statistika není matematická disciplína ... Jde o dlouho řadu zvyklostí/postupů, jak zpracovávat a prezentovat data, a názvů pro jednotlivé typy sestav dat. Zpravidla pracujeme se statistickým souborem, který je sestaven ze statistických jednotek. Na statistických jednotkách se pak měří (zjišťují) jednotlivé statistické znaky. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Popisná statistika není matematická disciplína ... Jde o dlouho řadu zvyklostí/postupů, jak zpracovávat a prezentovat data, a názvů pro jednotlivé typy sestav dat. Zpravidla pracujeme se statistickým souborem, který je sestaven ze statistických jednotek. Na statistických jednotkách se pak měří (zjišťují) jednotlivé statistické znaky. Např. souborem mohou být všichni studenti MU, každý zvlášť je pak statistickou jednotkou. O těchto jednotkách pak můžeme schraňovat mnoho znaků – např. všechny číselné hodnoty zjistitelné z ISu, jakou mají nejraději barvu, co snědli večer před poslední písemkou, atd. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Popisná statistika není matematická disciplína ... Jde o dlouho řadu zvyklostí/postupů, jak zpracovávat a prezentovat data, a názvů pro jednotlivé typy sestav dat. Zpravidla pracujeme se statistickým souborem, který je sestaven ze statistických jednotek. Na statistických jednotkách se pak měří (zjišťují) jednotlivé statistické znaky. Např. souborem mohou být všichni studenti MU, každý zvlášť je pak statistickou jednotkou. O těchto jednotkách pak můžeme schraňovat mnoho znaků – např. všechny číselné hodnoty zjistitelné z ISu, jakou mají nejraději barvu, co snědli večer před poslední písemkou, atd. Základním objektem pro zkoumání jednotlivých znaků je pak soubor hodnot. Zpravidla jej máme ve formě uspořádaných hodnot. Uspořádání je buď dáno přirozeně (když jsou hodnotami např. reálná čísla) nebo je můžeme zavést pro určitost (třeba když budeme sledovat barvy, tak je můžeme vyjdřovat v RGB standardu a řadit podle tohoto příznaku). Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Statistický popis chce srozumitelně a přehledně sdělit něco o celém souboru. Musíme proto umět jednotlivé hodnoty nějak porovnovávat a poměřovat. Potřebujeme tedy nějaké měřítko. Podle toho jakého charakteru jsou hodnoty, hovoříme o měřítku: nominálním (mezi hodnotami není žádný vztah, jde pouze o četnosti možných hodnot, např. politická strana v ČR nebo učitelé MU při zkoumání obliby); ordinální (totéž jako předchozí, ale s přidaným uspořádáním, např. počet hvězdiček u hotelu v bedekrech); intervalové (jde o číselné hodnoty, ale jde o porovnání velikostí, nikoliv absolutní hodnotu, např. u měření teplot je poloha nuly dohodnuta, ale není podstatná); poměrové (máme pevně stanovené měřítko a nulu, např. většina fyzikálních veličin). Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika V dalším budeme pracovat se souborem hodnot x1, x2, . . . , xn (které vznikly měřením na n statistických jednotkách) a uspořádáme je do uspořádaného souboru hodnot x(1), x(2), . . . , x(n). Číslo n nazýváme rozsah souboru. Nejjednodušší je u rozsáhlých souborů znaků, které ale připouští jen málo hodnot uvádět pouze četnosti. Např. při průzkumu preferencí politických stran nebo u prezentace kvality hotelové sítě uvádíme u každé možné hodnoty počet jejích výskytů. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Pokud je i možných hodnot více (nebo dokonce připouštíme kontinuální reálné hodnoty), dělíme často možný rozsah hodnot na vhodný počet intervalů a o statistickém znaku uvádíme četnost hodnot v daných intervalech. Intervalům se často říká třídy a počtu znaku ve třídě pak třídní četnost. Používáme také kumulativní třídní četnosti, které vznikají prostým součtem třídních četností s hodnotami nejvýše jako má daná třída. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Pokud je i možných hodnot více (nebo dokonce připouštíme kontinuální reálné hodnoty), dělíme často možný rozsah hodnot na vhodný počet intervalů a o statistickém znaku uvádíme četnost hodnot v daných intervalech. Intervalům se často říká třídy a počtu znaku ve třídě pak třídní četnost. Používáme také kumulativní třídní četnosti, které vznikají prostým součtem třídních četností s hodnotami nejvýše jako má daná třída. Nejčastěji pak uvažujeme střed ai dané třídy za hodnotu, která ji reprezentuje a hodnota ai ni , kde ni je četnost výskytu této třídy představuje celkový příspěvek této třídy. Velmi často také místo četností zobrazujeme relativní četnosti ai /n, resp. relativní kumulativní četnosti. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Graf, který na jedné ose vynáší intervaly jednotlivých tříd a nad nimi obdélníky s výškou rovnou četnosti se nazývá histogram. Obdobně se znázorňuje kumulativní četnost. Na obrázku jsou histogramy souborů o rozsahu n = 500, které vznikly náhodným generováním dat s rozdělením normálním, χ2 a studentovým Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Míry polohy statistických znaků Chceme-li velikost hodnot, kolem kterých se jednotlivá pozorování znaků shromažďují používáme většinou následující: Definition Nechť (x1, . . . , xn) je soubor hodnot měřeného znaku. Průměr (nebo také výběrový průměr) je dán ¯x = 1 n n i=1 xi = 1 n m j=1 nj aj ; Geometrický průměr je dán ¯xG = n √ x1x2 · · · xn a má smysl pouze u kladných hodnot znaků. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Definition (pokračování ...) Harmonický průměr je dán ¯xH = 1 n n i=1 1 xi −1 a je také definován jen pro kladné hodnoty znaků. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Definition (pokračování ...) Harmonický průměr je dán ¯xH = 1 n n i=1 1 xi −1 a je také definován jen pro kladné hodnoty znaků. Výběrový průměr je jediný invariantní vůči afinním transormacím, tj. pro libovolné skaláry a, b platí (a + b · x) = a + b · ¯x. Ostatní průměry jsou proto nevhodné pro intervalová měřítka. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Definition (pokračování ...) Harmonický průměr je dán ¯xH = 1 n n i=1 1 xi −1 a je také definován jen pro kladné hodnoty znaků. Výběrový průměr je jediný invariantní vůči afinním transormacím, tj. pro libovolné skaláry a, b platí (a + b · x) = a + b · ¯x. Ostatní průměry jsou proto nevhodné pro intervalová měřítka. Logaritmus geometrického průměru je obyčejný průměr logaritmů znaků. Je obzvlášť vhodný pro znaky, které se kumulují multiplikativně, např. úrokové míry. Je-li totiž úroková míra v jednotlivých časových jednotkách xi %, bude za celé období výsledek takový, jakoby byla konstatní úroková míra ¯x%. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Definition (pokračování ...) Harmonický průměr je dán ¯xH = 1 n n i=1 1 xi −1 a je také definován jen pro kladné hodnoty znaků. Výběrový průměr je jediný invariantní vůči afinním transormacím, tj. pro libovolné skaláry a, b platí (a + b · x) = a + b · ¯x. Ostatní průměry jsou proto nevhodné pro intervalová měřítka. Logaritmus geometrického průměru je obyčejný průměr logaritmů znaků. Je obzvlášť vhodný pro znaky, které se kumulují multiplikativně, např. úrokové míry. Je-li totiž úroková míra v jednotlivých časových jednotkách xi %, bude za celé období výsledek takový, jakoby byla konstatní úroková míra ¯x%. Platí ¯xH ≤ ¯xG ≤ ¯x. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Medián, kvartil, decil, percentil, ... Jiný způsob vyjádření míry, jakou hodnotu nabývají znaky je najít pro číslo α mezi nulou a jedničkou takovou hodnotu xα, aby 100α% hodnot znaku bylo nejvýše xα a zbylé byly alespoň xα. Pokud takový znak není určen jednoznačně, volíme zpravidla průměr mezi dvěmi možnými hodnotami. Nejobvyklejší jsou: medián (často také výběrový medián) definovaný vztahem ˜x = x( n+1 2 ) pro liché n a ˜x = 1 2 (x(n/2)+x(n/2+1)); dolní a horní kvartil Q1 = x0,25 a Q3 = x0,75; p-tý kvantil (též výběrový kvantil nebo percentil) xp, kde 0 < p < 1 (zpravidla zadaný na dvě desetinná místa). Lze se setkat také s hodnotou modus, která udává hodnotu znaku s největší četností. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Míry variability statistických znaků Rozumným požadavkem na jakoukoliv míru variability je její invariance vůči konstantním posunutím. Definition Rozptyl souboru znaků x je definován vztahem s2 x = 1 n n i=1 (xi − ¯xi )2 = 1 n m j=1 nj (aj − ¯x)2 případně v jmenovateli zlomku používáme (n − 1). Směrodatná odchylka je dána jako odmocnina z výběrového rozptylu. Rozpětí výběru je R = x(n) − x(1), kvartilové rozpětí je Q = Q3 − Q1. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Rozptyl je „zprůměrovaný kvadrát“ standardní euklidovské vzdálenosti vektoru výběrových hodnot od jejich střední hodnoty. Díky této definici se chová velice přirozeně a budeme se s ním často potkávat. Používá se také tzv. průměrná odchylka dx = 1 n n i=1 |xi − ˜x|. Všimněme si, že tady jde o skutečný průměr vzdáleností hodnot znaků, ovšem od mediánu! Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Rozptyl je „zprůměrovaný kvadrát“ standardní euklidovské vzdálenosti vektoru výběrových hodnot od jejich střední hodnoty. Díky této definici se chová velice přirozeně a budeme se s ním často potkávat. Používá se také tzv. průměrná odchylka dx = 1 n n i=1 |xi − ˜x|. Všimněme si, že tady jde o skutečný průměr vzdáleností hodnot znaků, ovšem od mediánu! Následující věta říká, proč zrovna tyto míry volíme: Theorem Funkce S(t) = (1/n) n i=1(xi − t)2 nabývá svého minima pro t = ¯x, tj. pro výběrový průměr. Funkce D(t) = (1/n) n i=1 |xi − t| nabývá svého minima pro t = ˜x, tj. pro medián. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Diagramy Pro rychlé vstřebávání složitěji strukturovaných informací je člověk skvěle vybaven zrakově. Proto se pro zobrazení statistiky jednotlivých znaků nebo jejich korelací používá mnoho standardizovaných nástrojů. Jedním z nich jsou tzv. krabicové diagramy. Střední linka je medián, kraje boxu jsou kvartily, "packy"ukazují 1,5 kvartilového rozsahu, ne však víc než kraje rozsahu výběru, případné hodnoty mimo jsou přímo naznačeny body. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Běžné zobrazovací nástroje nám umožnějí dobře vidět případné závislosti dvou výběrů zjištěných znaků. Např. na obrázku jsou za souřadnice voleny hodnoty ze dvou nezávislých výběrů z normálních rozdělení se střední hodnotou 1 a rozptylem 1. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Entropie Variabilitu chceme postihnout i u nominálních typů znaků. K dispozici máme jen třídní četnosti a můžeme tedy relativní četnost i-té třídy, pi = ni n , vnímat jako pravděpodobnost, že náhodně vybraný prvek bude v této třídě. Podbízí se pro datový soubor x definovat HX = n i=1 pi F(pi ), kde F je zatím neznámá funkce. Je-li pk = 1a ostaní pj = 0, pak je variabilita je nulová. chceme proto F(1) = 0. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Celkem přirozeně chceme pro soubor znaků Z tvořený dvojicemi znaků ze souborů X a Y (např. můžeme na statistických jednotkách-osobách sledovat barvu očí a barvu vlasů), aby variabilita znaků z byla součtem variabilit jednotlivých znaků, tj. požadujeme HZ = HX + HY . Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Celkem přirozeně chceme pro soubor znaků Z tvořený dvojicemi znaků ze souborů X a Y (např. můžeme na statistických jednotkách-osobách sledovat barvu očí a barvu vlasů), aby variabilita znaků z byla součtem variabilit jednotlivých znaků, tj. požadujeme HZ = HX + HY . Známe relativní třídní četnosti pi pro znaky v souboru X a qj pro znaky souboru Y . Relativní třídní četnosti pro Z jsou rij = ni mj nm = pi qj a požadujeme tedy rovnost i,j pi qj F(pi qj ) = i pi F(pi ) + j qj F(qj ). Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Díky tomu, že pi a qj jsou relativní četnosti a tedy dávají v součtu 1, můžeme pravou stranu rovnosti přepsat jako j qj i pi F(pi ) + i pi j qj F(qj ) . i,j pi qj F(pi qj ) = i,j pi qj F(pi ) + F(qj ) . Tomuto požadavku vyhovuje jakýkoliv konstantní násobek logaritmu při kterémkoliv pevně zvoleném základu a > 1 (a lze ukázat, že jiná spojitá řešení F neexistují). Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Poněvadž je pi ≤ 1, je jistě ln pi ≤ 0. My však chceme variabilitu nezápornou, zvolíme proto za funkci F logaritmickou funkci s násobkem −1. Taková volba také automaticky splňuje náš požadavek F(1) = 0. Definition (Entropie) Míru variability znaků v nominálním měřítku vyjadřujeme pomocí entropie. Je dána vztahem HX = − k i=1 ni n ln ni n , kde k je počet tříd ve výběru. Kromě přirozeného logaritmu se často také setkáváme (např. teorii informace) se stejným vztahem ale s logaritmem při základu 2. Literatura ODR vyšších řádů Numerické řešení ODR Co je statistika? Popisná statistika Často se také místo HX pracuje s veličinou eHX = i p−pi i , případně totéž s jiným zvoleným základem pro logaritmus. Pro výběr X s k stejně velkými třídními četnostmi je eHX = (1 k )− 1 k k = k, nezávisle na velikosti výběru.