Literatura Bayesovská statistika Testování hypotéz Lineární modely Matematika IV – 11. týden Bayesovská analýza, testování hypotéz Jan Slovák Masarykova univerzita Fakulta informatiky 26. 11. 2013 Literatura Bayesovská statistika Testování hypotéz Lineární modely Obsah přednášky 1 Literatura 2 Bayesovská statistika 3 Testování hypotéz 4 Lineární modely Literatura Bayesovská statistika Testování hypotéz Lineární modely Plán přednášky 1 Literatura 2 Bayesovská statistika 3 Testování hypotéz 4 Lineární modely Literatura Bayesovská statistika Testování hypotéz Lineární modely Kde je dobré číst? Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická pravděpodobnost statistika, Matfyzpress, 2006, 230pp. J. Slovák, M. Panák, M. Bulant, Matematika drsně a svižně, Muni Press, Brno 2013, v+773 s., elektronická edice www.math.muni.cz/Matematika_drsne_svizne Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. Marie Budíková, Tomáš Lerch, Štěpán Mikoláš, Základní statistické metody, Masarykova univerzita, 2005, 170 stran, ISBN 80-210-3886-1. Riley, K.F., Hobson, M.P., Bence, S.J. Mathematical Methods for Physics and Engineering, second edition, Cambridge University Press, Cambridge 2004, ISBN 0 521 89067 5, xxiii + 1232 pp. Literatura Bayesovská statistika Testování hypotéz Lineární modely Plán přednášky 1 Literatura 2 Bayesovská statistika 3 Testování hypotéz 4 Lineární modely Literatura Bayesovská statistika Testování hypotéz Lineární modely Bayesův vzorec pro podmíněnou pravděpodobnost (tzv. inverzní pravděpodobnost): P(A|B) = P(B|A)P(A) P(B) . Literatura Bayesovská statistika Testování hypotéz Lineární modely Bayesův vzorec pro podmíněnou pravděpodobnost (tzv. inverzní pravděpodobnost): P(A|B) = P(B|A)P(A) P(B) . Na úrovni hustot (nebo pravděpodobnostních funkcí) náhodných veličin: máli vektor (X, Θ) hustotu f (x|θ), pak podmíněná pravděpodobnost komponenty Θ za podmínky X = x hustotu g(θ|x) danou g(θ|x) = f (x|θ)g(θ) f (x) . Literatura Bayesovská statistika Testování hypotéz Lineární modely Bayesův vzorec pro podmíněnou pravděpodobnost (tzv. inverzní pravděpodobnost): P(A|B) = P(B|A)P(A) P(B) . Na úrovni hustot (nebo pravděpodobnostních funkcí) náhodných veličin: máli vektor (X, Θ) hustotu f (x|θ), pak podmíněná pravděpodobnost komponenty Θ za podmínky X = x hustotu g(θ|x) danou g(θ|x) = f (x|θ)g(θ) f (x) . Mluvíme o apriorní hustotě g(θ) a aposteriorní hustotě g(θ|x). Literatura Bayesovská statistika Testování hypotéz Lineární modely Bayesův vzorec pro podmíněnou pravděpodobnost (tzv. inverzní pravděpodobnost): P(A|B) = P(B|A)P(A) P(B) . Na úrovni hustot (nebo pravděpodobnostních funkcí) náhodných veličin: máli vektor (X, Θ) hustotu f (x|θ), pak podmíněná pravděpodobnost komponenty Θ za podmínky X = x hustotu g(θ|x) danou g(θ|x) = f (x|θ)g(θ) f (x) . Mluvíme o apriorní hustotě g(θ) a aposteriorní hustotě g(θ|x). Protože předem víme, že g(θ|x) je hustota pravděpodobnosti, nemusí nás konstanta f (x) vůbec zajímat — počítáme prostě až na násobek konstantou. Literatura Bayesovská statistika Testování hypotéz Lineární modely Předpokládejme, že na univerzitě je spokojenost studentů v jednotlivých předmětech náhodná veličina X ∼ N(θ, σ2), zatímco parametr θ dosahovaný jednotlivými učiteli je náhodná veličina θ ∼ N(a, b). Můžeme tedy počítat (pořád až na konstatní násobky, tj. ignorujeme součinitele, ve kterých nevystupuje θ) a dostaneme θ ∼ N b2 b2 + σ2 x + σ2 b2 + σ2 a, b2σ2 b2 + σ2 . Literatura Bayesovská statistika Testování hypotéz Lineární modely Předpokládejme, že na univerzitě je spokojenost studentů v jednotlivých předmětech náhodná veličina X ∼ N(θ, σ2), zatímco parametr θ dosahovaný jednotlivými učiteli je náhodná veličina θ ∼ N(a, b). Můžeme tedy počítat (pořád až na konstatní násobky, tj. ignorujeme součinitele, ve kterých nevystupuje θ) a dostaneme θ ∼ N b2 b2 + σ2 x + σ2 b2 + σ2 a, b2σ2 b2 + σ2 . Když tedy z dlouhodobého vyhodnocování anket známe parametry a, b, σ, můžeme po vyjádření nějakého studenta upřesnit apriorní představu o parametrech pro jeden konkrétní předmět. Ve výsledném odhadu rozložení je pak střední hodnota dána váženým průměrem zjištěné hodnoty x a apriorně předpokládané střední hodnoty a, v závislosti na rozptylech σ a b. Literatura Bayesovská statistika Testování hypotéz Lineární modely Bayesovská interpretace? Pro σ → 0 je váha jediného názoru stále rostoucí a tomu odpovídá 100% váha u x v případdě σ = 0. Je to plně v souladu s interpretací, že Bayesovská statistika je pravděpodobnostní rozšíření standardní diskrétní matematické logiky. Literatura Bayesovská statistika Testování hypotéz Lineární modely Bayesovská interpretace? Pro σ → 0 je váha jediného názoru stále rostoucí a tomu odpovídá 100% váha u x v případdě σ = 0. Je to plně v souladu s interpretací, že Bayesovská statistika je pravděpodobnostní rozšíření standardní diskrétní matematické logiky. Místo jednoho studenta použijeme výběrový průměr ¯X výsledku šetření. Opět o normální rozdělení, jen budeme místo σ2 dosazovat σ2/n. Pišme cn = nb2 nb2 + σ2 a aposteriorní odhad pro θ je θ ∼ N(cn ¯X + (1 − cn)a, cnσ2 /n). Literatura Bayesovská statistika Testování hypotéz Lineární modely Bayesovská interpretace? Pro σ → 0 je váha jediného názoru stále rostoucí a tomu odpovídá 100% váha u x v případdě σ = 0. Je to plně v souladu s interpretací, že Bayesovská statistika je pravděpodobnostní rozšíření standardní diskrétní matematické logiky. Místo jednoho studenta použijeme výběrový průměr ¯X výsledku šetření. Opět o normální rozdělení, jen budeme místo σ2 dosazovat σ2/n. Pišme cn = nb2 nb2 + σ2 a aposteriorní odhad pro θ je θ ∼ N(cn ¯X + (1 − cn)a, cnσ2 /n). Pro rostoucí n se bude střední hodnota našeho rozdělení pro θ stále více blížit výběrovému průměru a jeho rozptyl půjde k nule. Čím je tedy n větší, tím více se blížíme bodovému odhadu z frekventistického přístupu. Literatura Bayesovská statistika Testování hypotéz Lineární modely Přínosem Bayesovského přístupu je, že s použitím odhadnutého rozdělení můžeme odpovídat na dotazy typu „s jakou pravděpodobností je nový vyučující horší než předchozí?“ Potřebujeme k tomu apriorní údaje. Předpokládejme, že máme docela dobře hodnocené učitele: a = 7,5, b = 2,5 a a ponecháme směrodatnou odchylku σ = 2. Pro n = 15 a výběrový průměr 5,133 dostaneme aposteriorní odhad pro rozdělení θ ∼ N(5,230, 0,256). Literatura Bayesovská statistika Testování hypotéz Lineární modely Přínosem Bayesovského přístupu je, že s použitím odhadnutého rozdělení můžeme odpovídat na dotazy typu „s jakou pravděpodobností je nový vyučující horší než předchozí?“ Potřebujeme k tomu apriorní údaje. Předpokládejme, že máme docela dobře hodnocené učitele: a = 7,5, b = 2,5 a a ponecháme směrodatnou odchylku σ = 2. Pro n = 15 a výběrový průměr 5,133 dostaneme aposteriorní odhad pro rozdělení θ ∼ N(5,230, 0,256). Zajímá nás P(θ < 6). Odpověď získáme dotazem na hodnotu distribuční funkce příslušného normálního rozdělení pro argument 6 – odpověď je cca 93, 6%. Je tedy podobná, jako jsme viděli v frekventistickém přístupu. Literatura Bayesovská statistika Testování hypotéz Lineární modely Plán přednášky 1 Literatura 2 Bayesovská statistika 3 Testování hypotéz 4 Lineární modely Literatura Bayesovská statistika Testování hypotéz Lineární modely Definition Hypotézou rozumíme nějaké tvrzení o rozdělení určeném sdruženou distribuční funkcí FX (x) náhodného vektoru X = (X1, . . . , Xn). Rozhodujeme mezi tzv. nulovou hypotézou H0 a alternativní hypotézou HA, která bývá negací nulové hypotézy. Možnými rozhodnutími jsou zamítnutí nebo nezamítnutí nulové hypotézy. Literatura Bayesovská statistika Testování hypotéz Lineární modely Definition Hypotézou rozumíme nějaké tvrzení o rozdělení určeném sdruženou distribuční funkcí FX (x) náhodného vektoru X = (X1, . . . , Xn). Rozhodujeme mezi tzv. nulovou hypotézou H0 a alternativní hypotézou HA, která bývá negací nulové hypotézy. Možnými rozhodnutími jsou zamítnutí nebo nezamítnutí nulové hypotézy. Když nulovou hypotézu zamítneme, přestože ve skutečnosti platí, nastává chyba prvního druhu, když ji nezamítneme v situaci, kdy neplatí, hovoříme o chybě druhého druhu. Literatura Bayesovská statistika Testování hypotéz Lineární modely Statistické rozhodování se opírá o předem určený kritický obor W , tj. předem určenou množinu výsledků pokusu, při kterých budeme nulovou hypotézu zamítat. Literatura Bayesovská statistika Testování hypotéz Lineární modely Statistické rozhodování se opírá o předem určený kritický obor W , tj. předem určenou množinu výsledků pokusu, při kterých budeme nulovou hypotézu zamítat. Tvar kritického oboru oboru volíme tak, abychom platnou hypotézu zamítli s pravděpodobností nejvýše α. Tj. zadáváme předem ohraničení velikosti chyby prvního druhu tzv. hladinou testu α. Zpravidla volíme α = 0, 05 nebo α = 0, 01. Výpočetní síla dnes umožňuje úkol obrátit a pro daná data se ptát, na jaké nejmenší hladině bychom ještě hypotézu zamítli. Hovoříme o dosažené hladině testu nebo také p–hodnotě (v angličtině P-value nebo Sig. level). Literatura Bayesovská statistika Testování hypotéz Lineární modely Statistické rozhodování se opírá o předem určený kritický obor W , tj. předem určenou množinu výsledků pokusu, při kterých budeme nulovou hypotézu zamítat. Tvar kritického oboru oboru volíme tak, abychom platnou hypotézu zamítli s pravděpodobností nejvýše α. Tj. zadáváme předem ohraničení velikosti chyby prvního druhu tzv. hladinou testu α. Zpravidla volíme α = 0, 05 nebo α = 0, 01. Výpočetní síla dnes umožňuje úkol obrátit a pro daná data se ptát, na jaké nejmenší hladině bychom ještě hypotézu zamítli. Hovoříme o dosažené hladině testu nebo také p–hodnotě (v angličtině P-value nebo Sig. level). Mezi všemi kritickými obory na dané hladině testu ale pochopitelně přitom chceme vybrat ten, který bude minimalizovat chybu druhého druhu. Literatura Bayesovská statistika Testování hypotéz Lineární modely Předpokládejme, že náhodný vektor X má hustotu rozdělení f (x, θ) závislou na (vektorovém) parametru. Za nulové hypotézy je to rozdělení s hustotou f (x, θ0), za alternativní s hustotou f (x, θ1). Theorem (Neymanovo-Pearsonovo lemma) Nechť k danému α ∈ (0, 1) existuje c > 0 takové, že pro množinu Wc = {x : f (x, θ1) ≥ cf (x, θ0)} platí Wc f (x, θ0)dx = α. Pak pro každou měřitelnou množinu W takovou, že je W f (x, θ0)dx = α, platí Wc f (x, θ1)dx ≥ W f (x, θ1)dx Literatura Bayesovská statistika Testování hypotéz Lineární modely V případě intervalových odhadů můžeme problém přeformulovat jako hypotézy H0 – „střední hodnota je µ0“ a HA – „střední hodnota je µ1“. Kritický obor je pak dán požadavkem |Z| = ¯X − µ0 σ √ n ≥ z(α/2) a nezávisí na konkrétní hodnotě µ1. Example Úkol v našem předchozím příkladu o výšce desetiletých chlapců lze formulovat tak, že nulovou hypotézou je nezměněná výška populace, zatímco alternativní je, že se výška změnila (tj. náš kritický obor je symetrický). Hladinu testu pak spočteme na 6, 66%, takže je přirozené, že jsme nulovou hypotézu na úrovni 5% nezamítli. Literatura Bayesovská statistika Testování hypotéz Lineární modely V případě intervalových odhadů můžeme problém přeformulovat jako hypotézy H0 – „střední hodnota je µ0“ a HA – „střední hodnota je µ1“. Kritický obor je pak dán požadavkem |Z| = ¯X − µ0 σ √ n ≥ z(α/2) a nezávisí na konkrétní hodnotě µ1. Example Úkol v našem předchozím příkladu o výšce desetiletých chlapců lze formulovat tak, že nulovou hypotézou je nezměněná výška populace, zatímco alternativní je, že se výška změnila (tj. náš kritický obor je symetrický). Hladinu testu pak spočteme na 6, 66%, takže je přirozené, že jsme nulovou hypotézu na úrovni 5% nezamítli. Když interpretujeme zadání tak, že buď se výška nezměnila, nebo vzrostla, bude náš kritický obor nesymetrický a dojdeme k hladině testu 3, 33%. Nulovou hypotézu proto na hladině 5% zamítneme. Literatura Bayesovská statistika Testování hypotéz Lineární modely Plán přednášky 1 Literatura 2 Bayesovská statistika 3 Testování hypotéz 4 Lineární modely Literatura Bayesovská statistika Testování hypotéz Lineární modely Uvažujme náhodný vektor Y = (Y1, . . . , Yn)T a předpokládejme, že platí Y = X · β + σZ, kde X = (xij ) je konstantní matice reálných čísel s n řádky a k < n sloupci a hodností k, β je neznámý konstantní vektor k parametrů modelu, Z je náhodný vektor, jehož n komponent má rozdělení N(0, 1), a σ > 0 je neznámý kladný parametr modelu. Hovoříme o lineárním modelu s úplnou hodností. Literatura Bayesovská statistika Testování hypotéz Lineární modely Uvažujme náhodný vektor Y = (Y1, . . . , Yn)T a předpokládejme, že platí Y = X · β + σZ, kde X = (xij ) je konstantní matice reálných čísel s n řádky a k < n sloupci a hodností k, β je neznámý konstantní vektor k parametrů modelu, Z je náhodný vektor, jehož n komponent má rozdělení N(0, 1), a σ > 0 je neznámý kladný parametr modelu. Hovoříme o lineárním modelu s úplnou hodností. V praktických problémech jde často o to, že známe veličiny xij a snažíme se odhadnout nebo predikovat hodnotu Y . Literatura Bayesovská statistika Testování hypotéz Lineární modely Například xij může ve vztahu Y = X · β + σZ vyjadřovat hodnocení i–tého studenta v j–tém semestru (j = 1, 2, 3) z matematiky a chceme vědět, jak tento student asi dopadne ve čtvrtém semestru. K tomu potřebujeme znát vektor β (zatímco σZ vystihuje náhodná vychýlení ve sledovaném modelu). Vektor β odhadneme na základě úplných pozorování, tj. ze znalosti hodnot Y (např. z výsledků v přechozích letech). Literatura Bayesovská statistika Testování hypotéz Lineární modely Například xij může ve vztahu Y = X · β + σZ vyjadřovat hodnocení i–tého studenta v j–tém semestru (j = 1, 2, 3) z matematiky a chceme vědět, jak tento student asi dopadne ve čtvrtém semestru. K tomu potřebujeme znát vektor β (zatímco σZ vystihuje náhodná vychýlení ve sledovaném modelu). Vektor β odhadneme na základě úplných pozorování, tj. ze znalosti hodnot Y (např. z výsledků v přechozích letech). K odhadu vektoru β se často používá metoda nejmenších čtverců. To znamená, že chceme najít odhad b ∈ Rk tak, aby vektor ˆY = Xb minimalizoval druhou mocninu délky vektoru Y − Xβ. Literatura Bayesovská statistika Testování hypotéz Lineární modely Například xij může ve vztahu Y = X · β + σZ vyjadřovat hodnocení i–tého studenta v j–tém semestru (j = 1, 2, 3) z matematiky a chceme vědět, jak tento student asi dopadne ve čtvrtém semestru. K tomu potřebujeme znát vektor β (zatímco σZ vystihuje náhodná vychýlení ve sledovaném modelu). Vektor β odhadneme na základě úplných pozorování, tj. ze znalosti hodnot Y (např. z výsledků v přechozích letech). K odhadu vektoru β se často používá metoda nejmenších čtverců. To znamená, že chceme najít odhad b ∈ Rk tak, aby vektor ˆY = Xb minimalizoval druhou mocninu délky vektoru Y − Xβ. To je ale jednoduchá úloha lineární algebry a víme, že jde o nalezení kolmého průmětu vektoru Y do podprostoru X ⊂ Rn generovaném sloupci matice X. Literatura Bayesovská statistika Testování hypotéz Lineární modely Minimalizujeme přitom funkci Y − Xβ 2 = n i=1 Yi − k j=1 xij βj 2 . Literatura Bayesovská statistika Testování hypotéz Lineární modely Minimalizujeme přitom funkci Y − Xβ 2 = n i=1 Yi − k j=1 xij βj 2 . Velikost Y − ˆY 2 nazýváme reziduální součet čtverců, zpravidla se značí RSS. Definujeme také reziduální rozptyl jako S2 = Y − Xb 2 n − k . Literatura Bayesovská statistika Testování hypotéz Lineární modely Minimalizujeme přitom funkci Y − Xβ 2 = n i=1 Yi − k j=1 xij βj 2 . Velikost Y − ˆY 2 nazýváme reziduální součet čtverců, zpravidla se značí RSS. Definujeme také reziduální rozptyl jako S2 = Y − Xb 2 n − k . Víme, že ˆY = Xb a že, díky našemu přepokladu o maximální hodnosti X, je matice XT X invertibilní. Můžeme proto rovnou spočíst b = (XT X)−1XT ˆY . Literatura Bayesovská statistika Testování hypotéz Lineární modely Theorem V lineárním modelu Y = Xβ + σZ paltí pro vhodné matice P a R: (1) Pro odhad ˆY platí ˆY = Xβ + σPPT Z, ˆY ∼ N(Xβ, σ2 PPT ). (2) Reziduální součet čtverců RSS a normovaný čtverec velikosti rezidua mají rozdělení: Y − ˆY ∼ N(0, σ2 RRT ), Y − Y 2 /σ2 ∼ χ2 n−k . (3) Náhodná veličina b = β + σ(PT X)−1PT Z má rozdělení b ∼ N(β, σ2 (XT X)−1 ). (4) Pro reziduální rozptyl platí (n − k)S2/σ2 ∼ χ2 n−k. (5) Střední hodnota reziduálního rozptylu je E S2 = σ2. (6) Veličiny b a S2 jsou nezávislé.