Využití MATLABu při práci s Poissonovým rozložením Základní poznatky o Poissonově rozložení Po(λ) Náhodná veličina X ~ Po(λ) udává počet událostí, které nastanou v jednotkovém časovém intervalu případně v jednotkové oblasti, jestliže k událostem dochází náhodně, jednotlivě a vzájemně nezávisle. Parametr λ je střední hodnota počtu těchto událostí. Pokud sledujeme náhodnou veličinu, která udává počet událostí v intervalu délky t, pak uvedená náhodná veličina má rozložení Po(tλ). Pravděpodobnostní funkce: ( )      = λ =π λ− jinak0 0,1,2,...xproe !xx x , distribuční funkce: ( ) ∑= λ−λ =Φ x 0t t e !t x , E(X) = λ, D(X) = λ Aproximace binomického rozložení pomocí Poissonova rozložení: Nechť náhodná veličina X ~ Bi(n,ϑ ). Za předpokladu, že n ≥ 30 a ϑ ≤ 0,1, lze pravděpodobnostní funkci této náhodné veličiny uspokojivě aproximovat pravděpodobnostní funkcí rozložení Po(nϑ ): ( ) ( ) ϑ−ϑ ≈= n x e !x n xXP Interval spolehlivosti pro střední hodnotu: Nechť X1, …, Xn je náhodný výběr z rozložení Po(λ) a nechť m je realizace výběrového průměru. Pak meze 100(1α)% přibližného empirického intervalu spolehlivosti pro střední hodnotu λ jsou: a) 2/12/1 u n m mh,u n m md α−α− +=−= (aproximace pomocí normálního rozložení) b) ( )nm2 n2 1 d 2/ 2 αχ= , ( )( )1nm2 n2 1 h 2/1 2 +χ= α− (aproximace bez použití normálního rozložení) MATLAB počítá meze intervalu spolehlivosti pro střední hodnotu λ podle tohoto vzorce. Testování hypotézy o shodě parametrů dvou Poissonových rozložení: Nechť X11, …, X1n1 je náhodný výběr z rozložení Po(λ1) a nechť X21, …, X2n2 je na něm nezávislý náhodný výběr z rozložení Po(λ2). Označme M* vážený průměr výběrových průměrů, tj. 21 2211 * nn MnMn M + + = . Na hladině významnosti α testujeme hypotézu H0: λ1 = λ2 proti alternativě H1: λ1 ≠ λ2. Testová statistika: ( ) ( ) * 2 *22 2 *11 0 M MMnMMn T −+− = . Platí-li H0, T0 ≈ N(0,1). Kritický obor: )( ∞∪−∞−= α−α− ,uu,W 2/12/1 Jestliže realizace t0 testové statistiky T0 patří do kritického oboru, H0 zamítáme na asymptotické hladině významnosti α. Kreslení grafu pravděpodobnostní a distribuční funkce rozložení Po(2) x=[0:10]’; pf=poisspdf(x,2); plot(x,pf,’o’) df=poisscdf(x,2); figure stairs(x,df) (Samostatný úkol: Jak nakreslit graf distribuční funkce bez svislých čar?) Jedno z možných řešení: hold on for i=1:(length(x)-2) plot([i,i],[0,1],'w'); end b) Generování 100 realizací náhodné veličiny s rozložením Po(2) a kreslení his- togramu r=poissrnd(2,100,1); hist(r,x) c) Odhad střední hodnoty a výpočet mezí intervalu spolehlivosti pro střední hodnotu na základě proměnné r Hodnoty uložené v proměnné r považujeme za realizace náhodného výběru rozsahu 100 z rozložení Po(2) [m,meze]=poissfit(r) d) Výpočet střední hodnoty a rozptylu rozložení Po(2) [m,v]=poisstat(2) Příklady na využití Poissonova rozložení Příklad 1.: Při provozu balicího automatu vznikají během směny náhodné poruchy, které se řídí rozložením Po(2). Jaká je pravděpodobnost, že během směny dojde k aspoň jedné poruše? Řešení: X – počet poruch během směny, X ~ Po(2), P(X ≥ 1) = 1 – P(X < 1) = 1 – P(X = 0) = 1 - 2 0 e !0 2 − = 0,8647. V MATLABu: p = 1 – poisspdf(0,2) Příklad 2.: Telefonní ústředna zapojí během hodiny průměrně 15 hovorů. Jaká je pravděpodobnost, že během 4 minut ústředna zapojí a) právě jeden hovor, b) aspoň dva hovory? Řešení: X – počet zapojených hovorů během 4 minut = 1/15 hodiny, X ~ Po(tλ), kde t = 1/15 a λ = 15, tedy X ~ Po(1). ad a) ( ) 36788,0e1XP 1 === − , ad b) ( ) ( ) ( ) ( ) 264242,036788,021e211011XP12XP 1 =⋅−=−=π−π−=≤−=≥ − V MATLABu: a) p = poisspdf(1,1), b) p = 1 – poisscdf(1,1) Příklad 3.: Ze zkušenosti víme, že při správné obsluze stroje je v průměru 0,1% výrobků zmetkových. Ke stroji nastoupil nový pracovník. Za týden vyrobil 5 000 kusů, z nichž 11 bylo zmetkových. Lze takto vysoký počet zmetků vysvětlit působením náhodných vlivů? Řešení: Počítáme pravděpodobnost, že pracovník vyrobil aspoň 11 zmetků za předpokladu, že stroj je obsluhován správně. X – počet vyrobených zmetků za týden, X ~ Bi(5000, 0,001). Při splnění podmínek dobré aproximace lze rozložení veličiny X aproximovat rozložením Po(5). ( ) ( ) .0137,09863,01e !t 5 110XP111XP 10 0t 5 t =−=−=≤−=≥ ∑= − Je zřejmé, že nový pracovník nepracuje správně. V MATLABu: p = 1 – poisscdf(10,5) Přesný výpočet v MATLABu: p = 1 – binocdf(10,5000,0.001) Příklad 4.: Pro n = 30 a ϑ = 0,1 ilustrujte aproximaci binomického rozložení Bi(n, ϑ) Poissonovým rozložením Po(nϑ). Vypočtené hodnoty obou pravděpodobnostních funkcí v bodech x = 0, 1, …, 30 zapište do tabulky. Řešení: x=[0:1:30]’; pf1=binopdf(x,30,0.1); pf2=poisspdf(x,3); [x pf1 pf2] Příklad 5.: Na výrobní lince se zhruba každé dvě hodiny vyskytne porucha. Sestrojte tabulku uvádějící, s jakou pravděpodobností se na této lince během osmihodinové pracovní směny nevyskytne žádná porucha, vyskytne jedna porucha, vyskytnou dvě poruchy atd. až vyskytne deset poruch. S jakou pravděpodobností nastane více než deset poruch? Určete nejpravděpodobnější počet poruch během osmihodinové směny. Řešení: X - počet poruch během osmi hodin, X ~ Po(tλ), kde t = 4 a λ = 1 , tedy X ~ Po(4). ( ) ( ) 0183,0e !0 4 00XP 4 0 ==π== − ( ) ( ) 0733,0e !1 4 11XP 4 1 ==π== − ………………………………….. ( ) ( ) 0053,0e !10 4 1010XP 4 10 ==π== − Přehledný zápis všech výsledků viz následující tabulka (včetně kumulovaných hodnot čili distribuční funkce). Všimněte si, že ačkoli jsme samozřejmě nevyčerpali všechny možné počty poruch (těch je nekonečně mnoho), dosahuje součet všech vypočtených pravděpodobností téměř 1. Najdeme ho jako hodnotu distribuční funkce Φ(10)=0,9972 a jde o pravděpodobnost, že počet poruch bude nejvýše deset. Celková pravděpodobnost, že by byl počet poruch naopak větší než deset, je tedy 1-Φ(10) a činí pouze necelá tři promile (1-0,9972 = 0,0028). n 0 1 2 3 4 5 6 7 8 9 10 π(n) 0,0183 0,0733 0,1465 0,1954 0,1954 0,1563 0,1042 0,0595 0,0298 0,0132 0,0053 Φ(n) 0,0183 0,0916 0,2381 0,4335 0,6288 0,7851 0,8893 0,9489 0,9786 0,9919 0,9972 Nejpravděpodobnější počet poruch během osmihodinové směny je tři až čtyři (hledáme modus, jde o bimodální případ). V MATLABu: x=[0:10]'; pf=poisspdf(x,4); df=poisscdf(x,4); [x pf df] Grafické znázornění: plot(x,pf,'o') stairs(x,df) Příklad 6.: Semena rostlin určitého druhu jsou znečištěna malým množstvím plevele. Je známo, že na jedné jednotce plochy vyrostou po osetí v průměru 4 rostliny plevele. Vypočítejte pravděpodobnost, že na dané jednotce plochy: a) Nebude žádný plevel, b) Vyrostou nejvýše 3 rostliny plevele, c) Vyroste aspoň 5, ale nejvýše 7 rostlin plevele. Výsledek: ad a) 0,0183, ad b) 0,4335, ad c) 0,32. Příklad 7.: V prodejně posunuli zavírací dobu ve všední dny z 18 na 19 hodin. Sestrojte 90% přibližný empirický interval spolehlivosti pro střední hodnotu počtu zákazníků v této době, navštívilo-li prodejnu ve 30 náhodně zvolených dnech ve sledované době celkem 225 zákazníků. Přitom předpokláme, že počet zákazníků v určitém časovém intervalu má Poissonovo rozložení. Meze intervalu spolehlivosti vypočtěte jak pomocí aproximace normálním rozložením, tak bez této aproximace. Výsledek: ad a) 6,68 < λ < 8,32, ad b) 6,70 < λ < 8,38 Příklad 8.: Na jisté VŠ si v podzimním semestru roku 2010 předmět Statistika zapsalo 711 osob, z toho 351 mužů a 360 žen. V průběhu zkouškového období bylo zaznamenáno u mužů 68 neúspěšných pokusů o složení zkoušky z tohoto předmětu a u žen 108 neúspěšných pokusů. Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota počtu neúspěšných pokusů připadajících na jednoho muže je stejná jako střední hodnota počtu neúspěšných pokusů připadajících na jednu ženu. Výsledek: Průměrný počet neúspěšných pokusů připadajících na jednoho muže je 0,1937, průměrný počet neúspěšných pokusů připadajících na jednu ženu je 0,3. Testová statistika se realizuje hodnotou t0 = 2,8474, kritický obor má tvar )( ∞∪−∞−= ,96,196,1,W , H0 zamítáme na asymptotické hladině významnosti 0,05.