Statistické metody v ochraně kulturního dědictví

                                          Lubomír Prokeš

                                                II.

                                           Náhodný výběr

= reprezentativní vzorek základního souboru.

•                 Jednotlivá pozorování v náhodném výběru pocházejí z téhož rozdělení, tj. jsou
realizována za stejných podmínek.

•                 Hodnoty náhodné veličiny v náhodném výběru musí být vybrány nezávisle, tj. výběr
kterékoli hodnoty nesmí ovlivnit výběr hodnoty následující.

                                       Popisná statistika II


              výběrové odhady parametrů používaných k charakteristice náhodných výběrů


•        Výběrový průměr

•        Výběrový medián

[•              ]Výběrové variační rozpětí:      R = x[max] – x[min]

[•              ]Výběrové kvartily Q[III] a Q[I]

•        Výběrový rozptyl (s^2) a výběrová směrodatná odchylka (s) a výběrový variační koeficient


•        Výběrová šikmost

•        Výběrová špičatost


•         Výběrový modus

                                        Statistická indukce

– zobecnění závěrů získaných zpracováním výběru na celý základní soubor.

                                    Rozdělení χ2 (chí kvadrát)

Pro výběr n prvků z normovaného normálního rozdělení (z[1], z[2], ... , z[n]) lze provést součet
jeho čtverců χ2.

                                  Fisher – Snedecorovo rozdělení
                                           (F-rozdělení)

                             Aritmetický průměr jako náhodná veličina

                                       Studentovo rozdělení
                                           (t-rozdělení)

                                       Stratifikovaný výběr


pokud známe faktor, který by mohl sledovanou vlastnost ovlivňovat, můžeme populaci rozdělit do
dílčích skupin (vrstev, strat) a provádět náhodný výběr odděleně v každé vrstvě. Zjištěné výsledky
se pak slučují vhodnou metodou, respektující velikost vrstev.

           Odhad střední hodnoty a rozptylu na základě znalosti odhadů z dílčích výběrů

Na základě dílčích průměrů

                                        Statistické odhady

•        Bodové = 1 hodnota: vlastní odhad parametru základního souboru z výběrových charakteristik


•        Intervalové = bodové odhady + jejich přesnost (ta roste s rozsahem výběru)

   2 hodnoty: hranice intervalu spolehlivosti


                                    Vlastnosti bodových odhadů

•        Konzistence


                                    Vlastnosti bodových odhadů

•        Nestrannost (nevychýlenost)

                                    Vlastnosti bodových odhadů

•        Vydatnost (eficience)

                                         Intervalový odhad

                              Interval spolehlivosti střední hodnoty

•         S použitím kvantilů t-rozdělení


                jsou tabelovány


•         S použitím variačního rozpětí R (Dean a Dixon)


        K[n  ]jsou tabelovány.

                                         Intervalový odhad

Pro výběrový rozptyl platí

                                      Interval spolehlivosti

•        Jednostranný

•        Oboustranný

                                         Testování hypotéz

•        Formulace hypotézy


»   nulová hypotéza (H[0])

»   alternativní hypotéza (H[1])


•        Volba hladiny významnosti α


•        Volba testu a výpočet testovacího kritéria.


•        Interpretace výsledků (zamítnutí/nezamítnutí H[0])


                                        Testování hypotéz[]

                                         Testování hypotéz


Nezamítnutí hypotézy H[0] tedy může nastat nejen díky její platnosti, ale také, zejména pro malé
rozsahy výběrů, i jako důsledek chyby II. druhu !!!!

                                          Sekvenční testy

    Spolehlivost statistických testů je do značné míry závislá na rozsahu zpracovávaného souboru
(počtu stanovení), takže při malém počtu výsledků mohou být závěry nesprávné (důsledek chyby II.
druhu).


                                   Základní předpoklady o datech

•       Nezávislost (náhodnost výběru)

•       Minimální velikost výběru

•       Homogenita

•       Odlehlé hodnoty

•       Normalita

                                            Nezávislost

•       Test autokorelace


                                            Nezávislost

Skupinový test.

Mediálou (přímka rovnoběžná s osou x) rozdělíme data, vzhledem k ose x na dvě poloviny), data pak
rozdělíme do skupin podle toho, zda jsou nad, či pod mediánou. Počet takto získaných skupin z n
hodnot porovnáme s tabulkou.

                                            Nezávislost

•        Spearmanův korelační koeficient

       (viz korelace)


•        Znaménkový test

          vypočítají se odchylky testu a určí se poměr n[+]/n[-], ten se testuje pomocí binomického
rozdělení.[]


                                            Nezávislost

                                            Homogenita

                                          Odlehlé hodnoty

•        Grafické metody

                          box and whisker plot


Grubbsův test


Deanův a Dixonův test


•       Metoda modifikace vnitřních hradeb


Modifikované vnitřní hradby jsou definovány


•        dolní vnitřní hradba:

•        horní vnitřní hradba:


Parametr K se volí tak, aby byla vysoká pravděpodobnost, že z výběru velikosti n z normálního
rozdělení nebude žádný prvek mimo modifikované vnitřní hradby (obvykle se volí pravděpodobnost
0,95). Pro n v rozmezí 8 ≤ n ≤ 100 lze použít aproximace


                                         K = 2,25 – 3,6/n

                                          Odlehlé hodnoty

•        Vyloučení odlehlých hodnot ze souboru (nedoporučuje se, zejm. u malých výběrů)


•        Použití robustních parametrů polohy

     medián


     uřezaný průměr


        winsorizovaný průměr


          U je procento uřezaných pořádkových statistik, nejlépe 10%

                                     Minimální velikost výběru

•        Pro zvolenou střední chybu průměru (x – μ):


    Nutná je znalost směrodatné odchylky nebo jejího odhadu. Pro α = 0,05 je t[α] přibližně rovno
2.

                                             Normalita

•        Grafické metody

                            box and whisker plot

                                   histogram a jádrový odhad


Kvantil-kvantilový (QQ) graf

    osa x: výběrové kvantily

     osa y: kvantily teoretického rozdělení (nejč. norm. normálního rozd.)


Pravděpodobnostní (PP) graf

     osa x: standardizovaná proměnná

     osa y: standardizovaná distr. funkce teoretického rozdělení (nejč. norm. normálního rozd.)

                                     Kvantil – kvantilový graf

                                             Normalita

•        Anderson – Darlingův test


•        Shapirův – Wilkův test


•        Test šikmosti a špičatosti


•        Test dobré shody


•        Kolmogorovův a Lilieforsův test


                                         Transformace dat

•        Logaritmická


•        Mocninná


•        Box-Coxova

                                            Testy shody

•       Středních hodnot (testy správnosti)


•       Rozptylů (testy přesnosti)


•       Rozdělení


                s jedním výběrem

                se dvěma výběry

•        Studentův test


•        Lordův test


                            Test shody středních hodnot se dvěma výběry

Pro n[1] = n[2]

                            Test shody středních hodnot se dvěma výběry

Pro n[1] ≠ n[2]

                               t-testy výběrů s nestejnými rozptyly

Shoda s[1]^2 a s[2]^2 se testuje F-testem


s[1]^2 = s[2]^2

^                                            v tabulkách

^

^

^

s[1]^2 ≠ s[2]^2

                            Neparametrické testy shody středních hodnot


test shody mediánů


Wilcoxonův test


Mann – Whitneyův test


znaménkový test


                                      Závislé hodnoty (bloky)

•        Párový t- test


•        Znaménkový test


•        Wilcoxonův test


•        Permutační (Bootstrap) test

          není nutný předpoklad náhodného výběru.

                                       Párový t-test a ANOVA

•       Párový t-test lze užít pouze pro srovnání dvou souborů!!!

•       Nelze ho použít pro srovnání více souborů způsobem „každý s každým“ – výsledky nejsou
nezávislé a je problém s odhadem α (chyby I. druhu).

•       V případech více než dvou souborů lze použít pouze analýzu rozptylu (ANOVU)

                                       Párový t-test a ANOVA

                                        Test shody rozptylů

•       F-test (Fisher-Snedecorův)


•       Leveneův test


•       Jacknife testy

                              Test shody středních hodnot a rozptylů

Grafické metody


box and whisker plot

    histogramy

    stem and leaf plot

    Lewisův test

                                   Kolmogorovův a Smirnovův test