Statistické metody v ochraně kulturního dědictví

                                          Lubomír Prokeš


                                                 I

                                        Data a práce s nimi

•        1) sběr a zpracování dat (tvorba databáze)


•        2) analýza dat (výběr a použití vhodné metody)


•        3) prezentace výsledků (špatná presentace dat může vést k chybným závěrům)


•        4) metaanalýza (srovnávání výsledků z různých publikací)

                                             Pozor !!!

 Nepoučený uživatel může často založit zásadní rozhodnutí na základě

      1) volby nesprávné metody statistické analýzy, která poskytne nesmyslné výsledky

    2) nesprávné interpretace správných výsledků

                                            Statistika

   = nauka o tom, jak získat informace z numerických dat.


•        1) Získávání dat. Zahrnuje metody pro sběr dat, jež zodpoví předem danou otázku. Základní
přístupy k výběru měřených objektů, návrhu experimentů (experimental design) a validaci instrumentů
pro získávání dat.

•        2) Analýza dat. Zahrnuje organizaci dat a jejich popis užitím grafů a numerických souhrnů
(popisná statistika, průzkumová analýza dat (EDA)).

•        3) Statistické usuzování (inference). Usiluje o získání závěrů o širším univerzu jevů na
základě analýzy dat, včetně zhodnocení spolehlivosti těchto závěrů, k čemuž využívá
pravděpodobnostní pojmy (statistická inference, statistická indukce).

                                       Statistický software

   WYSIWYG:          MS Excel,                    STATISTICA,                  SPSS, NCSS

                    Kyplot, PAST, aj.


   ne WYSIWYG:     MATLAB,

                     S+, R,

                                         SciPy

                                             Typy dat

Kvalitativní (nominální):

   lze sledovat jen identitu (=) a odlišnost (≠).


•       alternativní (dichotomické) – znak má pouze dvě varianty (ano / ne).


•       množné (polytomické) – znaky s větším počtem variant.

                                             Typy dat

•       Kvantitativní znaky


•        1) pořadové (ordinální) znaky.

     jejich varianty jsou uspořádané podle intenzity sledovaného znaku.

•       porovnávací: není předem daná pořadová stupnice, varianty se třídí podle míry zastoupení
(intenzity) sledovaného znaku

•        zařazovací: předem se vymezí pořadí variant, tj. zadá se jejich „stupnice“.

                                             Typy dat

•       Kvantitativní znaky


•       2) číselné (kardinální) znaky.

    Měřitelné znaky, jejichž varianty lze vyjádřit číselnou hodnotou.


•        intervalové.- nemají smysluplnou nulu


•        podílové (poměrové). - mají smysluplnou nulu

                                             Typy dat

Kvantitativní data


Diskrétní: nabývají konečně mnoha hodnot (např. četnosti)


Spojitá: nabývají hodnot všech reálných čísel v daném intervalu (např. rozměry)


•       Typ dat je nutno respektovat při výběru metod analýzy dat !!


                                         Transformace dat

poměrové → intervalové → pořadové → nominální.


•       „Dummy variables“:


•       Heavisidova funkce:


     Θ(x) =       1 když      x > 0

              0   když       x ≤ 0

                                         Transformace dat

•               Absolutní četnost (n[i]) = počet případů, v nichž se určitá hodnota x[i] vyskytne
ve statistickém souboru.


•                Relativní četnost (f[i]) = podíl případů z celkového rozsahu souboru, v nichž se
hodnota x[i] vyskytne ve statistickém souboru.

                                         Transformace dat

•       Třídní (skupinové, intervalové) četnosti = kvantitativní znaky rozdělíme na intervaly a
všechna pozorování z téhož intervalu nahradíme jedinou hodnotou, nejčastěji průměrem z nejnižší a
nejvyšší hodnoty v dané třídě.


   Počet tříd má vliv na přesnost výpočtu ukazatelů a pracnost výpočtů. Čím je počet tříd menší,
tím je délka intervalů větší a tím jsou výpočty méně přesné.


                                         Transformace dat

•        Transformace do pořadí: převádí hodnoty x[i] podle velikosti do intervalu i = 1 až n.
Stejným hodnotám přiřazujeme průměrné pořadí, které této skupince hodnot odpovídá.

                                       Popisná statistika I.

                                        Popisná statistika

•       1) grafické metody


•       2) tabulky


•       3) číselné parametry

                                    Sloupcový graf (bar chart)

                                     Koláčový graf (pie chart)

                                         Čárkovací metoda

                                        Stem and leaf plot

                                  Histogram a frekvenční polygon

     0,05R < k < 0,12R                                                 k ≈ 1 + log2(2n) = 1 +
3,3log n (Sturgesovo pravidlo)                            k ≈ 5log n

     k = int(2,46(n - 1)0,4)

                                       Kvantily a percentily

Rozdělují soubor na danou percentuální část.

Nejvýznamnější kvantily:


Medián: 2. kvartil (50% percentil)


Q[I]: Dolní kvartil (1. kvartil, 25% percentil)


Q[III]: Horní kvartil (3. kvartil, 75% percentil)


•       Medián (  ) rozděluje uspořádané (podle velikosti) zjištěné hodnoty na dvě stejně početné
části.


 Pro výpočet mediánu a ostatních kvantilů platí:

Je-li n liché

•                           = x[k]        kde k = (n + 1)/2


Je-li n sudé

•                                        kde k = n/2


Výhodou mediánu je, že bezprostředně nezávisí na extrémních hodnotách.


Mediánová odchylka


Absolutní mediánová odchylka


                                           MAD = med(X[i] – med)

Interkvartilové rozpětí


                                      Q = Q[III] – Q[I]


Kvartilový koeficient šikmosti


Pearsonův koeficient šikmosti


                                     Momentové charakteristiky

Aritmetický průměr (  )

                                     Momentové charakteristiky

       Rozptyl


                        resp.

                                     Momentové charakteristiky

•


•        Šikmost: měří asymetrii dat


•        Špičatost:

                                       Box and whisker plot

                                       Jádrové odhady (KDE)

                                       Jádrové odhady (KDE)


kde K(x) je funkce symetrická kolem nuly, šířka pásu h určuje stupeň vyhlazení:


                                              h[opt] = 2,34σn^-0,2

                                         Kumulativní graf

                                         Kumulativní graf


•       Při posuzování grafů je třeba sledovat:


•        1) zhuštění dat (místo či místa s největší četností)

•        2) shluky dat

•        3) mezery v datech (intervaly bez hodnot)

•        4) odlehlé hodnoty (přítomnost údajů odlišných od zbytku dat)

•        5) tvar rozdělení (např. z histogramu)

                                      Základní soubor a výběr


•       Základní populace (základní soubor) je množina všech teoreticky možných objektů (jedinců)
v uvažované situaci. V mnoha případech má pouze hypotetický význam.


•       Výběr (vzorek) je podmnožinou základní populace (velmi často totiž nelze podrobit výzkumu
celou základní populaci). Počet prvků (objektů) n ve výběru se nazývá rozsah výběru.


•        Populační parametr dané proměnné je číselná hodnota, která tuto proměnnou charakterizuje
v základní populaci (např. aritmetický průměr). Má nějakou fixní číselnou hodnotu, kterou v praxi
zpravidla neznáme (pokud neprovedeme úplné šetření); odhadujeme ji na základě výběrových statistik.


•        Výběrová statistika charakterizuje vzorek, získaný výběrem ze základní populace (výběrové
šetření); má číselnou hodnotu, jež charakterizuje výběr (např. výběrový průměr). Co je parametr pro
populaci, to je výběrová statistika pro výběr.

                                        Distribuční funkce

     Pro distribuční funkci platí: je neklesající, spojitá zleva, 0 ≤ F(x) ≤ 1 pro všechna reálná
-∞ < x < ∞


  a P(a ≤ X< b) = F(b) – F(a) pro libovolná a < b.

                                        Distribuční funkce

•        Distribuční funkce diskrétní náhodné veličiny je schodovitá funkce s body skoku x[1],
x[2], ...,  x[k].


                                        Distribuční funkce

•        Pro spojitou náhodnou veličinu má distribuční funkce tvar

•


                                 Charakteristiky náhodné veličiny

    umožňují shrnutí informace o náhodné veličině do několika číselných hodnot.


Momentová metoda

•           k-tý obecný moment:

•           k-tý centrální moment:


Metoda maximální věrohodnosti

•       mnohem složitější výpočty

                                 Parametr polohy (střední hodnota)

•       diskrétní:


•       spojité:

                                 Parametr polohy (střední hodnota)

•       E(kx) = kE(x)

                                    kde k je konstanta.


•       E(x[1] + x[2] + ...+ x[n]) = E(x[1]) + E(x[2]) + ... + E(x[n])


•       E(x[1].x[2]. ... x[n]) = E(x[1]).E(x[2]). ... E(x[n])


•       E(k[1]x[1] + k[2]x[2] + ...+ k[n]x[n]) =

                                            kde k[1], k[2], ..., kn jsou konstanty.

                                    Parametr disperze (rozptyl)


•       diskrétní:


•       spojité:

                                    Parametr disperze (rozptyl)

•        D^2(kx) = k^2D^2(x)     kde k je konstanta.


•        D^2 (x[1] + x[2] + ...+ x[n]) = D^2 (x[1]) + D^2 (x[2]) + ...

•        + D^2 (x[n])


•        D^2(k[1]x[1] + k[2]x[2] + ...+ k[n]x[n]) =

                                           kde k[1], k[2], ..., k[n] jsou konstanty.


•        D^2(x[1] - x[2]) = D^2(x[1]) + D^2(x[2])

                                      Alternativní rozdělení

•         veličina může nabývat hodnot 0 nebo 1 (přítomnost či nepřítomnost určitého znaku).


     p(x) = 1 – p         pro x = 0

     p(x) = p         pro x = 1


                                      Alternativní rozdělení

              0 pro x ≤ 0

•        F(x) =          p pro 0 < x ≤ 1

                            1 pro x < 1


•       střední hodnota:


•       rozptyl:


                                        Binomické rozdělení

•         náhodná veličina nabývá pouze hodnot 0, 1, 2, ..., n (= počet kladných výsledků z n
nezávislých pokusů).

                                        Binomické rozdělení

•        F(x) = 0                 pro x < 0


•                            pro 0 ≤ x ≤ n


•        F(x) = 1                 pro x > n


Střední hodnota:


Rozptyl:

                                       Poissonovo rozdělení

                                       Poissonovo rozdělení

•       F(x) = 0         pro x < 0


•                                      pro x ≥ 0

                                       Rovnoměrné rozdělení

Hustota pravděpodobnosti v intervalu (a, b) má tvar:


                                       Rovnoměrné rozdělení

Distribuční funkce je

•           F(x) = 0,           pro x < a


•                                                   pro a ≤ x ≤ b


•           F(x) = 1,            pro x ≥ b


•        Střední hodnota:


•        Rozptyl:


                                   Normální (Gaussovo) rozdělení

•         Hustota pravděpodobnosti


•          Distribuční funkce

                                        Normální rozdělení

                                   Normované normální rozdělení


                                  Logaritmicko-normální rozdělení

                                  Logaritmicko-normální rozdělení


                                        Cauchyovo rozdělení

•        Hustota pravděpodobnosti


                                        , -∞ < x < ∞


kde pro parametry platí

-∞ < α < ∞, β > 0.

                                        Cauchyovo rozdělení

                                       Rozdělení na kružnici

   Normální rozdělení na kružnici (von Misesovo rozdělení)


     Např. úhly, hodiny během dne, dny během roku, orientace vůči světovým stranám, apod.

                              Jiná rozdělení spojité náhodné veličiny

•         Smíšené rozdělení. Náhodná veličina je pozorována za různých podmínek a pozorované
hodnoty pocházejí ze dvou nebo více různých základních souborů a to s různými pravděpodobnostmi.


•         Cenzurované rozdělení. Známe pouze jednu část hodnot náhodné veličiny, hodnoty z druhé
části neznáme, ale registrujeme jejich výskyt (např. hodnoty koncentrací pod mezí stanovitelnosti).


•         Useknuté rozdělení. Nelze pozorovat všechny hodnoty náhodné veličiny, ale jen hodnoty
z určitého intervalu.