Statistické metody v ochraně kulturního dědictví Lubomír Prokeš I Data a práce s nimi • 1) sběr a zpracování dat (tvorba databáze) • 2) analýza dat (výběr a použití vhodné metody) • 3) prezentace výsledků (špatná presentace dat může vést k chybným závěrům) • 4) metaanalýza (srovnávání výsledků z různých publikací) Pozor !!! Nepoučený uživatel může často založit zásadní rozhodnutí na základě 1) volby nesprávné metody statistické analýzy, která poskytne nesmyslné výsledky 2) nesprávné interpretace správných výsledků Statistika = nauka o tom, jak získat informace z numerických dat. • 1) Získávání dat. Zahrnuje metody pro sběr dat, jež zodpoví předem danou otázku. Základní přístupy k výběru měřených objektů, návrhu experimentů (experimental design) a validaci instrumentů pro získávání dat. • 2) Analýza dat. Zahrnuje organizaci dat a jejich popis užitím grafů a numerických souhrnů (popisná statistika, průzkumová analýza dat (EDA)). • 3) Statistické usuzování (inference). Usiluje o získání závěrů o širším univerzu jevů na základě analýzy dat, včetně zhodnocení spolehlivosti těchto závěrů, k čemuž využívá pravděpodobnostní pojmy (statistická inference, statistická indukce). Statistický software WYSIWYG: MS Excel, STATISTICA, SPSS, NCSS Kyplot, PAST, aj. ne WYSIWYG: MATLAB, S+, R, SciPy Typy dat Kvalitativní (nominální): lze sledovat jen identitu (=) a odlišnost (≠). • alternativní (dichotomické) – znak má pouze dvě varianty (ano / ne). • množné (polytomické) – znaky s větším počtem variant. Typy dat • Kvantitativní znaky • 1) pořadové (ordinální) znaky. jejich varianty jsou uspořádané podle intenzity sledovaného znaku. • porovnávací: není předem daná pořadová stupnice, varianty se třídí podle míry zastoupení (intenzity) sledovaného znaku • zařazovací: předem se vymezí pořadí variant, tj. zadá se jejich „stupnice“. Typy dat • Kvantitativní znaky • 2) číselné (kardinální) znaky. Měřitelné znaky, jejichž varianty lze vyjádřit číselnou hodnotou. • intervalové.- nemají smysluplnou nulu • podílové (poměrové). - mají smysluplnou nulu Typy dat Kvantitativní data Diskrétní: nabývají konečně mnoha hodnot (např. četnosti) Spojitá: nabývají hodnot všech reálných čísel v daném intervalu (např. rozměry) • Typ dat je nutno respektovat při výběru metod analýzy dat !! Transformace dat poměrové → intervalové → pořadové → nominální. • „Dummy variables“: • Heavisidova funkce: Θ(x) = 1 když x > 0 0 když x ≤ 0 Transformace dat • Absolutní četnost (n[i]) = počet případů, v nichž se určitá hodnota x[i] vyskytne ve statistickém souboru. • Relativní četnost (f[i]) = podíl případů z celkového rozsahu souboru, v nichž se hodnota x[i] vyskytne ve statistickém souboru. Transformace dat • Třídní (skupinové, intervalové) četnosti = kvantitativní znaky rozdělíme na intervaly a všechna pozorování z téhož intervalu nahradíme jedinou hodnotou, nejčastěji průměrem z nejnižší a nejvyšší hodnoty v dané třídě. Počet tříd má vliv na přesnost výpočtu ukazatelů a pracnost výpočtů. Čím je počet tříd menší, tím je délka intervalů větší a tím jsou výpočty méně přesné. Transformace dat • Transformace do pořadí: převádí hodnoty x[i] podle velikosti do intervalu i = 1 až n. Stejným hodnotám přiřazujeme průměrné pořadí, které této skupince hodnot odpovídá. Popisná statistika I. Popisná statistika • 1) grafické metody • 2) tabulky • 3) číselné parametry Sloupcový graf (bar chart) Koláčový graf (pie chart) Čárkovací metoda Stem and leaf plot Histogram a frekvenční polygon 0,05R < k < 0,12R k ≈ 1 + log2(2n) = 1 + 3,3log n (Sturgesovo pravidlo) k ≈ 5log n k = int(2,46(n - 1)0,4) Kvantily a percentily Rozdělují soubor na danou percentuální část. Nejvýznamnější kvantily: Medián: 2. kvartil (50% percentil) Q[I]: Dolní kvartil (1. kvartil, 25% percentil) Q[III]: Horní kvartil (3. kvartil, 75% percentil) • Medián ( ) rozděluje uspořádané (podle velikosti) zjištěné hodnoty na dvě stejně početné části. Pro výpočet mediánu a ostatních kvantilů platí: Je-li n liché • = x[k] kde k = (n + 1)/2 Je-li n sudé • kde k = n/2 Výhodou mediánu je, že bezprostředně nezávisí na extrémních hodnotách. Mediánová odchylka Absolutní mediánová odchylka MAD = med(X[i] – med) Interkvartilové rozpětí Q = Q[III] – Q[I] Kvartilový koeficient šikmosti Pearsonův koeficient šikmosti Momentové charakteristiky Aritmetický průměr ( ) Momentové charakteristiky Rozptyl resp. Momentové charakteristiky • • Šikmost: měří asymetrii dat • Špičatost: Box and whisker plot Jádrové odhady (KDE) Jádrové odhady (KDE) kde K(x) je funkce symetrická kolem nuly, šířka pásu h určuje stupeň vyhlazení: h[opt] = 2,34σn^-0,2 Kumulativní graf Kumulativní graf • Při posuzování grafů je třeba sledovat: • 1) zhuštění dat (místo či místa s největší četností) • 2) shluky dat • 3) mezery v datech (intervaly bez hodnot) • 4) odlehlé hodnoty (přítomnost údajů odlišných od zbytku dat) • 5) tvar rozdělení (např. z histogramu) Základní soubor a výběr • Základní populace (základní soubor) je množina všech teoreticky možných objektů (jedinců) v uvažované situaci. V mnoha případech má pouze hypotetický význam. • Výběr (vzorek) je podmnožinou základní populace (velmi často totiž nelze podrobit výzkumu celou základní populaci). Počet prvků (objektů) n ve výběru se nazývá rozsah výběru. • Populační parametr dané proměnné je číselná hodnota, která tuto proměnnou charakterizuje v základní populaci (např. aritmetický průměr). Má nějakou fixní číselnou hodnotu, kterou v praxi zpravidla neznáme (pokud neprovedeme úplné šetření); odhadujeme ji na základě výběrových statistik. • Výběrová statistika charakterizuje vzorek, získaný výběrem ze základní populace (výběrové šetření); má číselnou hodnotu, jež charakterizuje výběr (např. výběrový průměr). Co je parametr pro populaci, to je výběrová statistika pro výběr. Distribuční funkce Pro distribuční funkci platí: je neklesající, spojitá zleva, 0 ≤ F(x) ≤ 1 pro všechna reálná -∞ < x < ∞ a P(a ≤ X< b) = F(b) – F(a) pro libovolná a < b. Distribuční funkce • Distribuční funkce diskrétní náhodné veličiny je schodovitá funkce s body skoku x[1], x[2], ..., x[k]. Distribuční funkce • Pro spojitou náhodnou veličinu má distribuční funkce tvar • Charakteristiky náhodné veličiny umožňují shrnutí informace o náhodné veličině do několika číselných hodnot. Momentová metoda • k-tý obecný moment: • k-tý centrální moment: Metoda maximální věrohodnosti • mnohem složitější výpočty Parametr polohy (střední hodnota) • diskrétní: • spojité: Parametr polohy (střední hodnota) • E(kx) = kE(x) kde k je konstanta. • E(x[1] + x[2] + ...+ x[n]) = E(x[1]) + E(x[2]) + ... + E(x[n]) • E(x[1].x[2]. ... x[n]) = E(x[1]).E(x[2]). ... E(x[n]) • E(k[1]x[1] + k[2]x[2] + ...+ k[n]x[n]) = kde k[1], k[2], ..., kn jsou konstanty. Parametr disperze (rozptyl) • diskrétní: • spojité: Parametr disperze (rozptyl) • D^2(kx) = k^2D^2(x) kde k je konstanta. • D^2 (x[1] + x[2] + ...+ x[n]) = D^2 (x[1]) + D^2 (x[2]) + ... • + D^2 (x[n]) • D^2(k[1]x[1] + k[2]x[2] + ...+ k[n]x[n]) = kde k[1], k[2], ..., k[n] jsou konstanty. • D^2(x[1] - x[2]) = D^2(x[1]) + D^2(x[2]) Alternativní rozdělení • veličina může nabývat hodnot 0 nebo 1 (přítomnost či nepřítomnost určitého znaku). p(x) = 1 – p pro x = 0 p(x) = p pro x = 1 Alternativní rozdělení 0 pro x ≤ 0 • F(x) = p pro 0 < x ≤ 1 1 pro x < 1 • střední hodnota: • rozptyl: Binomické rozdělení • náhodná veličina nabývá pouze hodnot 0, 1, 2, ..., n (= počet kladných výsledků z n nezávislých pokusů). Binomické rozdělení • F(x) = 0 pro x < 0 • pro 0 ≤ x ≤ n • F(x) = 1 pro x > n Střední hodnota: Rozptyl: Poissonovo rozdělení Poissonovo rozdělení • F(x) = 0 pro x < 0 • pro x ≥ 0 Rovnoměrné rozdělení Hustota pravděpodobnosti v intervalu (a, b) má tvar: Rovnoměrné rozdělení Distribuční funkce je • F(x) = 0, pro x < a • pro a ≤ x ≤ b • F(x) = 1, pro x ≥ b • Střední hodnota: • Rozptyl: Normální (Gaussovo) rozdělení • Hustota pravděpodobnosti • Distribuční funkce Normální rozdělení Normované normální rozdělení Logaritmicko-normální rozdělení Logaritmicko-normální rozdělení Cauchyovo rozdělení • Hustota pravděpodobnosti , -∞ < x < ∞ kde pro parametry platí -∞ < α < ∞, β > 0. Cauchyovo rozdělení Rozdělení na kružnici Normální rozdělení na kružnici (von Misesovo rozdělení) Např. úhly, hodiny během dne, dny během roku, orientace vůči světovým stranám, apod. Jiná rozdělení spojité náhodné veličiny • Smíšené rozdělení. Náhodná veličina je pozorována za různých podmínek a pozorované hodnoty pocházejí ze dvou nebo více různých základních souborů a to s různými pravděpodobnostmi. • Cenzurované rozdělení. Známe pouze jednu část hodnot náhodné veličiny, hodnoty z druhé části neznáme, ale registrujeme jejich výskyt (např. hodnoty koncentrací pod mezí stanovitelnosti). • Useknuté rozdělení. Nelze pozorovat všechny hodnoty náhodné veličiny, ale jen hodnoty z určitého intervalu.