Statistické metody v ochraně kulturního dědictví Lubomír Prokeš Data a práce s nimi • 1) sběr a zpracování dat (tvorba databáze) • 2) analýza dat (výběr a použití vhodné metody) • 3) prezentace výsledků (špatná presentace dat může vést k chybným závěrům) • 4) metaanalýza (srovnávání výsledků z různých publikací) Pozor!!! Nepoučeny uživatel může často založit zásadní rozhodnutí na základě 1) volby nesprávné metody statistické analýzy, která poskytne nesmyslné výsledky 2) nesprávné interpretace správných výsledků Statistika = nauka o tom, jak získat informace z numerických dat • 1) Získávání dat. Zahrnuje metody pro sběr dat, jež zodpoví předem danou otázku. Základní přístupy k výběru měřených objektů, návrhu experimentů (experimental design) a validaci instrumentů pro získávání dat. • 2) Analýza dat. Zahrnuje organizaci dat a jejich popis užitím grafů a numerických souhrnů (popisná statistika, průzkumová analýza dat (EDA)). • 3) Statistické usuzování (inference). Usiluje o získání závěrů o širším univerzu jevů na základě analýzy dat, včetně zhodnocení spolehlivosti těchto závěrů, k čemuž využívá pravděpodobnostní pojmy (statistická inference, statistická indukce). Statistický software WYSIWYG: MS Excel, STATISTICA, SPSS, NCSS Kyplot, PAST, aj. ne WYSIWYG: MATLAB, S+, R, SciPy Typy dat Kvalitativní (nominální): lze sledovat jen identitu (=) a odlišnost (^). • alternativní (dichotomické) - znak má pouze dvě varianty (ano / ne). • množné (polytomické) - znaky s větším počtem variant. Typy dat • Kvantitativní znaky • 1) pořadové (ordinální) znaky. jejich varianty jsou uspořádané podle intenzity sledovaného znaku. • porovnávací: není předem daná pořadová stupnice, varianty se třídí podle míry zastoupení (intenzity) sledovaného znaku zařazovací: předem se vymezí pořadí variant, tj. zadá se jejich „stupnice". Typy dat • Kvantitativní znaky • 2) číselné (kardinální) znaky. Měřitelné znaky, jejichž varianty lze vyjádřit číselnou hodnotou. • intervalové.- nemají smysluplnou nulu • podílové (poměrové). - mají smysluplnou nulu Typy dat Kvantitativní data Diskrétní: nabývají konečně mnoha hodnot (např. četnosti) Spojitá: nabývají hodnot všech reálných čísel v daném intervalu (např. rozměry) • Typ dat je nutno respektovat při výběru metod analýzy dat!! Transformace dat poměrové —► intervalové —► pořadové —> nominální. • „Dummy variables": • Heavisidova funkce: 0(x)= 1 když x>0 0 když x < 0 Transformace dat Absolutní četnost (nj = počet případů, v nichž se určitá hodnota Xj vyskytne ve statistickém souboru. Relativní četnost (fj) = podíl případů z celkového rozsahu souboru, v nichž se hodnota X; vyskytne ve statistickém souboru. n Transformace dat • Třídní (skupinové, intervalové) četnosti = kvantitativní znaky rozdělíme na intervaly a všechna pozorování z téhož intervalu nahradíme jedinou hodnotou, nejčastěji průměrem z nejnižší a nejvyšší hodnoty v dané třídě. Počet tříd má vliv na přesnost výpočtu ukazatelů a pracnost výpočtů. Čím je počet tříd menší, tím je délka intervalů větší a tím jsou výpočty méně přesné. Transformace dat • Transformace do pořadí: převádí hodnoty Xj podle velikosti do intervalu i = 1 až n. Stejným hodnotám přiřazujeme průměrné pořadí, které této skupince hodnot odpovídá. Popisná statistika I. Popisná statistika • 1) grafické metody • 2) tabulky • 3) číselné parametry Sloupcový graf (bar chart) Modus (*) nejčastěji se vyskytující hodnota v souboru 150 2 20 00 o 2 10 - Sheep/ Cattle Goat Pig Horse 0 Bar chart of the nun 'icr of bone fragments of different domestic animal species from a hypothetical British iron age site. 0 12 3 4 5 No. of types of goods in the grave Bar chart of the number of graves containing different numbers of grave-good types for a hypothetical central European bronze age cemetery. Koláčový graf (pie chart) Horse 3% = 11° Pic chart of the relative proportions of bone fragments of different domestic species Čárkovací metoda Interval Postupný zápis četností 961- 965 / 966- 970 m 971- 975 m 976- 980 m m m 981- 985 m mm m 986- 990 HU nu nu im mi mi u tttt tttt tttt tttt tttt tttt II 991- 995 IM UU UU UU UU UU UU UU UU UU tttt tut tttt tut Tttt tttt tttt tttt tttt tut 996-1000 UU UU UU -UU UU UU UU UU UU UU tttt tttt tttt tut tttt tut tttt tut tttt tttt 1001-1005 mmmmmmmii 1006-1010 mm m in 1011-1015 mu 1016-1020 mu 1021 -1 025 III! 1 026 -1 030 i 1031-1035 n 2 3 4 5 6 Stem ano 5 7 8 0 4 5 8 8 8 9 0 0 0 2 3 3 3 4 5 7 7 7 8 8 8 8 8 9 0 0 3 7 7 8 6 Stcm-and-lcaf diagram of the Mount Pleasant post-hole diameters Variační rozpětí: R = x max leaf plot 2 2 3 3 4 4 5 5 6 6 5 7 8 0 4 5 8 8 8 9 00 0 23334 5 777888889 0 0 3 7 7 8 Stem-and-lcaf diagram of the Mount Pleasant post-hole diameters with stem intervals 5 units wide instead of 10. *min Histogram a frekvenční polygon 0,05R o Z 5- 0 9(K) 950 1000 1050 1100 1150 1200 Vessel capacities (ml) Bar chart of the distribution of vessel capacities for a group of 40 hell beakers. Kvantily a percentily Rozdělují soubor na danou percentuální část. Nejvýznamnější kvantily: Medián: 2. kvartil (50% percentil) Q,: Dolní kvartil (1. kvartil, 25% percentil) Qm.: Horní kvartil (3. kvartil, 75% percentil) • Medián (x) rozděluje uspořádané (podle velikosti) zjištěné hodnoty na dvě stejně početné časti. Pro výpočet mediánu a ostatních kvantilů platí: Je-li n liché x = xk kde k = (n + 1 )/2 Je-li n sudé v _ xk + xk+\ 2 kde k = n/2 Výhodou mediánu je, že bezprostředně nezávisí na extrémních hodnotách. Od mediánu se odvozují i některé parametry rozptýlení: Mediánová odchylka MD _ _i n Absolutní mediánová odchylka MAD = med(X| - med) Interkvartilové rozpětí Q = Qiii-Qi Kvartilový koeficient šikmosti KS = Qm+Qj-2x Q m - Q i Pearsonuv koeficient šikmosti SK = 3(x-x) Momentové Aritmetický průměr (x) Geometrický průměr charakteristiky i n X — / >Xi n xg = \\X *,■ l=\ i n log x = - £ log x:, Momentové charakteristiky Rozptyl i « s =-2J(xi~x) resp. i n s2=----ľ £(*,--*) "-1 i=\ Kladná druhá odmocnina z rozptylu se nazývá směrodatná odchylka. _ s Variační koeficient sr ~ ~^ Momentové charakteristiky mk = (xr — x) n Šikmost: měří asymetrii dat Spičatost: s. m3 3/2 m2 s2 = m4 m Box and whisker plot 0 podezřelé hodnoty horní anténa poslední hodnota pod Qm +1,50 75% percentíl {QÍSS) & o. v *. q x y* •• ' medián {Qff) krabička : !■ ■ { j t , ■■ ■ ŕ ■í.*:>..4.-i-*í¥Tf & Jí « ší Š *■ äf^ * . . . ■ ■ ■■ < ■,-■■■ 25% percentu (0,) - n 3500" *210 dolní anténa poslední hodnota nad 0/ - 1 r5Q 3000- O o podezřelé hodnoty 2500- *263 -*177 2000 ■ tn *215 1500-1000-500-0 OE35 WĚĚÉ9ÍHĚ WwĚk, POČET Jádrové odhady (KDE) ao n to - -* - CM O J tn . f 18.80 18.85 18.90 206/204 ratio 206/204 ratio A histogram (left panel) and KDEs (right panel) for the Lavrion 206Pb/204Pb lead isotope ratio data from Stos-Gale et al. (1996). The solid KDE uses a smoothing parameter, ft, determined by the method of Sheather and Jones (1991); the dashed KDE uses a subjectively determined h. Jádrové odhady (KDE) i n nh /=1 Jí< Jí< . h kde K(x) je funkce symetrická kolem nuly, šířka pásu h určuje stupeň vyhlazení: hopt = 2,34an-°-2 Kumulativní graf 100 -i 80 H o co | 60 n o o. > ]Š 40 H E U ,x 20 - 0 T" 0 ^ "T 2 *-' t 4 T- S 1 2 3 No. of types of goods in the grave Cumulative curve of the data on numbers of grave-good types Kumulativní graf 100% •~ D.vistofuce i. -.,- //. j&.oó/eíř v, -"- //. -u- i. — faotov 52 50 __________<•»- Jl-iVilVi-.-y /' 0 5 <0 '--'•■J--1'---il O-i- I i I f.....' ■ ' - ■ * f • ■ * ' ■ ■ * * * * <■ ' * L *■ *- ^o 30 w 50 60 70 80 PO 2 Hromadný graf kamenných industrií z jednotlivých sídlištních celků paleolitických stanic pod Pavlovskými vrchy. • Při posuzování grafů je třeba sledovat: • 1) zhuštění dat (místo či místa s největší četností) • 2) shluky dat • 3) mezery v datech (intervaly bez hodnot) • 4) odlehlé hodnoty (přítomnost údajů odlišných od zbytku dat) • 5) tvar rozdělení (např. z histogramu) Základní soubor a výběr • Základní populace (základní soubor) je množina všech teoreticky možných objektů (jedinců) v uvažované situaci. V mnoha případech má pouze hypotetický význam. • Výběr (vzorek) je podmnožinou základní populace (velmi často totiž nelze podrobit výzkumu celou základní populaci). Počet prvků (objektů) n ve výběru se nazývá rozsah výběru. • Populační parametr dané proměnné je číselná hodnota, která tuto proměnnou charakterizuje v základní populaci (např. aritmetický průměr). Má nějakou fixní číselnou hodnotu, kterou v praxi zpravidla neznáme (pokud neprovedeme úplné šetření); odhadujeme ji na základě výběrových statistik. • Výběrová statistika charakterizuje vzorek, získaný výběrem ze základní populace (výběrové šetření); má číselnou hodnotu, jež charakterizuje výběr (např. výběrový průměr). Co je parametr pro populaci, to je výběrová statistika pro výběr. Distribuční funkce Pro distribuční funkci platí: je neklesající, spojitá zleva, 0 < F(x) < 1 pro všechna reálná -°° < x < °° limFW = ° lim^(*) = 1 X—>-oo X—>°° a P(a < X< b) = F(b) - F(a) pro libovolná a < b. Distribuční funkce Distribuční funkce diskrétní náhodné veličiny je schodovitá funkce s body SKOKU X^i, Xo, ■■■, Xi,. »\j ^>*A- m=p(xí£(*i) kde k1? k2, ..., kn jsou konstanty. Parametr disperze (rozptyl) diskrétní: D2(X) = YJ[X-E(X)fp J x spojité: D\X)= j[X - E(X)]2 f(x)dx — oo Parametr disperze (rozptyl) • D2(kx) = k2D2(x) kde k je konstanta. • D2 (X! + x2 + ...+ xn) = D2 fa) + D2 (x2) + ... • + D2 (xn) n • D2(klXl + k2x2 + ...+ knxn) = Z^2z)2^) kde k.,, k2, ..., knjsou konstanty. • D2(x-, -x2) = D2(x1) + D2(x2) Alternativní rozdělení veličina může nabývat hodnot 0 nebo 1 (přítomnost či nepřítomnost určitého znaku). p(x) = 1 - p p(x) = p 0,77 as U 23 0 pro x = 0 pro x = 1 i » x Alternativní rozdělení 0 pro x < 0 • F(x) = p pro 0 < x < 1 1 pro x < 1 • střed ní hodnota: t-/v\ E(X) = p • rozptyl: D2(X) = p(l-p) Binomické rozdělení náhodná veličina nabývá pouze hodnot 0, 1,2, ..., n (= počet kladných výsledků z n nezávislých pokusů). Pk = k pk(i-p) n-k 0.3 < i 0,2 i i < 1\ 0,1 n ~ i > I,, 0123456789 10 -----»- x Binomické rozdělení F(x) = O pro x < O X *=0 /7,'(l-/7)w"/ proO n Střední hodnota: jyx) _ n~ Rozptyl: D2(X) = np(l-p) Poissonovo rozdelení je limitou binomického rozdělení, je to „rozdělení vzácných jevů". 0.2 - • • -X ik Pk = Q-ÁÄ 0,1 1 I T . . 0 1 2 3 4 5 6 7 8 9 10 11 Poissonovo rozdělení • F(x) = = 0 pro x < 0 • F(x)-- i=0 *• pro x > 0 Střední hodnota a rozptyl: E(X) = D2(X) = --Á Rovnoměrné rozdělení Hustota pravděpodobnosti v intervalu (a, b) má tvar: /(*) = 1 b — a X (a,b) /« = o ostatní »» ■■ fM 0,3. \ a -4,5, b -7 0,2 0,1. 0 . . 0-1. b-6 ■ * 2 3 4 5 6 7 Rovnoměrné rozdělení Distribuční funkce je F(x) = 0, pro x < a u/ \ x_a r(x) = -r— proa b Střední hodnota: e(X) = — 2 Rozptyl: D2pg = í^4 12 Normální (Gaussovo) rozdělení Hustota pravděpodobnosti ^ _ 1 -[(jc-ju)/af /2 o' Í1k Distribuční funkce F(x)= == [e o42k í -[(y-H)l o. / ^ i i i i i ■ T 1 1 II 1 ■5 lili 0 1 I I 1 r X Cauchyovo rozdělení Distribuční funkce 1 i F (x) = — H— ar ctg 2 71 x-a ß , -°° < x < oo V ľ J Střední hodnota: E(x) není definována Rozptyl: D2(x) = °°. Rozdělení na kružnici Normální rozdělení na kružnici (von Misesovo rozdělení) Např. úhly, hodiny během dne, dny během roku, orientace vůči světovým stranám, apod. Jiná rozdělení spojité náhodné veličiny • Smíšené rozdělení. Náhodná veličina je pozorována za různých podmínek a pozorované hodnoty pocházejí ze dvou nebo více různých základních souborů a to s různými pravděpodobnostmi. • Cenzurované rozdělení. Známe pouze jednu část hodnot náhodné veličiny, hodnoty z druhé části neznáme, ale registrujeme jejich výskyt (např. hodnoty koncentrací pod mezí stanovitelnosti). • Useknuté rozdělení. Nelze pozorovat všechny hodnoty náhodné veličiny, ale jen hodnoty z určitého intervalu.