Základy zpracování geologických dat §R. Čopjaková § § Základní charakteristiky náhodné veličiny § §Koeficient šikmosti je charakteristika rozdělení náhodné veličiny, která popisuje jeho nesymetrii §Šikmost označuje stupeň asymetričnosti rozdělení veličiny kolem střední hodnoty §Nulová šikmost - hodnoty náhodné veličiny jsou rovnoměrně rozděleny vlevo a vpravo od střední hodnoty – symetrické rozdělení §Výběrový koeficient šikmosti je definován vzorcem § § § §>0 pozitivně šikmé <0 negativně šikmé § rozdělení má tzv. pravý ocas § Regrese a korelace – základní termíny § Regrese versus korelace §Regrese popisuje vztah = závislost dvou a více kvantitativních proměnných formou funkční závislosti §Korelace měří těsnost (sílu) vztahu = závislosti mezi dvěma proměnnými § §Liší se chápání proměnných u obou metod? § § U regrese lze rozlišit, která proměnná závisí na které, čili rozlišuje se tzv. nezávislá (x) a závislá proměnná (y); nezávislá proměnná x je na horizontální ose x, závislá proměnná y je na vertikální ose y. § § U korelace se nerozlišují proměnné na závislou a nezávislou § §Regresní analýza – sestavení modelu, kterým lze formálně popsat vztahy (pokud existují) §Regresní model – vztah jedné proměnné označované jako závisle proměnná (vysvětlovaná) k dalším proměnným, které se označují jako nezávislé (vysvětlující) § Závislost dvou souborů dat §Funkční /deterministická závislost/: vzájemný vztah mezi proměnnými daný jednoznačně y=f(x) §Statistická závislost: vyjadřuje, že mezi proměnnými neexistuje jednoznačný vztah, tedy Y=f(X) + ε, kde ε jsou pozorované náhodné odchylky od modelu funkční závislost stochastická závislost ei závislost neexistuje, nemá smysl prokládat regresní funkci § ??? závislost lineární závislost exponenciální Jednoduchý lineární regresní model: §nejjednodušší případ regrese: –„jednoduchá“ = pouze 1 nezávislá a 1 závislá proměnná –„lineární“ = závislost y na x vyjadřujeme přímkou §Některé předpoklady lineární regrese: § 1. homogenní rozptyl: všechna Y mají stejnou rozptýlenost § 2. linearita: střední hodnoty obou proměnných X a Y leží na regresní přímce § § [ x ; y ] § lineární závislost přímá lineární závislost nepřímá Regresní analýza §napozorovaná (empirická) hodnota - hodnota proměnné, kterou jsme získali jako výsledek pozorování (měření, vážení atd.). § značíme ji Y §odhadnutá (teoretická) hodnota - hodnota proměnné, kterou jsme získali jako výsledek modelování této proměnné. § značíme ji Y §reziduum - rozdíl mezi napozorovanou a odhadnutou hodnotou. Reziduum značíme symbolem e a v příslušném bodě počítáme jako rozdíl empirické hodnoty a teoretické. Reziduum tedy můžeme chápat jako velikost chyby, které se v příslušném bodě při odhadu dopouštíme. § § §Jak nalézt funkci, která „nejlépe“proloží naše data? § pokldady pro prednasku c 8 Jak nalézt funkci, která „nejlépe“proloží naše data? §postup odhadu parametrů regresní funkce, který dává nejmenší hodnoty reziduí (tedy „nejmenší chybu“) a to najednou ve všech odhadovaných bodech. §Nestačí pouze rezidua sečíst - vlivem kladných a záporných znamének u jednotlivých hodnot by mohlo dojít k tomu, že součet reziduí bude nulový, přestože jednotlivá rezidua (tedy jednotlivé chyby) jsou veliké. §Z celé škály vyrovnávacích kritérií se jako nejpoužívanější (ne však vždy nejvhodnější) jeví tzv. metoda nejmenších čtverců = musí platit, aby (reziduální) součet čtverců odchylek skutečných od očekávaných hodnot byl minimální § § = min pokldady pro prednasku c 8 Metoda nejmenších čtverců pro přímku §Hledáme minimum výrazu § §Kde Yi = bo + b1Xi + ei a § §Po dosazení obdržíme § § §Hodnota veličiny S závisí na volitelných hodnotách b0 a b1 a je to tedy funkce dvou proměnných. Její extrém (minimum) se najde nulováním parciálních derivací podle těchto proměnných. Zderivujeme výraz parciálně podle b0 a b1 a dostaneme soustavu normálních rovnic § §Z těchto rovnic můžeme po příslušných úpravách vyjádřit parametr b1 – tedy směrnici regresní přímky § §Z rovnice lineární funkce potom dopočteme parametr b0, za předpokladu že x a y leží na regresní přímce § § = min Σ(xi-x)(yi-y) covxy Σ (xi-x)2 sx2 b1 = = Reziduální rozptyl § Reziduální rozptyl - velikost chyb ε je popsána rozptylem σ2(y-ŷ) nebo σ2e odchylek od regresní přímky Kovariance §Nástroj kovariance můžete použít k testování závislosti dvou sad dat (u lineární závislosti dvou proměnných s přibližně normálním rozdělením). § §Závislost znamená, že velké hodnoty v jedné sadě odpovídají velkým hodnotám ve druhé sadě (kladná kovariance), nebo že velké hodnoty v jedné sadě odpovídají malým hodnotám ve druhé sadě (záporná kovariance). Teoreticky se pohybuje od -∞ do + ∞ § §Pokud jsou hodnoty v obou množinách nezávislé => blízká nule. § §nelze usuzovat na sílu vztahu, pouze na směr působení + přímé – nepřímé §Kovariance je ≤ součinu směrodatných odchylek proměnné X a Y § –  (xi – x)(yi - y) i=1 n n Sxy = cov(X,Y) = cov(Y,X) = Pearsonův korelační koeficient §Tzv. standardizovaná kovariance §určení síly vztahu mezi proměnnou X a Y (s přibližně normálním rozdělením) bez nutnosti definovat závislou a nezávislou veličinu (pouze pro lineární závislost) §Hodnota korelačního koeficientu −1 značí zcela nepřímou (funkční) závislost, tedy čím více se zvětší hodnoty v první skupině znaků, tím více se zmenší hodnoty v druhé skupině znaků. §Hodnota korelačního koeficientu +1 značí zcela přímou (funkční) závislost. §Pokud je korelační koeficient roven 0, pak mezi znaky není žádná statisticky zjistitelná závislost, §Korelační koeficient může nabývat hodnot <-1;+1> § § § Sxy = Sx Sy rxy = 1 rxy = 0,9 rxy = -0,9 rxy = O,35 Pearsonův korelační koeficient rxy = 0 rxy = O,6 Spearmanův koeficient pořadové korelace §Univerzální – nejen pro lineární závislost §Chci-li spočítat hodnotu Spearmanova koeficintu, převedu naměřená data pro soubor Xi a Yi na pořadové hodnoty Xip a Yip. §Spočtu rozdíly v pořadí jednotlivých párů di = Xip – Yip, které použiji při výpočtu tohoto koeficientu spearm koef = 1 - 6*37/16(162-1) = 0,95 Spearmanův koeficient pořadové korelace Reálná naměřená data s nelineární závislostí převedu na pořadové hodnoty a spočtu Spearmanův koeficient pořadové korelace SR=0,95 rxy=0,95 Spočtu-li pearsonův koeficient korelace pro pořadové hodnoty (lineární závislost), bude velice blízký hodnotě Spearmanova koeficientu pořadové korelace pro naměřené hodnoty proměnné X a Y rxy = = = 0,95 Sxy 20,05 SxSy 4,60*4,61