Základy zpracování geologických dat testování statistických hypotéz §R. Čopjaková § § Testování statistických hypotéz §Při zpracování dat jsou časté úvahy typu: §Liší se hodnoty naměřené na stejných přístrojích v různých laboratořích? (např. data z EMP v Brně a Barrandově) §Liší se výsledky získané různými analytickými metodami (např. hodnoty naměřené přenosným terénním gama-spektrometrem a laboratorním gama-spektrometrem) §Liší se hodnoty naměřené v různých časových intervalech (sezónní vlivy v hydrogeologii) §Liší se hodnoty naměřené v různých místech (např. srovnání chemického složení – protolitu- ortorul sněžnických a gieraltovských orlicko-kladského krystalinika) §Liší se hodnoty naměřené látky od deklarované hodnoty (např. prověřování standardů, či kontrola kvality analýz) § § § §Existuje závislost mezi soubory dat? (např. vyšetřování substitucí v minerálech) § § § § § § § §Je některá hodnota souboru odlehlá? (Mám ji ze souboru vyřadit a nepracovat s ní při výpočtu dalších parametrů – střední hodnoty, Sx…?) § 4,0; 4,2; 4,4; 4,5; 4,5; 4,6; 4,7; 4,9; 5,1; 5,8 ? § §Chovají se naměřená data podle normálního rozdělení? § rxy = O,6 § K řešení těchto problémů lze ve statistice využít metody testování statistických hypotéz, s jejichž pomocí lze hledat odpovědi na tyto otázky a činit závěry. Testování statistických hypotéz § Základní pojmy §hypotéza H0 – nulová (testovaná) hypotéza, kterou testujeme §hypotéza HA – alternativní hypotéza, kterou přijmeme, zamítneme-li hypotézu Ho §a – hladina významnosti – volí se malá do 0,05; nejčastěji 0,05 - tedy 5-ti% pravděpodobnost chyby 1. druhu; vysoce významné výsledky testování pro a = 0,005 a méně §kritická hodnota pro test nulové hypotézy = hodnota kvantilu hraniční pro oblast zamítání H0 na zvolené hladině významnosti a (kde a vyjadřuje pravděpodobnost, že náhodná veličina překročí tuto hodnotu). § Chyby při testování §Chyba 1. druhu §zamítneme-li platící hypotézu H0, dopustíme se chyby I. druhu §je spojena se zamítnutím nulové hypotézy, která ve skutečnosti platí; její pravděpodobnost se nazývá hladina významnosti a §platí-li hypotéza alternativní HA a testovanou hypotézu H0 nezamítáme, dopouštíme se chyby II. Druhu §Chyba 2. druhu §Značí se b § je pravděpodobnost nesprávného přijetí nulové hypotézy §1- b se nazývá síla testu §závisí na velikosti výběru (s větším souborem klesá) § §oboustranná hypotéza (oboustranný test) § § § §jednostranná hypotéza (jednostranný test) § § § § a obráceně § V případě oboustranného testu: musíme rozdělit danou hladinu významnosti a na dvě časti reprezentující dva možné konce distribuce. Značíme ka(2), např. t0,05(2) V případě jednostranného testu: uvažujeme pouze jeden konec distribuce a danou hladinu významnosti proto nedělíme. Značíme ka(1), např. t0,05(1) §Obecný postup testování § zvolíme hladinu významnosti a § formulujeme nulovou hypotézu H0 a alternativní hypotézu HA § zvolíme vhodné testovací kritérium § vypočteme velikost test. kritéria T §stanovíme kritickou hodnotu (hodnotu kvantilu hraniční pro oblast zamítání H0) pro zvolenou hladinu významnosti - ka §porovnáme velikost testovacího kritéria s kritickou hodnotou § § jestliže T ≤ ka, akceptujeme nulovou hypotézu na námi zvolené hladině významnosti § jestliže T > ka, zamítneme nulovou hypotézu a říkáme, že platí H1 § § zamítnutí hypotézy H0 neznamená, že tato hypotéza neplatí, jen dáváme najevo, že ji nedůvěřujeme Testování statistických hypotéz Testování statistických hypotéz § Testy: parametrické § neparametrické § §parametrický test – pro soubory s normálním rozdělením nebo téměř normálním rozdělením pravděpodobností § Známe-li rozdělení pravděpodobností základního souboru § §neparametrický test – i pro soubory a jiným než normálním rozložením pravděpodobností § Neznáme-li rozdělení pravděpodobností základního souboru - širší použití než parametrické § - řešení nezávisí na typu rozdělení základního souboru § - lze použít i pro silně nenormální rozdělení, kdy parametrické testy předpokládající normální rozdělení selhávají § Test hypotéz o korelačním koeficientu §Otázka – je spočtená hodnota korelačního koeficientu statisticky významná? § Když rxy se blíží 1 či -1 pak jistě ano § Ale co když rxy je např. 0,5? – závislé na počtu měření § §ověření předpokladu o nulové hodnotě korelačního koeficientu § Ho: rxy = 0 § §Spočtení testovacího kritéria § § §Stanovení kritické hodnoty pro zvolenou hladinu významnosti a a počet stupňů volnosti n-2; Tk(a; n-2) § V excelu stanovím pomocí funkce TINV § §Pokud t ≤Tk pak přijmeme Ho a tedy existenci lineární závislosti mezi veličinami v souboru považujeme za neprokázanou. §