Statistická analýza dat doc. PhDr. Tomáš Urbánek, Ph.D. Psychologický ústav AV ČR Veveří 97, 602 00 Brno tour@psu.cas.cz Osnova kurzu • Základní pojmy • Popisné statistiky – jednorozměrně indexy – vícerozměrné indexy (vztahy) • Rozložení dat • Testování hypotéz – hladina významnosti – síla testu • Konkrétní postupy – testy rozložení – kontingenční tabulky – test chí-kvadrátu – t-testy – ANOVA – korelační analýzy – regresní analýza – atd. Základní pojmy • znak × proměnná • typy proměnných (úrovně měření) • základní × výběrový soubor • popisná × induktivní statistika • neparametrické × parametrické metody • explorační × konfirmační postupy • hypotéza – teorie - model • nulová × alternativní hypotéza • statistická významnost • síla testu • chyba I. a II. druhu Znak a proměnná • ZNAK – jakákoli rozlišitelná charakteristika zkoumaných objektů • PROMĚNNÁ – znak nebo skupina znaků, tvořící logický celek, nabývající různých forem, které lze chápat jako možné hodnoty (× konstanta) Operacionalizace a kvantifikace • pojem ´ konstrukt – operacionální definice ® testovací nebo měřicí kritéria, operace nebo postupy, pomocí kterých lze daný jev vyvolat - – proměnná (z hlediska měření): • diskrétní (zvláštní případ dichotomická) • spojitá Typy proměnných (podle úrovně měření) • NOMINÁLNÍ – čísla představující hodnoty proměnné pouze zastupují názvy – možnost použít pouze relace =/≠ – např. pohlaví, diagnóza, terapie aj. • ORDINÁLNÍ – pořadová (mezi hodnotami existuje přirozené uspořádání) – lze uvažovat o relacích ≤/≥ – např. závažnost onemocnění, jakékoli pořadí Typy proměnných (podle úrovně měření) • INTERVALOVÁ – distance mezi dvojicemi hodnot jsou vzájemně srovnatelné – kromě předchozích relací lze používat operace +/- – např. teplota • POMĚROVÁ – na rozdíl od předchozí úrovně není umístění nuly dáno dohodou – kromě relací a operací z předchozích úrovní lze používat ´/¸ – např. hmotnost, délka a další fyzikální veličiny Typy proměnných (podle role ve výzkumu) • NEZÁVISLÉ × ZÁVISLÉ – nezávislá proměnná není ovlivňována žádnou jinou proměnnou, která je součástí výzkumu, a současně ovlivňuje ostatní zkoumané proměnné – závislá proměnná je ovlivňována nezávislými proměnnými • VNĚJŠÍ – proměnná (proměnné), která(é) ve výzkumu nehraje žádnou roli Typy proměnných (podle role ve výzkumu) • MODERUJÍCÍ – modifikace vztah mezi nezávislou a závislou proměnnou (často např. pohlaví) • INTERVENUJÍCÍ – neměřitelná, nepostižitelná, ale podle našich představ nějak ovlivňuje hypotetický řetězec proměnných „nezávislá-moderující-závislá“ Zdroje chyb měření Zdroj chyb Kritérium • osobní objektivita • náhodný reliabilita (spolehlivost) • systematický validita (platnost) Základní ´ výběrový soubor Základní soubor • soubor všech možných měření daných veličin (lidí, předmětů, vzorků) • v principu není možné všechna tato měření provést (nejsou peníze nebo čas) • označuje se také jako populace Výběrový soubor • podmnožina základního souboru vybraná na základě určitých pravidel (reprezentativnost a velikost – viz dále) • popis výběrového souboru se používá jako odhad popisu souboru základního Požadavky na výběrový soubor • jsou možné dva různé přístupy (někdy vnímané jako protikladné, spíše ale vzájemně se doplňující) • kvalitativní × kvantitativní • v medicíně klinický × výzkumně/teoretický – příklad kvalitativního – zpracování kazuistik – zde – kvantitativní Kvantitativní ´ kvalitativní (odbočka) • Kvantitativní – založené na matematicko-statistických metodách a na velkých souborech dat – cílem je zobecnění na nějaký základní soubor • Kvalitativní – metody vycházející z klinického přístupu, jazykovědy, etnografie a podobných oborů – často spíše snaha o postižení zvláštních jevů Požadavky na výběrový soubor • výběrový soubor by měl být reprezentativní vzhledem k základnímu souboru (populaci) • výběrový soubor by měl být dostatečně rozsáhlý • postupy – často nějaká forma náhodného (pravděpodobnostního) výběru – ale i nepravděpodobnostní postupy Typy výběrových plánů • pravděpodobnostní výběr – většinou v případě kvantitativních výzkumů – použitelný u dostupných populací • nepravděpodobnostní výběr – častější u kvalitativních výzkumů (ale ne výhradně) – nutný u výjimečných jevů a nedostupných populací Pravděpodobnostní výběr • všechny prvky základního souboru mají stejnou šanci dostat se do výběru Příklady: – prostý náhodný výběr – stratifikovaný náhodný výběr Nepravděpodobnostní výběr • prvky základního souboru je nutné vybírat na základě definovaných kritérií a postupů Příklady: – kvótní výběr – místní nebo časový výběr – výběr typických případů – výběr technikou sněhové koule Popisná × induktivní statistika • popisná – statistické indexy jsou považovány za popis výběrového souboru • prostředky – grafické (grafy, diagramy) – numerické (indexy. koeficienty) • induktivní – indexy popisující výběrový soubor jsou považovány za odhady hodnot v souboru základním (populaci) – testování statistických hypotéz Parametrické × neparametrické metody • 3 hlediska: úroveň měření proměnných rozsah výběrového souboru normalita rozložení – parametrické: použitelné v případě aspoň intervalové úrovně měření, dostatečného rozsahu výběru a normality rozložení proměnných – neparametrické: nutné použít pro nižší (nominální a pořadové) úrovně měření a menší rozsahy výběru Parametrické ´ neparametrické metody (poznámky) • dá se říci, že každá parametrická metoda má svůj neparametrický „ekvivalent“ • často se jedná o několik možností – např: parametrický Pearsonův korelační koeficient ´ neparametrický Spearmanův pořadový korelační koeficient nebo Čuprovův koeficient kontingence atd. Explorační ´ konfirmační postupy • explorační – „detektivní“ práce – cílem je objevit vztahy, pravidelnosti nebo zákonitosti – výsledkem takového postupu jsou často hypotézy, které je nutné dále ověřovat • konfirmační – „rozsudek“ o platnosti nebo neplatnosti určité předem formulované hypotézy – předpokladem je existence nějaké teorie nebo modelu, aby bylo možné formulovat nějaká očekávání o výsledcích výzkumu Explorační ´ konfirmační postupy (poznámky) • většinu typů statistických analýz lze využít pro explorační i pro konfirmační účely • Příklad: – regresní analýza může sloužit zjišťování statisticky významných prediktorů závislé proměnné (explorace) nebo ověření relativní důležitosti těchto proměnných v predikci (konfirmace) Hypotéza – teorie – model • Teorie – soubor vzájemně souvisejících hypotéz, které se doplňují a tvoří koherentní systém • Hypotéza – tvrzení o vlastnosti konkrétního prvku nebo vztahu v rámci dané teorie – viz nulová ´ alternativní hypotéza • Model – obvykle konkrétně kvantitativně vyjádřené vztahy mezi proměnnými umožňující predikci jejich chování Typy hypotéz • Deskriptivní – zastoupení nějakého typu chování v populaci • Relační – vztahy mezi proměnnými • korelační: pouze konstatujeme vztah mezi proměnnými • kauzální: výskyt určitého jevu způsobuje výskyt jiného (statistickými metodami nelze prokázat) Postup statistické indukce 1. Formulace nulové (H[0]) a alternativní (H[A]) hypotézy 2. Volba vhodného statistického testu 3. Volba hladiny významnosti (obvykle 5% nebo 1%) 4. Výpočet hodnoty testového kritéria Obecný princip testu hypotézy • H[0] – nulová hypotéza • H[A] – alternativní hypotéza [• ] postup: matematicko-statistická metoda vedoucí k rozhodnutí ve prospěch H[0] nebo H[A ]• kritérium pro rozhodnutí: statistická významnost testu hypotézy (p-hodnota) Nulová × alternativní hypotéza • cílem analýzy je obvykle ověřit nějaké jednoduché tvrzení – např.: liší se mezi sebou 2 skupiny z hlediska množství nějaké látky v krvi? • nulová hypotéza (H[0]): jednoduché tvrzení o neexistenci nějakého vztahu, rozdílu, vlivu atd. – např.: • alternativní hypotéza (H[A]): prostá negace nulové hypotézy Statistická významnost (p-hodnota, a) • podmíněná pravděpodobnost výsledku, který bude prohlášen za nenáhodný (H[A]), přestože ve skutečnosti je náhodný (H[0]) • tzn. riziko, že bude zamítnuta H[0] za předpokladu, že platí • tzn. riziko „planého poplachu“ Síla testu (1 – b) • podmíněná pravděpodobnost výsledku, který bude prohlášen za nenáhodný a ve skutečnosti také je nenáhodný (H[A]) • tzn. výsledek, kdy bude zamítnuta H[0] za předpokladu, že neplatí • tzn. výstup, kterého se při testování snažíme dosáhnout Statistická významnost ´ síla testu • chyba I. druhu – riziko zamítnutí H[0] za předpokladu, že platí – označuje se a – obvykle hodnoty 0,01 (1%) nebo 0,05 (5%) • chyba II. druhu – riziko nezamítnutí H[0] za předpokladu, že neplatí – označuje se b – obvykle hodnoty 0,2 (20%) nebo 0,1 (10%) Rizika chybných rozhodnutí • existují 4 možné kombinace přijatého rozhodnutí ve vztahu ke skutečnosti – 2 možnosti – správné rozhodnutí • zamítnutí H[0], která neplatí (správné přijetí H[A]) • nezamítnutí H[0], která platí (správné nepřijetí H[A]) – 2 možnosti – nesprávné rozhodnutí • zamítnutí H0, která platí (chybné přijetí H[A]) • nezamítnutí H0, která neplatí (chybné nepřijetí H[A]) Rizika chybných rozhodnutí II Popisné statistiky • jednorozměrné indexy – charakteristiky polohy – charakteristiky variability – další momenty (šikmost, špičatost) • vícerozměrné indexy – různé typy kontingenčních a korelačních koeficientů – složitější multivariační techniky Charakteristiky polohy • označují hodnotu, kolem které jsou umístěny ostatní hodnoty dané proměnné • nejčastější: – modus (nejčastěji se vyskytující hodnota) – medián (hodnota dělící soubor na poloviny) – průměr (centrální tendence, těžiště) Modus Modus (poznámky) • existují data, kde se jako nejčastější vyskytuje více hodnot – 2 nejčastější hodnoty = bimodální rozložení – více nejčastějších = polymodální rozložení • použití modu – i u nominálních proměnných Medián Medián (poznámky) • medián = hodnota vyšší nebo rovná 50% hodnot dané proměnné a nižší než zbylých 50% hodnot • v případě nejednoznačné polohy tohoto bodu se provádí interpolace • použití mediánu – nutné aspoň ordinální (pořadové) proměnné Průměr • v podstatě bod těžiště dat – X[i] = individuální i-tá hodnota proměnné X – N = rozsah souboru • Použití – minimálně intervalová úroveň měření Charakteristiky variability • vyjadřují míru kolísání hodnot proměnné kolem nějakého středu (polohy, průměru) • nejpoužívanější: – rozpětí (rozdíl mezi maximem a minimem) – kvartilová odchylka (X[0,75] – X[0,25]) – směrodatná odchylka (odmocnina rozptylu) Rozptyl ® směrodatná odchylka • rozptyl: – X[i] = individuální i-tá hodnota proměnné X – N = rozsah souboru – m[X] = průměr proměnné X • směrodatná odchylka: – tzn. odmocnina z rozptylu Další momenty rozložení dat • šikmost – zkosení rozložení dat doleva nebo doprava • špičatost – příliš mnoho (nebo příliš málo) hodnot v bezprostředním okolí střední hodnoty • oba indexy – jejich extrémní hodnoty zkreslují výsledky parametrických testů Vícerozměrné indexy • kontingence a korelace – nějakým způsobem kvantifikují míru společného výskytu hodnot dvojice proměnných • multivariační metody – vztahy více (mnoha) proměnných – např. korelační analýza, regresní analýza, faktorová analýza, analýza rozptylu (ANOVA) atd. Rozložení hodnot – s jakou četností se ve výběrovém souboru vyskytují jednotlivé hodnoty nebo skupiny hodnot? – postupy: • grafické: názorné (např. histogram, polygon) • výpočetní: analytické, induktivní (testy rozložení) Grafické metody Analytické metody • test statistické hypotézy o rozložení dat – analogický postup jako v případě popsaného testování hypotéz • postupy: – test chí-kvadrátu – Kolmogorovův-Smirnovův test – atd. Příklady rozložení • rovnoměrné rozložení – všechny hodnoty se vyskytují se stejnou četností • binomické rozložení – výskyt kombinací z určitého počtu možností Příklady rozložení • normální rozložení – vzniká působením mnoha drobných vzájemně se sčítajících vlivů • rozložení chí-kvadrát – vzniká součtem čtverců určitého počtu normálně rozložených náhodných proměnných Postup statistické indukce 1. Formulace nulové (H[0]) a alternativní (H[A]) hypotézy 2. Volba vhodného statistického testu 3. Volba hladiny významnosti (obvykle 5% nebo 1%) 4. Výpočet hodnoty testového kritéria Příklady výzkumných otázek • Liší se účinek dvou různých léků na sledované charakteristiky? – H[0]: Účinek obou léků … se neliší. – H[A]: Účinek obou léků … se liší. • Je úmrtnost na určitou diagnózu různá ve dvou nemocnicích? – H[0]: Úmrtnost … se neliší. – H[A]: Úmrtnost … se liší. Nutnost použití statistiky • při dostatečně přesném měření zjistíme nějaké rozdíly vždy • ale: – Je rozdíl mezi dvěma podmínkami významný? • proto: – Posuzování statistické významnosti. Chyba I. a II. druhu • chyba I. druhu: Zamítnutí H[0] (přijetí H[A]), která platí – Příklad: Mezi účinky dvou různých léků není rozdíl, ale my budeme (chybně) tvrdit, že je • chyba II. druhu: Nezamítnutí H[0] (zamítnutí H[A]), která neplatí – Příklad: Existují rozdíly mezi dvěma terapiemi, ale my budeme (chybně) tvrdit, že ne Pravděpodobnosti vzniku chyb • chyba I. druhu: a • tzv. statistická významnost • chyba II. druhu: b • 1 – b = tzv. síla testu • riziko chyb obou typů se snažíme minimalizovat • snížení rizika vzniku chyby I. druhu zvyšuje riziko vzniku chyby II. druhu (a naopak) Způsoby eliminace chyb • chyba I. druhu – hodnotu a volíme na základě toho, jak přísní chceme být (0,05 nebo přísnější 0,01) • chyba II. druhu – obvykle se snažíme dosáhnout hodnoty b aspoň 0,2 – je nutný dostatečně velký rozsah výběrového souboru (N) • obě hodnoty (a i b) závisí na velikosti efektu (rozdílu, vztahu), který se snažíme detekovat – čím drobnější je efekt, tím větší N je nutné Rizika chybných rozhodnutí II Testy hypotéz • chí-kvadrát • t-test • ANOVA (analýza rozptylu) • korelace • regresní analýza Obecné schéma testu hypotézy „Mapa“ pro několik běžných postupů Pokračování „mapy“ Nástroje na provádění testů • specializovaný statistický software (např. SPSS, Statistica, BMDP, SAS, S-Plus atd.) nebo • znalost vzorců, tabulky příslušných rozložení + kalkulačka nebo spreadsheet Test chí-kvadrátu „Mapa“ pro několik běžných postupů Příklad • Máme tři skupiny pacientů s určitou diagnózou – A, B a C, a podezření, že podíl komplikací se v jednotlivých skupinách liší • Základní soubor: všichni pacienti s danou diagnózou (všech tří typů A, B a C) • Výběrový soubor: náhodný výběr pacientů všech tří typů diagnóz Hypotézy • H[0]: Podíl komplikací u jednotlivých typů diagnózy (A, B a C) se neliší • H[A]: Aspoň jeden typ diagnózy se od ostatních liší z hlediska podílu komplikací Data Vyčíslení nulové hypotézy • Jak by data vypadala, kdyby mezi dodavateli nebyl žádný rozdíl? OČEKÁVANÁ ČETNOST Očekávané četnosti (H[0]) Pozorované a očekávané četnosti Vzorec chí-kvadrátu • Hodnota chí-kvadrátu • n[ij]^(o) - pozorovaná četnost v i-tém řádku a j-tém sloupci tabulky • n[ij]^(e) - očekávaná četnost v i-tém řádku a j-tém sloupci tabulky Počet stupňů volnosti • zohledňuje velikost zpracovávané tabulky • df = (r - 1)´(s - 1) r = počet řádků tabulky (bez součtů) s = počet sloupců tabulky (bez součtů) • v našem případě: – (2 - 1)´(3 - 1) = 2 Výpočet chí-kvadrátu Rozložení chí-kvadrát Získání p-hodnoty • porovnání získané hodnoty chí-kvadrátu s tabulkovou hodnotou pro příslušný počet stupňů volnosti a zvolenou hladinu významnosti (a) • např.: použití funkce CHIDIST v Excelu =CHIDIST(37,39;2) = 7.59´10^-9 = 0.00000 Srovnání p-hodnoty se zvolenou a • 0.00000 < 0.05 • ZÁVĚR: výsledek je statisticky významně odlišný (na 5% hladině významnosti) od nulové hypotézy o neexistenci rozdílu mezi podílem komplikací v jednotlivých skupinách diagnóz Závěry • Typy diagnóz (A, B a C) se statisticky významně liší v podílu komplikací • Skupina B se liší statisticky významně vyšším výskytem komplikací • Skupina C se liší statisticky významně nižším výskytem komplikací Předpoklady testu chí-kvadrát • Výběr je reprezentativní vzhledem k základnímu souboru • Rozložení diskrétních dat použitých v testu je binomické • Očekávaná četnost v každé buňce tabulky musí být ^3 5 (pokud není, je třeba větší výběr) t-test „Mapa“ pro několik běžných postupů Příklad • Je průměrná doba léčby na dvou srovnatelných odděleních stejná? • Základní soubor: všechny doby léčby všech pacientů jednoho a druhého oddělení • Výběrový soubor: náhodný výběr pacientů obou oddělení a jejich doby léčby 3 typy t-testu • jednovýběrový t-test – porovnání průměru s konkrétní hodnotou (např. porovnání doby léčby s hodnotou publikovanou v literatuře) • t-test pro nezávislé výběry – porovnání doby léčby na dvou srovnatelných odděleních při nezávislém vybírání těchto objemů pro jednotlivá oddělení • párový t-test – porovnání doby léčby na dvou odděleních tak, že se vybírají vždy dvojice pacientů z jednoho a druhého oddělení, aby si byli v relevantních charakteristikách co nejpodobnější Příklad t-testu pro nezávislé výběry Problém: Máme dvě oddělení, na kterých se léčí stejné choroby. Máme data od náhodně vybraných deseti pacientů trpících stejnými chorobami, představující dobu léčby. Liší se průměrná doba léčby na těchto odděleních? • Základní soubor: doby léčby vybraných pacientů (stejné choroby) za celou dobu fungování obou oddělení • Výběrový soubor: vybraných deset údajů pro každé oddělení Hypotézy • H[0]: Průměrná doba léčby na obou odděleních se neliší (m[1] = m[2]) • H[A]: Průměrná doba léčby na obou odděleních se liší (m[1] ^1 m[2]) Data Výpočetní postup • statistika t a počet stupňů volnosti (df) m[1] = průměr 1. oddělení n[1] = počet měření 1. oddělení m[2] = průměr 2. oddělení n[2] = počet měření 2. oddělení s[1]^2 = rozptyl 1. oddělení s[2]^2 = rozptyl 2. oddělení Zjištění p-hodnoty • porovnání získané hodnoty t s tabulkovou hodnotou pro příslušný počet stupňů volnosti a zvolenou hladinu významnosti (a) • např.: použití funkce TDIST v Excelu • =TDIST(t;df;2) Výsledky s[0] = 0.888 t = 0.676 df = 18 p-hodnota = 0.508 • Závěr: Protože 0.508 > 0.05, nulovou hypotézu o rozdílu mezi průměrnými dobami léčení na 2 odděleních nezamítáme – tzn. nebyl prokázán statisticky významný rozdíl mezi nimi. Předpoklady t-testu • skupiny hodnot by měly být přibližně stejně rozsáhlé • v obou skupinách by měl být počet měření dostatečný vzhledem k velikosti zjišťovaného rozdílu • stejné rozptyly v obou skupinách hodnot (pokud neplatí, je třeba použít složitější postup) Analýza rozptylu „Mapa“ pro několik běžných postupů Modelový příklad • Problém: Představte si, že neporovnáváme výkon 2 oddělení, ale 4 oddělení • Možnost: Provedení t-testu pro každou dvojici oddělení (tzn. 6 t-testů) Nevýhoda: Prudké zvýšení pravděpodobnosti chyby I. druhu riziko chyby I. druhu = 1 - (0.95)^6 = 0.2649 = = 26.5% Odlišný přístup • současné porovnávání variability (rozptylů) uvnitř skupin a variability (rozptylu) mezi skupinami • ANOVA (ANalysis Of VAriance) neboli analýza rozptylu • statistika F (také se říká F-test) Hypotézy • H[0]: Variabilita uvnitř skupin (oddělení) je stejná jako variabilita mezi skupinami • H[A]: Variabilita mezi skupinami (odděleními) je odlišná od variability uvnitř skupin Data Grafy hodnot Výpočty • hodnota F + dvě hodnoty stupňů volnosti • MS[b] = průměrná suma čtverců mezi skupinami • MS[w] = průměrná suma čtverců uvnitř skupin • n[g] = počet skupin • N = celkový počet hodnot Výpočty II • SS[b] = suma čtverců mezi skupinami • SS[w] = suma čtverců uvnitř skupin Výsledky Výsledky II Zjištění p-hodnoty • porovnání získané hodnoty F s tabulkovou hodnotou pro příslušné počty stupňů volnosti a zvolenou hladinu významnosti (a) • např.: použití funkce v Excelu • =FDIST(F;df[b];df[w]) = 0.225 Závěry • 0.225 > 0.05, což znamená, že nejsme schopni zamítnout H0 o stejnosti variability uvnitř skupin a mezi skupinami • mezi průměrnými dobami léčení na jednotlivých odděleních A, B, C a D není statisticky významný rozdíl Předpoklady ANOVY • reprezentativnost výběrových souborů • normální rozložení dat • přibližně stejné velikosti jednotlivých skupin • rovnost rozptylů v jednotlivých skupinách Korelační a regresní analýza „Mapa“ pro několik běžných postupů Korelace a regrese • kvantitativní hodnocení vztahu mezi dvěma a více proměnnými • předpoklad: hypotetický vztah je lineární • možnost predikce (předpovědi) hodnot závislé proměnné na základě znalosti hodnot proměnné nezávislé Korelační graf (scatterplot) • vyjadřuje graficky závislost mezi dvěma kvantitativními proměnnými • hodnoty dvojice proměnných se používají jako souřadnice pro umístění bodu představujícího daný objekt • neumožňuje snadné porovnání míry těsnosti vztahu u různých dvojic proměnných ® korelační koeficient Korelační koeficient • m[x] (m[y]) = průměr proměnné x (y) • s[x] (s[y]) = směrodatná odchylka x (y) • N = počet dvojic hodnot (např. osob) • x[i] (y[i]) = hodnota proměnné x (y) osoby i • Pozn.: postihuje lineární vztah mezi proměnnými Hodnoty korelačního koeficientu • r Î á-1; 1n • r = -1 – dokonalý záporný lineární vztah • r = 0 – nepřítomnost lineárního vztahu • r = 1 – dokonalý kladný lineární vztah • r^2 = koeficient determinace – vyjadřuje podíl kolísání (rozptylu) společného oběma proměnným Test významnosti r • H[0]: r = 0 H[A]: r ^1 0 • t-test jako v případě porovnávání 2 průměrů • získání p-hodnoty pro t – opět jako u t-testu • např.: funkce v Excelu • =TDIST(t;df;2) Korelační grafy a koeficienty Lineární regrese • nejjednodušší případ: regrese dvou proměnných • vyjádření vztahu mezi proměnnými v podobě regresní rovnice: Y = a + bX • a = regresní konstanta • b = regresní koeficient Lineární regrese - vzorce • regrese 2 proměnných (jednoduchá regrese): lze vypočítat na základě uvedených vzorců • regrese 3 a více proměnných (mnohonásobná regrese – jedna závislá a 2 a více nezávislých proměnných): nutnost použít numerický postup Lineární regrese - p-hodnota • p-hodnota pro regresní koeficient (b) [• ] naprosto stejná jako pro r[XY ]• u jednoduché lineární regrese jsou hodnoty korelace (r) a regresního koeficientu (b) zcela ekvivalentní (určují se navzájem) Regrese Varování • Korelace nemusí znamenat nutně kauzální vztah. • Absence korelace nemusí znamenat nutně neexistenci kauzálního vztahu. Klamná korelace • Existuje kladná statisticky významná korelace mezi počtem hasičských vozů u požáru a velikostí škody. • Co z toho vyplývá? • Součástí analýzy by měla být také proměnná vyjadřující velikost požáru. Klamná korelace – sloučení 2 skupin Příklad: Jednoduchá regrese • Máme 10 hodnot pro dvě proměnné, X a Y. Vypočtěte regresní rovnici s X jako nezávislou a Y jako závislou proměnnou. Jednoduchá regrese: Data Jednoduchá regrese: Výsledky • b = 6.3462 • a = 10.9615 • p-hodnota = 0.000005 • Závěr: regresní rovnice je Y = 10.9615 + 6.3462 X • směrnice rovnice je statisticky významně odlišná od nuly Předpoklady lineární regrese • reprezentativnost výběru • normalita rozložení proměnných • linearita vztahu proměnných Cvičení Příklad 1 • Určete, jaký typ testu se hodí na následující problém a proveďte ho. • Existuje podezření, že různé nemocnice se liší v množství určitého typu infekce. Příklad 1: Data Příklad 2 • Určete, jaký typ testu se hodí na následující problém a proveďte ho. • Pro tutéž chorobu lze použít 3 různé postupy léčby. Otestujte, zda se neliší průměrná doba léčby pro jednotlivé léčebné postupy. Příklad 2: Data