Základní informace o programovém systému STATISTICA Systém má modulární stavbu. V multilicenci pro Masarykovu univerzitu jsou k dispozici moduly: Basic Statistics/Tables, Multiple Regression, ANOVA, Nonparametrics, Distribution Fitting, Advanced Linear / Nonlinear Models, Multivariate Exploratory Techniques, Industrial Statistics & Six Sigma. Instalační CD lze získat v celouniverzitní počítačové studovně MU na Komenského náměstí 2. Lze také přímo stáhnout ISO obraz instalačního CD. Bližší informace viz http://www.muni.cz/ics/services/software/statistica Velké množství informací o systému STATISTICA lze najít na webové stránce společnosti StatSoft, která je jejím distributorem v České republice (www.statsoft.cz). Z této stránky vede rovněž odkaz na elektronickou učebnici statistiky. STATISTKA má několik typů oken: • spreadsheet (datové okno, má příponu sta, jeho obsah však lze exportovat i v jiných formátech). Do datového okna lze načítat datové soubory nejrůznějších typů (např. z tabulkových procesorů, databázové soubory, ASCII soubory). • workbook (má příponu stw). Do workbooku ukládají výstupy, tj. tabulky a grafy. Skládá se ze dvou oken, v levém okně je znázorněna stromová struktura výstupů, v pravém jsou samotné výstupy. V levém okně se lze pohybovat myší nebo kurzorem, mazat, přesouvat, editovat apod. Výstupy mohou sloužit jako vstupy pro další analýzy a grafy. • report (má příponu str, lze ho uložit i ve formátu rtf, txt či htm). Pokud požadujeme, aby se výstupy ukládaly nejen do workbooku, ale i do reportu, postupujeme takto: Tools -Options - Output Manager - zaškrtneme Also send to Report Window - OK. Report se podobně jako workbook skládá ze dvou oken. Do reportu můžeme vkládat vlastní text, vysvětlující komentáře, poznámky apod. Tabulky a grafy lze v reportu i workbooku dále upravovat. • okno grafů (přípona stg, lze ho uložit i jako bmp, jpg, png a wmf). Získá se tak, že ve workbooku klikneme pravým tlačítkem na graf a vybereme Clone Graph. • programovací okno (přípona svb). Slouží pro zápis programů v jazyku STATISTICA Visual Basic. Mezi jednotlivými typy oken se přepínáme pomocí položky Window v hlavním menu. Bodové zpracování četností 1. Zapište do datového okna programu STATISTKA datový soubor, který bude obsahovat známky z matematiky, angličtiny a údaje o pohlaví dvaceti studentů. Návod: File - New - Number of variables 3, Number of cases 20, OK. 2. Znaky nazvěte X, Y, Z, vytvořte jim návěští (X - známka z matematiky, Y - známka z angličtiny, Z - pohlaví studenta) a popište, co znamenají jednotlivé varianty (u znaků X a Y: 1 -výborně, 2 - velmi dobře, 3 - dobře, 4 - neprospěl, u znaku Z: 0 - žena, 1 - muž). Soubor uložte pod názvem známky.sta Návod: Kurzor nastavíme na Varl - 2x klikneme myší - Name X - Long Name známka z matematiky, Text label - 1 výborně, 2 velmi dobře, 3 dobře, 4 neprospěl, OK. U proměnné Y lze text label okopírovat z proměnné X - v Text Labels Editor zvolíme Copy from variable X. Přepínání mezi číselnými hodnotami a jejich textovým popisem se děje pomocí tlačítka s obrázkem štítku. 3. U znaků X a Y vypočtěte absolutní četnosti, relativní četnosti a relativní kumulativní četnosti. Návod: Statistics - Basic Statistics/Tables - Frequency tables - OK - Variables X, Y, OK - Summary. Všechny tři tabulky se uloží do workbooku a listovat v nich můžeme pomocí stromové struktury v levém okně. 4. Vytvořte sloupkový diagram absolutních četností znaků X a Y. Návod: Graphs - Histograms - Variables X, Y - OK- vypneme Normal fit - Advanced - zaškrtneme Breaks between Columns, OK. Vytvořte výsečový diagram absolutních četností znaků X a Y. Návod: Graphs - 2D Graphs - Pie Charts - Variables X, Y - OK - Advanced - Pie legend Text and Percent (nebo Text and Value) - OK. Vytvořte polygon absolutních četností znaků X a Y. Návod: ve workbooku vstoupíme do tabulky rozložení četností proměnné X. Pomocí Edit - Delete - Cases vymažeme řádek označený Missing. Nastavíme se kurzorem na Count -Graphs - Graphs of Block Data - Line Plot:Entire Columns. Vykreslí se polygon četností. 5. Vytvořte graf empirické distribuční funkce znaku X. Návod: Při tvorbě histogramu zadáme v Advanced volbu Showing Type Cumulative, Y axis % - 2 x klikneme myší na pozadí grafu - otevře se okno All Options - vybereme Plot:Bars - Type Rectangles. V tomto grafu jsou však svislé čáry až k vodorovné ose. Lze použít i jiný typ grafu: vytvoříme nový datový soubor, který bude mít dvě proměnné a případů o dva víc než je počet variant znaku X. Do 1. proměnné zapíšeme do 1. řádku hodnotu o 1 menší než je 1. varianta znaku X, pak varianty znaku X a nakonec hodnotu o 1 větší než je poslední varianta znaku X. Do 2. proměnné zapíšeme 0, pak relativní kumulativní četnosti znaku X (v procentech) a nakonec 100. Graphs - Scatterplots -Variables VI, V2 - OK - vypneme Linear fit - OK - 2x klikneme na pozadí grafu -Plot:General - vypneme Markers, zaškrtneme Line - Line Type:Step - OK. Vytvořte graf četnostní funkce znakq X. Návod: Při tvorbě histogramu zadá-e v Advanced Y axis % - 2 x klikneme m}ší na pozadí grafu - vybereme Pmot General - zaškrtnemevMarkers - vybereme Plot:Bars -Type Lines. 5. Z datového souboru vyberte pouze ženy (pouze muže) a úkol 3 proveďte pro ženy (pro muže). Návod: Statistics - Basic Statistics/Tables - Frequency tables - OK - Variables X, Y, OK - Select Cases - zaškrtneme Enable Selection Conditions - zaškrtneme Specific, selected by: By Expression Z = 0, OK. 6. Nadále pracujte s celým datovým souborem. Vytvořte kontingenční tabulku absolutních četností znaků X a Y a graf simultánní četností funkce. Návod: Statistics - Basic Statistics/Tables - Tables and banners - OK - Select cases - All - OK - Specify tables - List 1 X, List 2 Y, OK, Summary. Vytvoření grafu simultánní četnostní funkce: Návrat do Crosstabulation Tables Result -3D histograms - vybereme Axis Scaling - Mode Manual - Minimum 0 (a totéž provedeme pro Axis Y) - dále vybereme Graph Layout - Type - Spikes - OK. Graf lze natáčet pomocí Point of View. Vytvořte kontingenční tabulku sloupcově a řádkově podmíněných relativních četností znaků X a Y. Návod: Návrat do Crosstabulation Tables Result - Options - zaškrtneme ve sloupci Compute tables volbu Percentages of column counts (resp. Percentages of row counts). Intervalové zpracování četností 1. Zapište do datového okna programu STATISTKA datový soubor, který bude obsahovat údaje o mezi plasticity oceli a mezi pevnosti (viz př. 2.13.)- Proměnným X a Y vytvořte návěští „mez plasticity" a „mez pevnosti". Soubor pak uložte pod názvem ocel.sta. Návod: viz 1. cvičení, bod 1. 2. Pro X a Y použijeme intervalové zpracování četností. Pro aplikaci Sturgersova pravidla potřebujeme znát počet variant proměnné X a Y. Návod: Zjištění absolutních četností - viz 1. cvičení, bod 3. Zjištění počtu variant: ve workbooku se nastavíme kurzorem na sloupec Count - 2x klikneme myší - vybereme Values/Stats - ve výstupní tabulce se objeví mj. N. Počet variant je N-l. (X má 50 variant, Y má 52 variant, v obou případech volíme 7 třídicích intervalů.) Dále musíme zjistit minimum a maximum, abychom vhodně stanovili třídicí intervaly. Návod: Statistics - Basic Statistics/Tables - Descriptive statistics - Variables X,Y -zaškrtneme Minimum&maximum - Summary. (Pro X je minimum 33 a maximum 160, tedy vhodná volba třídicích intervalů je (30,50>, (50,70>, (150,170> - viz př. 2.13., pro Y je minimum 52 a maximum 189, tedy třídicí intervaly zvolíme (50,70>, (70,90>, ... (170,190>-viz př. 2.19.) 3. Vytvořte histogram pro X a pro Y. Návod: Graphs - Histograms - Variables X - vypneme Normal fit - Advanced -zaškrtneme Boundaries - Specify Boundaries - 50 70 90 110 130 150 170 OK - Y Axis %. 2 x klikneme na pozadí grafu a ve volbě AU Options můžeme měnit různé vlastnosti grafu. Upozornění: STATISTICA v histogramu znázorňuje relativní četnost výškou obdélníku, nikoliv jeho plochou, což není v souladu s definicí 2.14. 4. Proveďte zakódování hodnot proměnných X a Y do příslušných třídicích intervalů. Návod: Insert - Add Variables - 2 - After Y - OK - přejmenujeme je na RX a RY. Nastavíme se kurzorem na RX - Data - Recode - vyplníme podmínky pro všech 7 kategorií. (Pozor - podmínky se musí psát ve tvaru X > 30 and X <= 50 atd.). Pak klepneme na OK. Analogicky pro Y. 5. Vytvořte graf intervalové empirické distribuční funkce pro X. Návod: Vytvoříme Frequency table pro RX. Před 1. případ vložíme řádek, kde do Category napíšeme 0 a do Cumulative Count také 0. Nastavíme se kurzorem na Cumulative Percent - Graphs - Graphs of Block Data - Custom Graph from Block by Column - Line Plots (Variables) - OK. 2x klikneme na pozadí grafu - Plot: General -vypneme Markers - Axis: Scaling - Mode Manual - Minimum 1, Maximum 9 - Axis: Custom Units - Position 1, Text 30 atd až Position 9, Text 190 - OK. 6. Sestavte kontingenční tabulky absolutních četností (relativních četností, sloupcově a řádkově podmíněných relativních četností) dvourozměrných třídicích intervalů pro (X,Y). Návod: Viz úkol č. 6 ve cvičení 1, kde budeme pracovat s proměnnými RX a RY. 7. Vytvořte stereogram pro (RX,RY). Návod: V tabulce Crosstabulation Tables Result zaškrtneme 3D histograms. Ve volbě Axis Scaling (pro RX i pro RY) změníme Mode na Manual - Minimum 0. Pomocí Axis: Custom Units (viz úkol č. 5) můžeme změnit popis hodnot na x-ové a y-ové ose. Výpočet číselných charakteristík jednorozměrného a dvourozměrného souboru, regresní přímka 1. Načtěte soubor známky.sta. Pro známky z matematiky □ a angličtiny vypočtěte medián, dolní a horní kvartil a kvartilovou odchxlku. Výsledky porovnejte s příklademf 3.5. Návod: Stastistics - Basic Statisticu/Tables - Descriptive Statistics - NK - Variables X, Y, OK - zaškrtneme Median, Lower & upper quartiles, Quartile range - Summary. 2. Načtšte soubor ocel.sta. Óro mez plasticity a mez pevnosti vypůčtěte aritmetické průměry, směrodatné odchylky a rozptyly. Výsledky porovnejte s příkladem D.15. Návod: Návod: Stastistics - Basic Statistics/Tables - Descriptive Statistics - OK -Variables X, Y, OK -□ zaškrtneme Mean, Standard Deviation, Variance -GSummary. Vysvětlení: Rozptyl a směrodaDná odchylka vyjdou ve STATISTICE jinak než v př. 3.15., protože STATISTICA ve vzorci pro výpočet rozUtylu nepoužDvá 1/n, ale l/(n-l) - bude objasněno později v matematické statistice. 3. Nakreslete dvourozměrný tečkový diagram pro (X,Y). Návod: Graphs - Scatterplots - Variables X,Y - OK -□ vypne De Linear fit - OK. 4. Vypočtěte kovasianDi a koeficient korelace mezeGplasticity a mmze pevnosti. Výsledky porovnejte s příkladem 3.15. Návod: Statistics - Multiple Regression - Variables Independent X, Dependent Y - OK -OK - Residuals/assumption-prediction - Descriptive statistics - Covariances. Pro získání korelačního koeficientu zvolíme Correlation místo Covariances. Vysvětlení: Kovariance vyjde ve STATISTICE jinak než v př. 3.15., protože ve STATISTICE se ve vzorci pro výpočet kovariance nepoužívá 1/n, ale l/(n-l) - bude objasněno později. 5. Určete koeficienty regresní přímky meze pevnosti na mez plasticity a stanovte index determinace. Určete regresní odhad meze pevnosti, je-li mez plasticity 110. Nakreslete regresní přímku do dvourozměrného tečkového diagramu. Návod: V tabulce Multiple Regression zvolíme Variables Independent X, Dependent Y -OK - Summary:Regression results. Ve výstupní tabulce najdeme koeficient bo ve sloupci B na řádku označeném Intercept, koeficient bi ve sloupci B na řádku označeném X, index determinace pod označením R2. Pro výpočet predikované hodnoty zvolíme Residuals/assumption/prediction Predict dependent variable X: 110 - OK. Ve výstupní tabulce je hledaná hodnota označena jako Predictd. Nakreslení regresní přímky: Návrat do Multiple Regression - Residuals / assumption / prediction - Perform residuals analysis - Scatterplots - Bivariate correlation - X, Y - OK. Jiný způsob: Do dvourozměrného tečkového diagramu nakreslíme regresní přímku tak, že v tabulce 2D Scatterplots zvolíme Fit Linear, OK. Výpočty pravděpodobností pomocí distribuční funkce binomického rozložení Označme X náhodnou veličinu. Její distribuční funkci zavedeme vztahem x) = 1 - P(X6) = 1 - P(X<5) = 1 -