Tvorba uživatelských rozhraní a hodnocení použitelnosti Martin Dostál Honeywell International - Aerospace Advanced Technology Europe Masarykova Univerzita v Brně, Fakulta informatiky PV252 9. přednáška ZPRACOVÁNÍ DAT: DESKRIPTIVNÍ STATISTIKA POZOR, naše zpracování této problematiky je s ohledem na prostor znaèčnìě povrchní. statistiku je tøřeba studovat ve vìětším detailu. 2 Data a znaky • sběr dat • znak (veličina) • kvantitativní • kvalitativní 3 Data a škály • u kvalitativních dat možné hodnoty nazýváme kategoriemi • nominální - data „pojmenovaná”, to však nevylučuje používání čísel - ovšem jako „jmen” či označení • ordinální (pořadová) - data s uspořádáním • intervalová (rozdílová) - ordinální data navíc s možností stanovit vzdálenosti mezi kategoriemi • podílová - intervalová data navíc zachovávající podíl (tím pádem i násobení). Data jsou vždy kladná a mají tzv. absolutní nulu. 4 In nomine Patris et Filii et Spiritus Sancti Příklady 5 • pohlaví (s možnými hodnotami mužské, ženské) • barva očí (modrá, hnědá, černá) • výsledek léčby (uzdraven, zemřel) • národnost (česká, slovenská, polská, německá, ...) • dosažené vzdělání (základní, střední, vysokoškolské), • prospěch ve školním předmětu (výborně, velmi dobře, dobře, nevyhověl) • stav pacienta (vyléčen, remise, recidiva) • ohrožení povodní (stupně povodňové aktivity) • hodnocení postojů ve škále (souhlasím, spíše souhlasím, spíše nesouhlasím, nesouhlasím) • četnost výskytu (často, občas, zřídka, nikdy), • chuť vína nebo jiné poživatiny podle degustátora atd. • váha, výška, věk • rozměry, objem a hmotnost těles, • koncentrace, kapacity, • fyzikální vlastnosti materiálu, doba trvání nějakého děje, • počet mikroorganismů ve vzorku vody, • počet elementů ve vzorku krve atd. • teplota v kelvinech (0 není možná) • teplota ve stupních celsia • datum Možné operace s daty dle použité škály 6 škála operace nominální rovnost ordinální rovnost, uspořádání intervalová rovnost, uspořádání, součet/rozdíl podílová rovnost, uspořádání, součet/rozdíl, součin/podíl Popis a prezentace kvalitativních dat 7 • absolutní četnost • relativní četnost • kumulativní četnost (absolutní/relativní) • empirické rozdělení dat Popis a prezentace kvantitativních dat • obor hodnot - minimum, maximum • kategorizace do intervalů • histogram • empirická distribuční funkce • kvantily 8 Míry polohy a variability • míry polohy • aritmetický průměr • geometrický průměr • median • modus • kvantily • míry variability • výběrový rozptyl a směrodatná odchylka • kvartilové rozpětí • relativní kvartil 9 Centrální tendence a škály • pro nominální data: modus • pro ordinální data se průměr nehodí! Hodí se median a modus. • pro intervalová data se hodí aritemtický průměr • pro podílová data je vhodnější geometrický průměr (např. věk) 10 Geometrický průměr 11 > data$growth [1] 23 30 24 24 27 21 25 23 22 23 20 24 27 25 24 26 52 25 19 19 18 19 19 19 19 19 18 18 18 19 18 21 20 [34] 23 20 45 31 19 30 20 20 25 35 22 26 21 34 26 23 20 29 23 17 16 18 16 18 16 23 17 17 26 20 20 23 25 [67] 23 30 24 20 21 28 31 20 20 21 21 54 19 20 20 19 19 20 21 20 20 20 20 20 20 19 19 20 20 20 20 20 19 [100] 35 19 20 20 19 19 20 20 19 20 24 27 48 21 25 22 17 32 > summary(data$growth) Min. 1st Qu. Median Mean 3rd Qu. Max. 16.00 19.00 20.00 22.79 24.00 54.00 > geometric_mean(data$growth) [1] 22.13008 • hodí se pro data s podílovou škálou • hodí se, když má věcný význam součin znaků. Například při analýze znaků, které tvoří posloupnost a vznikají jako podíl dvou veličin (například tempo růstu) • pro šipčatá data (špičatost - skewness) - asmyterické rozdělení definice převzata z http:// cs.wikipedia.org/wiki/Geometrický_průměr Grafická prezentace dat • (pro nás) nejpoužívanější grafy • histogram • barplot • boxplot • popisy os • jednotky • legenda 12 Histogram 13 • zachycuje absolutní četnost jednotlivých intervalů dělení • toto dělení bývá nastavitelné > hist(data$age) > hist(data$age,breaks=20) Boxplot • česky „krabicový graf” • vhodný pro zobrazení charakteristiky polohy a variability • vyobrazuje • dolní a horní kvartil • median • horní a dolní vous (whiskers) • odlehlá pozorování (outliers) • vyobrazení záleží na implementaci 14 Boxplot 15 020406080100 clipboard document files find formatting help insert language macros object options other pageformat print styles tables view utilization(percentage) Barplot • česky sloupcový graf • vyobrazuje absolutní četnosti dat • existuje též skupinová varianta • vyobrazení skupin vedle sebe (beside) • vyobrazení skupin na sobě (stacked) • zobrazujeme-li tendenci, je vhodné doplnit o střední chybu (standart error) interval spolehlivosti (confidence interval) 16 Barplot 17 1 2 3 4 5 6 7 8 9 11 05101520 volume(dB) Device (ID) Barplot 18 Barplot s intervalem spolehlivosti 19 Barplot 20 Reportování • reportování deskriptivní statistiky • podle APA • důležité pro metodologickou správnost a srozumitelnost • Průměr: M • Median: Mdn • Modus: Mode • Směrodatná odchylka: SD • Minimum: Min • Maximum: Max • Počet vzorků: N 21 Reportování • důsledně oddělit popis (reportování) od interpretace • hodnoty uvádíme v závorkách oddělené čárkou • některé hodnoty můžeme však integrovat do textu pro lepší čitelnost • zpravidla dvě desetinná místa, pro malé rozsahy i více • deskriptivní statistika • průměr/medián/modus • směrodatná odchylka 22 Participants were 88 men and 100 women aged 16 to 34 years (men: M = 18.2, SD = 2.64; women: M = 21.4, SD = 2.12). Četnosti v textu • je vhodné vytvořit tabulku mapující adjektiva a četnosti • potřebujeme-li uvést přesnou hodnotu, uvedeme ji v závorkách 23 The  frequency  of  subjects  responding  is  expressed  as  follows:   - “None of” (0 subjects), - “Few”, “Few of” (1, 2 subjects) - “Some” (3, 4, 5 subjects), “Half of” (50% of responding subjects) - Majority (> 50% of responding subjects) - “Most” (6, 7 subjects) - “All”, [or wording not mentioned] (8 subjects) In  case  of  missing  data  the  scale  was  adjusted.  If  the  data  cannot  be  collapsed  the  results  were  described   as  “Mixed”.