1     ................................................................................................... 2 ................................................................................................................ 3 ........................................................................................................................................ 3 ............................................................................................................ 5 ...................................................................................................... 6 2 Každý den se setkáváme zejména v médiích s řadou informací, které pocházejí z kvantitativních výzkumů. Pochopení základů statistické analýzy nám pomůže nejen lépe pochopit, jak tyto informace vznikají, ale také je lépe a kritičtěji interpretovat. Často se totiž setkáváme se zjednodušenými a někdy i nesprávnými interpretacemi, které například zaměňují příčinu a následek, opomíjejí vliv dalších proměnných, zjednodušují kauzální vztahy. Statistický vtip, který si utahuje z podobných zpráv typu „vědci zjistili, že…“ a který publikoval S. den Hartog ve své dizertační práci odevzdané na Univerzitě v Groningenu, říká: „Je dokázáno, že oslavy narozenin jsou zdravé. Statistici zjistili, že lidé, kteří oslavili více narozenin, se dožívají vyššího věku.“ A do třetice ukázka podobného vtipu na úkor častých dezinterpretací statistických výzkumů: Pochopení základů statistiky vám nepomůže ale jen lépe chápat statistické vtipy. Pomocí statistických metod budete moci například lépe: 3  chápat potřeby své cílové skupiny (populace),  rozdělit cílovou skupinu na smysluplné segmenty a soustředit na ně cílenou nabídku služeb i marketingovou strategii,  odhalit příčiny a následky jevů,  spočítat rizika spojená se strategickým rozhodováním,  chápat, jaká čísla a jaké výsledky jsou pro vás skutečně významné. Minulý týden jsme se dotkli rozdílů mezi deskriptivní a induktivní (někdy také inferenční) statistikou. Deskriptivní statistika se zabývá sběrem, sumarizací a prezentací souborů dat. Je to ta „lehčí“ statistika, která je dostupná pomocí běžných nástrojů (kalkulačka, tabulkový procesor). Pomocí deskriptivní statistiky můžeme odpovědět na otázky typu: - Jaká je průměrná délka života žen? - Jaká je mediánová hodnota platu knihovníků v ČR? - Jaký je minimální a maximální počet knih, který průměrně za rok přečte student KISKu? Induktivní (inferenční) statistika se zabývá zobecňováním výsledků výzkumu na vzorku na populaci. Jinými slovy, pokud vám výsledky ukazují, že z celkového počtu 299 respondentů se 85% inspiruje při výběru knih radou od přátel (to je třeba jeden z výsledků nedávného průzkumu studentek KISKu), induktivní statistika vám pomůže zjistit, s jakou jistotou se toto vaše zjištění dá zobecnit na populaci. Induktivní statistika pracuje s hypotézami a zjišťuje, zda jsou sesbíraná data s těmito hypotézami v souladu. V kontextu výzkumů hovoříme o primární a sekundární analýze dat. Primární analýza Primární analýza pracuje s originálními daty, která jsme nasbírali přímo pro potřeby výzkumu. Zdrojem kvantitativních dat jsou nejčastěji dotazníková šetření či výsledky experimentálních studií. Dotazníkovým šetřením jsme se podrobněji věnovali v předchozím modulu. Experimentální studie jsou speciální případ výzkumů, kdy se snažíme zjistit vliv jedné proměnné na jiné. Například můžeme srovnávat chyby v bibliografických citacích u studentů, kteří navštěvovali kurz KPM a u studentů, kteří kurz nenavštěvovali. Nemusíme v tomto případě volit jako výzkumnou metodu dotazování, ale podíváme se přímo na citace v závěrečných pracích. V experimentu zkoumáme výzkumnou skupinu, u které se zaměřujeme na to, zda se změna v proměnné (v našem případě absolvování kurzu) promítla i do změny pozorované proměnné (v našem případě správnost citací). Současně si výsledky ověřujeme i na tzv. kontrolní skupině. 4 Sekundární analýza Sekundární analýza se soustředí na analýzu již sesbíraných dat. Existuje velká množina dat sesbíraných pro účely jiných výzkumů, které se dají využít pro další účely. Zdrojem těchto dat jsou různé výzkumné databáze, ale i webové stránky výzkumných institucí, obrovskou zásobárnou dat jsou instituce veřejné správy. Hnutí za sdílení výsledků výzkumu se nazývá open science či open data. Níže naleznete některé příklady zdrojů dat relevantních pro náš obor:  Český statistický úřad ČSÚ poskytuje informace o státní ekonomice, pohybu osob, srovnání se zahraničím, vědě a výzkumu. Kromě celé řady statistik jsou na stránkách úřadu k dispozici i otevřená data z výsledků voleb.  Databáze EUROSTATu Databáze EUROSTATu poskytuje informace o regionálních statistikách, ekonomice a financích, průmyslu, obchodu, zemědělství, dopravě, energetice, vědě a technologiích v EU.  ČSDA - Český sociálněvědní datový archiv ČSDA poskytuje přístupk vybraným českým datovým souborům reprezentativních výzkumů. Bez registrace je možné procházet stránky Webu a informace o archivovaných datech.V archivu najdete například datové soubory z realizovaných měsíčních šetření Centra pro výzkum veřejného mínění (CVVM).  Repozitáře institucí 5 Některé instituce se mohou rozhodnout poskytnout data ze svých průzkumů k dalším účelům. Příkladem takového rozhodnutí v našem oboru je výzkum SOAP (Study of Open Access Publishing) o postojích vědců k open access, který realizovali vědci z CERNu. Mezinárodní data obsahující odpovědi tisíců respondentů ve formátech .csv, .xls a .xlsx jsou k dispozici zde. Další repozitáře lze najít např. přes seznam na Datacite nebo přes další služby. Datové soubory (matice) mají specifickou podobu. V tabulce se zapisují respondenti do jednotlivých řádků, kde každý sloupec představuje jednu proměnnou. Pro práci s velkým množstvím dat a pro práci ve specializovaných softwarech se využívá kódování hodnot proměnných. Okódovaná otázka může vypadat například takto: Příklad kódování jednoduché otázky Příklad kódování baterie otázek 6 Hodnoty proměnné se dělí na tzv. validní hodnoty a chybějící hodnoty (missing values):  Validní hodnoty jsou ty hodnoty, které započítáváme do analýzy. Jsou to všechny varianty odpovědí, které pro nás mají vysokou informační hodnotu.  Chybějící hodnoty jsou ty hodnoty, kdy respondent zvolí odpověď typu „nevím / nemohu se rozhodnout / nemohu odpovědět“ nebo otázku přeskočí a odpověď vůbec neposkytne. I tyto druhy odpovědí pro nás mohou mít informační hodnotu (např. pokud existuje na některou otázku vysoký počet odpovědí „nevím“ nebo neodpovědí, měli bychom se zamyslet nad tím, zda respondenti otázce rozumí). V kódování se validní hodnoty označují čísly od jedné výše, chybějícím hodnotám se dává číslice, která je na první pohled odliší (např. 99 nebo záporná číslice, např. -1). Datové soubory lze vytvářet v různých programech.  Online nástroje. Při využití online nástrojů lze data editovat často přímo v online datasetu. Téměř všechny online aplikace ale poskytují i možnost expertu dat do formátů .xls, .csv nebo .sav (formát pro SPSS).  Běžné tabulkové procesory. Nejdostupnější variantou pro práci s daty jsou běžně dostupné tabulkové procesory – například MS Excel, Open Office Calc nebo Google Spreadsheets.  Speciální desktopové nástroje pro statistickou analýzu. Pro statistickou analýzu existují i specializované nástroje, od free nástrojů (nejrozšířenější je pravděpodobně prostředí R) až po profesionální placené nástroje. Pro studenty FF MU jsou k dispozici zdarma programy SPSS a Statistica. Programy SPSS a Statistica najdete v INETu. Po přihlášení se se svým UČO a sekundárním heslem najdete programy v sekci Provozní služby – Software – Nabídka softwaru.