f Kolik vran musíme pozorovat Í! populace vzorek hladina významnosti směrodatná chyba pravděpodobnostní výbSr náhodný vzorek interval spolehlivosti jednoduchý náhodný výběr systematický výběr náhodný stratiťikovaný výhůV vícestupňový výher kvňmí výběr anketa technika sněhové koule teoretická nasycenost vzorku zkreslení samovýběrem Kapitola 5. Kolik vran musíme pozorovat? Když nevíš co děláš, xeptej so někoho, kdo to ví. Jarry Poumollä, tónu)/ v koídóm čtstů magazínu BYTE Tohle je opít kapitola o redukci informací. Je to kapitola přece jen radostnejší než ty předchozí. Redukce populace na vzorek míl dobře propracovanou teorii i dobře vypracované a spolehlivé recepty. Nfkteré operace tu nejsou snadné, ale je mnoho lidí, kteří je znají a mohou nám poradil. Buďte tedy zadobře se statistiky. Touto kapitolou vstupujeme do spíše technicko oblasti výzkumu. K tomu nám může hodit dobrý pomocník. Dovolte, abych vám představil Dr. Watsona. Dr. Watson je svým tpňsobem chytrý muž na systemizovaném místi pilmnce. Je to nikdo, koho každý profesor touží mít ve třídě. Doktor Watson vždycky navrhne nějakou, zdánlivě zřejmou, ale ve skutečnosti pitomoučkou odpověd, čími umožní profesorovi nabídnout správnou odpověd, a lak se zaskvíti svojí moudrostí a učeností. Budeme služeb Dr. Watsona hodni používat. 5.1. Vzorek z nouze Začneme spíše stupidní otázkou: "Kolik vran musíme pozorovat, abychom mohli říci, že všechny vrány jsou černé'.'" Odpověď je tak jednoduchá, že po ní nemusíme pátral na konci kapitoly a přirozeně zní "Všechny!" Na druhé straně asi nikdo nikdy nepozoroval všechny vrány. Nezbývá nám nic jiného, než se spokojit s tvrzením, že "většina vran je černých". Opět jc to něco, co už známe: redukovaná analýza renliiy vede k tvrzením pravděpodobnostního charakteru. Skupiny, o které se v sociologickém výzkumu zajímáme, nejsou malé. V kvantitativní verzi výzkumu jsme schopni zkoumat celou skupinu jenom výjimečně. Pravidelně jedině sčítání lidu ju studií celé populace. Většinou studujeme jun některé členy skupiny a doufáme, že naše závěry budou aplikovatelné i na ostatní, na ty nestudované. To nás přivádí k dvěma základním termínům, které potřebujeme pro tuhle kapitolu: populace a vzorek (výběrový soubor). Jejich definice je jednoduchá: VZOREK: POPULACE skupina jednotek, které skutečně pozorujeme (neboli základní soubor) je soubor jednotek, o kterém předpokládáme, -že jsou pro něj naše závěry platne vzorku, byly co nejvíce Náš stěžejní úkol je najít postup, aby výsledky, které získáme na podobné těm, které bychom získali na celé populaci. První věc, která nám přijde na mysl, je, snažit se mí. vánek co největší. Ale naše následující pravdivá pohádka ním ukáže, že to není jen tak: Pohádka pro odrostlejší děti 8. O hodně velkém vzorku, aneb Jak to nevyžlo Byl jednou v Americe velice rozšířený týdeník, který se jmenoval Lltcrary Digu.il, Byl u svých Čtenářů bodné nblíbcn. By) proslulý také tím, že spolehlivé předpovídal výsledky presidentxkých voleb. Jeho předpovědi byly zaloíeny na obrovském vzorku Uvou milionu vollíťi. (Dnes jsou podobné předpovědi zaloíeny na vzorku tisíckrát menším.) Vzorek byl zkonstruován z mnoha zdrojů. Lltcrary Wgc.í! sl opalřll adresy volléD z celých USA. Používal pro to zdroje Jako telefónni seznamy, městské adresáře, adresy držiielíi řidičských průkazu, členské seznamy organizací, seznamy předplatitelů novin a Časopisů atd. Předpovědi byly přesné a úspěšné ve volbách 1920, 1924, 1928, 1932, a pak přišly volby v roce 1936. Lltcrary Dlgest předpověděl, že presldentský kandidát Landou porazí Roosevelta rozdílem 14%. Přišel volební den a s ním i konce slávy Lltcrary Digestu: Franklin Delano Iíooscvelt zvítězil drtivou většinou, 92 93 Cvičení 4.1. Repremmol norekpmiilý Utmry Dtmlem Mře echu populaci volm v USA? To nebylo tak tčžké, že? Trochu .složitější je otázka, jak je možné, že vzorek, který prakticky vyloučil 7. výzkumu voliče náležející k nižším sociálním třídám, fungoval dobre v předchozích volbách? Klf&ro k řešení je rok: v voce 1935 vrcholila v USA hospodářská krize, a to vedlo k ostré polarizaci podle vertikální stratiťikační osy. Předtím sociální ekonomický status nehrál příliš důležitou roli v otázce volebních preferencí. Daleko včišf lilohu hrály takové faktory jako náboženství, zemepismi poloha atd. Krize to všechno zmínila: sociální status zaCal hrát důležitou funkci. Pravdepodobné nejdůlcžitčjší bylo to, že krize přivedla k volebním urnám příslušníky nižších sociálno ekonomických vrstev, kteří předtím příliš často nehlasovali. Můžeme tedy říci, že v letech 1920-1932 predpovedi Literary Digeslu vyšly jenom náhodou. Abychom byli schopni z chování vzorku předpovídal chování populace, musí struktura vzorku Imitovat složení populace tak přesnř, jnk Je to jen možné. Dr Walson: Ale ,oje přeci docela lehké! Když je v populaci Mněme 51% len, ,ak vyberu ,aké 51% len do vzorku, a když je v populaci 12% osob >uul 65 le, věku, vyberu také stejné procento starých osob do vzorku, atd. Tentokrát má Dr. Watson pravdu. Technika tens.uk* vzorku, tak jak ji popsal.se opravdu používá. Rfká se tomu kvótní výuír. Kvótní výMr imituje ve struktuře vzorku známé vlastnosti populace. Bohužel má tato technika některé nepríjemné vlastnosti. Jedna z nich souvisí se slovem sníme" vnaSf definici. Pro vétšinu populací není problém zjistit jejich skladbu podle „„iOaví veku, vzdělání, povolání aul. Lze si snadno představit problém, pro který jsou důležitější jiné vlastnosti, útkové, o kterých Mina «a.i.Ucka Setření (klaje neshromaždt,, tkupř. vek. ve kterém se respondent poprvé zamiloval). Na další problém snadno přijdete sami: Cvičení 4.2. Navrhněte prosím, kritéria pro :, konstrukci kvótnllw norku pro populaci veksláků. Kvótní výher mfiže být použit jen na populaci, o které jsme dohře informováni, a to zdaleka není každá populace. Další obtíž je spojena s praktickou stránkou výberu přímo v terénu. Poslední krok obvykle závisí na tazateli, který vybírá jedince podlo dané instrukce. Taková instrukce by mohla vypadal třeba takto: Jméno lazalele: Dr. Walson Respondent 6.1. muž, věk 30-40, dokončené středoškolské vzdělání, povoláním úředník, ženalý, ale bezdetný, bydlící v rodinném domku, žijící v našem městě alespoň 5 lei, ale který se narodil v obci pod pětset obyvatel... Respondent č.2. žena, věk 60-65, alespoň s dokončeným základním vzděláním, důchodkyně, která pokud byla ješlě ekonomicky aktivní, měla dělnické povolání, kierá ži]e sama, v bytě alespoň o dvou místnostech a bydlí od narození v našem městě... Tak, to si od nás Dr. Walson opravdu nezaslouží. Umíte si představit, na kolik dveří by musel zaklepal, než by našel osoby, odpovídající zmínfiným charakteristikám. Třeba by je nenašel vůbec, možná, že vůbec neexistují. Ve skutečnosti je instrukce v kvotním výberu mnohem skromnejší. Navrhuje jen nčkolik málo proměnných, takových jako pohlaví, vík a povolání. Lokalita a typ obce je obvykle dán působištím tazatele. Jinak nejsou lyto pramenné vázány do určitých kombinací. Instrukce by mohla zníl laklo: "Hovořte s deseti osobami, z toho se 94 95 šesti ženami « čtyřmi muži. Vybenc 3 osoby ve vaku pod 20 |cl, 5 vc víku 21-50 ■■ O osin^h, pro nfe fleba daleko dfileli^fch proměnných můžeme Jenom doufá,, že h„do« ve vzorku dostatečná správne reprezentovány. Dr, Watson: Ca si s tím ale počneme? Odpovčď nám nabízí titul následujícího paragrafu. 5.2. Hodíme si korunou aneb Pravděpodobnost pro Dr. Watsona Představme si, že máme velikou krabici, plnou kuliček, a že všechny kuličky jsou zelené. Dobře krabicí zatřepeme a poslepu vybereme jednu kuličku. Jakou máme šanci, že vybraná kulička bude zelená? To byla ale pitomá otázka, že ano? Tak si teď zkusme níco trochu složitějšího: Máme teď jinou populaci kuliček, sestávající ze zelených a červených kuliček. Tich zelených je K0% a těch červených je ovšem 20%. Ale počkejte, já se vás nebudu ptát, jaká je pravděpodobnost, že si náhodní vyberete červenou kuličku. To byla otázka jen o málo ménč pitomá, než. ta první, a všichni víme, že ta pravděpodobnost je 20%, a cbccme-)i to vyjádřit učeněji, můžeme říci. že p = 0,20. My tu máme jiný úkol: zjistil, jaká je skladbu populace, aniž. bychom prohlíželi všechny kuličky. Jinými slovy, hledáme metodu, jak vytvořit vzorek, který by dobře reprezentoval celou populaci kuliček. Můžeme zkusit třeba toto: Opět začneme tím, že krabicí dobře zatřeseme. To není vtip, to je opravdu nutné: každá kulička musí mít stejnou pravděpodobnost, že bude vybrána, (Co kdyby všechny červené kuličky byly navrchu?) a ted vybereme poslepu 10 kuliček. Uvidíme třeba, že jsme vybrali 6 červených a 4 zelené. To je dost daleko od dobré roprezemativity. Perfektní vzorek by míl přeci obsahovat 20% červených a 80% zelených. Tedy vybereme opít poslepu dalších deset kuliček. Třeba 6 z nich bude zelených ti 4 červené. Přidáme je k našemu původnímu vzorku. Nový, včtší vzorek sestává z 10ti červených a 10ti zelených kuliček. Teíí bychom odhadli, že v populaci je stejné procento červených, jako zelených kuliček. To ještč není vůbec dobré. Museli bychom tedy pokračovat, přidávat další a další kuličky. Brzy bychom zpozorovali zajímavou věc: 96 3-ostoucí velikostí vzorku se rozdíl mezi strukturou populace a vzorku zmenšuje. Nejdříve rychle, pak pomaleji a pomaleji. Úplné shody mezi strukturou populace dosáhneme teprve tehdy, když jsme zahrnuli všechny elementy populace do vzorku. Df.Wal.wm "Ale taje vSedmo nesmysl! Když je w pravda, jak je potom možné, ie obrovsky vwrek použitý Ulerury Dlgesiem vedl k lak nesprávným výsledhim ?" Asi už. víle, co bychom mohli odpovéd na tuhle námitku: "Ale to je přece elementární, Walsone. Ti lidé z Literary Digcslu zapomněli pořádné zatřásl krabicí." Voliči •/. nižších socioekonomických vrstev míli mnohem menší šanci hýli vyhráni do vzorku, než voliči ze středních a vyšších vrstev, což dramaticky zkreslilo výsledky. My jsme tu totiž, aniž bychom o tom vSdčli, vytvořili náhodný vzorek "populace" kuliček. A náhodný vzorek, to je aristokrat mezi vzorky, má mnoho jedinečných, a pro nás důležitých, vlastností. Všechno, co budeme v tomto odstavci probírat, se týká jenom vzorků, které byly vytvořeny opravdu náhodným výbčrcm. Termín "náhodný" neznamená'výběr nazdařbůh. I když náhodný výher může být, jak brzy uvidíme, technicky velmi obtížný a často i nemožný, jeho definice je jednoduchá; Náhodný (pravděpodobnostní) výběr je takový výběr ve kterém každý element populace má stejnou pravděpodobnost, že bude vybrán do vzorku. To se lépe řekne než se .0 udčlá. Ale dovolte, abych vás ještě dříve nezbudeme mluvit o radě trampot, dobře naladil popisem pozoruhodných vlastností náhodného vzorku. Snad 97 nojduležUější , nich, alespoň pro nás sociology - s.atistik by s „dmi možní nesouhlasil lato vlastnost: Náhodný vzorek reprezentuje všechny známé i neznámé vlastnosti populace. A ještě dffvc, než Dr. Waison lačne namítal, uveďme si jednoduchý přiklad. Mimo teď novou populaci kuliček. Jsou opäl červené a zelenú. Ale maji jeílé Jednu zajfmavou vlastnost, o která my nevíme: Jsou duté a uvnitř každé je malý papírek a na každém tom lístku je nčco napsiíno. (Znáte "fortuně, cookles" z čínských restauraci'.') Třeba nejakí neslušné slovo. Když Jsme vybrali dobrý náhodný vzorek kuliček, budou reprezentoval celou populaci kuliček nejen vzhledem k dislribucl barev, ale I vzhledem k distribuci neslušných slov, I když o tom nevime a třeba nikdy nebudeme včdčt. Uveďme si Jiný, užitečnější příklad. V náhodném vzorku obyvaiclslva hlavního místa Prahy budeme míl slítanou reprezentaci populace vzhledem k veku, pohlaví, vzdělání, povolání, politické orientaci, vzhledem ke väem postojům, ale I reprezenlaci ifob.i vzhledem k oblíbeným jídlům, počtu zubních kazů, vSku, kdy se lidé poprvé zamilovali, množství vypitého piva, počtu milenek, počtu vekslákil, peněžní hodnote nakradeného zboží, číslflm bot, próslě vzhledem ke vjScimi. To neznamená, že tohle vSechno budeme schopni měřil, 10 Je jiný problém. Ale znamená to. že nf už je naíím cílem cokoli, víme, že proměnné, klcré jsou pro nás relevantní, budou mít v misem vzorku podobnou distribuci, jaká existuje v celé populaci a naše závťry jsou tedy na tuto populaci aplikovatelné. Náhodný výbér má jeítí jednu pozoruhodnou vlas U náhodného vzorku jsme schopní odhadnout, jak se vzorek liší od populace. Jmými slovy, jsme .schopni určit, jak dobrý je náš vzorek. Teď je na case naučit .se několik slov z odborné hantýrky, jednak abychom mohli oslnit přátele, jednak abychom rozumeli správní vyznaniu publikovaných statistických dat. Podívejme » na následující tabulku- Tabulka 5.1. Velikost vzorku a konfidenční interval na 95% hladině významnosti pro alternativní znaky pfl distribuci 50:50 Velikost vzorku Konlidenční interval 100 ± 10% 400 ±5% 1600 ± 2.5% Adaptováno z Sabbls: Sociál Research (or Consumgr, 1B82 To vypadá dosi učené, že? Ale nebojte se. Pochopit princip, a vědět jak se taková víc aplikuje, není těžké. Trochu obtížnější je siatistické zdůvodnění. Ale takové vysvetlení necháme pro někoho jiného, kdo vás uvede do zajímavého světa skutečné statistiky. Řekněme, že jsme vybrali náhodně «100 kuliček a zjistili jsme, že ve vzorku ( neboli ve výběrovém souboru) je 78% zelených kuliček. Protože jsme nevybrali všechny kuličky, musíme předpokládat, že jsme se dopustili určilé chyby, že pozorovaná relativní četnost zelených kuliíek ve vzorku se liší od procenta, které skuleCné existuje v celé populaci (základním souboru). My však potřebujeme vědět, jak moc se mýlíme. A v tom nám pomůže ta nepíátelsky vyhlížející tabulka. Pozor! Tnlilc tabulka jc jen ilustrací ti platí jen tehdy, je-li v populnei právě tolik zelených jako červených kuliček. Platí jen pro alternativní (binomické) proměnné, to je pro lakové znaky, které mají jen dvě kalegorie, jako ANO a NE. V našem případě, zelená a "nezelená" kulička. Velikost našeho vzorku je 400 a lélo velikosti vzorku odpovídá kemlideněaf interval (interval spolehlivosti) 5%. Odečteme tedy tuto hodnotu od pozorovaných 78% a dostaneme tedy 73%. Pak ji opět přičteme k pozorované hodnotě a dostaneme horní mez. a teď víme, žo skutečná proporce zelených kuliček v celé populaci je mezi 73 a 83%.Jenomže to nevíme docela určitě, vždyt jsme nepozorovali všechny kuličky. Teď se dostáváme k tomu poněkud kryptickému výrazu v podtitulu naší tabulky: hladina významnosti. 98 99 V našem případe lo znamená, že skutečna' proporce, která existuje v populaci, se nalézá s 95','í pravdepodobností uvnitř vypočítaného intervalu spolehlivosti. Kdybychom vytvořili 100 vzorků obdobné velikosti, jen v 5 vzorcích by bylo možné, že skutečná proporce zelených kuliček leží pod nebo nad vypočítaným konfidenčním intervalem. O tom, jakou hladinu zvolil, rozhodne výzkumník, » podle tohoto rozhodnutí je interval vypočítáván. Toto rozhodnutí je svobodné ovšem jen /. hlediska statistické teorie; ve skutečnosti je vázán míněním, přijatým v příslušné včdecké komunitč. V sociologii je lo obvykle 95 nebo 98%. (Vidíte, i v sociologii máme malý kousek paradigmatu.) A teď se podívejme, jak by se takový interval mohl vypočítat. Není to tak, jak se to opravdu dčlá. Ve skutečnosti neznáme distribuci proměnné, která existuje v populaci. Ale náš popis výpočtu nám dá alespoň nčjaký vhled do logiky, která je skryla za pozoruhodnými vlastnostmi náhodného výbčru. Protože jsem vám slíbil, že v naSí knize nebudou (skoro) žádné vzorečky, popíšeme si výpočet slovní. Nejdříve musíme vypočítat veličinu, která má opravdu zajímavé vlastnosti a které se říká sirtiSrodatná chyba. Uvidíte, že je to nejen snadné vypočítat, ale také, žc není tčžké rozumčt vfitsme krokii v tomto výpočtu. Výfiočel smdrodahTŔí^yhy' Vypočítaný násobek vydělíme velikosti vzorku. Čím volší vzorek, tím menši je směrodatná chyba a tím užší bude konlidenční Interval. V případě, žo by v populaci byla stejná proporce zelených a červených kuliček, ve vzorku 100 pozorování, by Interval byl -I-10%; ve vzorku 400 pozorováni by byl mnohem užší: ±5% a ve vzorku 1000: ±3%. Nakonec vypočítáme druhou odmocninu z výsledku dělení. To je transformace do čísla zajímavých vlastností. Ti, kdo jsou trošku seznámeni se statistikou, vidí už tod souvislost s konceptem směrodatné odchylky, My ostatní to pochopíme trochu lépe, až budeme mluvit o směrodatné odchylce v naší statistické kapitole. A teď nám už zbývá jen jedno. Rozhodnout se, jakou hladinu významnosti chceme přijmou,, a pak vypočítat interval spolehlivosti. CO UDĚLÁME Nejdříve vynásobíme proporci zelených kuliček v populaci proporcí červených. Tato proporce musí být vyjádřena jako desetinný vzorek, ne v procenlech. (Tedy, kdyby v populaci bylo 50% červených a 50% zelených budeme počítat 0,5 král 0.5.) CO TO ZNAMENÁ Homogenita vzorku má vliv na velikost chyby. Čím nerovnoměrnější je distribuce ve vzorku, tím menší bude chyba a tím užší bude Interval spolehlivosti. Kdyby na příklad v populaci bylo 90% zelených kuliček a velikost vzorku by byla 100, vypočítaný konlidenční Interval by byl ± 6%. Kdyby ve stejně velkém vzorku byl stejný počet zelených jako červených kuliček, konlidenční Interval by byl mnohem širší: ± 10% Směrodatná chyba má jednu pozoruhodnou vlastnost: do intervalu vymezeného ±1 standardní chybou od hodnoty pozorované ve vzorku připadne správná hodnota, existující v populaci, přibližné v 68 případech ze sta. Tak bychom dostali interval spolehlivosti na 68 % hladinč významnosti. To ovšem není zdaleka dost vysoká pravděpodobnost. Abychom vypočítali interval spolehlivosti na úrovni, jaká je vyžadována v našem oboru, musíme přičíst n odečíst smčrodatnou chybu dvakrát. Jinými slovy: interval spolehlivosti na 95% liladinž významnosti je dán rozmezím * 2 směrodníné chyby od hodnoty, naměřené vc vzorku, Rozmezí ±3 smčrodalnč chyby nám definuje jeStč mnohem striktnější interval na hladinč 99.9%. Ten je užíván zejména v přírodních védách. A teď už víme dost, abychom mohli představit další, opravdu překvapivou vlastnost náhodného výbčru: Velikost směrodatné chyby, a tedy i konlidenční interval (interval spolehlivosti) nezávisí vůbec na velikosti populace. 100 101 Jedině velikost vzorku ;i jeho homogenity ovlivňují velikost chyby. Dr.Watson; Počkejte, počkejte! Chcete mi namluvit, ie řekněme vzorek 300 respondenti vykáže stejnou chybu, když reprezentuje populaci továrny s 800 dělníky, jako stejně velký vzorek, který reprezentuje město s 50.000 obyvatel, nebo dokonce zemi s 200,000,000 občanň? Já lomu prostě nevěřím! Neuvěřitelné, a prcce jc to pravda, pokud ovšem distribuce zkoumané proměnné je ve všech těch populacích stejné homogenní. A pokud mi ještě nevěříte, podívejte se znovu na popis výpočtu směrodatné chyby. Najdete tam zmíněnou proporci zelených a červených kuliček, velikost vzorku a to je vše. Ani zmínka o populaci. To, co víme, by ním mohlo dát dostatečnou informaci, abychom mohli nnvrltnoiit velikost vzorku, jakou potřebujeme vzhledem k velikosli eliyby, jakou jsme ochotni riskovat. V praxi to však není snadné: pro výpočet směrodatné chyby potrebujeme znát homogenitu populace vzhledem k našim proměnným, rozptyl těchto proměnných. Většinou tuto znalost nemáme. Existují sice techniky, které ním umožní tuto informaci odhadnout, ale tyto techniky jsou budto nákladné nebo nepřesné. A tak v tvrdé praxi denního života výzkumníka spoléháme na zkušenost a na zdravý rozum. Můžeme se třeba zamyslit nad tím, které kombinace proměnných jsou pro nás nejdůležitější. Představíme si kolik polí bude mít tabulka (nebo tabulky) a navrhneme, kolik pozorování musí každé pole v těchto tabulkách obsahovat - prázdná pole, nebo pole s málo pozorováními mohou podstatně zkreslit výsledky statistické analýzy. Zaměřme se raději na dost vysoké minimum; někdy navrhovaný průměr 10 pozorování najedno pole tabulek může být nezdravě optimistický. Data ve skutečnosti nebudou do všech polí rozdělena rovnoměrně; některá pole budou přeplněna a jiná téměř prázdná. Nadto v každém výzkumu máme mnoho proměnných, s různým poetem kategorií, někdy nevíme předem, které kombinace proměnných přinesou nějaké zajímavé výsledky, a tak si zaslouží hlubší analýzy atd. Zkrátka, teoretizovaní o velikosti vzorku patří spiše na stránky učebnic než do praxe sociologického výzkumu. Tam aplikujeme následující, velice nevědecké, ale velice praktické pravidlo: Snažme se vytvořit 102 vi » fimmční podmínky dovolují; ne však za cenu co největš! vzorek, jaký nám naše rasové ,. -VI,ného nM P,a„aC, —no výběr, Doba ,o sp„,ehlivos,i přichází v praxi teprve v etapě stausueké......Iy,y «1 velice dňležité. A teď ještě jedno důležité varování; "^smérodatné chyby ^^^ZSZ^^ «** vzorkem a populací. Neyztahu|e se^"JJ™,^ pro n4s většinou mnohem Ám ve,ikost S.3. Jak správne házet korunou Dr. Watson: ., , M ul vidím, U náhodný ^J^JffJb&iZS. Vždycky j*m chtěl vedet, co "J***"^' rohm,r. Od pondělí osoby... Pokud náš pošetilý přítel doufá, že jeho výsledky budou reprezentovat mínění pražské populace, je ještě mnohem pošetilejší, než jsme si mysleli. Víme přece, že při náhodném výběru každý Sien populace musí mít stejnou pravděpodobnost, že bude vybrán. Wnlsonúv vzorek by byl silně zkreslený. Cvičení S.3. Navrhněte prosím, j/tk by se Wntsonův vzorek liíil od prtiiiké populace. Tedy jasně vidíme, žo tento vzorek by snad mohl být reprezentativní pro populaci definovanou asi takto: osoby, které se nacházejí na Václaváku ve všední den dopoledne, v dané roční době. Pro nějaké speciální účely by mohla být taková populace zajímavá: kupř. 103 pro plánování obchodních strategií pro obchody nu Václaváku, rozhodni; však ne pro problémy spojeno s politickou oricnincí obyvatel. Ale i lak by byla náhodnost, ii ledy i reprezentativnost takového výbčru problematická. Dr. Wiuson, protože je v podstato konzervativní, by se mohl ostýchal oslovil méně konvenčně oblečená osoby. Kdyby takový výber prováděl mfij syn, půvabné mladé ženy by byly ve vzorku píereprezcntovány. Kdybych prováděl výběr já, pak by byly podrcprezfiniovány, protože jsem stydlivý. Ono se vůbec zdi, že lidská mysl není schopna pracovat opravdu náhodně. Můžeme si to dost snadno vyzkoušet. Požádejte vetší skupinu lidí - treba (řfdu studentu - aby každý napsal na kousek papíru jakékoliv číslo mezi 1 a 10. Bez dlouhého promýšlení musí napsat 10, co jím přijde na mysl. Je-li skupina dost velká, je vysoká pravděpodobnost, že Číslo 7 bude mít daleko nejvyššf frekvenci. Proč, to nevím, a předem můžete zavrhnout teorii vlivu sedmy v naší mariášnické kultuře; v Kanade to funguje také, a jak! Snad to má něco dělat s tradiční mystikou čísel, ale v každém případě to krásné dokumentuje, že náš mozek je velice Spalným generátorům náhodnosti. Musíme jej nahradil něčím neosobním. Hodit si korunou? Zatřepat krabicí? Pomůcky, které v praxi při výberu náhodného vzorku používáme, skutečné imitují lakové mechanismy. Mohli bychom třeba napsat jména všech členů populace na papírky, dát do klobouku, kloboukem pořádné zatřepat a pak poslepu vytáhnout tolik papírku, kolik osob potřebujeme do vzorku. Ovšem vělšinou by to musel být pžkné velký klobouk a v každém případe je to dost nepohodlný postup. Můžeme jej však dobře imitovat. Prosté jednotlivce v seznamu populace očíslujeme a pak použijeme "nčco" co produkuje náhodná čísla a vybíráme ty jedince, jejichž číslo se s témi náhodnými shoduje. Říká se tomu prostý náhodný výběr Jednoduchá však v tom není generace tčch náhodných čísel. Kdysi se k lomu užívala taková podivná "kosíka", mnohohrnn s deseti stejnými plochami, na každé z nich byla jedna z číslic od 0 do 9. Prý bylo oblížné vyrobit lakovou "kostku", aby byla "poctivá", to je aby každá číslice měla stejnou pravděpodobnost, že "padne". Ještě do nedávím jsme používali tabulky náhodných čísel, dost tlusté knihy Číselných skupin, o nichž nám maiemiitici řekli, že v nich za takových a lakových okolností nebyli schopni objevit žádnou pravidelnost. Dodnes jsou výtahy z lěchto tabulek přetiskovány (éméř v každé učebnici výzkumných metod. Jejich 104 správné používání rozhodně není nejzábavnější kratochvíle, ale někdy nám prosté nezbude nic jiného. Naštěstí dnes každá lepší kalkulačka a ovšem každý, i nejmenšf osobní počílač umí produkovat náhodná (matematik by řekl "quasi-náhodná") čísla. Tenhle přístup má velikou výhodu: program produkuje náhodná čísla jenom v tom rozsahu, v jakém je potřebujeme. Řekneme počítači, jak je velká populace, ifcba 300 a program pro nás vyprodukuje náhodná čísla jenom v rozsahu od 1 do 300. Tabulky náhodných čísel jsou nejméně pélicifemé. Pro naši velikost populace použijeme ovšem jen první nebo poslední tři sloupce číslic, ale i tuk sedm 7, doseti nalezených nebudeme s to použít. Kalkulačka nebo počítač jsou mnohem efekiivnčjší, a když si s lim nevíte rady, obratle sc na sousedova syna. a pokud by neměl lakový program, většina těch chytrých holek a kluků, kteří vlastní třeba i ten nejmenšf Sinclair, je schopna napsat takový program v Basicu z.a několik minul. Dr. Wtitsoiv. lir*:»„«**■ -* -~~ -• * technika náhodného výběru. Systematický výběr: V systematickém vyberu je do - f —a ^ N,á jednot^eae.namu. Velikost kroku (N) ^"P,^ byl vybrán náhodně 105 Terno postup vlak nemůžeme použít, kdy? jsou seznamy řazeny podle nějakého systematického schématu. NaSe pohádka ilustruje néco, co se v praxi opravdu stává. Pohádka pro odrostlejší (ižli 10. O výběru, který byl příliš systematický Bylo, nebylo, kdesi existovalo malé království, které se Jmenovalo Org. Bylo to království, kde všechno bylo velice ilobřc /organizováno, a presto byl každý Slastný a spokojený. Každý, až na vojáky základní služby. Ti si stéžovali na plat, na stravu, na zacházení od predstavených, na vSechno. a protože vše bylo dobře zorganizováno, vláda pozvala zahraničního odborníka, profesora P.l. Tomu, aby provedl výzkum postojů v armádč. P.l, Torna přijel, zkonstruoval výborný dotazník a vyzkoušel jeho validitu, Protože to království bylo tak malé, že se tam ani počítač nevciíel íi místní knihovny nemilý tabulku náhodných čísel, rozhodl sc použít pro konstrukci vzorku techniku systematického výbčru. Armáda toho malého království byla laky malá, důstojníci, poddůstojníci I mužstvo dohromady jen 12.000 osob. Profesor P.l. Torna odhadl, žc vzorek 200 osob mu poskytne přijatelný interval spolehlivosti a zvolil tedy krok 60, Náhodné vybral prvého jedince. Byla to osoba Č. 31 a pak vybíral každého dalšího Šedesátého vojáka. Výsledky výzkumu byly prosté náramné. Ježte nikdo nikde nezkoumal tak spokojenou armádu. Každý byl Slastný v tom malém slastném království - až do příštího jara, kdy začalo krvavé povstání vojáků základní služby. Ale vy už víte. co se stalo: Prosté, v království Org väe bylo dobře organizováno. I seznamy členů armády byly uspořádány po četách, v každé čelé nejdříve dva důstojníci, pak tři poddůstojníci, pak mužstvo základní služby a každá četa mela ne více, nc ménS než 30 osob. a nás profesor mél smůlu, protože zvolený krok se shodoval přesné nejen s dvojnásobkem velikostí čety, ale také proto, Že první náhodní vybraná osoba byl důstojník u ledy každá následující osoba musela být také důstojník. Poddůstojníci a vojáci základní služby nebyli zahrnuti do vzorku vůbec. Nemysleme si, že takové zkreslení patří jen do absurdního sveta pošetilých pohádek. Mnohé zc seznamu populací jsou systematicky uspořádány, kupí. žáci Skol podle tříd. délníei podle dílen itld. Nikdy systém, podle kterého je seznam organizován, nemusí být na prvý pohled zřejmý. Kupř. byty na sídlištích ve velkých obytných budovách bývají identifikovány třícifernými Čísly. Prvá číslice definuje podlaží, druhé dví byt na podlaží. Protože půdorys se na každém podlaží opakuje, byty se stejnými posledními číslicemi budou mít obdobné vlastnosti, budou třeba větší či menší než byly ostatní, a to by opél při systemalickém výbčru mohlo produkovat zkreslení. Podívejme se led na jiný typ náhodného výberu, která by býval mohl zachránil profesora P.l. Tomu před zmíněnou blamáží: 106 Náhodný stratifikovoný výběr; Populace jo rozdělena do skupin homogenních vzhledem k nějakému jasnému kritériu a jedinci |sou vybíráni do vzorku náhodné z téchto skupin. Profesor Torna mél začít s třemi seznamy: se seznamem populace důstojníků, s jiným, zahrnujícím jen poddůstojníky, a koneční se seznamem vojáků základní služby. Z každé populace by pak byl vybrán náhodný vzorek, třeba technikou systematického výberu, a v našem malém království by k povstání třeba nedoSlo. Ve skutečném svčtč, například při výzkumu studentů určité Školy, bychom vybírali Jedince zvtást pro každý ročník. Při jiných výzkumech by populace mohla být stratlfikovánn podle volebních obvodů, při výzkumu znméstnancň továrny by mohl hýt výbér provádčn zvláSÍ mezi diblíky a zvlíííf pro administrativu. Strailflkovaný náhodný výbér má ještfi jednu dodatečnou výhodu: snižuje velikost smétodatné chyby, a tedy i interval spolehlivosti. Třeba si jeäto. pamatujete, že chyba klesá s rostoucí velikost/ vzorku a s přirůstající homogcnnoslí populace. Logika toho je zřejmá: když v populaci Je pro kandidáta A 989ii voličů a pro kandidáta B jen 21'«, pfedpovídfit, kdo vyhraje volby, je mnohem snadnéjSÍ, než kdyby prerercnec byle ifeha 55% pro A a 45% pro B. Ve slratilikovaném výličrti jsou vzorky podskupin zcela homogenní vzhledem k pramenné, podle které byly slratiílkovány; ve skupine jsou jenom vojáci základní služby, nebo jenom posluchači druhého ročníku ald. Pro stralilikační proménitou je tedy sntčrodainá chyba nulová a pro všechny jiné proméimé, které jsou s touto proménnon asociovány, bude talo chyba podstatné mcnSÍ. A teti se podíváme na velmi zvláštní typ výbčru, na vícestupňový náhodný výbér. Je to technika velice pracná, náročná a drahá, ale, jak hned uvidíme, velice důležitá a nenahraditelná, Vícestupňový náhodný výběr se provádí ve dvou nebo více krocích. Nejdříve jsou náhodně vybrána určitá přirozená seskupení, a pak teprve jsou náhodně vybíráni jedinci z oněch vybraných seskupení. K čemu je to dobré? Pro ilustraci jednoho aspektu vás pozvu na výlet na jiný kontinent. Představte si, žc bychom meli délat výzkum na náhodném vzorku reprezentujícím dospelé obyvatelstvo Kanady. Kanada má néco přes dvacet milionu obyvatel, ale její plocha jo lémčF 107 iO.íXXí.OOO ihvorecnýcli kilometrů. RcknCme, že velikost vzorku by byla (.000 jedinca, a tak bychom teoreticky měli jednoho respondenta na deset tisíc čtverečných kilometru. V,: skutečnosti by to bylo mnohem méně, obrovské rozlohy země jsou prázdné. Ale i tak jsou rozměry země obrovské a takové by byly i náklady. Při dané velikosti vzorku bychom míli nejmenší potíže .v nejlidnalějšími provinciemi. V Quebec-ku bychom melt asi 290 respondentu, v Ontariu přibližné 350. Ale v Northwest Territories jednoho, nebo dva a (i by nás přišli píkně draho. Pokud bychom neměli velké šlčstí, museli bychom, abychom je zastihli, najmout hydroplán, helikoptéru nebo psí spřežení. Ale i v tiojlidnatéjších provinciích, u nebo i v prostorově malé zemi s tak vysokou hustotou obyvatelstva jako má Československo, rozptyl populace v prostoru podstatné zvyšuje náklady a nesmírné ztěžuje organizaci výzkumů, (Kupř. tazatelské týmy .jsou organizovány a školeny lokálni; to snižuje cestovní náklady, Ale jo jen omezený počet terénních center, které jsme schopni organizovat íi financovat.) Tady je právě oblast uplatnení vícestupňového náhodného výběru. Můžeme postupovat třeba takto: 1. 2. 3. Nejdříve vybereme náhodně reprezentativní soubor okresů. Pak v každém z vybraných okresů provedeme náhodný výběr obcí. Ve velkých vybraných obcích zařadíme ještě další mezistupeň vyberte vybereme náhodně menší prostorové Jednotky, třeba volební obvody vyDcrerne Tepive pak vybíráme jedince. Tímto způsobem obdržíme mnohem kompaktnější vzorek. Respondenti nejsou rozptýleni po celém teritoriu, aio jsou koncentrováni do zvládnutelného počtu regionů, Je-li lakový výbčr proveden správně, žádné závažné zkreslení reprezentativnosti nehrozí. Nicméně existuje ješlě jedna, dokonce důležitější doména použití tolioto výberu, Ncjvětším problémem pro použití pravděpodobnostního výběru v sociologii je fakt, že pro mnoho zajímavých populací žádný seznam neexistuje. Pro mnoho těchto situací je vícestupňový náhodný výbčr jediným řešením. Řekneme, že bychom chtěli vytvořit pravděpodobnostní vzorek celé země a žádné spolehlivé seznamy obyvatelstva bud neexistují, nebo nejsou výzkumníkovi dostupné. To je mimochodem situace ve většině zemí světa. Postup by byl shodný v prvých třech krocích s předchozí tabulkou, ale pak by následovaly dva další, logicky jednoduché, ale pracovně náročné kroky: 108 Vs vybraných malých obcích, nebo městských obvodech, je proveden soupis všedi sídelních jednotek (bytů, rodinných domků). Pak je vytvořen náhodný vzorek těchto jednotek. Je vytvořen seznam osob žijících ve vybraných jednotkách a pak jsou opět náhodně vybráni jedinci (nebo obvykle jedinec) do vzorku. Nejiiáročnější jo ovšem krok č.4. Představuje obsáhlou práci jak v přípravě, tak i v turínu; záznamy se obvykle opoždují za skutečností, nemusí rozlišovat mezi jednotkami, které jsou obydleny a těmi, které jsou používány pro jiné účely aul. Poslední krok je obvykle prováděn tazatelem přímo v terénu. Náhodnost musí být zaručena i při tomto kroku. Záznamový arch pro interview obsahuje instrukci, v jakém pořadí mají být členové domácnosti zaznamenáváni, a náhodně generované pořadové číslo osoby, která má hýl imcrvíewována. Bez takové instrukce by tazatel vybral osobu, která je právě dosažitelná, aby se tak vyhnul nutnosti další návštěvy, nebo osobu, která je mu sympatická. Tak by byly kupí, podreprezentovány osoby, které híhom dne pracují mimo dům. Někdy aplikace vícestupňového výběru nemusí být obtížná a je přitom velice užitočná. Chtěli bychom třeba studovat na celostátním vzorku mfnční studentů dvou najvyšších ročníků střední školy. Ústřední .seznam středoškolských studentu asi neexistuje, ale existuje seznam všech středních škol a každá školit má seznam žáků, sestavený pravděpodobně podle ročníků. Výlsčr by mohl být prováděn třeba takto: Náhodně by byly vybrány okresy, pak vzorek škol v těchto okresech a jedinci do vzorku by byli náhodně vylítáni ze seznamu žáků posledních dvou ročníků. Před časem jsme zkoumali postoje starších osob k možnosti vstoupit do institucí pro staré občany (Disman & Disman. 19X9). Naším cílem bylo sledoval vliv etnické kultury nit tyto postoje; porovnávali jsme postoje Portugalců a Italů žijících v Torontu, ve věku 65 neho starších, s postoji stejně starých Kanaďanu, jejichž mateřským jazykem je angličtina. Vytvoření vzorku nebylo snadné. Osoby starší než 65 let představují 11 % lorontské populace, z těchto starších osob je jen 5% Italů a \% Portugalců. ( To znamená, že Portugalci ve věku 65 a více představují asi 0.11% z torontské populace.) Kdybychom tedy chtěli interviewovat 109 100 Haiti a IW) Portugalců, museli bychom kontaktovat asi IfKMKK/ domácností, a to je evSrm nemožní- přinejmenším /. finančních díivodii. Naštěstí jsme měli k dispozici seznamy osob pi,> daňové účely a tylo seznamy zahrmip' prakticky všechny dospělé občany. Nadto iyu» seznamy zahrnovaly také informaci o víku. Tato inforiiiace podstatné zúžila velikost vzorku pm vyhledávací fázi výzkumu. Ale i lak, abychom vyhledali vzorek 100 portugalských respondentu, museli bychom kontaktovú; asi lO.(XK) domácností a i to by bylo nemožné. Zůstala pro nás tedy otevřena jediná možnost: kontaktovat osohy ze seznamu, jejichž jména znojí italsky nebo portugalsky. Jisté, tato metoda má některé nevýhody. Kupí', portugalské jméno může mít britská manželka portugalského manžela, ale lyto případy byly vyloučeny v předběžném rozhovoru. Do vzorku nebyly zahrnuty osoby s etnicky netypickými jmény, italské, nebo portugalské manželky muži! jiného etnického původu atd. Nieméné toto zkreslení - zejména vzhledem k silné tendenci obou národnostních skupin uzavírat sňatek uvnitř etnické skupiny (emlogamy) nebylo příliš vážné. Ale i tak - zejména vzhledem k úmrtnosti mezi staršími osobami, vinou nepřesnosti záznamu, a vzhledem ke značné horizontální mobilite -bylo nutno kontaktovat f>52 portugalských adres, s výtěžkem lfil jmen respondenti!, odpovídajících naší definici populace. V tomto případě jméno jako kritérium pro výběr - doorejme. - nezpůsobilo vážné zkreslení. Ale nemusí tomu tak být vždycky. Mezí americkými sociology koluje, hezká historka, kterou uvedeme v naší pohádce 2.11. 1 Vijií dk u j^;í} O zrádném písmenu Bylo píed uifstníitii volbami v jednom velkém méslř na východním pobřeží U.S.A. a skupina politiků si objednala výzkum, píedpovéd" výsledků voleb. V té (lohč melo mésto dobrý seznam voličů řazený abecedné. Kartotéky zaplňovaly nčkolik místností. IVo konstrukci vzorku byla použita technika vícestupňového náhodilého výběru. Nejdříve byla vybrána nabodne místnost, pak karuiiéčnf skříň a ze zásuvek této skříní byli vybráni technikou systematického výběru jedinci do vzorku. Výzkum skončil neslavné: jako vítěze, vyhlásil kandidáta, který skončil daleko vzadu v ]>»li poražených, Prošlé výzkumník se dopustil omytu, ale zejména měl smůlu. Náhodní- vybral začátek písmena M, a tak se stalo, že voliči irského a skotského původu, jejichž jména velice, často zatínají na Mae a Mc, byli silně přereprezentováni. Hlasování ve volbách v USA a Kanadě velmi časio sleduje etnickou linii. Není proio divu, že výzkum mylně předzvěděl vítězství irského kandidáta. Tomuto zkreslení bylo snadné zabránil, kdyby byl stejný počet voličů vybrán z více ksnotéčnícb skříní. Je ale také pravda, že kdyby bylo vybráno jiné písmeno, ke zkreslení by asi nedoSln. S.4. Když koruna nepracuje Zatím jsme viděli členy dvou rodin výběrových technik. Nejdůleř.itčjší jsou pravděpodobnostní techniky, založené na náhodném výběru. Jsou velice mocné, zajišíttjí, že budou dobře reprezentovány všechny známé i neznámé vlastnosti populace. Nadto.jen u nich jsme schopni prostředky statistiky odhadnout, nakolik se vzorek liší od populace. Bohužel, zdaleka nc vždy jsme schopni lyto techniky použil. Nňkdy třeba proto, že pracnost a nákladnost těchto technik přesahuje rámec našich možností. Jindy proto, že. neexistuje žádný seznáni cílové populace. Najčastejší překážkou je však kombinace obou lěchio dňvodii. Speciální populace, o kterou se zajímáme, může být rozptýlena mezi celou populací a mít velice nízkou frekvenci. Teoreticky by bylo jistě možné vytvořil veliký vzorek celé populace a pak, po předběžných rozhovorech, vybral jen ty jedince, kteří odpovídají definici naší cílové, populace. Jak jsme Si ilustrovali na příkladu výběru starých Portugalca, z hlediska nákladů by lo bylo prosté nemožné. My jsme měli štěstí, byli jsme schopni zimprovizoval seznam populace, ale to se stává spíše výjimečně. 110 Jako prvou techniku tvorby vzorku jsme v této kapitole diskutovali kvrttnt výběr. Reprezentuje druhou skupinu výberových technik, které nejsou založeny na teorii pravděpodobnosti, ale na logickém úsudku. Kvótnf výher jc pravdepodobne nojspolchlivejší mezi těmito technikami, 111 a,e0p8,"C v%i« možno jej „oužft. Může ^>«l»li! potřebuji ve vzorku 300 jedinců, prošle rozešlu 900 domvuUl a lak dosumu vzorek i větší, než skutečně potřebuji. Jislě už víte, proč by tento rccept nefungoval: populace, která odpověděla, není totožná s tou, která odmítla odpovědět. Liší se v něčem, co bylo důvodem pro toto rozhodnutí, a pravděpodobně ono "něco" jc silně spojeno s problémy, na kleré je výzkum zaměřen. Obvykle jsme o těchto důvodech schopni jenom spekulovat. Obávám se, že tu musím uvést nový typ nepříjemné redukce informací: 114 115 Redukce negativním samovýběrem vzniká lehdy, když část jedinců, vybraných do vzorku, odmítla na výzkumu participovat. Tento typ redukce může vážnč ohrozit reprezentativnost vzorku, Toto je víižný problém. Tak vážný, že před nčkolika lety byl ústředním tématem výročního zasedání Americké statistické společnosti. Vidíte, na začátku této kapitoly jsme si pochvalovali, že redukce populace na vzorek je logicky, technicky a metodologicky dobře propracovanou operací, kde riziko zkreslení je menší, než v jiných výzkumných operacích. Je to stále pravda, ale přece i zde máme zranitelné místo. Neznáme žádný univerzální lék na tento neduh. Jediné řešení je usiloval o co nejvySší návratnost. U nčkterých technik sběru informací je to snadnější, u některých je to lémeř nemožné. Ale tohle už patří do příští kapitoly. Řešení úkolů z kapitoly 5. Cvičeni 5.1. vzorku opravdu vyloučeni. Cvičení 5.2. Tohle nebyla podiva otázka. Květní ví«W- S^Affi^TS (St ^s^^^—- —s by to nebylo'dost pro konstrukci květního vzotku. 116 117