Úloha „vězňovo dilema“ Dva zadržení zločinci Modrý a Červený jsou (každý zvlášť) vyslýcháni policií. Pokud nikdo z nich nevypovídá, budou odsouzeni k 1 roku vězení. Pokud na sebe vzájemně prozradí další zločiny, budou odsouzeni k 2 rokům vězení. Pokud jeden vypovídá a druhý ne, je vypovídající zločinec ihned propuštěn, zatímco druhý odsouzen ke 3 letům vězení. Podobné „hry“ Dvojice výrobců — výrobci si stanoví vysokou nebo nízkou cenu výrobku. V případě stejných cen zákazníci kupují výrobky obou firem rovným dílem, jinak dávají přednost levnějšímu výrobku. Zisky výrobců jsou dány tabulkou: vysoká cena nízká cena vysoká cena 2 / 2 0 / 3 nízká cena 3 / 0 1 / 1 Výhry odpovídají ušetřeným rokům ve vězňově dilematu, spolupráce = vysoká cena, zrada = nízká cena. Doping — dopovat = zrada, nedopovat = spolupráce. Pokud jeden sportovec dopuje, má výhodu oproti čistému. Pokud dopují oba, nikdo nemá výhodu, ale oba platí zničeným zdravím. Mezinárodní politika (clo, sankce, zbrojení), trestní právo (společnost vs. odsouzený), znečišťování ovzduší, . . . Strategie a situace Každý z hráčů volí ze dvou možností: Spolupráce (s komplicem, ne s policií!) = nevypovídat. Zrada = vypovídat. Tresty lze přehledně vyjádřit pomocí výplatní matice (tabulky): spolupráce (S) zrada (Z) spolupráce (S) −1 / −1 −3 / 0 zrada (Z) 0 / −3 −2 / −2 Praktičtější je počítat s „ušetřenými“ roky, tj. 2, 0, 3, resp. 1. Kombinací 2 × 2 možností tedy mohou nastat 4 situace: SS, SZ, ZS, ZZ. Co je rozumné? Žádný z hráčů (vězňů) nemůže ovlivnit rozhodnutí soupeře (komplice). Pokud soupeř spolupracuje, vyplácí se mi zradit — 3 roky na svobodě jsou víc než 2 roky. Pokud soupeř zradí, vyplácí se mi také zradit — 1 rok je víc než 0 roků. Takto uvažuje Modrý i Červený a logicky by tedy měli oba zradit. Přitom situace spolupráce–spolupráce by byla pro oba hráče výhodnější. Opakovaná hra Hrají-li stejní dva hráči dlouhodobě, mohou se uplatnit koncepty podmíněné spolupráce, pomsty, odpuštění, atp. Strategiemi jsou vzorce chování reagující na průběh předchozích kol. Umění přimět soupeře spolupracovat přináší větší užitek než „loupež“ 1 bodu zradou. Opakovaná hra je mnohem zajímavější a její řešení může být hodně těžké, ne-li nemožné. Matematický model předpokládá nekonečné opakování stejné hry. To je sice nereálné, ale lze to lépe počítat. I zjednodušený model může pomoci odhalit obecné zákonitosti. Využití v biologii — studium evoluce altruismu. Návod na řešení konfliktů. Cnosti a neřesti „Jednopaměťové“ strategie reagují jen na situaci z předchozího kola, nic dalšího si nepamatují. Následující tah pro stejnou situaci volí vždy stejně. Podle toho, zda se jedná o spolupráci nebo o zradu, můžeme hovořit o „charakterových vlastnostech“ dané strategie. milost S ← SS → Z podlost velkorysost S ← SZ → Z pomstychtivost odpuštění S ← ZS → Z zatvrzelost smířlivost S ← ZZ → Z opatrnost Kódování strategií „Hodné“ vlastnosti kódujme jedničkou, „zlé“ vlastnosti nulou. Např. 0011 značí strategii, která je podlá, pomstychtivá, odpouštějící a smířlivá. Místo nuly a jedničky můžeme uvažovat i jakoukoli další hodnotu mezi nimi. Interpretujeme ji jako pravděpodobnost, že strategie bude hrát spolupráci (1 = určitě spolupracuje, 0 = spolupráce vyloučena). Získáváme tak další spoustu strategií, říká se jim smíšené. Původní (nulo-jedničkové) strategie se nazývají čisté. Smíšené strategie jsou „kříženci“ čistých strate- gií. Pes Pes je milý, pomstychtivý, zatvrzelý a smířlivý. Kóduje se jako 1001 a funguje následovně: Pokud se psem spolupracujete, opakuje svůj předchozí tah. Pokud psa zradíte, zkusí vás přimět ke spolupráci změnou svého předchozího tahu na opačnou akci. Chování strategie připomíná podmíněné reflexy u zvířat (slavné Pavlovovy pokusy — odtud název). Oko (za oko) Oko je milé, pomstychtivé, odpouštějící a opatrné. Kóduje se jako 1010. Oko opakuje váš předchozí tah a oplácí vám tak stejnou mincí. Také se mu říká půjčka za oplátku. Jestřáb Jestřáb je podlý, pomstychtivý, zatvrzelý a opatrný. Kóduje se jako 0000. Jestřáb zásadně zrazuje a je mu jedno, co děláte vy. Nemusí si tedy ani nic pamatovat a vlastně je to „nulapaměťová“ strategie. Hrdlička Hrdlička je milá, velkorysá, odpouštějící a smířlivá. Její kód je 1111. Hrdlička zásadně spolupracuje. Je dokonalým opakem jestřába a tedy si také nic nepamatuje. (Poznámka pro znalce: Jestřáb a hrdlička jsou zapůjčeni z jiné hry, ale i tam jednají podobně.) Sršeň Sršeň je milý, pomstychtivý, zatvrzelý a opatrný. Jeho kód je 1000. Sršeň je schopen spolupráce, ale po jediné zradě už neodpouští. Nedrážděte sršně! Šlechetné oko Šlechetné oko je milé a odpouštějící. V situacích SZ a ZZ si hodí korunou a hraje spolupráci s 50% pravděpodobností. Je tedy napůl velkorysé, napůl pomstychtivé a stejně tak napůl smířlivé a napůl opatrné. Jeho kód je 11 211 2. Šlechetné oko hraje podobně jako obyčejné oko, ale přehlíží polovinu vašich poklesků. Je příkladem smíšené strategie (kříženec oka a hrdličky.) Hra se šumem Zatím jsme neřešili úvodní tah hráčů. Rozhodnutí, zda v prvním kole spolupracujeme nebo zradíme, může mít naprosto zásadní vliv na výsledek (viz následující souboje). Správně bychom ho měli zahrnout do modelu jako další charakterovou vlastnost. Jiná možnost je předpokládat chybování hráčů, hovoříme pak o hře se šumem. Pokud předpokládáme chybu třeba e = 0, 001, znamená to, že hráč nemůže volit z celého intervalu [0; 1], ale jen z [0, 001; 0, 999] — průměrně jednou za tisíc kol se „splete“, čímž se odchýlí od „ideálních“ hodnot 0 či 1. Např. zašuměná varianta oka pro e = 0, 001 by se kódovala jako 0, 999 0, 001 0, 999 0, 001. Šum se obvykle volí malý. I když se s hodnotou šumu přiblížíme blízko nule, hra má stále podstatně jiný charakter než hra bez šumu. Výhody šumu Realističtější model (nikdo není dokonalý). Strategie se prověří ve všech herních dovednostech. Díky nenulovým pravděpodobnostem se hra určitě někdy dostane do každé ze situací SS, SZ, ZS, ZZ. Zastoupení situací SS, SZ, ZS, ZZ se blíží stabilnímu poměru. Nezáleží na tom, jak hra začala. Pro čisté strategie sice už nemáme jednoduchý odhad výher, ale výpočet pro smíšené strategie je kupodivu jednodušší než u hry bez šumu (nehrozí dělení nulou, stabilní řešení, atd.). Souboj oka proti oku Dokud žádný z hráčů neudělá „chybu“, hra probíhá podle některého ze scénářů: vzájemná spolupráce SS-SS-SS-SS-. . . , boj ZZ-ZZ-ZZ-ZZ-. . . , oplácení SZ-ZS-SZ-ZS-. . . . Poté se „přepne“ do jiného scénáře. Teorie předpovídá, jak často se scénáře uplatňují (viz příklad dole). Nástin výpočtu očekávané průměrné výhry Výplatní vektor pro situace SS, SZ, ZS, ZZ je (2; 0; 3; 1) (ušetřené roky na svobodě). Potřebujeme zjistit pravděpodobnosti, s jakými se situace v průběhu hry vyskytují — tzv. stacionární vektor Markovova řetězce (VŠ učivo). Očekávanou výhru určíme jako průměr výplat vážený pravděpodobnostmi situací. Př. V souboji oka proti oku dostáváme všechny čtyři pravděpodobnosti stejné, tedy 25% (bez ohledu na velikost šumu). CC 0, 25 · 2 = 0, 5 CD 0, 25 · 0 = 0 DC 0, 25 · 3 = 0, 75 DD 0, 25 · 1 = 0, 25 1, 5 Souboj psa proti psu Další souboje Komentáře Oči jsou náchylné k dlouhým obdobím vzájemné pomsty, což snižuje jejich průměrnou výhru na 1, 5. Oko se psem si také moc dobře nerozumí. Psům se ve vzájemném souboji daří rychle obnovit období vzájemné spolupráce. Výhra je skoro 2. (Přesněji, kvůli šumu je to „jen“ zhruba 2 − 3e.) Proti jestřábovi nelze uhrát lepší skóre než 1. To dokáže například oko. Pes si vede naivně, pořád se zkouší usmířit a uhraje jen aritmetický průměr z 0 a 1, tedy 0, 5. Hrdlička si vede dobře se sebou i s okem, ale je snadnou kořistí jestřába i psa. Nevýhody oka částečně řeší šlechetné oko. Dokáže snáze obnovit vzájemnou spolupráci, ale za dobrotu platí horšími výsledky s „darebáckými“ strategiemi, zejména jestřábem. Řešení hry Snažíme se odpovědět na otázky: Pokud vím, co je soupeř zač, jakou mám zvolit strategii? (Nejlepší odpověď — předmět naší aktivity.) Jak vypadají situace, kdy žádný z hráčů už nemá jak vylepšit svoji výhru? (Nashova rovnováha.) Pokud jsou úspěšné strategie odměňovány větším přírůstkem potomstva, jak se vyvíjejí populace strategií? (Evoluční modelování.) Turnaje hrdlička jestřáb oko pes součet hrdlička 1111 1, 5 0 2 1 4, 5 jestřáb 0000 3 1 1 2, 5 7, 5 oko 1010 2 1 1, 5 1, 5 6 pes 1001 2, 5 0, 5 1, 5 2 6, 5 (Šum předpokládáme, ale pro jednoduchost zanedbáváme.) Celkovou úspěšnost strategií můžeme zjišťovat pořádáním turnajů. Výsledky nejsou moc objektivní — závisejí na přihlášených strategiích (a jejich poměrném zastoupení). Typický scénář vývoje jednodruhové populace Sršeň si vede úspěšněji než jestřáb a evolučně ho vytlačí. Následně je nahrazen ještě úspěšnějším okem. Oko kvůli problémům s pomalým usmiřováním postupně „měkne“ přes šlechetné oko na hrdličku. Ta je ovšem snadnou kořistí jestřába a cyklus se vrací na začátek. Sršeň se také může vyvinout do psa, ale ten rovnou podléhá jestřábovi. Simulovaná evoluce K odhadu vývoje populace se využívají počítačové simulace. Úspěšné strategie jsou odměňovány větším přírůstkem v další generaci. Evoluce je „živena“ přidáváním náhodných mu- tantů. V pokusech se často nejlépe daří psům a šlechetným očím. Ve vícedruhových populacích fungují darebácké strategie jako očkování proti nebezpečné změkčilosti. Ekologická rovnováha je mnohem stabilnější než u jednodruhové populace. Evoluční stabilita V populaci x jestřábů a y očí si vždy povedou lépe oči: jestřáb oko součet jestřáb 1 1 x + y oko 1 1, 5 x + 1, 5y Nájezd jestřábů do populace očí nikdy nebude úspěšný. Naopak jestřábi nejsou odolní ani proti malému množství očí. Prostor strategií Naše strategie jsou určeny čtyřmi vlast- nostmi/parametry. Lze je vynášet jako body ve čtyřrozměrné jednotkové hyperkrychli. „Stěnami“ hyperkrychle je 16 vrcholů, 32 hran, 24 čtverců a 8 (normálních) krychlí. Na obrázku jsou vrcholy obarveny podle podobného barevného schématu, jaký používají tiskárny (CMYK). Jakou barvu zde má hrdlička, jestřáb, pes či oko? Vlastnosti výherní funkce Analýzou výherní funkce lze zjistit, že: Nejlepšího výsledku proti konkrétnímu soupeři vždy docílíme okrajovými hodnotami našich parametrů. Nemá cenu míchat „křížence“, nejlepší jsou extrémní, tedy „rohové“ strategie. „Zásadové“ strategie si vedou lépe než „nerozhodné“! Skoro každá rohová strategie se uplatní jako nejlepší odpověď na nějakého soupeře. (Překvapení!) Oblasti stejných nejlepších odpovědí jsou v hyperkrychli vymezeny hyperbolickými plochami. Pouze na těchto hranicích se mohou vyplatit i smíšené strategie. (Význam pro určení Nashových rovnovah.) Všechno umíme spočítat! Co asi představuje tento obrázek? Ekvalizátory a ZD-strategie Ekvalizátory („vyrovnávači“) jsou velmi zvláštní strategie. Ať proti nim hrajete jakkoli, vždy dosáhnete stejného výsledku. Známým příkladem je šlechetné oko — proti němu vždy uhrajete 2 body. Jiným příkladem ekvalizátoru je šnek (kód 1100), ale ten vám dovolí jen 1, 5 bodu. Ekvalizátory patří do širší třídy tzv. ZD-strategií (zero determinant). Ty jsou charakterizovány jako strategie s přímou úměrou mezi vaším a jejich ziskem. Mezi ZD-strategiemi jsou zajímavé „vyděračské“ strategie. To jsou ty s koeficientem přímé úměry větším než 1. Čím víc se daří vám, tím víc se daří i vyděrači, ale vyděračův užitek roste rychleji! Hra „ultimátum“ Utkání s vyděračem se řídí podobnými zákonitostmi jako jiná úloha z teorie her. Modrý hráč ukrojí část koláče a nabídne ji Červenému. Červený ji může přijmout. Pak si Modrý ponechá celý zbytek koláče. Pokud Červený nabídku odmítne, nedostane nikdo nic. Co byste Červenému doporučili? A co Modrému? Osel Osel hraje zcela nevyzpytatelně — v každé situaci si hází korunou. Kódovali bychom ho jako 1 2 1 2 1 2 1 2. Osel se nachází ve středu hyperkrychle. Je příkladem smíšené strategie, která není reaktivní (je mu jedno, co děláte vy). Co proti takové strategii budete hrát? Liška Liška je podlá, pomstychtivá, zatvrzelá a smířlivá. Její kód je 0001. Liška určitě nepatří mezi univerzály, dokáže však přelstít většinu strategií, které jsou opatrné, ale příliš hodné v ostatních vlastnostech. Motýl Motýl je podlý, velkorysý, zatvrzelý a smířlivý. Má kód je 0101. Motýl je opakem oka. Vaše spolupráce ho nudí a reaguje na ni zradou, po zradě se hned usmiřuje spoluprací. Máme ho zde do počtu jako příklad hloupější strategie. Hrát motýla se vyplácí jen výjimečně. (Inspirace názvu — Karel Čapek: Ze života hmyzu.) Šnek a had Šnek je milý, velkorysý, zatvrzelý a opatrný. Má kód 1100. Šnek je velmi konzervativní a rád hraje pořád to stejné — spolupráci nebo zradu. Nebýt šumu, opakoval by se donekonečna. Had je opak šneka — je podlý, pomstychtivý, odpouštějící a smířlivý. Jeho kód je 0011. V důsledku to znamená, že miluje střídání spolupráce a zrady. I když to podle kódu možná nevypadá, šnek ani had nejsou reaktivní. Kupodivu existují strategie, na které platí svérázný šnečí či hadí styl. Myš Myš je milá, pomstychtivá, odpouštějící a smíř- livá. Její kód je 1011. Myš také nevyužijete moc často, ale jistá třída vyděračů vás může přimět k jejímu zahrání. Víte, jak takový vyděrač vypadá? Vyzkoušejte si svůj odhad nejlepší odpovědi v naší aktivitě! Pozor na velký šum (e = 0, 1)! Znáte silné a slabé stránky zvířátek? Už se vyznáte v „mapě“? Budete-li úspěšní, vyhrajete háčkované zvířátko!