BRAVE NEW DIGITAL WORLD 5. BIG DATA JAK VELKÁ JSOU VELKÁ DATA *globální objem dat se zdvojnásobí cca každé tři roky *95 mil. nových fotek a videí každý den na Instagramu, 450 tis. tweetů každou minutu, 5 nových fb profilů každou sekundu *Large Synoptic Survey Teleskope každý den pořídí 28 TB dat; na Wikipedii je každou minutu provedeno 600 editací, v rámci činnosti LHC je každou sekundu možno zaznamenat 25 GB dat JAK VELKÁ JSOU VELKÁ DATA *nejde ani tak o množství jako spíše o situaci *30‘s & 40‘s od stratifikovaných vzorků k vzorkům náhodným a nyní od vzorků k celkům *změna měřítka způsobuje změnu stavu – kvantitativní změna iniciuje změnu kvalitativní *velká data znamenají, že můžeme provádět některé operace, které nebyly v malém měřítku možné (resp. adekvátní) ARCHEOLOGIE BIG DATA *Mathew Maury jako inspektor skladů námořních map pomocí starých deníků „vyčísluje“ atlantický oceán a objevuje nové lodní cesty, později zavádí standardizovaný námořní záznam a nakonec vydává The Physical Geography of the Sea (1855) *Francis Galton vypracovává techniku průzkumu pomocí dotazníků, vytváří meteorologické mapy a představuje způsob klasifikace otisků prstů; do statistiky vnáší měření korelace - „pokud se vyskytuje jev A tak s pravděpodobností X se (ne)vyskytuje jev B“ (1888) PROBLÉM STROJOVÉHO PŘEKLADU *projekty Léona Dostera v období studené války, cílem je především rychlý překlad z ruštiny; kódování komplexního gramatického fundamentu se neukazuje jako dobrá cesta *IBM Candide pracuje se záznamy jednání kanadského parlamentu a překlad určuje pomocí statistické pravděpodobnosti; jeho bází byly 3 mld. dobře přeložených vět *Google od r. 2004 skenuje web a zaznamenává překlady kolísavé kvality; jeho báze má stovky mld. vět; výsledkem je služba translate BIG BUZZ DATA *agnostický přístup + rozličná kvalita + korelace => např. se špatným počasím roste spotřeba sušenek s jahodovou příchutí, oranžová auta jsou v amerických autobazarech ta nejspolehlivější, vaše dcera je těhotná *datafikace slov (books.google), datafikace polohy (Waze), datafikace interakcí (Facebook) nabízí řadu nových poznatků (např. šíření chřipky, pohyby cen nemovitostí, ceny letenek) *„měření znamená vědění“ & „vědění znamená moc“ BIG BIZ DATA *data netrpí rivalitní spotřebou, ITs přinášejí pasivní sběr (např. Analytics tracking code), hodnota nemusí nutně klesat získávání hodnoty: 1) opakované použití (systém doporučení, open data) 2) slučování datových množin (vznik nových dat) 3) sběr s ohledem na vícero použití (street view, CCTV) *podnikání s daty & podnikání se znalostmi BIG WISE DATA *analýza big data je jako rybaření – nevíme, co chytíme *přichází konec vědecké metody a konec géniů? *korelační analýza namísto „proč/jak“ říká „co“ *je toto omezení důrazu na kauzalitu adekvátní trade off nebo znamená příchod nové „doby temna“, kdy sice víme ale nerozumíme? OD LSTIVOSTI … *Amazon ví, co nakupujeme, Twiter co si myslíme, Facebook zná naše přátele, Google oblíbené weby, operátoři to, kde jsme a kdo je poblíž … *„pokud je to zadarmo, produktem jste vy sami“ *inflace loginu – každý další je cennější, protože takto prohlubuje informační bázi OD LSTIVOSTI … *spoustu našich HCI je datafikováno a obratem se ocitá v těch nejvýkonnějších výpočetních klastrech, které z nich vytěžují znalosti *každá zachycená informace zhodnocuje ty ostatní *takto vzniklá síť (model) je široce aplikovatelná *dostatečná technologická úroveň spolu s adekvátním datovým fundamentem umožňují hlubší poznání a přesnější predikce … K NÁZNAKŮM DICKOVSKÉHO SVĚTA *Ne Orwell a 1984, ale Dickovy a Minority report a Adjustment Team *Cambridge Analytica vypracovávala osobnostní model Big Five a na jeho základě pak na fb komunikovala behaviorální reklamu *software PredPol předpovídá majetkovou trestnou činnost, automatizace řízení o podmínečném propuštění a práce Richarda Berga … K NÁZNAKŮM DICKOVSKÉHO SVĚTA *znamenají Big data konec svobodné vůle? *operace á la Cambridge Analytica jsou kompatibilistickou manipulací – svobodná rozhodnutí sice činíme, ale kontext je vyfabrikován a přizpůsobený individuálním motivacím *prediktivní kriminalistika a justice staví nad svobodnou vůli deterministický model – tvrdá determinace je oktrojována STRATEGIE ZVLÁDÁNÍ *odpovědnost držitelů dat – pouze vymezené typy operací *zachovat instituci svobodného jednání – otevřené a certifikované algoritmy, jejichž výstupy by byly falzifikovatelné *vznik protimonopolních a protikartelových zákonů regulujících datové barony