Visual analytics Masarykova univerzita, fakulta informatiky Juraj Jurčo, 173001@mail.muni.cz Juraj Jurčo, 173001@mail.muni.cz30.6.2010 2 Motivácia ● Užívatelia, aplikácie a zariadenia zbierajú enormné množstvo dát ● Zakiaľ množstvo týchto dát rapídne rastie, možnosti spracovávať a analyzovať tieto dáta stúpajú oveľa pomalšie Juraj Jurčo, 173001@mail.muni.cz30.6.2010 3 Motivácia ● V roku 2002 ~ 22EB dát ● V roku 2006 ~ 161EB dát ● V roku 2009 ~ 800EB (nárast o 62% oproti roku 2008) ● Vízia do roku 2020 ~ 35ZB = 35x270 ● 70% všetkých týchto dát je produkovaných jednotlivcami ● 30% produkujú firmy ● 25% všetkých dát tvoria obrázky [9] Juraj Jurčo, 173001@mail.muni.cz30.6.2010 4 Čo je vizuálna analýza? ● Thomas a Cook ju v knihe Illuminating the Path[2] definovali ako: “vedu ktorá uľahčuje analytické rozhodovanie pomocou interaktívnych vizualizácií” ● Pomáha lepšie si predstaviť štruktúru dát ● Kombinuje výpočetnú silu počítačov a ľudské schopnosti chápania, dávania do súvislostí a vyvodzovania záverov Juraj Jurčo, 173001@mail.muni.cz30.6.2010 5 Čo nie je vizuálna analýza ● Veľká grafová štruktúra bez popisu ● Diagramy bez legendy ● Obrázky, ktoré nemajú žiadnu výpovednú hodnotu ● Obrázky bez významovej interpretácie Juraj Jurčo, 173001@mail.muni.cz30.6.2010 6 Prečo analyzovať? ● Porovnanie ● Preskúmanie vzťahov ● Predpoveď ● Testovanie hypotéz ● Vytváranie pojmov a teórií ● Skúmanie ● Kontrola ● Vysvetlenie Juraj Jurčo, 173001@mail.muni.cz30.6.2010 7 Vizuálna analýza ● Je iteratívny proces, ktorý zahŕňa: – Zbieranie dát – Spracovanie dát – Reprezentovanie znalostí – Interakcia – Rozhodovanie Juraj Jurčo, 173001@mail.muni.cz30.6.2010 8 Príklad - dáta Juraj Jurčo, 173001@mail.muni.cz30.6.2010 9 Príklad - vizualizácia Juraj Jurčo, 173001@mail.muni.cz30.6.2010 10 Príklad - vizualizácia Juraj Jurčo, 173001@mail.muni.cz30.6.2010 11 Rozsah pôsobnosti vizuálnej analýzy Keim at al., 2007 [1] Juraj Jurčo, 173001@mail.muni.cz30.6.2010 12 Hlavné komponenty Juraj Jurčo, 173001@mail.muni.cz30.6.2010 13 Metódy vizualizácií ● Grafy ● Diagramy ● Stromy ● Geograficko-priestorová ● (Farebná abeceda) Juraj Jurčo, 173001@mail.muni.cz30.6.2010 14 Grafy ● Veľkosť a farba vrcholu ● Extrakcia podčastí grafu ● Hrúbka a farba hrany Juraj Jurčo, 173001@mail.muni.cz30.6.2010 15 Diagramy ● Histogram, paličkový, koláčový, časová os, krivka, tok ● Bodkový ● Paretov graf ● Sviečkový Juraj Jurčo, 173001@mail.muni.cz30.6.2010 16 Stromy I. ● Hyperbolický strom ● Kruhový strom ● 'Informatický' strom :-) ● Obdĺžnikový strom Juraj Jurčo, 173001@mail.muni.cz30.6.2010 17 Stromy II. ● Cencúľový strom (icicle) ● Strom 'slnečný lúč' (sunray)● Strom 'ľadový lúč' (iceray) ● Slnečný strom [10] Juraj Jurčo, 173001@mail.muni.cz30.6.2010 18 Geograficko-priestorová vizualizácia ● Geografické dáta sú zakreslené do mapy ● Definovanie vzťahov a anomálií ● Príklady: – Správanie sa antarktických ľadovcov[3] – Epidémie a zdravotná starostlivosť – Bezpečnosť: evakuácia ľudí pri výbuchu bomby[4] – Požiare - http://theivac.org/content/pie-fire-video ● http://geoanalytics.net Juraj Jurčo, 173001@mail.muni.cz30.6.2010 19 Farebná abeceda ● Každé písmeno abecedy má svoju farbu ● Iný pohľad na text ● Viac o farebnej abecede: http://www.christianfaur.com/color/ – Ofarbenie online – Font Juraj Jurčo, 173001@mail.muni.cz30.6.2010 20 10 najväčších výziev 1. Fyzika a astronómia • Vizualizácia toku, dynamika kvapalín, plynov, molekúl • Terabajty dát obsahujúcich šum • Objavovanie nových javov, vzťahov a informácií • CERN – LHC produkuje 15PB dát ročne [13] 2. Firmy • Sklady, komodity, cenné papiere, meny, burza • Analýza minulých a súčastných stavov, predpovede Juraj Jurčo, 173001@mail.muni.cz30.6.2010 21 10 najväčších výziev 3. Sledovanie životného prostredia ● Terabajty dát zozberianých po svete alebo zo satelitov ● Analýza minulých stavov a predpoveď do budúcnosti 4. Katastrofy a správa krízových situácií ● Vizuálna analýza môže upresniť postup pri katastrofách (povodne, hurikány, požiare, výbuch sopky, tsunami...) ● Zistenie rozsahu škôd, identifikácia cieľov, stanovenie priorít a efektívna koordinácia rôznych špecialistov v zasiahnutých oblastiach Juraj Jurčo, 173001@mail.muni.cz30.6.2010 22 10 najväčších výziev 5. Bezpečnosť ● Informácie o teroristoch a incidentoch ● Spájanie týchto informácií a vyhľadávanie súvislostí ● VisAware – kto, kde, kedy. 6. Softvérová analýza ● Analýza zdrojových kódov softvéru a jeho závislostí ● Debugovanie, správa, optimalizácia, reštrukturalizácia Juraj Jurčo, 173001@mail.muni.cz30.6.2010 23 10 najväčších výziev 7. Biológia, medicína a zdravie ● Genetika – ľudský genóm približne 3mld. Nukleotidov ● Proteomika, metabolické dráhy (foldit - http://fold.it) 8. Inžinierstvo ● Optimalizácia toku – zobrazenie odporu vetra/vody ● Nárazové testy automobilov – automobil zložený zo státisícov kociek ● Vizuálna analýza môže pomôcť návrhárom pochopiť deformáciu pri náraze a identifikovať kľúčové body kde je nevyhnutná optimalizácia Juraj Jurčo, 173001@mail.muni.cz30.6.2010 24 10 najväčších výziev 9. Osobný informačný manažment ● Efektívna analýza osobnej e-mailovej komunikácie 10. Doprava ● Množstvo senzorov – detekcia váhy vozidla, vyťaženia cesty, kamery, GPS, textové správy o nehodách, informácie o počasí ● Analýza aktuálneho stavu dopravnej siete ● Algoritmy na detekciu zmien v toku ● Predpoveď dopravnej situácie Juraj Jurčo, 173001@mail.muni.cz30.6.2010 25 Tulip ● Analýza a vizualizácia relačných dát ● Napísaný v c++, framework umožňuje rozširovanie (deb, exe na sourceforge, LGPL lic.) ● http://tulip.labri.fr/TulipDrupal/ Juraj Jurčo, 173001@mail.muni.cz30.6.2010 26 Pajek ● Program na analýzu grafových štruktúr ● Rozdelenie siete na menšie časti ● Úpravy siete ● Pre nekomerčné použitie zdarma Juraj Jurčo, 173001@mail.muni.cz30.6.2010 27 jigsaw ● Analýza neštrukturovaných textových dokumentov[11] ● Ako sú dokumenty medzi sebou prepojené ● Zameraný na jednotlivé dokumenty a ich obsah – Ľudia, miesta, organizácie... pozn. platené z grantov Juraj Jurčo, 173001@mail.muni.cz30.6.2010 28 D-Dupe ● Hľadanie potencionálnych duplicitných uzlov v sieťach. Napr. bibliografické zdroje. [12] ● Pre nekomerčné použitie zdarma ● Len pre Windows Juraj Jurčo, 173001@mail.muni.cz30.6.2010 29 IN-SPIRE ● IN-SPIRE - http://in-spire.pnl.gov/ – http://www.youtube.com/watch?v=7bIRmJlhjbQ ● Zameraný na veľké kolekcie dokumentov ● Zhlukovanie kolekcií podľa témy [11] ● Stránka momentálne nedostupná Juraj Jurčo, 173001@mail.muni.cz30.6.2010 30 Ďalšie softvérové nástroje ● Štatistické programy – Statistica, SPSS ● Maple ● Mathematica ● Simulačné programy – NetLogo, Stella Juraj Jurčo, 173001@mail.muni.cz30.6.2010 31 Ďakujem za pozornosť :-) Juraj Jurčo, 173001@mail.muni.cz30.6.2010 32 Literatúra [1] Keim, Daniel a., Florian Mansmann, and Jim Thomas. "Visual analytics." ACM SIGKDD Explorations Newsletter 11, no. 2 (2010): 5. http://portal.acm.org/citation.cfm?doid=1809400.1809403. [2] Thomas, J.J., Cook, K.A.: Illuminating the Path. IEEE Computer Society Press, Los Alamitos (2005) [3] Turdukulov, Ulanbek, Connie Blok. "Visual analytics to explore iceberg movement." GeoInformation Science 2008: 1-4. http://geoanalytics.net/GeoVis08/a21.pdf. [4] Andrienko, Gennady, Natalia Andrienko. "Geospatial Visual Analytics : GeoPKDD project," September 2008. http://geoanalytics.net/GeoVisualAnalytics08/s13.pdf. [5] W.J. Frawley, G. Piatetsky-Shapiro, and C.J. Matheus. Knowledge discovery in databases: an overview. In G. Piatetsky-Shapiro and W.J. Frawley, editors, Knowledge Discovery in Databases. AAAI / MIT Press, 1991. [6] Lipo, Carl; O'Brien, Michael J., eds (2006). Mapping Our Ancestors: Phylogenetic Approaches in Anthropology and Prehistory. Piscataway: Transaction Publishers. [7] Robinson, Peter M.W.; O’Hara, Robert J. (1996). "Cladistic analysis of an Old Norse manuscript tradition". Research in Humanities Computing 4: 115–137. http://rjohara.net/cv/1996-rhc. Juraj Jurčo, 173001@mail.muni.cz30.6.2010 33 Literatúra [8] Jerison, Harry J. (2003), "On Theory in Comparative Psychology", in Sternberg, Robert J.; Kaufman, James C., The evolution of intelligence, Mahwah, NJ: Lawrence Erlbaum Associates, Inc., p. 254 . [9] IDC Go-to-Market Services: The Digital Universe Decade - Are you Ready?. URL: [cit. 2010- 06-27]. [10] Visualization of large tree structures.URL: [cit. 2010-06-27] [11] Jigsaw: Visualization for Investigative Analysis. URL: [cit. 2010-06-27] [12] D-Dupe: A Novel Tool for Interactive Data Deduplication and Integration. URL: [cit. 2010-06-27] [13] Worldwide LHC Computing Grid. URL: [cit. 2010-06-27] [14]Batagelj, Vladimir; Mrvar, Andrej. Pajek [počítačový program]. Ver. 1.26. [Slovinsko], 1998 [cit. 2010-02-06]. Dostupné z . Zdarma pre nekomerčné použitie. Juraj Jurčo, 173001@mail.muni.cz30.6.2010 34 Literatúra [15]Batagelj, Vladimir; Mrvar, Andrej. Pajek - Program for Analysis and Visualization of Large Networks: Reference Manual, 5 Máj 2009, posledná aktualizácia 7 Január 2010. URL: < http://pajek.imfm.si/lib/exe/fetch.phpid=download&cache=cache&media=dl:pajekman126.pdf>. [16]Boldiš, Petr. Bibliografické citace dokumentů podle CSN ISO 690 a CSN ISO 690-2: Část 2 – Modely a příklady citací u jednotlivých typů dokumentů. Verze 3.0 (2004). c 1999–2004, posledná aktualizácia 11. 11. 2004. URL: . [17] Gregorovič, Tomáš. Extrakce informací ze sociálních médií, diplomová práca, 8 Február 2010. URL: .