Zpracování a analýza (velkých) dat CORE042 Data – odpověď na základní otázku života, vesmíru a vůbec... 2. přednáška Tomáš Rebok Centrum CERIT-SC – Ústav výpočetní techniky MU CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU2 Přednášející ̶ Tomáš Rebok ̶ ÚVT MU, Centrum CERIT-SC & Divize IT infrastruktury ̶ senior výzkumný pracovník, vedoucí projektů a aplikačně-výzkumných skupin ̶ dlouhodobá činnost v oblasti výpočetních a datových infrastruktur pro podporu náročných výpočtů a zpracování dat ̶ primární orientace na oblast datové analytiky CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU3 Obsah přednášky Co už znáte … ̶ informace, data, metody uložení dat ̶ životní cyklus dat, otevřená věda a FAIR data A co nás dnes čeká? ̶ seznámení s metodami pro zpracování a analýzu dat ̶ typy dat a jejich reprezentace ̶ včetně tzv. Big Data přístupů ̶ seznámení s dostupnými infrastrukturami pro náročné výpočty a analýzu dat ̶ superpočítačová a gridová centra v ČR ̶ příklady datových analýz v rozdílných aplikačně-výzkumných oblastech Share Reuse reserve Analyse rocess lan Collect 4 Zpracování (velkých) dat aneb Co jsou to ta velká data? CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU rocess CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU5 Data – fenomén dnešní doby ̶ potenciálním zdrojem dat je prakticky cokoli (a kdokoli) ̶ vhodné vytěžování dat může odpovědět na mnoho otázek ̶ ovlivňujících jak byznys, tak i pokrok společnosti ̶ problém není data generovat ̶ problém již není ani data uložit ̶ problém je tato data zpracovat ̶ resp. získat z nich užitečné informace rocess CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU6 Zpracování dat (fáze Process) ̶ vstup: co potřebujeme? ̶ dobře popsaný problém ☺ ̶ data sesbíraná v rámci realizovaného experimentu viz fáze Plan a Collect ̶ představu o struktuře dat a požadavcích analýzy dat (předpokládané dotazy) ̶ co musíme vzít v úvahu? ̶ citlivá data je nutno anonymizovat/pseudonymizovat nutnost odstranit identifikovatelnost zachycených subjektů (i nepřímou!) ̶ data bychom měli reprezentovat standardizovanými technologiemi konverze do požadovaných formátů a příprava pro další analýzu ̶ anonymizace/pseudonymizace dat i reprezentace jejich formátu musí být pečlivě dokumentovány ̶ fáze zpracování dat často úzce souvisí s fází jejich analýzy rocess CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU7 Základní členění dat 1. Strukturovaná data ̶ data s identifikovatelnou strukturou ̶ typicky reprezentovaná tabulkami 2. Nestrukturovaná data ̶ data bez jasné struktury, bez modelu ̶ typicky multimediální data 3. Semi-strukturovaná data ̶ kombinace obojího ̶ nestrukturovaná data s částečnou strukturovanou informací (tzv. metadaty) rocess CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU8 1. Strukturovaná data ̶ typicky tabulková data, reprezentovaná sloupci a řádky ̶ sloupce = vlastnosti konkrétního záznamu, řádky = jednotlivé (různé) záznamy ̶ data mají definovanou strukturu, která je neměnná ̶ resp. mění se jen velmi omezeně ̶ např. finanční transakce, záznamy prodejů, … ̶ reprezentace (a analýza) strukturovaných dat: ̶ jedinou tabulkou (MS Excel-style) ̶ relační databází (soubor vzájemně provázaných tabulek) tzv. SQL databáze např. MS Access-style rocess CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU9 1. Strukturovaná data – relační databáze ̶ Relace = tabulka atributů (sloupce) se záznamy (řádky) ̶ Relační databáze = nástroj pro definici relací, manipulaci s uloženými daty a dotazování (analýzu) ̶ SQL – Structured Query Language = standardní dotazovací jazyk SELECT column1, column2 FROM table WHERE column1='value‘ ̶ korektní návrh relační databáze se řídí několika pravidly ̶ tzv. normální formy ̶ pomáhají udržet řád, usnadňují analýzu rocess CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU10 2. Nestrukturovaná data ̶ data, která nejsou uspořádána podle předem definovaného datového modelu ̶ resp. tento model není znám ̶ drtivá většina dat (dle Gartner 80 % všech dat) ̶ typické zdroje nestrukturovaných dat: ̶ dokumenty, faktury, smlouvy, emaily, formuláře, ... ̶ obrázky, videa, audiozáznamy, geoprostorová data, ... ̶ data ze senzorů a zařízení, data z počítačových systémů (logy) ... ̶ binární (= obecné) soubory ̶ analýza s využitím specializovaných DB – tzv. NoSQL databáze ̶ jedná se o mnohem větší objemy než v případě strukturovaných dat rocess CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU11 3. Semi-strukturovaná data = částečně strukturovaná data ̶ např. nestrukturovaná data s doprovodným informacemi (tzv. metadaty) příp. navíc s proměnnou strukturou ̶ doprovodné informace (metadata) slouží pro prohledávání/analýzu ̶ příklad 1: emailové zprávy ̶ tělo emailu (text zprávy) = nestrukturovaná data ̶ hlavička emailu (odesílatel, příjemce, datum a čas odeslání, …) = strukturovaná informace ̶ příklad 2: digitální fotografie ̶ zachycený obrázek = nestrukturovaná data ̶ datum a čas pořízení, clona, čas závěrky, ID zařízení, … = strukturovaná informace ̶ některé strukturované informace lze doplnit až po zpracování např. informace o zachycených objektech (pes, kočka, osoba, …) – umělá inteligence ̶ drtivá většina nestrukturovaných dat je spíše semi-strukturovaných 12 Analýza (velkých) dat aneb Kdy se bavíme o tzv. Big Data přístupu? CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU13 Big Data Co jsou to Big Data? ̶ data velkých objemů ☺ ̶ větších, než je možné zpracovávat jednoduchými prostředky ̶ ale nejen to: ̶ data, která nelze zachytit jednoduchými strukturami ̶ resp. data, jejichž struktura se mění ̶ resp. data, která nelze jednoduše zpracovat ̶ Big Data přístupy byly navrženy v souvislosti s potřebou analyzovat nestrukturovaná (resp. semi-strukturovaná) data rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU14 Big Data – definice ̶ data vyhovující (některému z) tzv. 4V ̶ Volume (objem) – data velkých objemů ̶ Velocity (rychlost) – data, která vznikají (přicházejí) rychleji než jak je možno je (standardně) zpracovat ̶ Variety (rozdílnost) – data různých struktur a typů, různorodého charakteru ̶ Veracity (věrohodnost) – nutnost čištění nekonzistentních/neúplných dat (např. data ze sociálních sítí) ̶ občas uváděno jen jako 3V (bez Veracity) ̶ ale také jako 7V (+ Variability, Visualization, Value) nebo též až 42V ☺ rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU15 rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU16 Typické požadavky na Big Data systémy ̶ ukládání velkého množství dat ̶ zpracování dat v „rozumném“ čase ̶ zahrnuje nezbytnost „stěhování“ dat k výpočetním procesům ̶ škálovatelnost = schopnost systému růst se zvětšujícím se množstvím dat ̶ schopnost pojmout dodatečný hardware (rozšíření systému) ̶ schopnost využívat tytéž struktury a algoritmy ̶ nejčastěji hovoříme o tzv. distribuovaných systémech výpočetní infrastruktura sestávající z více fyzických počítačů (výpočetních serverů) rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU17 Škálovatelnost – je vždy nutné stěhování dat? ̶ pro komplexnější zpracování se data typicky přenášejí od úložného systému k výpočetnímu procesu ̶ v případě velkých objemů je toto (časově, datově) velmi náročné ̶ alternativa: tzv. Map-Reduce přístup ̶ přenos výpočtu k datům (fáze Map) ̶ vyhodnocení dílčích výsledků (fáze Reduce) ̶ vhodné jen pro specifické typy výpočtů např. analýzu textových/obrázkových korpusů ̶ technologie Apache Hadoop map reduce rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU18 Vybrané modely pro reprezentaci a analýzu STRUKTUROVANÝCH dat Tabulky ̶ tabulka ve vhodném tabulkovém procesoru např. Microsoft Excel, Google Sheets, LibreOffice Writer, … ̶ dostupnost základní datové analytiky statistické funkce, grafy, atp. Relační (SQL) databáze ̶ schéma tabulek (relací) popsané SQL jazykem včetně vzájemných vazeb ̶ základní analytické funkce dostupné přímo v jazyce SQL pokročilé zpracování v návazné aplikaci ̶ např. PostgreSQL, MySQL, Sqlite, MS Access, … ̶ NewSQL přístup: škálovatelné SQL databáze např. NuoDB, VoltDB, TokuDB, GenieDB rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU19 Vybrané modely pro reprezentaci a analýzu SEMI-STRUKTUROVANÝCH dat (NoSQL) Key-value databáze ̶ ukládají data ve formě „klíč = hodnota“ ̶ např. „věk = 25“, „rok_narození = 2011“ ̶ klíč musí být jedinečný ̶ hodnoty mohou být jednoduché i složené záznamy ̶ klíč může nést komplexnější informaci ̶ student:23757:jméno = „Jan“ ̶ student:23757:příjmění = „Novák“ ̶ hlavní výhodou je jednoduchost a rychlost ̶ výborně škálují, vhodné pro masové operace rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU20 Vybrané modely pro reprezentaci a analýzu SEMI-STRUKTUROVANÝCH dat (NoSQL) Dokumentové databáze ̶ hlavní úložnou jednotkou je dokument ̶ seskupení „key:value“ hodnot popisujících uloženou entitu ̶ klíče v různých dokumentech mohou být odlišné ̶ podporuje uložení komplexních informací k objektům ̶ a jejich prohledávání + analýzu ̶ velmi rozšířené a hojně používané rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU21 Vybrané modely pro reprezentaci a analýzu SEMI-STRUKTUROVANÝCH dat (NoSQL) Grafové databáze ̶ reprezentace uložených dat formou (libovolně komplexního) grafu ̶ uzly i hrany podporují uložení dalších metadat nejčastěji formou „key:value“ ̶ extrémně rychlé pro vyhledávání lokálních („vztahových“) informací ̶ např. „všichni známí mých přátel“ rychlost těchto dotazů nezávisí na množství uložených dat viz sociální sítě ̶ nevhodné pro globální prohledávání např. „průměrný věk všech uložených osob“ rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU22 Vybrané modely pro reprezentaci a analýzu SEMI-STRUKTUROVANÝCH dat (NoSQL) Existuje řada dalších přístupů ̶ řádkově-orientované a sloupcově-orientované databáze ̶ databáze pro uložení časových řad ̶ databáze pro uložení prostorových dat ̶ … Vícemodelové databáze ̶ umožňují využití vícero různých modelů a vícero pohledů (forem dotazů) na tatáž data 23 Kde s (velkými) daty pracovat? aneb Výpočetní infrastruktury v ČR CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU Share Reuse reserve Analyse rocess lan Collect rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU24 Superpočítačová centra ̶ vysoký hardwarový výkon pro náročné výpočty a zpracování dat ̶ seskupení tzv. výpočetních clusterů ̶ specializované výpočetní přístupy ̶ kompromis mezi uživatelskou přívětivostí a co nejefektivnějším využitím infrastruktur nejefektivnější využití skrze gridové výpočty ̶ akademické vs. komerční výpočty ̶ pro akademické využití často zdarma financováno z veřejných zdrojů ̶ pro komerční využití za úplatu s výjimkou veřejných výzkumných projektů rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU25 Slovníček pojmů – výpočetní cluster ̶ skupina vzájemně propojených „běžných“ počítačů (dříve ☺) rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU26 Slovníček pojmů – výpočetní cluster ̶ skupina vzájemně propojených „běžných“ počítačů (dnes) rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU27 Superpočítačová centra v ČR ̶ v ČR dostupná ve 3 infrastrukturách (centrech) ̶ Cesnet/MetaCentrum gridový přístup cloudový přístup specializované výpočty ̶ MUNI/CERIT-SC gridový přístup cloudový přístup specializované výpočty ̶ VŠB-TUO/IT4Innovations gridový přístup e-INFRA CZ https://www.e-infra.cz e-INFRA CZ https://www.e-infra.cz rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU28 MetaCentrum @ CESNET ̶ aktivita sdružení CESNET ̶ CESNET – sdružení založené (a podporované) českými vysokými školami poskytuje služby vysokým školám + vlastní výzkum ̶ od roku 1996 koordinátor Národní Gridové Infrastruktury (NGI) ̶ původně vzniklo na MUNI (Superpočítačové Centrum Brno, SCB, 1994) ̶ integruje velká/střední HW centra (clustery, výkonné servery a úložiště) několika univerzit/organizací v rámci ČR → poskytuje prostředí pro (spolu)práci v oblasti výpočtů a práce s daty ̶ integrováno do evropské gridové infrastruktury (EGI) rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU29 MetaCentrum NGI ̶ přístupné zaměstnancům a studentům VŠ/univerzit, AV ČR, výzkumným ústavům, atp. ̶ komerční subjekty pouze pro veřejný výzkum ̶ nabízí: ̶ výpočetní zdroje ̶ úložné kapacity ̶ aplikační programy ̶ po registraci k dispozici zcela zdarma ̶ „placení“ formou publikací s poděkováním http://metavo.metacentrum.cz rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU30 NGI – dostupný výpočetní hardware ̶ výpočetní zdroje: cca 37600 jader (x86_64) ̶ uzly s nižším počtem výkonných jader: 2x4-8 jader ̶ uzly se středním počtem jader (SMP stroje): 32-80 jader ̶ paměť až 10 TB na uzel ̶ uzly s vysokým počtem jader: SGI UV 2000 ̶ 504 jader (x86_64), 10 TB operační paměti ̶ 384 jader (x86_64), 6 TB operační paměti ̶ další „exotický“ hardware: ̶ uzly s GPU kartami (pro AI), Xeon Phi, SSD disky, … http://metavo.metacentrum.cz/cs/state/hardware.html rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU31 NGI – dostupný úložný hardware ̶ cca 15 PB pro pracovní data ̶ úložiště v Brně, Plzni, ČB, Liberci, Praze ̶ uživatelská kvóta 1-3 TB na každém z úložišť ̶ cca 80+ PB pro dlouhodobá/archivní data ̶ HSM – páskové knihovny ̶ objektové uložiště CE H (analogie k Amazon S3) http://metavo.metacentrum.cz/cs/state/nodes rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU32 NGI – dostupný software ̶ ~ 450 různých aplikací (instalováno na požádání) ̶ viz http://meta.cesnet.cz/wiki/Kategorie:Aplikace ̶ průběžně udržované vývojové prostředí ̶ GNU, Intel, PGI, ladící a optimalizační nástroje (TotalView, Allinea), … ̶ generický matematický software ̶ Matlab, Maple, Mathematica, gridMathematica, … ̶ komerční i volný software pro aplikační chemii ̶ Gaussian 09, Gaussian-Linda, Gamess, Gromacs, Amber, … ̶ materiálové simulace ̶ ANSYS Fluent CFD, Ansys Mechanical, Ansys H C… ̶ strukturní biologie, bioinformatika ̶ CLC Genomics Workbench, Geneious, Turbomole, Molpro, … ̶ řada volně dostupných balíků ̶ … rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU33 NGI – jak počítat? ̶ dávkové úlohy ̶ popisný skript úlohy ̶ oznámení startu a ukončení úlohy ̶ interaktivní úlohy ̶ textový i grafický režim ̶ cloudové rozhraní ̶ uživatelé nespouští úlohy, ale virtuální stroje pouze pro vědecké výpočty ̶ grafické aplikace a virtuální desktopy v prostředí prohlížeče ̶ specializovaná prostředí ̶ Apache Hadoop, Galaxy, … rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU34 Meta VO – jak se stát uživatelem? ̶ podejte si přihlášku ̶ http://metavo.metacentrum.cz , sekce „ řihláška“ ̶ EduID.cz => ověření Vaší akademické identity proběhne s využitím Vaší domovské instituce ̶ seznamte se s dokumentací a základy OS Linux ̶ http://metavo.metacentrum.cz , sekce „Dokumentace“ ̶ praktická školení: https://metavo.metacentrum.cz/cs/seminars/index.html ̶ https://www.abclinuxu.cz/ucebnice/zaklady ̶ počítejte ̶ netřeba oficiálních žádostí o výpočetní čas rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU35 NGI pod pokličkou ssh (Linux) putty (Windows) all the nodes available under the domain metacentrum.cz https://wiki.metacentru m.cz/wiki/Frontend alfrid rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU36 NGI pod pokličkou – v číslech… ̶ cca 37600 výpočetních jader, cca 700 uzlů ̶ a 455 GPU karet ̶ za rok 2022: ̶ 2710 uživatelů (k 31.12.2022) ̶ cca 11 mil. spuštěných úloh cca 30500 úloh denně cca 4100 úloh / uživatel ̶ celkem propočítáno cca 27,5 tis. CPUlet a 314 GPUlet rocess Analyse NGI pod pokličkou – a grafech… CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU37 rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU38 NGI pod pokličkou – a grafech… rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU39 NGI pod pokličkou – a grafech… rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU40 NGI pod pokličkou – a grafech… rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU41 Centrum CERIT-SC ̶ Centrum CERIT-SC – výzkumné centrum vybudované na ÚVT MU ̶ původně Superpočítačové centrum Brno (SCB) ̶ poskytovatel HW a SW zdrojů ̶ součást MetaCentrum NGI ̶ služby nad rámec „běžného“ HW centra ̶ mezioborový (interdisciplinární) výzkum spolupráce IT výzkumníků a partnerů z jiných oborů rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU42 Centrum CERIT-SC ̶ hlavní cíle Centra CERIT-SC @ MUNI: ̶ flexibilní infrastruktura, vlastní výzkum v infrastrukturních oblastech ̶ tři hlavní výzkumné směry: High-performance computing – akcelerace výpočtů, G U computing, … Artificial Intelligence – aplikace metod umělé inteligence a strojového učení Big Data analytics ̶ snaha o maximální zapojení studentů ̶ bakalářského → magisterského → doktorského studia vedení závěrečných prácí v praktických a užitečných oblastech možnost zapojení studentů do řešených projektů možná podpora finančními granty rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU43 IT4Innovations ̶ IT4Innovations – superpočítačové centrum při VŠB TUO v Ostravě ̶ aktuálně dostupné superpočítače: Karolina, Barbora, NVIDIA DGX-2 ̶ služby dostupné akademickým pracovníkům i komerčním subjektům ̶ jak HW centrum, tak výzkumné služby ̶ vlastní výzkumné laboratoře ̶ výzkumné spolupráce s uživateli centra ̶ o výpočetní čas nutno oficiálně žádat ̶ tzv. grantové soutěže (každých 6 měsíců) následně dedikovaný výpočetní čas vhodná finanční participace rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU44 Datové služby e-INFRA CZ pro koncové uživatele I. ̶ FileSender – webová služba pro zasílání velkých souborů ̶ aktuální limit je 2 TB (~ 2000 GB) ̶ doba expirace až 1 měsíc ̶ http://filesender.cesnet.cz ̶ odesílatel nebo příjemce musí být autorizovaným akademickým pracovníkem ̶ autorizovaný uživatel může odesílat datové soubory libovolnému uživateli emailové notifikace o životním cyklu dat ̶ autorizovaný uživatel může odeslat pozvánku pro příjem datových souborů od libovolného uživatele rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU45 FileSender – ukázka využití rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU46 FileSender – ukázka využití rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU47 FileSender – ukázka využití pozvánkypozvánky pokročilé notifikace, získání odkazu, atp. pokročilé notifikace, získání odkazu, atp. rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU48 Datové služby e-INFRA CZ pro koncové uživatele II. ̶ OwnCloud – cloudové uložiště a-la Google Drive nebo Dropbox ̶ aktuální kvéta je 100 GB / uživatel ̶ https://owncloud.cesnet.cz/ ̶ synchronizace a dostupnost dat mezi zařízeními ̶ klienti dostupní pro OS Windows, Linux, OS X ̶ také pro chytré telefony a tablety ̶ umožňuje sdílení dat mezi uživateli ̶ poskytuje zálohování ̶ atp. rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU49 OwnCloud – ukázka využití rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU50 OwnCloud – ukázka využití rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU51 OwnCloud – ukázka využití rocess Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU52 TIP: Nástroj vizuální datové analýzy ̶ KNIME – open-source nástroj vizuální datové analýzy (a zpracování) ̶ vizuálně přehledná datová analytika, mnoho integrovaných funkcí a možností datová analýza formou workflow ̶ rozšiřitelné moduly včetně vlastních funkcí ( ython) ̶ https://www.knime.com/ ̶ desktopová aplikace ̶ dostupná zdarma (server za poplatek) ̶ pro běžné operační systémy ̶ dostupnost i v rámci e-INFRA CZ ̶ http://docs.cerit.io/docs/rancher-applications.html na požádání vypomůžeme ̶ v budoucnu přes vyvíjený CloudApp Store CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU53 Ilustrativní příklady životního cyklu dat v rámci výzkumných spoluprací ÚVT MU 54 Analýza dat stavu krajiny aneb Výzkumná spolupráce ÚVT s partnerem CzechGlobe CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU Share Reuse reserve Analyse rocess lan Collect CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU55 Ústav výzkumu globální změny Akademie věd ČR ̶ alias CzechGlobe ̶ veřejná výzkumná instituce, evropské centrum excelence ̶ dlouhodobý výzkum probíhající globální změny, jejich projevů v atmosféře a dopadů na biosféru a lidskou společnost ̶ atmosféra – ekosystém – socio-ekonomický systém ̶ hlavní zdroje dat: ̶ atmosférické stanice – monitoring skleníkových plynů ̶ ekosystémové stanice (v ČR i zahraničí) – toky uhlíku v základních typech ekosystémů ̶ růstové komory ̶ letecká laboratoř ̶ laboratoře ̶ atp. CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU56 Ústav výzkumu globální změny Akademie věd ČR CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU57 Plánování sběru a shromažďování dat Planování sběrů dat ̶ pravidelný sběr dat ̶ zahrnuje mj. plánování lokalit ekosystémových a atmosférických stanic ̶ nejstarší záznamy z roku 1996 ̶ nepravidelný sběr dat ̶ plánované „kampaně“ – např. nálety vybraných ekosystémů leteckou laboratoří Shromažďování dat ̶ online sběr z měřících ekosystémových stanic ̶ každých cca 10 minut desítky parametrů, zasíláno do datových center ̶ datové nosiče – ad-hoc sběr lan Collect Collect CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU58 Sběr dat – pozemní měřící stanice Collect CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU59 Sběr dat – letecká laboratoř pro dálkový průzkum Collect CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU60 Sběr dat – typy dat dálkového průzkumu Země rocess CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU61 Zpracování dat ̶ data velkých i malých objemů ̶ data ze senzorů měřících věží vs. satelitní/letecká data ̶ příklady úpravy a čištění dat ̶ detekce chyb v datech měřících stanic proces odhalování chybějících či nesmyslných hodnot (častá chybovost senzorů) ne vždy snadno odhalitelné chyby nefunkční senzor vs. chybující senzor vs. zakrytý senzor hodnocení dat indikátorem kvality prostor pro uplatnění metod strojového učení a umělé inteligence např. M. Moravčík: Použití neuronových sítí pro doplňování chybějících dat meteorologických měření. DP 2017, vedoucí Rebok, https://is.muni.cz/th/d09hs/ ̶ zarovnávaní leteckých snímků eliminace pohybů letadla vůči Zemi rocess CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU62 Doplňování chybějících hodnot s využitím neurnových sítí (M. Moravčík) Zpracování dat Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU63 realizované ve spolupráci CzechGlobe a ÚVT MU Analýza dat – příklady Rekonstrukce 3D modelů stromů a lesů ̶ vstupem mrak bodů z laserového skenu (LiDAR) ̶ pozemní (individuální stromy) a letecký (les) ̶ výstupem 3D struktura (model) stromu / lesa ̶ výstupy jsou vstupem pro návazné výzkumné aplikace Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU64 realizované ve spolupráci CzechGlobe a ÚVT MU Analýza dat – příklady Vytváření bezoblačných mozaik z družicových dat ̶ v definovaném časovém rozsahu a prostoru ̶ omezení na sledované vegetační období ̶ vstupem jsou data z družice Sentinel-2 ̶ více metod: ̶ per-pixel ̶ per-dlaždice ̶ výstup je vstupem pro návaznou analýzu Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU65 realizované ve spolupráci CzechGlobe a ÚVT MU Analýza dat – příklady Odhadování vegetačních parametrů zemědělských plodin ̶ např. obsah chlorofylu, vody, index listové plochy ̶ vstupem jsou bezoblačné mozaiky družicových snímků nebo snímků z letadla ̶ per-pixel analýza: ̶ porovnávání vůči spektrální databázi Share CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU66 realizované ve spolupráci CzechGlobe a ÚVT MU Sdílení a prezentace dat Platforma ENVision (https://envision.cerit-sc.cz) ̶ vytvořený portál pro sdílení a analýzu ekosystémových dat ČR ̶ existují i nadnárodní portály: Google Earth Engine, Sentinel-Hub, atp. Reuse reserve 67 Analýza dat kriminálních činů aneb Aplikačně-výzkumná spolupráce ÚVT s olicií ČR CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU Share Reuse reserve Analyse rocess lan Collect CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU68 Policie České republiky ̶ netřeba blíže představovat ☺ ̶ obrovské objemy různorodých dat ̶ výrazná variabilita hledaných informací ̶ výrazná specifika proti standardním přístupům k analýze dat lan Plánování ̶ ad-hoc ̶ vlastní proces sběru dat precizně plánovaná činnost CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU69 Policie České republiky Sběr dat ̶ musí podléhat předchozímu schválení (soudní příkazy) ̶ velký důraz na transparentnost a precizní popis průběhu sběru ̶ prokazatelnost korektního zajištění dat rocess Zpracování dat ̶ opět důraz na transparentnost a průkaznost postupů ̶ minimální filtrace dat Collect CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU70 Policie České republiky Analýza dat ̶ hledané informace (často) předem neznámé ̶ vyžaduje iterativní (a ideálně i interaktivní) prohledávání ̶ „hledání jehly v kupce sena“ ̶ vyžaduje budování tzv. „situačního povědomí“ ̶ tradiční přístup: využití izolovaných aplikací iterativní analýza dat s využitím izolovaných specializovaných aplikací budování situačního povědomí „v hlavě“ datového analytika (s využitím podpůrných aplikací) ̶ moderní přístup: využití pokročilých distribuovaných systémů všechna data „na jedné hromadě“ analýzy dat napříč různorodými datovými sadami (např. hledání organizovaných skupin) podpora budování situačního povědomí přímo v systému Analyse CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU71 Policie České republiky Konzervace, udržování dat ̶ dlouhodobé uchovávání nemá význam, spíše se neuplatňuje Share Sdílení dat ̶ velmi precizně kontrolovaný přístup k datům, vč. jejich přenosů ̶ mnohdy nesdíleno ani mezi kolegy reserve Reuse Znovuvyužití dat ̶ většinou se neuplatňuje ̶ data zajištěná pro účely případu A nelze využít v případu B ̶ nanejvýš pro „studijní“ či rozvojové potřeby CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU72 Realizovaná ÚVT MU prostřednictvím projektu pro potřeby olicie ČR Platforma ANALYZA Platforma ANALYZA ̶ projekt realizovaný ÚVT MU s podporou Ministerstva vnitra ČR (2017–2020) ̶ Cíl projektu: vyvinout distribuovaný systém podporující komplexní analýzy heterogenních dat velkého rozsahu ̶ podpora budování situačního povědomí v jednotném systému ̶ analýzy a vizualizace komplexních vztahů ̶ demonstrace možností nového přístupu ̶ od 1.1.2023 řešíme nový projekt AFoLab Automatizovaná forenzní laboratoř digitálních dat pro odhalování komplexní trestné činnosti CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU73 Shrnutí 2. přednáška CORE042 CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU74 Shrnutí Zpracování a analýza dat ̶ jak se na data dívat? ̶ strukturovaná vs. nestrukturovaná vs. semi-strukturovaná ̶ výběr vhodného modelu pro zpracování a analýzu důležitá je i znalost předpokládaných dotazů tabulkové procesory, SQL databáze, NewSQL databáze, NoSQL databáze ̶ nebojte se být Big(Data) ☺ Výpočetní a úložné infrastruktury v ČR ̶ dostupné prostřednictvím e-INFRA CZ ̶ CESNET, CERIT-SC, IT4I ̶ výpočetní a úložné kapacity pro náročné zpracování akademikům dostupné zdarma ̶ doplňkové služby pro podporu datového zpracování a analýzy CORE042 | Zpracování a analýza (velkých) dat | Tomáš Rebok | CERIT-SC ÚVT MU75 Diskuze Zdroj: Communicate_communication_conference_2028004 od OpenClipart-Vectors z Pixabay