Business Intelligence Skorkovský KAMI, ESF MU Principy BI nzpracování velkých objemů dat tak, aby výsledek této akce manažerům pomohl k rozhodování při řízení procesů nvýsledkem zpracování musí být relevantní informace, kterou dostanou manažeři ve správném čase nzákladní zdroj dat, která se často ukládají do datových skladů jsou ERP systémy (relační DB) nzískání informací jako výsledek strukturovaných dotazů musí probíhat rychle (krátká odezva) npoužívá se pro řízení na strategické, taktické u operační úrovni Principy BI nDefinice 1 : BI je sběr a analýza dat, jejímž cílem je lepší porozumění a reakce na změny, kterým organizace neustále čelí n nDefinice 2 : BI je znalost podniku získaná za použití HW a SW technologií, která umožní přeměnit data organizace v informaci n nDefinice 3 : sada procesů, aplikací a technologií, jejíchž cílem je účinně a účelně podporovat rozhodovací procesy ve firmě. Tyto procesy podporují analytické a plánovací činnosti podniků a organizací a jsou postaveny na principech multidimenzionálních pohledů na podniková data Nástroje (terminologie) BI nERP systémy –zdroj primárních dat (transakce-položky v NAV) nDočasná úložiště (DSA: Data Staging Area) nOperativní úložiště (ODS : Operational Data Store) nTransformační nástroje (ETL : Extraction Transformation Loading) nIntegrační nástroje (EAI : Enterprise Application Integration) nDatové sklady nDatová tržiště nOLAP= On-Line-Analytical-Processing nReportingové nástroje nEIS (Executive Information System) nData Mining n Omezení ERP jako poskytovatele dat nNeumožňují rychle a pružně měnit kritéria výběru n nNení okamžitý přístup uživatelů k velkým objemům agregovaných dat n nERP jsou primárně určeny k pořizovaní dat a jejich aktualizaci (relační typ databáze – pomalý přístup k požadovaným údajům) n nV každém podniku se objem dat za každých pět let zdvojnásobí, což ovšem také znamená, že systém je zahlcen redundantními daty n nVícedimenzionální pohled na data v ERP je problematický. DB ERP není pro tento pohled stavěná. Databáze, které vzniknou přeměnou primárních dat z ERP a jsou využívány např. OLAP technologií jsou pro operace typu drilling optimalizovány Zjednodušené schéma využívání ERP •ERP • • • • • • • •Transakce - položky • • • • •DB •ERP •Partneři •Zprávy •Náhledy sample2002-Graphs • • •Informace •Informace •(trendy) •Znalost metod řízení procesů a metrik •Rozhodnutí •Podnik keys •Klíčová znalost keys •Klíčová rozhodnutí •18.4.2018 Relations among tables I TheArtOfNav_BigPictureOfNAV_Overview •18.4.2018 Relations among tables II TheArtOfNav_BigPictureOfNAV_Overview • •18.4.2018 One table and its relations I • •18.4.2018 One table (Sales Line) and its relations II •ERP NAV Schematické a zjednodušené schéma BI •Extraction Transformation Loading=datová pumpa Jiný pohled na BI Business Intelligence Konstatování nV poslední dekádě minulého tisíciletí n firmy hýčkaly mantru ERP. Důvodem byla utkvělá představa, že miliony utracené za licence a implementační služby se projeví tak, že pro uživatele n už nebude chytrost žádné čáry a vše půjde jako po másle…. A to navždy….. Reporting (NAV tools or JETs) nReporting •14 Main principles (source tables and their entries) n •15 Customer Vendor Item Account Dimensions Control parameters (time, type of products, Costs, Revenue, Area,..) Some chosen analysis – ERP MS Dynamics NAV 2009 nAnalysis * Working capital – setup of the accounting schedule from NAV n •16 nAnalysis * Working capital – Show of the results from NAV •17 •Some chosen analysis Some chosen analysis nWorking Capital JETs * Working capital – Show of the results from JETs=JET Reports •18 Some chosen analysis nInventory Dashboard •19 Some chosen analysis examples (JETs) nAnalysis examples •20 Organizačně-technologické schéma podniku •Vedení podniku •BI,ERP,EIS,datové sklady, reporting •Řízení výroby •Řízení financí •Řízení nákupu, •prodeje •a logistiky •Řízení zdrojů, •majetku a PAM •BI •BI •BI OLAP kostka-adhoc definice dotazů nhttp://www.databaseanswers.org/designing_olap_cubes.htm n • •Čas (Rok,Měsíc, den) • •řez Relační dimenzionální model: STAR j0295177 •PRODUKT •Kategorie •Skupina •Název •cena •OBLAST •Název •Popis •Prodejce •ČAS •Rok •Měsíc •Den •Vařečka •Jižní Čechy •12 ks •240 Kč •Jan Hromada • • • • • •xxx •=dimenze Relační dimenzionální model: SNOWFLAKE •DIM:KATEGORIE •Kategorie_ID •Kategorie_název • • •DIM: SKUPINA •Skupina_ID •Kategorie_ID •Skupina_název • • •DIM: PRODUKT •Produkt_ID •Skupina_ID •Produkt_název • • •DIM: OBLAST •Oblast_ID •Oblast_název • • •DIM: ČÁST •Čas_ID •Čas_rok •Čas_měsíc • Čas_den •Výsledek •Produkt_ID •Oblast_ID •Čas_ID •Prodej_ks •Prodej_Kč Datový sklad j0233536 •Zákazníci •Atd.… •Dodavatelé •Atd.… •Zakázky •Datový •sklad • > • •Podniková DB •Transakce j0240409 j0195384 j0332268 •Kopie, , •organizace dat •Sumarizace dat j0315839 > •Dolování dat j0195384 j0292020 •Datoví horníci : • “Profíci” – vědí co chtějí • “Výzkumníci” – nepředvídané • výsledky Definice nDatový sklad: základní komponenta BI n nDatové tržiště : subjektově orientované analytické DB- součást datového skladu n nOperativní datová úložiště : podpůrné analytické DB n nDočasná úložiště dat : úložiště dat před jejich zpracování do databázových komponent řešení BI n Vrstvy pro analýzu dat nReporting : ad hoc dotazovací proces do DB komponent BI n(ad hoc = k tomuto, za tímto účelem, pro tento jednotlivý případ nOLAP : pokročilé a dynamické analytické úlohy n nData Mining (dolování dat) : sofistikovaná analýza většího množství dat n nAlgoritmy pro dolování dat : n nrozhodovací stromy nNeuronové sítě nClustering a klasifikace 3wwl2ijc[1] 3wwl2ijc[1] Datový sklad->datové tržiště (anglická verze) 3wwl2ijc[1] •Data •Warehouse • •Data Mart • •Data Mart • •Data Mart •Decision • Support Information •Decision • Support Information •Decision • Support Information j0233536 Vysvětlení pojmu METADATA n Metadata jsou data o datech, kde pomocí předem definovaných dat s jasně danou a popsanou strukturou uchováváme informace o jiných datech. n n Typickým příkladem metadat jsou katalogizační záznamy v knihovnách, což byla jejich původní funkce. n Architektura OLAP (anglická verze) • •METADATA •viz definice •na předchozím snímku Hlavní komponenty BI a jejich vazby •Operativní •úložiště •Datový •sklad • • • • •Reporting •Dolování dat j0195384 j0195384 j0195384 • •Datové úložiště •Transformační nástroje (ETL : Extraction Transformation Loading) •Integrační nástroje (EAI : Enterprise Application Integration) Dolování dat nRozhodovací stromy nNeuronové sítě nGenetické algoritmy nClustering a klasifikace Dolování dat nRozhodovací stromy (RS) - prediktivní model, který se zobrazuje v podobě stromu, kde každý uzel určuje kritérium pro následní rozvětvení. Strom rozděluje veškerá zdrojová data do segmentů, kde každý list odpovídá určitému segmentu definovanému předešlými uzly. Data v jednom segmentu mají shodné vlastnosti. n n Příklad vytvoření RS • •Typy stromů : a) CART=Classificaion and Regression Trees • (kriterium redukce směrodatné odchylky) b)CHAID =Chi-squared Automatic Interaction • Detector • •http://lisp.vse.cz/~berka/docs/izi456/SL-IDT.PDF • Rozdělení postaviček podle atributů Hlava Úsměv Ozdoba Tvar těla Předmět Přátelský Kruh Ne Kravata Čtverec Šavle NE Čtverec Ano Motýlek Čtverec NIC ANO Kruh Ne Motýlek Kruh Šavle ANO Trojúhelník Ne Kravata Čtverec Balon NE Kruh Ano NIC Trojúhelník Květina NE Trojúhelník Ne NIC Trojúhelník Balon ANO Trojúhelník Ano Kravata Kruh NIC NE Kruh Ano Kravata Kruh NIC ANO Rozhodovací strom jako logický výraz OLAP databáze nOLAP DB představují jednu nebo více souvisejících OLAP kostek nOLAP kostka na rozdíl od datových skladů zahrnuje předzpracované agregace dat podle definovaných hierarchických struktur dimenzí a jejich kombinací nTechnologie OLAP má několik variant (uvádím zde pouze dvě z nich): n nMOLAP - Multidimensional OLAP (speciální uložené v multidimenzionálních-binárních kostkách) n nROLAP – Relational OLAP (uloží data do relační DB) n Datová pumpa •Primární •transakční systém •(ERP,CRM,..) •Datový • sklad •Datová •pumpa Datová pumpa (kritické místo celé aplikace) •Datová pumpa, nebo-li ETL nástroj umožňuje efektivní zpracování velkých objemů z různých zdrojů a jejich uložení do datového skladu. Každý ETL nástroj musí umět: • •a) zpracovávat různorodá data obvykle fyzicky umístěná na různých místech, b)navrhovat transformace pro přenos dat mezi různými datovými formáty •Primární •transakční systém •(ERP,CRM,..) •Datový • sklad •Pumpa, provádějící •Transformaci dat • Zpracování = odstranění redundancí, agregace podle dimenzí, zapomínání dat •Zapomínání dat = úmyslné odstranění nepotřebných dat z datového skladu Datová pumpa (kritické místo celé aplikace) •Primární •transakční systém •(ERP,CRM,..) •Datový • sklad •Pumpa •Položky zboží •Položky ocenění •Věcné položky • •Zákaznické položky • Pumpa • • • • • •2002 (4)->2007 (2) • •2006 (1)->2006 (3) •časový filtr-dimenze čas • •Částečná změna •struktury dat a •případně další aplikace •dimenzí (oblast, typ •zákazníka,.. ) • • • • • •Test správnosti • dat (konzistence) •IF NOT OK THEN Opravná zpětná vazba=TRUE • • •Datová pumpa = Extraction Transformation and Loading = ETL