i rt Business Intelligence Skorkovský KAMI, ESF MU Principy BI zpracování velkých objemů dat tak, aby výsledek této akce manažerům pomohl k rozhodování při řízení procesů výsledkem zpracování musí být relevantní informace, kterou dostanou manažeři ve správném čase základní zdroj dat, která se často ukládají do datových skladů jsou ERP systémy (relační DB) získání informací jako výsledek strukturovaných dotazů musí probíhat rychle (krátká odezva) používá se pro řízení na strategické, taktické u operační úrovni Principy BI Definice 1 : BI je sběr a analýza dat, jejímž cílem je lepší porozumění a reakce na změny, kterým organizace neustále čelí ■ Definice 2 : BI je znalost podniku získaná za použití HW a SW technologií, která umožní přeměnit data organizace v informaci ■ Definice 3 : sada procesů, aplikací a technologií, jejíchž cílem je účinně a účelně podporovat rozhodovací procesy ve firmě. Tyto procesy podporují analytické a plánovací činnosti podniků a organizací a jsou postaveny na principech multidimenzionálních pohledů na podniková data Nástroje BI ERP systémy Dočasná úložiště (DSA: Data Staging Area) Operativní úložiště (ODS : Operational Data Store) Transformační nástroje (ETL : Extraction Transformation Loading) Integrační nástroje (EAI : Enterprise Application Integration) Datové sklady Datová tržiště OLAP Reportingové nástroje EIS (Executive Information Systém) Data Mining Omezení ERP jako poskytovatele dat Neumožňují rychle a pružně měnit kriteria výběru Okamžitý přístup uživatelů k velkým objemům agregovaných dat ERP jsou primárně určeny k pořizovaní dat a jejich aktualizaci V každém podniku se objem dat za každých pět let zdvojnásobí, což ovšem také znamená, že systém je zahlcen redundantními daty Vícedimenzionální pohled na data v ERP je problematický. DB ERP není pro tento pohled stavěná. Databáze, které vzniknou přeměnou primárních dat z ERP a jsou využívány např. OLAP technologií jsou pro drilling a slice operace optimalizovány Zjednodušené schéma využívání ERP Znalost metod řízení procesů a metrik v—t Klíčová rozhodnutí Klíčová znalost I Organizačně-technologické schéma podniku o o Q_ < O) r-l-fD_ rn i n 73 Vedení podniku :,ERP,EIS,datové sklady, reporting Řízení zdrojů, majetku a PAM OJ 3 » O o O 9 Řízení financí Řízeni nákupu, prodeje a logistiky i n 73 rn ISI S" N FT OLAP kostka http://www.databaseanswers.org/designing olap cubes.htm o< w Kategorie Skupina Název cena 240 Kč Jan Hromada ▲ ) =dimenze CIľ> C^ xxx_^ Nazev Popis Prodejce nodel: STAR c^ z> Rok Měsíc Den n -^^^Qhjl ■ 'j___J| VJ Relační dimenzionální model: SNOWFLAKE DIM: KategorieJD Kategorie_název DIM: SkupinaJD KategorieJD Skupina_název Výsledek ProduktJD OblastJD ČasJD Prodej_ks Prodej_Kč H-* DIM: Čas_ ID Cas_roK Čas_měsíc Čas_den ■^ i k ~ r" DIM: ProduktJD SkupinaJD Produkt_název DIM: ^^^B uuidbi_iu Oblast_název Datový sklad Kopie,, organizace dat Sumarizace dat Datový sklad Datoví horníci: • "Profíci" - vědí co chtějí • "Výzkumníci" - nepředvídané výsledky Dolování dat Definice ■ Datový sklad: základní komponenta BI ■ Datové tržiště : subjektově orientované analytické DB- součást datového skladu ■ Operativní datová úložiště : podpůrné analytické DB ■ Dočasná úložiště dat: úložiště dat před jejich zpracování do databázových komponent řešení BI Vrstvy pro analýzu dat ■ Reporting : ad hoc dotazovací proces do DB komponent BI ■ OLAP : pokročilé a dynamické analytické úlohy ■ Data Mining (dolování dat) : sofistikovaná analýza většího množství dat ■ Algoritmy pro dolování dat: ■ rozhodovací stromy Neuronové sítě Clustering a klasifikace I Datový sklad->datové tržiště (anglická verze) Data Warehouse Data Mart Data Mart Data Mart x Decision Support Information X Decision Support Information X Decision Support Information ■ Vysvětlení pojmu METADATA Metadata jsou data o datech, kde pomocí předem definovaných dat s jasně danou a popsanou strukturou uchováváme informace o jiných datech. Typickým příkladem metadatjsou katalogizační záznamy v knihovnách, což byla jejich původní funkce. J_ Architektura OLAP (anglická verze) Query/report Analysis Data mining i r — ---------------1 ■—i eh \^r~=^l Top tier: front-end tools METADATA viz definice na předchozím snímku Middle tier: OLAP server Bottom tier: data warehouse server Data Tl _dEE=Vl um Operational databases External sources I Hlavní komponenty BI a jejich vazby Reporting OUVP server Dolování dat Datové úložiště ö» Dolovaní dat ■ Rozhodovací stromy ■ Neuronové sítě ■ Genetické algoritmy ■ Clustering a klasifikace Dolování dat ■ Rozhodovací Stromy (RS) - prediktivní model, který se zobrazuje v podobě stromu, kde každý uzel určuje kritérium pro následní rozvětvení. Strom rozděluje veškerá zdrojová data do segmentů, kde každý list odpovídá určitému segmentu definovanému předešlými uzly.Data v jednom segmentu mají shodné vlastnosti. I B + tree-jeden z příkladů RS Dividers (no data) Searching „Sandy" ► = Search path I klient príjem konto pohlaví nezaměstnaný úvěr k1 vysoký vysoké žena ne ano k2 vysoký vysoké muž ne ano k3 nízký nízké muž ne ne k4 ^ nízký vysoké žena ano ano k5 nízký vysoké muž ano ano k6 nízký nízké žena ano ne k7 vysoký nízké muž ne ano k8 vysoký nízké žena ano ano k9 nízký střední muž ano ne k10 vysoký střední žena ne ano k11 nízký střední žena ano ne |k12 nízký střední muž ne ano Typy stromů : a) CART=Classificaion and Regression Trees (kriterium redukce směrodatné odchylky) b) CHAID =Chi-squared Automatic Interaction Detector http://lisp.vse.cz/~berka/docs/izi456/SL-IDT.PDF ní RS výroky Rozdělení postaviček podle atributů . =rx= Jr^ Ur J^E, přátelští =r^ nepřátelští -F^t, Hlava Úsměv Ozdoba Tvar těla Předmět Přátelský Kruh Ne Kravata Čtverec Šavle NE Čtverec Ano Motýlek Čtverec NIC ANO Kruh Ne Motýlek Kruh Šavle ANO Trojúhelník Ne Kravata Čtverec Balon NE Kruh Ano NIC Trojúhelník Květina NE Trojúhelník Ne NIC Trojúhelník Balon ANO Trojúhelník Ano Kravata Kruh NIC NE Kruh Ano Kravata Kruh NIC ANO I Rozhodovací strom jako logický výraz kravata ano ne Usmívá se (T ano ne / \ tělo jme 3úh. C^rteT> C5eVŕfte[> (^^ŕiteT> (^ŕfteT^) (Kravata=a no & usmívá_se=ano) V (Kravata=ne & tělo=3úh.) I Neuronové sítě Neuronové SÍtě (NS) - užívané pro tvorbu prediktivních modelů, Jsou založeny na obdobných principech, které napodobují organizaci nebo způsob chování lidského mozku, založeném na systému neuronů. Matematicky model neuronu Vstupní vektor X=(xl,......xn) Vektor vah vstupu W=(wlJ....Jwn) Vstupy neuronu Nelineárni prenosová funkce s prahem neuronu Vystup neuronu y=f(X*W-prah) ^3} axon\^*^ m axon hillock cel) bodyjÄ /fj\ dendrides \ f R synapses incoming axons Váhy vstupu Synapse je vazba a má dva typy : Excitační (vybuzující) a Inhibiční (tlumící) Učení neuronových sítí Učení neuronových sítí Cílem učeni j c nastavit váhy spojeniu?^ tak. aby siť vytvářela správnou odezvu na vstupní signál. Základní způsoby učení: * učení s učitelem (supervised learning) Neuronová síť se ueí srovnáváním aktuálního výstupu s výstupem požadovaným (učitel) a nastavováním vah synapsi tak. aby se snížil rozdíl mezi skutečným a požadovaným výstupem. k učitel výstup. ^ J_ Vícevrstvé neuronové sítě H rn [Aktivně: dopředný směr < in N_ Chyba se šíří zpětně | | [] 0 vstup Skoková funkce (dovolující jen zapnuto, vypnuto) je nahrazena spojitými sigmoidnírmi funkcemi OLAP databáze ■ OLAP DB představují jednu nebo více souvisejících OLAP kostek ■ OLAP kostka na rozdíl od datových skladů zahrnuje předzpracované agregace dat podle definovaných hierarchických struktur dimenzí a jejich kombinací Technologie OLAP ma několik variant (uvádím zde pouze dvě z nich): ■ MOLAP - Multidimensional OLAP (speciální uložené v multidimenzionálních-binárních kostkách) . ROLAP - Relational OLAP (uloží data do relační DB) I Datová pumpa Primárni transakční systém (ERP,CRM,..) Datová pumpa Datový sklad ^ Datová pumpa (kritické místo celé aplikace) Datová pumpa, nebo-li ETL nástroj umožňuje efektivní zpracování velkých objemů z různých zdrojů a jejich uložení do datového skladu. Každý ETL nástroj musí umět: a) zpracovávat různorodá data obvykle fyzicky umístěná na různých místech, b) navrhovat transformace pro přenos dat mezi různými datovými formáty Primární transakční systém (ERP,CRM,..) Pumpa, provádějící Transformaci dat Datový sklad Zpracování = odstranění redundancí, agregace podle dimenzí, zapomínání dat Zapomínání dat = úmyslné odstranění nepotřebných dat z datového skladu Datová pumpa (kritické místo celé aplikace) Datová pumpa = Extraction Transformation and Loading = ETL Primární transakční systém (ERP,CRM,..) Pumpa Položky zboží Položky ocenění Věcné položky v^ Zákaznické položky ___________ ____________y Pumpa Datový sklad ^_ "V Částečná změna struktury dat a případně další aplikace dimenzí (oblast, typ zákazníka,..) 2006 (l)->2006 (3) časový filtr-dimenze čas 2002 (4)->2007 (2) IF NOT OK THEN Opravná zpětná vazba=TRUE