商業智慧 Business Intelligence 賴炯廷 Roger Lai 6,Nov 2011
Course Catalog Chapter 1 --- 商業智慧 (Business Intelligence) Chapter 2 --- 資料倉儲 (Data Warehousing) Chapter 3 --- 資料倉儲之建置 Chapter 4 --- 商業智慧系統之建置及步驟
應用程式與資料儲存 功能: 單一應用程式開發:人事薪資、會計、進銷存… ERP:正航、高格、鼎新、Oracle、SAP… POS、電子商務… 網路: 單機 Modem、區域網路 Internet 資料儲存: 一般檔案:db、dbf、dat、txt、xls、csv… 關聯式資料庫:MsSql、Oracle、DB2、Sybase…
Chapter 1 商業智慧 (Business Intelligence) Topics: 商業智慧的定義 商業智慧系統與交易系統 商業智慧的作用 商業智慧系統與全企業資訊系統
商業智慧(Business Intelligence,BI)的定義眾說紛紜。 大多數人對商業智慧的理解如同瞎子摸象,都只是片面的理解: Chapter1-1 / 4 商業智慧的定義 商業智慧(Business Intelligence,BI)的定義眾說紛紜。 大多數人對商業智慧的理解如同瞎子摸象,都只是片面的理解: 高級管理人員資訊系統(EIS)? 管理資訊系統(MIS)或是決策支援系統(DSS)? 資料庫技術?資料倉儲(DataWarehouse)?資料超市(Data Mart)? 資料整合與清理(DataCleaning)工具?資料採礦(DataMining)? 查詢和報告工具?線上分析處理工具(OLAP)? 統計分析?分析性ERP?分析性CRM?分析性SCM? 企業績效管理?平衡計分卡(BSC)? 真正的商業智慧包括上述的一切但又不僅止上述的一切。 商業智慧不是一個產品,它是將企業內外部的交易性資料,經過整合、分析後,轉換為資訊,然後透過決策支援應用工具,以提供企業改善決策品質,擬訂有效政策,以達到提高企業競爭力及經營績效之目的。
Chapter1-2 / 4 商業智慧系統與交易系統 管理的資料的類型不同: 交易系統管理的是最近的交易情況,保留極有限的歷史情況(通常只有60~90 天)。 商業智慧系統維持來自多個交易系統、好多年的交易情況,許多企業都保有幾十甚至上百個Terabytes 的資料。 商業智慧系統通過總結和計算建立需要追蹤的商務指標。 商業智慧之所以要從交易系統中獨立出來,是因為二者放在一起會互相影響、兩敗俱傷,或者不能保證查詢、分析和報告所需要的速度,影響彼此的正常運行。
Chapter1-2 / 4 商業智慧系統與交易系統(續1) 系統設計上的差異 交易系統 商業智慧系統 流程自動化 決策支援 設計目標為效率 設計目標為效果 為商務設定結構 適應商務變化 對事件做出反應 預測事件 創造最優化的交易環境 創造最優化的查詢和分析環境
Chapter1-2 / 4 商業智慧系統與交易系統(續2) 資料類型上的差異 交易系統 商業智慧系統 當下 歷史 不斷更新 定期更新 因來源不同而不同 整合的 以應用軟體導向的 以主題為導向的 只有細節層面的 細節的、總結過的和衍生的均有
Chapter1-3 / 4 商業智慧的作用 無知是現代企業的最大威脅,不知不覺的風險是巨大的,而一知半解可能比一無所知危害更大,因為我們會帶著錯誤的假設做出決定和採取行動,同時還胸有成竹覺得勝券在握,這就好比“盲人騎瞎馬,夜半臨深池”。商業智慧所要爭取的就是充分利用企業日常經營過程中搜集的大量資料,並將它們轉化為資訊和知識來避免企業中的瞎猜行為和無知狀態。 商業智慧可以在以下4 個方面發揮作用: (1) 了解營運狀況 (2) 衡量績效 (3) 改善關係 (4) 創造獲利機會
Chapter1-4 / 4 商業智慧系統與全企業資訊系統 企業導入BI 1.蒐集不同資料來源 2.大量的資料進行整合與分析 3.摘要彙總成有效資訊 4.結果以報表或圖表方式呈現 全企業資訊系統 Enterprise Information System 1.高階管理者得以運用 2.可擴展至企業內部有資 訊分析需求的經理 3.一般員工也有使用權限 4.依據個人工作職務需求 取得相關資訊及使用分 析工具 1.企業流程更加緊密結合 2.員工對客戶需求或外界 變化能夠快速反應,能 夠更快地作出更佳的決 定
Course Catalog Chapter 1 --- 商業智慧 (Business Intelligence) Chapter 2 --- 資料倉儲 (Data Warehousing) Chapter 3 --- 資料倉儲之建置 Chapter 4 --- 商業智慧系統之建置及步驟
Chapter 2 資料倉儲 (Data Warehousing) Topics: 資料倉儲的定義 OLAP 和OLTP 之差異 資料倉儲與傳統資料庫的不同 資料倉儲的基本構成要素 資料倉儲的應用範圍
為了進行資料分析,將各營運系統運作中之業務資料,加以整合、強化與摘要彙總成有效資訊,稱為資料倉儲。 Chapter2-1 / 5 資料倉儲的定義 資料倉儲的定義: 資料倉儲是一種程序處理: 為了進行資料分析,將各營運系統運作中之業務資料,加以整合、強化與摘要彙總成有效資訊,稱為資料倉儲。 資料倉儲的特性: 企業關心的主題為導向 經過整合的資料 資料隨時間而有所不同 使用者無法擅自更改的資料
Chapter2-2 / 5 OLAP和OLTP 之差異 連線交易處理(On-Line Transaction Processing OLTP): 指經由資訊網路與資料庫或檔案的結合,以交易資料進行即時處理,有別於傳統的批次處理。 典型用在自動化的資料處理工作,其主檔案龐大、交易數量頻繁,常用於訂單輸入、銀行業務上,性質是結構化且重覆性。 線上即時分析(On-Line Analytical Processing,OLAP): 即時的、快速的,提供整合性的決策資訊。 主要目的在支援決策資訊的分析而非線上交易處理。 常需擷取非常大量的歷史資料(趨勢分析)。 常需對多維度及彙整型的資訊進行複雜的分析。 常需以不同時間表來比較,如月、季、年。 使用者所需的資料已經事先定義並計算完成,因此查詢速度快。
Chapter2-2 / 5 OLAP和OLTP 之差異(續) User 操作人員 決策人員中高階管理人員 系統導向 當前資料,細節性資料 資料分析導向 Data 歷史性資料,整合性資料 DB Design 採用實體關聯式ER模型和應用導向的資料庫設計 採用星狀或雪花模型和主題導向的資料庫設計 View 主要關注一個企業或部門內部的目前資料 涉及歷史資料或不同組織的資料 Focus Data in Information Out Access 線上更新 大部分是唯讀操作
Chapter2-3 / 5 資料倉儲與傳統資料庫的不同 目的 資料分析及制定決策 以異動為主 資料來源 多 少 資料結構 關聯式資料庫 資料模型 多維度資料 正規化資料 資料形式 解析性資料 異動式資料 資訊更新 內容隨著資訊增減而變動 內容定期更新 資料重複性 允許 不允許 資料大小 龐大(歷史資料) 小 資料存取 OLAP與OLTP OLTP
Chapter2-4 / 5 資料倉儲的基本構成要素 資料庫(NCR Teradata,Sybase IQ…) 來源資料庫(source database / raw data) 根據企業各主體(subject)間的關係,訂出適當的資料模型 用以建立資料模型的工具(Erwin…) 資料的萃取、轉換及載入工具(簡稱ETL Tools)(User define App,Microsoft SSIS,IBM Datastage…) 管理、監督及備份機制 資料品質管理 OLAP線上分析處理 系統前端的資料存取與分析工具(IBM Cognos,Oracle Hyperion…)
當企業的營業據點越多、產品越多樣化、市場規模越大時,越需要一個強而有力的資料倉儲系統作為後盾。 Chapter2-5 / 5 資料倉儲的應用範圍 當企業的營業據點越多、產品越多樣化、市場規模越大時,越需要一個強而有力的資料倉儲系統作為後盾。 因資料儲存在不同的系統或平台,無法輕易地合併,因不同系統上的資料往往命名方式、格式、內容、意義或檔案大小都沒有一致的規格,故形成資料很多卻不堪用的窘境,但在資料倉儲的整合下,將資料「化腐朽為神奇」,企業決策者將不再為此困擾。 需藉由分析歷史資料以對未來進行預測,一旦企業運作發生異常時,經理人更能藉助新舊資料的比對,早期發現問題,並即時採取應變措施。 「組織扁平化」資料分析不再交由全職分析師來做,而是透過經理人親自動手,故對於常常日理萬機的經理人來說,一個功能完備、反應迅速的資料倉儲更形重要。 希望建立一個架構開放、易於抓取、更新、查詢的資料模型,並運用資料採礦、線上分析以建立預測性模型。
Course Catalog Chapter 1 --- 商業智慧 (Business Intelligence) Chapter 2 --- 資料倉儲 (Data Warehousing) Chapter 3 --- 資料倉儲之建置 Chapter 4 --- 商業智慧系統之建置及步驟
Chapter 3 資料倉儲之建置 Topics: 資料倉儲結構設計 資料採礦 線上分析處理
規劃觀點 DW Chapter3-1 / 3 資料倉儲結構設計 Output 由上而下法(Top-Down) 由下而上法(Bottom-Up) 並行法(Combined Approach) 規劃觀點 Monitoring Administration Data quality check Exact Clean Transform Load Refresh Cube Output OLTP Database DW OLAP Server Cube External sources Text、Excel…etc Data Mart Backup OLAP Server Data Mart data Bottom tier: Data Warehouse Server Middle tier: OLAP Server Top tier: Front-end tools 資料模式 Star Schema Snowflake Schema Constellation Schema 建立邏輯/實體模型 Logical data model Physical data model 資料轉換 Extraction Transformation Loading FRL 資料來源分析 BI Applications
規劃觀點 DW 由上而下法(Top-Down) 以整體需求來設計及規劃,資料倉儲使用正規化的實體關聯模式(E-R Model)。收集傳統作業系統資料,經過萃取、清洗、轉換機制,將資料載入資料倉儲中,再根據各部門決策需求複製到資料超市中。 優點:資料具完整性、一致性; 缺點:缺乏彈性,先建資料倉儲涉及整體企業異質性資料,需要花費更多的人力、財力與時間來建置。 Database SALE Data Mart DW Pure Excel file ACC Data Mart Pure Txn file EMP Data Mart
規劃觀點(續1) DW 由下而上法(Bottom-Up) 收集日常作業性資料,資料由各部門自行萃取、清洗及轉換機制,將資料載入資料超市中,再將資料透過複製的機制上載、彙集至資料倉儲中。 優點:依特定需求建置資料超市,簡單快速低成本、較有彈性。 缺點:不同的異質資料來源,經資料超市分別收集再整合至資料倉儲,可能會有不一致狀況,獨立性資料超市並不包含詮釋資料,使得資料倉儲整合困難。 Database Pure SALE Data Mart DW Excel file ACC Data Mart Txn file EMP Data Mart Pure
規劃觀點(續2) DW 並行法(Combined Approach) 取由上而下法及由下而上法之優點,先就企業整體需求及資料模式進行規劃,再開發各部門資料超市,並將資料彙集至資料倉儲中。 Database Pure 整體企業需求 (Top-Down) SALE Data Mart DW Excel file Pure ACC Data Mart Txn file Pure EMP Data Mart
資料倉儲的資料模式 資料倉儲的資料模式都是多維度模式,包含星狀綱要(Star Schema)、雪花狀綱要( Snowflake Schema)及事實星座綱要(Fact Constellation Schema)。 一個完整的多維度模式包含一個以上的事實表格(Fact Table)及多個維度表格(Dimension Table)。
資料倉儲的資料模式 - Dimension Dimension(分析維度)的定義: 來自Cube中的欄位,如:期間、區域 可階層化定義 Locations Dimension Europe Germany Far East Americas Belgium France Level = Region Level = Country Categories ...
資料倉儲的資料模式 - Measure Measure(度量值)的定義: 來自Cube中的數值資料型態欄位,如:Inventory Qty、Sales Forecast 可依所指定的維度,提供彙總資料
資料倉儲的資料模式(續1) 星狀綱要:一個中心表格(事實表格)有大量不重複的資料,以及較小的附屬表格(維度表格)。(最常被使用)
資料倉儲的資料模式(續2) 雪花狀綱要:雪花狀綱要是星狀綱要的變形,部份維度表格經正規化後,進而分裂成新維度表格。雪花綱要模式與星狀綱要模式最主要的差異,在於雪花模式的維度表格被正規化,以減少重複、容易維護及節省儲存空間。
資料倉儲的資料模式(續3) 事實星座綱要:以多個的事實表格共用維度表格,使用到多個事實表格及需要不同階層的彙總資料。
資料探勘並不只是一種技術或是一套軟體,而是一種結合數種專業技術的應用。 資料探勘主要功能可包含下列幾項: Chapter3-2 / 3 資料採礦 資料採礦也稱為資料探勘,是指透過一個特定演算法找尋隱藏在資料中的訊息,如趨勢、特徵及相關性的過程,也就是從資料中發掘資訊或知識(有人稱為Knowledge Discovery in Databases, KDD),也有人稱為「資料考古學」或「功能相依分析」。 資料探勘並不只是一種技術或是一套軟體,而是一種結合數種專業技術的應用。 資料探勘主要功能可包含下列幾項: 1. 分類(Classification) 2. 推估(Estimation) 3. 預測(Prediction) 4. 關聯分組(Affinity grouping) 5. 同質分組(Clustering) 6. 順序(Sequential)
線上分析處理是一種快速擷取多維資訊和了解企業整體概況的工具。 Chapter3-3 / 3 線上分析處理 1960年代,關聯式資料庫之父E.F.Codd提出了關聯式模型,促進線上交易處理(Online Transaction Process, OLTP)的發展。 1993年,E.F.Codd提出了OLAP概念,認為OLTP不能滿足終端使用者的需求,因此提出了多維度資料庫和多維度分析處理的概念,即線上分析處理(Online Analytical Process, OLAP) 線上分析處理為資料倉儲的一種應用,主要是針對資料倉儲進行資料的處理與分析,可滿足決策者對大量多維資訊做分析比較之需求,以幫助洞察現況或決策分析。 線上分析處理是一種快速擷取多維資訊和了解企業整體概況的工具。
Cube Cube的定義: 是一種多維資料模型 將經常會被查詢之資料,事先加以運算、彙總與儲存 以立體多維資料結構,提供快速線上查詢與分析 When? Who is Selling? What Product? How Much? Where?
線上分析處理 - 資料分析方式 資料切片 (slicing) 資料切丁 (dicing) 資料上捲 (roll-up) 資料下鑽 (drill-down) 資料旋轉 (pivot)
線上分析處理- 資料分析方式(續1)
線上分析處理 - 資料分析方式(續2)
線上分析處理 - 資料模式 MOLAP (Multidimensional OLAP): ROLAP(Relational OLAP): 透過標準或擴充式的關聯式資料庫(RDBMS)來建置資料倉儲,它將資料儲存在關連式資料庫中,透過SQL方式來讀取資料。 HOLAP (Hybrid OLAP)三種方式: 具ROLAP和MOLAP兩種功能,當使用者需要看合計資料時,就用MOLAP分析功能,以提高分析速度。當使用者需要看明細資料時,就運用ROLAP分析功能,讓使用者看到明細資料,屬於混合型線上分析系統。
Course Catalog Chapter 1 --- 商業智慧 (Business Intelligence) Chapter 2 --- 資料倉儲 (Data Warehousing) Chapter 3 --- 資料倉儲之建置 Chapter 4 --- 商業智慧系統之建置及步驟
Chapter 4 商業智慧系統之建置及步驟 Topics: 系統需求及關鍵績效指標 商業流程業務探索 資料探索 資料模型 資料擷取、轉換、載入 (ETL) 資料倉儲及資料超市 資料展現及應用商業智慧的作用
商業智慧系統 - 實施階段&人員 DW System Analysis : Data Modeler : (資料模型) (系統需求,商業流程及資料探索) Understand the domain knowledge and OLAP conception Data Modeler : (資料模型) Understand OLAP conception ,Data Model and DW DataBase Basically. SQL Programmer : (ETL) Understand SQL Syntax and DW DataBase Basically. OLAP Programmer : (資料超市) Understand Window environment and OLAP tool General User : (BI Tool應用) Understand the domain knowledge and OLAP conception Power User : (BI Tool應用) Understand OLAP conception, Data Model, SQL Syntax and OLAP tool Transactional Systems (OLTP) Transactional Data ERP WMS HR MES Data Transformation Extraction/Transformation/Load Data Modeling Data Warehouse DW Replicated Data to Physical Data Mart or Departmental Warehouse Data Mart Data Mart Single Version of the Truth Business Users Power Analyst Knowledge Worker Executive/ Manager Customer Contact Application Server
商業智慧系統 – 建置步驟 MAJOR STEPS Function Requirement List (FRL) 由上而下法(Top-Down) 由下而上法(Bottom-Up) 並行法(Combined Approach) Business Discovery Data Warehouse Consulting Extraction Transformation Loading (ETL) System Business Process Data Warehouse DW Logical/Physical Data Modeling Information Discovery Multidimensional Data Model (BI DataMarts) Star Schema Snowflake Schema Constellation Schema DW Architecture Design Data Warehouse Planning Data Warehouse & BI DataMarts Design & Implementation BI Applications (OLAP & Data Mining) MAJOR STEPS
Chapter4-1 / 7 系統需求及關鍵績效指標 系統需求:問卷訪談 主題 方向 目的 Report & Chart Format及分析方法 關鍵績效指標(KPI):為組織目標達成的重要績效指標 訂定各項KPI 檢視目標的達成度 例:市場佔有率、交貨達成率、產品良率及不良率…
Subject Define:確認主題及需求 Chapter4-2 / 7 商業流程業務探索 Subject Define:確認主題及需求 Fact Finding :經由不斷的訪談以了解資料流程,並識別資料新鮮度及歷史性及一致性、主要報表,並發掘資料環境或技術問題及管理層面問題 Data Validation :確定資料範圍,識別資料萃取及轉換之複雜度 Observations & Suggestions :提供建議 Environmental Process Management Business Discovery Output/Deliverables
Key Measures的構成要素、測試其相關之資料、確定其定義及公式、分解成更小單元 Source system:收集來源系統資訊 Chapter4-3 / 7 資料探索 Measures: Key Measures的構成要素、測試其相關之資料、確定其定義及公式、分解成更小單元 Source system:收集來源系統資訊 Source Entities:收集Entities資訊 Domains & Glossary:統一所有欄位及定義 Measures from attributes: 正規化、依3rd NF重新對應欄位並產出資料模型 Data Inventory Report : 確定數據清單
Chapter4-4 / 7 資料模型 - LDM/PDM Differences Logical Data Model (LDM) Physical Data Model (PDM) Model of the business Document business rules and relationships, use as a tool with business users to confirm understanding Use to confirm we can answer business questions Keep as the blueprint - the clean business view before physical changes Database independent Model of the database Include physical data attributes and requirements – data type, size, indexes Modify for performance after testing - depends on usage - types of queries, frequency, volume (might add derivable fields, merge subtypes, separate history, add summaries) Database dependent Naming Standards
ETL(Extract / Transform / Load)就是資料的萃取、轉換與提煉及載入。 Chapter4-5 / 7 資料擷取、轉換、載入 ETL(Extract / Transform / Load)就是資料的萃取、轉換與提煉及載入。 所謂提煉就是從不同的資料庫中萃取所需的資料,並將資料欄位名稱、位元數與格式統一,進而消除重複的資料。 ETL的工具包括資料萃取、資料轉換、資料清理及資料載入 資料萃取: 由於資料倉儲是依照主題的分是來組織資料,因此只需要從交易資料庫中,萃取出系統所需的那一部分資料。 例如:要分析客戶的購買行為,則只需要將與客戶購買行為相關的資料萃取出來,至於其他與客戶不相關的資料如員工資料就不需要放入資料倉儲中。 資料清理: 當資料存放於不同的資料庫中,如果不同資料庫間的資料不是即時的,則有可能出現資料不同步的情況。對決策支援系統而言,最重要的就是決策的準確性,因此,為確保資料倉儲中資料的準確性,從多個資料庫中擷取資料時,必須針對資料加以清理,以確保資料的正確性。
Chapter4-5 / 7 資料擷取、轉換、載入(續1) 資料轉換: 由於不同的資料庫可能使用不同的資料庫廠商的產品,例如IBM DB2、ORACLE、Informix、Sybase等,各種資料庫提供的資料類型可能都不一,因此,必須透過資料的轉換,以便將資料轉換成統一的格式。 資料載入: 資料載入物件主要負責將資料,依據實體資料模型所定義的結構載入資料倉儲中,這些步驟包括淨空資料欄、填充空格及有效性的檢查等。 資料載入作業一般則是分為兩個不同的程序,即第一次資料載入的「起始總體歷史資料」及之後的「例行增加部分資料」載入作業。 資料品質管理:資料載入資料倉儲後,除應監督管理ETL作業是否正常外,更應持續檢查資料之品質以確保資料之正確性及精準度。
資料倉儲(Data Warehouse) 資料超市(Data Mart) Chapter4-6 / 7 資料倉儲及資料超市 資料倉儲(Data Warehouse) 資料倉儲收集全企業所有主題的資訊,提供整體的資料整合,通常從一個以上作業型系統或外部的資訊供應商,以及跨功能性的範圍。其包括即時的詳細資訊及彙總的資訊。 資料倉儲建立的方法通常是由上而下(Top-Down)統籌的資訊服務單位主導,開發時程耗時。 資料超市(Data Mart) 資料超市是資料倉儲的子集,提供某一群使用者或某一部門使用,其範圍局限於特定主題。 資料超市開發時程只要幾個星期,而非幾個月或年;建置方式與企業資料倉儲不同是由下而上(Bottom-Up)利用部門的資源來建置。
BI Portal Detail Report Dashboard Chapter4-7 / 7 資料展現及應用 User Login Domain ID:xxx Password:xxx BI Portal Detail Report Dashboard Link Drill Through OLAP Analysis
DASHBOARD Frame
OLAP Analysis Frame
Detail Report Frame Drill Down Drill Up
Change to OLAP Analysis
Thank You