Presentation is loading. Please wait.

Presentation is loading. Please wait.

資訊管理 第九章 資料採礦.

Similar presentations


Presentation on theme: "資訊管理 第九章 資料採礦."— Presentation transcript:

1 資訊管理 第九章 資料採礦

2 學習目標 1. 瞭解資料採礦的定義。 2. 瞭解資料採礦的流程。 3. 瞭解資料採礦的功能。 4. 瞭解商業智慧的發展。
1.  瞭解資料採礦的定義。 2.  瞭解資料採礦的流程。 3.  瞭解資料採礦的功能。 4.  瞭解商業智慧的發展。 5. 瞭解商業智慧的架構。

3 學習目標 6. 商業智慧應用涵蓋的範圍。 7. 瞭解資料採礦的模式。 8. 瞭解資料採礦的方法。 9. 瞭解不同資料採礦方法的特性。
6. 商業智慧應用涵蓋的範圍。 7. 瞭解資料採礦的模式。 8. 瞭解資料採礦的方法。 9. 瞭解不同資料採礦方法的特性。 10.瞭解資料採礦在企業的應用。

4 課前個案 差異化行銷,210萬會員各個擊破

5 問題討論 問題討論: 1.東森購物是如何利用資料採礦來作顧客服務? 2.東森購物利用資料採礦來作客服獲得了什麼好處?
3.除了顧客關係管理,東森購物還能如何利用資料採礦? 4.除了東森購物,還有哪些企業能夠導入資料採礦?

6 第一節 資料採礦簡介 何謂資料採礦 資料採礦並不純粹只是一種技術或是一套軟體,而是一種結合數個不同問題領域(problem domain)的專業技術(technologies),並且將之運用來找出資料中資訊的一個流程(procedure)。因此,資料採礦也就有了一些特性:

7 第一節 資料採礦簡介 (1) 資料採礦不只能協助我們看資料表面的現象,也能進一步地幫我們找出是什麼原因造成所看到的結果。
第一節 資料採礦簡介 (1) 資料採礦不只能協助我們看資料表面的現象,也能進一步地幫我們找出是什麼原因造成所看到的結果。 (2)   和一般傳統社會科學研究過程不同的是,資料採礦不用假設檢定,來推論某個現象發生的機會是否存在,也因此不會局限在自身先入為主的想法中。

8 第一節 資料採礦簡介 (3)   資料採礦沒有資料量的限制,不會因為資料量太大而造成一定顯著的盲點。同時,只要分析的工具與功能足夠,資料量與變數的限制,在資料採礦的過程中,將會減小。 (4)   資料採礦不單只是資料庫與分析工具及方法的概念,在描述現象與建構問題的過程中,必須透過某些專業的(professional)及專家的(expertise)的人員,來將問題領域(problem domain)的現象表徵建構出來,使得決策變數的形成,能夠充分地描述現象與問題的核心,以及完成分析之後的資料判讀工作。

9 第一節 資料採礦簡介 資料採礦的定義 (1) 資料探勘是一種資料轉換的過程,先由沒有組織的數字與文字集合的資料,轉換為資訊,再轉換為知識,最後產生決策。 (2) 資料探勘為知識發現的一個步驟,目的在於找出資料中有效的、嶄新的、潛在有用的、易於瞭解之樣式的一個不繁瑣的過程。 (3) 由資料庫(data base),資料倉儲(data warehouse)或其他資訊的儲存庫中利用己儲存之大量資料找到知識的過程,稱為資料探勘。

10 第一節 資料採礦簡介 (4)資料探勘是指尋找隱藏在資料中的訊息,如趨勢 (Trend)、特徵 (Pattern)及相關性 (Relationship)的過程,也就是從資料中發掘資訊或知識 (KDD)。 (5) 資料探勘,即為從資料庫中發現知識,因為近來大量商業化的資料湧入,使得需要此種技術以使得資料自儲存單元中分析、淬取,甚而能夠提供視覺化的決策支援。

11 圖10-1 資料探勘流程圖

12 第一節 資料採礦簡介 資料採礦的功能 (1)分類(Classification) (2)推估(Estimation)
第一節 資料採礦簡介 資料採礦的功能 (1)分類(Classification) (2)推估(Estimation) (3)預測(Prediction) (4)同質分組或關聯規則(Affinity grouping or association rule) (5)群集化(Clustering) (6)順序/因果(Sequential Modeling)

13 圖10-2 資料採礦的模式

14 第二節 商業智慧 商業智慧(Business Intelligence, BI)最早由Gartner Group 的Howard Dresner 於1989年提出的概括性名詞,用來描述使用以實際資料為基礎的系統,來增進企業決策制定的概念和方法。此定義的商業智慧為協助企業決策的概念及方法。其是一種將企業相關的業務資料,加以定量分析的資訊應用

15 第二節 商業智慧 商業智慧的發展 第一代以主機為基礎的查詢及報表系統使用,許多批次應用程式來提供使用者他們所需的資訊。
第二節 商業智慧 商業智慧的發展 第一代以主機為基礎的查詢及報表系統使用,許多批次應用程式來提供使用者他們所需的資訊。 第二代的系統有資料倉儲,比上一代的系統有更大的儲存容量。 第三代的商業資訊系統為商業智慧系統。

16 圖10-3 商業智慧系統架構圖

17 第二節 商業智慧 商業智慧應用涵蓋的範圍 商業智慧應用涵蓋的範圍相當廣泛,包括了績效管理計分卡工具(CMM Score card) 、企業規劃 (Enterprise Planning)、數位儀表板(Visualizer)、動態報表查詢 (Report Net)、線上分析處理 (OLAP)等,如圖10-2所示。

18 圖10-4 商業智慧應用流程圖

19 第二節 商業智慧 商業智慧的系統發展程序 商業智慧的系統發展程序,涵蓋商業智慧系統分析、商業智慧系統設計、商業智慧系統建置與管理三大程序。商業智慧系統分析:又可分為企業需求分析、資訊來源分析、邏輯資料庫設計、商業智慧系統架構設計等程序。商業智慧系統設計:又有實體資料庫設計、ETL(萃取、轉換與載入)設計、資料採礦方法設計、使用端程式設計(OLAP或EIS等)等程序。

20 圖10-5 商業智慧系統發展程序

21 課間實例 1 通路為王

22 第三節 資料採礦分析方法 資料採礦的模式 在資料採礦的領域中,包含了許多的模式 (Model) (如分類、推估、預測、群聚/分析、同質分組或關聯規則、描述及視覺化、順序等七種)及應用的方法 (Method)(如關聯式法則、時間序列分析、序列型樣、群組式法則、分類式法則、機率經驗分析等六種)(Mehta & Bhattacharyya, 2004),如圖10-4所示。

23 第三節 資料採礦分析方法 資料探勘的模式

24 第三節 資料採礦分析方法 資料採礦的方法 資料採礦的分析方法,隨著不同的理論與應用,可以區分成不同的類別。常見的方法有:決策樹分析,關聯性分析,類神經網路,基因演算法,多元尺度分析法,集群分析法,羅吉斯迴歸,聯合分析,時間數列分析法,貝氏網圖分析法,蟻群分析法,以及多變量分析等。

25 圖10-6 決策樹分析

26 第三節 資料採礦分析方法 1. 決策樹分析(Decision tree analysis)
第三節 資料採礦分析方法 1. 決策樹分析(Decision tree analysis) 決策樹是從一個或多個預測變數中,針對類別應變數的階級,預測案例或物件的關係;決策樹是資料挖掘(Data Mining)其中一項主要的技巧。實際應用上,當資料本身符合傳統方法的理論條件與分配假說,這些方法或許是較佳的,但是站在探索資料技術的角度,或者當傳統方法的設定條件不足,決策樹對於研究者來說,是較佳的建議技巧。

27 第三節 資料採礦分析方法 2. 關聯性法則(Association Rule)
第三節 資料採礦分析方法 2. 關聯性法則(Association Rule) Agrawal et al., (1993) 指出,在資料探勘的領域之中,關聯性法則(Association Rule)是最常被使用的方法。關聯性法則在於找出資料庫中的資料間彼此的相關聯性,而這種方法現已經普遍運用於各領域之中 。關聯式法則的產生由兩個參數來決定:支持度 (Support) 及可靠度 (Confidence) (Wang, et al., 2004)。

28 第三節 資料採礦分析方法 (1) 從資料庫中找出高頻的項目集合(Large Itemsets),亦即此集合之各個決策變數的組合,同時要大於所設定之最低支持度(Minimum Support)。 (2) 接著,用前述步驟所產生的高頻項目集合產生關聯性法則,並計算其可靠度,若高於所設定的最低可靠度 (Minimum Confidence),則此法則確定成立。

29 第三節 資料採礦分析方法 Apriori演算法
第三節 資料採礦分析方法 Apriori演算法 在關聯式法則之使用中,Apriori 是最為著名且廣泛運用的演算法。最早是由 Agrawal & Srikant 等兩位學者於 1994 年首先提出,而在這之後許多應用的相關演算法,僅是修正 Apriori 中的部分概念而來,例如 DHP 演算法、DLG 演算法、DIC 演算法與 FP-Tree 演算法等 。

30 表10-1 資料庫中交易紀錄

31 表10-2 Apriori演算法產生的候選項目集合和高頻項目集合

32 第三節 資料採礦分析方法 3.類神經網路(Neural networks)
第三節 資料採礦分析方法 3.類神經網路(Neural networks) 類神經網路(Neural Network),又名為平行分散處理器(Parallel Distributed Processors)、自我組織系統(Self-organizing Systems)、適應系統(Adaptive Systems)、類神經網路(Artificial Neural Networks)等,它使用大量簡單的相連人工神經元來模仿生物神經網路的能力。人工神經元是生物神經元的簡單模擬,它從外界環境或者其它人工神經元取得資訊,並以非常簡單的運算,將輸出其結果到外界環境或者其它人工神經元,以便用於推估、預測、決策、診斷。

33 圖10-7 五維度的子集合示意圖

34 第三節 資料採礦分析方法 類神經網路是基於腦神經系統研究所啟發的一種資訊處理技術,它由巨量的神經細胞(或稱神經元)組成,包括:
第三節 資料採礦分析方法 類神經網路是基於腦神經系統研究所啟發的一種資訊處理技術,它由巨量的神經細胞(或稱神經元)組成,包括: (A). 神經核(soma):神經細胞呈核狀的處理機構。 (B). 軸索(神經軸)(axon):神經細胞呈軸索狀的輸送機構。 (C). 數突(神經樹)(dendrites):神經細胞呈樹狀的輸出入機構。 (D). 突觸(神經節)(synapse):神經樹上呈點狀的連結機構。

35 圖10-8 神經元模型

36 圖10-9 人工神經元模型

37 第三節 資料採礦分析方法 4. 集群分析(Cluster analysis)
第三節 資料採礦分析方法 4. 集群分析(Cluster analysis) 群集分析是一種傳統的多變量統計分類方法,其主要是探討如何將資料或物件予以分群(cluster)或是分類(classify),主要目的就是依照收集的樣本將它分成數個群數,使得群內個體間高度的同質性,以及不同群體高度的異質性,而此資料或物件的表現方法最常用的是一組特徵向量。然而目前群集分析主要分成多變量分析、類神經網路及遺傳演算法等。

38 圖10-10 集群分析方法架構圖

39 第三節 資料採礦分析方法 5. 基因演算法(Genetic algorithm)
第三節 資料採礦分析方法 5. 基因演算法(Genetic algorithm) 基因演算法是Holland (Goldberg, 1989)發展出的演算法,它是一種極有效的搜尋最佳解的方法,其基本觀念是以達爾文的進化論為基礎,模擬自然界”適者生存,不適者淘汰”的進化程序。每一種物種的特性均來自於該物種上一代的基因排列,而進化則是代代之間的基因發生變化。

40 第三節 資料採礦分析方法 基因演算法的基本觀念
第三節 資料採礦分析方法 基因演算法的基本觀念 遺傳演算法的演算過程中包含幾個重要部分(Goldberg, 1989),分別是編碼與解碼 (Encoding & Decoding)、初始群數(Initial population)、適應函數(Fitness function)、複製(Reproduction)、交配(Crossover)與突變(Mutation)等。

41 第四節 資料採礦在企業的應用 資料採礦的應用對於每個企業來說是一項策略性的計畫,目前最主要的應用有三大方向,都是應用在市場推廣與顧客關係管理方面,分別為: (1)顧客特性分析(Customer Profiling Analysis): (2)目標市場分析(Targeted Marketing Analysis): (3)市場購物籃分析(Market-Basket Analysis):

42 圖10-10 集群分析方法架構圖

43 第四節 資料採礦在企業的應用 資料採礦最主要是為了達成商業目標所建置,但是否採用此系統的考慮因素,應該還包括其他的優點,以下是從商業觀點,在資料採礦系統建構時應該需要特別考慮的幾項要點: (1)商業利益(Business Benefit):我們都知道企業以賺錢為最終考量,採用一個資料採礦的系統,到底能為公司帶來什麼利益?所以如何衡量資料採礦系統帶來利益的多寡,是商業利益上很重要的問題。

44 第四節 資料採礦在企業的應用 (2)技術知識(Technical Know-how):資料採礦的系統會包含很多複雜的專業知識,如何設計一個讓一般資訊管理人員不必知道許多專業知識下就可以操作的系統,也是一個資料採礦系統設計上的一個環節。 (3)易懂與說明(Understandability and Explanations):結果是否很直覺或很難了解?對每項規則是否有清楚的說明? (4)進一步詢問(Follow-up):可以進一步詢問系統的程度?有些初步結論需要經過中間人的解釋,那需要的程度為何?盡可能減少詢問所花費的時間,改善系統進一步詢問的能力。

45 第四節 資料採礦在企業的應用 (5)商業上顧客(Business Users):系統能容納商業顧客的人數為何?系統是否可供顧客做日常決策的知識管理?顧客可提供問題給系統等。 (6)正確、完整、同步(Accuracy, Completeness and Consistency):系統產生的結果正確率為何?是否有遺漏任何規則?在多人存取下,能否保持結果的一致性? (7)自動分析(Incremental Analysis):可以自動化分析每日或每週資料嗎?可以自動比較月與月之間規則的變化嗎?

46 第四節 資料採礦在企業的應用 (8)資料的掌控(Data Handling):系統可以處理多大的資料?可以直接從資料庫中存取資料或需要萃取資料? (9)整合性(Integration):如何將資料採礦系統整合於日常資訊操作系統或公司內部網路(Intranet)或資料庫? (10)維護人員(Support Staff):系統安裝執行後需要投入多少人員維護此系統?如何訓練此人員來維護系統?

47 課間實例 2: udn聯合線 老牌媒體拓展虛擬版圖

48 個案研究 花旗銀行「空中分行」

49 問題討論 1.花旗銀行是如何利用資料採礦來作顧客服務? 2.花旗銀行利用資料採礦來作客服獲得了什麼好處?
3.除了電話客戶服務,花旗銀行還能如何利用資料採礦? 4.除了花旗銀行,還有哪些服務業企業能夠導入資料採礦?

50 課程結束


Download ppt "資訊管理 第九章 資料採礦."

Similar presentations


Ads by Google