資訊管理 第九章 資料採礦.

Slides:



Advertisements
Similar presentations
第 4 章 基于遗传算法的随机优化搜索 4.1 基本概念 4.2 基本遗传算法 4.3 遗传算法应用举例 4.4 遗传算法的特点与优势.
Advertisements

第一篇 管理資訊系統之 基本概念. 學習目標  認識現代企業中對資訊人員的挑戰和機會  了解造成資訊管理日益受到重視的環境因 素  區分資料與資訊  建立系統觀點  了解管理資訊系統的分類  認識組織中的資訊需求層面.
陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
企業入口網站(EIP)/ 應用系統(ERP, SCM, CRM)
MRP到ERPII之演進 1970年代 1980年代 1990年代 2000年代 企業應用軟體 MRP MRPII ERP EERP
第 16 章 資訊管理、 系統分析與設計.
第五章 資訊科技基礎建設與新興科技.
網際網路行銷 Web 2.0 第十一章 網路行銷工具 — 從大眾到小眾.
高等教育創新轉型方案 教育部
数据分析及研究方法 ——以如何从事宏观经济课题研究为例
清华大学出版社 北京交通大学出版社 吴柏林 编著
第一章 緒論.
第七章 企業電子化.
Some Knowledge of Machine Learning(1)
METAEDGE Corporation Taiwan
第四章 B to B電子商務.
第四章 B to B電子商務.
資料採礦與商業智慧 第四章 類神經網路-Neural Net.
資料探勘(Data Mining)及其應用之介紹
CH3 關聯規則 授課老師:簡禎富 講座教授 簡禎富、許嘉裕©2014 著作權所有.
Handel Cheng, Ph.D. Dr. Jane Formula Tech. CO., LTD.
<<Oracle DBA工厂-Oracle从入门到精通>>全套视频教程(一)之 安装部署 讲师:黄利强 QQ:
第五章 遗传算法.
一、现状与问题 整体竞争能力不强 服务品质不高 市场秩序失范 管理效率低下 旅游旺季人满为患 资源和环境保护不力 欺客宰客的现象时有发生
Human Resource Planning
資訊管理 第三章 數位化企業.
数据仓库与数据挖掘 复习.
第六章 计算智能 6.1 概述 6.2 神经计算 6.3 进化计算 6.4 模糊计算 6.5 粗糙集理论 6.6 其他.
第六章 智慧型的行銷資訊系統 課程名稱 行銷資訊系統 進度 第六章 授課老師 總時數 3小時 線 行銷資訊系統 – E世代的行銷管理.
顧客關係管理: CRM: Customer Relationship Management
線上分析處理、 資料採礦與 Analysis Services
植生工程植材選用決策支援系統 指導:錢滄海 授課:林俐玲 學生:楊孟叡.
第二章 資訊管理的應用系統.
ERP-企業資源規劃導論 第一章 企業資源規劃概述 1.1.
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
Chap 1:企業資源規劃簡介 ERP的定義與沿革 企業為何使用ERP ERP導入 以ERP為基礎的企業E化
運籌管理 Chapter 12 資訊科技與運籌管理電子化 祝天雄 博士 99年12月 日.
第 9 章 基本的資料探勘、線上分析處理、資訊呈現.
資料探勘-案例期末報告 SQL Server 2008 Analysis Service
從ERP到企業E化.
第一講:CRM概論 2010 CRM秋季班 輔仁大學資訊管理學系顧客關係管理 林文修 輔仁大學資訊管理學系所
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
第1章 SQL Server 2005 关系数据库简介.
CH.5 CRM的核心議題 與ERP、SCM及BI之整合應用
第一节 客户关系管理 1、客户关系管理的产生 2、客户关系管理的基本概念 3、客户关系管理的作用 4、CRM与ERP的关系
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
SPSS Modeler資料探勘實務基礎 資料探勘與Modeler使用介紹 資料分類-C5.0和CR&T 模型
國立政治大學 資訊科學研究所 知識系統實驗室 研究生: 鄭雍瑋 指導教授: 劉吉軒 博士 中華民國九十五年六月三十日
Data Mining 第八組 B 萬佳育 B 葉書蘋.
基于类关联规则的分类 Classification Based on Class-Association Rules
本章內容 資訊與資訊科技 資訊科技的內部應用 資訊科技的外部應用 資訊科技對組織設計的影響 組織控制與資訊科技 Chapter 9
第二章 資訊管理的科技觀點.
可能受益的商业活动 客户保留 目标营销 欺诈检测 购物篮分析 客户细分 客户忠诚度 信用打分 信用风险评估 营销组合管理和评估 盈利能力分析
第一章 決策支援與企業智慧.
資料精簡 (Data Reduction).
資訊科技與組織管理. 資訊科技與組織管理 瞭解資訊與資訊科技的基本概念 瞭解資訊科技在組織內部的主要應用 瞭解資訊科技在組織外部的主要應用 瞭解資訊科技的應用對組織結構設計的影響 瞭解組織控制與資訊科技間的關係 組織理論與管理 Chapter 5 資訊科技與組織管理.
指導老師:謝文魁 老師 組員:邱獻德 蔡雅芳 鐘筱嬿 陳姿伶 王彥婷
第十章 線上行銷研究.
高等教育創新轉型方案 教育部
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
第十二章 顧客關係管理.
领导结构 含义 正式结构 非正式结构.
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017.
Enterprise Resource Planning System 企業資源規劃系統
供應鏈管理之決策支援系統 Decision-Support Systems for Supply Chain Management
企業導入客戶關係管理(CRM) 建置需求與期望
第十一章 基因演算法 (Genetic Algorithms)
商業智慧實務 Practices of Business Intelligence
Presentation transcript:

資訊管理 第九章 資料採礦

學習目標 1. 瞭解資料採礦的定義。 2. 瞭解資料採礦的流程。 3. 瞭解資料採礦的功能。 4. 瞭解商業智慧的發展。 1.  瞭解資料採礦的定義。 2.  瞭解資料採礦的流程。 3.  瞭解資料採礦的功能。 4.  瞭解商業智慧的發展。 5. 瞭解商業智慧的架構。

學習目標 6. 商業智慧應用涵蓋的範圍。 7. 瞭解資料採礦的模式。 8. 瞭解資料採礦的方法。 9. 瞭解不同資料採礦方法的特性。 6. 商業智慧應用涵蓋的範圍。 7. 瞭解資料採礦的模式。 8. 瞭解資料採礦的方法。 9. 瞭解不同資料採礦方法的特性。 10.瞭解資料採礦在企業的應用。

課前個案 差異化行銷,210萬會員各個擊破

問題討論 問題討論: 1.東森購物是如何利用資料採礦來作顧客服務? 2.東森購物利用資料採礦來作客服獲得了什麼好處? 3.除了顧客關係管理,東森購物還能如何利用資料採礦? 4.除了東森購物,還有哪些企業能夠導入資料採礦?

第一節 資料採礦簡介 何謂資料採礦 資料採礦並不純粹只是一種技術或是一套軟體,而是一種結合數個不同問題領域(problem domain)的專業技術(technologies),並且將之運用來找出資料中資訊的一個流程(procedure)。因此,資料採礦也就有了一些特性:

第一節 資料採礦簡介 (1) 資料採礦不只能協助我們看資料表面的現象,也能進一步地幫我們找出是什麼原因造成所看到的結果。 第一節 資料採礦簡介 (1) 資料採礦不只能協助我們看資料表面的現象,也能進一步地幫我們找出是什麼原因造成所看到的結果。 (2)   和一般傳統社會科學研究過程不同的是,資料採礦不用假設檢定,來推論某個現象發生的機會是否存在,也因此不會局限在自身先入為主的想法中。

第一節 資料採礦簡介 (3)   資料採礦沒有資料量的限制,不會因為資料量太大而造成一定顯著的盲點。同時,只要分析的工具與功能足夠,資料量與變數的限制,在資料採礦的過程中,將會減小。 (4)   資料採礦不單只是資料庫與分析工具及方法的概念,在描述現象與建構問題的過程中,必須透過某些專業的(professional)及專家的(expertise)的人員,來將問題領域(problem domain)的現象表徵建構出來,使得決策變數的形成,能夠充分地描述現象與問題的核心,以及完成分析之後的資料判讀工作。

第一節 資料採礦簡介 資料採礦的定義 (1) 資料探勘是一種資料轉換的過程,先由沒有組織的數字與文字集合的資料,轉換為資訊,再轉換為知識,最後產生決策。 (2) 資料探勘為知識發現的一個步驟,目的在於找出資料中有效的、嶄新的、潛在有用的、易於瞭解之樣式的一個不繁瑣的過程。 (3) 由資料庫(data base),資料倉儲(data warehouse)或其他資訊的儲存庫中利用己儲存之大量資料找到知識的過程,稱為資料探勘。

第一節 資料採礦簡介 (4)資料探勘是指尋找隱藏在資料中的訊息,如趨勢 (Trend)、特徵 (Pattern)及相關性 (Relationship)的過程,也就是從資料中發掘資訊或知識 (KDD)。 (5) 資料探勘,即為從資料庫中發現知識,因為近來大量商業化的資料湧入,使得需要此種技術以使得資料自儲存單元中分析、淬取,甚而能夠提供視覺化的決策支援。

圖10-1 資料探勘流程圖

第一節 資料採礦簡介 資料採礦的功能 (1)分類(Classification) (2)推估(Estimation) 第一節 資料採礦簡介 資料採礦的功能 (1)分類(Classification) (2)推估(Estimation) (3)預測(Prediction) (4)同質分組或關聯規則(Affinity grouping or association rule) (5)群集化(Clustering) (6)順序/因果(Sequential Modeling)

圖10-2 資料採礦的模式

第二節 商業智慧 商業智慧(Business Intelligence, BI)最早由Gartner Group 的Howard Dresner 於1989年提出的概括性名詞,用來描述使用以實際資料為基礎的系統,來增進企業決策制定的概念和方法。此定義的商業智慧為協助企業決策的概念及方法。其是一種將企業相關的業務資料,加以定量分析的資訊應用

第二節 商業智慧 商業智慧的發展 第一代以主機為基礎的查詢及報表系統使用,許多批次應用程式來提供使用者他們所需的資訊。 第二節 商業智慧 商業智慧的發展 第一代以主機為基礎的查詢及報表系統使用,許多批次應用程式來提供使用者他們所需的資訊。 第二代的系統有資料倉儲,比上一代的系統有更大的儲存容量。 第三代的商業資訊系統為商業智慧系統。

圖10-3 商業智慧系統架構圖

第二節 商業智慧 商業智慧應用涵蓋的範圍 商業智慧應用涵蓋的範圍相當廣泛,包括了績效管理計分卡工具(CMM Score card) 、企業規劃 (Enterprise Planning)、數位儀表板(Visualizer)、動態報表查詢 (Report Net)、線上分析處理 (OLAP)等,如圖10-2所示。

圖10-4 商業智慧應用流程圖

第二節 商業智慧 商業智慧的系統發展程序 商業智慧的系統發展程序,涵蓋商業智慧系統分析、商業智慧系統設計、商業智慧系統建置與管理三大程序。商業智慧系統分析:又可分為企業需求分析、資訊來源分析、邏輯資料庫設計、商業智慧系統架構設計等程序。商業智慧系統設計:又有實體資料庫設計、ETL(萃取、轉換與載入)設計、資料採礦方法設計、使用端程式設計(OLAP或EIS等)等程序。

圖10-5 商業智慧系統發展程序

課間實例 1 通路為王

第三節 資料採礦分析方法 資料採礦的模式 在資料採礦的領域中,包含了許多的模式 (Model) (如分類、推估、預測、群聚/分析、同質分組或關聯規則、描述及視覺化、順序等七種)及應用的方法 (Method)(如關聯式法則、時間序列分析、序列型樣、群組式法則、分類式法則、機率經驗分析等六種)(Mehta & Bhattacharyya, 2004),如圖10-4所示。

第三節 資料採礦分析方法 資料探勘的模式

第三節 資料採礦分析方法 資料採礦的方法 資料採礦的分析方法,隨著不同的理論與應用,可以區分成不同的類別。常見的方法有:決策樹分析,關聯性分析,類神經網路,基因演算法,多元尺度分析法,集群分析法,羅吉斯迴歸,聯合分析,時間數列分析法,貝氏網圖分析法,蟻群分析法,以及多變量分析等。

圖10-6 決策樹分析

第三節 資料採礦分析方法 1. 決策樹分析(Decision tree analysis) 第三節 資料採礦分析方法 1. 決策樹分析(Decision tree analysis) 決策樹是從一個或多個預測變數中,針對類別應變數的階級,預測案例或物件的關係;決策樹是資料挖掘(Data Mining)其中一項主要的技巧。實際應用上,當資料本身符合傳統方法的理論條件與分配假說,這些方法或許是較佳的,但是站在探索資料技術的角度,或者當傳統方法的設定條件不足,決策樹對於研究者來說,是較佳的建議技巧。

第三節 資料採礦分析方法 2. 關聯性法則(Association Rule) 第三節 資料採礦分析方法 2. 關聯性法則(Association Rule) Agrawal et al., (1993) 指出,在資料探勘的領域之中,關聯性法則(Association Rule)是最常被使用的方法。關聯性法則在於找出資料庫中的資料間彼此的相關聯性,而這種方法現已經普遍運用於各領域之中 。關聯式法則的產生由兩個參數來決定:支持度 (Support) 及可靠度 (Confidence) (Wang, et al., 2004)。

第三節 資料採礦分析方法 (1) 從資料庫中找出高頻的項目集合(Large Itemsets),亦即此集合之各個決策變數的組合,同時要大於所設定之最低支持度(Minimum Support)。 (2) 接著,用前述步驟所產生的高頻項目集合產生關聯性法則,並計算其可靠度,若高於所設定的最低可靠度 (Minimum Confidence),則此法則確定成立。

第三節 資料採礦分析方法 Apriori演算法 第三節 資料採礦分析方法 Apriori演算法 在關聯式法則之使用中,Apriori 是最為著名且廣泛運用的演算法。最早是由 Agrawal & Srikant 等兩位學者於 1994 年首先提出,而在這之後許多應用的相關演算法,僅是修正 Apriori 中的部分概念而來,例如 DHP 演算法、DLG 演算法、DIC 演算法與 FP-Tree 演算法等 。

表10-1 資料庫中交易紀錄

表10-2 Apriori演算法產生的候選項目集合和高頻項目集合

第三節 資料採礦分析方法 3.類神經網路(Neural networks) 第三節 資料採礦分析方法 3.類神經網路(Neural networks) 類神經網路(Neural Network),又名為平行分散處理器(Parallel Distributed Processors)、自我組織系統(Self-organizing Systems)、適應系統(Adaptive Systems)、類神經網路(Artificial Neural Networks)等,它使用大量簡單的相連人工神經元來模仿生物神經網路的能力。人工神經元是生物神經元的簡單模擬,它從外界環境或者其它人工神經元取得資訊,並以非常簡單的運算,將輸出其結果到外界環境或者其它人工神經元,以便用於推估、預測、決策、診斷。

圖10-7 五維度的子集合示意圖

第三節 資料採礦分析方法 類神經網路是基於腦神經系統研究所啟發的一種資訊處理技術,它由巨量的神經細胞(或稱神經元)組成,包括: 第三節 資料採礦分析方法 類神經網路是基於腦神經系統研究所啟發的一種資訊處理技術,它由巨量的神經細胞(或稱神經元)組成,包括: (A). 神經核(soma):神經細胞呈核狀的處理機構。 (B). 軸索(神經軸)(axon):神經細胞呈軸索狀的輸送機構。 (C). 數突(神經樹)(dendrites):神經細胞呈樹狀的輸出入機構。 (D). 突觸(神經節)(synapse):神經樹上呈點狀的連結機構。

圖10-8 神經元模型

圖10-9 人工神經元模型

第三節 資料採礦分析方法 4. 集群分析(Cluster analysis) 第三節 資料採礦分析方法 4. 集群分析(Cluster analysis) 群集分析是一種傳統的多變量統計分類方法,其主要是探討如何將資料或物件予以分群(cluster)或是分類(classify),主要目的就是依照收集的樣本將它分成數個群數,使得群內個體間高度的同質性,以及不同群體高度的異質性,而此資料或物件的表現方法最常用的是一組特徵向量。然而目前群集分析主要分成多變量分析、類神經網路及遺傳演算法等。

圖10-10 集群分析方法架構圖

第三節 資料採礦分析方法 5. 基因演算法(Genetic algorithm) 第三節 資料採礦分析方法 5. 基因演算法(Genetic algorithm) 基因演算法是Holland (Goldberg, 1989)發展出的演算法,它是一種極有效的搜尋最佳解的方法,其基本觀念是以達爾文的進化論為基礎,模擬自然界”適者生存,不適者淘汰”的進化程序。每一種物種的特性均來自於該物種上一代的基因排列,而進化則是代代之間的基因發生變化。

第三節 資料採礦分析方法 基因演算法的基本觀念 第三節 資料採礦分析方法 基因演算法的基本觀念 遺傳演算法的演算過程中包含幾個重要部分(Goldberg, 1989),分別是編碼與解碼 (Encoding & Decoding)、初始群數(Initial population)、適應函數(Fitness function)、複製(Reproduction)、交配(Crossover)與突變(Mutation)等。

第四節 資料採礦在企業的應用 資料採礦的應用對於每個企業來說是一項策略性的計畫,目前最主要的應用有三大方向,都是應用在市場推廣與顧客關係管理方面,分別為: (1)顧客特性分析(Customer Profiling Analysis): (2)目標市場分析(Targeted Marketing Analysis): (3)市場購物籃分析(Market-Basket Analysis):

圖10-10 集群分析方法架構圖

第四節 資料採礦在企業的應用 資料採礦最主要是為了達成商業目標所建置,但是否採用此系統的考慮因素,應該還包括其他的優點,以下是從商業觀點,在資料採礦系統建構時應該需要特別考慮的幾項要點: (1)商業利益(Business Benefit):我們都知道企業以賺錢為最終考量,採用一個資料採礦的系統,到底能為公司帶來什麼利益?所以如何衡量資料採礦系統帶來利益的多寡,是商業利益上很重要的問題。

第四節 資料採礦在企業的應用 (2)技術知識(Technical Know-how):資料採礦的系統會包含很多複雜的專業知識,如何設計一個讓一般資訊管理人員不必知道許多專業知識下就可以操作的系統,也是一個資料採礦系統設計上的一個環節。 (3)易懂與說明(Understandability and Explanations):結果是否很直覺或很難了解?對每項規則是否有清楚的說明? (4)進一步詢問(Follow-up):可以進一步詢問系統的程度?有些初步結論需要經過中間人的解釋,那需要的程度為何?盡可能減少詢問所花費的時間,改善系統進一步詢問的能力。

第四節 資料採礦在企業的應用 (5)商業上顧客(Business Users):系統能容納商業顧客的人數為何?系統是否可供顧客做日常決策的知識管理?顧客可提供問題給系統等。 (6)正確、完整、同步(Accuracy, Completeness and Consistency):系統產生的結果正確率為何?是否有遺漏任何規則?在多人存取下,能否保持結果的一致性? (7)自動分析(Incremental Analysis):可以自動化分析每日或每週資料嗎?可以自動比較月與月之間規則的變化嗎?

第四節 資料採礦在企業的應用 (8)資料的掌控(Data Handling):系統可以處理多大的資料?可以直接從資料庫中存取資料或需要萃取資料? (9)整合性(Integration):如何將資料採礦系統整合於日常資訊操作系統或公司內部網路(Intranet)或資料庫? (10)維護人員(Support Staff):系統安裝執行後需要投入多少人員維護此系統?如何訓練此人員來維護系統?

課間實例 2: udn聯合線 老牌媒體拓展虛擬版圖

個案研究 花旗銀行「空中分行」

問題討論 1.花旗銀行是如何利用資料採礦來作顧客服務? 2.花旗銀行利用資料採礦來作客服獲得了什麼好處? 3.除了電話客戶服務,花旗銀行還能如何利用資料採礦? 4.除了花旗銀行,還有哪些服務業企業能夠導入資料採礦?

課程結束