資料探勘(Data Mining).

資料探勘(Data Mining)

內容概要 PART I：基本與進階之資料探勘技術 PART II：資料探勘之深入應用 PART III：軟體工具和專案實作中英對照表
P.S. 書中標示*及**的章節表示選擇性授課單元，如授課時數有限時，可略過。

授課計畫(1) PART I 基本與進階之資料探勘技術(38hr~40hr) 第一章簡介(4hr) 第二章資料倉儲(6hr)

授課計畫(2) PART II 資料探勘之深入應用 (3hr~11hr) PART III軟體工具和專案實作 (4hr~7hr)

第一章簡介

運用探勘技術從大量資料中挖掘出資料之間的關連性以及隱藏的知識，要實現『神機妙算客服系統』所提供的個人化服務，並非遙不可及!
企業現階段急需運用資料探勘技術，輔助決策者在對的時刻做對的決策！學術界積極培養資料探勘技術應用人才為當務之急！

第一章資料探勘簡介緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型
資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰

資料探勘的目的「從大量資料中挖掘有價值的資訊，供管理人員做為決策參考，開創新商業契機」成功經驗美國超級市場(Wal-Mart)
銷售資料分析發現，尿布和啤酒常會一起購買，於是將商品放在一起促銷，得到意想不到的業績成長美國銀行 (Bank of America) 從客戶資料中，找出既有客戶申請貸款的時機，規劃全新行銷方案；該方案推出後，接受率立即成長兩倍以上

資料探勘的應用以類似PC-Home之線上購物商店為例可獲取之資料可進行之資料探勘應用：顧客居住地區、年齡、性別、個人資料、交易紀錄
建立個人化行銷模式找出潛在的客戶名單了解顧客族群的屬性建立行銷模式預測目前哪些顧客可能流失

資料探勘的興起歸功三項技術的成熟大量資料的收集技術：高效能的多處理器電腦架構資料探勘演算法的成熟
網路發達、關聯式資料庫(relational database)應用廣泛、整合技術成熟高效能的多處理器電腦架構平行處理架構，使大量資料處理能在可容忍的時間內完成資料探勘演算法的成熟包括統計學(statistics)、人工智慧(artificial intelligence) 、機器學習(machine learning) 、基因演算法( genetic algorithms ) …等等

資料探勘的功能預測未來的趨勢找出未知的樣式股市行情預測天氣預測地震預測消費行為預測商品出貨量預測…等等
找出會購買筆記型電腦的顧客特徵依消費習性相近的顧客進行群組推薦鑑別消費者可能會同時購買的商品組合…等等

何謂資料探勘(1) 學者曾對資料探勘做過的定義 Frawley Grupe & Owrang Fayyad Berry & Linoff
資料庫中挖掘潛在、明確、而且非常有用資訊的過程 Grupe & Owrang 從已存在的資料庫當中挖掘出專家仍未知的新事實 Fayyad 定義知識發掘 (Knowledge Discovery) 為從大量資料中選取合適的資料，進行資料處理、轉換等工作，再進行資料探勘與結果評估的一系列過程 Berry & Linoff 使用自動或半自動的方法，對大量資料分析，找出有意義的關係或法則。

何謂資料探勘(2) 資料探勘=資料庫之知識發掘（Knowledge Discovery in Databases，簡稱KDD）
從大型資料庫裡頭所儲存的資料當中去萃取出一些有趣的知識「知識」指的就是一些規則大型資料庫包括線上作業的資料庫 (On-line Database) 及資料倉儲 (Data Warehouse)…等等知識範例「如果顧客的年齡是在三十歲到四十歲之間，而且年收入是在四十萬到六十萬之間，那麼此顧客很有可能會購買筆記型電腦。」

資料探勘歷史演進步驟目標企業問題應用技術系統供應商系統特性檔案系統 (1960年代) 資料庫系統 (1970年代) 資料倉儲系統
“2002年12月筆記型電腦的銷售明細為何？” 電腦、磁帶、磁碟 IBM, CDC 傳遞歷史性的靜態資料資料庫系統 (1970年代) “IBM X31筆記型電腦目前的售價是多少?” 階層式資料庫(hierarchical ] database)、網路式資料庫 (network database)、關聯式資料庫(relational database)、結構化查詢語言(SQL) 、開放性資料庫連結協定(ODBC) Oracle, Sybase, Informix, IBM, Microsoft 傳遞即時性的單層次動態資料資料倉儲系統（1990年代） “去年北部地區筆記型電腦的總銷售量是多少?其中台北市的銷售量是多少?” 線上分析處理 (OLAP) 、多維度資料模型 (multidimensional data model) 、資料倉儲(data warehouse) Pilot, Comshare, Arbor, Cognos, Microstrategy, 的多層次動資料探勘系統（現代） “明年筆記型電腦的預估銷售量為何? 為什麼?” 進階演算法、多處理器電腦系統、大量資料儲存技術、人工智慧 Pilot, Lockheed, IBM, SGI 傳遞預知的、鑑往知來的資訊

資料探勘的演進資料庫系統資料倉儲系統資料探勘系統資料資訊知識低階資料操作員中階資料分析師高階管理決策者專家系統
知識庫系統決策支援系統

與決策支援系統的不同點決策支援系統 (Decision Support System，DSS）資料探勘系統
依決策模型或推論規則、提供建議可以來自於領域專家(Domain Expert)的經驗法則可運用知識工程(Knowledge Engineering)的技術自專家腦中擷取可以用資料探勘技術所分析歸納出來的隱藏規則資料探勘系統自動化的資料分析與預測

與線上分析的不同點線上分析 (On-Line Analytical Processing，簡稱OLAP)
對制式化、關連性低的資料分析，統計數據供決策人員參考讓零售業瞭解不同產品、銷售區域對於成本及營業毛利之影響，但無法了解顧客的購買行為模式線上分析處理資料探勘多少人曾購買筆記型電腦？哪些顧客可能會購買筆記型電腦？上個月有多少顧客沒有進入網站瀏覽商品？哪些顧客較有可能在未來三個月內不上站瀏覽商品？顧客的平均單月消費總金額是多少？哪些顧客下個月的消費有可能會超過一萬元？哪些顧客訂單超過三天未付款？哪些顧客較有可能延遲付款？電子報的點閱率多少？電子報行銷方式對那些會員較有效？去年的銷售業績統計報表明年預期之銷售業績額度。

與統計分析的不同點(1) 統計分析(Statistical Analysis) 資料探勘
以假設(Hypothesis)及驗證(Verification)為基礎對較少資料，資料間的關連性或統計學上不同標的之分析由具專業專家對統計結果加以檢測資料探勘以發現(Discovery)為基礎，著重「樣式辨認」，找出資料中所隱含的具體規則供不具專業背景的使用者（高層決策人員）使用

與統計分析的不同點(2) 範例統計分析資料探勘女性和男性消費者個別在本月的消費總額不同網域的消費者在本月的消費總額
不同年齡層的消費者在本月的消費總額等資料探勘消費者在網站留下的資料，找出如下的規則：　IF 住在台北　AND 性別是男性　 AND 年齡介於 37到42歲之間　THEN 購買筆記型電腦的可能性是 85%

知識發現的過程資料前置處理資料倉儲建立資料探勘樣式評估結果展示知識庫使用者多維度資料庫資料庫原始資料資料收集

資料收集知識發現的第一個步驟原始資料來源資料庫系統 Excel表格文字檔網際網路問卷調查…等等

資料前置處理原因資料探勘有80%時間花費在前置作業
真實的資料非常雜亂，且收集資料的工具並沒有做精確的檢查，導致收集到的資料，並不見得全都可用資料探勘有80%時間花費在前置作業包含資料的淨化、格式轉換、表格的連結等前置作業

資料倉儲的建立決策支援系統的基礎含整合資料、詳細資料、總合性(summarized)資料、歷史性資料、描述資料綱要資料
線上分析處理（On-Line Analytical Processing，OLAP）統計、分析功能可由關聯式資料庫建構 Sybase、Oracle、Redbrick等 OLAP 提供多維度結構(multidimensional structures) 使用者依據不同維度，例如產品、地區、其它更透徹的觀察角度做統計

資料探勘資料倉儲所提供的資訊，供資料探勘做進ㄧ步挖掘，而萃取隱藏知識後，再轉到知識庫用統計與模型化的方法資料探勘是知識發現的一部分
知識發現的過程會影響資料探勘的成功

樣式評估樣式評估(pattern evaluation) 範例評估所挖掘的知識是不是真的有用 ?
過濾沒用的資訊，最後剩下有價值的知識供給使用者範例「天氣好，旅遊人數就多；天氣差，旅遊人數就少」，這樣的探勘結果我們可能認為它“有趣”的程度並不高，因為它是屬於一般常識

結果展示複雜的探勘結果要讓使用者看懂並不容易需要圖形化介面，把有趣的知識做好的呈現
例如：Microsoft SQL Server 2005的圖形化介面非常豐富用類似油表的燈號，讓使用者看到現在的預算消耗量是加滿油的狀態、還是沒有油的狀態

資料探勘常用的技術傳統技術以統計分析為代表對象包括敘述統計、機率論、迴歸分析、類別資料分析大多是變數繁多且筆數龐大的資料
用高等統計學含括的變因分析 (factor analysis)精簡變數用區隔分析 (discriminated analysis) 來做分類用群集分析 (cluster analysis) 區分資料的群體對象大多是變數繁多且筆數龐大的資料

資料探勘常用的技術(續) 改良技術類神經網路(artificial neural network) 決策樹(decision tree)
基因演算法(genetic algorithms) 規則推論法(rules induction) 模糊理論(fuzzy logic)

類神經網路何謂類神經網路運算方法特性(問題) 模仿生物神經網路的一種資訊處理系統，用大量人工神經元(neuron)模擬生物神經網路能力
高速的運算功能，有記憶、學習、容錯能力運算方法用許多參數建立一個模式，過程中需要提供資料給網路，訓練能夠產生一組最佳結果的加權值 (weights) 訓練方法－後回溯 (back-propagation) 特性(問題) 預測根據不明確對於測試資料可以做相當正確的預測，但對於真實資料的預測，準確性差網路的一個節

- f 類神經網路運算範例 mk å n維的輸入向量x，透過矩陣相乘(scalar product)和非線性函數映射的方法，對應到變數y
權重加總輸入向量 x 輸出 y 活化函數 (Activation Function) 權重向量 w å w0 w1 wn x0 x1 xn

決策樹何謂決策樹運算方法特性用樹狀結構產生規則內部節點(internal node)某項屬性的測試
分支(brache)被測試屬性當中一個可能的值葉節點(leaf node)布林函數運算方法樹的每個節點都是判斷式，判斷所輸入資料是否等於某個屬性值，構成樹狀結構特性適用於所有的分類問題不一定較準確，但容易了解

決策樹範例--購買筆記型電腦

基因演算法 1960 年代John Von Neumann 美國密西根大學教授John Holland
提出一個「自我複製」 (self-reproducing) 的理論，奠定了基因演算法的基礎美國密西根大學教授John Holland 延續此觀念，於1970 年發展出簡單基因演算法（Simple Genetic Algorithms 簡稱SGA），使基因演算法的架構有了初步的雛型

基因演算法(續) 基因演算法(最佳化空間搜尋法) 運算方法特性
適合解決最佳化問題，Ex:機器學習、超大型積體電路(VLSI)設計精神:「物競天擇」、「適者生存，不適者淘汰」自然進化法則運算方法選擇(selection)、複製 (reproduction) 、交配(crossover) 、突變(mutation)進行演化，求最佳解特性高度的問題獨立性不容易陷入局部最佳化(local optimum) ，而向整體最佳解收斂(global optimum) Ex:商家經營管理:最佳商品組合、網頁安排

基因演算法範例群體 Population 突變 Mutation 交配 Crossover 複製 Reproduction
透過適應函數 Fitness function 對每一個個體進行評估，並賦予每一個個體一個適應值Fitness value 選擇 Selection 複製 Reproduction 交配 Crossover 突變 Mutation 群體 Population

規則推論法規則推論法運算方法特性最直接也最為一般使用者所瞭解方法瞭解資料庫中資料之特性規律，稱之為規則(Rule)
一連串「如果.../則...」(If / Then)之邏輯規則對資料進行細分的技術特性實際運用時，如何界定規則為有效是最大的問題通常需先將資料中發生數太少的項目先剔除，以避免產生無意義的邏輯規則

規則推論法範例--購買筆記型電腦以購買筆記型電腦為例： IF 婚姻狀態=單身 AND 年齡<30歲 THEN 購買筆記型電腦=否

模糊理論模糊理論運算方法特性人類主觀表現的概念作大略的定量化處理嘗試用人類思維去簡化問題複雜度
美國加州大學L. A. Zadeh（扎德）教授提出模糊集合 (Fuzzy Sets) 運算方法人類主觀表現的概念作大略的定量化處理傳統必須依靠數學模型來達成控制特性和人類主觀感覺有關係，人們無法清楚了解他人的感受，只能從語意做大概判斷，達到彼此溝通目的

模糊理論運算範例傳統電腦決策何謂模糊不是對(1)就是錯(0) 在對(1)與錯(0)之間，再多加幾各等級 168公分算不算高??
例如 168公分以下算矮，那168公分以上就算高何謂模糊在對(1)與錯(0)之間，再多加幾各等級幾乎對(0.8) 可能對(0.6) 可能錯(0.4) 幾乎錯(0.2) 168公分算不算高?? 身高cm 矮隸屬度中高 160 170 180 迴歸分析

迴歸分析迴歸分析分析多個獨立變數(independent variable) 對於某個依變數(dependent variable)的影響，主要功能如下利用獨立變數解釋依變數利用獨立變數預測依變數利用依變數控制獨立變數分析必須做下列假設各母體(population)之間必須要是獨立的每個母體必須要符合常態分配樣本是從母體當中隨機的被抽取出來

迴歸分析範例原始迴歸係數：範例適於預測之用。
當資料為原始分數時，則預測方程式為： Y^ = a＋b1X1＋b2X2＋…＋biXi （a：截矩 b：斜率）範例設客戶年齡為獨立變數X1，客戶年收入為獨立變數X2，筆記型電腦售價為依變數Y，分析客戶年齡、客戶年收入與客戶所購買的筆記型電腦售價三者之歷史數據，建立出一個迴歸分析模型 Y = 542 X X2

資料探勘的模型主要有以下四種資料分類 (data classification) 資料關連 (data association)
資料分群 (data clustering) 循序樣式探勘 (sequential pattern mining)

資料分類何謂分類(classification) 適用領域範例監督式學習 (supervised learning)
分析資料的屬性，分門別類加以定義，以建立類組(class) 技巧:決策樹、記憶基礎推理適用領域顧客分類、疾病因素分析…等範例將信用卡申請者的風險屬性，區分為高度風險、中度風險、低度風險申請者

資料關連資料關連適用領域範例探討資料項目間的關係，找出某一事件或資料中會同時出現的項目也叫做關連法則探勘
購物籃分析(market basket analyses) 幫助零售業者瞭解客戶的消費行為範例如果顧客買NB，同時購買隨身碟的機率是80% 如果買全麥麵包及低脂優酪乳，那麼顧客同時也買低脂牛奶的機率是85% 優點:試圖找出多條規則結論缺點:花費較多時間

資料分群資料分群(Clustering) 適用領域範例非監督式學習(unsupervised learning)的資料探勘技術
從大量資料中找出案例間相似性，案例中每個屬性都可視為一個維度，如果案例有n個屬性，就可將每個案例都各投射到n維空間上的一點適用領域顧客分群、群組推薦…等等範例一群住在附近的人，駕駛相同的汽車，使用相同家電，並且食用相同的食物。而另一群從事相同行業的人，家庭成員人數接近，年收入接近，出國次數也很接近。透過觀察資料為何被群集在一起的，可以更了解資料間的關係，以及這些關係將會如何影響預言的結果以自動將資料庫區隔為幾個特性接近的資料群集，其主要的功能是將群集與群集之間的差異找出來，同時也可以將同一個群集中成員們的相似性找出來。群集分析 (Clustering) 與分類 (Classification) 不同之處在於你不曉得它會分成多少群或是根據什麼特徵來分群，所以必須分析解讀分群之後各群集所代表的意義

循序樣式探勘循序樣式探勘適用領域舉例分析序列狀態轉變，從相關的序列當中預測未來的狀態股市行情預測、行為預測…等等
與關連法則所不同的是循序樣式探勘中相關的項目(item)是以時間區分適用領域股市行情預測、行為預測…等等舉例由目前顧客瀏覽的網頁，預測顧客下一步會瀏覽的網頁，事先下載網頁，尤其在在通訊品質不佳的無線網路環境中時，此舉尚可提供客戶在離開無線網路涵蓋區時，仍能離線瀏覽網頁的功能例如：從目前客戶購買筆記型電腦的數量，預測三個月後隨身碟的銷售量，以便準備足夠的隨身碟庫存量，以免屆時面臨無貨可賣的窘境

資料探勘的應用實例 (1) 成功案例 LTV鋼鐵公司(全美第三大) 美國匯豐銀行(HSBC-Bank-USA)
偵測品質問題，使不良品減少99% 美國匯豐銀行(HSBC-Bank-USA) 在顧客資料中進行探勘，用「生活方式」區隔進行行銷，對行銷資源做「最佳化規劃」，銷售量提高了50% Jubii（丹麥最受歡迎的入口網站）運用資料探勘探索「哪一種瀏覽路徑最有可能促成交易?」，改善網站設計，使得瀏覽率提升30%~50%，媒體銷售業績成長10%~15%

資料探勘的應用實例(2) 金融保險業零售製造業醫療生技業教育業
信用評等、客製化金融服務、客戶資產管理、呆帳分析、保險潛在客戶名單分析、直效行銷、分析購買行為、偵測信用卡詐騙行為、股匯市行情預測零售製造業分店設點區位分析、銷售產品組合、庫存管理、即時輔助購買決策、連續銷售、促銷商品組合、DM名單、庫存分析醫療生技業預防醫學分析、院內感染分析、臨床病徵分析、基因圖譜比對、基因定序、演化分析教育業學生來源分析、課程規劃、學習評量、適性化教學

資料探勘在顧客關係管理之應用零售業者而言銀行業者而言保險業者而言顧客資料的探勘
瞭解顧客消費特性，發掘顧客採購模式，強化客戶關係管理，達到留住顧客目的銀行業者而言瞭解信用卡發放可能產生之弊端，找出最有利潤、忠誠度佳的顧客群保險業者而言分析保戶要求理賠之模式，並可加強稽核，以防止詐財之發生顧客資料的探勘有效地在不同層面增加公司收益，達成營運目標

資料探勘在網路行銷之應用分析顧客於網站上之行為模式應用範例可用以下特性區分訪客的特質
當顧客拜訪網站時，往往提供許多寶貴的資料，如個人資料、點選的網頁內容、在網頁所停留的時間、利用搜尋引擎時所使用的關鍵字、以及顧客到訪網站的時間點等，企業可藉由分析這些資訊來瞭解顧客的行為模式，藉以提高顧客對公司所提供之產品與服務的滿意度。應用範例可用以下特性區分訪客的特質地理區隔包括訪客地址、收入、購買能力人格特質訪客之購買特性，是否為衝動性或精打細算型訪客使用之資訊設備網路頻寬、操作系統、瀏覽器或伺服器

資料探勘在網路入侵行為分析之應用發掘異常網路行為應用範例傳統分析突發網路狀況，需很長時間
利用高速運算，分析異常網路行為、動態調整與更新防禦機制應用範例協助網管執行進階的網路控管，並動態調整與更新防禦機制，進而遏阻網路入侵攻擊的潛在威脅協助網管建立正常網路行為模型、異常的行為模型

資料探勘在網路學習之應用適性化網路學習(Adaptive E-learning) 應用範例提供適合學習路徑給不同背景學習者
建構「學習概念圖(concept map)」規劃學生學習路徑分析成績了解試題關連性，推導對應之概念應用範例利用關連法則探勘技術分析學習者的學習成績並了解試題間的關連性推導出相對應於試題之概念間的關連找出可以幫助領域專家建構學習概念圖的法則構建適切的課程概念圖。

資料探勘的工具一般性套裝軟體整合型系統客製化軟體將資料倉儲、資料探勘、及專家系統/決策支援系統整合單純只做資料探勘工作
Cognos出品的SCENARIO ( Business Objects出品的BusinessMiner ( 一般性套裝軟體單純只做資料探勘工作 IBM的Intelligent Miner SPSS的Clementine 客製化軟體依照某企業體或是某行業的需要所量身訂做的軟體針對零售業開發的KD1 針對信用卡詐欺或呆帳偵測所開發的HNC

未來的發展與挑戰不同型態的資料處理資料探勘演算法的效能資料探勘結果的可用性及正確性資料探勘結果的呈現方式
多重抽象層次中的互動式知識發掘不同來源資料的整合隱私保護與資料安全議題更具預測能力的模型更具延展性的模型更具成本效益的模型不斷進化成長的資料探勘標準與關聯式資料庫的整合

總結資料探勘憑著可預測未來的趨勢，創造新的商業契機「沒有高品質的資料，就沒有高品質的探勘結果！」前置處理是資料探勘最重要第一步
資料探勘是知識發現 (knowledge discovery) 過程的一部分資料探勘技術應用人才培訓上，尚待加強

資料探勘(Data Mining).

Similar presentations

Presentation on theme: "資料探勘(Data Mining)."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

資料探勘(Data Mining).

Similar presentations

Presentation on theme: "資料探勘(Data Mining)."— Presentation transcript:

Similar presentations

About project

反馈