Data Mining: Concepts and Techniques

Slides:



Advertisements
Similar presentations
單元九:單因子變異數分析.
Advertisements

樞紐分析與資料庫 蕭世斌 Nov 20, 2010.
行銷研究 單元三 次級資料的蒐集.
行銷研究 單元二 行銷研究的程序.
< 標 誌 > 財務會報 財務簡報大綱.
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
第四章 資金成本.
Excel資料庫分析 台灣微軟資深講師 王作桓.
Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2014 Fall 1.
連結資料庫 ACCESS MSSQL.
第一篇 Unix/Linux 操作介面 第 1 章 Unix/Linux 系統概論 第 2 章 開始使用 Unix/Linux
金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程
Chapter 17 投資決策經濟分析.
第八章 利用SELECT查詢資料.
電子商務基本概念 電子商務的定義 1-1 電子商務的特性 1-2 電子商務的演進 1-3.
類別(class) 類別class與物件object.
SQL Stored Procedure SQL 預存程序.
無線射頻識別系統(RFID) 基本原理及發展與應用
ASP.NET基本設計與操作 建國科技大學 資管系 饒瑞佶 2007年.
安裝JDK 安裝Eclipse Eclipse 中文化
Quiz6 繳交期限: 12/14(四) 23:59前.
連結資料庫管理系統.
管理資訊系統導論 資訊系統的定義與概念.
Java 程式設計 講師:FrankLin.
CH03 資訊管理的智慧觀點:技術篇.
Chap3 Linked List 鏈結串列.
大數據與我 4A 陳駿榜.
網路安全技術 OSI七層 學生:A 郭瀝婷 指導教授:梁明章.
BCY行動研究2011之後 上課日誌 隔週上課前兩天以 時間: 年 月 日  紀錄者: 檔案名: 上課日期+學生名字
TB-054A  周天穎 編著 儒林圖書公司 發行.
第二次電腦實習課 說明者:吳東陽 2003/10/07.
為成功制定目標和行動計畫 國際獅子會分區主席訓練.
議程大綱. 議程大綱 微軟在雲端服務已經耕耘超過15年 Windows Live – 雲端應用的最佳典範.
MNIST 手寫數字影像辨識.
研究用資料庫 REDCap 台大醫院新竹分院 心臟內科 謝慕揚.
網頁程式概論 建國科技大學資管系 饒瑞佶 2015/9 V1 2016/4 V2 2016/9 V3.
網頁資料知多少? 事 實 ? 謠言?.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
國立高雄應用科技大學電機工程系資料探勘實驗室
挑戰C++程式語言 ──第8章 進一步談字元與字串
Class & Object 靜宜大學資工系 蔡奇偉副教授 ©2011.
產品設計與流程選擇-服務業 等候線補充資料 20 Oct 2005 作業管理 第六章(等候線補充資料)
電子期刊使用統計 CONCERT 2002 meeting November 13-14, 2002 羅宙康 Springer-Verlag
MicroSim pspice.
第 7 章 主要商業功能.
九十學年度實務 專題報告 指導老師: 高玉芬 老師 學生: 張駿呈 張書嘉 林正浩
流程控制:Switch-Case 94學年度第一學期‧資訊教育 東海大學物理系.
MiRanda Java Interface v1.0的使用方法
黃影雯副教授講授 E_Mail Address:
12797: Letters ★★★☆☆ 題組:Problem Set Archive with Online Judge
6.1 動畫檔案的格式 6.2 建立合適的動畫元素.
資料表示方法 資料儲存單位.
資料擷取與監控應用實務.
数据挖掘管理系统规范说明 现状简介 强度挖掘(Intension Mining) I-MIN过程模型(Process Model)
Identifying your company’s real intelligence needs
第一章 直角坐標系 1-3 函數及其圖形.
非負矩陣分解法介紹 報告者:李建德.
Cloud Training Material- 事件 Sherman Wang
連結資料庫 MYSQL.
多站台網路預約系統之 AJAX即時資料更新機制
一 可靠度問題.
第四組 停車場搜尋系統 第四組 溫允中 陳欣暉 蕭積遠 李雅俐.
第一章 電子商務簡介 第一篇 電子商務概論篇.
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
SQLite資料庫 靜宜大學資管系 楊子青.
Chapter 4 Multi-Threads (多執行緒).
11621 : Small Factors ★★☆☆☆ 題組:Problem Set Archive with Online Judge
營運模式.
JUDGE GIRL 使用介紹 & 常見問題 TAs :
立昕企管顧問有限公司 網址: ISO 9001: 2015 改版重點 立昕企管顧問有限公司 網址:
Presentation transcript:

Data Mining: Concepts and Techniques 資料採礦方法論-CRISP-DM 呂永和 教授整理 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 前言 在實施資料採礦之前,先制定採取什麽樣的步驟,每一步都做什麽?要達到什麽樣的目標?有了好的計劃才能保證資料採礦有條不紊的實施並取得成功。很多軟體供應商和資料採礦顧問公司投提供了一些資料採礦過程模型,來指導他們的用戶一步步的進行資料採礦工作。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 資料採礦方法論 1995年在蒙特婁召開Knowledge Discovery in Database (KDD)國際研討會, 討論資料採礦的方法論, 流程, 演算法與實務應用. Sample, Explore, Modify, Model, Assess (SEMMA) – SAS CRoss Industry Standard Process for Data Mining (CRISP-DM) – SPSS SEMMA有跨工具障礙, CRISP-DM為業界主流 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques SEMMA 採樣(Sample),探索(Explore),修正(Modify),建模(Model),評估(Assess) Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques CRISP-DM 1990年由SPSS與NCR在合作Daimler Benz 的資料倉儲及資料採礦的專案中開始發展 1996年SPSS與NCR利用成功案例的過程定義出跨產業與商業問題的標準化流程, 並於1997年於阿姆斯特丹正式誕生CRISP-DM SIG (Special Interest Group). CRISP-DM為一種階段式的方法論, 可分為六大階段, 每一階段又可分為分項工作與工作產出. Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 基本步驟 資料採礦步驟6個基本包括:        1. 定義商業問題(Business understanding)        2. 分析資料 (Data Understanding)        3. 準備資料 (Data Preparation)        4. 建立模型 (Modeling)        5. 評估模型 (Evaluation)        6. 應用模型 (Deployment) Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 定義商業問題 定義分析資料 資料預處理 應用模型 資料 建立模型 評估模型 CRISP-DM Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 一、定義商業問題 在開始資料採礦之前,最先的同時也是最重要的要求就是了解的你的資料和業務問題。如果事先沒有這種瞭解,沒有任何演算法,不管他有多麽複雜玄妙,能夠爲你提供有價值的結果,即使有也難以使人信賴它。 缺少了專業背景知識,你就沒辦法明確定義要解決的問題,不能爲挖掘準備資料,也很難正確的解釋得到的結果。要想充分發揮資料採礦的價值,必須要對你的目標有一個清晰明確的定義。 例如,想提高直接郵件推銷(DM)的用戶回應時,你想做的可能是“提高用戶回應率”,也可能是“提高一次用戶回應的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的。 有效的問題定義還應該包含一個對你的資料採礦專案得到結果進行衡量的標準。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 一、定義商業問題 資料採礦的目的是解決企業內部的問題 電信用戶忠誠度逐年下降.. 產品良率持續下降… 零售點庫存情況成長… 保戶詐欺狀況不斷升高… 卡戶剪卡比例增加… 客戶呆帳發生數暴增… 客戶轉貸頻率提升… Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 一個成功的資料採礦顧問必須同時具有三大專業,分別是演算法與統計、資料庫與資訊平台、產業專業知識,三者缺一不可。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 二、  建立資料採礦庫 連同下面的兩個步驟(分析資料、準備資料),這三步構成了資料預處理的核心。這三步和在一起比其他所有的步驟加在一起所花得時間和精力還多。一旦你從資料採礦的結果中學到一些什麽之後,你很可能要修改資料以得到更好得結果,因此就需要把資料準備和資料採礦不斷的反復進行。資料準備工作大概要花去整個資料採礦專案的50%-90%的時間和精力。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 應該把要挖掘的資料都收集到一個資料庫中。注意這並不是說一定要使用一個資料庫管理系統。根據要挖掘的資料量的大小、資料的複雜程度、使用方式的不同,有時一個簡單的Excel文件就足夠了。 一般來說,直接在公司的資料庫上進行資料採礦是不合適的。你最好建立一個獨立的資料集。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 大部分情況下需要修改要挖掘的資料。例如,需要將企業外部的資料加到原有的表格中。例如,戶口普查資料(Demographic data) 需要建立獨立的資料採礦庫的另一個理由是,資料庫可能不支援你要對資料進行各種複雜分析所需的資料結構。這包括對資料進行統計查詢,多維分析,和各種複雜的圖表和視覺化。 也可以使用既有資料庫所提供的資料採礦環境,例如,SQL Server。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 可以把建立資料採礦庫分成下面幾個部分: 資料收集 資料描述 選擇 資料品質評估和資料清理 合併與整合 構建元資料 載入資料採礦庫 維護資料採礦 注意這些步驟並不需要一定要按步驟執行,而應該按需要進行。比如你可能在收集資料時就開始構建元資料,並隨著工作的進行不斷的對其進行修改。在資料整合和資料品質評估過程中瞭解到得東西也有可能是你修改最初的資料選擇。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques      資料收集 確定要挖掘的資料源。可能一些外部的資料也是必須的,需要在公共資料庫中獲取(人口統計或天氣資料)或向資料擁有者購買(比如信用卡使用資料)。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 資料搜集報告應包括: 資料源(內部資料庫或外部提供者) 擁有者 負責維護此資料的人/組織 DBA 費用(如果需要購買) 存儲方式(如:Oracle資料庫、MSAM文件等) 表、欄位、記錄的數目 位元組數 物理存儲方式(CD-ROM、磁帶、伺服器等) 安全需求 使用上的限制 隱私上的需求 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 資料描述:描述每個文件和資料表的內容 包括: 欄位/列的數目        欄位是空(缺值)的數目/百分比        欄位的名字 對每個欄位        資料類型         定義         描述         來源         所有不同值的個數         值的列表         值的範圍         空值的百分比         收集資訊(比如:怎麽得到的,在哪,什麽條件下)         時間頻度(Timeframe)(每天,每周,還是每月)         特別時間資料(比如:每個周一或每個周三)         主鍵/外鍵關係 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 選擇 :選擇用於資料採礦的資料(來源資料的子集)。這與對資料進行採樣和選擇預測變數是不同的,這裏只是粗略的把一些冗餘或無關的資料除去,或由於資源的限制、費用的限制、資料使用的限制、和質量問題而必須做出的選擇。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 資料品質評估和資料清理 要想得到好的模型必須用好的資料。資料品質評估就是要確定資料的品質(GIGO) 整合資料時要注意不同來源的資料的一致性 缺值(Missing value) 的處理: 刪除含有缺值資料欄的資料:剩下的資料太少,改變了原資料的組成。 計算一個替代值。計算替代值的常用方法包括使用形式值(爲名詞變數),中間值(爲可排序變數),平均值(爲連續變數)。還有一種方法是爲這個缺值的欄位用資料採礦技術建立一個預測模型,然後按照這個模型的預測結果添值,這種方法效果應該最好,當然也最花時間。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques     合併與整合 :大部分情況下這些資料是分佈在不同的資料庫中。資料可能分佈在公司不同的部門、不同的應用中,甚至在公司外(人口資料)。 資料合併與整合把來自不同資料源的資料合併到同一個資料採礦庫中。並將那些本來存在衝突和不一致的資料一致化 不同的資料庫間在資料定義和使用上通常都存在巨大的差異。不一致問題如同一個客戶有不同的名字—甚至更遭的情況—多個不同的客戶標識號碼。同一個名字被用在不同的資料項目上(同名異意),或同一個資料項目用了不同的名字(同意不同名)。還有單位上的不統一。比如人民幣和港元之間不能不做換算就直接加減 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 構建元資料 (Schema):資料收集報告和資料描述報告是建立元資料的基礎;本質上,這是一個描述資料庫的資料庫。他用於建立實際的資料庫和爲分析資料和建立模型提供輔助資訊。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 載入資料採礦庫 ;大多數情況下,用於挖掘的資料應該放到他自己獨立的資料庫中。如果資料量大並且複雜,那麽他通常是一個DBMS;反之,只是一個簡單的平面文件即可。經過前面所有的搜集、整理之後,現在開始把這些資料實際的載入過來了。依賴於所涉及的DBMS和作業系統,和資料庫設計的複雜程度,有時這一步也可能變得很複雜,需要靠專家的幫助來完成。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 維護資料採礦庫 ;資料採礦庫一旦但建好,就需要對他進行維護。需要定期備份;監視他的性能;不時的增加存儲空間或提高性能。對存放在DBMS內的複雜的挖掘庫來說,維護他需要電腦專業人員來完成。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 分析資料:利用視覺化、敘述統計,及其他資料分析方法。分析的目的是找到對預測輸出影響最大的資料欄位,和決定是否需要定義導出欄位。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 進行建立模型前的決策 檢視資料分佈情況 檢視資料最大最小值 檢視資料標準差 檢視資料平均值 使用的工具案例 BI Development Studio Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 三、準備資料 這是建立模型之前的最後一步資料準備工作。可以把此步驟劃分成4個部分: 選擇變數 選擇記錄 創建新變數 轉換變數 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 選擇變數:理想情況下,你可以選擇你所有的全部變數,把他們輸入到資料採礦工具中,讓他來幫你選擇哪些是最好的預測變數。實際上這樣做並不是很好,一方面是由於隨著變數個數的增加,模型的建立時間也隨之上升;另一方面盲目的把所有的變數都加進去會導致建立錯誤的模型。比如,建立預測模型的一個常見錯誤就是把一個依賴於目標變數的變數(由目標變數導出)作爲預測變數,像用生日來“預測”年齡。 在原理上說,一些資料採礦演算法自動忽略不相關的變數、自動計算相關的(協)變數,在實際應用中完全依賴這些工具是不明智的,畢竟最瞭解你的資料的還是你自己。利用你的領域知識,你會做出大部分正確的選擇。例如,用身份證號或人名做預測變數要麽不會有任何用處,要麽甚至降低了其他重要變數的影響力。 選擇變數的方法:主要元素分析法 Principle Component Analysis (PCA), 因數分析 Factor analysis Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 選擇記錄 :與選擇變數類似,你可能也想用你所有的資料行來建立模型,然而如果你的資料量確實非常巨大的話,要麽要花費很長的時間來建立這個模型,要麽買一台計算能力非常強大的機器。 因此,如果資料量特別大,進行抽樣就是一個很好的主意。 抽樣的方法: 分層抽樣(Stratified random sample):將樣本基於某些事實來分層(strata)(群),依群所佔比例抽樣 誤差抽樣: Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 稀有事件及誤差抽樣 稀有事件:資料採礦的本質是透過模型從大量案例中搜尋出稀有事件,而這稀有事件必定會讓企業賺很多錢或賠很多錢,與一般統計最大的不同處,通常資料採礦專案中,預測欄位值的分佈通常處於極度不均衡的狀態下,為了不將稀有事件當雜訊處理掉,要採誤差抽樣(Error-Sampling) 誤差抽樣又可以稱為過渡抽樣(Over-Sampling),其基本精神就是不依照原先值的分配比例抽樣,而將稀有事件透過抽樣的方式,將其比重提升。(稀有事件一比一抽,然後逐漸降低) 90% 50% 10% 50% 誤差抽樣 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 創建新變數:很多情況下需要從原始資料中衍生一些新的變數作爲預測變數(自變數)。比如,用負債占收入百分比來預測信用風險比直接用負債和收入做預測變數更準確一些,也更容易理解一些。很多變數如果組合起來(加、減、比率等)會比這些變數自身影響力更大(PCA)。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 轉換變數:你所選擇的演算法和工具決定了都要對資料做哪些轉換工作。如神經網路要求所有的變數都在0-1之間,因此在這些資料被提交到演算法之前就必須先對不在[0,1]內的變數進行映射。同樣一些決策樹演算法不接受數值型變數作爲輸入,在使用他們之前也要把這些數值映射到“高、中、低”等。當然你的轉換方式也在一定程度上影響了模型的準確度。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 資料準備範例 使用資料平台整合性服務(SSIS) 全新的資料轉換工具,SQL 2000 稱之為 DTS 消除異常資料如出生前的消費記錄、離家300公里的日常消費 進行資料載入、轉換、清除過濾與彙整 多重資料源整合至資料倉儲或分析服務 進行資料取樣 處理訓練與驗證資料 根據百分比抽樣 根據筆數抽樣 整合變數使用 衍生性欄位、通用變數…等 文字採礦功能 可擷取單字或是片語 可列舉排除關鍵字 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 四、建立模型 對建立模型來說要記住的最重要的事是它是一個反復的過程。你需要仔細考察不同的模型以判斷哪個模型對你的商業問題最有用。你在尋找好的模型的過程中學到的的東西會啓發你修改你的資料,甚至改變最初對問題的定義。 一旦決定了預測的類型之後(分類還是回歸),就需要爲這個預測選擇模型的類型。可能是一棵決策樹、神經網路、甚至傳統的數學統計。選擇什麽樣的模型決定了你需對資料做哪些預處理工作。如神經網路需要做資料轉換,有些資料採礦工具可能對輸入資料的格式有特定的限制等。一旦所有的資料準備好之後,就可以開始訓練你的模型了。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 1.選擇建模技術 建立模型技術, 模型假設 同一商業問題可以透過多種演算法、調整參數找出最佳模型 微軟提供9種採礦演算法 2.規劃測試 測試計畫設計 3.建立模型 參數設定, 資料採礦模型, 模型描述 4.選擇最佳模型 模型評估, 參數重新調整 Data Mining: Concepts and Techniques

Data Mining完整的演算法(還有很多) 決策樹 群集演算法 時間序列 Introduced in SQL Server 2000 時序群集 關聯規則 貝氏決策定理 類神經網路 羅吉斯迴歸 線性迴歸 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 規畫測試資料 將資料切割為: 訓練資料 鑑效資料 測試資料 訓練資料用以建立模型 鑑效資料和測試資料的功能好像相同,雖然兩者都是用來驗證模型,但是鑑效資料重心是在衡量規則是否再現,以刪除巧合的規則,是在建模的「過程中」驗證。至於測試資料是在檢視模型隨時間的變化,是在「建模後」驗證。 Training Validation Test Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 目前資料採礦技術,演算法都會自動協助我們從訓練資料中隨機抽樣局部案例,作為鑑效資料使用,因此,不需要人工產生 原則上,會利用時間上比較早的的資料作為鑑效組,時間比較近的拿來作測試組。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 模型的評估使用測試資料 利用測試資料集進行欄位對應 選擇輸入資料表 進行欄位對應 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 五、評估模型(Evaluation) 模型建立好之後,必須評價它的結果、解釋它的價值。記住從測試集中得到的準確率只對用於建立模型的資料有意義。在實際應用中,隨著應用資料的不同,模型的準確率肯定會變化。更重要的是,準確度自身並不一定是選擇最好模型的正確評價方法。你需要進一步瞭解錯誤的類型和由此所帶來的相關費用的多少。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 模型的評估 Training 使用 訓練資料集 建立預測模型. Validation 使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應 Test 使用測試資料集來選擇模型以及測量模型在預測未知資料的能力 評估的方法可以透過 Mining Accuracy Chart Lift Chart-累積增益圖 Classification (Confusion) Matrix-錯差矩陣 Data Mining: Concepts and Techniques

錯差矩陣(Confusion Matrix) 對分類問題來說,錯差矩陣是理解結果的非常好的工具。錯差矩陣把實際的情況與預測的結果進行對比。它不僅說明了模型預測的準確情況,也把模型究竟在哪裡出了問題也展示了出來。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 模型效益評估之錯差矩陣 橫軸為預測結果,縱軸為實際結果 用來比較各類預測正確與錯誤之組合 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 錯差矩陣   實際 預測 類別A 類別B 類別C 45 2 3 10 38 4 6 40 圖1:錯差矩陣 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 錯差矩陣的不足 在這張表中,可以看到此模型在總共46個B類資料中成功預測了38個,8個出了問題:2個預測成了A,6個成了C。顯然這比簡單的說模型總體準確度是82%要更詳細的多(123個成功預測除以總共150)。 在實際應用中,如果每種不同的預測錯誤所需付出的代價(金錢)也不同的話,那麽代價最小的模型(而不一定是錯誤率最小的模型)就是我們所要選擇的。例如,上面的無序矩陣中,如果每個準確的預測會帶來¥10的收益,錯誤的預測A要付出¥5的代價,B是¥10,C是¥20,那麽整個模型的純價值是: (123*¥10)-(5*¥5)-(12*¥10)-(10*¥20)=¥885 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques   預測 實際 類別A 類別B 類別C 40 12 10 6 38 1 2 圖2:另一個錯差矩陣   Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 雖然準確度降低到79%(118/150),但純價值卻升高了: (118*¥10)-(22*¥5)-(7*¥10)-(3*¥20)=¥940 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 累積增益圖(Lift Chart) Lift=P(classi|sample)/P(classi|population) P(classi|sample):抽取樣本中i類別所佔的百分比 P(classi|Population):全部母體中i類別所佔的百分比 注意:類別所佔的百分比,指的是選出i類別的個數與全部i類 別個數的比值 若使用分類器,則會依次選出前最面好的樣本(如score、回復率等較高者) Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 模型的評估之累積增益圖 累積增益圖指標 可以判斷不同採礦演算法的準確率 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 正常的模型增益圖必定要比45度線向第二象限彎曲,增益圖曲線越向上彎曲,表示模型效果越好 若是模型的累積增益圖也呈現45度分佈時,就代表該模型比隨機模型好不了多少 最上方折線圖形為理想模型,實際模型不可能比它好。 AUC(Area under curve):「模型下面積」與「曲線下面積」的比值,越接近1,就表示模型的預測能力越高 Gini Coefficient:「模型曲線介於45度線之間的面積」與「完美模型曲線介於45度線之間的面積」的比值 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques AUC值 Gini值 模型區辨能力 <=50 無區辨能力 50%-70% 0.0-0.4 模型區辨能力極差 70%-80% 0.4-0.6 可接受之區辨能力 80%-90% 0.6-0.8 非常良好之區辨能力 90%-100% 0.8-1.0 過度完美之區辨能力(可能是反果為因)over fitting Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 六.應用模型(Deployment) 模型建立並經驗證之後,可以有兩種主要的使用方法。第一種是提供給分析人員做參考,由他通過察看和分析這個模型之後提出行動方案建議。比如可以把模型檢測到的聚集、模型中蘊含的規則、或表明模型效果的ROI圖表拿給分析人員看。 另一種是把此模型應用到不同的資料集上。模型可以用來標示一個事例的類別,給一項申請打分等。還可以用模型在資料庫中選擇符合特定要求的記錄,以用OLAP工具做進一步的分析。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 通常情況下,模型是某個商業過程的組成部分,如風險分析,信用授權,或欺詐檢測。在這些情況下,模型一般都合併到應用程式的內部。例如,在抵押貸款應用程式內部可能集成了一個預測模型,來向貸款官員提供一項貸款申請風險大小的建議。 資料採礦模型通常一次只能處理一個事件或一個事務。每個事務的處理時間和事務到達的速度,決定了模型運行所需的計算能力,和是否要用並行技術來加快速度。比如,貸款申請程式可能PC機上就運行的很好,而用於信用卡欺詐的模型則需要在伺服器上用平行算法才能應付每天的大量事務。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 佈署與應用 將採礦的分析結果部署到商業模型中,達到自動化預測的效果,以提升營運利潤、改善商業流程 使用對象 決策者 行銷單位 財務分析 品保單位 整合方案 使用技術 DMX、AMO 、XMLA 資料平台整合性服務(Integration Services) 分析服務(Analysis Services) 報表服務(Reporting Services) Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 當提交一個複雜的應用時,資料採礦可能只是整個産品的一小部分,雖然可能是最關鍵的一部分。例如,常常把資料採礦得到的知識與領域專家的知識結合起來,然後應用到資料庫中的資料。在欺詐檢測系統中可能既包含了資料採礦發現的規律,也有人們在實踐中早已總結出的規律。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 未來的可能發展 內嵌式資料採礦(Embedded data mining):將資料採礦模組整合到應用程式之中;例如,透過標準的API如OLE DB的方式,將資料庫及探勘模型以程式碼的方式,內嵌如應用系統之中 更多垂直市場(Vertical Sectors)專用的的資料採礦軟體:DNA Sequence analysis,WWW Text mining,telecom,Finance,Insurance,Security (Intrusion Detection) 等 產品整合:小的產品(包含少數功能)的競爭力下降,尤其是當主要的資料庫廠商都提供了商業智慧(BI)的功能時,小產品會被買走(最好的結果) PMML介面會流行:PMML(Predictive Model Markup Language)為DMG (Data Mining Group)所定義的data mining模型表示方法,是一個XML格式的模型表示法,方便模型的交換(可存入不同的工具中)及部署。 DMG:包含SAS Enterprise Miner), SPSS, IBM, Microsoft, Oracle etc. Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 模型監控 在應用了模型之後,當然還要不斷監控他的效果。即使你在開始使用這個模型之後覺得他非常成功,也不能放棄監控,因爲事物在不斷發展變化,很可能過一段時間之後,模型就不再起作用。銷售人員都知道,人們的購買方式隨著社會的發展而變化。因此隨著使用時間的增加,要不斷的對模型做重新測試,有時甚者需要重新建立模型。 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques 交叉銷售 決策樹, 類神經網路, 關聯規則, 時序群集, 貝氏決策定理,羅吉斯迴歸 顧客流失分析 決策樹, 類神經網路, 貝氏決策定理, 群集演算法,羅吉斯迴歸 顧客區隔 群集演算法, 決策樹, 關聯規則 信用評等 羅吉斯迴歸,決策樹, 類神經網路, 貝氏決策定理 詐騙分析 羅吉斯迴歸,決策樹, 類神經網路, 群集演算法, 貝氏決策定理 良率分析 時序群集, 群集演算法, 類神經網路, 決策樹 顧客價值管理 時間序列, 決策樹, 類神經網路,群集演算法,線性迴歸 銷售業績預測 時間序列, 決策樹, 類神經網路, 線性迴歸 Data Mining: Concepts and Techniques