國立高雄應用科技大學電機工程系資料探勘實驗室 班級:博電一甲 學號:1097404103 姓名:鍾翔航
實驗室首頁:http://dml.ee.kuas.edu.tw/
利用文件探勘技術,針對萃取癌症知識之生物資訊研究
跨語言與單一語言文件抄襲偵測之研究方法
Copyright 2003-12, SPSS Taiwan Corp. Data Mining 是什麼? Data Mining是從資料中找出有用珍貴知識的一個過程 增加銷售 交叉銷售 減少流失 降低成本 忠誠的客戶 警察找出罪犯 醫學找出疾病 國稅局找逃稅 何謂珍貴? 何謂珍貴? Why Who What When Where How 何謂過程? 何謂過程? 許多技術知識的融合(統計、人工智慧、未來的基因演算法…等),並非一個演算法就可以解決全部問題 資料 資訊 知識 將沈睡的資料中的資訊轉變為活的知識 ,進而成為決策的智慧 Copyright 2003-12, SPSS Taiwan Corp.
Copyright 2003-12, SPSS Taiwan Corp. 為什麼要做 Data Mining? 競爭日益劇烈,了解客戶需求才能佔有優勢 過去及現在和客戶互動方式的改變 過去 互動單純 直接了解客戶個人化需求 現在 互動複雜 難直接了解客戶個人化需求 電子化 Copyright 2003-12, SPSS Taiwan Corp.
Copyright 2003-12, SPSS Taiwan Corp. Data Mining 和統計不同? 統計 先假設再檢定 母體參數未知 資料量不可太大 Data Mining 沒有事先假設 多數狀況下母體參數已知 資料量越大越好,小資料也可以挖只是較不可靠 融合各種知識,包括統計、Machine Learning、人工智慧、基因等 Copyright 2003-12, SPSS Taiwan Corp.
Copyright 2003-12, SPSS Taiwan Corp. 資料採礦的定位 Business Value Measurement (historical) Prediction (future) Real-time Personalization 這些流失客戶是位於哪個地區? 我們流失了多少客戶? Data Mining OLAP 我們應該即時提供這位客戶什麼服務? Query & Reporting 哪些是高風險客戶以及原因是? Time From SPSS White Paper Copyright 2003-12, SPSS Taiwan Corp.
Copyright 2003-12, SPSS Taiwan Corp. Data Mining 的其他特徵 Interactive 互動性 Automation 電腦自動化 Continuing 連續性,是動態的 團隊分工合作 具有決策功能,使企業組織創新、再造 目標:一對一個人化(Personalize) Copyright 2003-12, SPSS Taiwan Corp.
Copyright 2003-12, SPSS Taiwan Corp. Data Mining的應用範疇 客戶關係管理(CRM) 犯罪(Criminal) 教育(Education) 醫療(Health Care) 科學研究(Research) 製程管理(Process Management) Copyright 2003-12, SPSS Taiwan Corp.
Copyright 2003-12, SPSS Taiwan Corp. 各產業的應用層面 電信業 客戶流失管理 顧客終身價值及利潤價值 行銷回應預測 交叉銷售/再銷售 電子商務 顧客終身價值 瀏覽行為分析 政府機構 員工流失管理 犯罪偵測 零售業 忠誠度及通路忠誠度 行銷回應預測 客戶產品偏好分析與鑑別 交叉銷售/再銷售 製造業 良率分析 製程改善 需求預測 醫療業 病人流失管理 潛在新病人分析 病人屬性區隔 Copyright 2003-12, SPSS Taiwan Corp.
Copyright 2003-12, SPSS Taiwan Corp. 各產業的應用層面 銀行 風險管理 行銷回應預測 維持顧客模型 顧客終身價值及利潤價值 多通路行為管理 信用卡冒用偵測 保險業 交叉通路銷售 詐欺理賠分析 生命科學 基因抗藥反應分析 基因序列分析 藥物區隔分析 藥物市場風險評估 娛樂業 客戶流失管理 目標客戶分析 客戶區隔 需求預測分析 Copyright 2003-12, SPSS Taiwan Corp.
DM處理流程 (1997年於阿姆斯特丹正式誕生CRISP-DM SIG) 2. 整合性服務 1. 資料準備 定義企業問題 資料來源檢視表 (Data Source View) 資料源 3. 資料檢視 資料源 6. 分析服務 報表服務 佈屬與應用 分析服務 (Data Mining) 4. 模型的建立 5. 模型評估
CRISP-DM Business Understanding Data Preparation Modeling Deployment Evaluation Format Integrate Construct Clean Select Determine Objectives Review Project Produce Final Report Plan Monitering & Maintenance Plan Next Steps Process Evaluate Results Assess Model Build Generate Test Design Technique Situation Explore Describe Collect Initial Data Mining Goals Verify Quality Project Plan
定義企業問題 (CRISP-DM) 確定目前內部遇到的問題 定義解決的目標是開源或是節流 電信用戶忠誠度逐年下降.. 產品良率持續下降… 零售點庫存情況成長… 保戶詐欺狀況不斷升高… 卡戶剪卡比例增加… 客戶呆帳發生數暴增… 客戶轉貸頻率提升…
模型的建立(CRISP-DM) 同一商業問題可以透過多種演算法、調整參數找出最佳模型 1.選擇建模技術 建立模型技術, 模型假設 2.規劃測試 測試計畫設計 3.建立模型 參數設定, 資料採礦模型, 模型描述 4.選擇最佳模型 模型評估, 參數重新調整
模型的評估(CRISP-DM) 建立預測模型之後, 在真正應用前, 通常會透過測試計畫來評估整個資料採礦模型能帶來的效益, 並協助檢視整個導入過程的潛在盲點, 而評估的標準並非數學上的正確度, 而是以帶給企業最大利益為考量. 1.評估結果 依專案成功要件評估結果, 核可之模型 2.流程檢視 流程檢視 3.決定下一步驟 行動列表, 決策 Lift Chart-累積增益圖 Classification Matrix-錯差矩陣
佈署與應用(CRISP-DM) 資料採礦模型整合在整個企業的決策流程,達到自動化預測的效果,以提升營運利潤、改善商業流程 1.計畫應用 應用導入計畫 2.專案監督維護 監督與維護計畫 3.結案報告 結案報告或簡報 4.檢視專案 經驗傳承及技術文件