主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010

Slides:



Advertisements
Similar presentations
1. 甚麼是人工智能 ? 甚麼是人工智能 ? 2. 強人工智能 - 弱人工智能 強人工智能 - 弱人工智能 3. 實現人工智能的必要條件 實現人工智能的必要條件 4. 人工智能的例子 人工智能的例子 5. 虛擬真實 虛擬真實 6. 感想 感想.
Advertisements

陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
高等医科院校计算机基础教学 的改革与实践 上海中医药大学 计算机教学中心 张昌林 周 强 车立娟.
企業入口網站(EIP)/ 應用系統(ERP, SCM, CRM)
第 16 章 資訊管理、 系統分析與設計.
第一章 会计信息系统 第一节 计算机会计概述.
網際網路行銷 Web 2.0 第十一章 網路行銷工具 — 從大眾到小眾.
Some Knowledge of Machine Learning(1)
第六章 資料倉儲與採礦技術 6.1 資料倉儲與採礦定義 6.2 資料採礦之步驟與技術分類 6.3 資料採礦在顧客關係管理之應用
METAEDGE Corporation Taiwan
資料探勘(Data Mining)及其應用之介紹
手持裝置應用系統之設計 與未來發展 黃有評 大同大學 資訊工程系.
CH3 關聯規則 授課老師:簡禎富 講座教授 簡禎富、許嘉裕©2014 著作權所有.
欢 迎 您 ! 荣县电大 毕忠权.
一、现状与问题 整体竞争能力不强 服务品质不高 市场秩序失范 管理效率低下 旅游旺季人满为患 资源和环境保护不力 欺客宰客的现象时有发生
统计学Statistics 主讲人:商学院 刘后平 教授
閱讀與寫作 設計者:林怜秀.
資料探勘 (Data Mining) 蔡懷寬
计算机辅助医学 医学数据挖掘(上) 刘雷 上海生物信息技术研究中心
商業智慧與資料倉儲 課程簡介 靜宜大學資管系 楊子青.
資訊管理 第三章 數位化企業.
统计学习基础 卿来云 中国科学院研究生院信息学院 / 统计对研究的意义:
数据仓库与数据挖掘 复习.
資訊管理 第九章 資料採礦.
1. 数据挖掘简介 2. 非线性规划及其对偶理论 3. 支持向量机理论、算法与应用
線上分析處理、 資料採礦與 Analysis Services
第二章 資訊管理的應用系統.
K-modes(补充) K-模,对k-平均方法的改进,k-原型的简化 处理分类属性
SQL Server 2008 資料採礦: 資料採礦An Overview of Key Data Mining Capabilities
ERP-企業資源規劃導論 第一章 企業資源規劃概述 1.1.
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
Chap 1:企業資源規劃簡介 ERP的定義與沿革 企業為何使用ERP ERP導入 以ERP為基礎的企業E化
第 9 章 基本的資料探勘、線上分析處理、資訊呈現.
資料探勘-案例期末報告 SQL Server 2008 Analysis Service
13. 行銷研究 授課教師:國立台灣大學農業經濟學系 雷立芬教授
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
第8章 關聯分析 王海.
数据挖掘: 概念和技术 — Chapter 6 — ©张晓辉 复旦大学 (国际)数据库研究中心
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
Data Pre-Processing … What about your data?.
國立政治大學 資訊科學研究所 知識系統實驗室 研究生: 鄭雍瑋 指導教授: 劉吉軒 博士 中華民國九十五年六月三十日
Data Mining 第八組 B 萬佳育 B 葉書蘋.
Integrated decision support systems: A data warehousing perspective
第十三章 網路行銷重要議題 網際網路行銷 Web 2.0.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
神经信息学 自组织网络 ——自组织映射 史忠植 中科院计算所 2019/2/2.
基于类关联规则的分类 Classification Based on Class-Association Rules
本章內容 資訊與資訊科技 資訊科技的內部應用 資訊科技的外部應用 資訊科技對組織設計的影響 組織控制與資訊科技 Chapter 9
可能受益的商业活动 客户保留 目标营销 欺诈检测 购物篮分析 客户细分 客户忠诚度 信用打分 信用风险评估 营销组合管理和评估 盈利能力分析
物联网数据处理 第一讲 数据处理基本概念 刘进军 QQ:
谈模式识别方法在林业管理问题中的应用 报告人:管理工程系 马宁 报告地点:学研B107
数据挖掘与医学数据资源开发利用 报告人: 张霞文 2017年03月17日
研究技巧與論文撰寫方法 中央大學資管系 陳彥良.
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018.
计算机文化 第7讲:数据库技术 王哲 河南中医药大学信息技术学院.
Course 4 分類與預測 Classification and Prediction
第十章 線上行銷研究.
第十二章 顧客關係管理.
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017.
第七章 知識管理.
An Quick Introduction to R and its Application for Bioinformatics
企業導入客戶關係管理(CRM) 建置需求與期望
商業智慧實務 Practices of Business Intelligence
淡江大學資訊管理系 戴敏育 Min-Yuh Day
Term Project : Requirement
授課教師:統計系余清祥 日期:2008年6月30日 第一週:緒論 課程下載:
Gaussian Process Ruohua Shi Meeting
电 商 数 据 分 析 汇报人:冯方慧 第一组:杜孟泽、李诗语、金艳平、冯方慧、张梦洁 CDA数据分析就业班
Presentation transcript:

主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010 淺談資料探勘及其應用 主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010 1

Relational Databases, Triggers ~1980 Data Mining 之演進過程 Statistics ~1800? Pattern Recognition ~1970 Expert Systems ~1970 Relational Databases, Triggers ~1980 Rule induction Machine learning ~1980 MIS decision support ~1990 Knowledge Discovery for Databases (KDD) ~1990 Data Mining ~1995 2

Knowledge Discovery (KDD) Process Data mining—core of knowledge discovery process Pattern Evaluation Data Mining Task-relevant Data Selection Data Warehouse Data Cleaning Data Integration Databases April 25, 2019 Data Mining: Concepts and Techniques 3

資料探勘(挖掘)Data Mining 資料庫的知識挖掘 分為 (Knowledge Discovery in Database ,KDD) 1.分類分析(Classification) 2.群集分析(Clustering Analysis) 3.聯結(關連)分析(Association Rule Analysis) 4.次序相關分析(Sequential Pattern Analysis) 5.鏈結分析(Link Analysis) 6.時間順序相似性分析(Time Series Similarity Analysis) 4

資料探勘(挖掘)Data Mining 程序 1.決定目的 2.資料收集與整合 3.採用適當技術 4.結果分析 5.知識應用 5

企業策略 資料探勘任務 資料探勘技術 決定資料探勘技術之範例 維繫客戶關係 避免客戶流失 穩定流動性 高的客戶 產品創新 交叉行銷 產品合售 定義/預測流 動性高之客戶 交叉行銷 新產品與 市場開發 產品合售 資料探勘任務 分類分析 群集分析 聯結分析 次序相關分析 資料探勘技術 決定資料探勘技術之範例 6

Data Mining 的前置步驟 1. Data Warehousing 2. Data Selection 3. Preprocessing and Cleaning 4. Data Reduction and Transformation 5. Data Mining Data Mining 之前必須將資料整理過 7

分類分析之範例資料 顧客屬性 顧客編號 居住區域 年紀 婚姻狀況 性別 忠誠度 1 2 3 4 5 6 7 8 9 10 11 12 13 14 市區 市郊 鄉鎮 小於21 21至30 大於30 已婚 未婚 女 男 低 高 8

年紀 居住區域 居住區域 性別 可正確描述表6-1中資料的複雜決策樹 市區 市郊 鄉鎮 市區 市郊 鄉鎮 男 女 性別 性別 男 女 男 女 大於30 21至30 小於21 居住區域 居住區域 性別 市區 市郊 鄉鎮 市區 市郊 鄉鎮 男 女 忠誠度高 忠誠度高 忠誠度高 婚姻狀況 忠誠度低 婚姻狀況 性別 性別 男 女 男 女 已婚 未婚 已婚 未婚 忠誠度低 忠誠度高 忠誠度高 忠誠度低 性別 忠誠度高 居住區域 忠誠度高 男 女 市區 市郊 鄉鎮 忠誠度低 忠誠度高 忠誠度低 忠誠度高 未知 可正確描述表6-1中資料的複雜決策樹 9

居住區域 忠誠 婚姻 度高 狀況 可正確描述表6-1中資料的簡單決策樹 市區 市郊 鄉鎮 性別 男 女 已婚 未婚 忠誠 度低 忠誠 度高 10

Data from Credit History of Loan Application 第一章 機 器 學 習 ID3 (Quinlan , 1986 ) Induction Decision Tree Data from Credit History of Loan Application 11

第一章 機 器 學 習 12

第一章 機 器 學 習 13

ID3 Information Content:I(M) Ex:an honeit ain Expected Information Heads showing with 75% 14

gain(credit history)= 0.266 gain(debt)= 0.581 gain(collateral)= 0.756 第一章 機 器 學 習 Table 13.1 Based on Fig 13.15 information gain = 1.531-0.564 = 0.967……..gain(income) gain(credit history)= 0.266 gain(debt)= 0.581 gain(collateral)= 0.756 Finally → Fig 13.14 15

Fig 10.15 A partially constructed decision tree. Fig 10.16 Another partially constructed decision tree. Luger: Artificial Intelligence, 5th edition. © Pearson Education Limited, 2005 16

決策樹方法的優點 產生易於了解的規則 在規則導向領域的表現能力 節省分類時的計算時間 可處理連續性與類別性變項的能力 可被轉換為簡明的英文或SQL語言,這是此技術最強大的力量 在規則導向領域的表現能力 決策樹在有規則可循的領域是個絕佳的選擇 節省分類時的計算時間 典型的測試包括數值比較、群組成員,以及簡單的連結,在電腦上使用時,這些測試轉換為簡單的部林與整數操作,相當快速且便宜 可處理連續性與類別性變項的能力 一個類別就是一個分支。連續性變數可以藉由選擇其數值範圍內的一個數字輕易的加以分類 明白的指出最佳變數的能力 根節點是用最好的分隔變數 17

決策樹方法的缺點 遇上太多類別時容易犯錯 計算上的訓練昂貴 對非方形區域無能為力 發生於有許多層次或一個節點有許多分支的決策樹上 建制及修剪決策樹的演算法必須重複計算且進行比對,這是費時費力的 對非方形區域無能為力 大部分決策樹演算法一次只能檢查一個變數。這導致方型的分類區域,無法和決策空間中真實的資料分部妥善對應。 18

關聯法則分析 Rule X→Y 滿足X∩Y=∮ X和Y的所有交易項目的集合必須出現在至少S%全部交易中……Minimum Support 在所有包含X之交易中,至少有C%包含Y的交易…… Minimum confidence 範例 交易代號 交易項目 1 柳橙汁,碳酸飲料,清潔用品 2 牛奶,柳橙汁,清潔用品 3 柳橙汁,洗衣精,碳酸飲料 4 碳酸飲料,底片 5 碳酸飲料,洋芋片 19

1 - itemset (S%=30%) 2 - itemset 1.柳橙汁→碳酸飲料 C=66.67% 2.碳酸飲料→柳橙汁 C=50% 支持率 Large 1-itemset 柳橙汁 60% ˇ 碳酸飲料 80% 清潔用品 40% 牛奶 20% X 洗衣精 底片 洋芋片 2 - itemset 2-itemset 支持率 Large 1-itemset (柳橙汁,碳酸飲料) 40% ˇ (柳橙汁,清潔用品) (碳酸飲料,清潔用品) 20% X 1.柳橙汁→碳酸飲料   C=66.67% 2.碳酸飲料→柳橙汁   C=50% 3.柳橙汁→清潔用品   C=66.67% 4.清潔用品→柳橙汁   C=100% ※ Large3-itemset is empty ˇ ˇ C=60% 20

分群演算法(K-MEANS ALGORITHM) Begin with an arbitrary assignment of samples to clusters or begin with an arbitrary set of cluster centers and assign samples to nearest centers. Compute the sample mean of each cluster. Reassign each sample to the cluster eith the nearest mean. If the classification of all samples has not changed ,stop ;else go to step2. 21

種子3 種子2 種子1 X2 X1 圖10.3 初始種子決定了初始的群集邊界 22

圖10.4 計算新群集的質心 X2 X1 23

X2 X1 圖10.5 每一次重複的過程中,所有群集分配都必須重新計算一次 24