数据仓库与数据挖掘综述 概念、体系结构、趋势、应用 报告人:朱建秋 2001年6月7日.

Slides:



Advertisements
Similar presentations
陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
Advertisements

云计算辅助教学风云录 黎加厚 上海师范大学教育技术系 2010年8月9日.
MRP到ERPII之演進 1970年代 1980年代 1990年代 2000年代 企業應用軟體 MRP MRPII ERP EERP
第 16 章 資訊管理、 系統分析與設計.
Big Data Ecosystem – Hadoop Distribution
第五章 資訊科技基礎建設與新興科技.
软件工程实践 软件学院 高海昌 作业提交 课件下载
第六章 資料倉儲與採礦技術 6.1 資料倉儲與採礦定義 6.2 資料採礦之步驟與技術分類 6.3 資料採礦在顧客關係管理之應用
METAEDGE Corporation Taiwan
顏協邦 慧盟資訊 商業智慧導入服務部 資深經理
“Internet+” Business Innovation
Handel Cheng, Ph.D. Dr. Jane Formula Tech. CO., LTD.
第6章 資料庫管理系統 6-1 關聯式資料庫管理系統 6-2 SQL Server資料庫管理系統
DCE Market Data Business
第8章 系統架構.
第 一 章 資訊系統開發概論 課程名稱:系統分析與設計 各位同學大家好,我是李春雄老師,本學期所開設的課程名稱為「資料結構」,
第5章 信 息 系 统 上一章内容——信息管理的过程 主要包括四个环节: 4.1 信息需求与服务
商業智慧與資料倉儲 課程簡介 靜宜大學資管系 楊子青.
資訊管理 第三章 數位化企業.
大数据在医疗行业的应用.
数据仓库与数据挖掘 复习.
第 4 章 CRM資料倉儲.
資訊管理 第九章 資料採礦.
企業會計資訊系統發展現況與電腦審計實務分享
顧客關係管理: CRM: Customer Relationship Management
軟體原型 (Software Prototyping)
線上分析處理、 資料採礦與 Analysis Services
第二章 資訊管理的應用系統.
世新大學 陳育亮 Ch13 從ERP到企業E化 世新大學 陳育亮
数据仓库和数据挖掘 DATA WAREHOUSING AND DATA MINING 经济科学室验室
ERP-企業資源規劃導論 第一章 企業資源規劃概述 1.1.
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
Chap 1:企業資源規劃簡介 ERP的定義與沿革 企業為何使用ERP ERP導入 以ERP為基礎的企業E化
Chap 3 資料庫模型與處理架構.
運籌管理 Chapter 12 資訊科技與運籌管理電子化 祝天雄 博士 99年12月 日.
第 9 章 基本的資料探勘、線上分析處理、資訊呈現.
第一篇 数据仓库与OLAP 第一章 数据仓库基本概念
從ERP到企業E化.
第一講:CRM概論 2010 CRM秋季班 輔仁大學資訊管理學系顧客關係管理 林文修 輔仁大學資訊管理學系所
Chapter 8 電子商業的核心-企業資源規劃
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
文字探勘與知識工程 Text Mining & Knowledge Engineering
第5章 資料倉儲的資料建置.
SAP 架構及基本操作 SAP前端軟體安裝與登入 Logical View of the SAP System SAP登入 IDES
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
数据仓库 一、基本概念 随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更高的要求:提供决策支持。
Data Mining 第八組 B 萬佳育 B 葉書蘋.
Integrated decision support systems: A data warehousing perspective
ABAP程式設計 課程簡介 靜宜大學資管系 楊子青 2011年9月13日.
第二章 資訊管理的科技觀點.
服務於中國研究的網絡基礎設施 A Cyberinfrastructure for Historical China Studies
Connecting Education and Career through Learning
企業e化的藍圖 陳銓鑛 知識長 艾爾法科技公司.
SAP R/3架構及前端軟體安裝 Logical View of the R/3 System SAP Frontend 6.2安裝
Putting the Enterprise into the Enterprise System
企業導入客戶關係管理(CRM) 執行計劃與效益分析(BSC)
虚 拟 仪 器 virtual instrument
從 ER 到 Logical Schema ──兼談Schema Integration
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
交通大學 運輸科技與管理學系 博士班二年級 朱佑旌
The viewpoint (culture) [观点(文化)]
第十二章 顧客關係管理.
汪卫 王轶彤 老逸夫楼602-3 数据库新技术 汪卫 王轶彤 老逸夫楼602-3.
SAP 架構及基本操作 SAP前端軟體安裝與登入 Logical View of the SAP System SAP登入 IDES
Enterprise Resource Planning System 企業資源規劃系統
直銷公司如何利用網路科技 來提昇業績與服務品質
SAP 架構及前端軟體安裝 Logical View of the SAP System SAP Frontend 7.1安裝 SAP登入
Microsoft SharePoint Portal Server 2003 的部署、建置 與系統整合(上)
Presentation transcript:

数据仓库与数据挖掘综述 概念、体系结构、趋势、应用 报告人:朱建秋 2001年6月7日

提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)

数据仓库概念 基本概念 对数据仓库的一些误解

基本概念—数据仓库 Data warehouse is a subject oriented, integrated,non-volatile and time variant collection of data in support of management’s decision —— [Inmon,1996]. Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform —— [Ladley,1997]. Data warehouse is a process of crating, maintaining,and using a decision-support infrastructure —— [Appleton,1995][Haley,1997][Gardner 1998].

基本概念—数据仓库特征 [Inmon,1996] 面向主题 集成 稳定性 随时间而变化(时间维) 管理决策支持 一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;…) 典型的主题领域:客户;产品;交易;帐目 主题领域以一组相关的表来具体实现 相关的表通过公共的键码联系起来(如:顾客标识号Customer ID) 每个键码都有时间元素(从日期到日期;每月累积;单独日期…) 主题内数据可以存储在不同介质上(综合级,细节级,多粒度) 集成 数据提取、净化、转换、装载 稳定性 批处理增加,仓库已经存在的数据不会改变 随时间而变化(时间维) 管理决策支持

基本概念—Data Mart, ODS Data Mart Operation Data Store 数据集市 -- 小型的,面向部门或工作组级数据仓库。 Operation Data Store 操作数据存储 — ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。

基本概念—ETL, 元数据,粒度,分割 ETL 元数据 粒度 分割 ETL(Extract/Transformation/Load)—数据装载、转换、抽取工具。Microsoft DTS; IBM Visual Warehouse etc. 元数据 关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。 粒度 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。 分割 数据分散到各自的物理单元中去,它们能独立地处理。

对数据仓库的一些误解 数据仓库与OLAP 星型数据模型 多维分析 数据仓库不是一个虚拟的概念 数据仓库与范式理论 需要非范式化处理

提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)

数据仓库体系结构及组件 体系结构 ETL工具 元数据库(Repository)及元数据管理 数据访问和分析工具

体系结构 [Pieter ,1998] Data Extraction, Transformation, load Warehouse Admin. Tools Extract, Transform and Load Data Modeling Tool Central Metadata Mid- Tier Relational Central Data Warehouse Appl. Package Data Mart Mid- Tier Local Metadata RDBMS Legacy Local Metadata Metadata Exchange Data Mart External Local Metadata Data Cleansing Tool RDBMS MDB End-User DW Tools Source Databases Central Data Warehouse Architected Data Marts Data Access and Analysis

带ODS的体系结构 ODS OLTP Tools Hub - Data Extraction, Transformation, load Warehouse Admin. Tools Extract, Transform and Load Data Modeling Tool Central Metadata Data Cleansing Tool Relational Appl. Package Legacy External Mid- Tier Central Data Warehouse Data Mart Mid- Tier Local Metadata RDBMS Local Metadata Metadata Exchange MDB Data Mart Local Metadata RDBMS End-User DW Tools Source Databases Central Data Ware- house and ODS Architected Data Marts Data Access and Analysis

现实环境—异质性[Douglas Hackney ,2001] i2 Supply Chain Oracle Financials Siebel CRM 3rd Party e-Commerce Packaged Oracle Financial Data Warehouse Custom Marketing Data Warehouse Packaged I2 Supply Chain Non- Architected Data Mart Subset Data Marts

联合型数据仓库/数据集市体系结构 Common Staging Area i2 Supply Chain Oracle Financials Siebel CRM 3rd Party e-Commerce Common Staging Area Real Time ODS Federated Financial Data Warehouse Federated Marketing Data Warehouse Real Time Data Mining and Analytics Federated Packaged I2 Supply Chain Data Marts Real Time Segmentation, Classification, Qualification, Offerings, etc. Subset Data Marts Analytical Applications

闭环的联合型BI体系结构 Front- and back-office OLTP e-Business systems External information providers ETL tools & DW templates Data profiling & reengineering tools Demand-driven data acquisition & analysis Metadata Interchange Federated data warehouse and data mart systems Decision engine models, rules and metrics OLAP & data mining tools, Analysis templates Analytic application development tools & components Analytic applications Informed decisions & actions HR Analytics & Reporting Financial Analytics & Reporting CRM Analytics & Reporting Supply Chain Analytics & Reporting EPM Analytics & Reporting EKP - Enterprise Knowledge Management Portal Business information & recommendations

数据仓库的焦点问题-数据的获得、存储和使用 数据仓库和集市的加载能力至关重要 数据仓库和集市的查询输出能力至关重要 End-User Tool End-User Tool Relational Datamart Enterprise Data Warehouse Data Staging Package RDBMS Datamart End-User Tool Legacy RDBMS ROLAP External source MDB End-User Tool Data Clean Tool

ETL工具 去掉操作型数据库中的不需要的数据 统一转换数据的名称和定义 计算汇总数据和派生数据 估计遗失数据的缺省值 调节源数据的定义变化

ETL工具体系结构

元数据库及元数据管理 元数据分类:技术元数据;商业元数据;数据仓库操作型信息。-[Alex Berson etc, 1999] 技术元数据 包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。包括: 数据源信息 转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法) 目标数据的仓库对象和数据结构定义 数据清洗和数据增加的规则 数据映射操作 访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等

元数据库及元数据管理 商业元数据 数据仓库操作型信息 给用户易于理解的信息,包括: 主题区和信息对象类型,包括查询、报表、图像、音频、视频等   商业元数据 给用户易于理解的信息,包括: 主题区和信息对象类型,包括查询、报表、图像、音频、视频等 Internet主页 支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等 数据仓库操作型信息 例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法

元数据库及元数据管理 元数据库(metadata repository)和工具 — [Martin Stardt,2000]

数据访问和分析工具 报表 OLAP 数据挖掘

提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)

数据仓库设计 自上而下(Top-Down) 自底而上(Bottom Up) 混合的方法 数据仓库建模

Top-down Approach Build Enterprise data warehouse Common central data model Data re-engineering performed once Minimize redundancy and inconsistency Detailed and history data; global data discovery Build datamarts from the Enterprise Data Warehouse (EDW) Subset of EDW relevant to department Mostly summarized data Direct dependency on EDW data availability External Data Operational Data Enterprise Warehouse Local Data Mart Local Data Mart

自底而上设计方法 创建部门的数据集市 扩大到企业数据仓库 范围局限于一个主题区域 快速的 ROI -- 局部的商业需求得到满足 外部数据 操作型数据 (全部) 创建部门的数据集市 范围局限于一个主题区域 快速的 ROI -- 局部的商业需求得到满足 本部门自治 -- 设计上具有灵活性 对其他部门数据集市是一个好的指导 容易复制到其他部门 需要为每个部门做数据重建 有一定级别的冗余和不一致性 一个切实可行的方法 扩大到企业数据仓库 创建EDB作为一个长期的目标 操作型数据 (局部) 操作型数据 (局部) 局部数据集市 局部数据集市 企业数据仓库 EDB

数据仓库建模 — 星型模式 Example of Star Schema ProductNo Date ProdName Month Year CustId CustName CustCity CustCountry Cust Sales Fact Table Product Store Customer unit_sales dollar_sales Yen_sales Measurements ProductNo ProdName ProdDesc Category QOH StoreID City State Country Region

数据仓库建模 — 雪片模式 Example of Snowflake Schema Product Year Month Year ProductNo ProdName ProdDesc Category QOH Product Month Year Date Month Year Sales Fact Table Date Month Date Product Store StoreID City Store CustId CustName CustCity CustCountry Cust City State Customer unit_sales State Country dollar_sales Country Region Yen_sales Measurements

操作型(OLTP)数据源 --- 销售库

星形模式 时间维 事实表

多维模型 事实 度量 (Metrics) 时间维 时间维的属性

提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)

数据仓库技术 — [Inmon,1996] 管理大量数据 管理多介质(层次) 监视数据 利用多种技术获得和传送数据 能够管理大量数据的能力 能够管理好的能力 管理多介质(层次) 主存、扩展内存、高速缓存、DASD、光盘、缩微胶片 监视数据 决定是否应数据重组 决定索引是否建立得不恰当 决定是否有太多数据溢出 决定剩余的可用空间 利用多种技术获得和传送数据 批模式,联机模式并不非常有用 程序员/设计者对数据存放位置的控制(块/页) 数据的并行存储/管理 元数据管理

数据仓库技术 — [Inmon,1996] 数据仓库语言接口 数据的高效装入 高效索引的利用 数据压缩 复合键码(因为数据随时间变化) 能够一次访问一组数据 能够一次访问一条记录 支持一个或多个索引 有SQL接口 数据的高效装入 高效索引的利用 用位映像的方法、多级索引等 数据压缩 I/O资源比CPU资源少得多,因此数据解压缩不是主要问题 复合键码(因为数据随时间变化) 变长数据 加锁管理(程序员能显式控制锁管理程序) 单独索引处理(查看索引就能提供某些服务) 快速恢复

数据仓库技术 — [Inmon,1996] 其他技术特征,传统技术起很小作用 传统DBMS与数据仓库DBMS区别 改变DBMS技术 事务集成性、高速缓存、行/页级锁定、参照完整性、数据视图 传统DBMS与数据仓库DBMS区别 为数据仓库和决策支持优化设计 管理更多数据:10GB/100GB/TB 传统DBMS适合记录级更新,提供:锁定Lock、提交Commit、检测点CheckPoint、日志处理Log、死锁处理DeadLock、回退 Roolback. 基本数据管理,如:块管理,传统DBMS需要预留空间 索引区别:传统DBMS限制索引数量,数据仓库DBMS没有限制 通用DBMS物理上优化便于事务访问处理,而数据仓库便于DSS访问分析 改变DBMS技术 多维DBMS和数据仓库 多维DBMS作为数据仓库的数据库技术,这种想法是不正确的 多维DBMS(OLAP)是一种技术,数据仓库是一种体系结构的基础 双重粒度级别(DASD/磁带)

数据仓库技术 — [Inmon,1996] 数据仓库环境中的元数据 上下文和内容(上下文维) 刷新数据仓库 DSS分析人员和IT专业人员不同,需要元数据的帮助 操作型环境和数据仓库环境之间的映射需要元数据 数据仓库包含很长时间的数据,必须有元数据标记数据结构/定义 上下文和内容(上下文维) 简单上下文信息(数据结构/编码/命名约定/度量) 复杂上下文信息(产品定义/市场领域/定价/包装/组织结构) 外部上下文信息(经济预测:通货膨胀、金融、税收/政治信息/竞争信息/技术进展) 刷新数据仓库 数据复制(触发器) 变化数据捕获(CDC)(日志)

提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)

数据仓库性能 — [Inmon, 1999] 使用 数据 平台 服务管理 王天佑 等译,《数据仓库管理》, 电子工业出版社,2000年5月

提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)

数据仓库应用 — DW用户数的调查 “DW系统的用户 在100-500以内或以上 DW用户的调查 是未来一段时期内 的主要部分“ 最近一年 Meta Group Survey 调查对象:3000+ 用户或意向用户

DW数据规模的调查 DW规模的调查 最近一年 Meta Group Survey 调查对象:3000+ 用户或意向用户

How Much? $3-6m for mid-size company, less if smaller, more if larger $10m+ for large organizations, large data sets 10-50+% annual maintenance costs 33% Hardware / 33% Software / 33% Services

How Long? 2-4 years for 80/20 of full system for mid-size company 6-12 months for initial iteration 3-6 months for subsequent iterations

How Risky? For EDW Projects, 20% (Meta) to 70% (OTR, DWN) fail High failure rate for non-business driven initiatives Very few systems meet the expectations of the business Failure not due to technology, due to “soft” issues Massive upside to successful projects (100% - 2000+% ROI) 99% politics - 1% technology

参考文献 Inmon,W.H.,” Building the Data Warehouse” ,Johm Wiley and Sons,1996. Ladley,John,”Operational Data Stores:Building an Effective Strategy”,Data warehouse:Pratical Advice form the Experts,Prentice Hall,Englewood Cliffs,NJ,1997. Gardmer,Stephen R., “Building the Data warehouse”,Communication of ACM, September 1998, Volume 41, Numver 9, 52-60. Douglas Hackney , Http:// www.egltd.com, DW101: A Practical Overview, 2001 Pieter R. Mimno, “The Big Picture - How Brio Competes in the Data Warehousing Market”, Presentation to Brio Technology - August 4, 1998. Alex Berson, Stephen Smith, Kurt Therling, “Building Data Mining Application for CRM”, McGraw-Hill, 1999 Martin Stardt, Anca Vaduva, Thomas Vetterli, “The Role of Meta for Data Warehouse”, 2000 W.H.Inmon, Ken Rudin, Christopher K. Buss, Ryan Sousa, “Data Warehouse Performance”, John Wiley & Sons , 1999

提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)

数据挖掘应用综述 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台

数据挖掘应用概述 应用比例 Data Mining Upsides Data Mining Downsides Data Mining Use Data Mining Industry and Application Data Mining Costs

应用比例 Clustering 22% Direct Marketing 14% Cross-Sell Models 12% www.kdnuggets.com 2001/6/11 News

Data Mining Upsides Discovery of previously unknown relationships, trends, anomalies, etc. Powerful competitive weapon Automation of repetitive analysis Predictive capabilities

Data Mining Downsides Knowledge discovery technology immature Long learning and tuning cycles for some technologies “Black box” technology minimizes confidence VLDB (Very Large Data Base) requirements

Data Mining Uses Discover anomalies, outliers and exceptions in process data Discover behavior and predict outcomes of customer relationships Churn management Target marketing (market of one) Promotion management Fraud detection Pattern ID & matching (dark programs, science)

Data Mining Industry and Applications From research prototypes to data mining products, languages, and standards IBM Intelligent Miner, SAS Enterprise Miner, SGI MineSet, Clementine, MS/SQLServer 2000, DBMiner, BlueMartini, MineIt, DigiMine, etc. A few data mining languages and standards (esp. MS OLEDB for Data Mining). Application achievements in many domains Market analysis, trend analysis, fraud detection, outlier analysis, Web mining, etc.

Data Mining Costs Desktop tools: $500 and up (MSFT coming at low price point) Server / MF based: $20,000 to $700,000+ Must also add cost of extensive consulting for high end tools Don’t forget long training and learning curve time Ongoing process, not task automation software

提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)

数据挖掘趋势 历史回顾 多学科交叉 数据挖掘从多个角度分类 最近十年的研究进展 数据挖掘的趋势 数据挖掘与标准化进程

历史回顾 1989 IJCAI Workshop on Knowledge Discovery in Databases Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994 Workshops on Knowledge Discovery in Databases Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD’1999-2001 conferences, and SIGKDD Explorations More conferences on data mining PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.

Data Mining: Confluence of Multiple Disciplines Database Technology Statistics Data Mining Machine Learning (AI) Visualization Information Science Other Disciplines

A Multi-Dimensional View of Data Mining Databases to be mined Relational, transactional, object-relational, active, spatial, time-series, text, multi-media, heterogeneous, legacy, WWW, etc. Knowledge to be mined Characterization, discrimination, association, classification, clustering, trend, deviation and outlier analysis, etc. Techniques utilized Database-oriented, data warehouse (OLAP), machine learning, statistics, visualization, neural network, etc. Applications adapted Retail, telecommunication, banking, fraud analysis, DNA mining, stock market analysis, Web mining, Weblog analysis, etc.

Research Progress in the Last Decade Multi-dimensional data analysis: Data warehouse and OLAP (on-line analytical processing) Association, correlation, and causality analysis Classification: scalability and new approaches Clustering and outlier analysis Sequential patterns and time-series analysis Similarity analysis: curves, trends, images, texts, etc. Text mining, Web mining and Weblog analysis Spatial, multimedia, scientific data analysis Data preprocessing and database compression Data visualization and visual data mining Many others, e.g., collaborative filtering

Research Directions — [Han J. W. , 2001] Web mining Towards integrated data mining environments and tools “Vertical” (or application-specific) data mining Invisible data mining Towards intelligent, efficient, and scalable data mining methods

Towards Integrated Data Mining Environments and Tools OLAP Mining: Integration of Data Warehousing and Data Mining Querying and Mining: An Integrated Information Analysis Environment Basic Mining Operations and Mining Query Optimization “Vertical” (or application-specific) data mining Invisible data mining

Querying and Mining: An Integrated Information Analysis Environment Data mining as a component of DBMS, data warehouse, or Web information system Integrated information processing environment MS/SQLServer-2000 (Analysis service) IBM IntelligentMiner on DB2 SAS EnterpriseMiner: data warehousing + mining Query-based mining Querying database/DW/Web knowledge Efficiency and flexibility: preprocessing, on-line processing, optimization, integration, etc.

“Vertical” Data Mining Generic data mining tools? —Too simple to match domain-specific, sophisticated applications Expert knowledge and business logic represent many years of work in their own fields! Data mining + business logic + domain experts A multi-dimensional view of data miners Complexity of data: Web, sequence, spatial, multimedia, … Complexity of domains: DNA, astronomy, market, telecom, … Domain-specific data mining tools Provide concrete, killer solution to specific problems Feedback to build more powerful tools

Invisible Data Mining Build mining functions into daily information services Web search engine (link analysis, authoritative pages, user profiles)—adaptive web sites, etc. Improvement of query processing: history + data Making service smart and efficient Benefits from/to data mining research Data mining research has produced many scalable, efficient, novel mining solutions Applications feed new challenge problems to research

Towards Intelligent Tools for Data Mining Integration paves the way to intelligent mining Smart interface brings intelligence Easy to use, understand and manipulate One picture may worth 1,000 words Visual and audio data mining Human-Centered Data Mining Towards self-tuning, self-managing, self-triggering data mining

Integrated Mining: A Booster for Intelligent Mining Integration paves the way to intelligent mining Data mining integrates with DBMS, DW, WebDB, etc Integration inherits the power of up-to-date information technology: querying, MD analysis, similarity search, etc. Mining can be viewed as querying database knowledge Integration leads to standard interface/language, function/process standardization, utility, and reachability Efficiency and scalability bring intelligent mining to reality

数据挖掘与标准化进程 CRISP—DM XML SOAP(Simple Object Access Protocol ) PMML 过程标准化(CRoss-Industry Standard Process for Data Mining) XML 与数据预处理相结合 SOAP(Simple Object Access Protocol ) 数据库与系统互操作的标准 PMML 预言模型交换标准 OLE DB For Data Mining 数据挖掘系统基于API的接口

提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)

数据挖掘应用平台 项目最终目标 研究内容(含系统结构、层次等) 技术路线和实现方法 关键技术分析 成果形式和考核指标

项目最终目标(1) 一年内,研究数据挖掘技术,实现数据挖掘主要算法,开发出拥有自主知识产权并具有扩充性好、便于应用的特点的数据挖掘应用平台,建立一套规范实用的数据挖掘实际应用方法论

项目最终目标(2) 所研究的数据挖掘技术达到国际先进水平 实现主要的数据挖掘算法,如关联规则、聚集、分类等 所开发的数据挖掘应用平台拥有自主知识产权,并具有扩充性好,便于应用的特点 所建立的数据挖掘应用的方法论规范实用

研究内容 层次结构 可扩展性的体系结构 软件结构 数据挖掘平台的应用 数据挖掘 + 商业逻辑 + 行业应用 针对行业的解决方案 软件开发商二次开发

层次结构:数据挖掘 + 商业逻辑 + 行业应用 数据挖掘应用平台 行业应用层 商业逻辑层 数据挖掘算法层 基因(DNA)分析、银行、保险、电信、证券、零售业… 商业逻辑层 产品推荐、客户细分、客户流失、欺诈甄别、特征分析… 数据挖掘算法层 关联规则、序列模式、分类、聚集、神经元网络、偏差分析…

可扩展性的体系结构 数据挖掘应用平台 MIS ERP CRM E_Business 探索数据仓库 数据挖掘 算法库 模型库 组件库 产品推荐 客户细分 客户流失 欺诈甄别 特征分析 序列分析 … … 行业应用 知识 信息系统 数据挖掘应用服务器 行业客户端

软件结构 供数据挖掘使用的数据仓库 ETL工具 数据挖掘应用服务器 数据挖掘应用服务器管理平台 针对行业的分析平台

数据挖掘平台的应用:针对行业的解决方案 模型使用 信息系统 数据源 针对行业的数据挖掘应用

数据挖掘平台的应用:软件开发商二次开发 模型使用 原来的 软件产品 信息系统 数据源 软件产品: MIS、ERP、CRM…… 增加数据挖掘决策支持模块

技术路线和实现方法 阶段一 阶段二 阶段三 数据挖掘应用服务器 应用服务器管理平台 行业应用 1了解掌握研究动态 2 商业模型研究 3 数据仓库建模 4 数据挖掘算法实现 5 服务器框架构建 1 模型创建可视化 2 服务器调度和监听 3 数据抽取工具研制 4 用户界面友好 1 模型显示可视化 2 模型组件的应用 3 特定行业应用 4 组件二次开发应用 5 人机接口友好

关键技术分析 商业模型在数据仓库中的实现 商业模型可视化研究 模型平滑地嵌入其他应用(ERP,CRM) ETL(抽取、转换、装载)工具的研制 挖掘算法与商业模型之间的映射关系 数据挖掘算法的优化

Any Questions? Zhujianqiu@hotmail.com