Download presentation
Presentation is loading. Please wait.
1
数据仓库与数据挖掘综述 概念、体系结构、趋势、应用 报告人:朱建秋 2001年6月7日
2
提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述
数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)
3
数据仓库概念 基本概念 对数据仓库的一些误解
4
基本概念—数据仓库 Data warehouse is a subject oriented, integrated,non-volatile and time variant collection of data in support of management’s decision —— [Inmon,1996]. Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform —— [Ladley,1997]. Data warehouse is a process of crating, maintaining,and using a decision-support infrastructure —— [Appleton,1995][Haley,1997][Gardner 1998].
5
基本概念—数据仓库特征 [Inmon,1996] 面向主题 集成 稳定性 随时间而变化(时间维) 管理决策支持
一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;…) 典型的主题领域:客户;产品;交易;帐目 主题领域以一组相关的表来具体实现 相关的表通过公共的键码联系起来(如:顾客标识号Customer ID) 每个键码都有时间元素(从日期到日期;每月累积;单独日期…) 主题内数据可以存储在不同介质上(综合级,细节级,多粒度) 集成 数据提取、净化、转换、装载 稳定性 批处理增加,仓库已经存在的数据不会改变 随时间而变化(时间维) 管理决策支持
6
基本概念—Data Mart, ODS Data Mart Operation Data Store
数据集市 -- 小型的,面向部门或工作组级数据仓库。 Operation Data Store 操作数据存储 — ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。
7
基本概念—ETL, 元数据,粒度,分割 ETL 元数据 粒度 分割
ETL(Extract/Transformation/Load)—数据装载、转换、抽取工具。Microsoft DTS; IBM Visual Warehouse etc. 元数据 关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。 粒度 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。 分割 数据分散到各自的物理单元中去,它们能独立地处理。
8
对数据仓库的一些误解 数据仓库与OLAP 星型数据模型 多维分析 数据仓库不是一个虚拟的概念 数据仓库与范式理论 需要非范式化处理
9
提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述
数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)
10
数据仓库体系结构及组件 体系结构 ETL工具 元数据库(Repository)及元数据管理 数据访问和分析工具
11
体系结构 [Pieter ,1998] Data Extraction, Transformation, load Warehouse
Admin. Tools Extract, Transform and Load Data Modeling Tool Central Metadata Mid- Tier Relational Central Data Warehouse Appl. Package Data Mart Mid- Tier Local Metadata RDBMS Legacy Local Metadata Metadata Exchange Data Mart External Local Metadata Data Cleansing Tool RDBMS MDB End-User DW Tools Source Databases Central Data Warehouse Architected Data Marts Data Access and Analysis
12
带ODS的体系结构 ODS OLTP Tools Hub - Data Extraction, Transformation, load
Warehouse Admin. Tools Extract, Transform and Load Data Modeling Tool Central Metadata Data Cleansing Tool Relational Appl. Package Legacy External Mid- Tier Central Data Warehouse Data Mart Mid- Tier Local Metadata RDBMS Local Metadata Metadata Exchange MDB Data Mart Local Metadata RDBMS End-User DW Tools Source Databases Central Data Ware- house and ODS Architected Data Marts Data Access and Analysis
13
现实环境—异质性[Douglas Hackney ,2001]
i2 Supply Chain Oracle Financials Siebel CRM 3rd Party e-Commerce Packaged Oracle Financial Data Warehouse Custom Marketing Data Warehouse Packaged I2 Supply Chain Non- Architected Data Mart Subset Data Marts
14
联合型数据仓库/数据集市体系结构 Common Staging Area i2 Supply Chain Oracle Financials
Siebel CRM 3rd Party e-Commerce Common Staging Area Real Time ODS Federated Financial Data Warehouse Federated Marketing Data Warehouse Real Time Data Mining and Analytics Federated Packaged I2 Supply Chain Data Marts Real Time Segmentation, Classification, Qualification, Offerings, etc. Subset Data Marts Analytical Applications
15
闭环的联合型BI体系结构 Front- and back-office OLTP e-Business systems
External information providers ETL tools & DW templates Data profiling & reengineering tools Demand-driven data acquisition & analysis Metadata Interchange Federated data warehouse and data mart systems Decision engine models, rules and metrics OLAP & data mining tools, Analysis templates Analytic application development tools & components Analytic applications Informed decisions & actions HR Analytics & Reporting Financial Analytics & Reporting CRM Analytics & Reporting Supply Chain Analytics & Reporting EPM Analytics & Reporting EKP - Enterprise Knowledge Management Portal Business information & recommendations
16
数据仓库的焦点问题-数据的获得、存储和使用
数据仓库和集市的加载能力至关重要 数据仓库和集市的查询输出能力至关重要 End-User Tool End-User Tool Relational Datamart Enterprise Data Warehouse Data Staging Package RDBMS Datamart End-User Tool Legacy RDBMS ROLAP External source MDB End-User Tool Data Clean Tool
17
ETL工具 去掉操作型数据库中的不需要的数据 统一转换数据的名称和定义 计算汇总数据和派生数据 估计遗失数据的缺省值 调节源数据的定义变化
18
ETL工具体系结构
19
元数据库及元数据管理 元数据分类:技术元数据;商业元数据;数据仓库操作型信息。-[Alex Berson etc, 1999] 技术元数据
包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。包括: 数据源信息 转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法) 目标数据的仓库对象和数据结构定义 数据清洗和数据增加的规则 数据映射操作 访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等
20
元数据库及元数据管理 商业元数据 数据仓库操作型信息 给用户易于理解的信息,包括: 主题区和信息对象类型,包括查询、报表、图像、音频、视频等
商业元数据 给用户易于理解的信息,包括: 主题区和信息对象类型,包括查询、报表、图像、音频、视频等 Internet主页 支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等 数据仓库操作型信息 例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法
21
元数据库及元数据管理 元数据库(metadata repository)和工具 — [Martin Stardt,2000]
22
数据访问和分析工具 报表 OLAP 数据挖掘
23
提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述
数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)
24
数据仓库设计 自上而下(Top-Down) 自底而上(Bottom Up) 混合的方法 数据仓库建模
25
Top-down Approach Build Enterprise data warehouse
Common central data model Data re-engineering performed once Minimize redundancy and inconsistency Detailed and history data; global data discovery Build datamarts from the Enterprise Data Warehouse (EDW) Subset of EDW relevant to department Mostly summarized data Direct dependency on EDW data availability External Data Operational Data Enterprise Warehouse Local Data Mart Local Data Mart
26
自底而上设计方法 创建部门的数据集市 扩大到企业数据仓库 范围局限于一个主题区域 快速的 ROI -- 局部的商业需求得到满足
外部数据 操作型数据 (全部) 创建部门的数据集市 范围局限于一个主题区域 快速的 ROI -- 局部的商业需求得到满足 本部门自治 -- 设计上具有灵活性 对其他部门数据集市是一个好的指导 容易复制到其他部门 需要为每个部门做数据重建 有一定级别的冗余和不一致性 一个切实可行的方法 扩大到企业数据仓库 创建EDB作为一个长期的目标 操作型数据 (局部) 操作型数据 (局部) 局部数据集市 局部数据集市 企业数据仓库 EDB
27
数据仓库建模 — 星型模式 Example of Star Schema ProductNo Date ProdName Month
Year CustId CustName CustCity CustCountry Cust Sales Fact Table Product Store Customer unit_sales dollar_sales Yen_sales Measurements ProductNo ProdName ProdDesc Category QOH StoreID City State Country Region
28
数据仓库建模 — 雪片模式 Example of Snowflake Schema Product Year Month Year
ProductNo ProdName ProdDesc Category QOH Product Month Year Date Month Year Sales Fact Table Date Month Date Product Store StoreID City Store CustId CustName CustCity CustCountry Cust City State Customer unit_sales State Country dollar_sales Country Region Yen_sales Measurements
29
操作型(OLTP)数据源 --- 销售库
30
星形模式 时间维 事实表
31
多维模型 事实 度量 (Metrics) 时间维 时间维的属性
32
提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述
数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)
33
数据仓库技术 — [Inmon,1996] 管理大量数据 管理多介质(层次) 监视数据 利用多种技术获得和传送数据
能够管理大量数据的能力 能够管理好的能力 管理多介质(层次) 主存、扩展内存、高速缓存、DASD、光盘、缩微胶片 监视数据 决定是否应数据重组 决定索引是否建立得不恰当 决定是否有太多数据溢出 决定剩余的可用空间 利用多种技术获得和传送数据 批模式,联机模式并不非常有用 程序员/设计者对数据存放位置的控制(块/页) 数据的并行存储/管理 元数据管理
34
数据仓库技术 — [Inmon,1996] 数据仓库语言接口 数据的高效装入 高效索引的利用 数据压缩 复合键码(因为数据随时间变化)
能够一次访问一组数据 能够一次访问一条记录 支持一个或多个索引 有SQL接口 数据的高效装入 高效索引的利用 用位映像的方法、多级索引等 数据压缩 I/O资源比CPU资源少得多,因此数据解压缩不是主要问题 复合键码(因为数据随时间变化) 变长数据 加锁管理(程序员能显式控制锁管理程序) 单独索引处理(查看索引就能提供某些服务) 快速恢复
35
数据仓库技术 — [Inmon,1996] 其他技术特征,传统技术起很小作用 传统DBMS与数据仓库DBMS区别 改变DBMS技术
事务集成性、高速缓存、行/页级锁定、参照完整性、数据视图 传统DBMS与数据仓库DBMS区别 为数据仓库和决策支持优化设计 管理更多数据:10GB/100GB/TB 传统DBMS适合记录级更新,提供:锁定Lock、提交Commit、检测点CheckPoint、日志处理Log、死锁处理DeadLock、回退 Roolback. 基本数据管理,如:块管理,传统DBMS需要预留空间 索引区别:传统DBMS限制索引数量,数据仓库DBMS没有限制 通用DBMS物理上优化便于事务访问处理,而数据仓库便于DSS访问分析 改变DBMS技术 多维DBMS和数据仓库 多维DBMS作为数据仓库的数据库技术,这种想法是不正确的 多维DBMS(OLAP)是一种技术,数据仓库是一种体系结构的基础 双重粒度级别(DASD/磁带)
36
数据仓库技术 — [Inmon,1996] 数据仓库环境中的元数据 上下文和内容(上下文维) 刷新数据仓库
DSS分析人员和IT专业人员不同,需要元数据的帮助 操作型环境和数据仓库环境之间的映射需要元数据 数据仓库包含很长时间的数据,必须有元数据标记数据结构/定义 上下文和内容(上下文维) 简单上下文信息(数据结构/编码/命名约定/度量) 复杂上下文信息(产品定义/市场领域/定价/包装/组织结构) 外部上下文信息(经济预测:通货膨胀、金融、税收/政治信息/竞争信息/技术进展) 刷新数据仓库 数据复制(触发器) 变化数据捕获(CDC)(日志)
37
提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述
数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)
38
数据仓库性能 — [Inmon, 1999] 使用 数据 平台 服务管理 王天佑 等译,《数据仓库管理》, 电子工业出版社,2000年5月
39
提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述
数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)
40
数据仓库应用 — DW用户数的调查 “DW系统的用户 在100-500以内或以上 DW用户的调查 是未来一段时期内 的主要部分“ 最近一年
Meta Group Survey 调查对象:3000+ 用户或意向用户
41
DW数据规模的调查 DW规模的调查 最近一年 Meta Group Survey 调查对象:3000+ 用户或意向用户
42
How Much? $3-6m for mid-size company, less if smaller, more if larger
$10m+ for large organizations, large data sets 10-50+% annual maintenance costs 33% Hardware / 33% Software / 33% Services
43
How Long? 2-4 years for 80/20 of full system for mid-size company
6-12 months for initial iteration 3-6 months for subsequent iterations
44
How Risky? For EDW Projects, 20% (Meta) to 70% (OTR, DWN) fail
High failure rate for non-business driven initiatives Very few systems meet the expectations of the business Failure not due to technology, due to “soft” issues Massive upside to successful projects (100% % ROI) 99% politics - 1% technology
45
参考文献 Inmon,W.H.,” Building the Data Warehouse” ,Johm Wiley and Sons,1996. Ladley,John,”Operational Data Stores:Building an Effective Strategy”,Data warehouse:Pratical Advice form the Experts,Prentice Hall,Englewood Cliffs,NJ,1997. Gardmer,Stephen R., “Building the Data warehouse”,Communication of ACM, September 1998, Volume 41, Numver 9, Douglas Hackney , DW101: A Practical Overview, 2001 Pieter R. Mimno, “The Big Picture - How Brio Competes in the Data Warehousing Market”, Presentation to Brio Technology - August 4, 1998. Alex Berson, Stephen Smith, Kurt Therling, “Building Data Mining Application for CRM”, McGraw-Hill, 1999 Martin Stardt, Anca Vaduva, Thomas Vetterli, “The Role of Meta for Data Warehouse”, 2000 W.H.Inmon, Ken Rudin, Christopher K. Buss, Ryan Sousa, “Data Warehouse Performance”, John Wiley & Sons , 1999
46
提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述
数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)
47
数据挖掘应用综述 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台
48
数据挖掘应用概述 应用比例 Data Mining Upsides Data Mining Downsides
Data Mining Use Data Mining Industry and Application Data Mining Costs
49
应用比例 Clustering 22% Direct Marketing 14% Cross-Sell Models 12%
/6/11 News
50
Data Mining Upsides Discovery of previously unknown relationships, trends, anomalies, etc. Powerful competitive weapon Automation of repetitive analysis Predictive capabilities
51
Data Mining Downsides Knowledge discovery technology immature
Long learning and tuning cycles for some technologies “Black box” technology minimizes confidence VLDB (Very Large Data Base) requirements
52
Data Mining Uses Discover anomalies, outliers and exceptions in process data Discover behavior and predict outcomes of customer relationships Churn management Target marketing (market of one) Promotion management Fraud detection Pattern ID & matching (dark programs, science)
53
Data Mining Industry and Applications
From research prototypes to data mining products, languages, and standards IBM Intelligent Miner, SAS Enterprise Miner, SGI MineSet, Clementine, MS/SQLServer 2000, DBMiner, BlueMartini, MineIt, DigiMine, etc. A few data mining languages and standards (esp. MS OLEDB for Data Mining). Application achievements in many domains Market analysis, trend analysis, fraud detection, outlier analysis, Web mining, etc.
54
Data Mining Costs Desktop tools: $500 and up (MSFT coming at low price point) Server / MF based: $20,000 to $700,000+ Must also add cost of extensive consulting for high end tools Don’t forget long training and learning curve time Ongoing process, not task automation software
55
提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述
数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)
56
数据挖掘趋势 历史回顾 多学科交叉 数据挖掘从多个角度分类 最近十年的研究进展 数据挖掘的趋势 数据挖掘与标准化进程
57
历史回顾 1989 IJCAI Workshop on Knowledge Discovery in Databases
Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) Workshops on Knowledge Discovery in Databases Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD’ conferences, and SIGKDD Explorations More conferences on data mining PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.
58
Data Mining: Confluence of Multiple Disciplines
Database Technology Statistics Data Mining Machine Learning (AI) Visualization Information Science Other Disciplines
59
A Multi-Dimensional View of Data Mining
Databases to be mined Relational, transactional, object-relational, active, spatial, time-series, text, multi-media, heterogeneous, legacy, WWW, etc. Knowledge to be mined Characterization, discrimination, association, classification, clustering, trend, deviation and outlier analysis, etc. Techniques utilized Database-oriented, data warehouse (OLAP), machine learning, statistics, visualization, neural network, etc. Applications adapted Retail, telecommunication, banking, fraud analysis, DNA mining, stock market analysis, Web mining, Weblog analysis, etc.
60
Research Progress in the Last Decade
Multi-dimensional data analysis: Data warehouse and OLAP (on-line analytical processing) Association, correlation, and causality analysis Classification: scalability and new approaches Clustering and outlier analysis Sequential patterns and time-series analysis Similarity analysis: curves, trends, images, texts, etc. Text mining, Web mining and Weblog analysis Spatial, multimedia, scientific data analysis Data preprocessing and database compression Data visualization and visual data mining Many others, e.g., collaborative filtering
61
Research Directions — [Han J. W. , 2001]
Web mining Towards integrated data mining environments and tools “Vertical” (or application-specific) data mining Invisible data mining Towards intelligent, efficient, and scalable data mining methods
62
Towards Integrated Data Mining Environments and Tools
OLAP Mining: Integration of Data Warehousing and Data Mining Querying and Mining: An Integrated Information Analysis Environment Basic Mining Operations and Mining Query Optimization “Vertical” (or application-specific) data mining Invisible data mining
63
Querying and Mining: An Integrated Information Analysis Environment
Data mining as a component of DBMS, data warehouse, or Web information system Integrated information processing environment MS/SQLServer (Analysis service) IBM IntelligentMiner on DB2 SAS EnterpriseMiner: data warehousing + mining Query-based mining Querying database/DW/Web knowledge Efficiency and flexibility: preprocessing, on-line processing, optimization, integration, etc.
64
“Vertical” Data Mining
Generic data mining tools? —Too simple to match domain-specific, sophisticated applications Expert knowledge and business logic represent many years of work in their own fields! Data mining + business logic + domain experts A multi-dimensional view of data miners Complexity of data: Web, sequence, spatial, multimedia, … Complexity of domains: DNA, astronomy, market, telecom, … Domain-specific data mining tools Provide concrete, killer solution to specific problems Feedback to build more powerful tools
65
Invisible Data Mining Build mining functions into daily information services Web search engine (link analysis, authoritative pages, user profiles)—adaptive web sites, etc. Improvement of query processing: history + data Making service smart and efficient Benefits from/to data mining research Data mining research has produced many scalable, efficient, novel mining solutions Applications feed new challenge problems to research
66
Towards Intelligent Tools for Data Mining
Integration paves the way to intelligent mining Smart interface brings intelligence Easy to use, understand and manipulate One picture may worth 1,000 words Visual and audio data mining Human-Centered Data Mining Towards self-tuning, self-managing, self-triggering data mining
67
Integrated Mining: A Booster for Intelligent Mining
Integration paves the way to intelligent mining Data mining integrates with DBMS, DW, WebDB, etc Integration inherits the power of up-to-date information technology: querying, MD analysis, similarity search, etc. Mining can be viewed as querying database knowledge Integration leads to standard interface/language, function/process standardization, utility, and reachability Efficiency and scalability bring intelligent mining to reality
68
数据挖掘与标准化进程 CRISP—DM XML SOAP(Simple Object Access Protocol ) PMML
过程标准化(CRoss-Industry Standard Process for Data Mining) XML 与数据预处理相结合 SOAP(Simple Object Access Protocol ) 数据库与系统互操作的标准 PMML 预言模型交换标准 OLE DB For Data Mining 数据挖掘系统基于API的接口
69
提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述
数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)
70
数据挖掘应用平台 项目最终目标 研究内容(含系统结构、层次等) 技术路线和实现方法 关键技术分析 成果形式和考核指标
71
项目最终目标(1) 一年内,研究数据挖掘技术,实现数据挖掘主要算法,开发出拥有自主知识产权并具有扩充性好、便于应用的特点的数据挖掘应用平台,建立一套规范实用的数据挖掘实际应用方法论
72
项目最终目标(2) 所研究的数据挖掘技术达到国际先进水平 实现主要的数据挖掘算法,如关联规则、聚集、分类等
所开发的数据挖掘应用平台拥有自主知识产权,并具有扩充性好,便于应用的特点 所建立的数据挖掘应用的方法论规范实用
73
研究内容 层次结构 可扩展性的体系结构 软件结构 数据挖掘平台的应用 数据挖掘 + 商业逻辑 + 行业应用 针对行业的解决方案
软件开发商二次开发
74
层次结构:数据挖掘 + 商业逻辑 + 行业应用 数据挖掘应用平台 行业应用层 商业逻辑层 数据挖掘算法层
基因(DNA)分析、银行、保险、电信、证券、零售业… 商业逻辑层 产品推荐、客户细分、客户流失、欺诈甄别、特征分析… 数据挖掘算法层 关联规则、序列模式、分类、聚集、神经元网络、偏差分析…
75
可扩展性的体系结构 数据挖掘应用平台 MIS ERP CRM E_Business 探索数据仓库 数据挖掘 算法库 模型库 组件库 产品推荐
客户细分 客户流失 欺诈甄别 特征分析 序列分析 … … 行业应用 知识 信息系统 数据挖掘应用服务器 行业客户端
76
软件结构 供数据挖掘使用的数据仓库 ETL工具 数据挖掘应用服务器 数据挖掘应用服务器管理平台 针对行业的分析平台
77
数据挖掘平台的应用:针对行业的解决方案 模型使用 信息系统 数据源 针对行业的数据挖掘应用
78
数据挖掘平台的应用:软件开发商二次开发 模型使用 原来的 软件产品 信息系统 数据源 软件产品: MIS、ERP、CRM……
增加数据挖掘决策支持模块
79
技术路线和实现方法 阶段一 阶段二 阶段三 数据挖掘应用服务器 应用服务器管理平台 行业应用 1了解掌握研究动态 2 商业模型研究
3 数据仓库建模 4 数据挖掘算法实现 5 服务器框架构建 1 模型创建可视化 2 服务器调度和监听 3 数据抽取工具研制 4 用户界面友好 1 模型显示可视化 2 模型组件的应用 3 特定行业应用 4 组件二次开发应用 5 人机接口友好
80
关键技术分析 商业模型在数据仓库中的实现 商业模型可视化研究 模型平滑地嵌入其他应用(ERP,CRM) ETL(抽取、转换、装载)工具的研制
挖掘算法与商业模型之间的映射关系 数据挖掘算法的优化
81
Any Questions?
Similar presentations