Presentation is loading. Please wait.

Presentation is loading. Please wait.

高级人工智能 第十三章 知识发现 (二) 史忠植 中国科学院计算技术所 2018/11/24 史忠植 高级人工智能.

Similar presentations


Presentation on theme: "高级人工智能 第十三章 知识发现 (二) 史忠植 中国科学院计算技术所 2018/11/24 史忠植 高级人工智能."— Presentation transcript:

1 高级人工智能 第十三章 知识发现 (二) 史忠植 中国科学院计算技术所 2018/11/24 史忠植 高级人工智能

2 主要内容 研究背景 MSMiner体系结构 元数据 数据仓库平台 数据采掘集成工具 2018/11/24 史忠植 高级人工智能

3 典型的知识发现系统 SAS公司的SAS Enterprise Miner IBM公司的Intelligent Miner
Solution公司的Clementine 加拿大Simon Fraser Univ.的DBMiner 中科院计算技术研究所的MSMiner 2018/11/24 史忠植 高级人工智能

4 知识发现工具SAS SAS公司的SAS Enterprise Miner是一种通用的数据挖掘工具。通过收集分析各种统计资料和客户购买模式,SAS Enterprise Miner可以帮助您发现业务的趋势,解释已知的事实,预测未来的结果,并识别出完成任务所需的关键因素,以实现增加收入、降低成本。 2018/11/24 史忠植 高级人工智能

5 知识发现工具SAS SAS Enterprise Miner提供"抽样-探索-转换-建模-评估"(SEMMA)的处理流程。数据挖掘算法有:
·聚类分析,SOM/KOHONEN神经网络分类算法 ·关联模式/序列模式分析 ·多元回归模型 ·决策树模型(C45, CHAID, CART) ·神经网络模型(MLP, RBF) ·SAS/STAT,SAS/ETS等模块提供的统计分析模型和时间序列分析模型也可嵌入其中。 2018/11/24 史忠植 高级人工智能

6 知识发现工具Intelligent Miner
IBM公司的Intelligent Miner具有典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化显示等功能。它可以自动实现数据选择、数据转换、数据发掘和结果显示。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。 2018/11/24 史忠植 高级人工智能

7 知识发现工具Clementine Solution公司的Clementine 提供了一个可视化的快速建立模型的环境。它由数据获取(Data Access)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和报告(Reporting)等部分组成。都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个数据流,可视化的界面使得数据挖掘更加直观交互,从而可以将用户的商业知识在每一步中更好的利用。 2018/11/24 史忠植 高级人工智能

8 数据挖掘工具: 公用系统 MLC++ Matlab Weka 2018/11/24 史忠植 高级人工智能

9 知识发现工具MSMiner MSMiner具有下列特点: .基于数据仓库和新型的元数据管理按照主题创建数据仓库,并通过元数据进行管理和维护。
      .基于数据仓库和新型的元数据管理按照主题创建数据仓库,并通过元数据进行管理和维护。       .数据的抽取、转换、装载等预处理方便,支持OLAP查询。         2018/11/24 史忠植 高级人工智能

10 MSMiner的特点 提供决策树、支持向量机、粗糙集、模糊聚类、基于范例推理、统计方法、神经计算等多种数据挖掘算法,支持特征抽取、分类、聚类、预测、关联规则发现、统计分析等数据挖掘功能,并支持高层次的决策分析功能。 实现了可视化的任务编辑环境,以及功能强大的任务处理引擎,能够快捷有效地实现各种数据转换和数据挖掘任务。 可扩展性好。转换规则和挖掘算法是封装的、模块化的,系统提供了一个开放的、灵活通用的接口,使用户能够加入新的规则和算法。 容易进行二次开发。 2018/11/24 史忠植 高级人工智能

11 数据仓库: 特征 面向主题 集成性 稳定性 随时间变化 2018/11/24 史忠植 高级人工智能

12 数据仓库: OLAP ROLAP: Relational OLAP MOLAP: Multidimensional OLAP
HOLAP: Hybrid OLAP 2018/11/24 史忠植 高级人工智能

13 数据挖掘和数据仓库的结合 数据仓库为数据挖掘提供经良好处理的数据源 数据挖掘为数据仓库提供深层数据分析手段 2018/11/24
史忠植 高级人工智能

14 MSMiner体系结构 设计目标: 提供快捷有效的数据挖掘解决方案。 设计要求: 开放性 可扩展性 效率 易用性 2018/11/24
 提供快捷有效的数据挖掘解决方案。 设计要求: 开放性 可扩展性 效率 易用性 2018/11/24 史忠植 高级人工智能

15 MSMiner体系结构 MSMiner体系结构示意图 客户端 服务器端 元数据模块 执行数据采掘任务 编辑数据采掘任务 数据采掘集成工具
数据抽取和集成 主题组织 OLAP 可视化 数据仓库管理器 数据仓库 OLE DB for ODBC 2018/11/24 史忠植 高级人工智能

16 元数据的内容 关于外部数据源的 关于内部数据的(包括数据库、表、字段的信息) 关于数据仓库的(包括事实表、维表、立方以及其它的中间表)
关于用户信息的 数据采掘算法(包括算法的参数信息) 关于采掘任务的(包括采掘步骤、每个步骤的所用的参数) 2018/11/24 史忠植 高级人工智能

17 元数据:元数据库 2018/11/24 史忠植 高级人工智能

18 元数据:元数据对象模型 设计思路 一致性 完备性 易维护性 2018/11/24 史忠植 高级人工智能

19 元数据的结构 元数据是 层次的 嵌套的 封装的 互相联系的 采用面向对象的方法 共有60多个类 2018/11/24 史忠植 高级人工智能

20 数据仓库平台:结构 MSMiner数据仓库结构示意图 外部数据 数据仓库 元 数 据 数据抽取、清洗、聚集、转换 主题2 主题1 主题n
OLAP及可视化工具 数据采掘集成工具 ... 2018/11/24 史忠植 高级人工智能

21 数据仓库平台:数据抽取和集成 数据的简单抽取和集成 数据的复杂处理 面向数据挖掘的数据预处理 2018/11/24 史忠植 高级人工智能

22 数据抽取和集成: MSETL MSETL系统作为MSMiner数据挖掘平台的一个重要组成部分,主要完成从业务数据源到分析数据源的转换功能。具体包括从异质业务数据源中抽取需要的数据,对这些数据进行多种预处理,把经过处理后的数据装载入指定数据仓库/数据库 2018/11/24 史忠植 高级人工智能

23 数据抽取和集成: MSETL 用户界面 (ETL转换函数和ETL任务)逻辑处理 元数据管理 数据库服务器 2018/11/24
史忠植 高级人工智能

24 数据抽取和集成: MSETL 支持多种数据源和目的数据库 良好的可扩充性 高效率的调度执行功能 增量更新功能 2018/11/24
史忠植 高级人工智能

25 数据抽取和集成: MSETL 2018/11/24 史忠植 高级人工智能

26 数据抽取和集成: MSETL 2018/11/24 史忠植 高级人工智能

27 数据仓库平台:数据仓库建模 星型模型 产品维表 产品号 产品名称 产品目录 客户维表 事实表 客户号 客户名称 客户地址 产品号 客户号
订单号 时间标识 地区名称 产品数量 总价 订货维表 订单号 订货日期 时间维表 时间标识 季度 地区维表 地区名称 省别 星型模型 2018/11/24 史忠植 高级人工智能

28 OLAP MOLAP, ROLAP, HOLAP OLAP 的操作 OLAP方案 采用了自主开发的 OLAP Server
Slice (切片) Dice (切块) Roll up (上卷) Drill down (下钻) Pivot (旋转) OLAP方案 采用了自主开发的 OLAP Server 2018/11/24 史忠植 高级人工智能

29 数据立方体 2018/11/24 史忠植 高级人工智能

30 数据仓库平台:OLAP的实现 2018/11/24 史忠植 高级人工智能

31 数据挖掘集成工具:结构 元数据 任务模型库、算法描述 算法管理 任务编辑 任务规划 和执行 算法库 数据仓库平台 数据挖掘集成工具结构示意图
2018/11/24 史忠植 高级人工智能

32 数据挖掘集成工具:数据挖掘任务模型 DMTask = (V, R) V = {x | x ∈StepObjects}
R = {<x, y> | P(x, y) ∧ x, y∈V} Step3 Step1 Step2 Step5 Step4 2018/11/24 史忠植 高级人工智能

33 数据挖掘集成工具:数据挖掘任务模型 步骤对象BNF语法定义:
<StepObject> ::= <Attribute_List>;<Method_List> <Attribute_List> ::= [<Attribute>|<Attribute>;<Attribute_List>] <Attribute> ::= <Name>,<Value> <Method_List> ::= [<Method>|<Method>;<Method_List>] <Method> ::= <Name>,<Script> <Name> ::= [<char>|<string>] <Value> ::= [<char>|<string>|<integer>|<float>] <Script> ::= <DML_Sentence>* 2018/11/24 史忠植 高级人工智能

34 数据挖掘集成工具:编辑任务模型 任务向导 2018/11/24 史忠植 高级人工智能

35 数据挖掘集成工具:编辑任务模型 任务编辑图板 2018/11/24 史忠植 高级人工智能

36 数据挖掘集成工具:处理任务模型 数据采掘任务处理引擎的结构 人机界面 规划器 主控模块 解释器 缓存 函数库 黑板 任务模型库
2018/11/24 史忠植 高级人工智能

37 数据挖掘集成工具:处理任务模型 任务规划和解释执行 S1 S3 S2 S4 S5 S1 - S2 - S3 - S4 - S5
2018/11/24 史忠植 高级人工智能

38 数据挖掘集成工具:DML语言 DML函数 人机交互和控制台输入/输出 数值计算 字符串处理 图形、图表展示 文件操作 数据库访问 网络通讯
对象访问 消息处理和流程控制 黑板操作 外部功能调用 其它辅助功能 2018/11/24 史忠植 高级人工智能

39 数据挖掘集成工具:内嵌 决策树 SOM神经网络 粗糙集 关联规则 2018/11/24 史忠植 高级人工智能

40 决策树 2018/11/24 史忠植 高级人工智能

41 知识约简 知识约简——在保持知识库的分类或决策能力不变的条件下,删除其中不相关或不重要知识
冗余知识——资源的浪费;干扰人们作出正确而简洁的决策 Rough Set——把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集(Z.Pawlak ) 知识约简是粗糙集的核心内容之一 2018/11/24 史忠植 高级人工智能

42 Rough Set约简 2018/11/24 史忠植 高级人工智能

43 数据挖掘集成工具:外联 超曲面分类 SVM 贝叶斯网络 基于范例推理(CBR) 隐马尔科夫模型(HMM) BP神经网络 统计分析 模糊聚类
2018/11/24 史忠植 高级人工智能

44 BP用于预测 2018/11/24 史忠植 高级人工智能

45 统计工具 线性回归模型 ——一元线性回归、多元线性回归、逐步回归 非线性回归模型——二次曲线、三次曲线、指数曲线、幂指数曲线、生产函数等模型
确定型时间序列模型——指数平滑法、趋势移动平均法(水平趋势、线性趋势和二次曲线趋势)、成长曲线模型(Compertz曲线、Logistic曲线和修正指数曲线 )、季节指数法 随机型时间序列模型(自回归-移动平均模型ARMA) 相关分析 2018/11/24 史忠植 高级人工智能

46 自回归移动平均( ARMA) 2018/11/24 史忠植 高级人工智能

47 模糊聚类 基于传递闭包的模糊聚类 ——计算模糊相似矩阵的传递闭包, 从而获得传递闭包法的模糊聚类
基于摄动的模糊聚类 ——参数系 相似矩阵的最优模糊等价阵及其等价标准型获得失真最小的模糊聚类 2018/11/24 史忠植 高级人工智能

48 数据挖掘集成工具:可扩展算法库 算法注册 2018/11/24 史忠植 高级人工智能

49 MSMiner的应用:计算机选案 税务稽查计算机选案系统功能结构 决策树选案 数据汇总表 定义样本模板 执行选案 样本数据表 选案规则
训练样本数据 选案结果分析 税务稽查计算机选案系统功能结构 2018/11/24 史忠植 高级人工智能

50 MSMiner的应用:计算机选案 果: 2018/11/24 史忠植 高级人工智能

51 进一步的工作 与用户合作开发应用实例 进一步完善工作流 完善和丰富数据挖掘算法库 算法评测功能。 2018/11/24 史忠植 高级人工智能

52 Questions?! 2018/11/24 史忠植 高级人工智能


Download ppt "高级人工智能 第十三章 知识发现 (二) 史忠植 中国科学院计算技术所 2018/11/24 史忠植 高级人工智能."

Similar presentations


Ads by Google