数据挖掘管理系统规范说明 现状简介 强度挖掘(Intension Mining) I-MIN过程模型(Process Model) I-MIN系统的功能组件(Functional Components) 强度挖掘算子(Operators) I-MIN系统的三层体系结构(Architecture) 小结
Business Understanding 现状简介 传统的KDD过程模型(CRISP-DM模型) Business Understanding Data Understanding Data Preparation Data Exploration Data Mining Evaluation Deployment
现状简介 当前的数据挖掘系统和数据挖掘工具包要求使用者必须是数据挖掘专家 非专业用户需要与数据挖掘专家密切配合才能保证获得理想的数据挖掘结果 用户使用极为不方便
强度挖掘(Intension Mining) 挖掘目标以知识发现模式(Knowledge Discovery Schema)的形式存储 强度挖掘模式包含了一般挖掘需求(Generic mining requirements)的规格说明 强度挖掘是基于增量式挖掘概念的,增量数据库按固定的时间间隔进行自动处理 处理过程由数据预挖掘组成,主要包括初步分析和聚集(Aggregation) 强度挖掘主要由计划阶段(Planning phase),累积阶段(Accumulation phase)和挖掘阶段(Mining phase)三个阶段组成
强度挖掘(Intension Mining) 计划阶段 知识发现模式(Knowledge Discovery Schema, KDS)的创建 编译知识发现模式得到对应的元数据和数据结构
强度挖掘(Intension Mining) 累积阶段 通过元数据对增量数据库进行预挖掘,得到浓缩知识(Knowledge Concentrate, KC) 浓缩知识作为最终知识的中间表示形式,以浓缩知识窗口的形式为进一步的数据挖掘服务
强度挖掘(Intension Mining) 挖掘阶段 用户提交数据挖掘查询或执行数据挖掘应用程序 挖掘算法对浓缩知识进行处理,得到用户最终所需的知识
强度挖掘(Intension Mining) 重要特征 将KDD看作一个连续的过程,以固定的时间间隔对增量数据库进行周期性累积产生浓缩知识 浓缩知识窗口是知识更新和知识共享的基础
I-MIN过程模型(Process Model) 基于强度挖掘概念的以用户为中心的KDD过程模型 支持对KDD过程的交互式探索和试验 向下兼容传统的KDD过程模型 处理步骤分别标记为IM1, IM2, ……, IM6
I-MIN过程模型(Process Model)
I-MIN过程模型(Process Model) 对应于强度挖掘中的计划阶段 确定挖掘目标 以知识发现模式的形式表示挖掘目标 编译知识发现模式得到元数据
I-MIN过程模型(Process Model) 对应于积累阶段 是一个复合过程 IM2a, IM2b, IM2c分别对应于传统KDD过程的数据选择、数据清洗和数据转换 IM2d负责对预挖掘数据进行分析和聚集 不需人工干预而以固定的时间间隔自动执行 输出浓缩知识(KC)
I-MIN过程模型(Process Model) 标志着挖掘阶段的开始 用户提交挖掘查询或自己开发的应用程序 在IM2中得到的浓缩知识在本步骤可以共享
I-MIN过程模型(Process Model) 真正的数据挖掘步骤 知识发现模式中指定的数据挖掘算法被激活 用户期望的知识是从浓缩知识中挖掘出来
I-MIN过程模型(Process Model)
I-MIN系统的功能组件 实现I-MIN模型需要为累积、挖掘、试验和跟踪开发相应的组件 不同类型的知识对应的组件是不同的
I-MIN系统的功能组件
I-MIN系统的功能组件 实现I-MIN模型需要5种组件: K为使用算法A发现的知识类型 TM为合并算子,用于指定数据库子集 <TM(KA), FaccTM(KA), FminTM(KA), FexpTM(KA), FmonTM(KA)> K为使用算法A发现的知识类型 TM为合并算子,用于指定数据库子集 FaccTM为累积组件 FminTM为挖掘组件 FexpTM为试验组件 FmonTM为跟踪组件
I-MIN系统的功能组件 累积组件 对数据进行初步分析和局部聚集,实现IM2d 由系统自动激活 为增量数据库构建浓缩知识窗口 对最终用户而言是透明的
I-MIN系统的功能组件 合并组件 用户可以动态指定挖掘的数据目标子集 通过指定需要的时间间隔来达到合并的目的 固定周期内的浓缩知识需要合并产生一个合并的大窗口
I-MIN系统的功能组件 挖掘组件 由实际的挖掘算法组成 用户提交挖掘查询或应用程序时激活 一个算法根据参数的不同可能对应多个功能
I-MIN系统的功能组件 试验组件 支持以用户为中心的数据探索和试验 通过不同的常数、数据子集和参数进行重复的试验 通过用户应用程序的方式设计新的试验满足特别的挖掘需求
I-MIN系统的功能组件 跟踪组件 比较不同窗口中发现的知识来达到对数据特征进行审查的目的 可以有效发现模式的变化过程
I-MIN系统的功能组件 最后两个组件可以有效体现以用户为中心的本质 如果忽略TM、Fexp,和Fmon,I-MIN模型就还原为传统的KDD过程模型
强度挖掘算子(Operators) 用户通过算子以强度挖掘查询语言或API的方式访问功能组件对应的功能 算子可以分为: 基本算子 累积算子(用户透明) 合并算子(用户透明) 挖掘算子 二级算子 探索和比较多个数据子集 知识的存储和检索 关联规则的基本算子和二级算子已经开发出来
I-MIN系统的三层体系结构 对整个KDD过程进行抽象,并为知识管理提供有效的环境 独立于数据库系统和相应平台,支持知识发现,知识保存,知识更新和知识共享 层次结构包括前后端层、核心层和存储模式层 每层都有一个引擎,用于维护该层的数据库,协调层内不同组件之间的通信 元数据队在三层之间是共享的 数据交换接口提供了访问数据源的机制
I-MIN系统的三层体系结构
I-MIN系统的三层体系结构 知识抽象 存储模式层描述稠密知识单元如何通过数据结构和文件进行保存,对知识提供最低层次的抽象 中间层的知识发现模式将稠密知识单元抽象为浓缩知识或窗口 使用浓缩知识的应用程序对知识提供最高层次的抽象 修改浓缩知识的物理数据结构而对映射关系和应用程序没有影响的能力称为数据的物理独立性
I-MIN系统的三层体系结构 KDD过程抽象 预挖掘和聚集,存储结构和浓缩知识的映射关系等具体细节对最终用户而言是看不见的 用户的KDD过程由知识发现模式定义的一般KDD过程得到 对最终用户而言,提交一条挖掘查询或应用程序就定义了用户自己的KDD过程 通过改变预挖掘功能或挖掘算法修改KDD过程而不影响应用程序的能力称为数据的逻辑独立性
I-MIN系统的三层体系结构 前后端层 提供了I-MIN系统的用户接口 主要包括如下组件 强度挖掘查询处理器 知识发现模式编译器 表示管理器 组件管理器 库管理器 数据接口交换管理器
I-MIN系统的三层体系结构 核心层 数据挖掘引擎 激活累积组件 对用户查询和应用程序进行响应 与数据交换接口通信,从目标数据库中检索所需数据 功能模块有五个功能组件组成 预挖掘功能库用于数据选择、数据清洗和数据转换
I-MIN系统的三层体系结构 存储模式层 支持浓缩知识的存储 支持浓缩知识的合并和检索 为用户应用程序提供数据的物理独立性
I-MIN系统的三层体系结构 元数据和数据交换接口 元数据用于知识发现、知识重用和知识共享 数据交换接口用于实现KDD过程相对于数据源的独立性
小结 提出了针对KDD过程的以用户为中心的模型 提出基于该模型的数据挖掘管理系统体系结构 系统提供的操作算子用于开发数据挖掘应用程序 本体系结构独立于平台和领域 以用户为中心的方式进行知识发现、知识保存、知识更新和知识共享
谢谢!