Download presentation
Presentation is loading. Please wait.
1
基于CWM的 数据仓库体系结构设计 我的论文题目是。。。 论文的内容主要是总结了我以下两个部分的工作
2
我的工作 提出了一个基于CWM的数据仓库体系结构 基于该体系结构,参与设计和实现了一个 电信综合业务信息服务平台
基于该体系结构,参与设计和实现了一个 电信综合业务信息服务平台 第一是基于OMG的CWM规范,提出了一个通用的、可集成的、可扩展的 数据仓库体系结构,希望能够解决不同工具之间的数据交换问题,为企业搭建统一且易于扩展的数据仓库平台提供参考 第二是参与设计和实现了一个基于该体系结构的电信企业数据仓库系统,也就是联通总部综合业务 信息服务平台。
3
提纲 背景介绍 数据仓库、元数据理论介绍 CWM、MOF、UML、XMI规范介绍 基于CWM的数据仓库体系结构设计
电信综合业务信息服务平台设计 这次报告主要包括以下几个部分: 首先对本论文的背景作简要的说明 然后在第二和第三部分介绍了相关的理论基础,包括:数据仓库、元数据理论,和OMG的几个相关规范。 第四部分给出了一个基于CWM的数据仓库体系结构,并详细介绍了体系结构中各个组件的功能和接口。 最后简要介绍了一个基于该体系结构的电信企业数据仓库系统。
4
背景介绍 数据仓库的应用越来越广泛 不同数据仓库工具之间无法进行数据交换 企业的应用受到工具的限制 利用元数据可以实现数据交换
现在对本论文的背景作一个简要的介绍, 现有数据仓库的建设一般采用单一的产品,但是每个产品都有自己的优点和缺点, 对于大型的商业应用,可能需要综合使用多种工具。而现有的数据仓库工具都采用自己 的格式表示数据和元数据,所以很难进行交换。 在这种背景下,本论文提出了一种具有标准的CWM接口的数据仓库体系结构。
5
提纲 数据仓库、元数据理论介绍 背景介绍 CWM、MOF、UML、XMI规范介绍 基于CWM的数据仓库体系结构设计
电信综合业务信息服务平台设计
6
数据仓库理论 数据仓库的定义 数据仓库的建设 数据仓库的应用 国内数据仓库建设的问题
定义:面向主题的、集成的、不可更新的、随时间变化的数据集合 主题:是在较高层次上对数据进行综合、归类并分析的抽象。面向主题的数据组织方式就是 统一地刻画各个分析对象所涉及到的各项数据,以及数据之间的关系。 模型:概念模型、逻辑模型和物理模型 建设:自底向上、自顶向下 应用:OLAP和数据挖掘 国内建设的问题:原有数据库系统设计混乱、资料积累不足、行政支持不够
7
元数据 定义 研究元数据的原因 描述数据的数据 管理、使用数据的需求 系统分布和互通的要求 元数据重用、共享的要求
管理、使用:当系统数据量越来越大时,使用数据的效率会降低,借助于元数据, 可以帮助用户更有效地管理和使用数据。 系统分布、互通:也就是交换数据的要求。利用元数据可以实现异质系统之间数据的交换, 这一点正是本论文设计的基础。 元数据重用、综合的要求:目前很少有单一工具能够满足大型商业应用的需求,用户常常 需要使用多种工具的组合,这样就必须实现它们各自元数据的共享。
8
元数据的建模和标准化 建模的两大方向 标准化 元数据参考模型 元数据模型 OMG MDC
目前,关于元数据的研究主要集中在元数据的建模上,元数据的建模主要有两大方向: 元数据参考模型:也就是提供一个连续的整体框架,为整个系统划定实现的层次结构 元数据模型:也就是元数据参考模型中的具体选定的一层。比如CWM就是这样的一个规范。 元数据的规范从内容上大致可以分为两类:元数据建模和元数据交换。 目前主要有两个组织制定了相关的规范,一个是OMG,它采用的规范包括MOF,UML和CWM, 这些规范形成了元数据定义和交换的基础。 另外一个组织是MDC,它做的主要工作是开发了MDIS,并完成了基于微软的OIM的MDC-OIM 的技术评审。 为了推动元数据标准化的发展,OMG和MDC在99年互相加入成为会员,MDC采用了 OMG的UML,OMG则将MDC-OIM中数据仓库部分的内容作为CWM的设计参考 相信在两个组织的共同努力下,元数据标准将逐步一致化。
9
提纲 背景介绍 数据仓库、元数据理论介绍 CWM、MOF、UML、XMI规范介绍 基于CWM的数据仓库体系结构设计
电信综合业务信息服务平台设计
10
元数据的层次 通用的元元模型 元元模型(M3) 元模型(M2) Record(“Student”, 模型(M1)
…… Record(“Student”, Field(“name”,String), (Field(“sex”,String)…) MetaClass(“Record”, [MetaAttr((“name”),String), MetaAttr((“fields”),list<Field>)] MetaClass(“Field”,…) 通用的元元模型 信息,数据 (M0) 模型(M1) 元模型(M2) 元元模型(M3) 为了说明这几个规范之间的关系,首先向大家介绍一下元数据的层次。 OMG为元数据定义了四个层次。
11
OMG规范和元数据层次的关系 元数据层次 MOF术语 示例 M3 元元模型 MOF模型 M2 元模型, 元元数据 UML元模型,
CWM元模型 M1 模型, 元数据 UML模型, CWM模型 M0 对象,数据 数据仓库数据
12
CWM和相关规范的关系 CWM和MOF的关系 CWM和UML的关系 CWM和XMI的关系 直接继承了UML核心元模型 使用UML图形标记
使用UML中的OCL(对象约束语言) CWM和XMI的关系 CWM遵循MOF规范,所以它就可以使用OMG其它基于MOF的规范,尤其是XMI,另外,还可以 直接使用MOF IDL CWM是UML核心元模型的扩展,直接使用其中定义的语法和语义,节省了很多重复工作 比如,在CWM Relational包中有两个类:table和column,分别表示任何关系型数据库中的表和字段,它们分别继承于UML元模型中的Class和Attribute,而Class和Attribute又继承于Classifier和Feature, 在UML元模型已经明确定义了它们之间的关联关系,所以在CWM就无需进行重复定义。 XMI是一个可以将MOF模型映射为XML文档和DTD的规范,由于CWM遵循MOF,所以就可以利用 XMI将CWM元模型映射为XML文档和DTD,这样,所有能够解析XML的数据仓库工具之间都可以 进行元数据交换。由于XML使用非常广泛,所以这就大大增加了CWM的实用性和数据交换效率。
13
CWM的组成 CWM元模型 基础包 资源包 分析包 管理包 CWM DTD和CWM XML CWM IDL
14
提纲 背景介绍 数据仓库、元数据理论介绍 CWM、MOF、UML、XMI规范介绍 基于CWM的数据仓库体系结构设计
电信综合业务信息服务平台设计 基于上述理论研究,并结合本人参与建设多个数据仓库项目的经验,
15
基于CWM的数据仓库体系结构 需要说明的是,由于图的复杂性,不方便画出各组件和CWM的关系,实际上,图中每个组件 的设计和构造都遵循CWM规范,实现并提供标准的CWM接口。它们之间的数据交换都通过 接口调用的形式实现,当需要传输大量的数据时,可以采用交换XML文档和DTD的方式,由于 这些文档都是纯文本,所以可以保证交换的效率。 图中的组件主要可以分为以下几个部分:数据源、处理工具、数据存储、元数据存储和 数据仓库管理。数据源 由图可以看出,数据经过ETL组件的处理,被装载到ODS和数据仓库中, 同时将相关的元数据存储到中央元数据库和它们各自的本地元数据库。当需要时,中央数据仓库 还可以从ODS中获取轻度综合的数据。各个数据集市中的数据只来源于中央数据仓库,这样可以严格 保持它们之间数据的一致性,避免了烟囱式数据集市。所有这些组件都由中央元数据库驱动, 这样就可以保持数据的语法和语义在整个企业级别上的完整性和一致性,从而保持统一的业务规则。 下面分别介绍各个组件的功能和它们的接口。
16
数据源 OLTP数据库 遗留数据 内部办公系统数据 外部数据 数据仓库的数据源主要包括四个部分:。。。
17
数据源 多种类型:关系型、多维、 记录、XML 以及其它一些工具类型
关系型:模式,物理表, 视图,字段,索引,触发器,外关键字 ,主关键字 ,数据类型,字段值,数据记录,记录的集合 目前的数据库有很多种实现形式,包括。。。但其中最常用的是关系型,下面就以关系型数据库为例, 介绍一下数据源的接口。
18
Relational元模型
19
Relational元模型(续1)
20
Relational元模型(续2)
22
关系型数据源的主要接口 BaseTable:查询和修改表的属性、触发器和结构 Catalog:查询和修改包含的元素
Column:查询和设置属性 Row:查询和修改一条记录的内容 RowSet:查询和修改包含的记录
23
ETL 读取数据 清洁数据 转换数据 装载数据
24
ETL组件的接口 黑盒变换: Transformation ,DataObjectSet ,TransformationUse
白盒变换: FeatureMap ,ClassifierMap ,ClassifierFeatureMap ,TransformationMap 变换的执行顺序控制: TransformationTask ,TransformationStep ,TransformationActivity ,StepPrecedence ,PrecedenceConstraint
25
中央数据仓库 数据粒度最细且多层次 数据是历史的 数据是时间相关的 大数据量 数据是整合的 通用的、全局的
26
操作数据存储ODS 操作型系统 O D S 1/2 企 业 数据仓库 特点:面向主题的、集成的、可变的、当前的或接近当前的
企 业 数据仓库 特点:面向主题的、集成的、可变的、当前的或接近当前的 作用:企业级OLTP、即时OLAP
27
数据集市 部门1 外 部 数据源 粒度1 部门2 企 业 数据集市 数 据 仓 库 粒度2 部门3 最细粒度 粒度3
面向部门决策支持的数据仓库 更小、更集中的数据仓库
28
数据集市的特点 面向部门应用 规模小,投资少 使用方便且成本低
Ø 面向部门应用:数据集市一般由各个部门按照自己特定的需求从数据仓库中抽取相关的数据搭建而成,这个部门只需从自己的角度出发,而不必考虑整个企业的需要。比如,销售部门的数据集市只包含销售方面的数据,而不会导入诸如人力资源、财务方面的数据; Ø 规模小,投资少:数据集市的数据量相对于数据仓库要少的多,各个部门可以按照自己的需求选择合适的软硬件平台,以节省投资; Ø 使用方便且成本低:各部门可以在任何时候执行自己需要的DSS处理,而无需考虑对资源的占用和对其它部门的影响
29
元数据库 类型: 内容: 中央元数据库 本地元数据库 抽取过程:任务、执行顺序、映射关系、转换规则
描述数据 :方位图、数据之间的商业关系、商业规则、数据的改变 数据仓库管理:安全性、运行状态、抽取过程的调度、I/O对象及其关系
30
数据仓库管理 访问控制和安全性管理 数据增长管理 抽取过程的管理 性能管理 故障恢复 扩充和演变管理
31
数据仓库管理接口 抽取过程的调度(WarehouseProcess,WarehouseEvent,InternalEvent,ScheduleEvent,ExternalEvent) 抽取过程的执行(TransformationExecution,StepExecution,ActivityExecution) 数据元素的变化(Measurement,ChangeRequest)
32
OLAP组件接口 立方体的定义: Cube,CubeDimAssoc,CubeRegion,Dimension,Hierarchy,Level,Mearsure, LevelBasedHierarchy,HierarchyLevelAsso, ValueBasedHierarchy,MemberSelection,MemberSelGrp, 立方体到物理数据源的映射 StructureMap, LevelBasedHierarchy, ValueBasedHierarchy
33
数据挖掘组件的主要类及接口 MiningModel:模型属性和模型的输入 MiningSettings:对象属性,输入参数的说明
ApplicationInputSpecification, ApplicationAttribute:使用模型时的参数 MiningModelResult:挖掘的结果 SupervisedMiningModel: 描述预言性算法产生的模型 StatisticsSettings, AssociationRulesSettings, ClusteringSettings, ClassificationSettings, RegressionSettings:对应模型的设置
34
基于CWM的数据仓库体系结构的 特点及优点
统一的数据集市和数据仓库 中央元数据库驱动机制 灵活高效的数据交换方式 易于升级 高度的可集成性 高度的可扩展性
35
基于CORBA的企业数据仓库扩展结构 对 象 服 务 企业数据仓库 平台 C W M(IDL) 通用数据仓库 工具 对象请求代理(ORB)
36
提纲 电信综合业务信息服务平台设计 背景介绍 数据仓库、元数据理论介绍 CWM、MOF、UML、XMI规范介绍
37
系统体系结构设计
38
系统部署图 系统目前的功能
39
致谢
Similar presentations