Presentation is loading. Please wait.

Presentation is loading. Please wait.

第12章 现代信息集成技术.

Similar presentations


Presentation on theme: "第12章 现代信息集成技术."— Presentation transcript:

1 第12章 现代信息集成技术

2 第12章 现代信息集成技术 12.1 数据仓库(DW) 12.2 联机分析处理技术(OLAP) 12.3 数据挖掘(DM)
12.4 新决策支持系统概述 12.5 小结

3 前 言(1) 随着计算机技术的飞速发展和数据库技术的广泛普及应用,企业界对数据处理提出了更高的要求,即如何充分利用现有的数据资源,提取管理决策所需要的信息(决策支持),促进了新技术的产生。 数据仓库(Data Warehouse,DW)、联机分析处理技术(On Line Analytical Processing,OLAP)和数据挖据(Data Mining,DM)是20世纪90年代初兴起的三项决策支持新技术。现已形成研究热潮,并已进入实用阶段。

4 前 言(2) DW利用综合数据得到宏观信息,利用历史数据进行预测;OLAP技术不满足于对数据进行操作处理,还要进行分析处理;而DM是从数据库中挖掘知识,也用于决策分析。虽然三者支持决策分析的方式不同,但已完全结合起来,提高了决策分析的能力。这三者的结合已被认为是“新决策支持系统”,以区别于传统的决策支持系统。同时三者的结合也被称为“商业智能”,以区别于传统的人工智能。“商业智能”是指从数据仓库和数据挖掘中获取信息和知识,从而对变化的商业环境提供决策支持。 本章12.1节介绍DW技术,12.2节介绍OLAP技术,12.3节介绍DM技术,12.4节介绍综合决策支持系统的建立。

5 12.1 数据仓库(DW) 12.1.1 DW概述 12.1.2 DW的组织结构 12.1.3 DW存储的多维数据模型
数据处理 DW的设计

6 DW概述(1) 1.从DB到DW的演变 当今,信息处理部门的工作重点已不在于简单的数据收集。随着企业计算机应用的不断深入,企业已经积累了大量的生产业务数据,企业中普遍存在着“数据监狱”和“信息贫乏”现象。企业内的各级人员都希望能够快速、交互并方便有效地从这些大量杂乱无章的数据中获取有意义的信息,决策者希望能够利用现有数据指导企业决策和发展企业的竞争优势。于是,一种新的数据处理技术——数据仓库(DW)应运而生。数据仓库是以关系数据库、并行处理和分布式技术为基础的信息新技术。现在,数据仓库技术已紧跟Internet而上,成为信息社会中获得企业竞争优越性的又一关键技术。

7 12.1.1 DW概述(2) 在激烈的市场竞争中,信息对于企业的生存和发展起着至关重要的作用。传统的数据库技术面临着以下三个难以克服的困难:
(1)数据太多,信息贫乏(Data Rich, Information Poor)。 (2)数据缺乏组织性,异构环境数据的转换和共享成为瓶颈。 (3)传统数据库的事务处理方式制约了决策分析。 因此,为了克服上述三个困难,需要有一种适应数据分析、决策环境的工具与技术,这就是DW技术。DW起源于决策支持系统(Decision Support System, DSS ),在20世纪80年代末演变成DW。

8 DW概述(3) 2. DB数据和DW数据的区别 传统数据库利用事务处理,也叫操作型处理,是指对DB联机进行日常操作,即对一个或一组记录的查询和修改,是为企业特定的应用服务的。用户关心的是响应时间、数据安全性和完整性。 数据仓库用于决策分析,也称分析型处理,建立在DSS的基础上。分析型处理经常需要访问大量历史性、汇总性和计算性数据,分析内容复杂,然后作出正确的决策。 DB数据(操作型数据)和DW数据(分析型数据)之间的差别如表12.1所示。

9 12.1.1 DW概述(4) 表12.1 DB数据和DW数据的比较 DB数据 DW数据 操作型数据 分析型数据 细节的 综合的或提炼的
在存取时准确的 代表过去的数据 可更新的 不更新 操作需求事先可知道 操作需求事先不知道 事务驱动 分析驱动 面向应用 面向分析 一次操作数据量小 一次操作数据量大 支持日常工作 支持决策工作 DB规模在100MB~GB级 数据量在100GB~TB级

10 DW概述(5) 3. DW的定义和特点 “数据仓库”这个名词首次出现在20世纪80年代中期,其概念是由W.H.Inmon在1992年的《建立数据仓库》一书中提出。 定义12.1 数据仓库(DW)是面向主题的、集成的、相对稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程。 根据数据仓库的定义,数据仓库除了具有传统数据库的数据独立性、共享性等特点外,还具有以下六个特点: (1)DW是面向主题的(Subject Oriented) 传统数据库中建立的应用系统,是针对特定应用而设计的,是面向应用的。如教学管理、人事管理、财务管理、图书管理等。而DW中的数据是面向主题进行组织的。主题是指一个分析领域,一个抽象的概念。是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。

11 12.1.1 DW概述(6) (2)DW是集成的(Integrate) 数据进入DW之前,必须经过加工与集成。
(3)DW是相对稳定的(Non-Volatile) DW中包括了大量的历史数据,而不是处理联机的数据。因此可以说DW在一定时间间隔内是稳定的。 (4)DW是随时间增长的 DW内的数据时限为5~10年,故数据的关键码中包含时间项,需标明数据的历史时期,有助于系统进行时间趋势分析。 (5)DW中的数据量很大 通常DW数据量为10 GB级,相当于一般DB 100MB的100倍,大型DW是一个TB级的数据量。在DW的数据中,索引和综合数据约占2/3,原始数据占1/3。 (6)DW对软、硬件要求较高 一般,进行一个DW系统,需要一个巨大的硬件平台和一个并行的DBS。

12 12.1.1 DW概述(7) 4. DW的类型 根据DW所管理的数据类型和它们所能解决的企业问题范围,可以将DW分为下面三种类型:
(1)企业数据仓库(Enterprise DW, EDW) 这种DW中既含有大量详细的数据,也含有大量陈旧、繁琐的或聚簇的数据,并且这些数据具有不易改变性和面向历史性。是一种通用的DW类型。 (2)操作型数据存储(Operation Data Store, ODS) ODS是用于支持企业日常工作的全局应用的数据集合,既可以被用来针对工作数据作决策,又可用来将数据加载到DW时的过渡区域。 (3)数据集市(Data Mart) 这是一种更小的、更集中的DW。不同的部门有不同的主题域,因而也就有不同的数据集市。例如,财务部、供销部、采购部等各有自己的数据集市,他们之间可能有关联,但相互不同,且在本质上互相独立。

13 DW的组织结构(1) 1. DW的数据组织结构 DW是在原有的RDB的基础上发展形成的,但不同于DBS的体系结构。DW从原有的业务DB中获得的基本数据和综合数据被分成一些不同的层次。DW中的数据被分成为四个层次: ●当前基本数据层(Current Detail Data Level):存放最近时期的业务数据,数据量大,是DW用户最感兴趣的部分。 ●历史基本数据层(Older Detail Data Level):随着时间的推移,由DW的时间控制机构把当前基本数据层的数据转制为历史数据,转存于磁带一类介质中。 ●轻度综合数据层(Lightly Summarized Data Level):存放由当前基本数据层提取出来的数据。 ●高度综合数据层(Highly Summarized Data Level):存放由轻度综合数据层再经提炼的数据,是一种准决策数据。

14 12.1.2 DW的组织结构(2) 整个DW的结构是由元数据来组织的。元数据是“关于数据的数据”,如同传统DB中的DD一样。
●管理元数据(Administrative Metadata):用于从操作性环境向DW转化而建立的元数据,包含所有的源数据项名、属性及其在DW中的转化。 ●用户元数据(User Metadata):用于帮助用户查询信息、理解结果及了解DW中的数据和组织。即提供已有的、可重复利用的查询语言信息。

15 12.1.2 DW的组织结构(3) 2. 粒度与分割:粒度和分割属于DW的物理设计内容。 (1)粒度
定义12.2 在DW数据单位中,保存数据的详细程度和级别,称为“粒度”(Granularity)。数据越详细,粒度越小,级别就低;数据综合度越高,粒度越大,级别就越高。 粒度可以分为两种形式: 第一种形式是对DW中数据的综合程度高低的一个度量,它既影响DW中数据量的多少,也影响DW所能回答询问的种类。在DW中,多维粒度是必不可少的。 第二种形式是样本数据库,它是根据给定的采样率从基本数据库中抽取出来的一个子集。 在传统DB技术中,粒度用于访问授权机制的。在DW中,粒度是主要的设计问题,是因为它深深地影响存放在DW中的数据量的大小及DW能回答的查询类型,因此设计DW时应在数据量大小与查询的详细程度之间做出平衡。

16 DW的组织结构(4) (2)分割 定义12.3 数据分割(Partition)是指把逻辑统一的数据分割成较小的、可以独立管理的物理单元进行存储,以便重构、重组和恢复。 数据分割使DW的开发人员和用户具有更大的灵活性,对应用级的分割通常是按日期、业务、机构和地址等进行的。一般,分割标准点应包括日期项,它十分自然而且分割均匀。

17 DW存储的多维数据模型 (1) 1. 多维立方体 传统DB的数据模型难于表达DW的数据结构和语义。DW需要简明的、面向主题以及便于联机数据分析的数据模型。DW一般是基于多维数据模型(Multidimensional Data Model)构建的。 定义12.4 多维数据模型将数据看成数据立方体(Data Cube)形式,由维和事实构成。维是人们观察主题的特定角度,每一个维分别用一个表来描述,称为“维表”(Dimension Table),它是对维的详细描述。 事实表示所关注的主题,亦由表来描述,称为“事实表”(Fact Table),其主要特点是包含数值数据(事实),而这些数值数据可以进行汇总以提供有关操作历史的信息。 每个事实表包括一个由多个字段组成的索引,该索引由相关维表的主键组成,维表的主键也可称为维标识符。事实表一般不包含描述性的信息,维表包含描述事实表事实记录的信息。多个维表之间形成的多维数据结构,体现了数据在空间上的多维性,也可称为“多维立方体”。

18 DW存储的多维数据模型 (2) 例12.1 图12.1是每天各城市销售商品的数据组织起来的三维数据立方体。每个单元(小立方体)包含一个特定日期、特定城市、销售特定商品的销售额数据。 北京 上海 天津 1 豆油 2 3 5 4 6 彩电 空调 牛奶 大米 重庆 冰箱 城市 商品 日期 商品、城市、日期维 工业 国家 年 类别 省 月 商品 市 日

19 12.1.3 DW存储的多维数据模型 (3) DW的多维数据模型,又分为三种:星形模式、雪花模式和事实星座模式。下面分别介绍。
2. 星形模式(Star Schema) 大多数的DW都采用星形模式。星形模式的结构主要有以下三点: ●一个含大量而无冗余数据的事实表; ●若干相对含有较少数据的维表; ●每个维度自主组成一个维表,每个维表有一个维标识符与事实表发生联系,其图形描述呈星形。

20 12.1.3 DW存储的多维数据模型 (4) 例12.2 在图12.2中,有三个维表。以事实表为中心,加上若干维表,组成星形模式。
例 在图12.2中,有三个维表。以事实表为中心,加上若干维表,组成星形模式。 日期标识符 日期表(维表1) 商品标识符 商店标识符 单价 销售金额 销售表(事实表) 市名 省名 国名 洲名 商店表(维表3) 类标识符 大类标识符 商品名 类名 大类名 现货存量 商品表(维表2) 图 销售DW的星形模式

21 12.1.3 DW存储的多维数据模型 (5) 3. 雪花模式(Snowflake Schema)
“维”一般是层次结构或格结构。在例12.2中,商品的层次结构为商品→类→大类,商品表中每个元组表示商品所属的类及大类;商店的层次为商店→市→省→国→洲,商店表中每个元组表示商店所在的市、省、国、洲;日期的层次为日→月→年,日期表中每个元组表示“日”所属的月、年。用星形模式表示,数据冗余较大,应改用雪花模式。 雪花模式是对星形模式的扩展,实际上是对星形模式的规范化。雪花模式对星形模式的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。它的优点是最大限度地减少数据存储量,以及把较小的维表联合在一起改善查询性能。

22 DW存储的多维数据模型 (6) 例12.3 例12.2中图12.2的星形模式,根据维的层次结构,把维表层次化(类似于关系数据库中的规范化),得到图12.3的雪花模式。 商品标识符 商店标识符 日期标识符 单价 销售金额 销售表 类标识符 商品名 现货存量 商品表 市名 商店表 大类标识符 类名 类表 大类名 大类表 省名 市表 国名 省表 洲名 国表 日期表 月表 年表 图12.3 销售DW的雪花模式

23 DW存储的多维数据模型 (7) 雪花模式增加了用户必须处理的表的数量,增加了某些查询的复杂性。但这可以使系统更进一步专业化和实用化,同时降低了系统的通用程度。 4. 事实星座模式(Fact Constellation Schema) 事实星座模式是指存在多个事实表,而这些事实表共享某些维表。实际上,事实星座模式是星形模式和雪花模式的组合。 例12.4 在例12.3中,如果商店之间的商品还有调拨关系,那么就还要一个调拨事实表。这样DW中就有两个事实表:销售事实表和调拨事实表。这个事实星座模式如图12.4所示。

24 12.1.3 DW存储的多维数据模型 (8) 图12.4 商业DW的事实星座模式 商品标识符 商店标识符 日期标识符 单价 销售金额
销售表 类标识符 商品名 现货存量 商品表 大类标识符 类名 类表 大类名 大类表 商店表 市名 省名 市表 省表 国表 日期表 月表 年表 调出商店标识符 调入商店标识符 调拨数量 调拨金额 调拨表 国名 洲名 图12.4 商业DW的事实星座模式

25 数据管理(1) 1. DW的数据获取 DW中的数据是集成了各个异构数据源中的数据形成的。而DB中的数据真正要存储到DW中,还必须经过抽取(Extraction)、转换(Transform)和装载(Load)的过程,即ETL过程。 获取DW中的数据,由以下五步组成: (1)数据必须来自于多个的、异构的数据源。这些数据源可能是在不同的硬件平台上,使用不同的OS,因而数据以不同格式存在不同的DB中。 (2)数据必须格式化以使其与DW内部一致。来自于不相关数据源的数据,必须在名称、含义和域上是相容的。譬如一个大企业的各个子公司可能有不同的财政日历,在聚集财政数据时必须加以妥善解决。

26 12.1.4 数据管理(2) (3)为了保证有效性,数据必须要经过“清洗”。即输入数据在装入到DW之前必须进行清洗。一般,清洗包括两个操作:
数据的有效性检查和数据的重新格式化。 ●数据的有效性检查是指检查数据字段中的有效值。 ●必须在DW中把这类数据转换成一种统一的表示方式(重新格式化)。最需要格式化的数据是地址信息。 在数据清洗后,许多部门的数据经理会发现他们的数据在入DW后被清洗了,他就可能希望利用清洗后数据来改进他们原有的数据质量。把清洗后的数据从DW写回数据源的过程,称为回流(Back Flushing)。 (4)数据必须要适合DW的数据模型。不同数据源的数据必须装载到DW的数据模型中。 (5)数据要装载到DW中。需要一些装载的监控工具,以在不完全或不正确的装载过程中来执行恢复。对于DW中的大量数据,一般采用增量方式的更新。

27 12.1.4 数据管理(3) 现在比较著名的ETL工具有IBM的Visual Warehouse,Ardent公司的Data Stage等。
考查DW中的数据质量有以下五个标准: (1)数据是准确的。 (2)数据符合它的类型要求和取值要求。 (3)数据具有完整性和不冗余性。 (4)数据是集成的和一致的。 (5)数据是及时的,能遵循业务规则、满足业务要求。

28 12.1.4 数据管理(4) 2.DW实施时的问题:可能会出现不正常情况,主要有五种: (1)应用程序之间缺乏统一性
不同部门里的不同数据集市用于相同分析和查询时可能会出现不同的结果,企业就会陷于矛盾之中,失去了“真实的版本”。 (2)决策分析的可用性差 DW不能同时满足历史数据分析和当前数据分析两方面的需求,也不能同时满足汇总数据分析和基本详细数据分析两方面的需求。 (3)系统可用性差 在数据清洗与操作步骤冲突时,有时会发现系统不可使用。如果DW的规模已经发展到要求清洗的时间超过系统规定的停机时间,也会发生系统不可用。

29 数据管理(5) (4)数据的可用性差 在系统运行时,有时用于趋势分析的历史数据会占据越来越多的自由空间,影响了系统资源的使用。因此定期的数据重组非常重要,及时纠正硬盘碎片,以保证数据的最大可用性。 (5)系统的低性能 在DW运行一段时间后,系统性能下降,反应速度慢下来,令人沮丧。系统性能下降往往是由设计不良的数据库对象、草草编写的SQL、资源争夺和自由空间等问题导致的。 上述问题并不是在DW建设完成过程中产生的,而是在DW已运行一段时间后才产生的。 下面介绍脏数据、休眠数据以及元数据进行的管理。

30 数据管理(6) 3.脏数据的产生和清洗 定义12.5 DW中的脏数据是在数据源中抽取、转换和装载到DW的过程中出现的多余数据和无用数据。 (1)脏数据的产生 有以下四个原因可以产生脏数据: ① DW中定义了一些多余的数据,或者由于一些不合适的转换规则在转换过程中产生的无用数据。 ② 来自不同数据源的数据在数据结构、编码方式、数据定义等方面是不兼容的,在集成时未将所有不同情况的数据转换成统一形式,用了不匹配的转换方法而产生了脏数据。 ③ 输入了过期的数据,造成了DW中过期无用数据。 ④ 用户需求的改变或数据质量有了新的要求时,那么没有适应改变要求的数据就成了无用的脏数据。

31 12.1.4 数据管理(7) (2)脏数据的清洗 清洗脏数据有以下三个方法:
① 检查抽取数据的定义和数据转换规则的正确性,清洗那些不合适的定义和规则所造成的脏数据。 ② 在对多数据源集成时,必须对不同结构、不同编码、不同定义的数据,严格按统一格式转换后再集成,清洗那些不匹配方法产生的脏数据。 ③ 对过期的、历史的数据,根据数据量的大小进行重新整理;在数据量较少时进行重新整理;在数据量较大时,增加一些时间限制的规则来帮助对数据的使用。

32 12.1.4 数据管理(8) 4.休眠数据的处理 定义12.6 休眠数据是指那些当前不使用,将来也很少使用或不使用的存在于DW中的数据
设DW中的数据总量为D, 一年之中支持决策的可能的数据处理次数为n, 平均每次处理数据的字节数为d, 则一年中为支持决策的数据处理的总数据量为n×d。

33 12.1.4 数据管理(9) 在各次数据处理过程中,可能会出现数据重复使用,用系数α表示数据重复使用的程度:
1.0 如果每次数据处理均没用重复数据 α= 如果平均两次数据处理会遇到同一数据 0.3 如果平均三次数据处理会遇到同一数据 则休眠数据量D1的值为: D1 = D-α×n×d 休眠数据占DW中数据的比例称为休眠数据率R, 即R = D1/D。

34 12.1.4 数据管理(10) (1)休眠数据的产生 休眠数据的产生有以下三个原因: ●在DW中输入了过去的近期基本数据。
●过多地增加了不必要的综合数据。 ●历史数据用于预测,超过预测需求的历史数据均为休眠数据。 (2)休眠数据的发现 发现休眠数据的最好方法是监视用户查询DW的活动。主要是监视用户查询的SQL语句,监视返回给用户的查询结果数据集,以此来确定用户查询用了哪些数据,从而知道哪些数据没有被使用,很可能就是休眠数据。

35 12.1.4 数据管理(11) (3)休眠数据的删除 删除休眠数据有以下三种方法: ① 直接删除法:直接删除长时间用户不访问的数据。
② 归档存储法:将已确定的休眠数据归档存入一个大容量的存储媒介中,例如磁带。 ③ 邻线(Near Line)存储法:DW的数据是在线(On line)存储,邻线存储是一种二级数据存储方式。“邻线”介乎于“在线”和“离线”(Off Line)之间,是将休眠数据从DW的在线存储转移到邻线存储中,平时不参与DW的运行。但必要时,可以被在线存储合理使用。邻线存储的花费比在线存储少,但比归档存储多。这是一种比较有效的删除休眠数据的方式。

36 数据管理(12) 5.元数据的管理 元数据作为DB和DW的重要组成部分,它帮助DW开发小组准确而全面地理解潜在数据源的物理布局,以及所有数据元的业务定义,并对DW用户有效地使用DW中的信息提供帮助。 元数据描述了DW的数据和环境,即关于数据的数据。在DW中,元数据可分为四类: ●关于数据源的元数据(对不同平台上数据源的物理结构和含义的描述)。 ●关于数据模型的元数据(描述DW中有什么数据以及数据之间的联系)。 ●关于DW映射的元数据(指数据源与DW数据之间的映射)。 ●关于DW使用的元数据(对DW中信息使用情况的描述)。

37 12.1.4 数据管理(13) DW主要是为决策分析者使用的,他们大多是商业人员和技术人员。因此按构建方式不同,可将元数据分为下面两种:
●技术元数据(Technical Metadata):关于DW系统技术细节的元数据。 ●商业元数据(Business Metadata):是技术元数据的辅助,定义了介于使用者和DW系统之间的语义关系,用以帮助用户在DW中寻找所需商业信息,有助于用户正确方便地使用DW系统。 元数据以概念、主题、集团或层次等形式,建立了DW中的信息结构。从DW管理人员来看,元数据是在DW中所有内容和所有处理过程的一个综合仓库和文件;从最终用户的观点来看,元数据是DW中所有信息的路标。 DW的元数据正在走向标准化和商品化。

38 DW的设计和发展阶段 (1) DW是建立新型决策支持系统(DSS)的基础,因此建设DW就成了建设企业的信息决策支持环境的中心问题。像DB设计一样,DW设计也有生存期概念、DW工程等概念。 1. DW设计的原则 DW设计与DB设计在原理上应是一致的。因此DB设计中很多设计思想与方法都可在DW设计中得到应用。但DW中是分析型数据,DB中是事务型数据,因此两者在设计中很多方面存在着不一致,主要是以下三个方面。 (1)面向主题的设计原则 DW的设计是从主题(subject)开始的,为了进行数据分析首先要有分析的主题,以主题为起始点,进行相关数据的设计,最终建立起一个面向主题的分析型环境。相比之下,DB的设计则是以实体(object)为起始点,即以客观操作需求为设计依据。

39 12.1.5 DW的设计和发展阶段 (2) (2)数据驱动的设计原则
在DW中,其所有数据均应建立在已有数据源基础上,即是从已存在于操作型环境中的数据出发进行DW的建设。这种设计方法称为“数据驱动”方法。DW设计中的数据必来源于已有的数据源中,这是DW设计的先决条件。 与此不同,在DB设计中则是以建立新的数据体系与结构为其设计的内容。 (3)原型法的设计原则 在DW设计中主题往往不很清晰,需要在设计过程中逐步明确并且要在DW使用中不断完善、不断改进。因此DW设计一般不宜采用生存周期法而采用原型法,先建立一个设计原型,然后再不断扩充与完善。 而在DB设计则以生存周期为主要设计方法,其设计需求往往是明确的。

40 DW的设计和发展阶段 (3) 2. DW设计的步骤 DW设计可分为七个步骤:明确主题,概念模型设计,技术准备,逻辑模型设计,物理模型设计,DW的生成,DW的运行与维护。 (1)明确主题 在DW设计的开始,首先要确定领域的分析对象,这个对象就是主题。主题是一种较高层次的抽象,对它的认识与表示是一个逐步的过程。在开始时,不妨先确定一个初步的主题概念以利于设计工作的开始,此后随着设计工作的进一步开展,再逐步扩充与完善。

41 12.1.5 DW的设计和发展阶段 (4) (2)概念模型设计
DW的概念模型设计还是采用ER模型方法。现在实体就是主题,联系表示主题之间的联系。 DW的概念设计是在原有的DB基础上建立的一个较为稳固的概念模型,并且DW是对原有DBS中数据进行集成和重组而形成的数据集合。 因此在DW概念设计时,首先要对原有DBS加以分析理解,了解原有DBS中“有什么”、“是怎样组织的”和“是如何分布的”等,然后再来考虑应当如何建立DW系统的概念模型。 概念模型的设计是在较高的抽象层次上的设计,不用考虑具体实现细节。

42 12.1.5 DW的设计和发展阶段 (5) DW的概念设计要完成以下两项工作: ① 界定系统边界
此时尚无详细而明确的需求,但方向性的需求还是能找到的: ●要做的决策类型有哪些? ●决策者感兴趣的是什么问题? ●这些问题需要什么样的信息? ●要得到这些信息需要包含原有DBS的哪些部分数据? 这样就判定了一个当前的大致的系统边界。 ② 确定主要的主题域 这一步中,首先确定系统所包含的主题的主题域,然后对每个主题域的内容进行较明确的描述,描述的内容有以下几点: ●主题域之间的联系; ●主题域的公共关键码; ●充分代表主题的属性组(必须与已有数据源接轨)。

43 DW的设计和发展阶段 (6) (3)技术准备工作 在建立概念模型之后的工作是准备具体的实现环境。技术准备工作主要做两件事情: ●对DW的概念模型作一个评估,主要是DW的性能指标,如数据存取能力、模型重组能力、数据装载能力等。 ●在评估基础上提出DW的软硬件平台要求,诸如计算机、网络结构、操作系统、DB与DW软件的选购要求等。 (4)逻辑模型设计 目前DW仍建立在关系数据库的基础上。因此DW的逻辑设计中采用了关系模型。无论是主题还是主题间的联系,都用关系来表示。DW的逻辑模型描述了DW的主题以及主题之间的逻辑实现。

44 12.1.5 DW的设计和发展阶段 (7) DW的逻辑设计进行的工作主要有以下五步: ① 分析主题域,确定当前要装载的主题
●它要足够大,该主题能建设成一个可应用的系统; ●它要足够小,以便于开发和较快地实施。 比如在设计商场DW时,有四个基本主题域:商品、供应商、顾客和职工。可以认为“商品”主题既是商场最基本的业务对象,譬如采购、库存、销售等,又是进行决策分析的最主要领域,因而较之另外三个主题来说,“商品”主题具有更重要的意义与作用。先实施“商品”主题能尽快地满足经营者建立DW的初始要求,所以可以先选定“商品”主题来实施。

45 12.1.5 DW的设计和发展阶段 (8) ② 确定粒度层次划分
③ 确定数据分割策略 数据分割是指逻辑上是统一整体的数据分割成较小的、可以独立管理的物理单元(称为“分片”)进行存储,以便于重构、重组和恢复,以提高创建索引和顺序扫描的效率。 ④ 定义关系模式 DW中的每个主题都是由多个表来实现,这些表之间依靠主题的公共关键码联系在一起,形成一个完整的主题。这一步主要是对选定实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。

46 DW的设计和发展阶段 (9) ⑤ 定义记录系统 对所确定的表结构模型定义记录系统。由于DW中的数据均来源于外界各种数据源,又由于这些数据源在数据定义、语义、理解、表示方法上存在着不一致,同时DW中的数据又多是总计型、综合型数据,因此需要对数据源作一定的加工,所有这些表示对DW中的属性数据来源需要定义并形成规则,它们称为“记录系统”。记录系统构成了DW的元数据。 (5)物理模型设计 DW的物理设计是在逻辑设计基础上确定数据存储结构、确定索引策略、确定存储分配及数据存放位置等与物理有关的内容。物理模型设计的具体方法与DB设计中的大致相似。

47 12.1.5 DW的设计和发展阶段 (10) (6)DW的生成 这一阶段主要做三件事情:
●DW的逻辑模型与物理模型,用DB中的DDL定义数据模式; ●根据记录系统编制抽取程序,将数据源中的数据作加工以形成DW中的数据; ●数据加载,将数据源中的数据,通过数据抽取程序加载到DW的模式中去。 (7)DW的使用与维护 在DW建立后紧接着工作就是可以建立分析决策的应用系统,在应用系统完成后即可投入使用,在使用中不断加深理解,改进主题,依照原型法的思想使系统更趋完善。 在DW使用中还要不断加强维护,DW维护主要工作是数据刷新、数据的调整以及淘汰数据的及时清洗等。

48 DW的设计和发展阶段 (11) 3. DW的发展阶段 建立DW的目的不只是为了储存更多的数据,而是要对这些数据进行处理并转换成商业知识,利用这些知识来支持企业进行正确的商业活动,并最终获得效益。 DW的功能是在恰当的时间,把准确的信息传递给决策者,使他能作出正确的商业决策。 美国著名的NCR数据仓库公司将DW的发展总结为五个阶段:报表、分析、预测、实时决策和自动决策。 (1)报表阶段 最初的DW主要用于企业内部某一部门的报表。本阶段所建立的DW是通过收集各种来源的数据,来回答预先设置的一些问题,告诉决策者“发生了什么”。它为以后DW的发展奠定了基础。

49 DW的设计和发展阶段 (12) (2)分析阶段 这一阶段,决策者关心的重点从“发生了什么”转向“为什么会发生”。此时,DW主要用于随机分析。业务用户希望通过图形用户界面(GUI)直接访问DW,不希望有编程人员作为中介。支持DW的并发查询及大批量用户,是这一阶段的典型特征。 (3)预测阶段 这一阶段是DW帮助决策者来预测未来,回答“将要发生什么”。掌握公司即将发生的动向意味着更为积极地管理并实施公司战略。此时需要利用历史资料创建预测模型。利用预测模型进行高级分析的最终用户为数不多,但建模及评测的工作量极大。 一般,建模需要用数百种复杂方法度量几十万(或更多)观察数据,以便形成适合于一组特定商业目标的预测算法。

50 12.1.5 DW的设计和发展阶段 (13) (4)实时决策阶段
这一阶段是企业需要准确了解“正在发生什么”,从而需要建立动态DW(实时DB),用于支持战术型决策,即实时决策以有效地解决当前的实际问题。而前面三个阶段的DW都以支持企业内部战略性决策为重点,帮助企业制定发展战略。 DW的“实时决策”是指为当时现场提供信息支持决策,如能及时补给的库存管理和包裹发运的日程安排、路径选择等。动态DW能够逐项产品、逐个店铺、逐秒地作出最佳决策。动态DW提供了全新型的决策支持,它是业务关键型系统。 动态DW的主要功能是缩短重要业务决策及其实施之间的时间。将动态DW所作的数据分析,转换成可操作的决策,这样才能将DW的价值最大化。

51 12.1.5 DW的设计和发展阶段 (14) (5)事件触发的自动决策阶段
这一阶段是由事件触发,利用动态DW自动决策,达到“希望发生什么”的层次。动态DW在决策支持领域中的角色越重要,企业实现决策自动化的积极性就越高。随着技术的进步,越来越多的决策由事件触发、自动发生。例如,零售业正面临着电子货架标签的技术突破,标签不再沿用已久的手工更换式的老式纸质标签。电子标签可以通过计算机远程控制,根据分析决策,随时改变标价,无需任何手工操作。 动态DW可以为整个企业提供信息和决策支持,而不只局限于战略决策过程。然而,战术决策支持并不能代替战略决策支持。确切地说,动态DW同时支持战术决策和战略决策两种方式。第⑸阶段的工作仍然是战略性的。有第⑷、⑸阶段DW的定时决策和自动决策,在第⑴~⑶阶段按照传统DW分析而制定的战略才能够得以实现。

52 DW的设计和发展阶段 (15) 上面较详细地介绍了DW的五个发展阶段。应注意,动态DW的应用是一个逐渐演进的过程。一般并不主张从第⑴阶段直接跳到第⑸阶段。当DW进步到具有战略决策支持功能时,必然会对DW提出更高的可执行战略和战术决策要求。动态DW如果能用于整个企业,其商业价值就会大大增加。 NCR公司成功地开发了很多实际DW系统,在统计业、航空业和金融业得到了广泛的应用。

53 12.2 联机分析处理技术(OLAP) OLAP概述 OLAP的数据组织 OLAP应用开发实例

54 12.2 联机分析处理技术(OLAP) 传统的DB操作是以简单的、原始的、可重复使用的例行短事务为主,如银行记账、民航售票、电话计费等即属于此类操作。这种应用称为联机事务处理(On-Line Transaction Processing),简称为OLTP。 虽然随着计算机技术的广泛应用,公司每天都产生出了大量的数据,如何从这些数据中提取对公司决策分析有用的信息,是公司决策管理人员所面临的问题。这一种应用是分析型操作,它们以大量的、总结性的与历史有关的、涉及面广的分析为主的操作,如连锁商店的销售统计。以分析为主的应用称为联机分析处理(On-Line Analytical Processing),简称为OLAP。本节介绍OLAP的基本概念、数据组织、多维数据分析和应用开发实例。

55 OLAP概述 (1) 1. OLAP的定义 OLAP一词首先是由提出关系模型的E.F.Codd于1992年提出的。当时Codd认为OLTP已不能满足终端用户对DB查询分析的需求,用户的决策分析需要对关系数据库进行大量的计算才能得到结果,而查询的结果都并不能满足决策者所提出的问题。因此Codd提出了多维数据库和多维分析的概念,即OLAP的概念。 OLAP组织给出的形式定义如下所述。 定义12.7 OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。而这些信息是从原始数据转换过来的,按照用户的理解,反映了企业真实的方方面面。

56 OLAP概述 (2) 这里,“方方面面”也就是通常提到的“维”。企业的用户对企业的观点自然是多维的,也就是观察角度可能是多种的。譬如销售系统,不仅可从生产角度观察,还可以从地点、时间等角度观察。这就是为什么OLAP模型是多维的原因。OLAP的大部分技术都是将关系型或普通的数据进行多维数据存储,以便于进行分析,从而达到联机分析处理的目的。这种多维数据,也被看作是超立方体,沿着各个维方向存储数据,并允许用户沿事物的轴线方向方便地分析数据。 随着人们对OLAP理解的不断深入,对OLAP概念提出了更为简单明确的定义。 定义 OLAP处理就是“共享多维信息的快速分析”(Fast Analysis of Shared Multidimensional Information,FASMI)。

57 12.2.1 OLAP概述 (3) 从这个定义出发,可以看出OLAP概念具有下列五个特征:
(3)共享性:在大量用户间实现潜在地共享秘密数据所必需的安全性需求。 (4)多维性:多维性是OLAP的关键特征。系统必须提供对数据的多维视图和分析。 (5)信息性:不论数据量有多大,或数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。 OLAP是独立于DW的一种技术概念,其基本思想是公司的决策者应能灵活地操纵公司的数据,以多维的形式从诸方面和诸角度来观察公司的状态并了解公司的变化。

58 OLAP概述 (4) 2. OLAP准则 1993年E.F.Codd在《Providing OLAP to User Analysis》中提出了有关OLAP的十二条准则,用来评价分析处理工具。 (1)多维概念视图 企业决策分析的目的不同,决定了分析和衡量企业的数据总是从不同的角度来进行的,因而企业数据空间本身就是多维的,也就是OLAP的概念应是多维的。 (2)透明性 首先,OLAP在体系结构中的位置对用户是透明的。其次,OLAP的数据源对用户也是透明的,用户不必关心数据来自于同构还是异构的数据源。 (3)存取能力 OLAP系统不仅能进行开放的访问,而且还要提供高效的存取策略。

59 12.2.1 OLAP概述 (5) (4)稳定的报表性能 报表操作不应随维数的增加而有所削弱。 (5)客户/服务器(C/S)体系结构
(6)维的等同性 每一个数据维在其结构和操作功能上必须等价。 (7)动态稀疏矩阵处理 OLAP服务器的物理结构应完全适用于特定的分析模型,提供优化的稀疏矩阵处理。 (8)多用户支持能力 OLAP工具应提供并发访问、数据完整性及安全性等功能。

60 OLAP概述 (6) (9)非受限的跨维操作 在多维数据分析中,所有维的生成和处理是平等的。OLAP工具应能处理维间的相关计算。 (10)直接的数据操作 OLAP操作直观易懂。如果要重定向联系路径,或在维或行间进行细割操作,都应该通过直接操作分析模型单元来完成,而不需要使用菜单或跨越用户界面进行多次操作。 (11)灵活的报表生成 用户可以按任何想要的方式来操作、分析、综合和查看数据,报表生成工具能从各种可能的方面显示从数据模型中综合出的数据和信息,充分反映数据分析模型的多维特征。 (12)不受限制的维和聚集层次 OLAP服务器应能在通用分析模型中协调至少十五个维。每一通用维应能允许有任意个用户定义的聚集,而且用户分析员可以在任意给定的综合路径上建立任意多个聚集层次。

61 12.2.1 OLAP概述 (7) 3. OLAP的基本概念 在OLAP中有如下几个基本概念 (1)对象(Object)
在分析型处理中我们所关注与聚焦的分析客体,称为“对象”。一般在一个应用中有一个或若干个对象,它们构成了分析应用中的焦点。如在连锁商店的分析型应用中,其中一个对象为销售金额,它是本应用分析的聚集点。 (2)变量(Variant) 变量是数据的实际意义,即描述数据“是什么”。一般情况下,变量总是一个数值度量指标,例如“人数”、“单价”、“销售量”等都是变量,而“100”、“200”则是变量的一个值。

62 12.2.1 OLAP概述 (8) (3)维(Dimension)
在分析型应用中,对象可以从不同角度分析与观察,并可得到不同的结果。用“维”来反映对象的观察角度,如在连锁商店例中对销售金额可以有以下三个维:、 ●时间维:可按时间段分析、统计其销售金额。 ●商品维:可按不同商品分类分析、统计其销售金额。 ●地域维:可按连锁店不同地域分析、统计其销售金额。 维有自己固有的特征,如层次结构(对数据进行聚合分析时要用到)、排序(定义变量时要用到)和计算逻辑(基于矩阵的算法),这些特征对进行决策是非常有用的。

63 OLAP概述 (9) (4)层(Layer) 用“层”来反映对对象观察的深度。层与维紧密相连的,一个维中可以存在多个层次。譬如连锁商店例中: ●时间维可以有日、旬、月、季、年等层次。 ●商品维可以有商品类(如家电类)、商品大类(如电器产品类)等层次。 ●地域维可以有市、省、国、洲等层次。 在分析型应用中有若干个对象(设为r个),以它们为聚焦点作不同角度(设为m个)与深度(设为n个)的分析,可以得到多种不同的统计、分析结果(其为r×m×n个)。这些结果经常需要使用(包括查询等),因此在OLAP中需要将它们长期保留,以便随时供分析员使用。

64 OLAP概述 (10) (5)维成员 维的一个取值称为该维的一个维成员。如果一个维是多层次的,那么该维的维成员是由各个不同维层次的取值组合而成。例如时间维有日、月、年三个层次,分别在日、月、年上各取一个值组合起来,就得到了时间维的一个成员“某年某月某日”。 (6)多维数组 一个多维数组可以表示为如下形式:(维1,维2,…,维n,变量)。例如,若商品销售数据是按时间、地区和销售渠道组织起来的三维立方体,加上变量“销售额”,就组成了一个三维数组:(时间,地区,销售渠道,销售额)。 如果在此基础上再扩展一个商品维,就得到一个四维数组:(商品,时间,地区,销售渠道,销售额)。

65 12.2.1 OLAP概述 (11) (7)数据单元(单元格) 多维数组的取值称为数据单元。
当多维数组的各个维都选中一个维成员,这些维成员的组合就惟一确定了一个变量的值,此时数据单元就可以表示为:(维1维成员,维2维成员,…,维n维成员,变量的值)。 例如商品、地区、时间和销售渠道上各取维成员“牙膏”、“2004年1月”、“上海”和“批发”,就惟一确定了变量“销售额”的一个值(假设为100000),则该数据单元可以表示为:(牙膏,2004年1月,上海,批发,100000)。

66 12.2.1 OLAP概述 (12) 4. OLAP与OLTP之间的比较
用户 决策者(经理等) DBA、办事员 数据库设计 面向主题 面向应用 规范化 非规范化设计 规范化设计 处理方式 分析处理 事务处理 特征 信息处理 操作处理 功能 全局决策支持 日常操作 数据 历史数据 当前数据 工作单元 复杂查询 短的简单事务 数据存取 只读 更新频繁 系统关注 数据输出量 数据进入 操作 大量扫描 主关键码索引 DB规模 100GB~TB 100MB~GB 设计目标 高灵活性 高性能可用性 系统度量 查询响应时间 事务吞吐量 用户数目 相对较少 访问记录 特别多 4. OLAP与OLTP之间的比较 OLAP与OLTP在各个方面都存在着较大差别,如数据库设计方法、用户及存储的数据内容等方面,见表12.2所示。

67 12.2.2 OLAP的数据组织(1) 1.多维数据模型存储的三种形式
建立OLAP的基础是多维数据模型。多维数据模型的存储主要有三种形式:MOLAP、ROLAP和HOLAP。 (1)MOLAP MOLAP是多维OLAP(Multi-dimension OLAP)的简写。MOLAP利用一个专有的多维数据库(MDDB)来存储OLAP分析所需的数据,数据以多维方式存储,并以多维视图方式显示。 在MDDB中,二维数据就是二维表格,三维数据就是立方体,当维数扩展到更多维时,多维数据库形成“超立方体”。

68 OLAP的数据组织(2) (2)ROLAP ROLAP是关系OLAP(Relation OLAP)的简写。ROLAP在功能上类似于MOLAP,但其底层是关系型DB,而不是多维数据库。用户通过客户端工具提交多维分析请求给OLAP服务器,后者将这些请求动态地转换成SQL语句执行,分析的结果经过多维处理转化为多维视图返回给用户。 (3)HOLAP 由于MOLAP和ROLAP各有优缺点,所以近年提出一个新的OLAP结构——HOLAP。HOLAP是混合型OLAP(Hybrid OLAP)的简写。HOLAP结构不应该是MOLAP与ROLAP结构的简单组合,而是将两种结构技术的优点有机结合,能满足用户各种复杂的分析请求。

69 12.2.2 OLAP的数据组织(3) 2. OLAP数据的处理方式 实际上,多维数据计算不需要在数据存储位置上进行。
(1)关系数据库。此时活动的OLAP数据存储在RDB中,由于SQL的单语句并不具备完成多维计算的能力,要获得哪怕是最普通的多维计算功能也需用多重SQL,因此现在一些OLAP工具用SQL做一些计算,然后将计算结果作为多维引擎输入。 (2)多维服务引擎。应用在多维服务引擎上完成多维计算,具有良好的性能。因为这种方式可以同时优化引擎和DB,而服务器上充分的内存为有效地计算大量数组提供了保证。 (3)客户机。在客户机上进行计算,要求用户具备性能良好的pc,来完成部分或大部分的多维计算。

70 12.2.2 OLAP的数据组织(4) 3. OLAP的多维数据分析
(1)切片和切块: 在多维数组的某一维上选定一个维成员值的操作称为“切片”(Slice)。 在多维数组的某一维上选定一个以上的维成员的操作称为“切块”(Dice)。 (2)钻取: 包含上卷(Roll Up)和下钻(Drill Down)两个操作。上卷操作获得概括性的数据。下钻是上卷的逆操作,以获得细节性的数据。 (3)旋转: 旋转(Pivoting)是一种视图操作,通过旋转可以得到不同视角的数据。 另外又增加了计算和智能的能力,称为广义OLAP操作。

71 12.2.3 OLAP应用开发实例(1) 1.上卷操作 例12.5 设数据库中有表 SC(S#,C#,SCORE)
在该表中查询每个学生的成绩和平均成绩,以及所有学生的总平均成绩。分组子句中的属性序列应为“S#,C#”,并要使用“WITH ROLLUP”上卷短语,那么SELECT语句可这样书写: SELECT S#,C#,AVG(SCORE) AS 平均成绩 FROM SC GROUP BY S#,C# WITH ROLLUP ORDER BY S#,C#; 由于使用排序子句,因此查询分成三个层次: ●先显示所有学生所有课程的总平均成绩; ●再依S#显示每一学生的平均成绩; ●在每一学生中,依C#显示每门课程的成绩。

72 12.2.3 OLAP应用开发实例(2) 图12.5 学生选课成绩表SC 图12.6 查询结果集 S# C# SCORE S2 C4 80
90 S5 60 70 S# C# SCORE ALL 75 S2 85 C4 80 C6 90 S5 65 60 70 图12.5 学生选课成绩表SC 图12.6 查询结果集

73 OLAP应用开发实例(3) 2.立方体操作 立方体(CUBE)操作与上卷操作不同的是它基于分组子句创建组的所有可能的组合,然后运用聚集函数。 例 如果要查询每个学生每门课程的成绩,每个学生的平均成绩,每门课程的平均成绩以及所有学生所有课程的总平均成绩。其SELECT语句可如下书写: SELECT S#,C#,AVG(SCORE) AS 平均成绩 FROM SC GROUP BY S#,C# WITH CUBE ORDER BY S#,C#; 查询分四个层次: ●先显示所有学生所有课程的总平均成绩; ●再显示所有学生每一门课程的平均成绩; ●再依S#显示每一学生的平均成绩; ●在每一学生中,依C#显示每门课程的成绩。

74 12.2.3 OLAP应用开发实例(4) 图12.7 查询结果集 S# C# SCORE ALL 75 C4 70 C6 80 S2 85
90 S5 65 60 图12.7 查询结果集

75 12.2.3 OLAP应用开发实例(5) 3. 广义OLAP操作
(1)基本代理操作:“代理”是指一些智能性代理,当系统处于某种特殊状态时提醒分析员。有以下三种操作: ① 示警报告:一旦条件满足,系统会提醒分析员去做分析,如每日报告完成后或月定货完成后通知分析员作分析。 ② 时间报告:按日历和时钟提醒分析员。 ③ 异常报告:当超出边界条件时提醒分析员,如销售情况已超出预定义的阈值的上限或下限时提醒分析员。 (2)计算引擎:用于特定需求的计算或某种复杂计算。 (3)模型计算:增加模型,以提高决策分析能力。

76 12.3 数据挖掘(DM) 12.3.1 DM概述 12.3.2 DM与DW、OLAP的联系与区别 12.3.3 DM的应用过程

77 12.3 数据挖掘(DM) 随着DB技术的迅速发展和DBMS的广泛应用,众多的企业实现了信息的数字化处理,人们积累的数据越来越多。激增的数据内部隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以更好地利用这些数据。 对于这些问题,现有的信息管理系统中的数据分析工具无法给出。目前的DBS可以高效地实现数据的录入、查询和统计等功能,但缺乏挖掘数据背后隐藏的知识的手段,无法发现数据中存在的联系和规则,无法根据现有的数据预测未来的发展趋势,从而导致了“数据爆炸但知识贫乏”的现象。 正是为了满足这种要求,从大量数据中提取隐藏在其中的有用信息,将“机器学习”应用于大型数据库和数据仓库的数据挖掘(Data Mining,DM)技术在20世纪90年代得到了长足的发展。

78 DM概述(1) 1. DM的由来 DM的产生实际上是一个逐渐演变的过程。在电子数据处理(EDP)的初期,人们就试图通过某些方法来实现自动决策支持,当时“机器学习”成为人们关心的焦点。机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例,总结并生成相应的规则。这些规则具有通用性,可以解决某一类问题。 在20世纪80年代初,随着神经网络技术的形成和发展,人们的注意力转向知识库和知识工程。知识工程不同于机器学习,不是为计算机输入范例,而是直接为计算机输入已被代码化的规则,计算机通过使用这些规则来解决某些问题。专家系统就是知识工程的成果,但投资大、效果不甚理想。

79 DM概述(2) 20世纪80年代末,在新的神经网络理论的指导下,人们又回到机器学习方法上,并将其成果应用于处理大型商业数据库,从而引出了一个新的术语——数据库中的知识发现(Knowledge Discovery in Database),简称为KDD。KDD泛指所有从源数据中发掘模式(Pattern)或联系的方法。并用KDD来描述整个数据挖掘的过程。KDD是一个比DM更大范围的术语。从最初的制定业务目标到最终的结果分析,用数据挖掘描述使用挖掘算法进行数据挖掘的子过程。最近,DM中有许多工作逐渐使用统计方法来完成,并认为最好的策略是将统计方法与DM有机地结合起来。 DW的发展是促进DM越来越热的原因之一,但DW并不是DM的先决条件,因为有很多DM可直接从操作数据源中挖掘信息。

80 DM概述(3) 2. DM的定义 定义12.9 DM是从大量、不完全、有噪声、模糊和随机的实际应用数据中提取隐含在其中且人们事先不知道、但又是潜在有用的信息和知识的过程。 从这个定义可以看出,DM有下列特点: (1)数据源必须是真实、大量、有噪声的; (2)发现的是用户感兴趣的知识; (3)发现的知识要可接受、可理解并可运用,但并不要求是放之四海而皆准的真理,仅仅支持特定的发现问题。 (4)DM可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但仍能找到那些非预期的却令人关注的信息。 DM是一门交叉学科,相关的领域有统计、机器学习和模式识别、人工智能、DB、DW、OLAP、知识获取、信息提取、可视化、多媒体环境,以及数字图书馆和信息管理系统等。

81 12.3.2 DM与DW、OLAP的联系与区别 (1) 1. DM与DW的联系与区别 (1)DM与DW的联系
●DW对DM的三点影响:DW为DM提供了广泛的数据源,DW为DM提供了支持平台,DW为使用DM工具提供了方便 ●DM对DW的三点影响:DM为DW提供了决策支持,DM对DW的数据组织提出了更高的要求,DM为DW提供了广泛的技术支持 (2)DM与DW的区别 ●DW是一种存储技术,它的数据存储量是一般DB的100倍,DW中包含了大量的历史数据、当前详细数据以及综合数据。它能为不同用户的不同决策需要,提供所需的数据和信息。 ●DM是从人工智能和机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。

82 12.3.2 DM与DW、OLAP的联系与区别 (2) 2. DM与OLAP的联系与区别
DM和OLAP都是DSS中的重要组成部分,两者都属于分析型工具,都可以从大量的数据中找出决策中需要的信息。然而,它们是完全不同的工具,基于的技术也大相径庭。 OLAP是一种自上而下、不断深入的分析工具,先由用户提出问题或假设,OLAP负责从上而下深入地提取关于该问题的详细信息,并以可视化的方式呈现给用户。譬如,一个银行分析师想找到是什么原因导致居民储蓄额下降,他可能先做一个初始假定,然后用OLAP来验证这个假定。如果这个假设没有被证实,他需要重新做一个假设,将这个过程一直进行下去,直到找到他想要的结果或放弃。OLAP分析过程在本质上讲是一个演绎推理的过程,人做出的假设非常关键。

83 DM与DW、OLAP的联系与区别 (3) DM与OLAP的本质区别是DM是在没有明确假设的前提下去挖掘信息、发现知识。DM所得到的信息是先前未知的信息,是预先未曾预料到的信息,即DM是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息,越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家超市通过数据挖掘发现了销售尿布和啤酒之间有着惊人的联系:三十岁左右的男子周末买纸尿布的同时总要买几瓶啤酒。 DM与OLAP不同之处是,DM不是用于验证某个假定的模式的正确性,而是在DB中自己寻找模型。这在本质上是一个归纳的过程。例如使用DM工具的分析师想找到居民储蓄额下降的原因,DM工具可以主动地帮他找出引起这个问题的原因,甚至可能发现一些分析师从来没有想过或试过的其他原因。

84 DM与DW、OLAP的联系与区别 (4) DM和OLAP具有一定的互补性。在将数据挖掘出来的结论付诸行动之前,可以通过OLAP验证一下如果采取这样的行动会给公司带来什么样的影响,OLAP工具能够回答这样的问题。 在知识发现的早期阶段,OLAP工具可以用来探索数据,找出哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都能帮助管理人员更好地理解重要的变量,加快知识发现的过程。所以在应用中,这两种工具经常配合在一起使用。

85 DM应用过程(1) DM应用过程 DM是一个复杂的过程。DM充分利用人工智能、机器学习、统计学等多学科的知识,并把它们同其他辅助技术结合到一起,从大量的数据中找出潜在的、有用的知识。从研究者的主观愿望来说,希望DM过程最好全程自动化。但从目前的技术发展水平来看,在DM过程中,还应适当进行人工干预、引导或限制,以提高DM的有效性和有用性。因此,DM至少在目前仍是一个人机交互过程。图12.8是DM的一般过程。从图中可以看到,DM过程由多个步骤连接起来,反复进行人机交互的过程。下面解释每个步骤中的工作。

86 DM应用过程(2) 转换 数据 预处理 目标 知识 模式 处理 挖掘 表达 评价 图 DM过程 1.确定目标 首先要了解应用的范围,了解最终用户的目标。数据挖掘的最后结果是不可预测的,但最终目标应是有预见的。一般,目标可以是规则的发现、数据分类、数据汇总、相关分析建模或误差检测等。如果能把用户或分析者的经验和知识结合起来,既可减少很多工作量,又能使挖掘工作更有目的性,更有成效。

87 DM应用过程(3) 2.数据的选择 搜索所有与业务对象有关的内部和外部数据信息,并从事选择出适用于数据挖掘应用的数据,生成目标数据集。 进行数据挖掘时,首先要从大量数据中取出一个问题相关的样本数据子集,而不是使用全部数据。通过对数据的取样,选择与知识发现任务相关的数据集,从而减少数据处理量,同时又不降低知识发现的精确度。 3.数据的预处理 DM的关键在于数据的质量,因此提高数据质量是提高DW的精度和性能的重要手段。实际存在的DB中往往存在着大量的噪声数据、空值和不一致的数据,并且挖掘任务所需的数据来自不同的数据源,这些都需要进行处理。所以在实施DM算法之前,要花费大量的时间做数据预处理,这关系到挖掘的成功与否。

88 12.3.3 DM应用过程(4) 数据预处理主要有以下两项工作: (1)数据清洗 处理空值、清洗脏数据、消除噪声和修正不一致的数据。
“噪声”是指测量变量中的随机错误和偏差,或者说是失真较明显的数据。“不一致”是指对同一事务的记录数据可能由于输入及编码等造成的不一致性。 (2)数据集成 集成从多个数据源、多种数据源而来的数据。这些数据必须经过合并及转换而形成适合DM的数据形式。在集成中,必须清除数据之间的冲突,如在命名、结构、取值单位、含义等方面的不同。数据集成是对数据进行统一化和规范化的复杂过程,把原始数据在最低层次上加以转换、提炼和聚集,形成最原始的用于知识发现的统一的数据集合。

89 12.3.3 DM应用过程(5) 4.数据的转换:包括数据变换和数据归约。
(1)数据变换:将数据变换成一个针对挖掘算法建立的分析模型,找到数据的特征表示。 常用的数据变换方法有以下几种: ●平滑:采用邻接值的平均值来去除噪声数据。 ●聚集:进行数据汇总和聚集,提高数据粒度,以便构造数据立方体,比如将日汇总数据聚集为月汇总或年汇总。 ●概化:使用概念分层,用高层次概念概括低层次的概念,如“年龄”可以是“老年”、“中年”、“青年”的概括。 ●规范化:将属性数据按比例缩放,使之落入合适的区间,如0.0到1.0之间。 ●属性构造:用已有的属性集构造辅助属性,加入属性集中,对DM过程提供帮助,提高DM精度和对数据结构的理解。

90 DM应用过程(6) (2)数据归约 数据归约就是优化数据,得到数据集的归约表示,减少数据量但基本保持数据质量,提高DM的效率,得到基本相同的结果,其处理时间不应超过规约后节省的时间。主要方法有以下几种: ●数据立方体聚集:对数据立方体中的数据进行汇总和聚集操作。 ●维归约:检测并删除不相关、弱相关或冗余的属性或维来减少数据量,通常采用在属性这个方向对数据进行精简。 ●数据压缩:应用编码机制,使用合适的标准化的编码方式来压缩数据集。 ●数据归约:用较小的替代数据表示、替换或估计数据,如用参数表示数据而不存放实际数据的有参方法,譬如回归和对数线性模型。若无参方法则有直方图、聚类、抽样等方法。

91 DM应用过程(7) 5.数据挖掘 在经过预处理的数据基础上,综合利用各种DM方法分析DB中的数据,并从大量的数据中识别出有效的、新颖的、具有潜在价值的乃至最终可理解的模式(Pattern)。 6.结果表达和模式评价 表达(Presentation)就是将DM所获取的信息(模式)以方便用户理解和观察的方式呈现给用户。需要通过可视化等技术,用图表、图形等为用户提供清晰、直观的结果描述。 模式评价(Pattern Assess)就是根据最终用户的决策目的,对所提取的信息或发现的模式进行分析,把最有价值信息或模式区分出来提交给决策者。 综上所述,可见DM是一个复杂的过程,需要具有不同专长的人的参与,这些人大体可分为业务分析人员、数据分析人员和数据管理人员三类。

92 DM的分析方法和技术 (1) 1. DM的分析方法 对于不同的DM目标,人们期望不同的数据模式(Pattern),从而应采用不同的DM分析方法。常用的方法有以下四种: (1)关联分析方法 关联(Associations)分析就是试图挖掘出隐藏在数据之间的相互联系,关联分析的结果是关联规则。这种分析方法是发现数据之间的联系。例如在商场中,如果顾客买了商品甲,一般都要买商品乙,这就是一种联系。这是同一交易内数据间的联系,称为“关联”。

93 12.3.4 DM的分析方法和技术 (2) (2)序列模式分析方法
序列模式(Sequential Patterns)分析和关联分析相似,其目的也是为了挖掘出数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后(因果)关系。这种联系发生在不同交易的数据之间。例如一个顾客买了商品甲,一般会在两个月内买商品乙,六个月内又买商品丙……。这种联系称为时间序列。 (3)分类分析方法 分类(classification)分析把给定集合根据给定的类别标记将其分成若干类,并抽取各类特征描述的方法。这种方法是根据给定的数据模式,预测其结果。例如诊断、客户信用评估、利润预测等都属于这一类。常用方法是“决策树”。

94 12.3.4 DM的分析方法和技术 (3) (4)聚类分析方法
聚类(Clustering)是按数据的相似性和差异性,将数据划分为若干子集,子集还可以再分为若干子子集。 聚类与分类不同,分类的类别是按应用的要求事先给定的,根据表示事物特征的数据,识别其类别。而聚类的类别不是人为指定的,而是分析数据的结果。通过比较数据的相似性和差异性,发现其特征及分布,从而抽象出聚类的规律。 至此,我们已学了四种DM分析方法,虽然这四种方法使用范围不同,但在一个真正的DM系统中经常是综合地利用这些方法的。

95 DM的分析方法和技术 (4) 例15.6 零售商在为某种商品进行市场定位时(例如微波炉),DM系统可能会协调使用这四种分析方法: ① 运用关联分析法发现最常被一个顾客同时购买的商品。 ② 运用序列模式分析法找出几类重要的用户群,他们具有如下购物模式:在购买了某些商品以后购买微波炉。 ③ 基于②的分析结果,运用分类分析法的定义出(2)的分类标准,即购物模式。 ④ 将上述的购物模式作为分析规则,运用聚类分析法就可以找出具有该购物模式并且尚未购买微波炉的用户,他们就是市场销售人员所要争取的对象,应尽快向这些用户发出购物通知。

96 DM的分析方法和技术 (5) 读者还应注意,数据挖掘得到的并不是真正的规则,它只是对DB中数据之间相关性的一种描述。在没有其他数据来验证得到的规则正确性时,就不能保证利用过去的数据得到的规律在未来新的情况下是否有效。 譬如,在超市货架的摆放策略上,按照发现的关联规则把相关性很强的物品放在一起,反而有可能在一段时间内使得整个超市的销售量下降。这是因为顾客很容易地找到他要买的商品,他就可能不会再去逛商场去买本来不在他的购买计划上的商品。总之,在采取任何行动之前一定要经过分析和实验,即使它是利用DM得到的知识。

97 12.3.5 DM的应用领域(1) 预期回报最高的应用领域有以下四个:
(1)市场营销:应用包括基于购买模式的消费者行为的分析;广告、店址、投递目标等市场策略的决定;顾客、商店或产品的细分;价目表、商店布局、广告活动的设计。 (2)金融:应用包括客户信用度的分析;应收账户的划分;诸如股票、证券、信托基金等金融投资的性能分析;金融选择的评估;欺骗行为的探测。 (3)生产:应用包括机器、人力、原料等资源的最优化;优化生产过程、车间布局、产品样式的设计。例如,根据用户要求设计汽车。 (4)卫生保健:应用包括某种治疗方法有效性的分析;医院内部活动的最优化,把病人健康数据与医生资格联系起来;分析药品的副作用。

98 12.3.5 DM的应用领域(2) DM技术在下面领域也有广泛的应用。

99 12.4 新决策支持系统概述 DSS的发展历程 综合DSS的结构图

100 DSS的发展历程(1) 决策支持系统(Decision Support System,DSS),最早是由美国M.S.Scott Morton教授于20世纪70年代初在《管理决策系统》一文中提出的,几经周折,现已得到很大的发展。DSS是在管理信息系统(MIS)的基础上发展起来的。MIS是利用DB技术实现各级管理者的管理任务,在计算机上进行各种事务处理工作。DSS是要达到具有为各级管理者辅助决策的能力。 DSS经历了三部件结构的DSS、智能DSS、新DSS、综合DSS的发展历程。 1. 三部件结构的DSS(20世纪80年代初) 在1980年Sprague和1981年Bonczak提出的DSS结构基础上,形成了以模型库、数据库和人机交互系统组合为基础的三部件结构的DSS。其系统结构图如图12.9所示。

101 12.4.1 DSS的发展历程(2) 图12.9 三部件结构DSS的系统结构图 人机交互系统 模型库管理系统 数据库管理系统 模型库 数据库
用户 图12.9 三部件结构DSS的系统结构图

102 12.4.1 DSS的发展历程(3) 2.智能DSS(20世纪80年代末)
20世纪80年代末,DSS与ES(专家系统)结合起来,形成了智能DSS,又被称为传统DSS。它是四种部件结构的DSS:人机交互系统、模型库、知识库和数据库。 3.新DSS(20世纪90年代中期) 20世纪90年代,DW、OLAP和DM技术已经形成潮流。 DW将大量的用于事务处理的传统DB中的数据进行清理、抽取和转换,按决策主题的需要重新进行组织。DW的综合数据直接为决策服务,对历史数据进行分析能提供预测信息。DW是决策支持的有效技术。 随着DW的发展,OLAP随之得到了迅速的发展。OLAP侧重于把DW中的数据进行分析,转换成辅助决策信息。OLAP的一个重要特点就是多维数据分析,这与DW的多维数据组织恰好形成相互结合、相互补充的两个方面。

103 DSS的发展历程(4) DM是作为独立的信息技术(IT)出现的,它是从人工智能的机器学习技术发展起来的。DM是通过对DB、DW中数据的分析,获得知识的一系列方法和技术。DW结合DM技术提高了数据分析和辅助决策的能力。 将DW、OLAP和DM集成到一个系统中可以更加有效地提高系统的决策支持能力。新DSS的系统结构图如图12.10所示。 新DSS有如下的特点: ① 来源于DB的DW由基本数据、历史数据、综合数据和元数据组成。 ② DW主要提供的决策信息是综合数据的信息与预测的信息,DW通过OLAP提供多维数据分析信息。 ③ DM从DB或DW数据中挖掘出知识。 ④ DW和OLAP提供的决策信息、DM挖掘出的决策知识为用户提供了决策支持能力。 新DSS的明显特点是以数据驱动方式提供决策支持。新DSS中数据是主体,模形是辅助的。

104 12.4.1 DSS的发展历程(5) 图12.10 新DSS结构图 决策用户 决策信息 知识 综合信息 分析信息 数据挖掘(DM)
知识 综合信息 分析信息 数据挖掘(DM) 数据仓库(DW) 元数据(DD) 综合数据 基本数据 历史数据 数据库(DB) OLAP 图 新DSS结构图

105 DSS的发展历程(6) 4. 新DSS的成功实例 美国的沃尔玛(wal *mart)是世界上最大的零售商,2002年4月,该公司跃居《财富》500强企业排行第一。在全球拥有4000多家分店和连锁店。沃尔玛建立了基于NCR Teradata DW的DSS,它是世界上第二大的DW系统,总容量达到170 TB以上。 可以说,信息技术的成功运用造就了沃尔玛。强大的DW系统将世界上4000多家分店的每一笔业务数据汇总到一起,让决策者能够在很短时间里获得准确及时的信息,并做出正确和有效的经营决策。而沃尔玛的员工也可以随时访问DW,以获得所需的信息,而这并不会影响DW的正常运转。 沃尔玛的DW始建于1980年,1988年DW容量达到12 GB,1996年达到7.5 TB,至今已达到170 TB。

106 DSS的发展历程(7) 利用DW,沃尔玛对商品进行市场类组分析,即分析哪些商品顾客最有希望一起购买。沃尔玛DW集中了各个商店一年多详细的原始交易数据。在此基础上,沃尔玛利用自动DM工具(模式识别软件)对这些数据进行分析和挖掘。 竟有一个意外的分析:跟尿布一起购买最多的商品竟是啤酒!按常规思维,尿布与啤酒风马牛不相及,若不是借助于DW系统,商家绝不可能发现隐藏在背后的事实。原来美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回自己需要的两瓶啤酒。既然这两者一起购买的机会最多,沃尔玛就在它的一个个商店里将它们并排摆放在一起,结果是尿布与啤酒的销量双双增长。由于这个故事的传奇和出人意料,所以一直被业界和商界所传诵。

107 DSS的发展历程(8) 如今沃尔玛利用NCR的Teradata的数据存储量已超过7.5 TB,这些数据主要包括各个商店前端(POS)采集来的原始销售数据和各个商店的库存数据。DB里存有196亿条记录,每天要处理并更新2亿条记录,要对来自6000多个用户的48000条查询语句进行处理。销售数据、库存数据每天夜间从4000多个商店自动采集过来,并通过卫星线路传到总部的DW里。沃尔玛DW里最大的一张表格(Table)容量已超过300 GB,存有50亿条记录,可容纳65个星期4000多个商店的销售数据,而每个商店有5~8万个商品品种。 沃尔玛神奇的增长在很大部分也可以归功于成功地建立了基于NCR Teradata的DW系统。DW改变了沃尔玛,而沃尔玛改变了零售业。沃尔玛的成功给人以启示:唯有站在信息巨人的肩头,才能掌握无限,创造辉煌。

108 12.4.2 综合DSS的结构图(1) 1.综合DSS的结构图(21世纪初)
以模型库为主体的DSS对计算机辅助决策起到了很大的推动作用。DW和OLAP技术为DSS开辟了新途径。DW和OLAP都是数据驱动的。这些技术和传统的模型库对决策的支持是两种不同的形式,可以相互补充。在OLAP中加入模型库,将会使OLAP的分析能力有一个很大的提高。DM是从DB、DW中挖掘有用的知识。 把DW、OLAP、DM、MB(模型库)、KB(知识库)和DB(数据库)结合起来形成的综合DSS是更高级形式的DSS。这种综合的DSS的结构图如图12.11所示。

109 12.4.2 综合DSS的结构图(2) 图12.11 综合DSS的结构图 用户 问题综合与交互系统 模型库管理系统 模型库 知识库 管理系统
推理机 决策 知识 信息 数据挖掘 OLAP 数据库管理系统 数据库 数据仓库管理系统 数据仓库 图 综合DSS的结构图

110 12.4.2 综合DSS的结构图(3) 综合DSS各组成部分的功能如下: ● DW能够实现对决策主题数据的存储和综合;
● OLAP可以实现多维数据分析; ● DM可以挖掘DB和DW中的知识; ● MB(模型库)实现多个广义模型的组合辅助决策; ● DB可以为辅助决策提供数据; ● KB(知识库)可以用于知识推理进行定性分析。 由上述成分集成的综合DSS,将相互补充和依赖,发挥各自的辅助决策优势,实现更有效的辅助决策。

111 12.4.2 综合DSS的结构图(4) 2.综合DSS的主体结构图 综合DSS的体系结构包括以下三个主体:
第一个主体是模型库系统和数据库系统的结合,它是决策支持的基础,为决策问题提供定量分析(模型计算)的辅助决策系统。 第二个主体是DW、OLAP,它从DW中提取综合数据和信息,这些数据和信息反映了大量数据的内在本质。 第三个主体是知识库系统和数据挖掘的结合。DM从DB和DW中挖掘知识,放入知识库系统中,由进行知识推理的专家系统达到定性分析辅助决策。 综合DSS体系结构的三个主体可以相互补充、相互结合。根据实际问题的规模和复杂程度决定是否采用单个主体辅助决策还是采用两个或是三个主体的相互结合辅助决策。

112 12.4.2 综合DSS的结构图(5) (1)初期DSS 利用第一个主体(MB和DB结合)的辅助决策系统就是初期DSS。 (2)智能DSS
利用第一个主体和第三个主体(KB和DM)相结合的辅助决策系统就是智能DSS。 (3)新DSS 利用第二个主体(DW和OLAP)的辅助决策系统就是新DSS。在OLAP中可以利用MB的有关模型提高OLAP的数据分析能力。 (4)综合DSS 将三个主体结合起来,即利用“问题综合和交互系统”部件集成三个主体,这样形成的综合DSS,是一种更高形式的辅助决策系统,辅助决策能力将提高一个大台阶。 完成综合DSS是今后一段时期的研究方向。

113 12.5 小结(1) 1.DW DW技术适用于决策分析,也称为分析型处理,其数据称为分析型数据。
与DB设计相比,DW的设计原则应着重在面向主题、数据驱动和原型法等三个方面。 DW设计的步骤分为明确主题、概念设计、技术设备、逻辑设计、物理设计、DW的生成和DW的运行维护等七个阶段。 DW的发展阶段分为报表、分析、预测、实时决策和自动决策等五个阶段。

114 12.5 小结(2) 2.OLAP 传统的DB应用称为OLTP,属于操作型处理。以大量的、总结性的与历史有关的、涉及面广的分析称为OLAP,属于分析型处理。 OLAP的定义是“共享多维信息的快速分析”(FASMI),体现了OLAP的五个特征。 OLAP概念是1992年E.F.Codd提出的,其核心是多维数据库和多维数据分析。 OLAP的基本概念有对象、变量、维、层次、维成员、多维数组和数据单元等概念。 OLAP的数据组织有MOLAP、ROLAP和HOLAP等概念。 OLAP的多维数据分析有切片、切块、钻取和旋转等操作。 现在Oracle、DB2、Sybase和SQL Server等主流DBMS都有OLAP模块或子系统。

115 12.5 小结(3) 3.DM DM把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,以提高决策支持。
DW是一种存储技术,OLAP和DM都是分析型工具。但OLAP的分析过程是一个演绎推理的过程,先假设后验证。而DM的分析过程是一个归纳的过程,挖掘和发现未知的信息和知识。 DM过程由确定目标、数据的选择、数据的预处理、数据的转换、数据挖掘、结果表达和模式评价等六个步骤组成。 常用的DM分析方法有关联、序列模式、分类和聚类等四种分析方法。 4. DSS的发展历程 新DSS由DW、OLAP和DM集成而得。美国沃尔玛零售商成功地运用了新DSS。 新DSS和智能DSS几乎没有什么共同之处。两者的综合形成了综合DSS。综合DSS主要由DW、OLAP、DM、MB、KB、DB等六个部分集成而得。


Download ppt "第12章 现代信息集成技术."

Similar presentations


Ads by Google