Download presentation
Presentation is loading. Please wait.
Published byHildegard Brinkerhoff Modified 6年之前
1
数据仓库 一、基本概念 随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更高的要求:提供决策支持。
2
何谓数据仓库? 一种面向分析的环境; 一种把相关的各种数据转换成有商业价值的信息的技术。
3
1、从数据库到数据仓库 数据库系统能够很好的用于事务处理,但它对分析处理的支持一直不能令人满意。特别是当以业务处理为主的联机事务处理(OLTP) 应用和以分析处理为主的DSS应用共存于一个数据库系统时,就会产生许多问题。
4
例如,事务处理应用需要的是当前数据,主要考虑较短的响应时间;而分析处理应用需要是历史的、综合的、集成的数据,它的分析处理过程可能持续几个小时,从而消耗大量的系统资源。
5
人们逐渐认识到直接用事务处理环境来支持DSS是行不通的。要提高分析和决策的有效性,分析型处理及其数据必须与操作型处理及其数据分离。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。 数据仓库技术正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。
6
数据仓库与传统数据库的比较 对比内容 数据库 数据仓库 数据内容 当前值 历史的、存档的、归纳的、计算的数据 数据目标
面向业务操作程序、重复处理 面向主体域、管理决策分析应用 数据特性 动态变化、按字段更新 静态、不能直接更新、只是定时添加 数据结构 高度结构化、复杂、适合操作计算 简单、适合分析 使用频率 高 中到低 数据访问量 每个事务只访问少量记录 有的事务可能要访问大量记录 对相应时间的要求 以秒为单位计量 以秒、分钟、甚至小时为计量单位
7
数据仓库与决策支持系统(DSS) 数据仓库的组织的根本目的在于对决策的支持。高层的企业决策者、中层的管理者和基层的业务处理者等不同层次的管理人员均可以利用数据仓库进行决策分析,提高管理决策的质量。 企业管理人员可以利用数据仓库进行各种管理决策的分析,利用自己所特有的、敏锐的商业洞察力和业务知识从貌似平淡的数据发现众多的商机。数据仓库为管理者利用数据进行管理决策分析提供了极大的便利。
8
DSS的数据提取结构图: 源 数 据 库 源数据目录库 源数据库 管理 数据提取系统 汇总 集成 数据 表达 描述 DSS 提取的库
目录索引 提取库 会话 部件 模 型 部 件
9
2、数据仓库的定义及特征 数据仓库理论的创始人W.H.Inmon在其《Building the Data Warehouse》一书中,给出了数据仓库的四个基本特征:面向主题,数据是集成的,数据是不可更新的,数据是随时间不断变化的。
10
William H.Inmon将数据仓库定义为:
a data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions. 一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。
11
采购子系统: 订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日期, … ) 供应商(供应商号,供应商名,地址,电话,…) 销售子系统: 客户(客户号,姓名,地址,电话, … ) 销售(客户号,商品号,数量,单价,日期, … ) 库存子系统: 进库单(编号,商品号,数量,单价,日期, … ) 出库单(编号,商品号,数量,单价,日期, … ) 库存(商品号, 库房号,类别,单价,库存数量, 总金额,日期, … )
12
主题的选择:商品和顾客。 ● ● ● ● ● ● ● 企业经理最关心的问题: 那些商品销售的好?销售好的商品是那些客户购买的?
那些客户是大客户?大客户主要购买的是那些商品? 那些商品库存不足?那些商品有积压? ● ● ● ● ● ● ● 主题的选择:商品和顾客。
13
商品主题域: 商品固有信息:商品号,类别,单价,颜色,… 商品采购信息:商品号,类别,供应商号,供应日期,单价,数量,… 商品销售信息:商品号,客户号,数量,单价,销售日期, … 商品库存信息:商品号, 库房号,库存数量,日期, … ) 采购子系统 销售子系统 库存子系统
14
数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。
3、数据仓库中的数据组织 数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。 2011~2014年 每季度销售表 2011~2014年 每月销售表 2011~2014年 销售明细表 1985~2010年 销售明细表
15
DW中还有一类重要的数据:元数据(metedata)。元数据是“关于数据的数据”(RDBMS中的数据字典就是一种元数据)。
数据仓库中的元数据描述了数据的结构、内容、索引、码、数据转换规则、粒度定义等。
16
高度综合数据 元 数 据 轻度综合数据 当前基本数据 历史基本数据 DW的数据结构图
17
当前基本数据:最近时期的业务数据,是DW用户最
感兴趣的部分,数据量大。 历史基本数据:由当前基本数据,经过DW的时间控 制机制转化而来。 轻度综合数据:从当前基本数据中提取出来的。 高度综合数据:从轻度综合数据中提炼而获得的。 元数据:DW的重要组成部分。 关于数据源的元数据 4种元数据: 关于数据模型的元数据 关于DW映射的元数据 关于DW使用的元数据
18
4、数据仓库系统结构 数据仓库 分析工具 RDBMS 综合数据 查询工具 当前数据 数据文件 OLAP工具 历史数据 DM工具 其他 元数据
抽取、转换、装载
19
二、数据仓库设计 数据仓库的设计分为如下三个阶段: 数据仓库建模 分析主题域 确定粒度层次 确定数据分割策略 构建数据仓库 数据的存储结构与存储策略 DSS应用编程
20
三、数据仓库的实现 数据仓库的工具主要有:数据预处理工具,数据分析( OLAP )工具,数据挖掘工具,OLAP服务器。
21
底层 中间层 顶层 数据抽取 数据准备区 业务处理系统 数据清理、转换 数据加载 客户端 数据仓库 OLAP服务器 多维化 可视化处理
22
数据仓库和OLAP工具基于多维数据模型(在数据仓库中,通常以多维方式来存储数据。 )。
基本概念 维:人们观察数据的特定角度。 维的层次:人们观察数据的特定角度可能存在细节程度不同的多个描述方面,我们称其为维的层次。 多维分析的基本动作 切片,旋转,上卷,下钻。
23
Sales volume as a function of product, month, and region
Dimensions: Product, Location, Time Hierarchical summarization paths Region Industry Region Year Category Country Quarter Product City Month Week Office Day Product Month
24
All, All, All Date Product Country Total annual sales of TV in U.S.A.
1Qtr 2Qtr 3Qtr 4Qtr sum TV Product PC U.S.A VCR sum Canada Country Mexico sum All, All, All
25
产品销售 情况 某年某月产品销售情况 选定两个维:产品维和地区维 时间维 产品维 数据切片 产品维 地区维 地区维
26
基于RDBMS的数据仓库实现 关系数据库将多维数据库中的多维结构分为两类:一类是事实表,用来存储事实的度量值以及各个维的码值;另一类是维表。 数据仓库的设计模型有:星型模式,雪花模式,混合模式 数据仓库的设计也可以理解为面向OLAP的数据库设计。
27
在星型模式中,主要数据存储在事实表中,没有冗余,并符合3NF或BCNF。
维值信息存储在维表中。维表一般不需要规范化。主要原因是维表是静态的,是否会产生因更新而导致异常也就不重要了。 Products Locations Pid pname category price Locid city state country Sales Pid timeid locid sales Times Timeid date month quarter year holiday_flag
28
星 型 模 式 订货表 事实表 产品表 订单号 订单号 产品号 订货日期 销售员号 产品名称 客户号 产品目录 产品号 单价 日期标识
地区名称 数量 总价 产品号 产品名称 产品目录 单价 客户表 客户号 客户名称 客户地址 日期表 日期标识 日 月 年 销售员 地区表 销售员号 销售员姓名 城市 地区名称 省别
29
雪花模式 事实表 产品号 产品名称 单价 定单号 定货日期 产品号 公司代码 定单号 销售员号 客户号 产品号 日期标识 地区名称 数量
总价 公司代码 公司名称 地址 销售员号 姓名 城市 日期标识 日 月 年 客户号 客户名称 客户地址 地区名称 省
30
谢谢!
Similar presentations