数据仓库 一、基本概念 随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更高的要求:提供决策支持。

Slides:



Advertisements
Similar presentations
我国国有银行 资本构成及资本充足率变化 小组成员:金融 尹佳裕 王淼 刘钰 金融 吴昱.
Advertisements

传媒学生应该如何度 过四年大学生活?. 进入大学一个多月了,用一个词形容大 学生活 自卑感 不适应 空虚感 被动感 孤独感 失望感 一、大学新生不适应大学生活的表现:
輕鬆享瘦過年 營養師:洪嫚徽 日期: 前言 又是一年春節的到來,工作忙碌了一年,終 於可以在春節裡好好放個長假,因此〝吃喝 玩樂〞成為春節裡人人的生活準則。 不過要注意喔!千萬別大吃大喝,忘了節制 ,讓大家新年「發財」的願望變成「發福的 身材」喔!
85度C 組員:余福泰 王雨涵.
凱琪的包裹 這個故事是發生在第二次世界大戰後的歐洲。故事 藉由美國及荷蘭的兩位小女孩,因書信的往來而發
PC DIY達人培訓班 主辦單位:東海高中資訊科 報告人:李宏傑.
MRP到ERPII之演進 1970年代 1980年代 1990年代 2000年代 企業應用軟體 MRP MRPII ERP EERP
Introduction 世界动物保健品市场现状与发展展望 冯忠武
中文科 (六年級).
第一章 会计信息系统 第一节 计算机会计概述.
城市绿化美化 第一模块 城市的园林美 制作人:许启德 湖南湘潭生物机电学校 1.
感恩 主题班会 初一(16)班 落叶在空中盘旋,谱写着一曲感恩的乐章,那是大树对滋养它大地的感恩;白云在蔚蓝的天空中飘荡,绘画着那一幅幅感人的画面,那是白云对哺育它的蓝天的感恩。因为感恩才会有这个多彩的社会,因为感恩才会有真挚的友情。因为感恩才让我们懂得了生命的真谛.
学党章党规、学系列讲话,做合格党员 学习教育
開創自己的天空 職業類科介紹 商管類.
第六章 数据库设计.
第三章.网络经济下的企业 第一节 网络经济下的产品及其特征 第二节 网络经济下的企业变化 第三节 网络经济下的企业组织模式
中国平安校园招聘.
农业银行网上签约流程 宁夏金溢投资 内部资料 1.
天府欧城“星光儿童乐园” ---项目计划书 此为机密文件。 天府欧城.
第1章第3节 量化研究与质化研究 案例1:关于中学思想政治教师专业发展现状和需求的调查研究
廉政會報專題報告 農地重劃工程 施工常見缺失 報告:吳東霖 製作:張昌鈴 日期:103年12月23日.
專案製作經驗談.
【文雅國際書香日系列活動】 ~雅書傳情環世界~
数据仓库基础培训 山西项目组
≠ 週休二日為何不是兩例假,要一例一休? 勞工 公務人員 例 假 例 假 但
云计算业务应用-数据挖掘.
朝陽科技大學99-2#1043金融市場 第5專題:保險金融市場
<<Oracle DBA工厂-Oracle从入门到精通>>全套视频教程(一)之 安装部署 讲师:黄利强 QQ:
(05)戴宇婷 (10)蒲映婷 (18)張雅婷 (20)盧永涵
一年級品德教育「感恩」德目教學 我家寶貝要出生 興南國小 一學年課程發展小組.
Week 15 台灣政治.
腦科學導論 報告主題:大腦的解讀 姓名:徐敏甄.
金門縣重大空難應變機制-消防局 壹、消防搶救、滅火、緊急救護 一、派遣作為:
讚美得勝的生活 張譽騰傳道.
故事:《一叶障目新编》 思考: 俊媳妇为什么能优雅地拿走东西?书呆子为什么会羞愧万分?
管理信息系统 沈阳理工大学经济管理学院.
项目申报及投资推进工作实务 更多模板、视频教程: 兰溪市发展和改革局 2013年9月 1.
第五节 分段矿房法 分段矿房法是在矿块的垂直方向在划分成若干个分段;在每个分段上布置矿房和矿柱,可以立即回采本分段的矿柱,并同时处理采空区。
第六节 客 户 关 系 管 理 1.
線上分析處理、 資料採礦與 Analysis Services
啟示錄.
世新大學 陳育亮 Ch13 從ERP到企業E化 世新大學 陳育亮
数据仓库和数据挖掘 DATA WAREHOUSING AND DATA MINING 经济科学室验室
ERP-企業資源規劃導論 第一章 企業資源規劃概述 1.1.
第一篇 数据仓库与OLAP 第一章 数据仓库基本概念
目錄, 各層介紹. 目錄, 各層介紹 從廣告看CRM ~fun心傳遞親子間的愛 ~ 活動內容:  鎖定家中有小朋友的家庭 「大人放心、小孩開心」 『把愛傳出去』活動推出: Fun心樂園 1. [親子關係]Vs[照顧寵物]的情感投射 2. 「汪汪表情符號扭蛋機」 3. 「許我一個靚名」
從ERP到企業E化.
CH.5 CRM的核心議題 與ERP、SCM及BI之整合應用
第一节 客户关系管理 1、客户关系管理的产生 2、客户关系管理的基本概念 3、客户关系管理的作用 4、CRM与ERP的关系
第三章 海洋数据的获取 柳 林 测绘科学与工程学院 1.
Integrated decision support systems: A data warehousing perspective
数据建模介绍.
南瑞学堂 学员简明操作指南 上海时代光华教育发展有限公司 2013年.
第二章 資訊管理的科技觀點.
國立豐原高級中學 104學年度家長代表大會 主持人:張健家會長 時間:104年10月3日(星期六)上午10時0分 地點:行政樓二樓會議室.
试乘试驾团购执行方案(模板) 单 位:经销商名称 时 间:
第14章 顧客資料倉儲.
使用服务平台办理离校 操作指南.
由消費者行為探討超商現煮咖啡之行銷策略研擬研究─以CITY CAFÉ 為例
学年第一学期领取教材明细查询的通知 学年第一学期学生使用的教材均在网上平台公示。现将有关事项通知如下:
红利、年金、满期金自动转入聚宝盆,收益有保底,升值空间更大
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
Chinese II Lesson 14 Birthday & Celebrations
敲時間系統 指導老師:黃三益教授 組員:B 姚辰旻 B 呂珮榕 B 王若馨
中国建筑的特征 执教:浮 石 单位:吴川一中 时间:2005/10/ 梁思成
啟 基 學 校 年度校本課程 中華經典學習 目的:1. 提升品德學養,發展美善心靈,為世界大同作貢獻; 2
经济与管理讲义 北京科技大学 管理学院 喻斌.
对token层面规则(token分类)的思考
中国建筑的特征 执教:浮 石 单位:吴川一中 时间:2005/10/ 梁思成
Presentation transcript:

数据仓库 一、基本概念 随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更高的要求:提供决策支持。

何谓数据仓库? 一种面向分析的环境; 一种把相关的各种数据转换成有商业价值的信息的技术。

1、从数据库到数据仓库 数据库系统能够很好的用于事务处理,但它对分析处理的支持一直不能令人满意。特别是当以业务处理为主的联机事务处理(OLTP) 应用和以分析处理为主的DSS应用共存于一个数据库系统时,就会产生许多问题。

例如,事务处理应用需要的是当前数据,主要考虑较短的响应时间;而分析处理应用需要是历史的、综合的、集成的数据,它的分析处理过程可能持续几个小时,从而消耗大量的系统资源。

人们逐渐认识到直接用事务处理环境来支持DSS是行不通的。要提高分析和决策的有效性,分析型处理及其数据必须与操作型处理及其数据分离。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。 数据仓库技术正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。

数据仓库与传统数据库的比较 对比内容 数据库 数据仓库 数据内容 当前值 历史的、存档的、归纳的、计算的数据 数据目标 面向业务操作程序、重复处理 面向主体域、管理决策分析应用 数据特性 动态变化、按字段更新 静态、不能直接更新、只是定时添加 数据结构 高度结构化、复杂、适合操作计算 简单、适合分析 使用频率 高 中到低 数据访问量 每个事务只访问少量记录 有的事务可能要访问大量记录 对相应时间的要求 以秒为单位计量 以秒、分钟、甚至小时为计量单位

数据仓库与决策支持系统(DSS) 数据仓库的组织的根本目的在于对决策的支持。高层的企业决策者、中层的管理者和基层的业务处理者等不同层次的管理人员均可以利用数据仓库进行决策分析,提高管理决策的质量。 企业管理人员可以利用数据仓库进行各种管理决策的分析,利用自己所特有的、敏锐的商业洞察力和业务知识从貌似平淡的数据发现众多的商机。数据仓库为管理者利用数据进行管理决策分析提供了极大的便利。

DSS的数据提取结构图: 源 数 据 库 源数据目录库 源数据库 管理 数据提取系统 汇总 集成 数据 表达 描述 DSS 提取的库 目录索引 提取库 会话 部件 模 型 部 件

2、数据仓库的定义及特征 数据仓库理论的创始人W.H.Inmon在其《Building the Data Warehouse》一书中,给出了数据仓库的四个基本特征:面向主题,数据是集成的,数据是不可更新的,数据是随时间不断变化的。

William H.Inmon将数据仓库定义为: a data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions. 一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。

采购子系统: 订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日期, … ) 供应商(供应商号,供应商名,地址,电话,…) 销售子系统: 客户(客户号,姓名,地址,电话, … ) 销售(客户号,商品号,数量,单价,日期, … ) 库存子系统: 进库单(编号,商品号,数量,单价,日期, … ) 出库单(编号,商品号,数量,单价,日期, … ) 库存(商品号, 库房号,类别,单价,库存数量, 总金额,日期, … )

主题的选择:商品和顾客。 ● ● ● ● ● ● ● 企业经理最关心的问题: 那些商品销售的好?销售好的商品是那些客户购买的? 那些客户是大客户?大客户主要购买的是那些商品? 那些商品库存不足?那些商品有积压? ● ● ● ● ● ● ● 主题的选择:商品和顾客。

商品主题域: 商品固有信息:商品号,类别,单价,颜色,… 商品采购信息:商品号,类别,供应商号,供应日期,单价,数量,… 商品销售信息:商品号,客户号,数量,单价,销售日期, … 商品库存信息:商品号, 库房号,库存数量,日期, … ) 采购子系统 销售子系统 库存子系统

数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。 3、数据仓库中的数据组织 数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。 2011~2014年 每季度销售表 2011~2014年 每月销售表 2011~2014年 销售明细表 1985~2010年 销售明细表

DW中还有一类重要的数据:元数据(metedata)。元数据是“关于数据的数据”(RDBMS中的数据字典就是一种元数据)。 数据仓库中的元数据描述了数据的结构、内容、索引、码、数据转换规则、粒度定义等。

高度综合数据 元 数 据 轻度综合数据 当前基本数据 历史基本数据 DW的数据结构图

当前基本数据:最近时期的业务数据,是DW用户最 感兴趣的部分,数据量大。 历史基本数据:由当前基本数据,经过DW的时间控 制机制转化而来。 轻度综合数据:从当前基本数据中提取出来的。 高度综合数据:从轻度综合数据中提炼而获得的。 元数据:DW的重要组成部分。 关于数据源的元数据 4种元数据: 关于数据模型的元数据 关于DW映射的元数据 关于DW使用的元数据

4、数据仓库系统结构 数据仓库 分析工具 RDBMS 综合数据 查询工具 当前数据 数据文件 OLAP工具 历史数据 DM工具 其他 元数据 抽取、转换、装载

二、数据仓库设计 数据仓库的设计分为如下三个阶段: 数据仓库建模 分析主题域 确定粒度层次 确定数据分割策略 构建数据仓库 数据的存储结构与存储策略 DSS应用编程

三、数据仓库的实现 数据仓库的工具主要有:数据预处理工具,数据分析( OLAP )工具,数据挖掘工具,OLAP服务器。

底层 中间层 顶层 数据抽取 数据准备区 业务处理系统 数据清理、转换 数据加载 客户端 数据仓库 OLAP服务器 多维化 可视化处理

数据仓库和OLAP工具基于多维数据模型(在数据仓库中,通常以多维方式来存储数据。 )。 基本概念 维:人们观察数据的特定角度。 维的层次:人们观察数据的特定角度可能存在细节程度不同的多个描述方面,我们称其为维的层次。 多维分析的基本动作 切片,旋转,上卷,下钻。

Sales volume as a function of product, month, and region Dimensions: Product, Location, Time Hierarchical summarization paths Region Industry Region Year Category Country Quarter Product City Month Week Office Day Product Month

All, All, All Date Product Country Total annual sales of TV in U.S.A. 1Qtr 2Qtr 3Qtr 4Qtr sum TV Product PC U.S.A VCR sum Canada Country Mexico sum All, All, All

产品销售 情况 某年某月产品销售情况 选定两个维:产品维和地区维 时间维 产品维 数据切片 产品维 地区维 地区维

基于RDBMS的数据仓库实现 关系数据库将多维数据库中的多维结构分为两类:一类是事实表,用来存储事实的度量值以及各个维的码值;另一类是维表。 数据仓库的设计模型有:星型模式,雪花模式,混合模式 数据仓库的设计也可以理解为面向OLAP的数据库设计。

在星型模式中,主要数据存储在事实表中,没有冗余,并符合3NF或BCNF。 维值信息存储在维表中。维表一般不需要规范化。主要原因是维表是静态的,是否会产生因更新而导致异常也就不重要了。 Products Locations Pid pname category price Locid city state country Sales Pid timeid locid sales Times Timeid date month quarter year holiday_flag

星 型 模 式 订货表 事实表 产品表 订单号 订单号 产品号 订货日期 销售员号 产品名称 客户号 产品目录 产品号 单价 日期标识 地区名称 数量 总价 产品号 产品名称 产品目录 单价 客户表 客户号 客户名称 客户地址 日期表 日期标识 日 月 年 销售员 地区表 销售员号 销售员姓名 城市 地区名称 省别

雪花模式 事实表 产品号 产品名称 单价 定单号 定货日期 产品号 公司代码 定单号 销售员号 客户号 产品号 日期标识 地区名称 数量 总价 公司代码 公司名称 地址 销售员号 姓名 城市 日期标识 日 月 年 客户号 客户名称 客户地址 地区名称 省

谢谢!