Download presentation
Presentation is loading. Please wait.
1
第16章 新型数据库技术及发展
2
内容提要 数据库技术是计算机领域中最重要的技术之一,也是计算机软件学科的一个独立分支。自从20世纪60年中期产生到今天,虽然仅仅几十年的历史,但其发展速度之快、使用范围之广是其他技术所望尘莫及的。图灵奖被公认为是计算机领域的诺贝尔奖在数据库领域先后出现了C.W.Bach- man, E.F.Codd和James Gray大奖获得者,在同一学科领域有三位图灵奖得主,这种现象并不多见。 20世纪90年代,随着网络技术和多媒体技术的迅猛发展,数据库的应用也得到了更广泛的拓展,在应用中新需求直接推动了数据库技术的研究与发展。数据库技术的发展进入了一个新的时期。 本章主要介绍了新型数据库技术,现代数据库研究热点及现代数据库技术应用。
3
本章知识点 掌握新型数据库技术的基本概念 了解现代数据库技术研究热点 知道现代数据库技术应用
4
16.1 新型数据库技术 16.1.1传统数据库系统 1.面向机器的语法数据模型
16.1 新型数据库技术 16.1.1传统数据库系统 传统的关系数据库系统比较适合处理格式化的数据,能够较好地满足商业事务处理的需求,因此它在商业领域取得了巨大的成功。但是在新的数据库应用领域,如计算机辅助设计/计算机辅助管理(CAD/CAM)、计算机集成制造(CIM)、办公信息系统(OIS)、地理信息系统(GIS)、知识库系统和实时系统等,传统的关系数据库系统就显得力不从心了。 1.面向机器的语法数据模型 数据抽象的三种主要方法是: 聚合(Aggregation)也称为聚集,是用来抽象由子对象聚集而成的合成对象. (2) 泛化(Generalization)也称为普遍化或概括。泛化是指将相似对象分类,抽象成一个一般化类型。 (3) 特化(Specialization)也称为特殊化。特殊化是与普遍化互补的概念,是指一个对象类型可精化到一个只涉及更特殊属性的实例。
5
16.1.2 现代数据库技术 3.结构与行为分离 4.阻抗失配。 5.被动响应。 6.存储、管理的对象有限。 7.事务处理能力较差。
2.数据类型简单且固定 3.结构与行为分离 4.阻抗失配。 5.被动响应。 6.存储、管理的对象有限。 7.事务处理能力较差。 现代数据库技术 现代数据库系统其特点表现在: 1.立足于面向对象的方法和技术 2.与多学科技术的有机结合 3 适应应用领域的需要
6
16.2 数据库新技术与研究热点 16.2.1 现代应用数据模型的特征 1.数据表现与传统应用数据不同
数据库系统是个大家族,数据模型丰富多样,新技术内容层出不穷,应 用领域也变得日益广泛。 现代应用数据模型的特征 1.数据表现与传统应用数据不同 ⑴ 多维性 (2) 易变性 (3) 多态性 2.现代应用对数据结构的要求更高 表现在: (1) 数据类型 (2) 数据之间联系复杂 程度 (3) 多样化的数据表示
7
16.2.2 现代数据库系统的功能 3.数据操作新特征 (1) 数据操作更为复杂 (2) 数据的交互操作性
(3) 数据操作的主动性和双向作用 现代数据库系统的功能 现代数据库系统要满足现代应用的复杂性、主动性和 时态性等特性,从数据建模到数据查询,从数据存储到 数据库管理等,应具备的功能归纳如下: 1.具有强有力的数据建模能力 2.新的查询机制 3.更强的数据存储与共享能力 4.具备复杂事务管理能力
8
5.具备图形处理能力 6.具备时态处理机制 7.具有触发器或主动能力 1990年,美国的高级DBMS功能委员会发表了《第二代数据库系统宣言》,提出了现代数据库管理系统(《第三代数据库系统宣言》)应具有的特征,包括3条基本原则和13个命题。其基本思想如下: ◆ 现代数据库系统应支持数据管理、对象管理和知识管理。 ◆现代数据库系统必须保持或继承关系数据库系统的技术,它是关系模式的扩展。 ◆现代数据库系统必须对其他系统开放。数据库系统的开放性表现在:支持数据库语言标准,支持标准网络协议,有良好的可移植性、可连接性、可扩展性和互操作性等。
9
可见现代数据库系统是一个不断发展的范畴,它是集成了传统关系数据库技术和计算机新技术,为适应现代工程型应用而形成的新型数据库集合。例如:关系数据库技术与分布处理集成形成分布数据库技术,关系数据库技术与并行处理相结合形成并行数据库技术等等。当然这种技术的集成不是两种或者多种技术的简单拼凑,它可能在基本概念、原理、技术、方法与机制等方面带来根本变化。
10
16.2.3 数据库研究的热点与综合应用 1.数据库研究的热点 2.现代数据库的综合应用 不是一个简单的数据库系统,而是一个基于网络
的、具有智能支持的、支持多维复杂数据类型的协同 化信息系统。 (1) 网络化 (2) 智能化 (3) 多维化 (4) 协同化与综合应用
11
16.3 现代数据库系统概述 16.3.1 基于时间的数据库技术 及其为核心的信息系统中,管理时间信息是必要且迫切的。 1.实时数据库技术
时间是自然界无处不在的客观属性。时间信息及其与其他信息的联系在人们的生活中起着极大的作用,因此在数据库 及其为核心的信息系统中,管理时间信息是必要且迫切的。 1.实时数据库技术 主要表现在两个方面:一方面,要维护大量共享数据和控制数据;另一方面,其应用活动(任务或事务)有很强的时间性,要求在规定的时刻和(或)—定的时间内完成其处理,同时,所处理的数据也往往是“短暂”的,即有一定的时效性,过时则有新的数据产生,而当前的决策或推导变成无效。
12
所以,这种应用对数据库和实时处理两者的功能及特性均有需求,既需要数据库来支持大量数据的共享,维护其数据的一致性,又需要实时处理来支持其任务(事务)与数据的定时限制。但是,传统的数据库系统旨在处理永久、稳定的数据,强调维护数据的完整性、一致性,其性能目标是高的系统吞吐量和低的代价,并不考虑有关数据及其处理的定时限制,所以,传统的数据库管理系统(DBMS)不能满足这种实时应用的需要 。 实时数据库就是其数据和事务都有显式定时限制的数据库,系统的正确性不仅依赖于事务的逻辑结果,而且依赖于该逻辑结果所产生的时间。
13
必须注意的是:实时数据库并非实时系统和数据库技术在概念、结构和方法上的简单集成。它在概念、理论、技术、方法和机制方面具备自身特点。如:数据库的结构与组织;数据处理的优先级控制、调度和并发控制协议与算法;数据和事务特性的语义及其与一致性、正确性的关系;数据查询/事务处理算法与优化;I/O调度、恢复和通信的协议与算法等,这些问题之间彼此高度相关。需要针对不同的应用需求和应用特点,对实时数据模型、实时事务调度与资源分配策略、实时数据查询语言、实时数据通信等大量问题作深入的研究和处理。
14
客观世界中的事物都具有时间的属性。所有的信息是随时间变化的,这种随着时间变化的信息称为时态信息 。
2.时态数据库技术 客观世界中的事物都具有时间的属性。所有的信息是随时间变化的,这种随着时间变化的信息称为时态信息 。 表15.1表示了一个单位员工的职称和工资是随时间变化的情况。 姓 名 职 称 工 资 张 民 讲 师 [1989,1998] 副教授 [1999,2004] 1000 [1989,1998] 1500 [1999,2004] 王晓晓 副教授 [1990,2004] 1500 [1990,2004] 赵 林 教 授 [1992,2004] 2000 [1992,2004]
15
时态数据库技术就是将时间属性引入到数据库系统中的新型数据库技术。元组的属性值在特定的时间有效,这个特定的时间就是数据库中的有效时间;对应于有效时间的另一个时间是事务时间,它反映的是数据库中处理(插入、删除和更改)数据的时间 。 时态数据库中的时间是作为一个维度被处理的,数据库注重数据记录或操作的时态性,即数据记录或操作的时间状态,不是时间数据自身,时间数据只是表达数据记录或操作的时态性的量值。 时态数据库目的在于处理包含随时间变化的信息,维护数据库中对象经历的历史变化。时态数据库保存数据库对象随着时间变化的特征,但缺乏维护数据有效性的机制,不显式考虑查询与事务有关的时间限制。在时态数据库中,随时间变化而改变的数据的处理是保留“历史”,增加新的数据项,可以查询某个过去时间曾经有效的数据。
16
3.时空数据库技术 时空数据库是包含时间和空间要素在内的数据库系统。时空数据库涉及时空对象表示、建模、索引、查询、时空推理等,在时空信息处理方面有着强大的能力。时空数据建模有两种方法:一种是在时态数据库中加入空间属性和操作,另一种是在空间数据库中加入时态属性和操作。通常采用后者。时态索引与空间索引技术有相似性,时态索引技术主要是应用空间索引技术R—Tree、G—nee等演变而来。 总结: 时态数据库更多考虑“结构”,实时数据库则侧重考虑“行动”(控制实时),有时“及时”性比正确性更重要。时空数据库中是应用时态数据属性和操作实现时空信息处理,但是时态数据库注重有效时间,时空数据库更注重时间序列的应用。
17
16.3.2基于知识的数据库技术 随着计算机软硬件技术的不断发展和计算机应用领域的不断突破,人们在非数值处理的应用领域已不满足于仅仅进行数据处理和控制,而开始进入知识处理领域 。本节介绍基于知识的数据库技术 。 1.知识库技术 知识是人类对客观规律的认识,是系统的、有条理的信息。一般地,知识是数据经过一系列加工,如归纳、综合、比较、分类、联想等得到的上层信息。例如,39℃是一个数据,如果用来表示一个人的体温,则成为一种信息;对于医生或具有保健常识的人来说,如果一个人的体温达到39℃,则表明其正在发烧,需要及时治疗,这就是一种知识。
18
知识库是人工智能(A1)和数据库(DB)相结合的产物,是把知识以一致性的形式进行存储的机构,其中的知识是高度结构化的符号数据。知识库中蕴藏的知识需要利用其中包含的事实和规则推断得到,是一种智能的数据库技术。传统数据库系统可以处理海量的数据和大量的商务应用,但却难以表达和处理人工智能系统中常见的规则和知识,难以进行数据的演绎和推理能力。如果说数据库是把数据从应用程序中分离出来交予系统程序处理,则知识库就是把知识从应用程序中分离出来,交由知识系统程序处理。该系统使数据库系统能够在进行数据处理的同时,进行知识的演绎和推理能力,以此解决传统数据库的缺陷、不足,为应用中的难题提供新的手段和方法。
19
知识数据库系统的功能,就是把由大量的事实、规则、概念组成的知识存储起来,进行管理,并向用户提供方便快速的检索、查询手段。因此,知识数据库可定义为:知识、经验、规则和事实的集合。知识库系统应具备对知识的表示方法、对知识系统化的组织管理,知识库的操作、库的查向与检索、知识的获取与学习、知识的编辑、库的管理等功能。
20
2.主动数据库技术 主动数据库(Active Database, ADB)是相对于传统数据库的被 动性而言的 。许多实际的应用领域,如管理信息系统(MIS)、计算机集成制造(CIM)系统、计算机辅助设计和制造(CAD/CAM)系统、办公自动化(OA)系统常常希望数据库系统在某些特定情况下能根据数据库的当前状态,主动进行相应的处理,不需要用户的干预,快速、有效地解决实际环境中遇到的问题。而对有些应用不满足于数据库系统的这种“不叫不动”式的被动服务,希望数据库系统能够主动地向用户提供服务,例如:根据库存不足、证券市场波动、生产过程异常等事件发出警告或调用相应的处理程序等。为了达到这样的目的,对传统的数据库系统就提出了对事件做出主动响应的要求,这就推动了主动数据库技术的产生。
21
主动数据库提供给用户一个统一定义主动功能的平台,方便使用和修改,同时提高了系统的可靠性和性能。主动数据库的一个突出的思想是:让数据库系统具有各种主动进行服务的功能,并以一种统一而方便的机制来实现各种主动性需求。 主动数据库的主要目标是提供对紧急情况及时反应的能力,同时提高数据管理系统的模块化程度。主动数据库通常采用的方法是在传统数据库系统中嵌入ECA(即事件—条件—动作)规则,这相当于系统提供了一个“自动监测”机构,它主动地不时地检查看这些规则中包含的各种事件是否已经发生,一旦某事件被发现,就主动触发执行相应的动作。 主动数据库技术的核心是事件库(EB)和事件监视器(EM),其原理是规则知识和推理机制。实现主动数据库的关键技术在于它的条件检测技术,能否有效地对事件进行自动监督,使得各种事件一旦发生就很快被发觉,从而触发执行相应的规则。
22
3.决策支持系统 决策是一个过程,涉及人类生活的各个方面。人们为了实现特定目标,往往根据常识或者运用科学的理论和方法,系统地分析主、客观条件,在掌握大量相关信息的基础上提出若干预选的方案,并从中选择出作为行动纲领的最佳方案。 根据决策过程的需要,在传统的信息管理系统(IMS)的基础上,建立了决策支持系统(DSS)。它是基于数据的应用,决策支持就是在收集所有相关数据和信息,经过推理、演算等形式的加工处理,为决策者的决策提供依据。通过人机对话进行分析、比较和判断,识别问题,建立或修改模型,帮助决策者明确决策目标。为决策者提供各种方案并对其进行评价和优选,为正确决策提供帮助 。
23
决策支持系统基本含义 :受控于一个或多个决策者,面向决策环境的非结构化部分,以改进决策结果的最终效果为目的,辅助决策制定活动的系统。
决策支持系统是把多种基于知识的数据库技术有机结合,辅助决策者解决半结构化和、非结构化的决策问题。它综合了信息论、管理科学、行为科学、信息经济学等多种重要学科的理论成果,以计算机技术和人工智能技术为实施手段。决策支持系统由数据库(DB)提取数据、利用模型库(MB)提取决策模型、从方法库(MEB)中的预测方法、优化方法、误差分析和风险分析等中获得决策的方法,经过知识库(KB)获取知识和推理功能,构建“四库”框架的DSS系统 。
24
4. 数据仓库与数据挖掘技术 ⑴ 数据仓库 数据仓库是一个面向主题的、集成的、相对稳定的、反 映历史变化的数据集合,用于支持管理决策。 传统的数据库技术是单一的数据资源,它以数据库为中 心,进行事务处理、批处理到决策分析等各类型数据处理 的工作。计算机系统中存在着两种数据处理:操作型处理 和分析型处理.操作型处理也就是事务处理,它是指对数据 库联机的日常操作(联机事务处理,OLTP),通常是对记录 的查询、修改、插入、删除、统计和报表等操作,人们所 关心的是响应时间,数据的安全性和完整性;分析型处理 则用于管理人员的决策分析。不但要访问现有的数据,而 且要访问大量历史数据,甚至需要提供企业外部、竞争对 手的相关数据。例如,零售商希望将经常被同时购买的商 品放在一起,以方便和刺激购买;国家安全部门想从所有 已知的灾难事故中找出是否有恐怖活动的因素,等等。
25
显然传统数据库管理系统无法给出答案,导致了“数据丰富而知识贫乏”的现象。事务型处理与分析型处理确定了数据处理的分析型环境和操作型环境,从而也将原来以单一数据库为中心的数据环境(即事务处理环境)发展为一种新环境——体系化环境。体系化环境由操作型环境和分析型环境构成。数据仓库是体系化环境的核心,它是建立决策支持系统(DSS)的基础。 数据仓库正是为了建立这种新的分析处理环境(联机分析处理,OLAP)而出现的一种数据存储和组织技术。它要求将数据从原来分散的数据库中抽取出来,并加以加工和集成,统一和综合为新的系统,当然这一过程是复杂的,面向不同的应用主题就会有不同的集成和综合结果,像这样由传统数据库系统经过加工处理、集成综合而面向不同应用主题和最终提供给高层决策需要的数据库系统为数据仓库。
26
数据仓库首先是数据库,只不过这个数据仓库是按DSS的要求而构建的,为DSS服务的数据库。数据仓库的建立不是要取代数据库,而是数据库技术的一种新的应用。因此可以认为数据库是数据仓库的基础,而数据仓库是数据库的一个更高层次的发展。 ⑵ 数据挖掘技术:数据挖掘(Data Mining,简称DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。 这个定义包括几层含义: ◆ 数据源必须是真实的、大量的和含噪声的。 ◆ 发现的是用户感兴趣的知识。 ◆ 发现的知识要可接受、可理解和可运用。 ◆ 支持特定的发现问题。
27
数据挖掘所说的知识发现,不是要求发现放之四海而皆准的真理,或要去发现崭新自然科学定理和纯数学公式。数据挖掘是从超大型数据库或数据仓库中发现并提取隐藏在内部的信息的一种新技术,其目的是帮助决策者寻找数据间潜在的关联,发现被经营者忽略的要素,而这些要素对预测趋势、决策行为可能是非常有用的信息。 传统的DSS系统通常是在某个假设的前提下,通过数据查询和分析来验证或否定这个假设。而数据挖掘技术则能够自动分析数据,进行归纳性推理,从中发掘出数据间潜在的模式,数据挖掘技术可以产生联想,建立新的业务模型帮助决策者调整市场策略,找到正确的决策。
28
数据挖掘的范围非常广泛,数据结构可以是层次的、网状的、关系的和面向对象的。数据对象不仅有结构化的还有非结构化的,可以是数据库和数据仓库、文本、Web信息、空间数据以及图像、视频和音频数据等,更广义地说,数据挖掘意味着在一些事实或观察的各种数据的集合中寻找模式的决策支持过程。它的对象可以是任何组织在一起的数据集合。 数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识。数据挖掘有机结合了来自多门学科的技术,其中包括数据库、数理统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理、空间数据分析等。因此数据挖掘被认为是数据库系统最重要的前沿研究领域之一,也是信息工业中最富有前景的数据库应用领域之一。
29
基于网络的数据库技术 在Internet广为使用和迅速发展的今天,基于网络的数据存储、传输和处理变得越来越重要。数据库和网络技术相结合产生的网络数据库技术得到了迅速发展和推广,成为数据库领域的一个重要研究方向。 1.分布式数据库系统 ⑴ 分布式数据库由一组数据库组成,这些数据库分散在计算机网络的不同计算实体之中,网络中的每个结点都具有独立处理数据的能力,即是站点自治的,可以执行局部应用,同时也可以通过网络通信系统执行全局应用。分布式数据库本质上是一种虚拟的数据库,它的各个组成部分都物理地存储在于不同地理位置的不同数据库中。
30
分布式数据库具有如下基本特征: ◆ 物理分布性。数据库中数据不是存储在同一站点,而是存储在不同计算机设备当中。 ◆ 逻辑整体性。数据在物理上分散存储,但在逻辑上相互关联,构成整体,数据被所有用户(全局用户)共享,由一个DDBMS(分布式数据库管理系统)统一管理。 ◆ 站点自治性。各个站点数据由本地DBMS管理,具有自治处理能力,完成本站点的应用(局部应用)。 ◆ 站点间协作性。各个站点具有高度自治,但又相互协作构成一个整体。对用户来说,使用DDBS如同使用集中式数据库一样,可以在任何一个站点执行全局应用。
31
分布式数据库可以根据各个站点的数据库管理系统是否相同划分为同构系统和异构系统。
同构系统中所有站点都使用相同的数据库管理系统,相互之间彼此熟悉,合作处理客户需求。在同构系统中,各个站点都无法独自更改模式或数据库管理系统。为了保证涉及多个站点的事务顺利执行,数据库管理系统还需要和其他站点合作以交换事务信息。同构系统又可以分为两种类型:对于同构同质系统,各个站点都采用同一类型数据模型(例如关系数据模型)和同一型号DBMS;对于同构异质系统,各个站点采用同一类型数据模型(例如关系数据模型),但采用DBMS的型号可以不同。 异构系统中不同站点有不同模式和数据库管理系统,各个站点之间可能彼此并不熟悉,在事务处理过程中,它们仅仅提供有限功能。模式差别是异构系统中进行查询处理时难以解决的问题,而软件的差别则成为全局应用的主要障碍。
32
⑵ 分布式数据库管理系统 分布式数据库管理系统(Distributed Database Management System, DDBMS)是一组负责管理分布式环境下逻辑集成数据存取 、一致性和完备性的软件系统。由于数据上的分布性,DDBMS在管理机制上还必须具有计算机网络通信协议的分布管理特性。在分布式环境下,查询可以分为“局部查询”、“远程查询”和“全局查询”3种类型。 分布式数据库管理系统基本功能表现在下述5个方面。 ◆ 接受用户请求,并判定将其发送到何处,或必须访问哪些计算实体才能满足要求。 ◆ 访问网络数据字典,了解如何请求和使用其中的信息。 ◆ 如果目标数据存储于系统的多台计算机上,对其进行必需的分布式处理。 ◆ 在用户、局部DBMS和其他计算实体的DBMS之间进行协调,发挥接口功能。 ◆ 在异构分布式处理器环境中提供数据和进行移植的支持,其中异构是指各个站点的硬件、软件之间存在着差别。
33
2.移动数据库技术 移动数据库(Mobile Database)技术是指支持移动计算环境的分布式数据库技术。它使得计算机或其他信息设备在没有与固定的物理连接设备相连的情况下,能够传输数据。 移动计算的作用在于:将有用、准确、及时的信息与中央信息系统相互作用,分担中央信息系统的计算压力,使有用、准确、及时的信息能提供给在任何时间、任何地点需要它的用户。 移动计算环境由于存在计算平台的移动性、连接的频繁断接性、网络条件的多样性、网络通信的非对称性、系统的高伸缩性和低可靠性,以及电源能力的有限性等因素,比传统的计算环境更为复杂和灵活。这使得传统的分布式数据库技术,不能有效支持移动计算环境。因此,移动数据库技术由此而产生。
34
移动数据库涉及传统的数据库技术、分布式计算技术,以及移动通信技术等多个学科领域。它包括两个方面的含义:一方面指人在移动时可以存取数据库中的信息;另一方面是指人可以带着数据库的副本移动。
与传统的分布式数据库系统相比,移动数据库系统具有以下几个特点: ◆ 数据库的移动性与位置有关性。 ◆ 频繁的断接性。 ◆ 网络条件的多样性。 ◆系统规模庞大。 ◆ 资源的有限性。 ◆ 网络通信的非对称性。 移动数据库系统包括服务器、移动支持结点和移动客户机3个主要部分。移动数据库系统体系结构(TTR)由服务器级复制、空中复制和客户机缓存3级复制层面构成。
35
3.Web数据库技术 什么是Web数据库?它是以后台数据库为基础的,加上一定的前台程序,通过浏览器完成数据存储、查询等操作的系统。也就是说,它包含了网络上通用的技术,还包括了数据库技术以及相应的数据库连接访问技术。它充分发挥了DBMS高效的数据存储和管理能力,以Web这种浏览器/服务器(B/S)模式为平台,将客户端融入统一的Web浏览器,为Internet用户提供使用简便、内容丰富的服务。 客户—服务器体系架构实现了功能的分布。网络上每天都有成千上万的数据与信息,如何获取这些信息是一个关键的问题。Web数据库能实现网络信息的共享,而且这种共享是方便和廉价的。网络上每天都有成千上万的数据与信息,如何获取这些信息是一个关键的问题。Web数据库能实现网络信息的共享,而且这种共享是方便和廉价的。
36
4.XML数据库技术 什么是XML数据库?XML数据库是一种Web数据库,它是可以对XML文档进行存取管理和数据查询的数据库,是一个能够在应用中管理XML数据和文档的数据库系统。简单地说,XML数据库就是一个XML文档的集合,这些文档是持久的,并且是可以操作的。 XML数据库为XML文档定义了一个逻辑模型,并根据这个模型存取文件,包括元素、实体、属性、指令、注释和标记等。XML数据库以XML文件作为其基本的逻辑存储单位,就好像关系数据库中数据表中的记录。
37
作为一种“数据库”格式,XML有基本的优势,如它是自描述的、可交换的和能够以树状或图形结构描述数据
作为一种“数据库”格式,XML有基本的优势,如它是自描述的、可交换的和能够以树状或图形结构描述数据.XML提供了许多数据库所具备的存储、模式、查询语言和编程接口等功能;然而,它缺少一些作为实用的数据库所应具备的特性,例如高效的存储、索引、安全、事务和数据一致性、多用户访问、触发器和交叉查询多个文件等。 XML数据库分为基于文本的和基于模型的XML数据库两大类。 基于文本的XML数据库将XML以文本的方式进行存储。它可以是操作系统的文件系统中的文件形式,或者是关系数据库中的BLOB数据,或者特定的文件格式。索引的方式对所有基于文本的XML数据库来说都是基本一样的,它可以使查询引擎很方便地跳到XML文档中的任何地方。这就可以大大提高数据库存取文件或文件片段的速度。这是因为XML文档以完整的方式进行存储,访问时只需进行一次检索,就可读出整个文件或文件片段,这样可以大大减少访问存储器和磁盘设备的次数。
38
基于模型的XML数据库是根据XML文档构造一个内部的模型,并根据这个模型进行存储。至于具体的存储实现方式则由数据库具体决定。有些实现方法将特定的模型存储于现有的DBMS,如关系型数据库或面向对象数据库中。例如采用DOM模型来表示XML文档,在关系型数据库中存储DOM时,就会有对元素、属性、PCDATA、实体、实体引用等进行分别存储的表格。其他数据库一般为特定模型专门设计和优化的专有存储格式。 使用专有存储格式的基于模型的XML数据库,如果以文件的存储顺序读取文件,其性能和基于文本的XML数据库相似。这是因为这种数据库大多在结点间使用了物理指针,这样其读取性能和读取文本差不多。和基于文本的XML数据库一样,如果数据的读取顺序和存储顺序不同,那么基于模型的XML数据库也会遇到性能上的问题。
39
其他数据库技术 1.面向对象数据库系统 面向对象数据库系统(Object Oriented Database System,OODBS)是面向对象方法与数据库技术结合的产物,可以表示为:面向对象系统+数据库能力,它体现了面向对象方法的基本原理和机制。面向对象数据库系统将数据作为能自动重新得到和共享的对象存储,包含在对象中的是完成每一项数据库事务处理指令,这些对象可能包含不同类型的数据,如传统的数据和处理过程;也包括声音、图形和视频信号,对象可以共享和复用。面向对象数据库系统的这些特性,通过复用和建立新的多媒体应用能力,使软件开发变得容易,这些应用可以将不同类型的数据结合起来。 面向对象数据库系统的好处,是支持WWW应用能力。可以在CAD、GIS和多媒体应用等特殊领域显示出强大的优势.
40
2.对象—关系数据库系统 对象—关系数据库系统(Object-Relation Database System,ORDBS)兼有关系数据库和面向对象的数据库两方面的特征。它除了保留原来关系数据库的种种特点外,还加入了面向对象数据库的特点,是面向对象数据库技术和传统数据序技术的相互融合。人们在传统关系数据模型的基础上,提供元组、数组、集合等一类复杂数据类型以及处理这些复杂数据类型操作的能力,并且具有继承性和对象标识等面向对象特点,这样就形成“对象-关系数据模型”。 对象—关系数据库系统具有以下新特征: ◆允许用户根据应用需求自己定义数据类型、函数和操作符,而且一经定义,这些新的数据类型、函数和操作符,将存放在数据库管理系统核心中,可供所有用户共享。 ◆由多种基本类型或用户定义的类型构成的对象。 ◆能够支持子类对超类的各种特性的继承,支持数据继承和函数继承,支持多重继承,支持函数重载。能够提供功能强大的通用规则系统,而且规则系统与其他的对象—关系能力是集成为一体的。
41
3.多媒体数据库系统 媒体是信息的载体,多媒体是指多种媒体,如数字、字符、文本、图形、图像和声音的有机集成,而不是简单的组合,其中,数字、字符等称为格式化数据;文本、图形、图像、声音、视屏等称为非格式化数据。 多媒体数据库(Multimedia Database System)实现对格式化和非格式化的多媒体数据的存储、管理和查询,使数据库系统能够表示和处理多种媒体数据。 在多媒体数据库中,数据在计算机内的表示方法比传统数据库的表示形式复杂,对非格式化的媒体数据往往要用不同的形式来表示,并且需要提供管理这些异构形式的技术和处理方法。多媒体数据库必须具备反映和管理各种形式媒体的数据特性,以及各种媒体数据之间的空间或时间的关系。
42
在客观现实世界里,各种媒体信息内部或各种媒体信息之间存在某种自然联系,例如,关于乐器的多媒体数据,包括乐器特性的描述、乐器的照片、该乐器演奏某段音乐的声音等。这些不同媒体数据之间存在自然联系,包括时序关系和空间相对位置结构。 多媒体数据库系统与传统数据库管理系统相比较,应提供更适合非格式化数据查询的搜索功能,例如,允许对非格式化数据按一定算法映射成一张结构表,然后根据它的内部特定成分作整体和局部搜索。并允许通过范围、知识和其他描述符进行确定或模糊搜索,以及对多个数据库进行并行搜索。 多媒体数据库目前主要有三种结构 ◆ 由单独一个多媒体数据库系统来管理不同媒体的数据库以及对象空间。 ◆ 采用主DBMS和辅DBMS相结合的体系结构。每一个媒体数据库由一个辅DBMS管理,另外有一个主DBMS来一体化所有的辅DBMS。用户在主DBMS上使用多媒体数据库,对象空间也由主DBMS管理。 ◆ 协作DBMS体系结构。每个媒体数据库对应一个DBMS,称为成员DBMS,每个成员放到外部软件模型中,由外部软件模型提供通信、查询和修改界面。用户可以在任一点上使用数据库。
43
4.并行数据库系统 并行数据库系统是在并行机上运行的具有并行处理能力的数据库系统。并行数据库系统是数据库技术与并行计算技术相结合的产物。并行数据库技术采用先进的查询技术和并行数据库管理技术,发挥多处理机结构的优势,将数据库在多个磁盘上分布存储,利用多个处理机对磁盘数据进行并行处理,从而解决磁盘“I/O”瓶颈问题。 通过采用先进的并行查询技术,开发查询间并行、查询内并行以及操作内并行,大大提高查询效率。其目标,是提供一个高性能、高可用性、高扩展性的数据库管理系统,而在性能价格比方面,较相应大型机上的DBMS高得多。 关系数据库系统在处理数据方面也具有潜在的并行性,因为数据库是元组的集合,数据库操作是集合的操作,在许多情况下操作可以分解为子集的操作,而子集之间又不具有数据相关性,可见其潜在的并行性。
44
5.模糊数据库系统 模糊性是客观世界的一个重要属性。不但事物的静态结构方面存在着模糊性,而且事物之间互相作用的动态行为也存在着模糊性。传统的数据库系统描述和处理的是精确或确定的客观事物,在处理不精确和不确定的事物时就显得无能为力。为此,出现了对模糊数据库理论和实现技术的研究,其目标是能够存储以各种形式表示的模糊数据。数据结构和数据联系、数据上的运算和操作、对数据的约束(包括完整性和安全性)、用户使用的数据库窗口用户视图、数据的一致性和无冗余性的定义等都是模糊的,精确数据可以看成是模糊数据的特例。 所谓模糊数据库就是能够存储、组织、管理和操作模糊数据的数据库系统。
45
模糊数据库除了普通数据库系统的公共特性外,还具有下列特征:
模糊数据库除了普通数据库系统的公共特性外,还具有下列特征: ◆ 模糊数据库存储的是以各种形式表示的模糊数据。 ◆ 模糊数据库中数据结构和数据之间的联系是模糊的。 ◆在数据上的运算和操作也是模糊的。 ◆数据的约束性是模糊的。 ◆ 用户视图是模糊的。 ◆数据的一致性和无冗余性也是模糊的。 模糊数据模型包括模糊数据结构、模糊数据上的模糊操作和运算的定义。目前主要的模糊模型有模糊关系模型、模糊网状模型、模糊层次模型、模糊实体联系模型、模糊面向对象数据模型等,这些数据模型大都是从相应的非模糊数据模型经过模糊化得到的。 就模糊关系模型而言,根据模糊程度不同可分为:属性值模糊的模糊关系数据模型、元组模糊的模糊关系数据模型、基于加权模糊逻辑的模糊关系数据模型以及综合的模糊关系数据模型。 由于模糊数据模型和模糊数据库语言比精确时要复杂得多,因此在实现模糊数据库管理系统时,无论在功能上和逻辑结构上,还是在物理组织和存储形式上都相应地要复杂得多。
46
6.空间数据库 空间数据库是以描述空间位置和点、线、面、体特征的拓扑结构位置数据及描述这些特征性能的属性数据为对象的数据库.其中,位置数据为空间数据,属性数据为非空间数据。 空间数据用于表示空间物体的位置、形状、大小和分布特征等信息,描述所有二维、三维和多维分布的关于区域的信息,它不仅具有表示物体本身的空间位置及状态信息,还具有表示物体的空间关系的信息。非空间信息主要包含表示专题属性和质量描述数据,用于表示物体的本质特征,以区别地理实体,对地理物体进行语义定义。 目前,空间数据库的研究,主要集中于空间关系与数据结构的形式化定义。空间数据的表示与组织,空间数据查询语言,空间数据库管理系统。 空间数据库技术它涉及到计算机科学、地理学、地图制图学、摄影测量与遥感和图像处理等多个学科。目前的空间数据库主要应用于天文探测、地理信息系统(Geographical Information System,GIS),环境和资源管理、土地利用、城市规划、森林保护、人口调查、交通管理、管道和网络系统、分子结构图、医学图像成型等领域中。
47
7.联邦数据库系统 所谓联邦数据库系统是一个彼此协作却又相互独立的单元数据库系统的集合,它将单元数据库系统按不同程度进行集成。对系统提供整体控制和协调操作的软件叫做联邦数据库管理系统。 联邦数据库主要是在分布的环境下实现数据的集成。由于各个数据库的数据模型、DBMS以及计算机都有很大的差别,因此,联邦数据库实际上是结点异构型分布数据库系统的推广。联邦数据库不但要解决分布环境下的并发控制和数据一致性等问题,而且要解决由于数据模型、语言和语义解释的不同以及操作系统和异构带来的各种困难。此外,在数据共享时,还需处理各个数据库原始数据的不完全性和不一致性等问题。
48
8.科学统计数据库 一种用来对统计数据进行存储、统计(如求数据的平均值、最大值、最小值、总和等)、分析的数据库系统。 统计数据库具有以下特点: ◆ 多维性。统计数据是在一定时间(年度、月度、季度)期末产生大量数据,故入库时总是定时地大批量加载,经过各种条件下的查询以及一定的加工处理,通常又要输出一系列结果报表,这就是统计数据的“大进大出”特点。 ◆ 统计数据的时间属性是一个最基本的属性,任何统计都离不开时间因素,而且经常需要研究时间序列值,所以统计数据又有时间向量性。 ◆ 随着用户对所关心问题的观察角度不同,统计数据查询出来后常有转置的要求。 统计数据库技术研究的主要问题是数据模型、查询语言和用户接口以及数据库的物理组织。目的是让统计数据库更好地满足数据储存和统计分析的需要。
49
9.工程数据库 工程数据库是一种能存储和管理各种工程图形,并能为工程设计提供各种服务的数据库。它是集传统数据库功能和工程应用于—体的数据库技术。工程数据库是根据工程应用的具体需要提出来的,其目的是利用数据库技术对工程对象进行有效的管理,并提供相应的处理功能及良好的设计环境。 工程数据库管理系统其主要功能如下: ◆支持复杂多样工程数据的存储和集成管理。 ◆ 支持复杂对象(如图形数据)的表示和处理。 ◆ 支持变长结构数据实体的处理。 ◆ 支持多种工程应用程序。 ◆ 支持模式的动态修改和扩展。 ◆ 支持设计过程中多个不同数据库版本的存储和管理。 ◆ 支持工程长事务和嵌套事务的处理和恢复。
50
16.4 本章小结 本章首先分析了传统数据库系统在新时期应用领域中存在的问题,提出现代数据库技术应具备的特点是:
1.立足于面向对象的方法和技术; 2.与多学科技术的有机结合; 3.适应应用领域的需要。 针对当代数据库技术研究的热点,指出现代数据库技术综合应用是一个基于网络的、具有智能支持的、支持多维复杂数据类型的协同化信息系统。最后从时间、知识和网络三个领域概括介绍了数据库技术应用情况,并对近几年9种其他数据库技术应用进行了综述,为读者在数据库领域从事科学研究和应用开发提供参考。
Similar presentations