多媒体通信技术主讲教师：黄玉兰　　　　　　　　　　　　　　　　学时：16.

多媒体通信技术主讲教师：黄玉兰　　　　　　　　　　　　　　　　学时：16

本书章节第一章多媒体通信技术概述第二章音频技术基础第三章图像技术基础第四章视频信息压缩与处理
第五章多媒体通信系统中的关键技术第六章多媒体通信网络技术第七章多媒体数据的分布式处理第八章多媒体通信应用系统

本章主要内容 5.1 多媒体信息输入输出技术 5.2 超媒体技术 5.3 多媒体同步技术

第五章多媒体通信系统中的关键技术多媒体技术的发展离不开相关技术的支持，如媒体输入输出技术、超媒体技术、网络同步技术、数据存储技术等。下面我们就这些在多媒体技术的发展过程中起重要作用的关键技术逐一进行介绍。

5.1 多媒体信息输入输出及存储技术多媒体计算机所涉及的输入输出技术包括视频图像技术、音频技术、语音技术、图像图形技术和文本技术等。在多媒体计算机系统中，支持系统输入输出的功能是由一些具有特定功能的功能卡来实现的。有一些功能卡是专门支持多媒体信息的采集与处理的，如视频卡、音频卡、VGA(Video Graphics Array即视频图形阵列）与TV转换卡、图形加速卡、SCSI(Small Computer System Interface小型计算机系统接口 )接口卡、光盘接口卡等。多媒体计算机通过这些功能卡完成与各种外部设备的连接，从而形成一个制作和播放多媒体应用的工作环境。

5.1 多媒体信息输入输出及存储技术 5.1.1 视频信息输入输出技术
5.1 多媒体信息输入输出及存储技术 5.1.1 视频信息输入输出技术计算机只能处理数字图像信息，而现有的视频源都还只是模拟图像信息，因此需要先将模拟图像信息转变为数字图像信息。此外，计算机对图像进行相关的处理之后，在进行显示的时候也必须要将数字图像转换成模拟图像信息，因此就需要一个视频转换卡来完成相应的功能。当前用于多媒体计算机的视频卡主要有以下几类：电视接收卡、视频转换/捕捉卡、视频编码卡、MPEG卡等。

1、视频卡的基本工作原理视频采集、显示播放是通过视频卡、播放软件、显示设备来实现的。视频卡是基于PC机的一种多媒体视
频信号处理平台，它具有多个不同视频接口，分别对应录像机（VCR）、影碟机、摄像机（Camera）等视频源，可以通过相应的视频软件来选择所需的视频源，经过编辑或特技处理而产生非常漂亮的画面。这些画面还可以被捕捉、数字化、冻结、存储、输出及进行其他的操作。对画面的修整、像素显示调整、缩放功能等都是视频卡支持的标准功能。多媒体视频卡除了可以实现视频信号数字化、捕捉特定镜头外，还可以在VGA上开窗口并与VGA信号叠加显示。

视频卡的基本工作原理可以用下面框图来说明。

图中的选择视频源完成对相应视频源的选择。
ADC完成视频解码，主要是模拟图像信号至数字图像信号的转换和解码。视频处理芯片是用于视频信号的捕获、播放和显示的专用控制芯片，可以完成视频输入信号的裁减、比例变化、VGA同步、色键控制、PC总线接口和对帧存储器的操作。视频处理器输出的是经过处理的RGB信号，与VGA显示卡输出的RGB信号是完全同步的，通过某种方法完成两路信号的叠加。视频随机访问存储器（VRAM）是专门为视频显示设计的存储器，可提供两个端口的同步读写能力，比一般的DRAM方式快得多。 DAC主要完成数模转换，将叠加的信号转换成模拟信号，最后在显示器中进行显示。

目前，视频卡根据不同的用途可以分为很多种，如视频接收卡、视频转换/捕获卡、MPEG卡等。（1）视频接收卡
2、常用视频卡目前，视频卡根据不同的用途可以分为很多种，如视频接收卡、视频转换/捕获卡、MPEG卡等。（1）视频接收卡视频接收卡也称为电视接收卡，其主要功能有两项：接收电视台发送的电视信号；将模拟电视信号数字化后叠加显示在VGA的RGB信号中，并转换成显示器可接收的模拟信号输出到显示器进行显示。电视接收卡的功能框图如下图所示。

图5-2 电视接收卡功能

（2）视频转换/捕获卡视频转换卡完成计算机视频信号和电视视频信号间的转换。一般分为两类：一类完成由计算机的VGA信号到各种标准制式的电视信号的转换并在电视机上播放或进行录像，这类卡也被称作PC－ TV卡或VGA－TV卡；另一类完成将标准的各种制式电视信号转换成在计算机屏幕上显示的VGA信号，此类卡也叫做TV－VGA卡。它带一个高频头，可将计算机变成一台电视机，收看不同频道的电视节目。视频捕获卡的主要功能是从视频图像信息中实时或非实时地捕获静态或短时间的动态视频图像。捕捉后的视频图像信息以AVI（Audio Video Interleaved）格式存储在计算机硬盘上。

图5-3 视频转换/捕捉卡工作原理

（3）MPEG卡 MPEG卡分为压缩卡和解压卡两类。 MPEG压缩卡一般为专业人士使用，可以对静止和动态图像按照相应的标准进行实时和非实时的压缩和还原处理。 MPEG解压缩卡也称为影碟卡，可以播放MPEG-1标准压缩的数字影视片（如VCD）。 MPEG解压缩卡的主要功能是把MPEG文件进行解压缩并恢复播放。其基本工作原理如图 5-4所示。视频卡主要向着视频技术与影视技术的结合——影视节目后期制作视频技术与通信技术的结合——多媒体视频会议、可视电话等方向发展

图5-4 MPEG解压缩卡工作原理

3、摄像头随着宽带网络逐渐深入到人们的工作和生活中，利用网络进行视频对话和可视电话的使用也越来越多。数字摄
像头作为数字摄像机的一个特殊分支，在网络视频应用中正发挥着越来越重要的作用。摄像头分为模拟摄像头和数字摄像头两类。模拟摄像头获得的模拟视频信号必须经过计算机的视频卡进行数字化转换，并经过压缩后才可以送入计算机进行处理，数字摄像头也称为网络摄像头，可以直接捕捉视频图像，然后通过USB或IEEE1394高速接口输入到计算机，而不再需要视频卡。

摄像头的基本工作原理：摄像头的基本工作原理：外界景物通过摄像头的镜头（透镜）生成光学图像，再
投射到图像传感器表面转换为模拟电信号，经过A/D变换转换为数字图像信号，送到数字处理芯片（DSP）进行加工处理，再通过与计算机的接口传输到计算机中进行处理，最后，通过显示器就可以看到图像了。

摄像头的主要性能指标：（1）摄像器件：按照感光元件的不同，摄像器件可以分为CCD（电磁耦合组件）和CMOS（金属氧化物半导体组件）两类。这两类摄像器件在技术上有很大的差异，但性能的差别不是很大。一般来说，CCD的成像质量较高，用于对影像要求较高的场合，而CMOS用于对影像要求较低的应用场合。（2）像素分辨率：像素是影响数字摄像头成像质量的重要指标，像素的大小关系着图像的分辨率。在早期的摄像头中所使用的像素值一般只有10万左右，成像后的分辨率是352×288（CIF）。因其分辨率太低且性能不佳而遭市场淘汰。目前市场上的主流产品的像素有30万像素（VGA，640×480）和130万像素（SXGA，1280×1024），成像质量也有了很大提高。（3）颜色深度：大多数数字摄像头的颜色深度采用24位真彩色，质量更好的甚至会采用30位的真彩色。采用的颜色深度越大，所得到的图像色彩越丰富，细节也更加的清晰。

摄像头的主要性能指标：（4）视频捕获速度：捕获速度也叫帧率，表示单位时间内图像帧的显示速度，单位是帧/秒。视频捕获速度是摄像头对视
频图像捕获、处理和传输的能力，直接关系到动态图像的流畅度。由于摄像头捕获的是运动图像，因此帧率对图像主观感受影响较大。捕获速度一般是指摄像头采用最大分辨率时的流畅度。通常所采用的摄像头的帧率在20帧/秒，高档摄像头的帧率在30帧/秒。帧率太低会出现跳帧的现象。一般数字摄像头视频捕获的最大分辨率为640×480，若帧率要达到30帧/s，宽带网的传输速率要达到10Mbit/s；（5）接口方式：早期的数字摄像头是接在计算机的并口上，速率达到1Mbit/s，现在流行的数字摄像头都是接在计算机的 USB口上。USB速度快、连接简单、即插即用并提供外接电源。现在的数字摄像头功耗都很低，依靠USB提供电源即可工作。

4、投影仪投影仪是目前使用较多的多媒体显示设备，在科研、教学、演示、会议和监控等领域得到了广泛应用。投影机所使用的技术分为三类：CRT投影机、LCD投影机和DLP投影机。 CRT：阴极射线管，体积大，亮度低，对焦调整复杂。 LCD：液晶显示，当今主流产品，体积小，亮度高，分辨率高，色彩丰富。 DLP：数字光处理器，显示的是数字图像信息，无噪声，画质稳定，色彩丰富细腻，是今后投影机发展方向。

投影机常用的技术指标：亮度：投影机的亮度常用ANSI流明来表示，播放环境对投影机的亮度表现影响较大。目前，一般的LCD投影机的亮度都会达到500 ANSI流明. 分辨率：分为物理分辨率和压缩分辨率。物理分辨率决定了显示图像的清晰程度。灯泡寿命：用灯泡亮度降低为原来的一半时的使用时间来表示。使用寿命至少2000小时以上。灯泡可以分为金属卤素灯(金属卤素灯泡的优点是价格便宜，缺点是半衰期短，一般使用1000小时左右亮度就会降低到原先的一半左右。并且由于发热高，对投影机散热系统要求高，不宜做长时间（4小时以上）投影使用。) UHE（超高压汞灯泡）：uhe灯泡的优点是价格适中，在使用4000小时以前亮度几乎不衰减。由于功耗低，习惯上被称为冷光源。uhe灯泡是目前中档投影机中广泛采用的理想光源。 UHP（Ultra High Performance属于超高压汞灯泡）：uhp灯泡的优点是使用寿命长，一般可以正常使用4000小时以上，并且亮度衰减很小。uhp灯泡也是一种理想的冷光源，但由于价格较高，一般应用于高档投影机上。

音频信息的输入输出技术在多媒体计算机中，数字化音频信息是一种重要的媒体信息。音频信息包括语音和音乐。音频信息的输入输出主要是由音频卡(也叫声卡）来完成的。声卡或音频卡（audio card）是负责录音、播音和声音合成的计算机硬件插卡，是计算机进行所有与声音相关处理的硬件设备。

1、声卡的基本工作原理声卡的结构如图5-5所示。数字音频处理芯片和音乐合成器是声卡的核心器件。总线接口芯片为声卡的各个部分与计算机系统总线间提供握手信号，同时总线接口芯片还起到对指令和数据的缓冲器作用，完成声卡与计算机系统总线之间指令和数据的传送。数字音频处理芯片完成各种音频信号的记录和播放任务，处理工作还包括ADPCM音频信号的压缩和解压缩、采样频率改变、 MIDI指令解释等。

音乐合成器负责MIDI的合成音效，可以即时创造声音，将数
一般声音的变化是用一些电压、电流这样的模拟信号的变化来反映的，而计算机只能处理数字信号，声卡中的A↔D转换器负责将接收的模拟信号转成数字信号供计算机处理或将数字化的音频信号转换为模拟信号送出去，驱动音箱或耳机发音。混音器将从话筒、线性输入、CD输入的不同途径声音信号进行混合，还提供用软件控制音量的功能。

图5-5 音频卡的工作原理

2、音频卡的主要功能 ◆录制和播放声音文件。声卡能将来自麦克风、收录机、激光唱盘等的声源采样，在软件的帮助下以数字声音文件的形式存放。在需要的时候，只要调出相应声音文件播放即可。此外，声卡与CD-ROM驱动器相连，可以实现对CD唱盘的播放； ◆对声音文件进行编辑和合成。可以给声音添加诸如淡入淡出、回声、音调变化等特效，这些对音乐爱好者都是非常有用的；通过语音合成技术将计算机中储存的文本文件转换成可以听到的语音，即让计算机来朗读文本； ◆对数字声音文件进行压缩和解压缩，节省磁盘空间。直接通过采样得到的波形声音文件都很大，这样会占据太多有用的磁盘空间，需要用压缩编码的方法对这些文件压缩。有的声卡上有固化的压缩算法，有的是向用户提供压缩软件；

◆ MIDI音乐录制和合成。MIDI接口是乐器接口的国际标准，
以保证双方有效的数据通信。通过相应的软件可以直接利用计算机完成对外部电子乐器的操作和控制。 ◆文语转换和语音识别。语音合成使人能够听到计算机的声音，相反语音识别能使计算机识别出人的声音。语音识别技术可以实现让计算机听懂人的声音信息，主要应用于需要用语音作为人机交互的场合；一般声卡都支持双声道立体声的采样，可支持的采样频率有： • 8kHz，11.025kHz：针对一般语音质量的要求； • 16kHz，22.05kHz，32kHz：针对普通音乐效果； • 44.10kHz，48kHz：针对高保真音乐效果；

声卡的相关技术标准（补充）声卡的采样技术
声卡的主要作用之一是对声音信息进行录制与回放。在这个过程中，采样的位数和采样的频率决定了声音采集的质量。采样精度：它决定了记录声音的动态范围，以位(bit )为单位，比如8bit、16bit。8bit可以把声波分成256级，16bit可以把同样的声波分成65536级的信号。采样位数：可以理解为声卡处理声音的解析度。这个数值越大，解析度就越高，录制和回放的声音就越真实。如今的主流产品都是16bit的声卡。采样频率：当今的主流声卡，采样频率一般分为22.05kHz、44.1kHz、48kHz共3个等级，22.05kHz只能达到FM广播的声音品质，44.1kHz则是理论上的CD音质界限，48kHz则更加精确一些。对高于48kHz的采样频率，人耳已无法辨别出来了。

电子乐器数字化接口电子乐器数字化接口（Musical Instrument Digital
Interface, MIDI)是电子乐器之间以及电子乐器与计算机之间的统一交流协议。是MIDI生产商协会制定给所有 MIDI乐器制造商的音色及打击乐器的排列表。包括总共 128个标准音色和81个打击乐器排列。由于MIDI只是记录乐曲每一时刻的音乐变化，它只是将需要演奏的乐曲信息记录下来，例如：演奏的乐器、演奏的音调伴奏等，并不包括任何可供回放的声音信息，所以MIDI文件的容量比较小。进行声音回放时需要通过声卡进行回放处理。通常有FM合成和波表合成两种方法。目前，在一些游戏软件和娱乐软件中我们经常发现很多以mid , rmi为扩展名的音乐文件，这些就是在计算机上最为常用的MIDI格式。

5.1.3 语音识别技术和语音合成技术此二者是实现人机语音通信的关键技术。 1.语音识别技术
语音识别技术就是使计算机能够听懂人的声音内容并可以识别出特定说话人的技术。根据不同的需求，语音识别的内容可分为狭义的语音识别（Speech Recognition）和说话人语音识别(Speaker Recognition)。前者是要排除不同人的发音差异，提取代表语音的共性特征，听懂说话人所说的话。后者是寻求说话者的个性特征以辨别说话人的身份。

（1）语音识别系统的基本原理一个典型的语音识别系统如下图所示。图5－6 语音识别系统工作原理

一个完整的语音识别系统可大致分为三部分： ★语音预处理：完成语音信息的采样，消除设备环境噪声以及个体发音差异。
★语音特征提取：目的是从语音波形中提取随时间变化的语音特征序列。 ★模式库与模式匹配（识别算法）：模式库是识别系统的底层模型，并且是语音识别系统中最关键的一部分。模式库通常由获取的语音特征通过训练产生，目的是为每个发音建立发音模板。在识别时将输入的语音特征同模式库中的模板进行匹配与比较，得到最佳的识别结果。

（2）语音识别系统的分类 ①按照可识别词汇量的多少进行划分小词汇量、中词汇量、大词汇量语音识别系统 ②按照语音的输入方式划分孤立词识别系统、连接词~、连续词~ ③按发音者为特定人/非特定人划分发音人可以是特定人、限定人和非限定人三种，对应三种识别系统 ④按发音者的声纹划分即说话人识别，根据语音来辨别说话人的身份。语音识别最终目标：大词汇量、非特定人连续语音的识别。

（3）语音合成技术 a.语音合成实现的方式：一般有两种 ★录音/重放模式 ★参数合成方式（用滤波器和激励信号模拟人声，利用数字信号处理技术） b.文语转换技术应用于有声电子文档、信息电话查询、多媒体软件等。文语转换的语音合成一般包括三个部分：文本分析、韵律生成、语音合成语音合成未来发展方向是提高合成语音的自然度、丰富合成语音的表现力、降低合成语音技术的复杂度和实现多语种文语转换合成。

5.1.4 其它输入输出技术 1、扫描仪扫描仪（Scanner）是一种图形、图像等信息的输入设备，利用光电转换原理，通过扫描仪光电的移动或原稿的移动，把黑白或彩色的原稿信息数字化后输入到计算机中。扫描仪一般由光源、光学透镜、感光元件和A/D转换电路组成。目前常用的感光元件是电荷耦合器件（Charge Coupled Device：CCD）阵列，它是在一片硅片上集成了数万个光电三极管，排成一行或一个阵列，阵列中的每个光电三极管都能把光信号变为电信号，光敏器件所产生的电量与所接收的光量成正比。

扫描仪的图像处理过程（以平面式扫描仪为例）：把原件面朝下放在扫描仪的玻璃台上，扫描仪内发出光照
射原件，反射光线经一组平面镜和透镜导向后，照射到CCD的光敏器件上，由CCD将光信号转换成相应电信号。来自CCD的电信号送到模数转换器中，将电压转换成代表每个像素色调或颜色的数字值。步进电机驱动扫描头沿平台作微增量运动，每移动一步，即获得一行像素值。扫描彩色图像时分别用红、绿、蓝滤色镜捕捉各自的灰度图像，然后把它们组合成为RGB图像。有些扫描仪为了获得彩色图像，扫描头要分3 遍扫描。另一些扫描仪中，通过旋转光源前的各种滤色镜使得扫描头只需扫描一遍。

扫描仪类型按扫描方式分类： ◎手动式 ◎平板式 ◎胶片式 ◎滚筒式按接口方式分类： ◎ SCSI (Small Computer System Interface小型计算机系统接口)接口、 ◎ EPP（Enhanced Parallel Port）增强型并行接口 ◎ 通用串行总线USB接口

扫描仪的主要性能指标： ◎扫描精度这是最重要的技术指标之一，它直接影响到扫描效果。扫描精度常用分辨率来做为定量描述。分辨率表示了扫描仪对图像细节的表现能力，定义为每英寸长度上扫描图像所含的像素点的个数，单位是DPI（Dots Per Inchse），数值越大，精度越高对个人应用来说，300*600 DPI的扫描仪就可满足基本需要了。

◎色彩深度（bit）它是扫描仪所能捕获色彩层次信息的指标，由模数转换电路来决定。位数是由一次扫描过程中R、G、B三原色分别曝光（共三次）来定义的，例如三原色分别为28=256种色彩，则它们的组合色彩为28×28×28=224=16M种颜色，即色彩位为24bit，灰度定义为256阶。一般的色彩精度有24bit、 30bit、32bit和36bit几种。在目前流行的扫描仪产品中， 36bit的扫描仪性能最好，在高性能显卡、高处理速度的计算机和先进图像处理软件的配合下，可以达到完美的效果。 ◎扫描速度是指将一页文稿扫入计算机并完成相应处理共需要的时间。

触摸屏（Touch Screen）是一种采用坐标定位方式的输
2、触摸屏触摸屏（Touch Screen）是一种采用坐标定位方式的输入设备。当用户用手指或其它设备触摸安装在计算机显示器前面的触摸屏时，所摸到的位置（以坐标形式）被触摸屏控制器检测到，并通过串行口或者其它接口送到CPU，从而确定用户所输入的信息。触摸屏可以附在CRT显示器、LCD显示器上。触摸屏的引入主要是为了改善人机交互方式，特别是非计算机专业人员，使用计算机时可以将注意力集中在屏幕上，免除了人们对键盘不熟悉的苦恼。在有的情况下（例如在公共场所的计算机），不希望使用者用鼠标或键盘操作它，只提供在某个应用程序下的操作）。

触摸屏系统一般包括触摸屏控制卡、触摸检测装置和驱
动程序三部分。安装在触摸屏表面前端的触摸检测装置用来检测用户手指的触摸位置，并将相应信息传送给触摸控制卡。触摸控制卡接收从触摸检测装置送来的信息并转换成触点信息再传送给主机，同时还接收主机发送来的命令。触摸屏类型：按工作原理，可把触摸屏分为 ◎红外线式 ◎电阻式 ◎电容式 ◎声表面波式 ◎近场成像触摸屏等类型

5.1.5 多媒体存储技术 1、概述多媒体存储最主要的特点是要考虑多媒体对象的庞大数据量及实时性的要求。目前，大型多媒体文档存储的主要介质是光盘存储系统和高速磁存储器。单机多媒体存储—VCD 采用MPEG-1压缩技术 74min DVD MPEG ~488min 4.7~17GB 为弥补单一盘片容量不足的缺点，又出现了光盘库、冗余磁盘阵列和多媒体数据库等存储方式。

2、光盘库使用光盘库是实现对海量数据的存储的一种很好的选择。光盘库系统是一种带有自动换盘装置（机械手）的光盘存储共享设备，一般由放置光盘的光盘架、自动换盘机构（机械手）和驱动器三部分组成。光盘库系统包含一个或多个光盘驱动器，由精确伺服控制的机电机械手自动升降器机构来在盘片堆栈上的槽和驱动器之间来回移动光盘。当用户访问光盘库时，自动换盘装置首先将驱动器中的光盘取出并放置在指定的盘架位置上，然后将光盘送入驱动器。在盘播放完毕后机械手装置从驱动器上将盘卸下并放回堆栈上它的槽内。在程序控制下，机械手设备可操作和管理多个驱动器。

一套光盘库一般由2～12个盘仓组成，每个盘仓可容纳50
片光盘，最多可以容纳多达600张光盘，总容量可以达到几百 GB甚至TGB。光盘库通过高速SCSI接口与网络服务器连接，光盘驱动器通过自身接口与主机交换数据。当用户需要对光盘中的数据进行访问时，自动换盘装置先将驱动器中的光盘取出并按照要求放置在光盘架指定位置，然后再从光盘架中取出所需要的光盘并送入驱动器中。自动换盘装置的换盘速度迅速，一般是在秒级，光盘库所用的盘片一般是以VCD或DVD 为主。

DVD光盘库的主要特点如下： ◎高容量，每张DVD盘片容量达到5.2GB，总容量达到TGB； ◎检索速度快，换盘时间在秒级，支持跨盘存取；
◎高可靠性，光盘的寿命为100年； ◎与各系统无缝连接，可应用于Windows NT， NetWare，Unix，IBM等系统； ◎安装简便，易于管理。

图5-7 光盘库应用

3、存储区域网络专用高速网将一个或多个网络存储设备和服务器连接起来的专用存储系统。SAN在最基本的层次上定义为互连存储设备和服
存储区域网络（Storage Area Network，SAN）是通过专用高速网将一个或多个网络存储设备和服务器连接起来的专用存储系统。SAN在最基本的层次上定义为互连存储设备和服务器的专用光纤通道网络，它在这些设备之间提供端到端的通讯，并允许多台服务器独立地访问同一个存储设备。 SAN通过单独的高速光纤网络将存储设备和局域网上的服务器群连接起来，数据的存取通过存储区域网在服务器和海量存储设备间进行高速传输。存储区域网络是一种可满足海量（TB～PB数量级）数据存储、大量的I/O吞吐量和高端应用需求的网络式存储技术。应用计算机通过标准的网络（如以太网）连接到SAN的存储设备上。

根本的变化。SAN是一种可以使服务器与大型存储设备（磁盘阵列或磁带库）之间进行任意连接通信的存储网络系统，它通
过一个单独专用的网络将存储设备和服务器连接在一起。由于在SAN中服务器可以和网络中的任何存储设备连接，所以数据存放在何处，服务器都可以直接存取所需要的数据。SAN中的各种设备是分散在网络中的。光纤通道技术可以支持多种网络拓扑结构，使用全双工串行通信原理传输数据，速度快且延迟小。现在，采用光纤通道（FC）技术硬盘存取速度实际上达到200MB/s。光纤通道采用同轴线时的传输距离达到30m，采用单模光纤时的传输距离可以达到10km。

存储区域网络以光纤通道（FC：Fiber Channel）为基
础，实现了存储设备的共享，突破了现有传输距离的限制和存储容量的限制；服务器通过存储网络直接与存储设备交换数据，释放了宝贵的局域网资源。SAN采用光纤通道技术彻底改变了服务器和存储设备之间的连接关系，实现以前无法实现的应用模式。

存储区域网络（SAN）由四部分组成：其结构如图5-7所示。包括终端用户、服务器群、存储系统和光纤通道
用户终端通过局域网和广域网与单独的服务器或服务器群连接。在某些特殊情况下也可以直接通过光纤通道网连到存储设备。在小型和大型网络应用中，服务器以单机或群的方式接入存储区域网络。光纤通道网络是特有的技术，光纤通道是由光纤集线器、光纤交换机等设备组成。存储设备通过光纤通道与服务器群连接。图5-7 存储区域网络结构

SAN所提供的大容量存储设备共享方式可以形成共享数据存
◎实现大容量存储设备的共享和高速的数据传输。 SAN所提供的大容量存储设备共享方式可以形成共享数据存储池，满足当前计算机所要求的海量数据存储要求。由于SAN 采用光纤网，提供了主机与存储设备之间的高速连接，提升了主机系统的存储带宽； ◎连接方便和远距离传输。光纤通道FC技术的采用使SAN的设备连接距离可以达到10km （SCSI只有25m）；

主机与存储设备的分离是当今计算机技术发展的一大趋势。
◎实现主机与存储设备的分离。主机与存储设备的分离是当今计算机技术发展的一大趋势。由于多台服务器共享SAN上的存储设备，大大改善了向服务器分配磁盘空间的方式。存储设备与服务器的分离，使得SAN中的主机、存储设备不但在物理位置的安排上可以十分灵活，而且还可以方便地将各种设备进行逻辑上的划分，还允许用户随时添加应用所需要的存储空间； ◎提高数据的可靠性和安全性。在SAN中可以采用双环方式建立存储设备和计算机之间的多条通路，从而提高数据的可用性。还可以通过建立双机容错、多机集群，实现RAID（Redundant Array of Inexpensive Disk廉价冗余磁盘阵列）检验等方式，进一步保证数据的安全性。

4、多媒体数据库（1）概述多媒体数据库MMDB(Multimedia Database)是由若干个多媒体对像所构成的集合，这些多媒体数据对像是按某种特定的方式组织起来并为其它的具体应用共享。多媒体数据管理系统MMDBMS(Multimedia Database Management System)是以多媒体数据库MMDB为基础的且能完成对多媒体数据库MMDB的各种操作和管理功能的多媒体应用系统。由于多媒体数据自身的特点，如由多种媒体构成且数据量巨大、媒体数据间的不同约束关系、实时性的要求等，使得多媒体数据库系统有别于传统的数据库系统。

关系模型是目前数据库系统中最常用的数据模型之一。关系模型是建立在关系代数的基础之上的，有较为严密的理论基础，其数据结构简洁明了、直观清晰、易学易用。目前大多数数据库管理系统产品均支持关系模型. 关系模型要想存储多媒体数据，就需要进行扩充。非第一范式NF2(Non First Normal Form)数据模型通过对关系模型的扩展来提高关系模型处理多媒体数据的能力。随着近年来面向对象技术的兴起，面向对象技术在数据库中的应用也日益显现出其强大的生命力。这主要是由于面向对象模型能够很好的描述复杂的事物对象，更好的维护复杂对象的语义信息。

（2）多媒体数据库的体系结构多媒体数据库管理系统MMDBMS的体系结构分为三层，即数据库管理层、多媒体数据合成层和交互层。如下图所示。

图5-8 多媒体数据库管理系统体系结构

数据库管理层负责完成对各类媒体对象的维护。多媒体对象是由既相互独立又相互联系的文本、图形、图像、音频或视频等媒体对象构成的一种复合实体，各类媒体对象在复杂程度、数据量和是否具有时域特征等方面存在极大的差异。为了适应这种异构性，数据库管理层利用不同的数据库及数据库管理系统来存储和管理不同类型的媒体对象，即数据库管理层依据不同媒体类型的特点，选用不同的表示、存储和处理媒体对象的手段。数据库管理层可以被进一步划分为物理数据库管理子层和逻辑数据库管理子层，前者主要完成各类媒体对象的物理存储，后者则负责媒体对象的维护以及向外界提供各种数据访问服务。

多媒体数据合成层负责多媒体对象的存储与管理，主要完成表示及维护多媒体对象的合成方式(即各媒体对象如何聚集为多媒体对象)以及各媒体对象之间所具有的各种约束关系，尤其是对时域约束关系的描述信息，这些信息在提取、显示等多媒体数据的操作过程中发挥着重要作用。交互层为用户访问MMDBMS提供所必需的查询、浏览、媒体编辑、数据组织等功能。同其余两层相比，该层的变动性较大，也就是说可以通过不断地引入新的技术来丰富和用户的接口功能。如随着Web技术的成熟与完善，可以利用HTML“超链”的概念，将 MMDBMS中保存的有关空域、时域等约束关系的描述信息嵌入Web主页，从而使用户能够通过统一的Web浏览器，对多媒体记录的内容进行检索和遍历。

5.2.1 超文本技术 5.2 超媒体技术人类对信息的管理经历了文本、超文本和超媒体的三个阶段。
超媒体技术是在超文本技术基础之上结合多媒体技术而发展起来的信息管理与检索技术。 5.2.1 超文本技术人类对信息的管理经历了文本、超文本和超媒体的三个阶段。传统的文本，如一本书、一篇文章、一个文件、一段计算机程序等，它们的共同点是在组织上是线性的和顺序的。这种线性结构体现在阅读文本时必须按固定的顺序一页一页地有次序的进行，读者没有选择阅读内容的余地。然而人类的记忆是层次网状结构，知识的获取采用联想方式，联想检索必然会导致选择不同的路径，并产生不同的结果。因此文本的线性结构在客观上限制了人们自由联想能力的发挥。人类的思维是联想式的，如果信息的组织也具有联想式的非线性的结构，将有助于提高人们获取知识的效率，同时各种信息也会得到充分的利用。

是一种按信息之间的关系非线性的存储、组织、管理和浏览信息的计算机技术。它采用一种非线性
超文本结构类似于人类的这种联想式记忆结构，超文本是一种按信息之间的关系非线性的存储、组织、管理和浏览信息的计算机技术。它采用一种非线性的网状结构组织块状信息，没有固定的顺序，也不要求读者按照某个顺序来阅读。各信息块间按照自然关联关系用有向直线段(链)加以连接，以便于人们联想查找。超文本技术与传统计算机技术的区别在于，它不仅注重所要管理的信息更注重信息间关系的建立和表示。

成。由图中可以看出，超文本结构是由若干内部互联的文本信息块（或其它信息）组成，这些信息块可以是计算机的若干屏、
下图为一完整的小型超文本结构。该结构由六个信息块组成。由图中可以看出，超文本结构是由若干内部互联的文本信息块（或其它信息）组成，这些信息块可以是计算机的若干屏、若干窗口、文件信息或更小的信息单元。这样的信息单元就是超文本结构的一个节点，每个结点可以是一段正文、一个文件、一帧图像(图形)、一幅动画、一段声音或一个窗口等，每个节点不论大小，都会有若干指向其它节点或由其它节点指向该节点的指针，这些指针被称为链，链的数量通常事先不固定。结点之间按它们的自然关联用若干个链连接成网络。

超文本结构实际上就是由结点和链组成的一个网络。因
此在超文本结构中获取信息时，可以通过不同的路径达到目的地。为了防止读者在复杂的信息网络结构中迷失方向，一个超文本系统还要配备有用于节点浏览并防止迷路的交互式工具，即浏览器。利用超文本技术来管理多媒体信息就构成了超媒体。创作和管理超媒体的系统就称为超媒体系统。

5.2.2 超媒体的组成 1、节点（Node）节点是超媒体的信息组成结构中围绕一个特殊的主题组织
节点、链和网络是超媒体系统的基本组成要素。 1、节点（Node）节点是超媒体的信息组成结构中围绕一个特殊的主题组织起来的数据集合，该集合可以是有形的（例如一个数据块），也可以是无形的（如信息空间中的一个部分）。现在的节点可以是各种媒体节点，也可以是数据库、文献等；也可以是动作类节点、组织类节点和推理型节点等。

(1) 媒体类节点：这类节点中存放着各种媒体信息，这些媒体信息可以是文本、图像、图形、视频、动画等，也可以是数据库、文献等。
(2) 动作与操作类节点：动作与操作类媒体是通过按钮来访问的，也被称为按钮节点。由含有特殊功能的按钮组成，每个按钮都可以启动相应的计算机程序，完成特定的操作任务。 (3) 组织型节点：组织型结点主要用于结点的组织和知识的表示。组织型结点包括各种媒体节点的目录和索引节点。 (4) 推理型节点：是用于辅助链的推理和演算，包括对象节点和规则节点。

2、链（自学）链也称为超链，它是固定节点间的信息联系，链以某种形式将一个节点与其它节点连接起来。通常链是有向的，一
般是由3部分构成：链源、链宿和链的属性。

链源是指导致结点信息迁移的原因，链源可以是热字、热区、热点等。热字是在文本结点中特殊符号标注的词组(例如，用颜色或用下划线来标注)。热区是在图形和图像等静态视觉媒体结点中某一用户感兴趣的区域。热点是在具有时间特性的动态混合媒体结点(例如视频、动画、音频等)中某一段时间内的信息，因此，热点需要记录下某段时间内感兴趣信息的起止时间点。链宿是链所指向的目标，在超文本中链宿一般为一个结点。链的属性是指它的类型、版本和权限等。

热标（Hotspot）是确定信息关联的链源，由热标将引起向相关内容的转移。很明显，不同的媒体类型有不同形式的热标。热标的形式主要有以下几种。
在超文本系统中，结点联系的多样性使得链具有多种不同的类型，一般常用的链的类型有以下几种： ◎基本结构链 ◎组织链和推理链 ◎自动链接链和类型链热标（Hotspot）是确定信息关联的链源，由热标将引起向相关内容的转移。很明显，不同的媒体类型有不同形式的热标。热标的形式主要有以下几种。 (1)热字 (2) 热区 (3) 热元 (4) 热点 (5) 热属性

3、网络（自学）超文本是由结点和链构成的信息网络，是一个有向图。这主要是由于超文本中的链都是有方向的，并且都是单方向
的。它类似于人类的联想记忆模型，采用一种非线性的网状结构来组织块状信息。结点之间的联系与依赖通过交互的浏览、探索来实现。网络中的结点的排列没单一的、固定的顺序，因而每一个结点都可以有多种不同的访问方式，由用户根据自己的需要来选择浏览的路径。超文本具有多方面、多层次的表现力，为人们提供了一种全新组织信息的方法。因此，超文本网络在建立信息联系的同时，也表现了设计者的思维轨迹。超文本网络是一种适合于多媒体系统表达和组织的模型。

5.2.3 超媒体系统结构 1.系统结构超媒体系统是指那些能够创作和使用超媒体应用的系统。
一个超媒体系统一般是由创作子系统（作者子系统）、读者子系统（浏览器）和支持子系统组成。

作者子系统向用户提供生成超媒体的多种手段，其中包括编辑器、超媒体语言、媒体编辑工具等。
读者子系统向用户提供使用超媒体的手段，主要是浏览器或导航工具。在超媒体系统的三个组成成分中，支持子系统是实现超媒体服务的关键，对应用来说它是系统应用的内核层。支持子系统能够识别超链的成分，并引导其转向相应的目标节点。在支持子系统中最为重要的是超媒体服务器（也称Web服务器）的建立和维护。 2、多媒体信息交换及标准（略）

图5-9 超媒体系统结构及对应媒体对象

5.2.4 分布式超媒体系统WWW WWW（World Wide Web）也称为万维网。WWW采
用客户/服务器体系结构，支持通过Internet进行访问的分布式超文本。在万维网中，存取的单位是Web页，而它是一个超文本文件。 WWW的客户端软件被称为Web浏览器，为用户提供统一管理各种媒体信息的交互界面，负责向Web服务器发出请求、解释和定位信息资源，利用统一资源定位符 URL(Universal Resource Locator)统一管理网络上的所有资源。Web服务器端软件也称为Web服务器，负责集合多种信息媒体并根据用户的请求作出相应的回应，以统一的文件格式传送给客户端。 Web超文本系统可分为三层，即表现层、超文本抽像机层和超文本信息库层。

表现层：用户接口层，用户计算机上的浏览器完成对表现层的管理
超文本抽象机层：由超文本标记语言HTML和超文本传输协议HTTP组成，完成对节点和链的存储超文本信息库层：由遍布Internet上的服务器组成，负责为网络上其他计算机提供各种信息资源，完成数据的存储和共享以及对网络的访问 WWW被称为第一代网络超媒体信息系统的代表。下一代超媒体是向着智能化超媒体的方向发展。

超文本通信协议HTTP(Hyper Text Transfer Protocol)是在Internet环境下使用万维网(WWW)的标准化协议。浏览器/服务器(Browser/Server)方式是在客户/服务器(Client/Serve)方式基础上发展起来的一种适合于多媒体环境下的一种网络应用结构。它把全世界数以千计的多媒体数据库接入WWW，并以超文本方式链接起一个全球范围内的多媒体数据仓库。用户通过联网的计算机，在http超文本传输协议下，通过Web Browers软件，借助于鼠标器来浏览WWW上的信息，共享Internet上的无限的信息资源，同时也能快速地向外发布内部的信息数据，使世界在空间上进一步缩小。

5.3 多媒体同步技术 5.3.1 多媒体同步概述 1、多媒体同步概述媒体有依赖于时间的媒体（例如视频、音频、动画等）和独立
多媒体系统中集成了具有各种不同时态特性的媒体，这些媒体有依赖于时间的媒体（例如视频、音频、动画等）和独立于时间的媒体（例如文本、静止图像、表格等）。多媒体同步就是保持和维护各个媒体对象之间和各个媒体对象内部存在的时态关系，维持各种媒体序列以实现某种特定的表现任务。

多媒体系统的同步控制必须保证在同步点上各个媒体之间能够保持时间关系。例如, 一个有语音讲解的多媒体幻灯片, 其讲解必须和一组画面同时表现, 且随着画面的显示, 讲解是顺序的。这里的同步点处于画面的改变点和讲解的起始点与结束点。又如, 一个可视电话系统, 其语音和图像序列通过通信网络传输到接收端, 且必须同步地在接收设备上演示, 以保持口型和声音同步。

依赖于时间的媒体也叫时基媒体（连续媒体）
不依赖于时间的媒体也叫非时基媒体（非连续媒体）。我们可以这样来描述多媒体同步：多媒体同步就是保持和维护各种媒体对象之间以及各种媒体对象内部所存在的时态关系，维持各种媒体序列来达到某种特定任务的目的。

2、多媒体同步分类从类型上来划分，多媒体的同步类型分为上层同步、中层同步和底层同步。上层同步也称为表现级同步或交互同步、应用层同步,即用户级同步。在这一级，用户可以对各个媒体进行编排，由此决定何种媒体何时以何种时空关系表现出来。这一类同步是从用户应用的角度出发而进行的同步，重点在于表现与交互。这要求同步过程既能体现用户的交互性，又要容易被用户理解和使用。上层同步的同步机制是由多媒体信息中的脚本信息提供的。在实际的多媒体应用中，它是一种事件驱动同步，发生在系统中某一节点需要起始动作的情况下。此动作的发生即同步点，如文献中的特定点、用户鼠标的动作点、系统设备到达某特定状态等。

同样，对于多媒体表现，各媒体以何种时间关系和空间关系在屏幕上呈现给用户，可以用类似电影剧本的“脚本”方式来组织。这便是多媒体表现的脚本模型。脚本，就是把用户对多媒体表现形式(结合其交互参与行动)的意图与构思，最终像电影剧本一样，“一场一场”地表示出来。场次的控制加入了用户的交互件。例如，选择不同的按钮(或菜单)，会导致不同场次的继续。这也正是多媒体脚本不同于一般电影剧本的主要特征，即由于交互性的参与，脚本的场次流程是非单一路径、非线性的，它可以有多条路径，也可以有逆路径（即返回）。

中层同步是信息合成同步，即不同媒体类型的数据之间的合成，所以，合成同步又称为“媒体之间的同步”。这层同步涉及到不同类型的媒体数据，侧重于它们在合成表现时的时间关系的描述。如在可视电话中，音频和视频必须始终同步地表现在接收端上，以确保口形与声音的同步。这时媒体之间的同步，除了数据的开始点和结束点必须保证以外，从开始点到结束点的整个过程中均要求保持同步。

底层同步即系统同步，也称为媒体内部同步。该层同步是要完成合成同步所描述的各媒体对象内数据流间的时序关系，这要根据具体多媒体系统性能参数来进行。在单机多媒体情况下，同步技术要考虑计算机的读盘时间、图像的显示速度和处理速度；这和磁盘的存取速度、视频适配器和中央处理器的处理能力有关。在网络传输的情况下，要考虑网络的延迟、无法预料的网络阻塞等因素。这些因素可能影响媒体内部的同步，造成单一连续媒体（音频或视频信息）在传输和播放时的稳定性较差，也可能影响媒体间的同步，造成各个媒体间的配合出现障碍。为解决这些问题，引出了同步协议的设计和各种相应的同步技术。

3 影响媒体同步的因素 从媒体关系的角度出发，媒体对象的同步包括两个方面：媒体内同步和媒体间同步。媒体内同步主要是维持一个媒体流内部各信息单元的连续性；媒体间同步主要是维持多个相关媒体流中媒体单元间的时间关系。媒体同步关系主要受以下因素的影响：媒体间时延偏移、网络抖动、端系统抖动、时钟漂移和网络条件变化。

媒体间时延偏移：由于各个相关媒体流可能来自不同的信源，每个信源所处的地理位置可能不同，每个媒体流选择的信道也不同，因此各个媒体流的时延也不同，这就是媒体间的时延偏移，这些偏移使媒体间的时间关系发生变化。解决办法可以通过在信宿端设置缓存加以补偿，也可使各个媒体流在不同时刻发送，但须保证在经历了不同时延后能够同时到达接收端。后者特别适合存储数据，能够充分利用存储数据的灵活性，大大节省信宿端缓存。此外还可以将这两种方法配合使用。 

延时抖动：抖动定义为最大时延与最小时延的差，也即时延的变化。网络抖动是指数据包从发送方到接收方网络I／O设备的传输过程中所经历的时延变化，这是由中间节点的缓存引入的。端系统抖动是指端系统中引起的时延变化，这些变化主要是由于系统负荷的改变以及媒体单元在各个协议层的打包拆包。抖动通常是在信宿端通过采用弹性缓冲区来补偿的。 

时钟漂移：连续媒体的捕获、重新生成和播映都是由端系统时钟来驱动的。一般来说，不能假定所有时钟同步。由于温度的变化或晶体振荡器本身的缺陷，在经过了较长一段时间后，端系统的时钟频率会发生变化，其结果是与真实时间或其他时钟产生偏移，时钟漂移的问题可以通过在网络中使用时间同步协议来解决，例如，网络时间协议(NTP)为它的用户提供一个全网(虚拟)时钟。如果忽略时钟漂移，在较长一段时间后，客户端的缓存就会发生上溢或下溢。

网络条件变化：网络条件的变化不是由抖动引入的，它是指网络连接性质的变化。例如，平均时延的改变或媒体单元丢失率的增高。 —般地，多媒体数据的传输都是利用无证实的数据报服务，数据报服务是—种不可靠的服务，不时会发生媒体单元丢失的事件。处理丢失单元的同步机制是重复播映前一个媒体单元的内容。

5．3．2 多媒体数据（自学） 1、多媒体数据媒体数据指的是文本、图形、图像、动画、语音和视频图像对应的数据，而多媒体数据是由这些相互关联的数据构成的一个复合信息实体。多媒体数据的形成过程就是在多媒体计算机的控制下多种媒体数据的合成过程。这些媒体数据，有些是实时的有些是非实时的。其中，有着严格时间关系的音频、视频和动画等类型的数据称为实时媒体数据或连续媒体数据。其他类型的数据称为非实时媒体数据或静态媒体数据。一般说到多媒体数据时至少要包含一种实时媒体数据和一种非实时媒体数据。

例如，对于符合H.261标准的视频码流，一个LDU可以是一个宏块、一个宏块组、一帧图像或几帧图像构成的一个场景，如图5-10所示。
连续媒体数据可以看作是由逻辑数据单元LDU构成的时间序列，也叫数据流。LDU的内容不是固定的，可以由具体的应用、编码方式、数据的存储方式和传输方式来决定的。例如，对于符合H.261标准的视频码流，一个LDU可以是一个宏块、一个宏块组、一帧图像或几帧图像构成的一个场景，如图5-10所示。图5-10 H.261码流中LDU的划分

连续媒体数据的各个LDU之间存在着固定的时间关系。例如，以一帧图像为一个LDU，对25帧/s的帧率来说，则相继的LDU之间的时间间隔为40ms，如图5-11所示。这种时间关系是在数据获取时确定的，而且要在存储、处理、传输和播放的整个过程中保持不变，一旦这种时间关系发生变化，就会损伤媒体显示的质量，比如会产生图像的停顿、跳动或声音的间断。在静态媒体数据内部则不存在这种时间关系。图5-11 连续媒体LDU之间的相对时间关系

2、多媒体数据约束关系在多媒体数据中，各种媒体数据对象之间并不是相互独立的，它们之间存在着许多种相互制约的同步关系。反之，如果媒体对象之间毫无联系，则这些媒体所构成的集合不能称为多媒体对象。多媒体数据的约束关系有三种：基于内容的约束关系空域约束关系时域约束关系

基于内容的约束关系描述的是不同媒体对像是同一数据内容的不同表现形式而在媒体之间所具有的一种约束关系。如对于同样的数据进行分析，可以以不同的形式表现出来，如报表、柱状图和饼状图等，即同样的数据以不同的方式表达。空域约束关系也称为布局关系，它定义了多媒体数据显示过程中某个时刻，不同媒体对像在呈现媒体上的空间位置关系。空域约束关系是排版系统、电子出版著作系统首先要解决的问题。如在桌面出版系统中，空域关系通常表达为布局框架。布局框架生成后，就可往该框架中填入相应的内容。布局框架在文档中的位置既可固定于文档的某一点，也可固定于文档的某一页，并且可相对于其他布局框架来说明位置。

时域约束关系是多媒体数据对像的时域特征，它定义了媒体对像在时间上的相互依赖关系。主要表现在两个方面：
媒体内同步：连续媒体对象的各个LDU之间的相对时间关系；媒体间同步：各个媒体对象之间（包括连续媒体之间以及连续媒体和非连续媒体之间）的相对时间关系。

媒体内同步即流内同步，是要维持单个媒体数据流内各个信息单元的连续性，表现为媒体流的连续性，以满足人们对媒体感知上的要求。媒体流内部同步的复杂性不仅和单个媒体的种类有关，而且也和分布式系统所提供的服务质量QoS有关；同时也和源端和目的端的操作系统的实时性有关。媒体间同步即流间同步，主要是保证不同媒体数据流间的时间关系，如音频和视频流之间的时态关系，音频和文本之间时态关系等，表现为各个媒体数据流中在同步点上的同时播放。媒体流之间同步的复杂性与需要同步的媒体流的数量有关。

在这三种约束关系中，时域约束关系最为重要。当多媒体数据在表现时的时域特征遭到破坏时，用户就可能遗漏或误解多媒体数据所要表达的信息内容。由此可知，时域特征是多媒体数据语义的一个十分重要的组成部分，时域特征遭到破坏也就是多媒体数据语义的完整性受到破坏。

不同媒体对象之间的相对时间关系可以用下图来说明。图中，一段文字、声音和视频图像同时开始和结束，紧接着三幅静止图像出现，紧接着播放一段动画，并在动画播放期间插入另一段声音。

不同媒体对象之间的约束关系实例

5．3．3多媒体时域特征表示（自学） 1、时域场景及时域定义方案时域特征的表示过程可以用下图来表示。一个时域场景是由若干时域事件构成，其中的每一个时域事件都是与多媒体数据在时域中发生的某个具体动作相对应的。这些具体动作可以是开始播放、暂停、结束播放、恢复播放等。

时域事件的发生可以是在某个时刻瞬间完成的，也可以是持续一段时间完成。如果一个时域事件在时域场景中的时间位置是完全确定的，该事件就称为确定性事件，否则就称为非确定性事件。例如，暂停、恢复播放等事件，其在时域场景中的位置是不能固定的，要根据实际用户的使用情况来确定。由确定性时域事件构成的时域场景为确定性时域场景，包含有非确定性时域事件的时域场景为非确定性时域场景。在将一个多媒体数据对象进行抽象并转变为一个时域场景后，需要利用某种时间模型对此时域场景加以描述。时间模型是对数据进行抽象描述的数据模型，它是由若干基本部件和部件的使用规则组成。

所采用的时间模型不同，得到的同步描述数据也就不会完全相同。建模的结果再通过某种形式化语言转化为形式化描述，这种形式化描述数据就是同步描述数据。时间模型及其相应的形式化语言合称为时域定义方案。除了同步描述数据外，还需要考虑同步机制提出必要的服务质量要求，这种要求是用户和同步机制之间在应当以何种准确程度来维持时域特征方面所达成的一种质量约定。这种约定就是前面所说的同步容限。最后，描述数据和同步容限相结合就构成了在计算机内部对多媒体数据时域特征表示。

确定性时域场景和非确定性时域场景

时域参考框架是由多媒体场景、时域定义方案和同步机制三个部分构成。如图6-5所示。它是研究多媒体同步问题的一个很好的基础。
2、时域参考框架时域参考框架是由多媒体场景、时域定义方案和同步机制三个部分构成。如图6-5所示。它是研究多媒体同步问题的一个很好的基础。图6-5 时域参考框架

多媒体场景是对多媒体数据在时间特征和空间特征抽象的结果，反映了多媒体数据在相关方面所具备的语义。时域场景是多媒体场景的一个重要组成部分，是参考框架中时域定义方案要处理的对象。时域定义方案是在计算机系统内为时域场景建模并对建模结果进行形式化描述的方法，由时间模型和形式化语言两部分构成。前者为时域定义方案的语义部分，后者为语法部分。通过时域定义方案，把时域场景转化为同步描述数据。同步描述数据是同步机制处理的对象。同步机制是一种服务过程，它能够了解同步描述数据所定义的时域特征，并根据用户所要求的同步容限，完成对该特征的维护（在运行过程中保证时域特征不遭到破坏）。

基本时间单位用来表示一个时域场景中所发生的事件，时间单位可以分为时刻和间隔两种类型，可以用时刻来表示时域事件，也可以用间隔来表示时域事件。
3、描述时域特征的时间模型（1）时间模型的构成一个时间模型由基本时间单位、关联信息（Contextual information）和时间表示技术三个部分组成。基本时间单位用来表示一个时域场景中所发生的事件，时间单位可以分为时刻和间隔两种类型，可以用时刻来表示时域事件，也可以用间隔来表示时域事件。

关联信息反映了时域事件的组织方式，可以分为定量关联信息和定性关联信息两类。在定量关联信息的时间模型中，认为时域场景中的各个时域事件是相互独立的，因而可以单独地描述每一个时域事件在时域场景中的位置，从而间接地反映各个事件间的关系。在定性关联信息的时间模型中，认为时域场景中的各个时域事件是彼此关联的，因此在关联信息中所包含的是对时域事件约束关系的描述。有些时间模型的定性关联信息中包含了对事件之间时域关系的描述，主要分为两个时刻之间的基本时域关系和两个间隔的时域关系。

两个时刻之间的基本时域关系有三种，包括：
之前（before）、之后（after）和同时（at-the-same-time），如图6-6所示。对于确定性时域场景，任意两个时刻之间只有一种基本时域关系。图6-6 两个时刻之间的基本时域关系

两个间隔之间的基本时域关系总共有13种，其中6种关系可由其它关系的逆来表示（例如after和before互逆），还有一种是等价的（equals和其逆），因此只需要研究其中的7种时域关系，即before、meets、overlaps、during-1、starts、finishes-1和equals，如图6-7所示。图6-7 两个间隔之间的基本时域关系

（2）时间模型的分类根据基本时间单位、关联信息和时间表示技术这三个构成成分的具体内容，可以将时间模型分为5类，即定量定期型、定性定期型、定性时刻型、定性间隔型和定量间隔型。

定性定期型时间模型的基本时间单位是时刻，关联信息是表示次序的定性关联信息，时间表示技术为伪定期方式。虚轴模型是一种比较常见的定性定期型时间模型，其关联信息包含的是非确定性时域事件的全排序信息。可以把这种模型视为对时间轴模型的扩展，具有较强的表示非确定性时域场景的能力。所采用的时间轴可以是物理的计时单位，因此也称为物理时间轴；也可以采用逻辑计时单位，称为逻辑时间轴。可以采用不只一条时间轴来进行描述。

定性时刻型时间模型的基本时间单位是时刻，其关联信息是时刻间时域关系的定性关联信息，个别情况下也可以包含定量关联信息，其时间表示技术为约束传播方式。萤烛（Firefly）模型是一种典型的定性时刻时间模型。定性间隔型时间模型的基本时间单位为间隔，其关联信息是间隔时域关系的定性关联信息，时间表示技术为约束传播方式，有时也可以包含定量关联信息。对象合成Petri网（Object Composition Petri Net，OCPN）是一种典型的定性间隔时间模型。其定性关联信息包含的是两个时间间隔间基本的时域关系描述，该模型不具有表示非确定性时域场景的能力。定量间隔型时间模型的基本时间单位是时间间隔，关联信息是定量信息（时间间隔的宽度）和定性信息（间隔排序信息）。

时域参考框架

4、同步容限在实际工作中，多媒体系统总存在着一些影响准确恢复时域场景的因素，例如其他进程对CPU的抢占、缓冲区不够大、传输带宽有限等，这些因素的存在常常会导致在恢复后的时域场景中时域事件间的相对位置发生变化，称这种变化称为事件间偏差，如图6-8所示。事件间的偏差

属于同一媒体对象的时域事件之间的偏差称为对象内偏差，不同媒体对象的时域事件之间的偏差为对象间偏差。偏差的存在必然会造成多媒体同步质量的降低，偏差的大小对同步质量的影响也有所不同。
同步容限是用户与同步机制之间就偏差的许可范围所达成的协议。同步容限包含了用户对偏差许可范围的定义，同步机制则需依据同步容限，保证在恢复后的时域场景中，事件间的偏差在其许可范围之内。由于很难找到定义偏差许可范围的客观标准，通常采用的方法是主观评估。由主观评估所得到的大致许可范围如表6-1所示。

表6-1 媒体间偏差的许可范围媒体条件许可范围（ms）视频动画相关 ±120 音频唇音同步（Lip-syn） ±80 图像
重叠显示 ±240 不重叠显示 ±500 文本紧密耦合（立体声） ±11 宽松耦合（会议中来自不同参加者的声音）宽松耦合（背景音乐）紧密耦合（音乐与乐谱） ±5 宽松耦合（幻灯片）字幕

5.3.4 多媒体同步的四层参考模型媒体同步模型用来从整体上描述多媒体同步，以利于媒体同步处理。其主要目的是用于表征多种媒体之间的时序关系。对于多媒体通信应用来说，同步是建立在不同层次的基础上，通过层次化分析来理解各种相关的因素，从而找出能够满足要求的解决方法。多媒体同步的四层参考模型如图6-11。四层模型由规范层、对象层、流层和媒体层构成。在实际的多媒体系统中，同步机制往往不是作为一个独立的部分存在，而是分散在传输层之上的各个模块中，因此在实际系统中不一定能够清晰地看到图示的层次。四层参考模型的意义在于它规定了同步机制的层次及各层所应完成的主要任务。

图6-11媒体同步的四层参考模型与时域参考框架

按层次的划分从上而下来看，由多媒体应用生成时域场景，时域场景是规范层的处理对象。由对象层、流层和媒体层构成了时域参考框架中的同步机制。规范层处理的核心是时域定义方案，其接口可以为用户提供利用多媒体时间模型描述媒体数据时域约束关系的工具，例如同步编辑器、多媒体文档编辑器和著作编辑系统等。规范层产生的同步描述数据和同步容限，经过对象层的适当转换后进入到同步机制。

在层次参考模型中，每一层都有对应的数据处理对象，同步参考模型体现了不同层次上对同步的要求，每一层实现一个由适当的接口提供的同步机制，这些接口可以用于定义和保证时间关系。

5．3．5 同步多媒体集成语言SMIL SMIL（Synchronized Multimedia Integrated Language）从语言的构成来看，SMIL与现在网上使用的HTML语法格式非常的相似。HTML只是对普通的网络媒体文件进行简单的机械性操纵，而SMIL则可以操纵多媒体片断，可以对多媒体片断进行有机的、智能组合。 SMIL的主要特点如下： *避免使用统一的包容文件格式，不需要将多个媒体文件整合成一个文件来处理。 *可以同时播放在不同地点（不同服务器）上的多媒体片断。 *时间控制，可以对视频、动画等进行时间控制，而不需要用编辑软件来剪辑。

多媒体通信技术主讲教师：黄玉兰　　　　　　　　　　　　　　　　学时：16.

Similar presentations

Presentation on theme: "多媒体通信技术主讲教师：黄玉兰　　　　　　　　　　　　　　　　学时：16."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

多媒体通信技术 主讲教师：黄玉兰 学时：16.

Similar presentations

Presentation on theme: "多媒体通信技术 主讲教师：黄玉兰 学时：16."— Presentation transcript:

Similar presentations

About project

反馈

多媒体通信技术主讲教师：黄玉兰　　　　　　　　　　　　　　　　学时：16.

Presentation on theme: "多媒体通信技术主讲教师：黄玉兰　　　　　　　　　　　　　　　　学时：16."— Presentation transcript: