1.1 多媒体的基本概念 1.2 媒体的类型 1.3 多媒体系统的关键技术 第1章 多媒体技术概述 1.1 多媒体的基本概念 1.2 媒体的类型 1.3 多媒体系统的关键技术
1.1 多媒体的基本概念 1.1.1 媒体与多媒体 媒体 媒体(Medium),在一般意义上是指承载信息的载体。按照ITU-T(国际电信联盟,原CCITT,国际电报电话咨询委员会)建议的定义,媒体有以下五类:感觉媒体,是指用户接受信息的感觉形式,如视觉、听觉、触觉等;表示媒体,是指信息的表示形式,如图像、音频信号、视频信号等;
显示媒体(又称表现媒体),是指表现和获得信息的设备,如显示器、打印机、音响、摄像机等;存储媒体,是指存储数据的设备,如光盘、硬盘等;传输媒体,是指传输数据的设备,如电缆、光缆、电磁波、交换设备等。在计算机领域,多媒体技术是指表示媒体,主要研究多种媒体的表示和表现技术。 2. 多媒体 多媒体(Multimedia)就是多种媒体的结合。多媒体技术就是进行多种媒体综合的技术。进一步说,多媒体技术就是以计算机技术为基础,能够对多种媒体信息进行采集、编码、存储、传输、处理和表现,综合处理多种媒体信息并使之建立有机的逻辑联系,集成为一个系统并能具有良好的交互性的技术。 多媒体技术是一个广泛的领域,除计算机技术外,还涉及到电视技术、广播技术、网络通信技术以及印刷出版技术等。多媒体技术的核心问题是要将多种技术综合、集成并进行交互。
由于多媒体信息载体的多样性、人与设备的交互性以及系统的集成性,使多媒体技术也具有相应的特性。 1.1.2 多媒体技术的特点 由于多媒体信息载体的多样性、人与设备的交互性以及系统的集成性,使多媒体技术也具有相应的特性。 1. 信息载体的多样性 计算机处理信息已经由数值、字符以及文本发展到音频信号、静态或动态的图形和图像信号,这就使计算机具备了处理多媒体信息的能力,计算机也从传统的以处理文本信号为主的计算机发展成为多媒体计算机。计算机不仅能够获取(输入)多媒体信息,而且还能处理并表现(输出)多媒体信息,这大大改善了人与计算机的界面,使得计算机变得越来越符合人的自然能力。尽管如此,计算机的能力仍然处于低级水平。
2. 人机交互性 多媒体技术不仅可以显示多媒体信息,而且还可以向用户提供交互式使用、加工和控制信息的手段,从而提高人对信息表现形式的选择和控制能力,充分发挥人对信息表现形式的综合创造能力。 多媒体技术引入交互性后,人在系统中就不只是被动地接受信息,而是参与了数据转变为信息、信息转变为知识的过程。通过交互,人们可以获得所关心的内容,从而获取更多的信息;通过交互,可以对某些事物的运动过程进行控制,可以获得奇特的效果,例如快放、慢放、变形等;对一些娱乐性的应用,人们甚至还可以介入到剧本的修改、编辑之中,更增加了用户的参与性。
从多媒体数据库中进行文字、声音、图片的检索,这是多媒体技术的初级应用;通过交互,使用户介入到信息的加工处理过程之中,这是多媒体应用的中级水平;多媒体技术进入虚拟现实(Virtual Reality),并融入人类的智能活动,才是多媒体技术最终的发展方向,这也是无止境的技术进步。 3. 多媒体系统的集成性 应用多媒体技术可以把多种媒体信息和多种媒体设备集成到一个系统中。各种单一的信息和技术,如图像处理技术、音频处理技术、电视技术、通信技术等,只有通过多媒体技术集成为一个综合、交互的系统,才能实现更高的应用境界,如电视会议系统、视频点播系统以至虚拟现实系统等。
从单一的技术到多媒体集成系统是技术上的飞跃。因为多媒体系统建立在一个大的信息环境之上,信息的多种媒体表现形式,系统设备的复杂性和统一性,将融合为一个整体。从硬件来说,应该具有能够处理各种媒体信息的高速及并行处理系统、多媒体中央处理器、大容量存储系统、高速多通道输入/输出系统以及高速远程多媒体通信网络;从软件来说,应该具备集成的、一体化的具有多媒体功能的操作系统、多媒体数据库管理系统、多媒体创作工具和开发软件以及各种应用软件。 4. 信息处理的实时性 在许多应用场合,对多媒体系统提出了实时性要求。所谓实时性,是指在人的感觉系统允许的情况下进行多媒体处理和交互。图像和声音既是同步的也是连续的。实时多媒体系统应该把计算机的交互性、通信的分布性和电视、音频的真实性有机地结合在一起,达到人和环境的和谐统一。
多媒体媒体元素是指多媒体应用中可显示给用户的媒体形式,主要有文本、图形、图像、声音、动画和视频图像等。 1.2 媒体的类型 1.2.1 常用媒体元素 多媒体媒体元素是指多媒体应用中可显示给用户的媒体形式,主要有文本、图形、图像、声音、动画和视频图像等。 1. 文本(Text) 文本是计算机文字处理程序的基础,由字符型数据(包括数字、字母、符号)和汉字组成,它们在计算机中都用二进制编码的形式表示。
计算机中常用的字符编码是ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),它用1个字节的低7位(最高位为0)表示128个不同的字符,包括大小写各26个英文字母,0~9共10个数字,33个通用运算符和标点符号,以及33个控制代码。 汉字相对西文字符而言其数量比较大,我国《信息交换使用汉字编码集》即国标码规定:一个汉字用两个字节表示,由于字节只用低7位,最高位为0,因而为了与标准的ASCII码兼容,必须避免每个字节的7位中的个别编码与计算机的控制字符冲突。
由于国标码每个字节的最高位都是“0”,与国际通用的ASCII码无法区分,因此,在计算机内部汉字全用机内码表示。机内码就是将国标码的两个字节的最高位设定为“1”。 在文本文件中,如果只有文本信息,没有其他任何格式信息,则称该文本文件为非格式文本或纯文本文件。 2. 图形(Graphic) 在计算机科学中,图形一般指用计算机绘制(Draw)的直线、圆、圆弧、矩形、任意曲线和图表等。图形的格式往往是一组描述点、线、面等几何图形的大小、形状及其位置、维数的指令的集合。例如:line(x1,y1,x2,y2)表示点(x1,y1)到点(x2,y2)的一条直线;circle(x,y,r)表示圆心为(x,y),半径为r的一个圆等等。在图形文件中,只记录生成图的算法和图上的某些特征点的图形称为矢量图形。
通过软件可以将矢量图形转换为屏幕上所显示的形状和颜色,这些生成图形的软件通常称为绘图程序。图形中的曲线是由短的直线逼近的(插补),封闭曲线还可以填充着色。通过图形处理软件,可以方便地将图形放大、缩小、移动和旋转等。图形主要用于表示线框型的图画、工程制图、美术字体等。绝大多数计算机辅助设计软件(CAD)和三维造型软件都使用矢量图形作为基本图形存储格式。 微机上常用的矢量图形文件有.3DS(3D造型)、.DXF(CAD)、.WMF(桌面出版)等。图形技术的关键是制作和再现,图形只保存算法和特征点,占用的存储空间比较小,打印输出和放大时图形的质量较高。
3. 图像(Image) 图像是指由输入设备录入的自然景观,或以数字化形式存储的任意画面。静止图像是一个矩阵点阵图,矩阵的每个点称为像素点,每个像素点的值可以量化为4位(15个等级)或8位(255个等级),表示该点的亮度,这些等级称为灰度。若是彩色图像,R(红)、G(绿)、B(蓝)三基色每色量化8位,则称彩色深度为24位,可以组合成224种色彩等级(即所谓的真彩色);若只是黑白图像,每个像素点只用1位表示,则称为二值图。上述矩阵点阵图称为位图。
图像文件在计算机中的表示格式有多种,如BMP、PCX、TIF、TGA、GIF、IPG等,一般数据量比较大,对于图像,主要考虑分辨率(屏幕分辨率、图像分辨率和像素分辨率)、图像灰度以及图像文件的大小等因素。 随着计算机技术的进步,图形和图像之间的界限已越来越小,这主要是由于计算机处理能力的提高。无论是图形或图像,由输入设备扫描进计算机时,都可以看作一个矩阵点阵图,但经过计算机自动识别或跟踪后,点阵图又可转变为矢量图。因此,图形和图像的自动识别,都是借助图形生成技术来完成的,而一些有真实感的可视化图形,又可采用图像信息的描述方法来识别。图形和图像的结合,更能适合媒体表现的需要。
4. 视频(Video) 若干有联系的图像数据按一定的频率连续播放,便形成了动态的视频图像。视频图像信号的录入、传输和播放等许多方面继承于电视技术。 国际上,电视主要有3种体制,即正交平衡调幅制(NTSC)、逐行倒相制(PAL)和顺序传送彩色与存储制(SECAM),当计算机对视频信号进行数字化时,就必须要在规定的时间内(如1/25秒或1/30秒)完成量化、压缩和存储等多项工作。视频文件的格式有.AVI、.MPG、.MOV等。 动态视频对于颜色空间的表示可以有R、G、B(红、绿、蓝)三维彩色空间,Y、U、V(Y为亮度,U、V为色差),H、S、I(色调、饱和度、强度)等多种,可以通过坐标变换相互转换。
对于动态视频的操作和处理除了在播放过程中的动作和动画外,还可以增加特技效果,以增强表现力。动态视频的主要参数有帧速、数据量和图像质量等。 5. 音频 数字音频可分为波形音频、语音和音乐。波形音频实际上已经包括了所有的声音形式,通过对音频信号的采样、量化可将其转变为数字信号,经过处理,又可恢复为时域的连续信号。语音信号也是一种波形信号。波形信号的文件格式是.WAV或.VOC文件。音乐是符号化了的声音,乐谱可转化为符号媒体形式,对应的文件格式是.MID或.CMF文件。 对音频信号的处理,主要是编辑声音和声音的不同存储格式之间的转换。多媒体音频技术主要包括音频信号的采集、量化、压缩/解压以及声音的播放。
影响数字音频信号质量的因素主要有三个: (1) 采样频率。采样频率fs应该符合采样定理的要求,即fs≥2fm,其中fm为音频信号的最高频率成分。 (2) 量化精度。量化精度即每次采样的信息量,也就是A/D(模/数)转换的位数。位数越多,音质越好。 (3) 通道数。通道数就是表示声音产生的波形数,一般分为单声道和立体声道。立体声道更具真实性,但数据量较大。
6. 动画(Animation) 动画就是运动的图画,是一幅幅按一定频率连续播放的静态图像。由于人眼有视觉暂留(惯性)现象,因而这些连续播放的静态图像视觉上是连续的活动的图像。计算机进行动画设计有两种方式:一种是造型动画,一种是帧动画。造型动画就是对每个运动的物体分别进行设计,对每个对象的属性特征,如大小、形状、颜色等进行设置,然后由这些对象构成完整的帧画面。帧由图形、声音、文字、调色板等造型元素组成,动画中每一帧图的表演和行为由制作表组成的脚本控制。帧动画则是一幅幅位图组成的连续画面,每个屏幕显示的画面要分别设计,将这些画面连续播放就成为动画。
为了节省工作量,计算机制作动画时,只需完成主动作画面,中间画面可以由计算机内插完成,不运动的部分直接拷贝过去,与主动作画面保持一致。当这些画面仅是二维的透视效果时,就是二维动画。如果通过CAD制造出立体空间形象,就是三维动画;如果加上光照和质感而具有真实感,就是三维真实感动画。计算机动画文件的格式有.FLC、.MMM等,制作动画必须应用相应的工具软件。
1.2.2 媒体的种类和特性 人类利用视觉、听觉、触觉、味觉和嗅觉感受各种信息。其中通过视觉得到的信息是最多的,其次是听觉和触觉,三者得到的信息达人类感受到的信息的95%。在按ITU-T建议定义的五种媒体类型,即感觉媒体、表示媒体、显示媒体、存储媒体和传输媒体中,在多媒体技术中研究的媒体主要是表示媒体。 1. 表示媒体的种类 1) 视觉媒体 视觉媒体包括位图图像、矢量图形、动画、视频、文本等,它们通过视觉传递信息。
2) 听觉媒体 听觉媒体包括波形声音、语音和音乐等,它们通过听觉传递信息。 3) 触觉媒体 触觉媒体就是环境媒体,温度、压力、湿度及人对环境的感觉,它们通过触觉传递信息。 2. 媒体的性质 1) 各种媒体的传递信息 文本信息表现概念和细节;图形表达直观的信息;视频信息表现真实的场景;声音信息通过听觉传递信息;触觉信息则传递周围环境的信息以及系统对环境的反映。
各种媒体都从不同的侧面,并相互补充,综合反映自然信息,以不同的格式在计算机中进行存储、传递和处理。 2) 媒体的空间性质 媒体的空间定义,一方面是指信息自身的空间概念,另一方面是各种媒体之间关系的空间意义。视觉空间、听觉空间、触觉空间三者既相互独立又相互结合。视觉空间的内容通过显示器、摄像机进行采集和表现;听觉空间通过拾音器、扬声器进行获取和表现;触觉空间则通过传感器和伺服机构进行采集和表现。三者的结合就能在一定程度上仿真人与环境的关系。 3) 媒体的时间性质 媒体的时间性质包括各种媒体信息随时间的变化和多种媒体之间的时间关系。多种媒体信息的运动变化都是时间的函数。
1.3 多媒体系统的关键技术 多媒体技术几乎涉及到信息技术的各个领域。对多媒体的研究包括对多媒体技术的研究和对多媒体系统的研究。对于多媒体技术,主要是研究多媒体技术的基础,如多媒体信息的获取、存储、处理、信息的传输和表现以及数据压缩/解压技术等。对于多媒体系统,主要是研究多媒体系统的构成与实现以及系统的综合与集成。当然,多媒体技术与多媒体系统是相互联系、相辅相成的。另外,对多媒体制作与表现的专门研究,则更多地属于艺术的范畴,而不是技术问题,这是与艺术创作和艺术鉴赏紧密联系在一起的。本书主要讨论多媒体技术的原理和应用。
1. 存储与传输技术 由于多媒体信息特别是音频信息、图形图像信息的数据量大大超出了文本信息,因而存储和传输这些多媒体信息需要很大的空间和时间。解决的办法是必须建立大容量的存储设备,并构成存储体系。硬盘存储器和光存储技术的发展,为大量数据的存储提供了较好的物质基础。目前,硬盘和光盘的容量已达10 GB以上。硬盘由于采用密封组合磁盘技术(温彻斯特技术)而取得了突破性的进展,光盘驱动器不仅容量增加,而且数据传输速率也可望达到或超出硬盘机的水平。 计算机系统结构采用多级存储(高速缓存(Cache)、主存储器(M)和外存储器)构成存储系统,解决了速度、容量和价格的矛盾,为多媒体数据存储提供了较好的系统结构。
2. 压缩和解压缩技术 为了使现有计算机(尤其是微机)的性能指标能够达到处理音频和视频图像信息的要求,一方面要提高计算机的存储容量和数据传输速率,另一方面要对音频信息和视频信息进行数据压缩和解压。对人的听觉和视觉输入信号,可以对数据中的冗余部分进行压缩,再经过逆变换恢复为原来的数据。这种压缩和解压,对信息系统可以是无损的,也可以是有损的,但总要以不影响人的感觉为原则。数据压缩技术(或数据编码技术),不仅可以有效地减少数据的存储空间,还可以减少传输占用的时间,减轻信道的压力,这一点对多媒体信息网络具有特别重要的意义。
3. 多媒体软硬件技术 大容量光盘技术、硬盘技术、高速处理计算机、数字视频交互卡等技术的开发,直接推动了多媒体技术的发展。多媒体计算机系统的数据存储、数据处理、输入/输出和数据管理,包括各种技术和设备都是与多媒体技术相关的。在硬件方面,各种多媒体外部设备已经成了标准配置,如光盘驱动器、声音适配器、图形显示卡等;计算机CPU也加入了多媒体处理和通信的指令系统(MultiMedia eXtention,MMX),大大扩展了计算机的多媒体功能;扫描仪、彩色打印机、彩色绘图机、数码相机、电视机顶盒等一大批具有多媒体功能的设备已配置到计算机系统中。
在软件方面,随着硬件的进步,多媒体操作系统编辑创作软件、通用或专用开发软件以及大批多媒体应用软件,极大地促进了多媒体技术的发展。多媒体技术的发展也极大地促进了计算机软硬件技术、数据通信和计算机网络以及计算机图形图像处理技术的发展。 4. 多媒体数据库技术 多媒体的信息数据量巨大,种类格式繁多,每种媒体之间的差别也很大,但它们之间又具有种种关联,这些都给数据和信息的管理带来许多困难,因此,传统的数据库已不能适应多媒体数据的管理。
处理大批非规则数据主要有两个途径:一是扩展现有的关系数据库,通过在原来的关系数据库的基础上增加若干种数据类型来管理多媒体数据,还可以实现“表中有表”的数据模型,允许关系的属性也是一种关系;二是建立面向对象数据库系统,以存储和检索特定信息。在多媒体信息管理中,最基本的是基于内容检索技术,其中对图像和视频的基于内容的检索方法将是多媒体检索经常遇到的问题。 随着国际互联网Internet的发展,超文本和超媒体的数据结构被广泛应用,引起了信息管理方面的巨大变革。超文本(Hyper Text)在存储组织上通过“指针”将数据块链接在一起,是互连的网状结构,而不是顺序结构,比较符合人的记忆对信息的管理(可以联想)。由结点和链(指针)组成的超文本结构网络称为Web,它是一个由结点和链组成的信息网络,用户可以在该信息网络中实现“浏览”的功能。将多媒体信息引入超文本结构,称为超媒体。制作和管理超媒体的系统就称为超媒体系统。
5. 多媒体通信和网络技术 随着计算机科学与技术的发展,一般意义上的计算机都是指多媒体计算机或网络计算机,多媒体系统一般都是基于网络分布应用系统的。多媒体通信网络为多媒体应用系统提供多媒体通信手段。多媒体网络系统就是将多个多媒体计算机连接起来,以实现共享多媒体数据和多媒体通信的计算机网络系统。多媒体网络必须有较高的数据传输速率或较大的信道宽带,以确保高速实时地传输大容量数据的文本、音频和视频信号,并且必须制定相应的标准(如H.251远程会议标准、JPEG静态图像压缩标准、MPEG动态连续声音图像压缩标准等)。随着电子商务、远程会议、电子邮件等网络服务的发展,对网络安全与保密提出了更高的要求。
6. 虚拟现实技术(Virtual Reality) 从本质上讲,虚拟现实技术是一种崭新的人机界面,是三维的、对物理现实的仿真。虚拟现实系统实际上是一种多媒体计算机系统,它利用多种传感器输入信息仿真人的各种感觉,经过计算机高速处理,再由头盔显示器、声音输出装置、触觉输出装置及语音合成装置等输出设备,以人类感官易于接受的形式表现给用户。虚拟现实技术能实现人与环境的统一,仿真“人在自然环境之中”。 人的感觉是多方面的,要想使处于虚拟现实中的人在各种感觉上都能仿真是很困难的,要达到智能就更困难了。但是,虚拟现实技术提供了一种崭新的人机界面设计的方向,在国民经济许多领域都会有重要应用,是多媒体系统重要的发展方向。