第十章 运动图像压缩标准MPEG 10.1 从MPEG1到MPEG7:MPEG标准简述 10.2 MPEG的编码与实现过程 10.5 H.261与H.263
10.1从MPEG1到MPEG7:MPEG标准简述 10.1.1 视频压缩技术历史概述 10.1.1 视频压缩技术历史概述 视频能够压缩的根本原因在于视频数据具有较高的冗余度。压缩就是指冗余的消除,主要基于两种技术:统计学和心理 视觉。消除统计冗余的基本依据是视频数字化过程在时间和 空间上采用了规则的采样过程。视频画面数字化为规则的像 素阵列,其密集程度适于表征每点最高的空间频率,而绝大 多数画面帧包含非常少甚至不含这种最高频率的细节。
10.1.2 MPEG-1 MPEG-1标准 1992年公布,其任务是在一种可接受的质量下,把视频和伴音信号压缩到速率大约为1.5Mb/s或更高的单一的MPEG数据流。它可对SIF(标准交换格式)分辨率(NTSC制式为352×240;PAL制式为352×288)的图像进行压缩,每秒播放30帧,具有CD音质,图像质量基本与VHS家用录像机相当。 10.1.3 MPEG-2 它是一个直接与数字电视广播有关的高质量图像和声音编码标准。MPEG2所能提供的传输率在3~10Mbit/s之间,在NTSC制式下的分辨率可达720×486,可提供广播级的图像质量和CD级的音质。MPEG-2主要针对高清晰度电视(HDTV)所需要的视频及伴音信号,与MPEG-1兼容。
10.1.4 MPEG-4 MPEG-4旨在为视音频数据的通信、存取与管理提供一个灵活的框架与一套开放的编码工具。这些工具将支持大量的应用功能(新的和传统的)。 10.1.5 MPEG-7 MPEG-7既不同于基于波形压缩的表示方式如MPEG-1和MPEG-2,又不同于基于对象的表示方式如MPEG-4,而是将对各种不同类型的多媒体信息进行标准化描述,并将该描述与所描述的内容相联系,以实现快速有效的搜索。MPEG-7的功能与其他MPEG标准互为补充。
10.2 MPEG的编码与实现过程 MPEG的数据分为MPEG视频、MPEG音频和同步信号三个部分,视频流包含画面信息,音频流包含伴音信息,所有播放MPEG图像和伴音数据所需的时钟信息都包含在同步信号流中。 图10-1 MPEG的组成
10.2.1 MPEG编码的基本思想 MPEG数字视频编码技术实质上是一种统计方法。在时间和空间方向上,视频序列通常包含统计冗余度。MPEG压缩技术所依赖的基本统计特性为帧内与帧间的相关性,这里包含这样 一个设想:即在各连续帧之间存在简单的相关性平移运动。 图10-2 连续视频画面之间通常存在着较大的相关性
10.2.2 MPEG的流结构 MPEG为更好地表示编码数据,规定了一个分层的结构,自上到下分别是 : MPEG流(MPEG stream) 图像组(GOP,Group of Pictures) 图像(Image) 宏块(Macro block) 块(Block)
图10-3 MPEG流的分层结构
MPEG流(MPEG stream)包含音频流和视频流。视频流是由图像组(GOP)构成的图像序列,有表示开始的图像序列头和表示结束的图像终止码。 图像组(GOP)是为方便随机存取而加的,其结构和长度均可变。图像组是随机存取视频单位。一个GOP由一串IBP帧组成,起始为I帧。GOP的长度是一个I帧到下一个I 帧的间隔。 图像(Image)是独立的显示单位,也是基本编码单位。 宏块(Macro block)是进行运动补偿的基本单位。由一个1616像素的亮度信息和两个88像素的色度信息组成的块称为宏块。 块(Block)是由88像素组成的基本单位,是进行DCT运算的单位,块可分为亮度块或色度块(图10-4)。
图10-4 块可分为亮度块或色度块 图10-5 宏块是进行运动补偿的基本单位
10.2.3 信号的采样 在进行视频编码前, R、G、B信号需变换为亮度信号Y和色差信号Cb、Cr的形式(图10-6)。色差定义了颜色的两个方面—色调与饱和度,分别用Cr和Cb来表示。 图10-6 在编码前,RGB信号分解成Y,Cr和Cb信号分量
10.2.4 MPEG图像的类型 MPEG由三种类型的图像组成(如下图): I图(帧内图Intra Picture)是对整幅图像采用JPEG编码的图像,它是一个独立的帧,其信息由自身画面决定,不需要参照其他画面而产生,它是P图和B图的参考图。 P图(前向预测帧Predicted Picture),它参照前一幅I或P图像做运动补偿编码。 B图像(双向预测 Bidirectional Prediction),它参照前一幅和后一幅I或P图像做双向运动补偿编码。
10.2.5 MPEG的帧序列 一个典型的MPEG帧序列 图10-8 一个典型的MPEG帧序列
一个MPEG在解码播放时的实际帧序列 图10-9 MPEG在解码播放时的实际帧序列
10.2.6 运动预测与补偿 运动补偿算法是当前视频图像压缩技术中使用最普遍的方法之一。运动补偿工作于宏块一级,主要是消除预测图与插补图在时间上的冗余,以提高压缩比。运动补偿是一种预测,它不是对每个像素预测,而是以1616的图像宏块为单位的预测。 图10-10 运动补偿的例子
10.2.7 运动补偿编码器的结构 运动补偿预测编码器的结构如下图所示。图中应用了延迟时间可变的预测存储器。该存储器有一个帧的容量,一帧前的图像被存储起来。可以通过以宏块为单位,检测出画面中的运动部分。 图10-11 运动补偿预测编码器的结构示例
10.3 基于对象编码技术的MPEG-4 10.3.1 传统MPEG编码技术的局限 在传统的视频压缩中,以一连串的影像(image)为压缩对象,也就是对于一整张画面(帧frame)做数据压缩。如此会将整张画面不重要的部分(如单调的背景)也一起压缩进去而占有一定程度的数据量。另外,将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块效应,即马赛克效应。 未能考虑信息获取者的主观意义与人类视觉系统(HVS,Human Visual System)主观特性,未能考虑事件本身的特性如具体含义、重要性以及后果等等,不能对图像内容进行访问、编辑和回放等工作; 缺乏一套有系统与有效率的标准。
10.3.2 何谓对象编码 基于对象编码,是指依赖于对视频场景中任意形状对象检测的编码机制。MPEG-4是目前基于对象编码机制,是对运动图像和伴音编码的算法。 图10-12 基于对象编码技术的场景示例
10.3.3 MPEG-4核心编码技术-AV对象 MPEG-4对AV对象的操作主要有: 2.允许组合已有的AV对象来生成复合的AV对象,并由此生成AV场景。 3.允许对AV对象的数据灵活地多路合成与同步,以便选择合适的网络来传输这些AV对象数据。 4.允许接收端的用户在AV场景中对AV对象进行交互操作。 5.MPEG-4支持AV对象知识产权与保护。
10.3.4 基于场景的对象分割与编码技术 MPEG-4实现基于内容交互的首要任务就是把视频/图像分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。 MPEG-4的编码理念是:在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象,分别编码后,再经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频,其过程如图所示。
10.3.5视频对象平面-VOP 我们根据人眼感兴趣的一些特性如形 状、运动、纹理等,将图像序列中每一帧中的场景,看成是由不同视频对象平面VOP (Video Object Plane)所组成,而同一对象连续的VOP称为视频对象VO。 VOP是视频场景的语法对象,除轮廓信息外,主要由亮度和,色度分量(Y,U,V)组成。VOP可以是任意形状,可由半自动分割来检测。 图10-14 为实现基于内容交互,人物由简单到复杂的轮廓物征提取
视频对象平面(VOP,Video Object Plane)是视频对象(VO)在某一时刻的采样,VOP是MPEG-4视频编码的核心概念。
10.3.6 运动估计与运动补偿技术 MPEG-4采用运动预测和运动补偿技术来去除图像信息中的时间冗余成分,而这些运动信息的编码技术可视为现有标准向任意形状的VOP的延伸。VOP的编码有3种模式,即帧内(Intra-frame) 编码模式(I-VOP),帧间(Inter-frame)预测编码模式(P-VOP),帧间双向 (Bidirectionally)预测编码模式(B-VOP) 。 图10-16 MPEG-4的运动预测和运动补偿技术
10.4基于内容的信息存取与MPEG-7 10.4.1 MPEG-7概述 10.4.2 MPEG-7:基于信息内容的搜索引擎
10.4.3 MPEG-7中的主要概念 数据(Data) 是用MPEG-7描述的视听资料,不考虑它们的存储、编码、显示、传输、媒介或技术。 特征(Feature) 指数据的特性。特征本身不能比较,而要用有意义的特征表示(描述子)和它的实例(描述值)。 描述子(Descriptor,D) 是特征的表示。它定义特征表示的句法和语义,可以赋予描述值。 描述值(Descriptor Value) 是描述子的实例。 描述模式(Description Scheme,DS) 说明其成员之间的关系结构和语义。
描述(Description) 一个描述由一个描述模式(结构)和一组描述值组成。 编码的描述(Coded Description) 是对已完成编码的描述,满足诸如压缩效率、差错恢复和随机存取的相关要求。 描述定义语言(Description Definition Language,DDL) 是一种允许产生新的描述模式和描述子的语言,允许扩展和修改现有的描述机制。
图10-18 MPEG-7应用的表示
10.4.4 MPEG-7的范围 MPEG-7是针对存储形式(在线、脱机)或流形式(如 Internet上的广播、推拉模型)的应用而制定的,并且可以在实时和非实时环境中操作。一个实时环境意味着当采集资料时,信息是与内容相关的。 下 图是MPEG-7处理过程的一种高度抽象示意图,用于解释MPEG-7的范围。它包括特征抽取(分析)、描述本身和搜索引擎(应用)。
10.5 H.261与H.263 H.261视频编码标准是CCITT(国际电报电话咨询委员会)的建议,这个建议支持实时动态图像的压缩编解码,应用目标是可视电话和电视会议。 H.263是ITU-T的关于低于64kb/s比特率的窄带通道视频编码建议,其目的是能在现有的电话网上传输活动图像。 H.263是在H.261建议的基础上发展起来的,其信源编码算法仍然是帧间预测/DCT混合编码,但H.263与H.261不同的是,它采用半象素的分辨率进行运动补偿,而且,H.263还提供了4种可协商选择的编码方法:无限制范围的运动矢量、基于语法的算法编码方法、先进预测和PB帧。