Presentation is loading. Please wait.

Presentation is loading. Please wait.

多媒体通信技术 主讲教师:黄玉兰                学时:16.

Similar presentations


Presentation on theme: "多媒体通信技术 主讲教师:黄玉兰                学时:16."— Presentation transcript:

1 多媒体通信技术 主讲教师:黄玉兰                学时:16

2 本书章节 第一章 多媒体通信技术概述 第二章 音频技术基础 第三章 图像技术基础 第四章 视频信息压缩与处理
第五章 多媒体通信系统中的关键技术 第六章 多媒体通信网络技术 第七章 多媒体数据的分布式处理 第八章 多媒体通信应用系统

3 第四章 视频信息压缩与处理 由于图像的数据量非常大,因而无论在存储中还是在传输中,都非常有必要使用图像压缩和处理技术。本章首先介绍了图像处理方法和各种实用编码,如熵编码、预测编码、变换编码、子带编码和小波变换编码等,最后详细介绍了目前国际上通用的图像压缩标准。

4 本章主要内容 4.1 图像的统计特性 4.2 信息压缩方法及其分类 4.3 无失真图像压缩编码方法 4.4 限失真图像压缩编码方法 4.5 几种新型的图像压缩编码技术 4.6 数字图像处理 4.7 图像压缩技术标准

5 4.1 图像的统计特性 由前面的分析可知,一幅图像是由几十万以上的像素构成的。但实际中由于一幅图像的相邻像素之间、相邻行之间以及相邻帧之间都存在着较强的相关性,这样实际有分析价值的图像只占其中的一小部分。 所谓图像统计特性是指其亮度、色度(或色差)值或亮度、色度(或色差)抽样值的随机统计特性。通常用“熵值”来表示。 可以根据图像的统计特性找出最佳的压缩编码方案,使其编码后的信号速率尽量等于图像的信息熵。

6 每当我们看书、听电话、看电视时,都可以获得一系列丰富、有意义的消息,因此我们称一个有次序的符号(如状态、字母、数字或电平等)序列就是消息。
图像的信息量 每当我们看书、听电话、看电视时,都可以获得一系列丰富、有意义的消息,因此我们称一个有次序的符号(如状态、字母、数字或电平等)序列就是消息。 例如某一个图像信息源所发出的符号集合为X={S1, S2, …, Sn} , Si为其中的某一个符号,可见它能够发出n种符号。

7 根据信息论的基本知识,从图像信息源X发出符号Si的概率为p(Si),而且p(Si)将满足下列条件:
这样符号Si所携带的信息量I(Si)可以用下式表示:

8 上式所定义的信息量也称为自信息量,单位 为“bit”,表示在接收者未收到符号Si之前,并不 清楚究竟会收到符号集X={S1, S2, …, Sn} 中的 哪一个符号,即存在不确定性。当接收者收到符 号Si之后,这种不确定性才能消除,这就是通过 接收所获得的信息量。

9 如果从图像信息源X中发送Si的概率越大,则
这种不确定性越小,也就是说,接收者所获得的 信息量也越小。若p(Si)=1,则表明接收者收到Si 的事件是一种必然事件,其不确定性为0,因而 该事件没有任何有价值的信息。

10 离散信源 如果信息源所发出的符号均取自某一个离散 集合,这样的信息源称为离散信源。由信息论的 基本理论可知,离散信源X可以用下式描述: 其中

11 如果从上述信息源X中所发出的各种符号彼 此独立无关,即任意两个相继发出的符号Si和Sj, Si符号不会对Sj符号构成影响,或者说Sj符号与 其前面出现的符号Si无关,我们称这样的图像信 息源为“无记忆”的离散信息源。

12 由一个无记忆的离散信息源所发出的任意长 度的符号序列S1,S2……Sn的信息量为 从上式可以看出,总信息量等于相继发出的 各符号的自信息量之和。

13 对于实际的图像信息源来说,它所发出的各 符号并不是相互独立的,而是具有一定的相关 性,即相继发出的符号序列中Si符号的出现与它 之前已相继出现的几个符号Si-1,Si-2,……有关, 这样的信源就是“有记忆”信息源。

14 图像的信息熵 对于无记忆的图像信息源而言,我们无法确切 地知道信息源在下一时刻发出的符号是符号集 X={S1, S2, …, Sn} 中的哪一个符号,因此信息源所发出的符号Si本身 就是一个随机变量,而其信息量I又是Si的函数。 由此可知,I也是一个随机变量,这样我们就可 以求出图像信息源X发出符号集Sn中各符号的信息 量的统计平均(即求其数学期望),从而得到符号 集Sn中每个符号的平均信息量。

15 在信息论中称H(X)为图像信息源X的“熵”,其单
位为bit/符号。

16 其一是对图像信息源的概率分布提出数学模型,然而根据该模型进行熵的计算
1、无记忆信源的概率分布与熵的关系 计算图像的熵的方法有两种: 其一是对图像信息源的概率分布提出数学模型,然而根据该模型进行熵的计算 其二是将图像分割成统计上相互独立的“子像块”,当一幅图像所包含子像块数足够多时,便能具体地测量出每个子像块出现的概率,最后按式(4-5)计算出信息熵。 下面观察几种常见的图像信息源。

17 ①均匀分布的图像信息源 现的概率相等,那么其数学模型可写为: =常数 (4-6) 则由式(4-5)可求出该图像信息源的熵H(x)为
如果图像信息源的概率分布呈现均匀分布,即各符号出 现的概率相等,那么其数学模型可写为: =常数 (4-6) 则由式(4-5)可求出该图像信息源的熵H(x)为 (4-7) 可以证明,当图像信息源中各符号出现的概率相等 时,信源的信息熵最大。

18 我们现以n=2的情况为例来进行说明。该信源所发出的符号集X={S1
我们现以n=2的情况为例来进行说明。该信源所发出的符号集X={S1.S2}。如果S1出现的概率为p,那么S2出现的概率为1-p,在图4-1中给出了熵与S1出现概率p的关系曲线。从中可以看出,p=0或1时,H(X)=0,而当p=1/2时,H(X)最大,并且等于1bit/符号,其余情况下,所含的信息量总低于1bit/符号。 由此可见,数据压缩的方法之一,就是使每个符号所代表的信息量最大。通常通过压缩各信源符号间的冗余度使各信源符号呈现等概率分布来达到各符号所携带的信息量最大。

19 图4-1 二进制信源熵与概率之间的关系

20 ②正态分布的图像信息源 的分布概率可表示为 在实际图像中,可根据图像的内容(如人的头肩像、景物
如果图像信息源的概率分布呈现正态分布,则其中符号Si 的分布概率可表示为 (4-10) 在实际图像中,可根据图像的内容(如人的头肩像、景物 等)进行分类。通常用一幅或一组典型的测试图像代替这类图 像,然后对典型的测试图像求熵,最后利用熵值来研究该类图 像的压缩编码方法。 假设某一测试图像包含N=256×256个像素,每个像素采 用8bit编码,可见相当于有256个灰度等级。如果在该幅测试 图中有ni个灰度为i的像素,那么灰度为i的像素出现的概率 为 ,这样便可以利用式(4-5)求出该信息源的熵。

21 例4-1 已知一幅图像包含256×256像素,其中每像素用8bit表示。如果其中包含红色像素13100个,求该像素出现的概率为多少?
解:

22 序列中的相邻两个符号X和Y,其中X,Y分别取自 于:
2、信源的相关性与序列熵的关系 对于一个无记忆的离散信源,如果已知输出 序列中的相邻两个符号X和Y,其中X,Y分别取自 于: 该序列{sitj}的平均信息熵称为联合熵:

23 式中rij为符合Si和tj同时发生时的联合概率,
因为X和Y彼此独立,故rij=p(Si)q(tj),因此有: 即:离散无记忆信源所产生的符号序列的熵等于各符号熵之和.

24 直接对后面所出现的符号构成影响,或者说后面 出现的符号由前面几个出现的符号决定。 如相邻2个符号X和Y,此时联合概率
许多离散信源都是有记忆的,其前一个符号 直接对后面所出现的符号构成影响,或者说后面 出现的符号由前面几个出现的符号决定。 如相邻2个符号X和Y,此时联合概率 rij=p(si)pji=q(tj)pij 其中 pji=p(tj/si),qij=p(si/tj) 在给定X的条件下,Y所具有的熵称之为条件熵,即: 不难证明:

25 由上面的分析可以看出,序列熵与其可能达 到的最大值之间的差值就是指该信息源中所含有 的冗余度。如果能使信源输出的各符号之间的冗 余度越小,那么每个符号所携带的信息量也越 大,这样,传送相同的信息量所需要的序列长度 也越短,即包含的比特数越少。 由此得到另一种数据压缩的方法: 去除信源 输出各符号间的相关性,其相关性去除越多,则 信源特性越趋于无记忆信源的特性。

26 4.2 信息压缩方法及其分类 多媒体信息存在数据量大、数据流具有突发性和 码速可变性三大特征。 如果一幅图像中代表其亮度、色彩和饱和度的
各项分量的带宽分别为4MHz、1.3MHz和0.5MHz,那 么根据取样定理的规定,只要当取样频率大于或等 于原信号的最高频率的2倍时,才能从取样信号中 无失真地恢复原信号。若取等号,并且每个取样值 用8bit表示,由此可以计算出一幅图像的数据量: ( )×2×8=92.8Mbit/s 显然,数据量非常大,很难直接进行保存,因此必 须对图像数据进行压缩以适应传输和存储的要求。

27 4.2.1 图像信息中存在的冗余类型 1、空间冗余 图4-2是一幅图像,其中心部分为一个灰色的方块,可
图像信息中存在的冗余类型 1、空间冗余 图4-2是一幅图像,其中心部分为一个灰色的方块,可 见在灰色区域中的所有像素点的光强和彩色以及饱和度都是 相同的,因此该区域中的数据之间存在很大的冗余度。可见 所谓的空间冗余就是指一幅图像中存在着许多灰度或颜色相 同的邻近像素,由这些像素组成的局部区域,在此区域中各 像素值具有很强的相关性。 图4-2 空间冗余

28 空间冗余是图像数据中最基本的冗余。为去除这种冗余,
人们通常将其视为一个整体,并用极少的数据量来表示,从而 减少邻近像素之间的空间相关性,以达到数据压缩的目的。这 种压缩方法称为空间压缩或帧内压缩。

29 2、时间冗余 由于活动图像序列中的任意两幅相邻的图像之间的时间 间隔很短,因此两幅图像中存在大量的相关信息。如图4-3
所示。从图中可以看出,前后两幅图像的背景没有变化, 所不同的是其中的运动物体的位置随t发生变化,因此这两 幅图像之间存在相关性。此时我们可以在前一幅图像的基 础上,只需改变少量的数据,便可以表示出后一幅图像, 从而达到数据压缩的目的。

30 在语言中,由于人在说话时发音的音频是一连续的渐变过程,而不是一个完全时间上独立的过程,因而存在时间冗余。
时间冗余是活动图像和语音数据中经常存在的一种冗余,这种压缩也称为时间压缩或帧间压缩。

31 时间冗余 图4-3 时间冗余

32 式中I(si)为分配给第si个符号的比特数。
信息熵冗余 针对数据信息量而言,它代表从图像信息源中发出的一个符号的平均信息量。设某种编码的平均码长单位数据量为 式中I(si)为分配给第si个符号的比特数。

33 A B C D 1/2 1/4 1/8 1/8 H(X)=1.75bit/字符 X= A B C D C(X)=2bit/字符 A B C D C1(X)=1.75bit/字符

34 信息熵是针对数据的信息量而言的,它代表从图像信息源中
发出的一个符号的平均信息量。设某种编码的平均码长单位数 据量为 L=∑p(Si)·l(Si) 式中,l(Si)为分配给第Si符号的比特数。 这种压缩的目的就是要使L接近于H(x),但实际上 L=H(x)+e,其巾e为任意小的正数。可见L是以H(X)为下 限,即L≥H(x),其含义是指描述某一信息所需的“比特数”大 于理论上表示该信息所需要的最小“比特散”.因此它们之间存 在冗余,这种冗余被称为信息冗余或编码冗余。

35 结构冗余 有些图象从大域上看存在非常强的纹理结构,我们称它们在结构上存在有冗余,也称文理冗余。 例如布纹图象和草席图象

36 知识冗余 有许多图象的理解与某些基础知识有相当大的相关性。 例如,人脸的图象有固定的结构。比如说嘴的上方有鼻子, 鼻子的上方有眼睛, 鼻子位于正脸图象的中线上等等。 这类规律性的结构可由先验知识和背景知识得到, 我们称 此类冗余为知识冗余。

37 视觉冗余 由于人眼的视觉特性所限,人眼不能完全感觉到图像画 面的所有细小的变化。例如人眼的视觉对图像边缘的剧烈 变化不敏感,而对图像的亮度信息非常敏感,因此经过图 像压缩后,虽然丢掉了一些信息,但从人眼的视觉上并未 感觉到其中的变化,而仍认为图像具有良好的质量。 事实上人类视觉系统一般分辨能力约为26灰度等级,而一 般图象量化采用28灰度等级,这种差别就是视觉冗余。

38 消除冗余就是数据压缩的途径!! 听觉冗余 人类听觉系统对不同声音的敏感程度不同,而且受环境 的影响,声音之间还存在掩蔽效应。
比如,太高或太低的声音都听不到。 在嘈杂的环境下,听不到低的声音。 别人的声音可以盖过你的声音。这类冗余我们称为听觉冗余。 消除冗余就是数据压缩的途径!!

39 图像通信系统模型 图4-5给出了一种常见的图像通信系统模型,它是由信源、信源编码器、信道编码器、信道、信道解码器、信源解码器和信宿构成。
图像编码的基本过程 图4-5给出了一种常见的图像通信系统模型,它是由信源、信源编码器、信道编码器、信道、信道解码器、信源解码器和信宿构成。 数据 压缩 原始图像 信 源 信 源 编码器 信 道 编码器 f(x,y) 符号率:1/Ts 符号率:1/Tc {xt} 图像通信系统模型 有 噪 信 道 {yt} 信 宿 信 源 解码器 信 道 解码器 f’(x,y) 符号率:1/Ts 符号率:1/Tc 无噪信道 图4-5 图像通信系统模型

40 如果忽略噪声的影响,那么数据信息能通过信道实现无
误传输(无噪声信道) 如果系统的信源为一个数字信源,那么便可以将一幅光 图像f(x,y)转换成具有n个符号的离散随机信号。若该信源 是一个恒定信源,则每Ts秒产生一个符号,这样,由信源输 出的符号速率为Rs=1/Ts 信源编码器负责完成数据压缩功能,它对每个符号进行映射变换,从中消除图像信息中的各种冗余信息,使数据得到压缩,而其中的失真又能被人眼的视觉效果所接受。此时所输出的数据速率Rc=1/Tc。通常Rs>Rc. 如果信道处于理想状态,则信道为一无噪声信道,那么信息通过该信道时,可实现无失真传输,信源解码器接收速率为Rc 信源解码器是编码器的逆过程,其输出信号直接送往信宿,从而重建图像.

41 4.2.3 压缩编码方法及其分类 模拟压缩、数字压缩(常用) 1.由于信息可以分为模拟信息和数字信息,因而压缩算法也包括模拟和数字两种。
按恢复的图像性质(根据解码后数据与原始数据是否完 全一致),数字图像压缩方法可以分为可逆编码和不可逆编 码两种。

42 可逆编码(无失真编码,无损压缩)当系统采用此方法进行数据压缩时,在接收端所获得的解码与原图像完全相同,但无损压缩不能提供较高的压缩比。 如Huffman编码、算术编码、行程长度编码等。
不可逆编码(有失真编码,有损压缩) 顾名思义,在使用这种方法进行数据压缩的图像系统中,其恢复图像存在一定的误差,但该误差可以控制在一定的范围内,而不影响特定环境下人眼的视觉效果,这种压缩编码具有较高的压缩比。 如变换编码和预测编码

43 根据压缩的原理可以分类: 预测编码 这是一种基于图像统计特性的编码方法,其目的是在空间上和时间上减少图像数据间的相关性,从而达到数据压缩的目的,但这是一种有失真的压缩方法,细分起来预测编码又分为帧内编码和帧间编码(后面介绍),其典型的压缩方法有DPCM和ADPCM.

44 变换编码 这也是一种基于统计冗余的压缩编码方法。它是将图像光强矩阵(时域信号)转换到变换域上进行处理。在实际编码中,常常利用图像的统计特性和人眼的视觉特性,选择部分变换系数来进行信息传输,因此其恢复图像中将存在一定的失真(如果传送全部变换系数,那么恢复图像中将不存在失真)。常用的正交变换有离散傅氏变换DFT、离散余弦变换DCT、离散正弦变换DST和K-L变换。

45 标量量化和矢量量化编码 标量量化与矢量量化编码也是一种针对统计冗余而进行压缩的方法。标量量化是指传统的量化,即将有无限电平的幅度值,用有限电平数表示的方法,可见它是一个样点、一个样点地进行量化编码,而在矢量编码中一次可以量化多个样点,矢量量化也是一种限失真编码。

46 信息熵编码 信息熵编码同样是一种基于图像统计特性的编码方法,它是根据信息熵的原理,用最短的位数表示出现概率大的信息,而出现概率较小的信息则用较长的位数来表示,以此达到压缩数据的目的。常见的熵编码有哈夫曼编码、游程编码和算术编码。

47 子带编码 在子带编码中,首先将图像数据转换到频域,然后按频率分成若干子带,对每个子带用一个与其统计特性相适配的编码器进行抽样、量化和编码,并将各子带输出数据合成为数据码流,从而获得压缩数据。而在接收端则对分接和解码后的各子带信号进行合成,从而重建图像。这种编码可使1个子带内的编码噪声限制于本子带内,而不会向其他子带扩散,因此它具有压缩比和信噪比高,图像质量好的特点。

48 结构编码 结构编码是一种第二代编码。它是根据所求出的有关图像中的边界、轮廓、纹理等结构特征参数进行编码,在解码时则根据这些结构和参数信息进行图像合成,从而重建图像。 模型编码 这是一种基于知识的编码,它首先利用人们对自然知识的了解而形成的规则库,将人脸变化等特征用一系列参数来进行描述,然后通过对模型参数的编码与解码达到压缩图像数据的目的。

49 表4-1 数据压缩编码方法分类

50 4.2.4 数据压缩技术的性能指标 压缩比 压缩性能通常用压缩比来定义,它是指压缩过程中输入数 据量与输出数据量之比.
设原图像的平均码长为L,压缩后图像的平均码长为Lc,则压缩 比为C=L/Lc 压缩比越大,说明数据压缩的程度越高。 除压缩比之外,冗余度和编码效率也是衡量信源特性以 及编解码设备性能的重要指标,定义如下: 冗余度 = 编码效率 其中H(X)为信源熵。

51 重现质量 将解码恢复后的图像、声音信号与原图像、声音进行对比。 压缩和解压缩速度 多媒体信息在传输、处理过程中,对同步和实时的要求很高,特别是对于活动视频信号的压缩与解压缩速度是一个非常重要的问题。目前实用的数据压缩技术,一般压缩计算量大于解压缩计算量。

52 4.3 无失真图像压缩编码方法 无失真图像压缩编码就是指图像经过压缩、编码后恢复出 的图像与原图像完全一样,没有任何失真。
常用的无失真图像压缩编码有许多种,如哈夫曼编码 (Huffman)、游程编码和算术编码。 又称为熵编码也叫统计编码,它是根据信源符号出现概率的分 布特性而进行的压缩编码。 基本思想: 在信源符号和码字之间建立明确的一一对应关系, 以便在恢复时能准确地再现原信号,同时要使平均码 长或码率尽量小。

53 4.3.1 Huffman编码 哈夫曼编码是由哈夫曼(D.S.Huffman)于1952年提
出的一种不等长编码方法,这种编码的码字长度的排列与符 号的概率大小的排列是严格逆序的,理论上已经证明其平均 码长最短,因此被称为最佳码。或者说对于给定的符号集合 概率模型没有任何其它整数码(每个符号所对应的码字的位 数均为整数)比哈夫曼编码有更短的码长。) Huffman编码的主要编码思路是对出现对出现概率大的 信源符号赋于短码字,而对于出现概率小的信源符号赋于长码 字。也称为最优码,平均码长最短。

54 具体编码过程: 2、赋值:对最后的两个符号进行赋值,概率大的赋“1”,概率小的赋“0”(反之也成立)。
1、排序:按符号出现的概率从大到小进行排列。 2、赋值:对最后的两个符号进行赋值,概率大的赋“1”,概率小的赋“0”(反之也成立)。 3、合并:将上述最后的两个符号出现概率相加合成一个概率。 4、重新排序:将合成后的概率与其它符号概率一起进行重新排序(从大到小)。然后重复步骤2的内容,直至最后只剩下两个概率为止。 5、码字分配:从最后一步开始反向进行码字分配,对最后两个概率中较大的赋“1”,对较小的赋“0”(与第二过程中的规定相同)。从而形成一个码字。如下图中虚线所示的方向。

55 在图4-6中给出了哈夫曼编码过程,其中设两个符号中较大的为”1”,较小的为”0”.编码结果如表4-2所示。
例4-2 假设某符号集X中包含6个符号:S1,S2,┈S6,各自出现的概率为 X= 试求其哈夫曼编码及其编码效率。 解:1、哈夫曼编码 在图4-6中给出了哈夫曼编码过程,其中设两个符号中较大的为”1”,较小的为”0”.编码结果如表4-2所示。

56

57

58 2、编码效率 根据式(4-5)可求出信源熵: = )=2.56

59 利用式(4-17)可求出平均码长: =0.2×2+0.19×2+0.18×3+0.17×3+0.15×3+0.11×3=2.61 哈夫曼编码的编码效率 =98.08%

60 哈夫曼编码的特点 ②对不同信源其编码效率是不同的。 ③实现电路复杂,而且存在误码传播问题。
①哈夫曼编码所构造的码并不是惟一的,但其编码效率是惟一的。由于在编码过程中,分配码字时对0、1的分配的原则可不同,而且当出现相同概率时,排序不固定,因此哈夫曼编码不唯一。但对于同一信源而言,其平均码长不会因为上述原因改变,因此编码效率是唯一的。 ②对不同信源其编码效率是不同的。 ③实现电路复杂,而且存在误码传播问题。 哈夫曼编码是一种变长码,因此硬件实现复杂,并且在存储、传输过程中,一旦出现误码,易引起误码的连续传播。

61 缺点: 编码效率与信源符号概率分布相关; 编码效率与信源符号概率分布相关,编码前必须有 信源的先验知识,这往往限制了哈夫曼编码的应用。当信
源各符号出现的概率相等时,此时信源具有最大熵,编码 为定长码,其编码效率最低。当信源各符号出现的概率为 2-n(n为正整数)时,哈夫曼编码效率最高,可达100%。 由此可知,只有当信源各符号出现的概率很不均匀时,哈 夫曼编码的编码效果才显著。 只能用近似的整数位来表示单个符号。 哈夫曼编码只能用近似的整数位来表示单个符号而不 是理想的小数,因此无法达到最理想的压缩效果。

62 例: s1 (0.40) s2 (0.18) s3 (0.10) s4 (0.10) s5 (0.07) s6 (0.06)
(0.09) (0.13) (0.19) (0.23) (0.37) (0.60) (0) (1) 1 00011 011 0000 0100 0101 00010 001

63 信源熵为 平均码字长为 编码效率为

64 4.3.2 游程编码 现实中有许多这样的图像,在一幅图像中具有许多颜色 相同的图块。在这些图块中,许多行上都具有相同的颜色,
游程编码 现实中有许多这样的图像,在一幅图像中具有许多颜色 相同的图块。在这些图块中,许多行上都具有相同的颜色, 或者在一行上有许多连续的像素都具有相同的颜色值。在这 种情况下就不需要存储每一个像素的颜色值,而仅仅存储一 个像素的颜色值,以及具有相同颜色的像素数目就可以,或 者存储一个像素的颜色值,以及具有相同颜色值的行数。这 种压缩编码称为行程编码,常用(run length encoding,RLE) 表示,具有相同颜色并且是连续的像素数目称为行程长度。

65 下面以两值图像为例进行说明。 两值图像是指图像中的像素值只有两种取值,即“0”和 “1”,因而在图像中这些符号会连续地出现,通常将连“0”这一 段称为“0”行程,而连“1”的一段则称为“1”行程,它们的长度 分别为L(0)和L(1),往往“0”行程与“1”行程会交替出现, 即第一行程为“0”行程,第二行程为“1”行程,第三行程又为“0” 行程。

66 游程编码示例:下面以一个具体的二值序列为例进行说明。
已知一个二值序列 ……,根据行程编码规 则,可知其行程序列为 ……如果已知二值序列的起 始比特为“0”,而且占2个比特,因而行程序列的首位为2,又 因为2个“0”行程之后必定为“1”行程,上述给出的二值序列只 有一个1,因此第二位为1,后面紧跟的应该是“0”行程,0的 个数为一个,故第三位也为1,接下去是“1”行程,1的个数为 3,所以第四位为3……依此下去,最终获得行程编码序列。

67 可见图像中具有相同灰度(或颜色)的图像块越大、越多
时,压缩的效果就越好,反之当图像越复杂,即其中的颜色 层次越多时,则其压缩效果越不好,因此对于复杂的图像, 通常采用行程编码与哈夫曼编码的混合编码方式,即首先进 行二值序列的行程编码,然后根据“0”行程与“1”行程长度的 分布概率,再进行哈夫曼编码。

68 以上是一个二值序列的行程编码的例子。对于多元序列也同样存在行程编码,但与二值序列行程序列不同,在某个行程的前后所出现的符号是不确定的,除非增加一个标志以说明后一行程的符号,因此所增加的附加标志抵消了压缩编码的好处。

69 例如,在一行扫描图像中,有一段的连续扫描数据为
利用行程编码方法对这一段数据进行编码后可得到如 下结果: 其中,7表示有连续7个像素具有相同值;3表示像素的 值为3。后面的各数码的含义依次类推。可以看到,原来这 一小段图像行数据用37个代码表示,而现在只用10个代码 便可表示。这说明行程长度编码可以对数据进行压缩。

70 4.3.3 算术编码 在信源概率分布比较均匀情况下,哈夫曼编码的效率较 低,而此时算术编码的编码效率要高于哈夫曼编码,同时又无
需向变换编码那样,要求对数据进行分块,因此在JPEG扩展系 统中以算术编码代替哈夫曼编码。 算术编码也是一种熵编码。当信源为二元平稳马尔可夫源 时,可以将被编码的信息表示成实数轴0~1之间的一个间隔, 这样,如果一个信息的符号越长,编码表示它的间隔就越小, 同时表示这一间隔所需的二进制位数也就越多。下面对此作一 具体分析。

71 算术编码是另一种能够趋近于熵极限的最佳编码方式
与Huffman编码比较: 1. 同样对概率大的符号采用短码, 概率小的采用长码。 2. Huffman编码采用整数码, 而算术编码不一定采用整数码,属于小数码。 Huffman 编码的局限性: Huffman 编码使用整数个二进制位对符号进行编码,这种方法在许多情况下无法得到最优的压缩效果。假设某个字符的出现概率为 80%,该字符事实上只需要 -log2(0.8) = 位编码,但 Huffman 编码一定会为其分配一位 0 或一位 1 的编码。可以想象,整个信息的 80% 在压缩后都几乎相当于理想长度的 3 倍左右。

72 基本思想: 算术编码不是将单个信源符号映射成一个码字,而是把整个信源表示为实数线上的0到1之间的一个区间,其长度等于该序列的概率,再在该区间内选择一个代表性的小数,转化为二进制作为实际的编码输出。消息序列中的每个元素都要用来缩短这个区间。消息序列中元素越多,所得到的区间就越小,当区间变小时,就需要更多的数位来表示这个区间。

73 1、码区间的分割 设在传输任何信息之前信息的完整范围是[0,1],算术编码 在初始化阶段预置一个大概率p和一个小概率q。如果信源所 发出的连续符号组成序列为Sn,那么其中每个Sn对应一个信 源状态,对于二进制数据序列Sn,我们可以用C(S)来表示其 算术编码,可以认为它是一个二进制小数。随着符号串中 “0”,“1”的出现,所对应的码区间也发生相应的变化。

74 如果信源发出的符号序列的概率模型为m阶马尔可夫链,那么表明某个符号的出现只与前m个符号有关,因此其所对应的区间为[C(S),C(S)+L(S)] ,其中L(S)代表子区间的宽度,C(S)是该半开子区间中的最小数,而算术编码的过程实际上就是根据符号出现的概率进行区间分割的过程,如图4-7所示。

75 图4-7 码区间的分割

76 图中假设“0”出现概率为2/3,“1”码出现的概率为1/3,
因而L(0)=2/3,L(1)=1/3。 如果在“0”码后面出现的仍然是“0”码,这样“00”出现的 概率= 2/3×2/3=4/9 ,即L(00)=4/9 ,并位于图4-7中所示 的区域。 同理如果第三位码仍然为“0”码,“000”出现的概率= 2/3×2/3×2/3 =8/27 ,该区间的范围[0,8/27)。

77 在进行编码过程中,随着信息的不断出现,子区间按下列 规律减小。 新子区间左端=前子区间左端+当前子区间左端×前子区间长度
算术编码规则 在进行编码过程中,随着信息的不断出现,子区间按下列 规律减小。 新子区间左端=前子区间左端+当前子区间左端×前子区间长度 新子区间长度=前子区间长度×当前子区间长度 下面以一个具体例子来说明算术编码的编码过程。

78 解: 例4-2 已知二进制信源分布 , 如果要传输的数据 序列为1011,试写出算术编码过程。
例4-2 已知二进制信源分布 , 如果要传输的数据 序列为1011,试写出算术编码过程。 解: (1)已知小概率事件q=1/4,大概率事件p=1-q=3/4 (2)设C为子区间左端起点,L为子区间的长度。根据题意,符号“0”的子区间为[0,1/4),可见C=0, L=1/4;符号“1”的子区间为[1/4,1),C=1/4 , L= 3/4; (3)编码计算过程

79 步骤 符号 C L ① / /4 /4+0×3/4=1/ /4×1/4=3/16 /4+1/4×3/16=19/ /16×3/4=9/64 /64+1/4×9/64=85/ /64×3/4=27/256

80 子区间左端起点C= (85/256)d =( )b 子区间长度L= (27/256)d =( )b 子区间右端M=(85/256+27/256)d=(7/16)d =(0.0111)b 子区间:[ ,0.0111) 编码的结果应位于区间的头尾之间的取值0.011。 算术编码 占三位 原码 占四位

81 设输入数据为“XY?YZ”,字符出现概率和设定范围如表4-3所示:
表4-3 字符概率与范围

82 计算结果如表7-3所示。 表7-3 XY?YZ编码结果

83 算术编码举例 符号 s0 s1 s2 s3 概率 0.1 0.4 0.2 0.3 初始区间 [0, 0.1) [0.1, 0.5)
[0.5, 0.7) [0.7, 1) s2 s0 s3 s s s s1

84 信源符号的累积概率,信源X为: 定义各符号的累积概率为: 编码方法步骤: (1) 初始状态:编码点C=0, 区间宽度A=1.0
(2) 编码过程:新编码点C=原编码点C+原区间A×Pi, 新区间宽度A=原区间A×pi

85 输入:s2 C=0+1*0.5=0.5 输入:s0 C=0.5+0.2*0=0.5 输入:s3 C=0.5+0.02*0.7=0.514
A=1*0.2=0.2 输入:s0 C= *0=0.5 A=0.2*0.1=0.02 输入:s3 C= *0.7=0.514 A=0.02*0.3=0.006 输入:s0 C= *0=0.514 A=0.006*0.1=0.0006 输入:s2 C= *0.5=0.5143 A=0.0006*0.2= 输入:s3 C= *0.7= A= *0.3= 输入:s1 C= *0.1= A= *0.4=

86 固定模式、自适应模式 算术编码效率 (1)算术编码的模式选择直接影响编码效率。
(2)在信道符号概率分布比较均匀情况下,算术编码的编码效率要高于哈夫曼编码。 (3)硬件实现时的复杂程度高。

87 4.4 限失真图像压缩编码方法 4.4.1率失真函数 在限失真图像编码方法中,允许有一定的失真存在,因 而可以大大地提高压缩比。
率失真函数是指在信源一定的情况下使信号的失真小于或等于某一值D所必须的最小的信道容量,常用R(D)表示。其中的D代表所允许的失真,对连续信源的编码与传输,可以用失真度d(x,y)和失真函数D(x,y)表示。

88 通常采用以下几种失真度量: (1)均匀误差 (2)绝对误差 (3)频域加权误差 (4)超视觉阈值均方误差 在图4-8中给出了率失真函数R(D)与失真D的关系曲线。 可见对于离散信源,当D=0(即无失真情况下)时,所需的 比特数为R(0),并且小于收到信号的熵值H(Y);当D逐渐增 大时,所需的率失真函数则随之下降,因此我们可以总结出率 失真函数R(D)的性质。

89 当D≥Dmax(Dmax为正值,其数值上等于信号方差σ2)时, R(D)=0, 表示此时所传输的数据信息毫无意义。
当D<0时,不存在R(D). 当D≥Dmax(Dmax为正值,其数值上等于信号方差σ2)时, R(D)=0, 表示此时所传输的数据信息毫无意义。 ●当0<D<Dmax时,R(D)是一个下凸型连续函数。并且R(0)小于接收信号的熵值H(Y)。

90 其中D为允许的均方误差失真,δ2为信号的方差。
可以证明正态分布的信源的率失真函数为: (4-24) 其中D为允许的均方误差失真,δ2为信号的方差。 由上式可以看出,如果D>δ2(即所允许的失真大于输入信号的方差),那么R(D)=0,因此信息传输已无任何意义,而如果均方误差的大小在0~δ2之间,则所需传输信号的方差越小,系统允许引入的失真越大,此时传输速率越低。

91 4.4.2 预测编码和变换编码 1.预测编码 预测编码是减少时间冗余和空间冗余(即统计冗余)的主要方法,对于时间序列数据有广泛的应用。预测编码的特点是直观、简捷、易于实现,容易设计成实时性的硬件结构。对于传输速度要求高的应用系统,经常会用到这种方法。  预测编码的原理简单地说就是:存储以前的样本值(像素、 帧),根据选取的适当模型来预测未来的样本值,对这两个样本值相减得到的误差进行编码。显然,这种方法可以得到较大的数据压缩结果。  参与预测的符号越多,预测就越准确,该信源的不确定性就越小,数码率就可以降低。 预测编码可分为帧内预测编码和帧间预测编码。

92 (1)帧内预测 帧内预测编码是针对一幅图像以减少其空间上的相关性来 实现数据压缩的。通常采用线性预测法,也称为差分脉冲编码 调制(DPCM,differential pulse code modulation)来实 现,这种方法简单且易于硬件实现,得到广泛应用。 差分脉冲编码调制的中心思想是对信号的差值而不是对信 号本身进行编码。这个差值是指信号值与预测值的差值。 DPCM系统的原理如图4-8所示。

93 图4-8 DPCM系统原理

94 设输入信号 为时刻 的取样值。 是根据 时刻以前已知的 个取样值 对 所作的预测值,即
设输入信号 为时刻 的取样值。 是根据 时刻以前已知的 个取样值 对 所作的预测值,即 为预测误差信号,显然 (4-10) 式中, 称为预测系数, 为预测阶数。 (4-11)

95 设 为量化器的量化误差, 为量化器的输出信号,可见
设 为量化器的量化误差, 为量化器的输出信号,可见 接收端解码输出为 ,如果信号在传输中不产生误差,则有 = , = , 。此时发送端的输入信号 与接收 端的输出信息 之间的误差为 可见,接收端和发送端的误差由发送端量化器产生,与编 解码无关。 (4-12)

96 对于DPCM编码有如下结论: ●发送端必须使用本地编码器(图4-8发送端虚框中所示部分),以此保证预测器对当前输入值的预测。 ●接收端解码器(图4-8所示接收端虚框部分)必须与发送端的本地编码器完全一致,换句话说,就是要保持收发两端具有相同的预测条件。 ●由式(4-10)可知,预测值是以 前面的 个样值( )为依据作出的,因此要求接收端的预测器也必须使用同样的m个样本,这样才能保证收、发之间的同步关系。

97 ●最佳线性预测编码。如果式(4-10)中的各预测系数是固定不变的,这种预测被称为线性预测,而根据均匀误差最小准则来获得的线性预测则被称为最佳线性预测。
●存在误码扩散现象。由于在预测编码中,接收端是以所接收的前个样本为基准来预测当前样本,因而如果信号传输过程中一旦出现误码,就会影响后续像素的正确预测,从而出现误码扩散现象。可见采用预测编码可以提高编码效率,但它是以降低其系统性能为代价的。

98 (2)帧间预测 对于视频图像,当图像内容变化或摄像机运动不剧烈时, 前后帧图像基本保持不变,相邻帧图像具有很强的时间相关性。 像电视图像,每秒钟传送30帧画面(保证画面流畅),相邻帧的 时间间隔只有1/30 s, 大多数像素的亮度信号在帧间的变化 是不大的。如果能够充分利用相邻帧图像像素进行预测,将会 得到比帧内像素预测更高的预测精度,预测误差也更小,可以 进一步提高编码效率。这种基于时间相关性的相邻帧预测方法 就是帧间预测编码。帧间预测是指由前一帧或前n帧图像来预 测当前图像。在采用运动补偿技术后,帧间预测的准确度相当 高。随着大规模集成电路的迅速发展,已有可能把几帧图像存 储起来作实时处理。 这样利用帧间编码技术就可减少帧序列 内图像信号的冗余度。

99 运动估值与运动补偿 活动图像序列中所存在的相关性大致分为以下几种: ·如果场景为静止画面,当前帧和前一帧的图像内容是完全相同的。
·对于运动物体而言,如果已知其运动规律,就可以根据其前一帧中的位置来推算出该运动物体它在新一帧中的位置。 ·摄像时镜头做平移、放大和缩小等操作时,图像随时间的变化规律也是可以推算的。

100 由于上述原因,因而发送端不需要发送每幅图像中的全部
像素,而只要将物体的运动信息告知收端,收端则按所接收到 的运动信息和前一帧图像信息来恢复当前帧图像。可见要获得 高质量的图像,则要求系统能准确地从图像序列中提取相关运 动物体的信息。这一过程就称为运动估值。具体地说就是t时 刻运动物体的像素值bt可以用在此之前τ时间的像素值bt-τ来 表示。这两个像素点之差被称为位移矢量 。

101 通常采用的运动估值方法主要分为两大类,分别称为块匹配法和像素递归法。
①像素递归法 采用像素递归法进行位置矢量估值的具体作法是:首先将图像分割成运动区和静止区。由于在相邻两帧中静止区的像素相同,即其位移为0,因此无需进行递归运算。对运动区内的像素,则要利用该像素左边或正上方像素的位移矢量 作为本像素的位移矢量,然后用前一帧对应位置上像素经位移 后的像素值作为当前帧中该像素的预测值,然后求出与当前帧中该像素值之间的预测误差。

102 如果预测误差小于某一阈值,则认为该像素是可预测的,
因此无需进行信息传送。如果预测误差大于该阈值,则需对该 预测误差进行量化、编码、传输,同时传输的还有该像素的地 址信息。接收端则根据所接收的误差信息和地址信息进行图像 恢复。值得说明的是当预测误差大于某阈值时,收发双方都将 进行位移矢量更新。 从上面的分析可以看出,像素递归法是针对每个像素逐一 地根据预测误差来进行位移矢量估算,因此在系统中无需单独 传送位置信息。

103 ②块匹配法 块匹配法的思路与像素递归法的分析思路不同。 块匹配的思想是将图像划分为许多互不重叠的子图像块, 并且认为子块内所有像素的位移幅度都相同,这意味着每个 子块都被视为运动对象。对于k帧图像中的子块,在k-1帧图 像中寻找与其最相似的子块,这个过程称为寻找匹配块,并 认为该匹配块在第k-1帧中所处的位置就是k帧子块位移前的 位置,这种位置的变化就可以用运动矢量来表示。

104 在一个典型的块匹配算法中,一帧图像被分割为 或者
是更为常用的 像素大小的块。在 大小的匹配窗中,当前块与前一帧中对应的块相比较。基于匹 配标准,找出最佳匹配,得到当前块的替代位置。

105 块匹配方法 搜索范围SR: 两个重要问题: 1. 匹配准则 2. 搜索方法 SR=(M+2dm)×(N+2dm) 当前帧中 的子块
位移矢量 前一帧中的 最佳匹配子块 搜索区域 当前帧中 的子块 搜索范围SR: SR=(M+2dm)×(N+2dm) 两个重要问题: 1. 匹配准则 2. 搜索方法

106 块匹配准则 用以衡量2子块的相似程度 常见3种准则: 1.最小绝对差MAD(计算量小硬件简单得到广泛应用) 2. 最小均方误差MSE
3.归一化二维互相关函数NCCF

107 基于最小绝对差准则的最优匹配搜索方法: 由于两帧之间的时间间隔很短,因此运动物体的运动距离 是有限的,这样只需在一定范围内进行搜索。

108 全搜索 由于全搜索算法的计算复杂度过大,近年来,快速算法的研 究得到了广泛的关注,研究人员提出了很多快速算法。 2. 二维对数法 3. 三步搜索法

109 图像子块大小的选择: 在块匹配法中,子块大小的选择直接影响其搜索速度。目 前实用的压缩标准中(如H.261、MPEG等)都折中地选择 16*16大小的图像子块作为匹配单元。

110 (3)具有运动补偿的帧间预测(自学) 1、前向预测

111 帧间预测是指信道中传输的不是当前帧中的像素值x, 而传送的是x与其前一帧相应像素 之间的差值,因此如果出现如图4-12所示的情况,即有一个运动小球,从第k-1帧到第k帧过程中只做了位置平移。可见这两帧图像的背景相同,这样如果只简单地用k-1帧中对应位置的像素作为k帧相应位置上的像素预测值,那么在图4-12(b)中所示的实线和虚线区域内的预测误差不为零。

112 理想的运动补偿预测编码应由以下四个步骤组成。
(1)图像划分:将图像划分为静止部分和运动部分。 (2)运动监测与估值:即检测运动的类型(例如平移、旋转、放大或缩小等),并对其中每一个运动物体进运动估计,从而找出运动矢量。 (3)运动补偿:利用运动矢量建立处于前后帧的同一物体的空间位置的对应关系,即用运动矢量进行运动补偿预测。 (4)预测编码:对运动补偿后的预测误差、运动矢量等信息进行编码,并将这些信息传送到接收端。

113 下图为预测器的原理方框图

114 2、后向预测与双向预测 后向预测是指由第k帧来预测第k-1帧,这种预测方法称为后向预测。如果为了进一步提高信道的利用率,则可以采用双向预测,即用前、后两帧来预测中间帧如图4-14所示。

115 (4)具有运动补偿的帧间内插 由于图像序列中各幅图像之间的时间间隔非常短,即使运动物体在做高速运动,各帧之间仍存在很大的相关性,因此为了进一步压缩数据量,可以采用亚取样,即在发送端,每隔一段时间丢掉1帧或几帧图像,而在接收端则利用帧间的相关性将原丢弃的帧恢复出来。这种活动图像压缩编码的方法就称为帧间内插。由此可见其中关键的问题是如何根据所接收的图像帧来恢复出原丢弃的帧。实现方法有多种,通常人们采用线性内插来恢复丢弃帧,如图4-15所示。

116

117 2、变换编码 变换编码不直接对原图像信号压缩编码,而是对图像数据进行某种形式的正交变换,并对变换后的数据进行编码,从而达到数据压缩的目的,这就是变换编码。无论是单色图像还是彩色图像,静止图像还是运动图像都可以用变换编码进行处理。变换编码是一种被实践证明的有效的图像压缩方法,它是所有有损压缩国际标准的基础。

118 变换编码中的关键技术在于正交变换。与预测编码一样,
正交变换是通过消除信源序列中的相关性来达到数据压缩的。 它们之间的区别在于预测编码是在空间域(或时间域)内进行 的,而变换编码则是在变换域(或频率域)内进行的。 (1)变换编码的工作原理 在图4-16中给出了变换编码的原理框图。

119

120 变换编码是利用正交变换来实现图像信号的压缩编码的。具体地说就是将原空间域中的图像信号f(j,k)变换到另外一个正交矢量空间域(变换域)F(μ,ν)中,而当需要进行图像恢复时,只需进行上述过程的逆变换,即把变换域中所描述的图像信号再转换到原来的空间域。总之与空间域相比,变换域中对图像信号的描述要简单一些,而且变换域中各变换系数之间的相关性明显下降。能量主要集中在低频部分,因而在进行编码时可忽略某些能量很小的高频分量,或在量化时对方差较小的分量分配较少的比特数,从而实现数据压缩,完成上述功能的单元就是样本选择和量化编码。

121 (2)子块划分 在变换编码系统中,其性能与所选用的正交变换类型、图像类型、变换块的大小、压缩方式和压缩程度等因素有关,但在变换方式确定之后,变换块的大小选择就显得尤为重要。因此一般子图像块的大小选为8×8或16×16。 另外对图像进行子块划分的另一个好处是它可以将传输误差所造成的图像损伤限制在子图像的范围之内,从而避免误码的扩散。

122 (3)正交变换 ①正交变换的类型 例如离散卡南-洛伊夫变换(Karhunen-Loeve )K-L变换、傅里叶变换、离散余弦变换、沃尔什变换等均在数据压缩中得到不同程度的应用。但从均方误差最小和主观图像质量两个方面来看,最优变换类型是离散K-L变换。但它存在着计算复杂,速度慢等缺点,因此一般只将它作为理论上的比较标准,即作为一种参照物,用来对一些新方法、新结果进行分析和比较,可见K—L变换的理论价值高于实际价值。由于离散余弦变换与K—L变换性质最为接近,且计算复杂度适中,具有快速算法等特点,因此在图像数据压缩编码中广为采用。

123 ②离散余弦变换(DCT) 变换编码主要有离散傅立叶变换(DFT)编码、 离散余弦变换(DCT)编码等。其中, DCT编码方法被普遍使用, 在JPEG、 MPEG和H.261等标准中都采用了DCT编码。 由于声音信号只有一个时间维, 因此音频信号压缩采用一维DCT编码, 而图像压缩必须考虑水平和垂直两个方向, 因此图像压缩则采用二维DCT编码。 DCT变换的结果与离散K-L变换十分接近,而且变换后具 有较高的能量集中度。特别是当信源的统计特性偏离上述规律 时,其性能下降并不显著。同时DCT变换又具有多种快速算 法,因此在图像压缩编码中得到了广泛的应用。

124 (4)系数选择 人们通过大量的统计试验发现,大多数图像信号在空间域中像素的相关性很大。当它们经过DCT变换后,变换系数之间的相关性大大下降,并且信号能量主要集中在低频部分,为了进一步压缩编码速率,因此忽略那些能量很小的高频分量,不予以传输,而只对少数能量集中的方差大的变换系数进行量化编码。由此可见在变换编码中选择哪些变换系数进行量化编码,直接对系统性能构成影响。

125 在利用二维余弦变换进行图像数据压缩时,首先要对图像
进行分块,块的大小通常为8×8或16×16像素点,而后, 对图像块进行快速余弦变换(FDCT),从而得到余弦变换系数。 可以这样认为,采用8×8图像子块进行FDCT得到的DCT 系数就是输入的64个时间域信号被变换成64个频率域的幅度 数据。在这64个频域数据中包括: 1个0频率(直流分量)分量,叫做DC系数; 63个其他频率的分量,叫做AC系数。

126 源图像8×8样本数据块实质上是64点离散信号(空间范围
x和y的函数), FDCT将其变换成64个正交基信号, FDCT的输出 是64个DCT系数(即基信号振幅)。 在x、 y两个方向频 率都为零的系数叫直流系数(DC), 其余63个系数是交流系数 (AC)。 由于图像帧上点与点之间的样本值变化比较缓慢, 大多数信号集中在低频区。

127 例如,随意取得8×8输入图像子块的数据如下所示:

128 这就是输入的时间域的8×8子图像块的数据。利用
FDCT算法,便可求出DC系数和AC系数如下:

129 接下来,就是对变换所得到的DC系数和AC系数进行量
化处理。对经过上述变换后得到的8×8变换系数进行量 化,可规定每个系数的量化间隔,那么,对8×8个变换系 数,就有8×8个量化间隔。这8×8个量化间隔构成一个 表,叫做量化表。 量化表是根据图像处理的要求、压缩比的大小和图像重 建效果等因素来考虑的。在JPEG标准中给出了参考的量化 表。

130 从量化表中可以看到,各变换系数的量化间隔是不一样的。
对低频分量,量化间隔小,量化误差也小,精度要高些。频率 愈高,量化间隔愈大,精度低些。这是因为高频分量只影响图 像的细节,对整块图像来讲,它没有低频分量重要。这就是为 什么量化表中左上角量化间隔小而愈靠近右下角量化间隔愈大 的原因。 利用量化表中的量化间隔,分别对各变换系数进行量化。 量化后的变换系数称为规格化(或归一化)量化系数。

131 摘录JPEG标准的亮度量化表如下: 可以得到如下的规格化量化系数:

132 从上面规格化系数中,我们已经可以解释压缩过程。也
就是说,从原理上讲,只要保留直流和5个低频分量的值,就 可以代表原始的8×8的数据,从而达到数据压缩的目的。 在解压缩时,首先恢复规格化系数,接下来就需要利用压 缩时使用的量化表求出重建的变换系数。

133 选择变换系数的方法有两种:区域取样和门限取样。
①区域取样 区域取样是指对设定区域内的变换系数进行量化编码,而舍弃区域外的变换系数。具体区域的大小和形状的选择与很多因素有关,而且直接影响压缩程度。由于变换系数的能量主要集中在直流和低频区,换句话说集中在图4-17中的左上角附近的系数上,因此编码区域通常选择在低频一带。区域编码的方便之处在于无需对系数所处的位置进行编码,但它同样也存在不足。

134

135 ②门限取样 门限取样的方法是把变换系数的方差与某个门限值进行比较,对于大于该门限值的系数进行编码,否则忽略。 ③扫描路径 由于DCT变换后,变换域系数矩阵中能量集中于直流和低频区,该区位于矩阵的左上角部分。另外目前通常使用行程法,此时不直接对系数位置进行编码,而是按图4-17中所示的“之”字形扫描路径将二维系数展开成一维序列输出。

136 (5)量化与编码 ①量化 在编码之前,对每一个DCT系数需要进行量化,这样可以降低用以表示每个DCT系数所需的比特数。另外量化还使DCT系数矩阵中的多个高频系数被量化为0,从而可实现高压缩比。

137 ②编码 由于直流系数与邻近的子图像块具有较大的相关性,因此通常对其进行单独编码,而其他63个交流系数则按图4-17所示的规律进行扫描,从而形成一维数据序列。 由前面的分析可知,随着空间频率的增加,0出现的越多,因而64个系数经过上述排列后,所形成的数据序列的尾部必然是一串长0(游程),可见此时适于进行游程编码。它不但可以减少缓存器的存储量,而且也相应减少了传输码的解码时间。

138 a.游程编码 下面以例4-3中的结果为例,介绍基于DCT的游程编码。 由式(4-37)并按“之”字形扫描路径,可得到其游程编码序列为(39,-3,2,1,-1,1,0,0,0,0,0,-1,EOB)。这样当接收端接收到EOB时,则在其后自动补0,直至系数总数达到64个为止。 b.RLC码的形成 c.直流系数和交流系数的变字长编码

139 ③DCT解码 ④变换编码引入的失真与量化噪声 变换编码所引入的失真有3种类型:分辨率下降、颗粒 噪声、方块效应 变换编码过程中因量化而引起的量化噪声有凹凸噪声、 伪轮廓噪声、条带状噪声和分量过载等。

140 4.4.3 矢量量化编码 矢量量化则是将囤像的每n个像素看成一个n维矢量,将每个n维取值空间划分为若干子空间,每个子空间用一个代表矢量来表示该子空间所有的矢量取值。

141 4.4.4 子带编码 子带编码是一种在频率域中进行数据压缩的算法。其指导思想是首先在发送端将图像信号在频率域分成若干子带,然后分别对这些子带信号进行频带搬移,将其转换成基带信号,再根据奈奎斯特定理对各基带信号进行取样、量化和编码,最后合并成为一个数据流进行传送。

142 4.5几种新型的图像压缩编码技术 4.5.1 小波变换编码(自学)
普遍应用的图像数据压缩技术是以离散余弦变换(DCT)为代表的,该压缩算法在大的压缩比及低比特率的环境时会出现明显的“方块效应” ,且在运算过程中存在舍入误差而影响解压精度; 另外一种常用的图像压缩编码算法是以Fourier变换为基础的变换编码,该算法将时域信号变换到频域信号上进行处理,但Fourier变换却不能较好地解决突变信号与非平稳信号的问题。

143 小波变换的理论是在20世纪80年代后期兴起的新的数学分
支,是继Fourier变换后又一里程碑式的发展。他是空间和频 率的局部变换,能更加有效地提取信号和分析局部信号。小 波变换恰巧弥补了DCT变换未能满足宽带图像的高数据压缩要 求的缺憾。小波变换是一种能够在频率上自由伸缩的变换, 因此它是一种不受带宽约束的图像压缩方法。

144 小波变换 对一个函数在空间和时间上进行局部化的一种数学变换 通过平移母小波(mother wavelet)获得信号的时间信息通 过缩放母小波的宽度(或称尺度)获得信号的频率特性对母 小波的平移和缩放操作是为计算小波的系数,这些系数代 表局部信号和小波之间的相互关系。

145 4.5.2 分形编码 一、分形的概念及其特性 分形是一种用来描述经典几何学无法处理的不规则曲线(如海岸线、地貌形状、动植物的脉络等)的几何学方面的概念。其含义是指物体开始的组成部分与其整体以某种方式自相似。有时其自相似关系是确定的,但经常是随机的和统计意义上的。

146 分形最显著的特点是自相似性,即无论几何尺度怎样变化,景物的任何一小部分的形状都与较大部分的形状极其相似。这种尺度不变性在自然界中广泛存在。
图3-19是用计算机生成的分形图。可以说分形图之美就在于它的自相似性,而从图像压缩的角度,正是要恰当、最大限度地利用这种自相似性。下面以Koch曲线的形成过程来说明分形图形的一些特性。 图3-19计算机生成的分形图

147 Koch曲线

148 由此可见,分形编码中存在两大难点,这就是如何进 行图像分割和构造迭代函数系统。
二、分形图像编码原理 对于一幅数字图像,通过一些图像处理技术,如颜色 分割、边缘检测、频谱分析、纹理变化分析等将原始图像 分成一些子图像,然后在分形集中查找这样的子图像。分 形集实际上并不是存储所有可能的子图像,而是存储许多 迭代函数,通过迭代函数的反复迭代可以恢复出原来的子 图像。也就是说,子图像所对应的只是迭代函数,而表示 这样的迭代函数一般只需要几个参数即可确定,从而达到 了很高的压缩比。 由此可见,分形编码中存在两大难点,这就是如何进 行图像分割和构造迭代函数系统。

149 分形编码具有以下3个优点: ◆图像压缩比比经典编码方法的压缩比高。 ◆由于分形编码把图像划分成大得多、形状复杂得多的分区,因此压缩所得的FIF文件的大小不会随着图像像素数目的增加(即分辨率的提高)而变大。而且,分形压缩还能依据压缩时确定的分形模型给出高分辨率的清晰的边缘线,而不是将其作为高频分量加以抑制。

150 ◆分形编码本质上是非对称的。在压缩时计算量很大,所以需要的时间长;而在解压缩时却很快,在压缩时只要多用些时间就能提高压缩比,但不会增加解压缩的时间。

151 4.5.3 模型编码 由于景物内在存在很强的自相似性,因而通过分形编码,可以获得很高的压缩比,但当景物内在的自相似性不显著时,便很难获得如此之高的压缩比。例如人脸这样的图像就无法获得高压缩比,但采用模型编码则可以获得较好的压缩效果。

152 模型基编码是将图像看作三维物体在二维平面上的投影,
在编码过程中,首先是建立物体的模型,然后通过对输入图像 和模型的分析得出模型的各种参数,再对参数进行编码传输, 接收端则利用图像综合来重建图像。可见,这种方法的关键是 图像的分析和综合,而将图像分析和综合联系起来的纽带就是 由先验知识得来的物体模型。

153 图像分析主要是通过对输入图像以及前一帧的恢复图像的
分析,得出基于物体模型的图像的描述参数,利用这些参数就 可以通过图像综合得到恢复图像,并供下一帧图像分析使用。 由于传输的内容只是数据量不大的由图像分析而得来的参数 值,它比起以像素为单位的原始图像的数据量要小得多,因此 这种编码方式的压缩比是很高的。 其编码原理如如图4-35所 示。

154 图4-35 模型编码系统原理

155 4.6 数字图像处理 4.6.1 数字图像处理系统模型及其主要处理方法 1、数字图像处理系统模型
实用的数字图像系统是一个包括硬件和软件的复杂系统,其功能模型如图4-36所示。

156 常用图像输入设备:扫描仪、CCD摄象机、数字照 相机等 图像输出:输出单元,可以与各种图像输出设备相 连接。
图像输入:接收来自广播电视的信号或其他图像处理系统的 信号,也可以接收各种图像输入设备所采集的图像信息。 常用图像输入设备:扫描仪、CCD摄象机、数字照 相机等 图像输出:输出单元,可以与各种图像输出设备相 连接。 常用图像输出设备:CRT或LCD显示器、打印机和绘图仪等。 图像的控制设备:键盘、鼠标等

157 图像的存储设备:RAM、ROM硬盘、光盘等。
存取/通信设备:可以通过网络将存储在远端计算机硬盘或光盘中的图像信息送入图像处理单元做进一步的处理。 图像处理设备:是系统核心,包括了各种硬件和软件。常见的操作功能有:图像变换、图像增强、图像复原和重建、图像分割和特征提取、图像编码和压缩等。

158 2、图像信息处理的主要方法 实用的图像处理方法有多种,包括图像变换、图像增强、图像复原、图像压缩和图像重建等。 图像变换是利用正交变换,将图像由时间域或空间域转换到变换域(频率域)来进行处理以改善图像的质量。另外因为大多数变换都有快速算法,从而大大缩短处理时间。 图像增强是指利用各种数学方法和变换手段以改善图像中感兴趣部分的清晰度,具体内容包括图像灰度修正、图像平滑、噪声去除和图像边缘增强等。

159 在成像过程中,由于物体的高速运动,噪声干扰等因素的
影响,使得成像后的图像质量下降,人们常称其为降质。图像 复原就是指采取必要的技术手段,使降质的图像恢复到原来的 景物图像的水平。 图像的数据压缩也是数字图像处理的一项重要内容,这是 因为无论高质量的语音信号,还是图像视频信号,它们的数据 量非常大。为了提高信道的利用率,存储更多的图像信号,因 此在满足一定图像质量要求的前提下,采用图像压缩编码技术 以最大程度地较少图像的数据量。

160 图像重建也是图像处理的重要内容之一,它是采用X射线、超声波等方法获得物体内部的结构数据信息,然后通过对这些数据进行运算处理,从而构成物体内部某些部位的图像,典型的应用就是CT成像技术。

161 4.6.2 图像增强 实现图像增强的基本方法有两大类,空间域法和频率域法。频率域法是在图像的变换域上进行的,增强图像中感兴趣的频率分量,然后再进行反变换,从而提高图像的可懂度,而空间域法是对图像中的像素恢复值直接进行处理。它又分为点运算和局部运算两种。前者是逐点进行图像处理运算,而后者则是针对处理像点附近的空间域进行相关的数据运算。 1、灰度级修正 在灰度级修正过程中,不改变像素点的位置,而只改变像素点的灰度值,从而使图像对比度增强。由此可见这是一种点运算。

162 经过图像平滑处理可以减小图像噪声,其处理可以在空间域来完成,也可以在频域完成。
2、图像平滑 经过图像平滑处理可以减小图像噪声,其处理可以在空间域来完成,也可以在频域完成。 3、图像的锐化 图像锐化的作用是使模糊的图像变得清晰。它与图像复原不同,图像复原是根据造成图像模糊的原因,采取必要的手段使恢复图像的清晰度的方法。

163 4.6.3 图像复原 图像复原首先要找出图像降质的原因,建立数学模型,然后沿着使图像降质的逆过程来进行图像恢复,最后使已退化的图像恢复其本来的面目。 一、图像的退化与复原模型(略) 二、图像退化的数学模型(略) 三、孔径衍射效应所造成的图像退化(略)

164 4.7 图像压缩技术标准 4.7.1图像种类与编码标准 1、视频图像的种类
按图像的质量,图像可大致分为高质量视频、中等质量的视频和低质量的视频三大类。 高质量视频是指那些画面较大、帧速率大于或等于25帧/秒的彩色视图像,通常可采用ITU-R BT601视频格式直至高清晰度电视格式,主要应用于具有广播质量的数字电视或高清晰度电视之中. 中等质量视频是指那些具有中等画面、帧速率在25~30帧/秒之间的彩色视频图像,通常采用QCIF或ITU-R BT601视频格式,适用于会议电视、远程教育或远程医疗之中。 低质量视频是指那些画面较小、帧速率在5~10帧/秒之间的黑白视频或彩色视频图像,经常使用QClF或CIF格式,典型的应用是可视电话,网络游戏和视频邮件等。 可见,不同质量的视频信号,它们的帧频以及适用的格式不同。

165 2、编码标准 从1986年开始ITU、ISO、IEC等国际组织先后制定了适用于不同场合中的不同图像压缩标准,如JBIG标准、JPEG标准、H系列标准和MPEG系列标准,其中H系列标准和MPEG标准为活动图像压缩标准,而JBIG和JPEG标准为静止图像压缩标准。

166 4.7.2 静止图像压缩编码标准——JPEG JPEG是英文Joint Photographic Experts Group的缩写,即联合图像专家组。该标准是一种适用于静止图像压缩算法的国际标准。ITU和ISO两家联合成立专家组JPEG(Joint Photographic Experts Group),研究彩色和单色、多灰度连续色调、静态图像的压缩。该标准在1991年通过为ISO/IEC 10918标准,全称为“多灰度静态图像的数字压缩编码”标准。 图像尺寸: 行/帧、 像素/行 JPEG中压缩比及图像保真度是可调节的,供用户选择;压缩率可达25:1,适应于不同的应用场合。

167 在JPEG算法中,共包含四种运行模式,其中一种是基于
DPCM的无损压缩算法,另外三种是基于DCT的有损压缩算法。 其要点如下: ☆无损压缩编码模式: 采用预测法和哈夫曼编码(或算术编码)以保证重建图像 与原图像完全相同(设均方误差为零),可见无失真。 ☆基于DCT的顺序编码模式: 根据DCT变换原理,从上到下,从左到右顺序地对图像数 据进行压缩编码。信息传送到接收端时,首先按照上述规律 进行解码,从而还原图像。在此过程中存在信息丢失,因此 这是一种有损图像压缩编码。

168 ☆基于DCT的累进编码模式: 它也是以DCT变换为基础的,但是其扫描过程不同。它是通 过多次扫描的方法来对一幅图像进行数据压缩。其描述过程是 由粗到细逐步累加的方式进行的。图像还原时,在屏幕上首先 看到的是图像的大致情况,而后逐步地细化,直到全部还原出 来为止。 ☆基于DCT的分层编码模式: 这种模式是以图像分辨率为基准进行图像编码的。它首先是 从低分辨率开始,逐步提高分辨率,直至与原图像的分辨率相 同为止。图像重建时也是如此。可见其效果与基于DCT累进编 码模式相似,但其处理起来更复杂,所获得的压缩比也更高一 些。

169 (1)无损压缩编码 在传真机、静止画面的电话电视会议应用中,根据其特点JPEG采用DPCM(差分脉冲编码调制)无损压缩编码方案,其编码过程如图4-45所示。 基于DPCM的无失真编码优点是硬件易实现,重建图像质量好。 缺点是压缩比太低, 大约为2:1。

170 (2)基于DCT的顺序编码模式 图4-47表示了一种基于DCT顺序编码与解码过程的系统框图。

171 (3)基于DCT的累进编码模式(略) (4)基于DCT的分层编码模式(略) H.261与H.263 H.26x是ITU-T(国际电信联盟)及其前身CCITT(国际电报电话咨询委员会)研究和制定的一系列视频编码的国际标准。其中最为广泛的就是H.261, H.262, H.263和H.264这4个协议。H.26X与MPEG-X有着紧密的联系。在一些MPEG标准中,H.26X 就是MPEG-X视频部分的重要组成。

172 H.261产生于20世纪90年代,可以说是视频编码的老前
辈,如今已经逐渐退出历史舞台。 H.262是MPEG-2的视频部分,由于MPEC-2的应用十分 广泛,因此H.262目前仍然是最重要的视频编码之一。 H.263是目前视频会议所采用的主流编码,在视频会议领 域占有绝对的市场优势。 H.264是最近几年才刚刚出现的新的视频压缩标准,属于 MPEG-4的第10部分。 在相同的图像质量的情况下,H.264有更高的压缩率,是 一种很有市场潜力的视频压缩标准。

173 1、H.261 H.261是ITU-T制定的视频压缩编码标准,也是世界上第一个得到广泛承认的、针对动态图像的视频压缩标准,而且其后出现的MPEG系列标准、H.262以及H.263等数字视频压缩标准的核心都是H.261。可见,在图像数据压缩方面该标准占据非常重要的地位,它主要应用于视频会议和可视电视等方面。

174 (1)视频数据格式 不同种类的图像(低质、中质、高质)其数据量不同,采用的编码格式也不同。 H.261标准规定采用的视频编码格式为CIF(Common Intermediate Format:通用中间格式)和QCIF(Quarter Common Intermediate Format:1/4CIF)。两种格式的最大画面传输为29.97 f/s,其具体参数如表7-8所示。 。 表7-8 H.261标准的编码格式

175 (2)视频编码系统 H.261是ITU-T制定的视频压缩编码标准,也是世界上第一个得到广泛承认的、针对动态图像的视频压缩标准,而且其后出现的JPEG标准、MPEG系列标准、H.262以及H.263等数字视频压缩标准的核心都是H.261。可见在图像数据压缩方面该标准占据非常重要的地位,主要应用于会议电视和可视电视等方面,具体系统框图如图4-48所示。

176 图3-29 H.261标准的视频编/解码系统结构

177 (3)视频编码器原理 A、采用帧内编码 H.261标准的视频信源编码器框图如图4-49所示,而解 码器的工作原理与编码器中的本地解码电路完全相同,因此这 里我们着重介绍视频编码器。

178 图3-30 H.261标准的视频信源编码器原理

179 DCT变换和量化组成。其工作原理如下:对图像序列 中的第一幅图像或景物变换后的第一幅图像,采用帧 内变换编码。
从图中可以看出,它是由帧间预测、帧内预测、 DCT变换和量化组成。其工作原理如下:对图像序列 中的第一幅图像或景物变换后的第一幅图像,采用帧 内变换编码。 图中的双向选择开关同时接上路,这样输入信号 直接进行DCT变换,在该变换过程中采用了8×8子块 来完成运算,然后各DCT系数经过Z形扫描展开成一维 数据序列,再经游程编码后送至量化单元,系统中所 采用的量化器工作于线性工作状态,其量化步长由编 码控制。量化输出信号就是一幅图像的输出数据流,此时 编码器处于帧内编码模式。

180 B、采用帧间预测编码 当双向选择开关同时接下路时,输入信号将与预测信号相减,从而获得预测误差,然后对预测误差进行DCT变换,再对DCT变换系数进行量化输出,此时编码器工作于帧间编码模式。 其中的预测信号是经过如下路径所获得的。首先量化输出经反量化和反离散余弦变换(IDCT)后,直接送至带有运动估值和运动补偿的帧存储器中,其输出为带运动补偿的预测值,当该值经过环形滤波器,再与输入数据信号相减,由此得到预测误差。 应注意的是,滤波器开关在此起到滤除高频噪声的作用,以达到提高图像质量的目的。

181 C、工作状态的确定 在将量化器输出数据流传至对端之外,还要传送一些辅助信息,其中包括运动估值、帧内/帧间编码标志、量化器指示、传送与否的标志和滤波器开关指示等,这样可以清楚地说明编码器所处的工作状态,即是采用帧内编码还是采用帧间编码,是否需要传送运动矢量,是否要改变量化器的量化步长等。这里需要作如下说明:

182 ☆在编码过程中应尽可能多地消除时间上的冗余度,因而必须将最佳运动矢量与数据码流一起传输,这样接收端才能准确地根据此矢量重建图像。

183 ☆在H.261编码器中,并不是总对带运动补偿的帧间预测DCT进行编码,它是根据一定的判断标准来决定是否传送DCT 88像素块信息。例如当运动补偿的帧间误差很小时,使得DCT系数量化后全为零,这样可不传此信息。对于传送块而言,它又可分为帧间编码传送块和帧内编码传送块两种。为了减少误码扩散给系统带来的影响,最多只能连续进行132次帧间编码,其后必须进行一次帧内编码。 ☆由于在经过线性量化、变长编码后,数据将被存放在缓冲器中。通常是根据缓冲器的空度来调节量化器的步长,以控制视频编码数据流,使其与信道速率相匹配。

184 在H.261标准中采用层次化的数据结构,它包括图像层(P)、块组层(GOB)、宏块层(MB)和像素块(B)四层,如图3-31所示。
间和时间上的冗余度进行压缩,可以获得较高的压缩率。 这个视频编码方案对以后各种视频编码标准都产生了深远 影响,其影响直至现在。 (4)H.261标准的数据结构 在H.261标准中采用层次化的数据结构,它包括图像层(P)、块组层(GOB)、宏块层(MB)和像素块(B)四层,如图3-31所示。

185 编码的最小单元为8×8的像素块;4个亮度块和对应的两个色度块构成一个宏块;一定数量的宏块(33块)构成一个块组;若干块组(对于CIF格式为12个块组)构成一帧图像。每一个层次都有说明该层次信息的头,编码后的数据和头信息逐层复用就构成了H.261的码流。 图4-50 H.261数据结构

186 从图中可清楚的看出,一帧CIF格式的图像是由12个块组GOB构成。每个GOB又包含33个MB(宏块),而每个MB则是由6个块(B)构成,其中包含4个亮度块和2个色度块。
源图像经变换后按4∶2∶2进行采集,并对采集的图像数据进行分块。分块是逐层进行的。首先,一幅CIF图像分成12个块组,一幅QCIF图像分为3个块组。每个块组(Group of Block,GOB)又是由3×11=33个宏块组成(Macro Block,MB)。每个宏块又由4个8×8的亮度(Y)图块、一个8×8的色差(CB)图块和一个8×8的色差(CR)图块构成。这样,一幅图像最后就被分成了若干8×8的图块。

187 … … (Q)CIF帧图 图像头 块组1 块组2 块组3 块组1头 宏块1 宏块2 宏块33 宏块1头 亮度块1 亮度块4 色度块1
色度块2 DCT 系数 DCT 系数 结束 视频数据结构图

188 帧 QCIF CIF 块组 1 2 5 6 宏块 3 4 块 8 图像数据层次结构 8 1 2 3 4 5 6 7 8 9 10 11 12
13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 块组 1 2 5 6 宏块 3 4 8 8 图像数据层次结构

189 ☆图像层是由帧首和12个块组层构成。其中帧首包括一个20比特帧起始码和其他标志信息,如帧数、视频格式(CIF/QCIF)等。
由图4-50和图4-51可知,H.261数据结构为: ☆图像层是由帧首和12个块组层构成。其中帧首包括一个20比特帧起始码和其他标志信息,如帧数、视频格式(CIF/QCIF)等。 ☆块组层是由GOB首和33个宏块构成,其中GOB首中包含16bit块组编号、块组量化步长等标志信号。 ☆宏块层是由宏块首和其后面的6个数据块构成,MB首包括宏块地址、类型信息、运动矢量数据和编码块图样等信息。 ☆块层是由DCT系数(TCOEFT)和块结束符(EOB)组成。每块包含8×8个数据。 需要指出的是以上分析是针对CIF格式而言的。如果采用的是QCIF格式的图像,那么一帧图像仅包含3个GOB。

190 2、H.263 (1)H.263与H.261的区别 H.263标准是一种甚低码率通信的视频编码方案。所谓甚低码率视频编码技术是指压缩编码后的码率低于64kbit/s的各种压缩编码方案.它是以H.261为基础,其编码原理和数据结构都与H.261相似,但存在下列区别:

191 ①H.263能够支持更多图像格式 H.263不仅可以支持CIF和QCIF标准数据格式,而且还可以支持更多原始图像数据格式,如sub-QCIF、4CIF和16CIF等。 ②H.263建议的两种运动估值 H.261标准要求对16×16像素的宏块进行运动估值,而在H.263标准中,不仅可以16×16像素宏块为单位进行运动估值,同时还可以根据需要采用8×8像素子块进行运动估值。 ③采用半精度像素的预测值和高效的编码 ④提高数据压缩效率

192

193 (2)H.263提供四种有效的压缩编码方法 ①无约束运动矢量算法:改善边缘有运动物体的图像质量 ②基于语法的算术编码:编码效率进一步提高 ③高级预测模式:提高了重建图像的质量 ④PB帧模式:吸取了MPEG系列标准的优点

194 4.7.4 MPEG系列 MPEG是活动图像专家组(Moving Picture Experts Group)的缩写。MPEG-X是一组由IEC和ISO制定发布的视频、音频、数据的压缩标准。它采用的是一种减少图像冗余信息的压缩算法,提供的压缩比可以高达200:1,同时图像的质量也非常高。MPEG系列标准已成为国际上影响最大的多媒体技术标准,对数字电视、视听消费电子、多媒体通信等信息产业的发展产生了巨大而深远的影响。它具有3方面优势:首先,作为国际标准,具有很好的兼容性;其次,能够比其他压缩编码算法提供更高的压缩比;最后,能够保证在提供高压缩比的同时,使数据损失很小。

195 现在通常用的版本是:MPEG-1 , MPEG-2 , MPEG-4 , MPEG-7 , MPEG-21,它们能够适用于不同信道带宽和数字影像质量的要求。
MPEG-1是1993年8月正式通过的技术标准,其全称为“适用于约1.5Mbit/s以下数字存储媒体的运动图像及伴音的编码”。MPEG-l标准主要用于多媒体存储与再现,如VCD、DAT、硬盘和光盘等,它的任务是将视频信号及高质量伴音以可接受的重建质量压缩到约1.5Mbit/s的码率,并复合成一个单一的MPEG位流,同时保证视频和音频的同步。

196 MPEG-2是1994年11月发布的“活动图像及其伴音通用编码”标准,该标准可以应用于2
MPEG-2是1994年11月发布的“活动图像及其伴音通用编码”标准,该标准可以应用于2.048Mbit/s~20Mbit/s)的各种速率和各种分辨率的应用场合之中。如多媒体计算机、多媒体数据库、多媒体通信、常规数字电视、高清晰度电视以及交互式电视等。 MPEG-4是1999年1月公布了该标准的V1.0版本,同年12月公布了V2.0版本。该标准主要应用于超低速系统之中,例如多媒体Internet、视频会议和视频电视等个人通信、交互式视频游戏和多媒体邮件、基于网络的数据业务、光盘等交互式存储媒体、远程视频监视及无线多媒体通信。特别是它能够满足基于内容的访问和检索的多媒体应用,并且其编码系统是开放的,可随时加入新的有效算法模块。

197 MPEG-7是2000年11月颁布的称为“多媒体内容描述接口”的标准。定义该标准的目的是指定出一系列的标准描述符来描述各种媒体信息。这种描述与多媒体信息的内容有关,这样将便于用户进行基于内容和对象的视听信息的快速搜索。可见MPEG-7与其他MPEG标准的不同之处在于它只提供了与内容有关的描述符,并不包括具体的视音频压缩算法,而且还未形成与内容提交有关的所有标准的总框架。 MPEG-21的全称为“多媒体框架”。该标准的目的在于为多媒体用户提供透明而有效的电子交易和使用环境。

198 1、MPEG-1 MPEG-1标准是由三个部分构成: 第一部分是系统部分,编号为 。它描述了几种伴音 和图像压缩数据的复用以及加入同步信号后的整个系统。 第二部分为视频部分,主要规定了图像压缩编码方法,编号为 第三部分为音频部分,主要规定了数字伴音压缩编码,编号为 可见MPEG-1标准的基本任务就是将视频与其伴音统一起来进行数据压缩,使其码率可以压缩到1.5Mbit/s左右,同时具有可接收的视频效果和保持视音频的同步关系。

199 (1)系统部分 MPEG-1标准的系统部分主要按定时信息的指示,将视频和音频数据流同步复合成一个完整的MPEG-1比特流,从而便于信息的存储与传输。在此过程将向数据流中加入相关的识别与同步信息,这样在接收端,可以根据这些信息,从接收数据流中分离出视频与音频数据流,并分别送往各自的视频、音频解码器进行同步解码和播放。

200 (2)视频部分 与H.261标准相似,MPEG-1标准也采用带运动补偿的帧间预测DCT变换和VLC技术相结合的混合编码方式。但MPEG-1在H.261的基础上进行的重大的改进,具体如下: ①输入视频格式 MPEG-1视频编码器要求其输入视频信号应为逐行扫描的SIF格式,如表4-6所示。如果输入视频信号采用其他格式,如ITU-R BT601,则必须转换成SIF格式才能作为MPEG-1的输入。

201 ★ I图像帧是一种帧内编码图像帧。它是利用一帧图像中的像素信息,通过去除其空间冗余度而达到数据压缩的。
②预测与运动补偿 与H.261标准相同,MPEG-1也采用帧间预测和帧内预测相结合的压缩编码方案,以此来满足高压缩比和随机存取的要求。为此在MPEG-1标准中定义了三种类型的帧:分别是I图像帧、P帧和B帧。 ★ I图像帧是一种帧内编码图像帧。它是利用一帧图像中的像素信息,通过去除其空间冗余度而达到数据压缩的。

202 它是利用过去一个I图像帧或P图像帧,采用带运动补偿的帧间预测的方法进行编码。该图像帧可以为后续的P帧或B帧进行图像编码时提供参考。

203 ③视频码流的分层结构 MPEG-1数据码流也同样采用层次结构,其结构如图4-56所示。可见其最基本单元是块,下面分别进行介绍。

204 ★块:一个块是由8×8像素构成的。亮度信号、色差信号都采用这种结构。它是DCT变换的最基本单元。
★宏块:一个宏块是由附加数据与4个8×8亮度块和2个8×8色差块组成。其中附加数据包含宏块的编码类型、量化参数、运动矢量等。宏块是进行运动补偿运算的基本单元。 ★图像条:一个图像条是由附加数据与若干个宏块组成。附加数据包括该图像条在整个图像中的位置、默认的全局量化参数等。图像条是进行图像同步的基本单元。应该说明的是在一帧图像中,图像条越多,其编码效率越低,但处理误码的操作更容易,只需跳过出现误码的图像条即可。

205 ★图像:一幅图像是由数据头和若干片构成的。其中数据头包含该图像的编码类型及码表选择信息等。它是最基本的显示单元。通常我们也称其为帧。
★图像组:一个图像组是由数据头和若干图像构成。数据头中包含时间代码等信息。图像组中每一幅图像既可以是I帧,也可以是P帧或B帧。但需说明的是GOP中的第一幅图像必须是I帧,这样可以便于提供图像接入点。 ★图像序列是由数据头和若干图像组构成的。数据头中包含图像的大小,量化矩阵等信息。

206 ④MPEG-1视频编/解码原理 MPEG-1视频编/解码器的原理框图如图4-57所示。从图中可以看出,其功能包含帧间/帧内预测、量化和VLC编码。

207 a.帧内编码 由于输入图像序列的第一帧一定是I帧,因而无需对其进行运动估值和补偿,只需要将输入图像块信号进行8×8变换,然后对DCT变换系数进行量化,再对量化系数进行VLC编码和多路复用,最后存放在帧缓冲器之中,其输出便形成编码比特流,解码过程是编码的逆过程。 b.帧间编码 从输入图像序列的第二帧开始进行帧间预测编码,因而由量化器输出的数据序列一方面被送往VLC及多路复用器的同时,还被送往反量化器和IDCT变换(DCT反变换),从而获得重建图像,以此作为预测器的参考帧。该过程与接收端的解码过程相同。

208 此时首先求出预测图像与输入图像之间的预测误差,当预测误差大于阈值时,则对预测误差进行量化和VLC编码,否则不传该块信息,但需将前向和后向运动矢量信息传输到接收端,在实际的信道中传输的只有两种帧,即I帧和P帧,这样,在接收端便可以重建I帧和P帧,同时根据所接收的运动矢量采用双向预测的方式恢复B帧。 值得注意的是,对于B帧的运动估值过程要进行两次,一次用过去帧来进行预测,另一次则要用将来帧进行预测,因此可求得两个运动矢量。同时,在编码器中可以利用这两个宏块(过去帧和将来帧)中的任何一个或两者的平均值和当前输入图像的宏块相减,从而得到预测差。这种编码方式就是前面介绍的帧间内插编码。

209 2、MPEG-2 1995年出台的MPEG-2 ( ISO/IEC 13818)标准所追求的是CCIR601标准的图像质量,即为DVB, HDTV和DVD等制定的3-10 Mb/s的运动图像及其伴音的编码标准。MPEG-2在NTSC制式下的分辨率可达720486,MPEG-2还可提供广播级的视频和CD级的音质。MPEG-2的音频编码可提供左、右、中声道及两个环绕声道,以及一个重低音声道和多达7个伴音声道(DVD可有8种语言配音的原因)。同时,由于MPEG-2的出色性能表现,已能适用于HDTV,使得原打算为HDTV设计的MPEG-3,还没出世就被抛弃了。

210 MPEG-2的另一特点是,可提供一个范围较广的可变压缩比,以适应不同的画面质量、存储容量以及带宽的要求。其应用范围除了作为DVD的指定标准外,MPEG-2还可用于为广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频。目前,欧、美、日等国在视频方面采用MPEG-2标准,而在音频方面则采用AC-3标准,数字视频广播(Digital Video Broadcasting,DVB)标准中的视频压缩标准也确定采用MPEG-2,音频压缩标准采用MPEG音频。 它与MPEG-1兼容的基础上实现了低码率:MPEG-2可以将一部120分钟长的电影压缩到4~8GB(DVD质量)。

211 MPEG-2标准分为九个部分。 第一部分为MPEG-2系统,描述多个视频流和音频流合成节 目流或传输流的方法。 第二部分是MPEG-2视频,描述视频编码方法。 第三部分为MPEG-2音频,描述音频编码方法。 第四部分是一致性,描述测试一个编码码流是否符合MPEG- 2码流的方法。

212 第五部分为参考软件,描述第一、二和三部分的软件实现方法。
第六部分是数字存储媒体的命令和控制DSM-CC,描述交互式 多媒体网络中服务器和用户之间的会话信令集。 第七部分是高级音频编码AAC,规定了不兼容MPEG-1音频的 多通道音频编。 第八部分是一致性DSM-CC。 第九部分为实时接口,描述传送码流的实时接口规范。 在MPEG-2标准中除包括系统、视频和音频三部分外,还包括符合性测试、软件、数字存储媒体的指令和控制等六部分内容。这里我们仅讨论系统与视频部分。

213 (1)系统部分 MPEG-2系统部分的基本功能是能将一个或多个视频、音频及其它数据的基本流组合成一个或多个可供存储和传输的码流,因此其中应提供用于多个码流解码时的同步、交织与控制等信息。 ①MPEG-2系统结构 在图4-58中给出了MPEG-2系统结构图。

214

215 MPEG-2传送流解码器原理

216 ②节目流与传送流 MPEG-2的节目流是由有共同时间基准的一个或多个打包基本流组合而成,多个有共同时间基准的音频和视频基本流,经过编码又可构成多个节目流。所有的基本流将在同步情况下进行解码,其组成如图4-60所示,可见节目流的长度是可变的,一般相对传送流而言,长度较长。

217 MPEG-2节目流的编码格式

218 MPEG-2传送流的编码格式

219 (2)视频部分 MPEG-2的视频标准是在MPEG-1的基础上进行了重大的改进和扩充,主要体现在以下几方面: ①设置了“按帧编码”和“按场编码”两种模式。 MPEG-1标准中支持逐行扫描,但在MPEG-2标准中考虑到电视信号隔行扫描的特性,专门设置了“按场编码”模式,同时对运动补偿算法和DCT方式进行了扩充,细分为“按帧运动补偿”和“按场运动补偿”,从而显著地提高了压缩编码的效率。

220 ②引入“可分级型”的概念 在MPEG-2中视频图像编码是即分“档次”,又分“等级”的.“档次”是按编码难易程度来进行划分的,其中每个档次都是MPEG-2语法的一个子集,因此全部语法的部分子集共分五种档次,分别为无B帧的简单型、允许B帧的基本型、信噪比可分级型、空间可分级型和增强型。 若从图像格式的难易程度观察,每个档次又划分为四个“等级”,不同等级的相关参数不同,具体“档次”和“等级”规范如表4-9所示。 ③规定了三种色差取样格式 ④扩展DCT扫描方式 ⑤采用更精细的量化 ⑥可分级编码模式 表4-7 MPEG-2标准的通信规范及各等级允许的帧频和最大垂直运动矢量范围。

221 一般在MPEG-2可分级编码中,至少可以将码流分为基本层和增强层。基本层包含重建基本图像是所需的码流,而增强层则提供使图像达到更高质量所需的码流。
通常划分方法有四种(称为四种可分级编码模式),具体如下: ★按数据的重要性进行划分 在基层中所包含的数据有头信息、运动矢量及低频DCT系数等重要数据,而在增强层中包括了不太重要的数据,如高频DCT系数。在信息传输过程中,网络重点保护基本层信息,而对增强层的保护程度可以低一些。

222 ★按SNR进行划分 首先DCT变换系数通过具有粗量化步长的量化器Q1,对量化器Q1输出的DCT系数进行扫描和VLC编码,从而形成基本层码流,然后用原始DCT系数减去Q1反量化器输出结果,它们的差值再通过量化器Q2输出DCT,并对系数进行扫描和VLC编码,进而产生增强码层流。在4Mbit/s~9Mbit/s的范围内,用SNR可分级码流比不可分级码流损失0.5dB~1.1dB. ★按空间分辨率进行分级 在基本层中所包含的码流是对输入图像进行亚取样后的、具有低分辨率的图像码流,其编码与MPEG-1的编码相似,而在增强层中所包含的码流为其余高分辨率的图像码流。在4Mbit/s码流下,空间分级比未采用可分级的编码损失0.75dB~1.5dB.

223 ★从时间域进行划分 首先均匀去掉一些帧或场,对保留的图像按标准方式进行编码,从而形成基本层码流,而去掉的图像码流则组成增强层,时域分级比未采用分级编码损失0.2~0.3dB.

224 3、MPEG-4低比特率音频与视频对象压缩编码标准
MPEG-4(正式命名为ISO/IEC 14496)于1998年11月公布,它是针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。这个标准主要应用于可视电话、可视电子邮件等,对传输速率要求较低,在4.8~64kb/s之间,分辨率为176144。MPEG-4利用很窄的带宽,通过帧重建技术以及数据压缩技术,以求用最少的数据获得最佳的图像质量。

225 MPEG-4比MPEG-2的应用更广泛,最终希望建立一种能被多媒体传输、多媒体存储、多媒体检索等应用领域普遍采纳的统一的多媒体数据格式。由于所要覆盖的应用范围广阔,同时应用本身的要求又各不相同,因此,MPEG-4不同于过去的MPEG-2或H.26X系列标准,其压缩方法不再是限定的某种算法,而是可以根据不同的应用,进行系统裁剪,选取不同的算法。例如对Intra帧的压缩就提供了DCT和小波两种变换。 MPEG-4比起MPEG-2及H.26X系列,新变化中最重要的三个技术特征是:基于内容的压缩、更高的压缩比和时空可伸缩性。

226 (1)MPEG-4与MPEG-1、MPEG-2标准的根本区别
它首先根据内容将图像分割成不同的视频对象VO,例如在会议电视系统中常见的视频图像是以讲话的人为前景,此外还有背景,因而在视频对象的划分中经常将人作为前景视频对象,而将其余部分视为背景视频对象。其中前景视频对象中包含了重要的边界和轮廓信息,因此在编码过程中应尽可能地保留这部分信息,而对人们不太关心的背景视频对象,则可以采用大比例的压缩策略,甚至可以不传输,仅在接收端用其他背景代替。

227 ②引入视频对象VO(Viedo Object)和视频对象平面
VOP(Video Object Plane)概念 在MPEG-4中是根据人眼感兴趣的一些特征,如纹理、运动、形状等,对视频图像进行分割,如图像的背景、画面上的对象(对象1、对象2,……),然后将各对象从场景中截取出来,每个对象所截取的图像区域不同,它们各自的形状也不同。通常将这些区域称为视频对象平面VOP,如图4-63所示。可见这幅图像(图4-63(a))包含了3个对象:VOP0(背景)、VOP1(树)和VOP2(人)。图4-63(b)指出了这三个对象在场景中组成的逻辑关系。

228

229 MPEG-4标准的构成: MPEG-4标准由七个部分构成。
第二部分是视频,描述基于对象的视频编码方法,支持对自然和合成视频对象的编码。MPEG-4也支持对自然和合成的视觉对象的编码。合成的视觉对象包括2D、3D动画和人面部表情动画等。 第三部分是音频,描述对自然声音和合成声音的编码。 MPEG-4不仅支持自然声音,而且支持合成声音。MPEG-4的音频部分将音频的合成编码和自然声音的编码相结合,并支持音频的对象特征。支持MIDI和TTS.

230 第四部分为一致性测试标准。 第五部分是参考软件。
第六部分是多媒体传送整体框架(Delivery Multimedia Integration Framework,DMIF),主要解决交互网络中、广播环境下以及磁盘应用中多媒体应用的操作问题,通过DMIF, MPEG-4可以建立具有特殊服务质量的信道,并面向每个基本流分配带宽。 (DMIF-delivery multimedia integration framework)。主要用于解决交互网络中、广播环境下以及光盘应用中多媒体应用的操作问题。它是MPEG-4制订的会话协议,用来管理多媒体数据流。通过传输多路合成比特信息来建立客户端和服务器端的连接与传输。

231 第七部分是MPEG-4工具优化软件,提供一系列工具描述组成场
景的一组对象,这些场景描述可以以二进制表示,与音/视频 对象一起编码和传输。 MPEG-4定义了一个系统解码模式(SDM), 该解码模式描 述了一种理想的处理比特流句法语义的解码装置,它要求特殊 的缓冲区和实时模式。通过有效地管理,可以更好地利用有限 的缓冲区空间。

232 MPEG-4编码特性 MPEG-4采用了对象的概念。不同的数据源被视作不同的对象,而数据的接收者不再是被动的,他可以对不同的对象进行删除、添加、移动等操作。这种基于对象的操作方法是MPEG-4与MPEG-1、MPEG-2的不同之处。语音、图像、视频等可以作为单独存在的对象,也可以集合成一个更高层的对象,经常称之为场景。MPEG-4用来描述其场景的语言叫Binary Format for Scenes(BIFS)。BIFS(binary format for scene)描述场景中对象的空间时间安排,观察者可以有与这些对象交互的可能性。BIFS语言不仅允许场景中对象的删除和添加,而且可以对对象进行属性改变,可以控制对象的行为——即可以进行交互式应用。

233 整个MPEG-4就是围绕如何高效编码AV(音视频)对象,如何有效组织、传输AV对象而编制的。因此,AV对象的编码是MPEG-4的核心编码技术。AV对象的提出,使多媒体通信具有高度的交互能力和很高的编码效率。MPEG-4用运动补偿消除时域冗余,用DCT消除空域冗余。与以往视频编码标准相同,为支持基于对象编码,MPEG-4还采用形状编码和与之相关的形状自适应DCT(SA - DCT)技术以支持任意形状视频对象编码。

234 与H.263相比,MPEG-4的视频编码标准要复杂的多,支持的应用要广泛的多。MPEG-4视频标准的目标是在多媒体环境中允许视频数据的有效存取、传输和操作。为达到这一广泛应用目标,MPEG-4提供了一组工具与算法,通过这些工具与算法,从而支持诸如高效压缩、视频对象伸缩性、空域和时域伸缩性、对误码的恢复能力等功能。因此,MPEG-4视频标准就是提供上述功能的一个标准化“工具箱”。

235 MPEG-4提供技术规范满足多媒体终端用户和多媒体服务提供者的需要。对于技术人员,MPEG-4提供关于数字电视,图像动画,Web页面相应的技术支持;对于网络服务提供者,MPEG-4提供的信息,能被翻译成各种网络所用的信令消息;对于终端用户,MPEG-4提供较高的交互访问能力。具体标准概括如下:

236 ◆将基本AVO对象合成为音视频对象,形成音视场景。 ◆将与AVO相连的数据复合、同步。 使用户端和所产生的音视场景交互。
◆提供音频、视频、或者音视频内容单元的表述形式,这种形式即AV对象(AVO:音视频对象),这些 AVO可以是自然内容和合成内容,这些内容可以用相机或麦克风记录,也可用计算机生成。 ◆将基本AVO对象合成为音视频对象,形成音视场景。 ◆将与AVO相连的数据复合、同步。 使用户端和所产生的音视场景交互。

237 MPEG-4提供一个组成的场景的标准方式,允许:
将AVO放在给定坐标系统中的任意位置。 将AVO重新组合成合成AVO(Compound AVO) 为了修改AVO属性(例如,移动一个对象的纹理,通过发送一个动画参数模拟一个运动的头部),应将流式数据应用于AVO。 交互式的改变用户在场景中的视点和听点。

238 背景全景图+视频对象(VO)=合成图像 MPEG-4应用实例

239 (2)MPEG-4系统组成 ①MPEG-4系统流 在图4-64中给出了一个典型MPEG-4系统的终端模型。 MPEG-4包括6个核心部分,分别是DMIF(多媒体传送整体框架)、数据平面、缓冲区管理和实时识别、场景描述、音频编码、视频编码。 ②MPEG-4视频流 MPEG-4是基于对象的视频编码系统。与传统的基于帧的压缩编码方法相比,非常便于操作和控制对象。例如用户可以根据兴趣为某些对象分配较多的比特,而对不感兴趣的对象分配较少的比特,这样在达到低速的同时又能满足图像的主观质量。

240 MPEG-4 系统的终端模型

241

242 (3)MPEG-4视频编码方法 在基于对象的视频压缩编码中,最基本的编码单元是对象,而且它是针对对象的纹理、形状、运动三种信息进行编码。 ①基于对象的视频编码方法 基于对象的视频编码方法主要有以下几种: ·基于对象的形状信息所采用的编码方法。 ·基于对象的纹理和颜色信息所采用的编码方法。 ·基于对象的信息所采用的编码方法。 这里需要说明的是MPEG-4的编码机制是基于16×16像素宏块来设计的。

243 a.MPEG-4的结构与语法 在MPEG-4视频码流中采用了视频场景分层描述的方式。它是由视频序列、视频对象、视频对象层、视频平面、视频块组、宏块和块组成的,如图4-66所示。 b.形状编码 VO的形状信息有两类:分别为二值形状信息和灰度形状信息。 c.纹理编码 针对帧内编码I-VOP信息和帧间编码的P-VOP或B-VOP差值信息都可以采用纹理编码。纹理编码主要采用8×8像素的DCT变换方法。

244 d.分级编码 在MPEG-2和MPEG-4中都采用了可分级技术,但MPEG-4中的可分级技术是通过VOL数据结构来实现的,基于对象的可分级扩展编码技术,它可以提供两种可分级扩展方式,分别是时间可分级扩展和空间可分级扩展。

245 e.Sprite编码

246 MPEG-4视频的分层结构

247 MPEG-4通用的可分级扩展框图

248 H.264 ISO MPEG和ITU-T的视频编码专家组VCEG于2003年联合制定了比MPEG和H.263性能更好的视频压缩编码标准,这个标准被称为ITU-T H.264建议或MPEG-4的第10部分标准,简称H.264/AVC(Advanced Video Coding)。H.264不仅具有高压缩比(其压缩性能约比MPEG-4和H.263提高一倍),而且在恶劣的网络传输条件下,具有较高的抗误码性能。H.264支持表3-7所示的三个范畴。

249 视频会话,如可视电话、远程医疗、远程教育、会议电视等
表3-7 H.264的几种应用 范 畴 应 用 基本 视频会话,如可视电话、远程医疗、远程教育、会议电视等 扩展 网络的视频流,如视频点播、IPTV等 主要 消费电子应用,如数字电视广播、数字电视存储等

250 1、H.264的分层结构 H.264采用“网络友好(Network Friendliness)”的结构和语法,以提高网络适应能力,适应IP网络和移动网络的应用。 从概念上划分,H.264算法分为视频编码层(VCL:Video Coding Layer)和网络提取层(NAL: Network Abstraction Layer)如图A所示。视频编码层负责表示高效的视频内容,即进行视频数据的压缩,通常打包和相应的信令是由视频编码层来完成。而网络提取层则负责以网络所要求的适当方式对数据进行打包和传送,并且在视频编码层与网络提取层之间还定义了一个基于分组方式的接口,它们分别提供高效编码和良好的网络适应性。

251 H.264的分层结构

252 2、H.264编码原理

253 H. 264同样是一种基于块的混合编码,其编码原理如图B所示。可见其基本原理与H. 261、H

254 ◎对传输错误的鲁棒性和对不同网络的适应性
与H.263和MPEG-4相比,H.264主要做了如下改进: ◎帧内预测 ◎帧间预测 ◎ SP/SI帧技术 ◎整数变换与量化 减少了方块效应。 用整数运算实现变换和量化。 提高了压缩效率。 ◎熵编码 ◎对传输错误的鲁棒性和对不同网络的适应性


Download ppt "多媒体通信技术 主讲教师:黄玉兰                学时:16."

Similar presentations


Ads by Google