第6章 图像压缩
图像压缩 压缩模型 信息理论 无损压缩 有损压缩 图像压缩标准
引言 (一)、图像数据压缩的重要性和必要性: # A4大小300dpi二值扫描——1MB # 640*480的24bit真彩色图像——0.92MB # 3656*2664的24bit电影胶片——29MB #PAL制数字视频——20M #高清晰度电视HDTV——166MB
(二)、图像数据压缩的应用领域: 1、办公自动化; 2、医学图像处理; 3、卫星遥感遥测系统; 4、高清晰度电视HDTV; 5、可视电话、会议电视; 6、移动多媒体图像及视频传输: 彩信业务,手机视频;…… 凡是涉及到图像数据的传输、交换与存储的领域均要求进行图像数据的压缩。
(三)、图像中冗余信息的主要表现: 1、图像的空间冗余;-象素间冗余 相同的目标 相同的直方图 象素间的相关性不同
2、图像彩色光谱空间的冗余; 3、视频图像信号在时间上的冗余; 4、图像的视觉心理冗余; ——压缩的目的就是去除信息冗余
如何评价图像编码中的解码图像与原始图像之间的偏离程度? 通过保真度(逼真度)准则 两大类准则:客观保真度准则,主观保真度准则
客观保真度准则 当所损失的信息量可用编码输入图像与解码输出图像的函数表示时,基于客观保真度准则的。 常用的准则有: 均方根误差erms 总误差 均方信噪比SNRrms
是可供观赏的高质量的图像,干扰并不令人讨厌 主观保真度准则 一般情况下,解压图像最终是依靠人的视觉来判断的,用主观保真度准则。 如对电视图像质量进行绝对评价的尺度为 评分 评价 说明 1 优秀的 优秀的具有极高质量的图像 2 好的 是可供观赏的高质量的图像,干扰并不令人讨厌 3 可通过的 图像质量可以接受,干扰不讨厌 4 边缘的 图像质量较低,希望能加以改善,干扰有些讨厌 5 劣等的 图像质量很差,尚能观看,干扰显著地令人讨厌 6 不能用 图像质量非常之差,无法观看
压缩模型 编码器 输入 图像 Encoder Decoder Increases the noise immunity 信源编 码器 信道编 码器 信道 信道解 码器 信源解 码器 f^(x,y) Encoder Decoder Increases the noise immunity Removes input redundancies
信息理论 (一)、信源空间概述 1、信息:事物运动状态或存在方式的不确定性的描述; 2、信源空间:随机符号及其出现概率的空间; 3、信源的分类: (1)、 连续信源—离散信源—混合信源; (2)、无记忆信源—有记忆信源(相关信源)—有限长度记忆信源(Markov信源)
(二)、信息的度量 1、信息公理 (1)、信息由不确定性程度进行度量; 确定事件的信息量为零。 (2)、不确定性程度越高信息量越大; (3)、相互独立性与信息量可加性; 独立事件的联合信息等于两个独立事件的信息总和。 满足上述公理的函数为:
(a)、非负性; (b)、信息量的单位: 底为2时——单位为:比特(bit) 底为e时——单位为:奈特(Nat) 底为10时——单位为:哈特 2、离散无记忆信源(DNMS)的信息量度量: (1)信源符号 的自信息量定义为: (a)、非负性; (b)、信息量的单位: 底为2时——单位为:比特(bit) 底为e时——单位为:奈特(Nat) 底为10时——单位为:哈特
(2)、信源平均自信息量(信息熵) 离散无记忆信源A的平均自信息量(信息熵)定义为:
3、平均码字长 借助熵的概念可以定义量度任何特定码的性能的准则,即平均码字长度。 其中βi为灰度级di所对应的码字长度。的单位也是比特/字符。
4、编码效率 编码符号是在字母集合A={a1,a2,a3,…am}中选取的。如果编码后形成一个新的等概率的无记忆信源,字母数为n,则它的最大熵应为logn比特/符号。因此这是一个极限值。如果H(d)/ =logn,则可以认为编码效率已经达到100%,如果H(d)/ <logn,则可认为编码效率较低。
5、压缩比 压缩比是衡量数据压缩程度的指标之一。目前常用的压缩比定义为 其中LB为源代码长度,Ld为压缩后代码长度,Pr为压缩比。 压缩比的物理意义是被压缩掉的数据占据源数据的百分比。当压缩比Pr接近100%时压缩效果最理想。
6、互信息 信源编码输出为bk给出的关于ai的信息量究竟为多少呢?为此将引入另外一个信息量度-互信息 对给定的两个离散信源X和Y,Y中事件bk的发生给出关于X中事件ai的互信息I(ai:bk)定义为: 其中,p(ai|bk)表示信源编码输出为bk,估计信源输入为ai的条件概率。I(ai|bk)称为条件自信息量,表示在发现信源编码输出为bk,对信源输入为ai的不确定性的猜测或知道bk后ai还保留的信息量。I(ai)表示ai的不确定性。两者值差即为bk解除的ai不确定性的多少。
无损压缩编码 哈夫曼编码 游程编码 无损预测编码
哈夫曼编码 50年代提出,一种无损的统计编码方法 用变长的码使冗余量达到最小,用一棵二叉树来编码,使常出现的字符用较短的码表示,不常出现的字符用较长的码表示。 用一个例子来介绍哈夫曼编码的步骤
给出一组初始信源的概率分布 符号 a1 a2 a3 a4 a5 a6 概率 0.1 0.4 0.06 0.04 0.3 1、缩减信源符合数量-将概率从大到小排列,再将两个概率最小的符号结合得到1个组合符号,如果剩下的符号多余2个,继续上述过程,直到只剩2个符号为止。 初始信源 信源的消减步骤 符号 概率 1 2 3 4 a2 0.4 0.6 a6 0.3 a1 0.1 0.2 a4 a3 0.06 a5 0.04 4 2 3 1
2、对每个信源赋值-先从(消减到)最小的信源开始,逐步回到初始信源,过程如表所示。对一个只有2个符号的信源,最短长度的二元码由符号0和1组成,将它们赋予对应最右列2个概率的符号 对消减信源的赋值 符号 概率 码字 1 2 3 4 a2 0.4 0.6 a6 0.3 00 a1 0.1 011 0.2 010 01 a4 0100 a3 0.06 01010 0101 a5 0.04 01011 1 2 3 4
哈夫曼编码效率 信源熵为: H=-∑Pilog2Pi =-(0.4log20.4+0.3log20.3 +2*0.1log20.1+0.06log20.06+0.04log20.04) =2.14比特/符号
R= ∑βiPi =0.4×1+0.3 × 2+0.1 × 3+0.1 × 4+0.06 × 5+0.04 × 5=2.2比特/符号 码字长度 平均码字长度:R=∑βiPi R= ∑βiPi =0.4×1+0.3 × 2+0.1 × 3+0.1 × 4+0.06 × 5+0.04 × 5=2.2比特/符号 编码效率:η=H/R(%) η=H/R=2.14/2.2=0.973=97.3%
游程编码-RLC 根据对各类图像的统计,发现图像信源中象素的空间相关性比较强。在经过采用和量化形成数字彩色图像后,其相邻象素的相关性体现在相邻象素亮度取值变化不大 对典型的黑白文本图像进行分析发现,前一象素为白色象素时,当前象素取值为白的条件概率P(W|W)平均在97%以上,而由白象素变为黑象素的概率P(B|W)仅为3%,类似的,当前一象素为黑,当前象素为黑的条件概率P(B|B)平均为75%,由黑变白的概率P(W|B)仅为25%。 对重复出现的字符、字符连续重复的个数以及起始位置进行编码,就能恢复该字符串 重复字符 游程标志 游程长度 基本RLC结构
从RLC基本数据占用3个字节,即只有当重复字符串长度大于24(即连续有24个象素取值相同)时,才有数据压缩效益。 从根本上讲,游程编码依然是通过去除图像象素间的相关性,来达到数据压缩的目的 但是它不仅仅只利用一个相邻象素的信息,实际上,利用了图像多个象素间的相关性,其熵为高阶熵 数字传真压缩编码标准 二值文本图像
无损预测编码 预测编码有线性预测和非线性预测两大类,可以在一幅图像内进行,即所谓的帧内预测法,也可以在多幅图像之间进行,即所谓的帧间预测法。 相邻像素间的空域相关性 无损预测编码 预测编码有线性预测和非线性预测两大类,可以在一幅图像内进行,即所谓的帧内预测法,也可以在多幅图像之间进行,即所谓的帧间预测法。 线性预测法通常称为差值脉冲编码调制法(Differential Pulse Code Modulation),简称DPCM 相邻帧之间的时域相关性
预测编码的基本思想:通过仅提取每个象素中的新信息并对它们编码,来消除象素间的冗余 该象素的当前或现实值与预测值的差 差组成 预测误差序列 预测误差的熵为信源的高阶熵 预测编码的基本思想:通过仅提取每个象素中的新信息并对它们编码,来消除象素间的冗余 预测器 整数 舍入 符号编 码器 符号解 S 输入图像 压缩图像 解压图像 预测误差, en fn f^n en + + - 预测误差:en=fn-f^n
通过预测可以消除相当多的象素间冗余,所以预测误差的概率密度函数一般在0点有1个高峰,并且与输入灰度值分布相比,其方差较小,事实上,预测误差的概率密度函数一般用0均值不相关拉普拉斯概率密度函数表示 pe(e) =
有损压缩 有损预测编码 变换编码
有损预测编码 S 在无损预测编码系统基础上,加1个量化器构成,如图所示 e.n e n fn - f.n f^n 符号编 量化器 码器 预测器 符号解 输入图像 压缩图像 解压图像 fn f^n - e n e.n f.n
从上图可以看出,将有损编码器的预测器放在1个反馈环中,这个环的输入是过去预测和与其相对应的量化误差的函数: f.n=e.n+f^n 量化器插在符号编码器与预测误差产生处之间,把原来无损编码器中的整数舍入模块吸引进来,它将预测误差映射进有限个输出e.n中,e.n确定了有损预测编码中的压缩量和失真量 为接纳量化步骤,需要改变无损编码器,以使编码器和解码器所产生的预测能相等 从上图可以看出,将有损编码器的预测器放在1个反馈环中,这个环的输入是过去预测和与其相对应的量化误差的函数: f.n=e.n+f^n 这样一个闭环结构,其目的是能防止在解码器的输出端产生误差
德尔塔调制(DM)是1中最简单的有损预测编码方法,其预测器和量化器分别定义为: f^n=af.n-1 e.n= +c 对en>0 -c 其它 其中a是预测系数(一般小于等于1),c是1个正的常数 因为量化器的输出可用单个位符表示(输出只有2个值),所以上图编码器中的符号编码器只用长度固定为1bit的码,由DM方法得到的码率是1比特/象素
DM编码示例 取上述公式中的a=1和c=6.5。设输入序列为{14,15,14,15,13,15,15,14,20,26,27,28,27,27,29,37,47,62,75,77,78,79,80,81,82,82}。编码开始时,先将第一个输入象素直接传给编码器。在编码器和解码器两端都建立初始条件f.0=f0=14后,其余的f^,e,e.,和f.可用上述公式计算得到 给出DM编码例子,如表所示
输入 编码器 解码器 误差 n f f ^ e e. f. f^ [f-f.] 14 - 14.0 0.0 1 15 1.0 6.5 20.5 -5.5 2 -6.5 3 … 29 8.5 27.0 2.0 37 10.0 33.5 3.5 16 47 13.5 40.0 7.0 17 62 22.0 46.5 15.5 18 75 28.5 53.0 19 77 24.0 59.5 17.5
1、当c远大于输入中的最小变化时,如在n=0到n=7的相对平滑区域,DM编码会产生颗粒噪声。 画出对应表中的输入和输出(f和f.) 颗粒噪声 斜率过载 信号f 信号f. n f,f. 6 2 4 8 10 12 14 16 18 20 22 24 26 2点值得指出: 1、当c远大于输入中的最小变化时,如在n=0到n=7的相对平滑区域,DM编码会产生颗粒噪声。 2、当c远小于输入中的最大变化时,如在n=14到n=19的相对陡峭区间,DM编码会产生斜率过载。 对大多数图像而言,上述2种情况分别会导致图像中目标边缘发生模糊和整个图像产生纹状表面
DCT编码 基于离散余弦变换(DCT)的编码方法是JPEG算法的核心内容。 该算法包括两个不同层次的系统:其一为基本系统(baseline system),采用顺序工作方式编码,只采用哈夫曼编码,解码只能存储两套哈夫曼表;而另一个增强系统,采用累进工作方式,它是基本系统的扩充和增强,采用了有适应能力的算术编码,如图给出编解码过程
DCT变换-JPEG采样的是8×8大小的子块的二维离散余弦变换DCT。在编码器的输入端,首先把原始图像顺序地分割成一系列8×8的子块。设原始图像的采样精度为P位,是无符号整数,然后把(0,2p-1)范围的无符号整数变成[-2p-1,2p-1-1]范围内的有符号整数,以此作为DCT的输入。在解码器输出端,经离散余弦反变换IDCT后又得到一系列8×8块的图像数据块,将其数值范围由[-2p-1,2p-1-1] 再变回[0,2p-1]范围内的无符号整数,即获得重构的图像。
量化-为了达到压缩数据的目的,对DCT系数F(u,v)需作量化处理。量化处理是一个多对一的映射,它是造成DCT编解码信息失真的主要根源。量化有均匀量化和非均匀量化等方法 DC系数的编码和AC系数的行程编码-64个变换系数经量化处理后,坐标u=v=0是直流分量DC系数,即64个空域图像采样值的平均值,相邻8×8块之间的DC系数有强的相关性。编码方式如图所示。在JPEG中对DC系数采样DPCM编码,其余63个AC交流系数采样行程编码
熵编码-为了进一步达到压缩数据的目的,需要对DC码和AC行程编码的码字再作基于统计特性的熵编码。在JPEG中建议采样两种熵编码方法,即哈夫曼编码和自适应二进制算术编码
图像压缩标准 二值图像压缩标准 静止图像压缩标准 序列图像压缩标准
现在称为ITU(international telecommunication union) 二值图像压缩标准 G3和G4-由CCITT国家电话电报咨询委员会(consultative committee of the international telephone and telegraph)的两个小组(Group3和Group4)负责制定的,最初为传真应用而设计 非自适应编码方式 通过8组具有代表性的“实验”图来评判 打印文字、几种语言手写文字、线绘图 JBIG(joint bilevel imaging group)-这个标准是由ISO和CCITT两个组织的二值图联合组预1991年制定的。
G3和G4是非自适应技术的,所以对半调灰度图像编码是常产生扩展的效果(而不是压缩)。 JBIG的目标之一就是采用1种自适应技术,以解决这个问题。另外也想使压缩方法可用于与上述8幅不同类型的图,以及渐进的传输与重建应用 采用自适应技术,其编码效率比G3和G4要高
静止图像压缩标准 JPEG(joint picture expert group)-对静止灰度或彩色图像的压缩,由上述2个组织的灰度图联合专家制定,于1991年开始使用的,实际上定义了三种编码系统 (1)基于DCT地有损压缩编码基本系统,可用于绝大多数压缩应用场合 (2)用于高压缩比、高精度或渐进重建应用的扩展编码系统 (3)用于无失真应用场合的无损系统
输入和输出数据的精度都是8bit,但量化DCT值的精度是11bit 图像应用系统想与JPEG兼容,必须支持JPEG基本系统,但另一方面,JPEG并没有规定文件格式、图像分辨率或所用彩色空间模型,这样它就有可能适用于不同应用场合 对录像机质量的静止图像的压缩率一般可达25:1 JPEG的基本系统: 编码器 源图像 DCT变换 量化器 熵编 码器 压缩图像 输入和输出数据的精度都是8bit,但量化DCT值的精度是11bit
JPEG2000-于1997年开始征集提案的-采用小波子带编码作为核心编码方案 应用范围: *文献图像 *医疗成像 *传真技术 *安全像机 *互连网 *远程传感 *扫描仪 *数字化图书馆 *电子摄影
序列图像压缩标准 两大系列: 1、国际电信联盟 ITU(CCITT) H.26X系列 主要在通信传输领域内应用 2、国际标准化组织 ISO MPEG-X系列 应用范围很宽-视频图像压缩编解码
H.261 由CCITT于1990年制定的序列灰度图像压缩标准,主要为电视会议等应用而制定,也称为P×64标准(P=1,2,…30),其码流可为64,128,…1920kbit/s。它可允许带宽为1.544Mbit/s以小于150ms的延迟传输运动视频 它将前面介绍的基于DCT的压缩方法进行了扩展,并将减少帧间冗余的方法也包含量进来。 包含两个最基本的步骤:
(1)对序列中的第一帧(或某参考帧)图用类似于JPEG中用的DCT压缩,以减少帧内冗余度 (2)估计目标的运动(通过计算当前帧与下1帧间的相关),以确定如何压缩下1帧,以减少帧间冗余度 ∑ DCT 量化器 变长 编码 缓冲 存储 IDCT 反量化 滤波器 运动 补偿 帧存 储器 运动估值 图像输入 编码输出 量化间隔值 帧间预测误差 运动矢量 重建图像数据 量化后的帧间预测误差 帧间预测值
H.262标准 ITU为基于ATM宽带网络的视频会议而制定的,与ISO的MPEG-2标准完全一样。 H.263标准-同H.261编码相同,进行一些改进 1、半像素的运动补偿-可提高运动补偿算法块匹配的预测性能 2、改进的游程编码 3、减小一般性的比特开销 4、增加了可选模式 5、算术编码替代游程编码或Huffman编码 6、增强的运动预测 7、双向预测代替了单纯的单向预测
MPEG-1 由上述2个组织联合的运动图像专家组(moving picture expert group MPEG)于1992年制定的第一个运动图像压缩标准。 它是一种娱乐质量的视频压缩标准,主要用于数字媒体上压缩图像数据的储存和提取。如CDROM、数字录音带、计算机硬盘、可擦写光盘等 这个标准并没有指定具体的编码程序,而只是确定了1个标准的编码码流和对应的解码器,码流速率不超过1.5Mb/s
与H.261比较,MPEG-1的新特点: 1、 随机存储 通过加入随机访问点来实现-要求在允许的时间内对任意一帧图像进行解码 2、 快速正向、反向搜索-对编码后的码流进行扫描,并且只显示选中的图像,以实现快速的正向和反向搜索 3、编码延迟比H.261大-主要作为一种媒介存储标准而制定的,其编解码要大于H.261。
MPEG-2-于1993年制定的第2个运动图像压缩标准,是一种高质量视频的编码标准,也称为广播电视的视频编码标准 用于视频传输的压缩标准,适用于从普通电视(5~10Mbit/s)到高清晰度电视(30~40Mbit/s)的带宽范围 主要用于场景变化很快的情况,所以规定每过15帧图一定要编1帧,不过并没有限定需用多少帧图来进行运动估计
MPEG4-制定的关于低于32kb/s传输速率的,适用于可视电话的运动图像编码标准。 旨在建立一种能被窄带网络(v<64vkbit/s)、带宽网络、无线网络、多媒体数据库等各种存储传输设备-通用音频、视频数据格式 既支持固定码流,也支持变码流,所采用的主要技术是基于目标的编码和基于模型的编码
中国的音视频编解码标准AVS 2006年2月22日,数字音视频编解码技术标准工作组(AVS工作组)收到国家标准化管理委员会发给信息产业部科技司的通知,《信息技术 先进音视频编码 第2部分:视频》已经批准,国家标准号GB/T 20090.2-2006,于2006年3月1日起实施。至此,数字电视乃至数字化音视频产业共性最强的基础标准一锤定音,“十一五”期间重点培育数字化音视频产业已经有标可循。
AVS是我国具备自主知识产权的第二代信源编码标准。顾名思义,“信源”是信息的“源头”,信源编码技术解决的重点问题是数字音视频海量数据(即初始数据、信源)的编码压缩问题,故也称数字音视频编解码技术。显而易见,它是其后数字信息传输、存储、播放等环节的前提,因此是数字音视频产业的共性基础标准。
数字化音视频产业是国民经济与社会发展的重要产业,是信息产业三大组成部分之一,有望在“十一五”期间成长为国民经济第一大产业。 AVS具有以下特征: 我国牵头制定的、技术先进的第二代信源编码标准—先进; 领导国际潮流的专利池管理方案,完备的标准工作组法律文件——自主; 制定过程开放、国际化——开放;