数字视频技术 第七章 视频编码国际标准 2010年11月.

Slides:



Advertisements
Similar presentations
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
Advertisements

AVS视频编码标准 常丽娜 2004/12/06.
计算机网络课程总结 一、计算机网络基础 计算机网络定义和功能、基本组成 OSI/RM参考模型(各层的功能,相关概念, 模型中数据传输 等)
第二章 多媒体数据压缩编码技术.
6.1 概述 6.2 信源编码与压缩技术 6.3 信道编码与调制技术
MTI 多媒体技术 第七讲 XIDIAN 国际视频压缩标准简介.
多媒体通信技术 主讲教师:黄玉兰                学时:16.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
第十章 运动图像压缩标准MPEG 10.1 从MPEG1到MPEG7:MPEG标准简述 10.2 MPEG的编码与实现过程
第10章 运动图像压缩标准MPEG 10.1 从MPEG1到MPEG7:MPEG标准简述 10.2 MPEG的编码与实现过程
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
第十二章 基于DCT变换的 视频压缩编码原理
全国计算机等级考试 二级基础知识 第二章 程序设计基础.
Hadoop I/O By ShiChaojie.
H.264/AVC视频编解码技术概念与实现.
存储系统.
管理信息结构SMI.
走进编程 程序的顺序结构(二).
网络常用常用命令 课件制作人:谢希仁.
乐驾-车载无线终端-CARRO 产品类型:车载无线路由器 建议零售价格:¥599 江苏鸿信
基于全方位视觉的多人体运动检测跟踪 利用全方位摄像机获取360˚ 的环境信息,在室内对多个人体目标进行实时运动检测。
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
Windows网络操作系统管理 ——Windows Server 2008 R2.
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
AM5728 视频输入端口VIP软件框架 广州创龙电子科技有限公司
逆向工程-汇编语言
数据挖掘工具性能比较.
CPU结构和功能.
多媒体技术 中南大学信息科学与工程学院 黄东军.
第3章 信息与信息系统 陈恭和.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
第一章 函数与极限.
图片与视频数字化. 图片与视频数字化 图片分类 根据图片的构成元素来分 位图: 由像素组成,计算机按顺序存储每个像素点 的颜色信息的保存方式获得的图片。 位图放大后会模糊失真,存储空间相对较大。 矢量图: 由图元组成,通过数学公式计算获得的图片。 放大后不会失真,占用空间小。
C++语言程序设计 C++语言程序设计 第七章 类与对象 第十一组 C++语言程序设计.
C语言程序设计 主讲教师:陆幼利.
简单介绍 用C++实现简单的模板数据结构 ArrayList(数组, 类似std::vector)
第四章 团队音乐会序幕: 团队协作平台的快速创建
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
VisComposer 2019/4/17.
主要内容: 无线局域网的定义 无线传输介质 无线传输的技术 WLAN的架构 无线网络搭建与配置 无线网络加密配置
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
多媒体技术 中南大学信息科学与工程学院 黄东军.
长春理工大学 电工电子实验教学中心 数字电路实验 数字电路实验室.
数据集的抽取式摘要 程龚, 徐丹云.
第八章 总线技术 8.1 概述 8.2 局部总线 8.3 系统总线 8.4 通信总线.
数据报分片.
无线网络特性展现 张琦.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
图片与视频数字化. 图片与视频数字化 图片分类 根据图片的构成元素来分 位图: 由像素组成,计算机按顺序存储每个像素点 的颜色信息的保存方式获得的图片。 位图放大后会模糊失真,存储空间相对较大。 矢量图: 由图元组成,通过数学公式计算获得的图片。 放大后不会失真,占用空间小。
基于列存储的RDF数据管理 朱敏
3.8 局域网应用实例 某省劳动和社会保障网络中心组网实例 会议中心的无线组网实例.
第8章 创建与使用图块 将一个或多个单一的实体对象整合为一个对象,这个对象就是图块。图块中的各实体可以具有各自的图层、线性、颜色等特征。在应用时,图块作为一个独立的、完整的对象进行操作,可以根据需要按一定比例和角度将图块插入到需要的位置。 2019/6/30.
第四章 UNIX文件系统.
第十七讲 密码执行(1).
第十二讲 密码执行(上).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
香港城市大学 导师: 布礼文教授( Dr. L M Po ) 学生: 徐叙远 ( Xu Xuyuan )
§4.5 最大公因式的矩阵求法( Ⅱ ).
入侵检测技术 大连理工大学软件学院 毕玲.
混沌保密通讯 实验人 郝洪辰( ) 李 鑫( ).
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
四路视频编码器 快速安装手册 1、接口说明 2、安装连接 3、软件下载 4、注意事项 编码器软件下载地址
学习目标 1、什么是列类型 2、列类型之数值类型.
Presentation transcript:

数字视频技术 第七章 视频编码国际标准 2010年11月

主要内容 视频图像编码标准 MPEG-1视频编码和解码 MPEG-2视频编码和解码 MPEG-4视频编码和解码 H.263视频编码和解码 H.264/AVC视频编码和解码

§7.1 视频图像编码标准

§7.1 视频图像编码标准 一、 H.261 H.261是用于视频会议和可视电话业务的以p×64kbps, p=1,…,30的速率在综合业务数字网(ISDN)上传送视频信号的压缩标准。 64kbps (p=1) 用于低端的可视电话业务,其中视频信号传输占用48 kbps的带宽,剩下的16 kbps用于音频信号; 384 kbps(p=6)或更高的速率用于高端的视频会议业务; 在ISDN信道上最高传输率为19.2Mbps (p=30),足以传送VHS质量的视频信号。 H.261颁布于1990年,主要用于双向视频通信,允许的最大编码延迟为150ms。它的输入图象格式为通用(同时适用于625线和525线的视频标准)中间格式CIF (352x288),低端可用其四分之一大小的QCIF (176x144)格式,桢率为30,15,10,7.5四种,隔行(interlaced)视频,宽高比4:3。

§7.1 视频图像编码标准 H.261的编码方案是基于DCT和DPCM的预测编码算法,运动每帧图象分成8x8的子块,再组成宏块、块组,宏块由4个8x8的亮度块和2个8x8的色度块组成,每个块组由3x11个宏块组成。 每幅QCIF图象有3个块组; 每幅CIF图象有12个块组,形成一个多层次的块结构。 二、H.263 H.263是在H.261的基础上针对低码率(低于64kbp)视频压缩提出的标准,与之不同的是采用半象素精度运动补偿算法和变长编码,并引进了16种可协商的编码选项用于提高压缩性能和支持新增加的功能。

§7.1 视频图像编码标准 三、MPEG-1 MPEG-1是1992年通过的视频压缩标准,用于CIF格式的视频在速率约1.5Mbps的各种数字存储介质(如CD-ROM,DAT,硬盘及光驱等)上的编码表示,主要应用在交互式多媒体系统中; MPEG-1算法与H.261算法相似,它在1.2Mbps(视频信号)速率下压缩和解压缩CIF格式的视频质量与VHS记录的模拟视频质量相当; 它是一种通用标准,规定了编码位流的表示语法和解码方法,提供的支持操作有运动估计、运动补偿预测、DCT、量化和变长编码。 MPEG-1的特点有:(1)随机存取,(2)支持快速双向搜索,(3)允许大约1秒的编码/解码延迟,比H.261的150ms内的严格限制松得多。

§7.1 视频图像编码标准 四、MPEG-2/H.262 MPEG-2是1993年通过的视频压缩标准,用于高清晰度视频和音频的编码,也包含用于可视电话中的超低码率(8-32kbps)的压缩编码; MPEG-2是MPEG-1的兼容扩展,广泛应用于各种速率(2-20Mbps)和各种分辨率情况下的场合; MPEG-2不仅接受逐行扫描视频,也可以接受隔行扫描视频,高清晰度视频,提供可伸缩调节的位流,提供改进的量化和编码选项。

§7.1 视频图像编码标准 五、MPEG-4 低于64kbps甚低数据率,交互式多媒体应用标准; §7.1 视频图像编码标准 五、MPEG-4 低于64kbps甚低数据率,交互式多媒体应用标准; MPEG-4利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,基于对内容的访问; AV对象(AVO,Audio Visual Object)是MPEG-4为支持基于内容编码而提出的重要概念;视音频已不再是图像帧的概念,而是一个个视听场景;把编码对象从图像帧到任意形状的视频对象,实现从基于像素的传统编码到基于对象和内容的现代编码。 采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用;

§7.1 视频图像编码标准 MPEG-7:多媒体内容描述标准,支持对多媒体资源的组织管理、搜索、过滤和检索; §7.1 视频图像编码标准 MPEG-7:多媒体内容描述标准,支持对多媒体资源的组织管理、搜索、过滤和检索; MPEG-21:多媒体框架和综合应用方面的框架。目标是建立一个交互的多媒体框架该标准致力于在大范围的网络上实现透明的传输和对多媒体资源的充分利用。 六、H.264/AVC 面向电视电话、电视会议和Internet多媒体的新一代国际视频编码标准; 具有较强的抗误码特性,可适应丢包率高、干扰严重的信道中的视频传输; 支持不同网络资源下的分级编码传输,在图像主观质量和码率方面有大幅改进,是目前综合性能最优、应用前景最广泛的编码标准。

基于语义 基于对象 基于像素 §7.1 视频图像编码标准 对象特征 提取 对象形成及跟踪 MPEG-7 MPEG-4 MPEG-1 §7.1 视频图像编码标准 基于语义 MPEG-7 对象特征 提取 基于对象 MPEG-4 00101001 对象形成及跟踪 基于像素 MPEG-1 MPEG-2

Internet通信,无线通信,2D/3D计算机图像交互式视频 §7.1 视频图像编码标准 编码标准 全 称 传输码率 主要应用 H.261 P×64kbps的音/视频服务的编/解码 P×64kbps P=1~30 ISDN视频会议 MPEG-1 面向数字存储的运动图像及伴音编码 1.5Mbps VCD,CD-ROM MPEG-2 运动图像及伴音的通用编码 4~100Mbps DVD,HDTV,VOD,DAB H.263 低比特率通信的视频编码 低于64kbps 远程视频监控,可视电话,电视会议 MPEG-4 音/视频对象的通用编码 小于64kbps 64~384kbps 384kbps~4Mbps Internet通信,无线通信,2D/3D计算机图像交互式视频 MPEG-7 多媒体内容描述接口 任意 多媒体检索 H.264/AVC 高级视频编码算法 未来视频编码工业标准

§7.2 MPEG-1视频编码和解码 一、标准简介 编号为ISO/IEC 11172; 规定视频信息与伴音信息经压缩之后的数据速率上限为 1.5Mbps(其中视频约为1.2Mbps,音频约为0.3Mbps); 可以在CD-ROM、硬盘、可写光盘、数字音频磁带等介质 上进行存储,也可在局域网、ISDN上进行视频与伴音信息 的传输; 应用: 目前市场上用的MP3和VCD以及数字电话网络上的视频传输为MPEG-1。

§7.2 MPEG-1视频编码和解码 二、标准组成 MPEG-1系统—这部分是有关同步和多路复合的技术,用来把数字视频和声音复合成单一的数据位流。标准名是ISO/IEC11172-1。 MPEG-1视频—这部分是有关电视图像的压缩技术,标准名是ISO/IEC11172-2。 MPEG-1音频—这部分是关于声音的压缩编码技术。标准名是ISO/IEC11172-3。 MPEG-1一致性测试—这个标准详细说明了如何测试比特数据流和解码器是否满足MPEG-1前3个部分中所规定的要求。这些测试可由厂商和用户实施。标准名是ISO/IEC11172-4。 MPEG-1软件模拟—这部分内容不是标准,而是一个技术报告,给出了用软件执行前3个部分的结果。标准名是ISO/IEC11172-5。

§7.2 MPEG-1视频编码和解码 三、输入图像格式 MPEG-1输入视频信号采用源输入格式(SIF, Source Input Format),采用YCrCb色空间; 采样格式4:2:0; MPEG-1最大的图像尺寸只能是352×288(对应25Hz帧频)。

§7.2 MPEG-1视频编码和解码 四、视频帧类型 帧内图(intra picture,I帧)——对I帧的编码类似于JPEG,支持随机存取,压缩比低; 预测图(predicted picture,P帧)——是运动主体在与I帧相隔一定时间,在同一背景上已有明显变化的画面。以前面I帧为参考,相同信息不发送只发送主体变化差值,进行具有运动补偿的前向预测; 双向预测图(bidirectional picture,B帧)——传送I、P帧间的画面,只反映运动主体变化情况,重放时即参考I也参考P,本身不做参考帧使用,不能用作预测参考;

§7.2 MPEG-1视频编码和解码

§7.2 MPEG-1视频编码和解码

§7.2 MPEG-1视频编码和解码 1 量化从10bits降为8bits 有损 2 省略水平和垂直空白间隔 无损 3 降低垂直方向色度分辨率(4:2:0) 有损 4 活动图像的DPCM 无损 5 DCT和量化 有损 6 Z扫描和零序列的游程编码 无损 7 Huffman编码 无损

§7.2 MPEG-1视频编码和解码 进一步数据压缩步骤 降低垂直色度分辨率(4:2:0) 忽略水平和垂直空白间隔 2~6Mbit/s -25% 降低垂直色度分辨率(4:2:0) 124.5Mbit/s -25% 忽略水平和垂直空白间隔 166Mbit/s -20% 量化10bits到8bits 270Mbit/s 216Mbit/s

§7.2 MPEG-1视频编码和解码 DPCM DCT+量化 进一步数据压缩 Z扫描+VLC Huffman编码

§7.2 MPEG-1视频编码和解码 五、MPEG-1视频编码器

§7.2 MPEG-1视频编码和解码 2、关键技术 (1)帧序重排 在编码器端需要对输入图像重新排序,对按显示顺序输入的序列,经过帧序重排后成为按编码顺序排列,然后按I、B、P帧分别进行编码; (2)运动估计和补偿 (3)比特流缓冲器

§7.2 MPEG-1视频编码和解码 图像压缩首先处理I帧图像,然后是P帧,最后在两者的基础上才处理B帧; MPEG编码器算法允许选择I图像频率(指每秒钟出现I图像的次数)和位置(时间方向上帧所在的位置); 一个典型的I、P、B图像排列如下:I的距离为15;P的距离为3;

§7.2 MPEG-1视频编码和解码 “开放性”的视频码流: I,P,B三种图象的数据压缩比: 2~5:1, 5~10:1, 20~30:1 相邻最近的I与P帧或P帧之间的B帧数目可以选择。 I,P,B三种图象的数据压缩比: 2~5:1, 5~10:1, 20~30:1 图象的编码顺序和显示顺序不相同。

§7.2 MPEG-1视频编码和解码

§7.2 MPEG-1视频编码和解码 习题: MPEG-1中编码器、解码器为什么会造成延时?如何减少延时? 解答: 显示顺序如下: I B B P B B P B B P B B I B B P 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 根据前向预测和双向预测的关系,编码顺序如下: I P B B P B B P B B I B B P B B 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

§7.2 MPEG-1视频编码和解码 显示顺序上在前的B帧图像,由于预测时参照靠后的P帧图像,在传输存储和解码是必须先处理P帧图像,因此在编码顺序上P帧图像反而在B帧图像之前; 由于编码顺序和显示顺序之间的差异,带来编、解码总延时达0.8~1s; 这种延时对广播性质的图像传输不会带来任何影响,因为用户并不能发现发射端与接收端信号起始时间的差异; 对于交互性质的图像传输,如数字会议电视会带来不便,如甲方向乙方提问,由于双向延时则会1.8~2s以后得到回答;

§7.2 MPEG-1视频编码和解码 为减小延时采用方法: 通过减少B帧使两个I帧之间的帧数减少,则编、解码总延时下降; 为进一步减小延时,可以把B帧、P帧全部去掉。这样可得零延时,此方式称M-JPEG方式; 此时压缩比降到5:1~7:1,所以延时与压缩倍数是互相矛盾的。

§7.2 MPEG-1视频编码和解码 习题: 若在一个有6帧图像的GOP中,I、P、B各帧的比例为1:2:3,请构造出该GOP序列,并给出各帧的编码顺序。 解答: 构造GOP序列为:I1 B2 P3 B4 P5 B6 I7 各帧编码顺序为: I1 P3 B2 P5 B4 I7 B6

§7.2 MPEG-1视频编码和解码 I帧编码算法

§7.2 MPEG-1视频编码和解码 P帧编码算法

§7.2 MPEG-1视频编码和解码 B帧编码算法

输入速率固定,但画面数据量大,必须设置缓冲 §7.2 MPEG-1视频编码和解码 六、MPEG-1视频解码器 输入缓冲 解码VLD IQ IDCT 前向运动补偿 缓冲器 内插运动补偿 后向运动补偿 前面 帧存 后面帧存 输出 输入 量化表 重建帧 输出为I、B、P画面的预测画面 输入速率固定,但画面数据量大,必须设置缓冲 预测画面+差分画面=重建画面

§7.2 MPEG-1视频编码和解码 VLD解码器先解出图像头信息,确定图像类型,提供预测方式和运动矢量等信息,解出量化的DCT系数; 经过运动补偿,得到相应的预测值; 预测差值再与当前的预测值相加,恢复像素值; 还原的图像数据存储在缓冲器里,经重新排序后,按图像显示顺序输出。

§7.2 MPEG-1视频编码和解码 讨论: 编码过程 I帧:DCT 量化 编码 P、B帧:预测 求帧差 DCT 量化 编码 DCT变换 帧内编码模式下,采样为8位无符号数; 帧间编码模式下,采样为9位有符号数,因为差值有可能为负数; 经过DCT变换后,用一个12位有符号整数表示。

§7.2 MPEG-1视频编码和解码 量化 MPEG规定了默认的量化表,也可以应用自定义的量化表; 帧内编码取整通常是取最近的整数; 帧间编码是截断非整数到最接近的小于其值的整数; 量化不是简单的DCT系数除以一个量化系数,还牵扯一个称为量化阶(quantizer_scale)的比例因子; 量化阶(quantizer_scale):整数,取值范围1~31,影响量化结果和压缩性能,编码器随时可以改变该值,在压缩码流中必须插入一个特殊码字来表示它。

§7.2 MPEG-1视频编码和解码 帧内量化公式 帧间量化公式

§7.2 MPEG-1视频编码和解码 七、MPEG-1视频语法 每一层支持一个确定的函数; 或是一个信号处理函数(DCT,运动补偿); 或是一个逻辑函数(同步,随机存取点)等; 每一个层的开始有一个头,作为说明参数。

§7.2 MPEG-1视频编码和解码 图像序列层——由连续图像组成,用序列终止符结束; 图像组层——图像组(GOP)由几帧连续图像组成,是随机存取单元,其第一帧总是I帧; 图像层——图像(帧)编码的基本单元,独立的显示单元; 条带层——由一帧图像中的几个宏块组成,主要用于误差恢复; 宏块层——一个宏块由四个8×8的亮度块和两个8×8的色差块组成; 块层——一个8×8的像素区域称为一个块,是最小的DCT单位。

§7.2 MPEG-1视频编码和解码 层次名称 功能 图像序列层 随机存取单元:上下文 图像组层 随机存取单元:视频编码 层次名称 功能 图像序列层 随机存取单元:上下文 图像组层 随机存取单元:视频编码 图像层 基本编码单元 宏块片层 重同步单元 宏块层 运动补偿单元 块层 DCT单元

§7.2 MPEG-1视频编码和解码 图像序列 图像 图像组 宏块条 宏块 8×8 块

§7.2 MPEG-1视频编码和解码 序列层 GOP层 图像层 像条层 宏块层 像块层 0x000001B3 序列SC 序列扩展 序列头 … 序列EC GOP 1 GOP层 GOP SC GOP 头 图像1 图像2 图像3 … 图像N 图像层 图像 SC 图像 头 条 1 条 2 条 3 … 条 m 像条层 条 SC 条 头 宏块 1 宏块 2 宏块 3 … 宏块 n 宏块层 宏块编码信息 Y 2 Y 3 Y 4 C 1 C 2 Y 1 像块层 8×8 系数块

§7.3 MPEG-2视频编码和解码 一、标准简介 “运动图象和相关声音信息的一般编码方法” , ISO/IEC 13818 ,94年11月公布;用于DVB,HDTV,DVD。是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定,也是国际主流的SDTV和HDTV的编码标准。在ITU-T的协议系列中,被称为H.262; MPEG-2和MPEG-1的图像结构相同; MPEG-2通用性较强,满足对图像质量和传输速率的多层次要求,技术成熟; 图像格式:704×576(PAL)和704×480(NTSC),码率为3~15 Mbps,9Mbps模拟分量质量; 能处理逐行扫描和隔行扫描图像,包括16:9宽高比图像格式。

§7.3 MPEG-2视频编码和解码 MPEG-1定位在VHS质量,MPEG-2的目的是要达到广播级的音视频质量; MPEG-2的音频编码可与MPEG-1兼容(MPEG-2 BC),并扩展支持16KHz、22.05KHz 和24KHz采样频率,音频数据位率扩展到8—64Kbps,支持5.1和7.1声道环绕立体声;MPEG-2还支持线性PCM编码和Dolby AC-3编码。

§7.3 MPEG-2视频编码和解码 二、标准组成——共分9个部分,核心如下: 13818-1系统:定义规范的系统编码,包括复合视频和音频数据的复用结构以及重放同步序列所需表示定时信息的方法; 13818-2视频:定义视频数据的编码方法和重建图像所要求的解码过程; 13818-3音频:定义音频数据的编码方法; 13818-4兼容性:定义编码码流是否符合MPEG-2码流的兼容性测试方法; 13818-5软件:描述MPEG-2 标准的前3部分的软件实现方法; 13818-6数字存储媒体-命令与控制:描述交互式多媒体网络中服务器与用户间的会话信令集。

§7.3 MPEG-2视频编码和解码 三、档次及等级 MPEG-2视频标准的技术规范集包括5个“档次”(Profiles)和4个“等级”(Levels); 档次是MPEG-2标准定义的不同编码算法的子集:较低的档次在编码时仅使用最为基本的编码工具;较高的档次则采用较多的编码工具集;档次之间具有向下兼容性; 等级主要针对ITU-R CCIR601标准下的不同的图像信源的分辨率:从低级到高级,对应信源的分辨率逐步增加。 档次与等级的若干组合构成MPEG-2视频编码标准在某种特定应用下的子集,对某一输入格式的图像,采用特定集合的压缩编码工具,可产生规定速率范围内的编码码流。

§7.3 MPEG-2视频编码和解码 1、MPEG-2标准的档次 档次(Profile) 说明 简单档次(Simple Profile ) 使用最少的编码工具集 主档次(Main Profile ) 增加双向预测方法 信噪比可伸缩档次( SNR Scalable Profile ) 增加可伸缩特性 空间可分伸缩档次( Spatially Scalable Profile ) 高级档次(High Profile ) 用于图像质量、比特率要求更高的场合

§7.3 MPEG-2视频编码和解码 2、MPEG-2标准的等级 级别(Level) 分 辨 率 最大码率 低级(Low Level) 352×240×30,352×288×25 4Mbps 主级(Main Level) 720×480×30,720×576×25 15Mbps 1440高级(High-1440 Level) 1440×1080×30 60Mbps 高级(High Level) 1920×1080×30(16:9) 80Mbps

§7.3 MPEG-2视频编码和解码 3、档次与等级的组合选择 在20种可能的组合中,为了保证与MPEG-1向下兼容及特定的数字广播、通信和家用视听设备的需求,目前11种是已获通过的,成为MPEG-2适用点。

§7.3 MPEG-2视频编码和解码

§7.3 MPEG-2视频编码和解码

§7.3 MPEG-2视频编码和解码 以下4种技术规范最常使用: MP@ML:主级/主类,可应用于包括数字视频广播(DVB)、数字视盘(DVD)、数字有线电视和交互式电视等; SP@ML:简单类/主级,用于数字有线电视和数字录像机; MP@HL:主类/高级,用于全数字HDTV; SSP@HL1440:空域可伸缩类/1440高级,用于HDTV。

§7.3 MPEG-2视频编码和解码 四、系统层原理 为使压缩码流能够在卫星、电缆和地面频道等信道的传输中兼容MPEG-1系统层码流,MPEG-2系统部分还定义了两种码流结构: 节目流(Program Stream, PS); 传送流(Transport Stream, TS)。 MPEG-2为TS流和PS流都提供了相关的解码方式和语法,能够保证压缩码流的同步译码和音/视频信号的重构; TS流和PS流的数据结构称为PES数据包,包含编码后的音/视频信息和相关系统信息。

§7.3 MPEG-2视频编码和解码 MPEG-2系统层结构图 视频编码器 音频编码器 数据编码器 打包器 TS 复 用 视频 音频 数据 系统层对压缩码流打包形成PES数据包 复合成节目流和传输流送出 I1B2B3P4B5B6P7B8B9I10 视频PES 视频编码器 音频编码器 数据编码器 打包器 TS 复 用 视频 音频 数据 TS码流 I1P4B2B3P7B5B6I10B8B9 PS 复 用 PS码流 原始音/视频等信息编码后送到系统层 MPEG-2系统规范

§7.3 MPEG-2视频编码和解码 1、节目流 节目流能够将一个或多个具有相同时间基点的数据流合成单个数据流; MPEG-2节目流解码器能够正确对MPEG-1系统流进行解码,因此与MPEG-1系统流一样,MPEG-2节目流适用于无误码影响的环境以及基于软件的解码处理; 节目流的PES数据包通常比较长且长度不固定,典型长度在1~2KB之间; 节目流支持MPEG-2标准一些特性: 随机访问; 特技模式等。

§7.3 MPEG-2视频编码和解码

§7.3 MPEG-2视频编码和解码 2、传送流 传送流面向通信传输信道定义,能够有效提高传送码流对信道噪声的鲁棒性,传送流中可以包含多个信道节目; 传送流将多个独立时间基点的多信道节目合成为一个单独的数据流,属于同一节目的各个原始数据流具有相同时间基点,以便于划分; 传送流由一系列的传送流分组构成,每个传送流分组是包括头信息在内的188 B的数据包; 更利于使用嵌入式硬件进行处理,也适合在各种有线和无线信道中传输。

§7.3 MPEG-2视频编码和解码 (1)链接头作用 包同步:用于建立包同步; 链接头 可变长适配头 净负荷数据 188 字节 4 字节 (1)链接头作用 包同步:用于建立包同步; 包识别PID:复用和解复用的识别信息,靠PID提取基本码流; 误码处理:发端对包作0~15的重复计数,接收端发现连续计数中断,就会判断丢失数据; 有条件接收:传输格式允许包的数据作加扰处理,各基本流可独立扰乱,传输包的连接投要说明是否扰乱,标志出解扰密钥。头部信息不允许扰乱。

§7.3 MPEG-2视频编码和解码 (2)适配的作用 定时:一些包的适配头传时间信息,即在(PCR)字段传27MHz时钟,指出解码器从码流中读完该字段的期望时间。解码器的时钟与PCR比较,调整本时钟频率,进行同步; 可随机进入压缩码流; 在节目调节或更换时应该随机进入音频和视频的I帧,在I帧前的视频序列的头部应该有一个随机进入点; 可插入本地节目。

§7.3 MPEG-2视频编码和解码 包头 净荷 包头 净荷 … TS包格式 188字节 8 1 13 包 同步 误码指示 开始指示 传送优先级 PID 加扰控制 适应字段控制 连续性计数器 2 4 可变长 适应字段 8 1 5 适应字段长度 不连续性指示 随机进入指示 ES优先级指示 5个标志 填充字节 可选字段 48 PCR 拼接点倒计时 传送私有数据 8 OPCR 适应字段扩展 TS包格式

§7.3 MPEG-2视频编码和解码 五、编/解码原理 1、编码原理——经典的基于DCT变换的混合编码方案

§7.3 MPEG-2视频编码和解码 在编码器端,输入图像首先根据帧编码模式来进行相应处理: 帧内编码——编码图像分块后直接进行DCT变换,随后使用量化矩阵进行量化处理,以缩小数值的动态区域。 帧间编码——视频信号经过运动估计和运动补偿后,由运动矢量和参考帧生成当前帧的预测图像,而后将当前帧与预测图像的残差图像进行DCT变换、量化、VLC编码,生成编码比特流送入缓冲器。

§7.3 MPEG-2视频编码和解码 2、解码 重建像块数据 提取各种参数 每个GOP的头部送一个量化矩阵 用两个码表解码 重建像块差值 运动矢量 重建像块数据 重建像块差值

§7.3 MPEG-2视频编码和解码 六、关键技术 1、离散余弦变换(DCT) 考虑到视频信号的隔行扫描特性,MPEG-2专门设置了两种图像结构:场模式(Field-pictures)和帧模式(Frame-pictures),因而DCT变换的基本单元也有所不同,即可以基于帧,也可以基于场; 帧模式在进行DCT变换之前直接对宏块进行划分,每块由两场的交替行组成,最后分割为8×8像素的子块即可; 场模式是每帧先被划分为16×16的宏块,随后对宏块进行重新组合,按宏块中每一行所在场的不同将宏块划分为16×8的2个子块,最后对每个子块中的2个8×8的数据块做DCT变换。

§7.3 MPEG-2视频编码和解码

§7.3 MPEG-2视频编码和解码 2、量化器 量化针对DCT变换系数进行,由于DCT变换系数对人类视觉系统感知的重要性不同,因此对一个8×8的DCT变换块的64个DCT变换系数采用不同的量化精度,保证尽可能多的包含特定的DCT空间频率信息,又使量化精度不超过需要; 低频系数对视觉感应的重要性较高,分配的量化步长较小; 高频系数对视觉感应的重要性较低,分配量化步长较大,通常情况下DCT变换块中大多数高频系数量化后会变为零。

§7.3 MPEG-2视频编码和解码 MPEG-2的量化公式为: fi,j为变换系数; Fi,j为量化结果; Wi,j为量化矩阵; qp为由码率控制器决定的量化因子。

§7.3 MPEG-2视频编码和解码 3、扫描方式 DCT变换系数量化后大多数非零系数集中于8×8矩阵的左上角,即低频分量区,为使游程编码和VLC编码效率更高,必须将其转换为一维序列的表达方式; 扫描后,非零DCT系数集中于一维排列数组的前部,后面跟着长串的量化为0的DCT系数,为后续编码创造条件; MPEG-2使用了两种扫描方法:Zigzag扫描和交替扫描; 交替扫描是基于隔行扫描图像的垂直相关性较逐行扫描图像要小的特性得到的,在低比特率下具有更好的性能;

§7.3 MPEG-2视频编码和解码

§7.3 MPEG-2视频编码和解码 4、游程编码 在游程编码中,只有非零系数被编码,当子块的一维序列中剩余的DCT系数全部为零时,MPEG-2定义“块结束”(End Of Block, EOB)标志位来指示,就可结束当前子块编码,从而进一步降低编码的比特数。 5、熵编码 MPEG-2视频压缩系统中采用Huffman编码,对不同的语法元素制定了不同的VLC码表。

§7.3 MPEG-2视频编码和解码 6、信道缓存 信道缓存是所有编解码器都必须具有的核心部分; 随着视频图像统计特性的变化,编码后的码流码率也是变化的,在大多数情况下传输带宽是恒定的,因此需在编码码流进入信道前设置缓存器,以变比特率从熵编码器读入数据,以传输系统标称的恒定比特率向外读出,输入信道; 缓存器大小固定,若编码器瞬时输出比特率明显高于或低于传输系统的带宽,可能造成缓存器的上溢或下溢,需要加码率控制器,使缓存器的写入与读出数据速率趋于平衡; 码率控制器的调控主要通过调整量化器的量化参数实现: 将要上溢时增大量化步长以降低编码数据速率; 将要下溢时减小量化步长以提高编码数据速率;

§7.3 MPEG-2视频编码和解码 7、运动估计 MPEG-2根据“帧模式”和“场模式”对运动估计和运动补偿进行了相应的扩展; 帧图像的帧预测 帧图像的场预测 场图像的场预测 双基预测 16×8预测 对于帧图像,合成图像中相邻行来自于不同场,图像中物体运动时,垂直方向上相邻像素间相关性会减少,MPEG-2使用新的运动估计方法,最高支持半像素精度。

§7.3 MPEG-2视频编码和解码

§7.3 MPEG-2视频编码和解码

§7.4 MPEG-4视频编码和解码 一、标准简介 “基于音视频对象的通用编码算法” ,其目的是为多媒体信息压缩提供统一和开放的平台, ISO/IEC 14496 ,99年2月公布第一版草案,2000年初正式成为国际标准; 目前,在Internet视频、流媒体、无线通信等领域中得到广泛应用; 作为开放标准,新内容和新算法不断加入其中; 可支持的比特速率低速率可低到5~64kb/s,高速率高达5Mb/s ; 图像格式:支持各种扫描标准和图象格式; 旨在将各种多媒体应用集成于一个完整的框架内。

§7.4 MPEG-4视频编码和解码 二、标准提出的背景 技术发展的趋势与应用要求的提高 MPEG-1和MPEG-2存在不足 音视频内容越来越多,且很多是计算机合成的; 视频信息的传送将扩展到所有网络,无线通信不仅用于语音,而且将应用于数据和视频; 对音视频信息交互处理和应用的要求不断增长; 电信、计算机、影视广播领域正逐步融合,相互渗透; MPEG-1和MPEG-2存在不足 基于像素和像素块的编码,不能对图像的内容进行查询、编辑和选择播放等操作,交互性较差; 无法在同一场景中集成自然媒体与人造(合成)媒体; 不支持超链接; 不提供对低码率应用的支持,将图像分成固定大小的块,在高压缩比情况下会有很严重的块效应。

§7.4 MPEG-4视频编码和解码

§7.4 MPEG-4视频编码和解码 三、标准组成 由相互联系的16个部分组成,核心部分如下: 14496-1系统:定义规范的系统编码,主要是复合音/视频数据的复用结构和实时应用中重放同步序列所需表示定时信息的方法。(编码器端的音/视频对象被分别编码,与场景描述信息和其它同步控制信息合成比特流;接收端按场景描述信息合成场景) 14496-2视频:定义视频数据的编码表示和重建图像所要求的解码过程; 14496-3音频:定义音频数据的编码要求; 14496-6多媒体集成传输框架(DMIF):对不同传输媒体提供共同的接口和服务。通过对编码比特流进行打包,使压缩码流适合于在不同的信道传输。

§7.4 MPEG-4视频编码和解码

§7.4 MPEG-4视频编码和解码 四、标准新功能 基于内容的交互性 高压缩率 灵活多样的存取 基于内容的操作与比特流编辑 自然与合成数据的混合编码 增强的时间域随机存取:可按帧或任意形状对象进行随机存取 高压缩率 提高了编码效率:同等码率下更好的图像质量 对多个并发数据流的编码:提供对同一场景的有效多视角编码、多伴音声道编码及有效视听同步,足够观察视点下可有效描述三维自然景物 灵活多样的存取 抗误码特性:多种抗误码技术 基于内容的可伸缩性:图像中各个对象具有不同优先级

§7.4 MPEG-4视频编码和解码 五、档次与等级 MPEG-4针对不同的媒体内容和场景描述定义了四各类: 视频类 音频类 图形类 场景描述类 不同分类在选用时是相互独立的,与MPEG-2类似MPEG-4也采用了档次和等级的形式,档次就是针对特定的应用确定要采用的编码工具,不同类的码流句法结构不同,视频、音频和图形类中支持的对象类型也各不相同; 每个档次包括一个或多个等级,用以限制计算复杂度。

§7.4 MPEG-4视频编码和解码 核心的视频框架下主要包括如下6各档次: Simple Visual Profile:提供针对矩形视频对象的编码功能,具有最低的复杂度,适合于计算能力较差的移动网络终端设备; Advanced Simple Visual Profile:提供针对矩形视频对象的高效编码功能,支持交织视频方式,适合对质量要求较高的移动网络; Simple Scalable Visual Profile:在Simple Profile基础上增加了对象的时域和空域可伸缩编码功能,应用于提供多级服务质量,如Internet和软件解码; Core Visual Profile:在Simple Profile基础上增加了任意形状对象编码和时域扩展编码功能,适用于相对简单的内容交互应用,如Internet多媒体应用; Main Visual Profile:在Core Profile基础上增加了Sprite对象编码功能,适合于交互和娱乐质量广播和DVD应用等; N-Bit Visual Profile:在Core Profile基础上增加了具有不同像素深度(4~12bit)视频对象编码功能,适用于监控应用;

§7.4 MPEG-4视频编码和解码 六、层次结构 MPEG-4采用了基于对象的编码方案。 对象:一幅图像中表征有含义的实体的一组区域; 对象代替了像素,一幅图像/视频可以看作不能再分解的一组对象; 一幅图像可以包括一个或多个视频对象,通过纹理、形状、运动等方式来表征每一个视频对象的时间、空间信息; 基于对象的表征方法带来了交互性; MPEG-4中所见的视音频不再是图像帧的概念,而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成;

§7.4 MPEG-4视频编码和解码 AV对象(Audio/ Visual Objects) 是听觉、视觉、或者视听内容的表式单元,其基本单位是原始AV对象,可以是自然的或合成的声音、图像,它们又可进一步组成复合AV对象; AV对象编码是MPEG-4的核心编码技术。

Sports results: Portugal - Brazil §7.4 MPEG-4视频编码和解码 一个面向对象的电视情景 Sports results: Portugal - Brazil Sports results: Portugal - Brazil

§7.4 MPEG-4视频编码和解码 MPEG-4视频内容呈现层次结构,从高层到低层共5层结构; 视频对象序列(Visual Object Sequence, VS):是MPEG-4视频流的最高语法结构,是一个完整的可以包括任何自然的或人工合成的对象的MPEG-4视频场景。VS由视频对象序列起始码开始,后跟视频对象,最后由视频对象结束码标注结束; 视频对象(Video Object, VO):VO对应着场景中的一个特定对象,可以是任意形状的对象,也可以是一个矩形帧。VO由视频对象起始码标注开始,后跟视频对象层; 视频对象层(Video Object Layer, VOL):根据应用具体要求,每一个视频对象都可以分级(空间或时间分级)或不分级的方式进行编码,用视频对象层来表征。 VOL包括基本层和增强层,基本层有一个,增强层可有多个,每一层表示一种分辨率,分辨率可以从粗糙到精细;

§7.4 MPEG-4视频编码和解码 视频对象平面组(Group of Video Object Planes, GOV):可以提供对码流的随机访问点,GOV是任意的; 视频对象平面(Video Object Plane, VOP):一个VOP是对一个视频对象的时间采样,包括视频对象的运动参数,形状信息和纹理数据,对VOP编码就是针对某一时刻该帧画面VO的形状、运动、纹理等信息进行编码。一个普通的视频帧可用矩形的VOP表征。

§7.4 MPEG-4视频编码和解码 MPEG-4视频码流逻辑结构图

§7.4 MPEG-4视频编码和解码 说明: 视频对象(VO)为场景中的某个物体,有生命期,由时间上连续的许多帧构成; 视频对象平面(VOP)可看作VO在某一时刻的表示,即某一帧; 视频对象平面组( GOV )提供视频流的标记点,标记VOP单独解码的时域位置,也就是对视频流任意访问的标记; 视频对象层(VOL)用于扩展VO的时域和空域分辨率,包含VO的3种属性信息; 几个视频场景(VS)组成一个完整的视频序列。

§7.4 MPEG-4视频编码和解码 七、编/解码原理 在MPEG-4中,宏块仅支持一种图像采样格式,即4:2:0格式。 Pn MPEG-4系统层编码原理图

§7.4 MPEG-4视频编码和解码 视频对象形成(分割):采用全自动、半自动、人工等方法分割出视频对象,或直接采用传统的矩形区域作为视频对象,在时间轴上生成VOP; 在MPEG-4中采用了3种VOP,即I-VOP帧、P-VOP帧和B-VOP帧。对于输入的任意形状的VOP序列,采用基于变换的混合编码算法:首先对I-VOP进行编码,然后是P-VOP和B-VOP,对不同视频对象的形状、运动、纹理信息应分配不同的码字; 将每个视频对象( VOP )的形状、运动、纹理信息在复合成VOL比特流输出。

§7.4 MPEG-4视频编码和解码 自然视觉对象编码 对于静止图像,采用零树小波算法提供高压缩比,同时提供多达11级的空间分辨率和质量的可伸缩性; 对于运动视频对象编码,采用形状编码来支持对象编码。

§7.4 MPEG-4视频编码和解码

§7.4 MPEG-4视频编码和解码 Shape Decoding D E M U L T I P X R Motion Decoding Shape Information Compositing script D E M U L T I P X R Reconstructed VOP Motion Decoding Motion Compensation Compositor Bitstream Video Out Texture Decoding VOP Memory

§7.4 MPEG-4视频编码和解码

§7.4 MPEG-4视频编码和解码 场景描述——用BIFS描述语言描述场景的结构和视音频对象的位置变化、尺寸、彩色、声音响度等属性; 场景描述的核心是对多媒体对象的安排布置,用户通过场景描述可以操作对象的显示状态,实现交互操作; 场景描述用单独的数据流传输,单独编解码,可在压缩的数据流域实现对象控制; 场景描述结构例:显示的图像序列、声音、音乐、语言,投影屏幕,背景墙,动画合成女解说员,讲由解说词产生的语言,还有合成的绘图—桌子和地球仪。

§7.4 MPEG-4视频编码和解码 BIFS场景描述例

§7.4 MPEG-4视频编码和解码 八、关键技术 1、形状编码 使用一个尺寸为16的整数倍的最小边框将VOP框住,框内分成独立的16×16宏块,这样就可以将VOP用一个边框矩阵表示,对VOP的形状编码变为对边框矩阵的编码;最终每个VOP的形状与运动、纹理信息在宏块内一起编码。

§7.4 MPEG-4视频编码和解码 VO的形状信息有两类:二值形状信息和灰度形状信息 二值形状信息的取值为0或1,值的选定依赖于像素是否位于视频对象内部:1表示VOP形状区域;0表示非VOP区域。 灰度形状信息是二值形状信息的扩展,采用0~255之间的数值来表示VOP的透明程度,也称做阿尔法平面(Alpha Plane)。0表示完全透明,1~254表示透明程度不同的VOP区域,255表示完全不透明。 灰度级形状信息的引入相当于作了“模糊”处理,使前景物体叠加到背景上时不会使边界太明显。

§7.4 MPEG-4视频编码和解码 News一帧图像 前景对象的二值形状信息

§7.4 MPEG-4视频编码和解码 形状信息编码采用基于块的运动补偿变换编码方法,与VOP的纹理和运动信息一起编码; 编码以二值阿尔法块为单位,基本编码工具是基于上下文的算术编码算法,根据有无运动估计分为: 帧间编码,用于在帧间有运动补偿的场合; 帧内编码,用于帧内无运动补偿的情况。

§7.4 MPEG-4视频编码和解码 编码模式分为多种: VOP外部块,标记为透明块,这些块的纹理无需编码;

§7.4 MPEG-4视频编码和解码 八、关键技术 2、运动信息编码 运动信息编码可视为现有标准由矩形视频帧向任意形状VOP的延伸; 三种模式:帧内编码模式(I-VOP)、帧间预测编码模式(P-VOP)和帧间双向预测编码模式(B-VOP); 运动估计可以基于16×16的宏块,同时也支持8×8子块; 为了能够适应任意形状的VOP编码,还引入图像填充技术和多边形匹配技术。

§7.4 MPEG-4视频编码和解码 对于标准宏块:采用标准的基于块的运动估计和补偿技术; 对于位于VOP边界的轮廓宏块,形状不规则,运动估计与补偿步骤如下: 图像填充技术,使用VOP内部像素值来对外部像素值进行预测,用该灰度值填充轮廓宏块中位于边界以外的像素。 水平填充,根据边缘像素左端或右端最近邻像素点有效灰度值填充,若左右都有合适的则取平均值,否则哪端合适取哪端像素点值; 垂直填充,水平填充后剩下仍为透明的像素部分进行垂直填充,根据上下邻近点灰度值填充。 多边形匹配,根据匹配准则在采用填充技术填充过的重构VOP中,为当前VOP的边缘宏块寻找最佳匹配宏块。“多边形”定义了轮廓宏块中位于VOP以内的部分,以外的部分排除在外。运动估计只对多边形定义的属于VOP活动区域的像素进行。

§7.4 MPEG-4视频编码和解码 水平填充 垂直填充

§7.4 MPEG-4视频编码和解码

§7.4 MPEG-4视频编码和解码 八、关键技术 3、纹理信息编码 纹理:由许多相互接近、互相编织的元素构成的,并且具有一定程度的规律性或周期性; VOP的纹理信息包含在视频信号的亮度分量和两个色度分量中; VOP纹理编码的对象可以是帧内编码模式I-VOP,也可以是帧间编码模式的P-VOP 或B-VOP运动补偿后的预测误差。

§7.4 MPEG-4视频编码和解码 纹理编码流程 码流 系数 预测 系数 扫描 VOP 纹理 DCT 量化 VLC

§7.4 MPEG-4视频编码和解码 DCT变换:帧内编码——完全属于VOP内的区域直接做,属于VOP边缘的宏块区域首先填充再做变换;帧间编码——将VOP形状之外的块填充后变换; 量化:采用非线性方式量化; 系数预测(帧内预测):DCT变换后不直接对系数进行编码,根据已编码子块(上方或左方)的系数得到预测值,对当前块DCT系数和预测系数的残差进行量化和熵编码; 系数扫描:定义了3种扫描方式Zigzag扫描(如果没有DC频段系数预测)、水平交替扫描(如果DC系数进行水平方向预测)和垂直交替扫描(如果DC系数进行垂直方向预测); 熵编码:在MPEG-4中对于帧内编码块和帧间编码块,DC系数和AC系数分别采用不同的码表; 帧内编码块DC系数用8bit定长码编码,AC系数Huffman编码; 帧间编码块DC和AC系数都采用Huffman编码。

§7.4 MPEG-4视频编码和解码 九、编码新技术 1、视频对象提取技术 视频编码以任意形状的VOP为单位进行的,编码前要提取独立的VOP信息,针对不同对象进行编码; 视频对象提取(分割)技术是MPEG-4的关键技术之一,是新一代编码的研究热点及难点,标准中没有规定生成VOP 的具体算法; VOP提取包括:全自动、半自动(人工输入确定初始帧VOP 的范围通过算法获得初始帧VOP ,后继帧中自动跟踪此VOP 的运动和变化)和人工提取(人工方法将视频对象标记出来,对有意义的对象进行跟踪提取); 目前的编码机制中大都以16×16的宏块为基本单位,按基于矩形的块编码方案进行,可以与现有面向像素编码标准兼容,又便于面向对象编码技术扩展。

§7.4 MPEG-4视频编码和解码 九、编码新技术 2、可伸缩编码技术 支持两种可伸缩方式:空域可伸缩和时域可伸缩; 每一种可伸缩至少包括2层VOL,低层为基本层,高层为增强层; 空域可伸缩通过增强层强化基本层的空间分辨率实现,目前只支持矩形VOP ; 时域可伸缩既支持帧(矩形VOP)又支持任意形状VOP。

§7.4 MPEG-4视频编码和解码 九、编码新技术 3、Sprite对象编码

§7.4 MPEG-4视频编码和解码 Sprite全景图生成过程 当前帧 全局运动估计 仿射变换 合成 Sprite 帧存 形状图

§7.4 MPEG-4视频编码和解码

§7.4 MPEG-4视频编码和解码

§7.4 MPEG-4视频编码和解码 Sprite编码分3种: Sprite的形状和纹理信息都按照I-VOP进行编码;

MPEG-7简介 “多媒体内容描述接口”ISO/IEC 15938; 多媒体内容描述标准,定义了描述符、描述语言和描述方案,对多媒体信息进行标准化的描述,实现快速有效的搜索; MPEG-1,-2,-4是对信息进行有效的表示,MPEG-7则对信息表示方法进行描述,为各种表示法的适当部分提供索引。前三种编码方法使得信息的内容变得容易获取,MPEG-7则使在需要时能找到它。 MPEG-7确立各种类型多媒体信息的标准描述方法,方法是描述符和描述方案的组合,并与所描述的内容紧密相关; 描述形式与描述内容的编码方法或存储方式无关,描述可独立于所描述的媒体而存在。也可将描述附加在媒体上,方便检索和查询。标准只规定媒体特征的描述语法和语义。

MPEG-7标准的组成

MPEG-7中的描述定义语言 描述定义语言DDL、描述方案和描述符是实现MPEG-7描述的主要工具,其中DDL是MPEG-7的核心部分; 能够表示描述方案或描述方案元素之间的复杂空间、时间、结构和概念关系; 能提供丰富的模型来连接或索引一个或多个描述以及被描述的数据; 必须是一个与应用无关、人机可读的平台;

MPEG-7工作范围 MPEG-7工作范围: 标准的信息描述(MPEG-7) 特征提取 搜索引擎 视频素材的低级描述符能够描述象形状、尺寸、纹理 、颜色、运动(抛射)、位置等属性; 最高级的抽象描述等级可能会给出关于语义的信息。如,描述一个场景; 中级描述,如一个场景中主、客体分类。

MPEG-7与其它MPEG标准的区别 MPEG-7可独立于其他MPEG标准使用;

MPEG-7的潜在应用 PULL( 检索/定位):多媒体素材的存储与调用 PUSH (过滤):个性化电视服务

MPEG-7 基于内容检索系统的简单结构 媒体库 特征库 特征抽取 检索引擎 管理端 用户端 数据库 数据库生成子系统 数据查询子系统 知识库

MPEG-7 按MPEG-7描述标准建立的 管理系统工作流程图例 读入视频资料 镜头分割 提取视频资料及其关键帧的特征值 将视频资料及其描述信息存储到视频数据库 提 取 关 键 帧

MPEG-21 多媒体框架(ISO/IEC18034) 标准的提出背景 随着互连网的飞速发展,越来越多的设备通过互联网的主干线、本地的宽带或窄带网、高速局域网或家庭网以及正在发展的无线网互连到一起,共享和交换信息; 多媒体内容的产生和消费不再是固定的,每个消费终端都是多媒体的制作者和消费者,多媒体数据将通过不同的用户层和应用范围漫游。在多媒体数据的交换过程中,要处理和组成各种所需内容,直到满足各种消费要求的问题尚不能解决; 怎样能使这些无处不在的多媒体信息高效地、安全可靠地通过全球范围的各种不同类型网络和用户设备漫游?是当前流媒体安全发展中的一个挑战性的问题; 解决这个问题需要综合地利用不同层次的多媒体技术标准。现在的标准是否能真正做到匹配衔接?在各个标准之间是否存在缺漏?是否还需要一个综合性的标准来加以协调?

MPEG-21 面对这些问题,于1999年10月的墨尔本MPEG会议上提出了多媒体框架这一概念。1999年12月毛伊岛会议上确定为MPEG-21。 主要研究目标 讨论是否需要和如何将这些不同的组件(协议、标准、技术等)有机的结合起来; 讨论是否需要新的规范; 讨论如果具备前两个条件,如何将不同的标准集成在一起。

MPEG-21 MPEG-21的范围可描述成一些关键技术的集成,其功能包括:内容表示、内容创建、内容发布、内容消费、内容识别与描述、知识产权管理和保护、财政管理、用户的隐私权、终端和网络资源的内容提取、事件报告等; MPEG-21框架的基本要素 数字项目的发布(Digital Item Declaration ) 数字项目的识别与描述 内容管理与使用 知识产权管理与保护 终端和网络(Terminals and Networks) 内容表示(Content Representation) 事件报告(Event Reporting)

MPEG-21

MPEG-21的应用和发展 有关MPEG-21的应用主要参考MPEG会议产生的文档N3549.doc,文中介绍了多方面应用及举例: 相册管理; 数字图书馆; 医学研究; 旅游; 家庭设计 网络视音频的广播和点播等。 MPEG-21的制定从2000年5月开始,计划在2002年2月达到国际标准。 MPEG-21标准的内容非常丰富,许多内容尚在制定中,如转码、扩展的权力表达语言—XrML 等。

MPEG-21关键问题 关键问题 网络传送; 服务质量和灵活性; 内容展示的质量; 内容艺术性方面的质量; 服务和设备的易用性; 物理媒体格式的互操作性; 付费/订购模型;

MPEG-21关键问题 多平台的解码和绘制; 内容的过滤、定位、回放和存储; 消费者信息发布; 消费者使用权限; 消费者隐私保护。

§7.5 H.264/AVC视频编码和解码 一、标准简介 JVT (Joint Video Team)是由国际标准化组织运动图像专家组(ISO MPEG)和国际电信联盟视频编码专家组(ITU-T VCEG)成立的联合视频工作组,致力于开发低比特率视频标准; JVT标准于2003年推出H.264/AVC标准 在ISO/IEC中正式名称为MPEG-4 Part 10,称之为“ISO/IEC 14496 Part 10高级视频编码算法”( ISO/IEC 14496 10 AVC)

§7.5 H.264/AVC视频编码和解码

§7.5 H.264/AVC视频编码和解码 二、档次与等级 根据应用领域不同,制定了不同的算法集合和技术限定,共分为3个档次:基本档、主档和扩展档; 在每一档次设置了不同的参数,每个档次下面又划分为不同的等级; 基本档是扩展档的子集,但不是主档的子集。

§7.5 H.264/AVC视频编码和解码 档次 技术特点 典型应用 基本档 主档 扩展档 利用I片和P片支持帧内和帧间编码,支持利用基于上下文的自适应变长编码进行熵编码; 支持灵活的宏块组织顺序;片之间是相互独立的可任意顺序传输到解码端 视频会话、如会议电视、可视电话、远程医疗、远程教学等 主档 支持隔行视频,采用B片的帧间编码和加权预测的帧内编码;采用基于上下文的自适应算数编码 消费电子应用,如数字电视广播、数字视频存储等 扩展档 支持码流之间的有效切换(SP和SI片)、改进抗误码性能;不支持隔行视频和基于上下文的自适应算数编码 网络视频流,如视频点播、流媒体等

§7.5 H.264/AVC视频编码和解码 H.264标准从概念上将编码结构分为两层: 控制数据 视频编码层 数据分割 网络适配层 上层为视频编码层; 底层为网络抽象层。 控制数据 视频编码层 数据分割 网络适配层 H.320 MPEG-4 H.323/IP MPEG-2 其他 编码宏块 编码片/分区

§7.5 H.264/AVC视频编码和解码 视频编码层负责完成高效率的视频压缩任务,网络适配层将视频编码层从具体的传输层中抽象出来,负责解决网络的适配问题,即根据使用环境对不同网络采用最为合适的方式对数据进行打包和传送,以使得码流对各类信道都具有良好的适应能力; 对上层,从视频编码层获得数据,包括头信息、视频压缩数据信息; 对下层,依据具体传输网络的特性对数据进行封装,包括成帧、发送信号至逻辑信道、利用同步信息等,定义适合传输层或存储介质需要的数据格式,提供头信息,将视频编码数据正确的映射到H.323、H.324等具体的传输协议上,从而提供视频编码层与外部世界的接口。

§7.5 H.264/AVC视频编码和解码 三、编/解码原理 1、编码原理 仍然采用经典的运动补偿混合编码算法; 编码图像分为3种:I帧、P帧和B帧; 此外H.264还定义了新的SP帧和SI帧,用以实现不同的传输速率、不同图像质量码流间的快速切换以及信息丢失的快速恢复等功能; H.264将一视频图像编码成一个或多个片,一个片由一系列按光栅扫描顺序排列的宏块构成每片包含整数个宏块或一幅图像的全部宏块。

§7.5 H.264/AVC视频编码和解码 采用帧内编码时首先选择相应的帧内预测模式进行预测; 随后对实际值和预测值之间的差值进行变换、量化和熵编码; 同时编码后的码流经过反量化和反变换之后重构预测残差图像,与预测值相加得出重构帧,结果经环路滤波器平滑后送入帧存储器; 采用帧间编码时首先在参考帧中进行运动估计,之后的残差图像经整数变换、量化和熵编码后与运动矢量一起送入信道传输。

§7.5 H.264/AVC视频编码和解码 三、编/解码原理 2、解码原理 首先根据语法元素判断: 为帧内编码直接进行反量化、反变换重构; 为帧间编码得到的为残差图像,需要根据帧存储器中的参考图 进行运动补偿后与残差图叠加。

§7.5 H.264/AVC视频编码和解码 四、关键技术 H.264的特征是加大了预测部分的比重,通过改善预测误差而提高编码效率; 与H.263+和MPEG-4简单类相比,在视频图像质量相同的情况下,H.264最多能节省50%的码率;

§7.5 H.264/AVC视频编码和解码 采用的新型编码技术主要包括如下: 采用4×4像素块的整数变换,运算速度快,反变换过程中没有匹配错误问题; 采用可变块运动估计/运动补偿技术,宏块尺寸从16×16,16×8, 8×16, 8×8, 8×4, 4×8, 4×4像素块中可选,采用尺寸可变块的运动估计可以比单独16×16宏块的预测方法提高超过15%的编码率; 运动矢量的精度为1/4或1/8像素,编码效率比整数精度的提高20%; 采用多参考帧进行帧间预测,可节省5%~10%的传输码率,且有利于码流的错误恢复; 采用空域帧内预测技术,有效降低了I帧编码的比特率; 为消除块效应,采用基于4×4块边界的去块滤波器(环路滤波器),有效提高了图像的主观质量; 采用通用可变长编码或基于上下文的自适应二进算术编码提高10%编码率; 引入SP/SI帧类型,有效提高码流切换能力,对增强抗误码性也有一定优势。

§7.5 H.264/AVC视频编码和解码 1、整数变换算法 以4×4像素子块为单位,在正反变换过程中只包含整数运算,重要不同之处; 整数变换算法由Nokia和Microsoft联合提出,采用了全新的变换核和量化公式; 变换可通过16位运算实现,有效降低对存储器的要求; 简化了步骤在计算时只使用加法和移位运算,无需使用乘法; 使用这种算法做正反变换同样是安全可逆的,不存在误匹配问题; 对亮度分量DC和AC系数以及色度分量的AC系数使用4×4的整数变换;对色度分量的DC系数2×2整数变换。

§7.5 H.264/AVC视频编码和解码 整数变换算法分析 由于采用更小的像素块变换,比8×8变换的运动估计精度更高,且能降低块效应; 整数变换、量化计算及其逆过程可通过整数运算实现,比原来浮点运算能有效提高计算速度,也更有利于硬件实现实时系统; 整数变换运算结果精确度高,且不存在浮点运算及取整,可有效避免反变换误匹配问题; 尺度运算结合到量化过程中,进一步降低整数变换的复杂度; 新的16bit整数变换更简洁,无需使用乘法;减少变换后的动态范围,降低了对存储器和处理器的要求; 通过采用“分层”变换方案,能进一步降低变换后的DC系数之间的相关性。变换后量化步长的变化幅度控制在12.5%左右,不以固定增幅变化。对色度系数采用较小量化步长,使色度分量更为逼真。

§7.5 H.264/AVC视频编码和解码 2、帧内预测技术 子块内部和子块之间的像素具有空间冗余性; 自然场景图像中的前景和背景通常具有一定的纹理特性,按其方向性可分为水平纹理、垂直纹理和倾斜纹理等; ——为空域的帧内预测创造了条件 MPEG-1/2帧内编码采用DCT、量化和熵编码; H.263+和MPEG-4中I帧采用基于频域的帧内预测; H.264基于空间的像素值进行预测,对于每个4×4块每个像素可用17个最接近的先前已编码像素的不同加权和来预测。 H.264对亮度分量(两种预测模式)和色度分量(一种预测模式)设定不同预测方案,独立实施预测。各预测模式中详细定义了多种预测选项适应不同纹理特性的图像子块。

§7.5 H.264/AVC视频编码和解码 4×4块亮度分量预测模式:共9种

§7.5 H.264/AVC视频编码和解码

§7.5 H.264/AVC视频编码和解码

§7.5 H.264/AVC视频编码和解码 3、SP/SI帧编码 为了适应视频码流带宽自适应特性和抗误码性能要求,在扩展档次中定义了两种新的帧类型:SP帧(Switching P Picture)和SI帧(Switching P Picture); SP/SI帧特有的编码方法使压缩码流能在不插入I帧的情况下同样实现码流的随机切换功能; SP帧可在诸如码流拼接、随机接入、快进/快退等应用中取代I帧,获得比I帧更高的编码效率; 对于多参考帧模式下SP帧能采用统一的重建过程,更利于码流错误恢复和隐藏; 通过使用SP/SI帧,能非常好的适应视频数据在各种传输环境下的应用,如视频监视器之间快速切换、广播电视插播、网络错误重发等。

§7.5 H.264/AVC视频编码和解码 码流切换 A0 A1 A3 A4 A2 B0 B1 B3 B4 B2 P拼接 码流A 切换点 I拼接 P拼接 使用I帧进行视频流的切换过程

§7.5 H.264/AVC视频编码和解码 A0 A1 A3 A4 A2 AB2 B0 B1 B3 B4 B2 P拼接 码流A 切换点 I拼接 P拼接 使用SP帧进行视频流的切换过程

SI帧不使用运动补偿,所以适合于两种序列之间没有相关性 §7.5 H.264/AVC视频编码和解码 码流拼接 P帧 SP帧 P帧 码流A A0 A1 A3 A4 A2 切换点 SI帧不使用运动补偿,所以适合于两种序列之间没有相关性 SI 码流B B0 B1 B3 B4 B2 P帧 使用SI帧实现视频流的拼接

§7.5 H.264/AVC视频编码和解码 随机接入 A0 P9 A10 A11 .... P帧 SP帧 A1~A10 SI帧 SI帧不需要像I帧那样包含在码流中,仅在快进/快退时传输 SI帧 使用SI帧实现快进功能

§7.5 H.264/AVC视频编码和解码 编码原理 SP帧编码类似于P帧,不同在于SP帧编码允许在使用不同参考帧图像的情况下重建相同的帧,在许多应用中可以取代I帧,大大降低码率开销; SI帧编码类似于I帧,使用4×4的帧内预测算法对以前的解码样本进行预测,能够同样重构一个对应的SP帧。

§7.5 H.264/AVC视频编码和解码 4、去块滤波器 H.264采用自适应去块滤波器技术(Adaptive De-blocking Filter)缓解块效应,尽可能保持图像边缘; 视频编码中所使用滤波器分两种:后处理滤波器(Post Filter)、回路滤波器(Loop Filter); 后处理滤波器只对缓冲区内输出的图像处理,而去块滤波器位于编码器的运动估计/运动补偿回路中,重构帧必须经过滤波才可存入帧存储器作为参考帧,因此此处的自适应去块滤波器是回路滤波器;

§7.5 H.264/AVC视频编码和解码 自适应滤波基本思想是使用边界强度自适应地判定是否需要滤波,若检测到的图像块的边缘采样点之间具有较大的绝对差,需进行平滑处理;但如果此绝对差非常大,可能是图像真实信息,需保持; 运算量大,占到编码器总运算量的1/3左右,如何降低滤波器复杂度是亟待解决的问题。