Audio Coding Standards

Audio Coding Standards
§2.3 主要介绍 MPEG及其相关的音频编码标准、算法原理包括：MPEG-1 Layer I, II & III，MPEG-2 AAC以及与之相关的Dolby AC-3，MPEG-4的Natural Audio，未来MPEG发展方向等。国家AVS (Audio Video Standard)发展计划第二章音频信息处理 ▪ 标准

Contents 2.3.1 Overview of Audio Coding Standards
ITU-T Audio Coding Recommendations Perceptual Audio Coding Basic MPEG Audio Coding Systems Dolby Audio Coding China Audio Coding Initiatives Next Step of Audio Coding References

References Basics about MPEG Perceptual Audio Coding MPEG _ China
MPEG _ China MPEG-4 Industry Forum MPEG.ORG 2018/9/20 第二章音频信息处理  音频编码标准

1. An Overview of Audio & Sound Coding Standards
From Source Coding to Perceptual Coding Audio / Sound Coding Technologies Multimedia Communication Multimedia Framework ♫♪♫♪

Audio Coding Overview From source coding to perceptual coding
Psychoacoustic Model Low data rate, Hi-Fi From signal to content “Structured Audio” & Audio Retrieving From local application to global access MPEG 21 perspective Multimedia Framework From stereo to surrounding multi-channel Dolby AC system & more … 2018/9/20 第二章音频信息处理  音频编码标准

International ORG. / COM.
International Telecommunication Union CCITT：the International Consultative Committee on Telephony and Telegraphy International Organization for Standardization International Electrotechnical Commission MPEG：Moving Picture Experts Group Dolby Laboratories, Inc. 2018/9/20 第二章音频信息处理  音频编码标准

2. ITU Recommendations G.711-话音的PCM编码 G.721-32kbit/s自适应脉冲编码调制
G kbit/s(7KHz)音频编码低延时CELP-16kbit/s语音编码标准其他ITU建议 ♫♪♫♪

Chronicle 1972年：G.711 64kb/s A律 PCM 编码标准。
1984年：G kb/s 自适应差值脉冲编码ADPCM G kb/s 子带ADPCM编码标准 G kb/s和6.3kb/s LSF G kb/s 1990年：G kb/s 嵌入式ADPCM标准。 1992年：G.728 / G kb/s LD-CELP 1988年：RPE-LTP 13kb/s长时预测规则码激励（欧洲）GSM 1989年：VSELP kb/s 矢量和激励线性预测（日本） 2018/9/20 第二章音频信息处理  音频编码标准

ITU Recommendations 所采用的算法算法名称数据率标准应用质量波形编码 PCM 均匀量化 64kb/s
G.711 公共网 ISDN 话音 4.0～4.5 μ(A) APCM 自适应量化 DPCM 差值量化 ADPCM 自适应差值量化 32kb/s G.72 1 SB-ADPCM 子带－自适应 G.722 镶嵌式 G.726 G.727 参数编码 LPC 线性预测编码 2.4kb/s 保密话声 2.5～3.5 2018/9/20 第二章音频信息处理  音频编码标准

ITU Recommendations G.711：话音的PCM编码建议 G.721：自适应差值脉冲编码调制给出了话音信号编码的推荐特性
话音的抽样率为8000Hz 每个样值采用8位二进制编码推荐使用A律和μ律量化。分别给出A律和μ律的定义，将13位PCM码按A律、14位PCM码按μ律转换8位编码 G.721：自适应差值脉冲编码调制 1986年作了进一步修订它用于64kbit/s的A律或μ律PCM到32kbit/s ADPCM之间的转换，实现了对PCM信道的扩容 2018/9/20 第二章音频信息处理  音频编码标准

ITU Recommendations ADPCM编/解码器
A律或μ律PCM输入信号转换成均匀的PCM。差分信号等于均匀的PCM输入信号与预测信号之差。“自适应量化器”用4位二进制数表示差分信号，但只用其中的15个数(即15个量级)来表示差分信号，这是为防止出现全“0”信号。“逆自适应量化器”从这4位相同的代码中产生量化差分信号。预测信号和这个量化差分信号相加产生重构信号。“自适应预测器”根据重构信号和量化差分信号产生输入信号的预测信号，这样就构成了一个负反馈回路译码器的部分结构与编码器负反馈回路部分相同。此外，还包含有均匀PCM到A律或μ律PCM的转换部分，以及同步编码调整(synchronous coding adjustment)部分。设置同步(串行)编码调整的目的是为防止在同步串行编码期间出现的累积信号失真。 2018/9/20 第二章音频信息处理  音频编码标准

3. Preliminary for Perceptual Audio Coding
根据人的听觉系统特性（如对响度、音高的感知特性以及掩蔽效应），使用心理声学模型(Psychoacoustic Model)和感知子带编码(Perceptual Sub-band Coding)、Dolby AC-3编码对音频/声音数据进行压缩，其压缩比较大、还原出的音质比较好。 MPEG Audio Coding就是采用了该套算法。

Some Conceptions 声音的度量方法听觉系统的感知特性响度：声音的强弱。度量方法有客观和主观度量方法
客观：声压( dyn/cm2 )，声强( W/cm2 )，声强级(dB)。 10-16 W/cm2 = 0 (dB) 主观：方( phon )或宋 ( sone ) 响度级人耳刚能听到，此时的主观响度级 = 0 (方) 音高：客观用频率 ( Hz )表示，主观用 Mel (美)表示 Mel = 1000 Log2(1+) 听觉系统的感知特性对响度的感知对音高的感知掩蔽效应 2018/9/20 第二章音频信息处理  音频编码标准

Perceptual Audio Coding (1)
对响度的感知实验表明：听阈是随频率变化的。测出的“听阈—频率”曲线如图所示，最靠下面的一根曲线叫做“零方等响度级”曲线，也称“绝对听阈”曲线，即在安静环境中，能被人耳听到的纯音的最小值。如果频率为1 kHz的纯音的声强级达到120dB左右时，人的耳朵就感到疼痛，这个阈值称为“痛阈”(图中最靠上面所示的一根曲线)。这条曲线也就是120方等响度级曲线。人耳对不同频率的敏感程度差别很大，其中对2 kHz～4 kHz范围的信号最为敏感，幅度很低的信号都能被人耳听到。而在低频区和高频区，能被人耳听到的信号幅度要高得多。痛阈 dB 听阈 Hz 2018/9/20 第二章音频信息处理  音频编码标准

对音高的感知人耳对频率的感觉也有一个范围。人耳可以听到的最低频率约20 Hz，最高频率约18000 Hz。测量主观音高时，让实验者听两个声强级为40 dB的纯音，固定其中一个纯音的频率，调节另一个纯音的频率，直到他感到后者的音高为前者的两倍，就标定这两个声音的音高差为两倍。实验表明，音高与频率之间也不是线性关系。测出的“音高—频率”曲线如图所示。 “音高—频率”曲线 2018/9/20 第二章音频信息处理  音频编码标准

声音的掩蔽效应定义：一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(masking tone)，后者称为被掩蔽声音(masked tone)。声音的掩蔽效应可以分为：频域掩蔽(Frequency Domain Masking)，也称同时掩蔽(Simultaneous Masking) 时域掩蔽(Time Domain Masking) 2018/9/20 第二章音频信息处理  音频编码标准

Perceptual Audio Coding (3 cont.)
频域掩蔽定义：一个强纯音会掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽，也称同时掩蔽。 2018/9/20 第二章音频信息处理  音频编码标准

一般来说，弱纯音离强纯音越近就越易被掩蔽。从下图可知：在250 Hz、1 kHz、4 kHz和8 kHz纯音附近，对其他纯音的掩蔽效果最明显低频纯音可以有效地掩蔽高频纯音，但高频纯音对低频纯音的掩蔽作用则不明显。  = 0.25, 1, 4 kHz 2018/9/20 第二章音频信息处理  音频编码标准

临界频带的划分由于声音频率与掩蔽曲线不是线性关系，为从感知上来统一度量声音频率，引入临界频带(Critical Band)的概念。通常认为，在20 Hz到16 kHz范围内有24个临界频带。临界频带的单位叫Bark (巴克) 1 Bark = 一个临界频带的宽度 (频率) < 500 Hz的情况下, 1 Bark ≈  /100 (频率) > 500 Hz的情况下, 1Bark ≈ 9 + 4log( /1000) 临界频带频率 (Hz) 低端高端宽度 100 13 2000 2320 320 1 200 14 2700 380 2 300 15 3150 450 3 400 16 3700 550 4 510 110 17 4400 700 5 630 120 18 5300 900 6 770 140 19 6400 1100 7 920 150 20 7700 1300 8 1080 160 21 9500 1800 9 1270 190 22 12000 2500 10 1480 210 23 15500 3500 11 1720 240 24 22050 6550 12 280 2018/9/20 第二章音频信息处理  音频编码标准

时域掩蔽定义：在时间上相邻的声音之间的掩蔽现象。时域掩蔽可以分为：超前掩蔽(pre-masking) 滞后掩蔽(post-masking) 产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说，超前掩蔽很短，只有大约5～20 ms，而滞后掩蔽可以持续50～200 ms。余音绕梁经久不竭 2018/9/20 第二章音频信息处理  音频编码标准

Audio Masking在其他方面的应用如办公场所的噪声掩蔽，提高办公环境的舒适度 2018/9/20 第二章音频信息处理  音频编码标准

Moving Picture Experts Group Audio Coding Standards
4. MPEG Audio Moving Picture Experts Group Audio Coding Standards MPEG-1 Audio : Layer I, II &III MPEG-2 Audio : Back Compatible (BC) AAC : Advanced Audio Coding (Non BC) MPEG-4 Audio : Overview MPEG 21 : The Next Step of MPEG

About MPEG 国际标准化组织ISO和国际电工委员会IEC 所属WG11工作组，1986年成立了运动图像压缩编码组织MPEG，负责开发电视图象数据和声音数据的编码、解码和它们的同步等标准，其开发的标准称为MPEG标准。到目前为止，已经开发和正在开发的MPEG标准有： MPEG-1：数字电视标准，1992年正式发布 MPEG-2：数字电视标准 MPEG-3：已于1992年7月合并到高清晰度电视(High-Definition TV，HDTV)工作组 MPEG-4：多媒体应用标准(1999年发布) MPEG-5：还没有见到定义 MPEG-6：还没有见到定义 MPEG-7：多媒体内容描述接口标准(正在研究) 2018/9/20 第二章音频信息处理  音频编码标准

Chronicle of MPEG Standards
MPEG Audio Coding Standards工作进程： 1993年08月公布 MPEG-1 ISO/IEC 1994年08月公布 MPEG-2 ISO/IEC 1999年01月公布 MPEG-4 ISO/IEC V1.0 1999年12月公布 MPEG-4 ISO/IEC V2.0 1998年10月征集建议MPEG-7 2001年07月公布国际标准草案 2001年09月公布国际标准 2000年03月成立 MPEG-21工作组 2018/9/20 第二章音频信息处理  音频编码标准

Some Explanations MPEG-1 ISO/IEC 11172 MPEG-2 ISO/IEC 13818
第一代压缩编码方法：数据编码。如预测编码、变换编码、熵编码、参数编码。 MPEG-4 ISO/IEC V1.0 MPEG-4 ISO/IEC V2.0 基于对象的编码面向媒体的基于内容的访问、检索、操作的需求定义的是格式、框架，而不是具体算法视频对象(video object)：能够访问（检索或浏览）和操作（剪贴）的实体压缩比高、基于内容的交互功能 MPEG-7 多媒体内容描述接口 2018/9/20 第二章音频信息处理  音频编码标准

Some Explanations (cont.)
MPEG Audio与听觉系统的感知特性声音数据压缩算法的根据是心理声学模型。一个最基本的概念是听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号就听不到 (大多数人的听觉系统对2 kHz～5 kHz之间的声音最敏感。一个人是否能听到声音取决于声音的频率，以及声音的幅度是否高于这种频率下的听觉阈值) 心理声学模型中的另一个概念是听觉掩饰特性，意思是听觉阈值电平是自适应的，即听觉阈值电平会随听到的频率不同的声音而发生变化 (例如，在一般环境下房间里的普通谈话可以听得很清楚，但在摇滚乐环境下同样的普通谈话就听不清楚了。声音压缩算法也同样可以确立这种特性的模型，根据这个模型可取消冗余的声音数据) 2018/9/20 第二章音频信息处理  音频编码标准

(per channel/quarterly reset)
Prices Aspects Why Price ? MPEG-LA MPEG本身只制定相关的标准 MPEG-LA是一家处理MPEG专利转化的机构 MPEG-LA代表专利人的利益 Volume (per channel/quarterly reset) Consumer Decoder or Encoder Channels Consumer Codec Channels Professional Decoder Professional Encoder Flat Rate n/a $1.80 $18.00 1 to 100,000 $0.45 $0.90 100,001 to 500,000 $0.35 $0.80 500,001 to 1,000,000 $0.25 $0.70 1,000,001 to 5,000,000 $0.20 $0.65 5,000,001 to 10,000,000 $0.15 10,000,001 or more $0.10 MPEG 4 2018/9/20 第二章音频信息处理  音频编码标准

4. MPEG Audio Moving Picture Experts Group Audio Coding Standards MPEG-1 Audio : Layer I, II &III MPEG-2 Audio : Back Compatible MPEG-2 AAC : Advanced Audio Coding MPEG-4 Audio : Overview

4. MPEG Audio Moving Picture Experts Group Audio Coding Standards MPEG-1 Audio : Layer I, II &III MPEG-2 Audio : Back Compatible AAC : Advanced Audio Coding MPEG-4 Audio : Overview

4. MPEG Audio Moving Picture Experts Group Audio Coding Standards MPEG-1 Audio : Layer I, II &III MPEG-2 Audio : Back Compatible MPEG-2 AAC : Advanced Audio Coding MPEG-4 Audio : Overview

4. MPEG Audio Moving Picture Experts Group Audio Coding Standards MPEG-1 Audio : Layer I, II &III MPEG-2 Audio : Back Compatible AAC : Advanced Audio Coding MPEG-4 Audio : Overview

MPEG-1 Audio Audio Coding Algorithms Why ?
采用子带编码(sub-band coding，SBC)方法具体思想：首先把时域中的声音数据变换到频域，对频域内的子带分量分别进行量化和编码，然后根据心理声学模型确定样本的精度，从而达到压缩数据量的目的。与音源特定编码法不同，SBC不局限于只对话音进行编码，也不局限于哪一种声源。 MPEG声音数据压缩的基础是量化。虽然量化会带来失真，但MPEG标准要求量化失真对于人耳来说是感觉不到的。实验表明：采样频率为48 kHz、样本精度为16比特的声音数据压缩到256 kb/s时，即在6：1的压缩率下，即使是专业测试员也很难分辨出是原始声音还是编码压缩后的声音。 (根据奈奎斯特理论，要想不失真地重构信号，采样频率不能低于40 kHz。再考虑到实际中使用的滤波器都不可能是理想滤波器，以及考虑各国所用的交流电源的频率，为保证声音频带的宽度，所以采样频率一般不能低于44.1 kHz) Why ? 人耳可听到的频率范围大约是20 Hz～20 kHz s≥2 (为被采样信号的最高频率) 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) MPEG Audio压缩算法框图标准代号：ISO/IEC 11172-3 2018/9/20
第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) 声音的性能是世界上第一个高保真声音数据压缩国际标准主要指标：输入/输出信号
提供三个独立的压缩层次：Layer I, II & III，用户对层次的选择可在复杂性和声音质量之间进行权衡。层1的编码器最为简单，编码器的输出数据率为384 kb/s，主要用于小型数字盒式磁带(digital compact cassette，DCC)。层2的编码器的复杂程度属中等，编码器的输出数据率为256 kb/s~192 kb/s，其应用包括数字广播声音(digital broadcast audio，DBA)、数字音乐、CD-I (compact disc-interactive)和VCD (video compact disc)等。层3的编码器最为复杂，编码器的输出数据率为64 kb/s，主要应用于ISDN上的声音传输。 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) 声音的性能主要指标：在尽可能保持CD音质为前提的条件下，压缩率如下表所示层次算法压缩率
立体声信号所对应的位率( kb/s) 1 MUSICAM* 4:1 384 2 6:1 ～ 8:1 256~192 3 ASPEC** 10:1 ～ 12:1 128~112 * MUSICAM ( Masking pattern adapted Universal Sub-band Integrated Coding And Multiplexing ) 自适应声音掩蔽特性的通用子带综合编码和复合技术 ** ASPEC ( Adaptive Spectral Perceptual Entropy Coding of high quality musical signal ) 高质量音乐信号自适应谱感知熵编码(技术) 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) 声音的性能主要指标：延迟时间理论最小值实际实现中的一般值
编码后的数据流支持循环冗余校验CRC MPEG声音标准还支持在数据流中添加附加信息延迟时间理论最小值 (ms) 实际实现中的一般值层1(Layer 1) 19 < 50 层2(Layer 2) 35 100 层3(Layer 3) 59 150 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) 声音的性能主要指标：
可预先定义压缩后的数据率(Layer III) ，并支持用户预定义的数据率。音质要求声音带宽(kHz) 方式数据率( kb/s) 压缩比电话 2.5 单声道 8 96 : 1 优于短波 5.5 16 48 : 1 优于调幅广播 7.5 32 24 : 1 类似于调频广播 11 立体声 56 ~ 64 26 ~ 24 : 1 接近CD 15 96 16 : 1 CD > 15 112 ~ 128 12 ~ 10 : 1 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) 声音编码器结构采用子带编码
输入声音信号经过一个“时间-频率多相滤波器组”变换到频域里的多个子带中，同时经过“心理声学模型(计算掩蔽特性)”，该模型计算以频率为自变量的噪声掩蔽阈值(masking threshold)，查看输入信号和子带中的信号以确定每个子带里的信号能量与掩蔽阈值的比率。量化和编码部分用信掩比(signal-to-mask ratio，SMR)来决定分配给子带信号的量化位数，使量化噪声低于掩蔽阈值。最后通过“数据流帧包装”将量化的子带样本和其他数据按照规定的称为“帧(frame)”的格式组装成位数据流。信掩比是指最大的信号功率与全局掩蔽阈值之比，上图表示了某个子带中的信掩比。 MPEG声音编码器结构图 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) 声音编码器结构多相滤波器组
把输入信号变换到32个频域子带中去，子带的划分方法有两种，一种是线性划分，另一种是非线性划分如果把声音频带划分成带宽相等的子带，这种划分就不能精确地反映人耳的听觉特性，因为人耳的听觉特性是以“临界频带”来划分的，在一个临界频带之内，很多心理声学特性都是一样的。下图对多相滤波器组的带宽和临界频带的带宽作了比较。从图中可以看到，在低频区域，一个子带覆盖好几个临界频带。在这种情况下，某个子带中量化器的比特分配就不能根据每个临界频带的掩蔽阈值进行分配，而要以其中最低的掩蔽阈值为准。 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) 声音编码器结构编码层
每一个层都自含SBC编码器，高层SBC可使用低层SBC编码的声音数据声音数据分成帧(frame)。Layer I 每帧包含 384 个样本的数据，每帧由32个子带分别输出的12个样本组成。Layer II 和Layer III 每帧为1152个样本，如图所示： 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) 声音解码器结构
解码器对位数据流进行解码，恢复被量化的子带样本值以重建声音信号。由于解码器无需心理声学模型，只需拆包、重构子带样本和把它们变换回声音信号，因此解码器就比编码器简单得多。 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) Layer I 层1的子带是频带相等的子带，它的心理声学模型仅使用频域掩蔽特性。
时间-频率多相滤波器组使用类似于离散余弦变换DCT (discrete cosine transform)的分析滤波器组进行变换，以获得详细的信号频谱信息。根据信号的频率、强度和音调，滤波器组的输出可用来找出掩蔽阈值，然后组合每个子带的单个掩蔽阈值以形成全局的掩蔽阈值。使用这个阈值与子带中的最大信号进行比较，产生信掩比SMR之后再输入到量化和编码器。量化和编码器首先检查每个子带的样本，找出这些样本中的最大的绝对值，然后量化成6比特，这个比特数称为比例因子(scale factor)。然后根据SMR确定每个子带的比特分配(bit allocation)，子带样本按照比特分配进行量化和编码。对被高度掩蔽的子带自然就不需要对它进行编码。 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) Layer I 对一个子带中的一个样本组(由12个样本组成)进行编码数据流帧包装
按规定的帧格式进行包装，实际上就是一个多路复合器MUX 帧结构如下图所示，每帧都包含： ①用于同步和记录该帧信息的同步头，长度为32比特，结构如下图所示 ②用于检查是否有错误的循环冗余码CRC，长度为16比特 ③用于描述比特分配的比特分配域，长度为4比特 ④比例因子域，长度为6比特 ⑤子带样本域 ⑥有可能添加的附加数据域，长度未规定。 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) Layer II 对层1作了一些直观的改进，相当于3个层1的帧，每帧有1152个样本心理声学模型
除了使用频域掩蔽特性之外还利用了时间掩蔽特性在低、中和高频段对比特分配作了一些限制，对比特分配、比例因子和量化样本值的编码也更紧凑由于采用了上述措施，因此所需的比特数减少了，这样就可以有更多的比特用来表示声音数据，音质也比层1更高。层2（层3亦如此）对一个子带中的三个样本组进行编码，比特流数据格式如上图所示。层1是对一个子带中的一个样本组(由12个样本组成)进行编码 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) Layer III 使用比较好的临界频带滤波器，把声音频带分成非等带宽的子带
心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外，还考虑了立体声数据的冗余，并且使用了霍夫曼(Huffman)编码器（见下图）使用了从ASPEC (Audio Spectral Perceptual Entropy Encoding)和OCF (Optimal Coding In The Frequency domain)导出的算法，比层1和层2都要复杂。所用的滤波器组与层1和层2所用的滤波器组的结构相同，但是层3还使用了改进离散余弦变换(modified discrete cosine transform，MDCT)，对层1和层2的滤波器组的不足作了一些补偿（MDCT把子带的输出在频域里进一步细分以达到更高的频域分辨率。而且通过对子带的进一步细分，层3编码器已经部分消除了多相滤波器组引入的混迭效应） 2018/9/20 第二章音频信息处理  音频编码标准

Layer III编解码器结构 ISO/MPEG Audio Layer III Coder / Decoder 2018/9/20
第二章音频信息处理  音频编码标准

MPEG-1 Audio (cont.) MPEG层3在各种数据率下的性能音质要求声音带宽方式数据率压缩比电话 2.5 单声道
(kHz) 方式数据率 ( kb/s) 压缩比电话 2.5 单声道 8 96 : 1 优于短波 5.5 16 48 : 1 优于调幅广播 7.5 32 24 : 1 类似于调频广播 11 立体声 56~64 26~24 : 1 接近CD 15 96 16 : 1 CD >15 112~128 12 ~10 : 1 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-2 Audio Overview MPEG委员会定义了两种声音数据压缩格式：这里先介绍MPEG-2 Audio : BC。
一种称为MPEG-2 Audio，或称MPEG-2 Multichannel声音，它与MPEG-1 Audio是兼容的，又称MPEG-2 BC (Backward Compatible)。另一种称为MPEG-2 AAC (Advanced Audio Coding)，它与MPEG-1声音格式不兼容，因此通常称为MPEG-2 NBC (Non-Backward Compatible) 。这里先介绍MPEG-2 Audio : BC。

MPEG-2 BC简介标准代号：ISO/IEC 13818-3 MPEG-2 BC特性：
与MPEG-1 Audio (ISO/IEC )标准兼容，都使用相同种类的编译码器，层-1, -2和-3的结构也相同增加了16 kHz, kHz和24 kHz采样频率扩展了编码器的输出速率范围，由32～384 kb/s扩展到8～640 kb/s 增加了声道数，支持5.1声道和7.1声道的环绕声支持Linear PCM(线性PCM)和Dolby AC-3(Audio Code Number 3)编码 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-2 BC简介 MPEG-2 BC特性与其他声音数据规格间的比较参数名称 Linear PCM Dolby AC-3
MPEG-2 Audio MPEG-1 Audio 采用频率 48/96 kHz 32/44.1/48 kHz 16/22.05/24/ 样本精度 (每个样本的比特数) 16/20/24 压缩 (16 bits) 16 最大数据传输率 6.144 Mb/s 448 kb/s 8~640 kb/s 32~448 kb/s 最大声道数 8 5.1 5.1/7.1 2 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-2 BC Multichannel 5.1环绕声 7.1环绕声与5.1类似
也称为3/2-立体声加LFE，其中的“.1”就是指LFE声道。它的含义是播音现场的前面可有3个喇叭声道(左、中、右)，后面可有2个环绕声喇叭声道，LFE (low frequency effects，3Hz~120Hz)是低频音效的加强声道 7.1环绕声与5.1类似 5.1环绕声 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-2 BC的数据块 ISO/IEC 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-2 AAC是什么 MPEG-2 AAC的配置 MPEG-2 AAC的基本模块

MPEG-2 AAC是什么 MPEG-2 AAC是MPEG-2标准中的一种非常灵活的声音感知编码标准。就像所有感知编码一样，MPEG-2 AAC主要使用听觉系统的掩蔽特性来减少声音的数据量，并且通过把量化噪声分散到各个子带中，用全局信号把噪声掩蔽掉。 AAC支持的采用频率可从8 kHz到96 kHz，AAC编码器的音源可以是单声道的、立体声的和多声道的声音。AAC标准可支持48个主声道、16个低频音效加强通道LFE (low frequency effects)、16个配音声道(overdub channel)或者叫做多语言声道(multilingual channel)和16个数据流。MPEG-2 AAC在压缩比为11:1，即每个声道的数据率为(44.1×16 )/11=64 kb/s，而5个声道的总数据率为320 kb/s的情况下，很难区分还原后的声音与原始声音之间的差别。与MPEG的层2相比，MPEG-2 AAC的压缩率可提高1倍，而且质量更高，与MPEG的层3相比，在质量相同的条件下数据率是它的70％。 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-2 AAC的配置开发MPEG-2 AAC标准采用的方法与开发MPEG Audio标准采用的方法不同。后者采用的方法是对整个系统进行标准化，而前者采用的方法是模块化的方法，把整个AAC系统分解成一系列模块，用标准化的AAC工具(advanced audio coding tools)对模块进行定义，因此在文献中往往把“模块(modular)”与“工具(tool)”等同对待。 AAC标准定义了三种配置：基本配置、低复杂性配置和可变采样率配置 2018/9/20 第二章音频信息处理  音频编码标准

2018/9/20 第二章音频信息处理  音频编码标准

基本配置(Main Profile) 在这种配置中，除了“增益控制(Gain Control)”模块之外，AAC系统使用了图中所示的所有模块，在三种配置中提供最好的声音质量，而且AAC的解码器可以对低复杂性配置编码的声音数据进行解码，但对计算机的存储器和处理能力的要求方面，基本配置比低复杂性配置的要求高。 2018/9/20 第二章音频信息处理  音频编码标准

低复杂性配置(Low Complexity Profile)
在这种配置中，不使用预测模块和预处理模块，瞬时噪声定形(temporal noise shaping，TNS)滤波器的级数也有限，这就使声音质量比基本配置的声音质量低，但对计算机的存储器和处理能力的要求可明显减少。可变采样率配置(Scalable Sampling Rate Profile) 在这种配置中，使用增益控制对信号作预处理，不使用预测模块，TNS滤波器的级数和带宽也都有限制，因此它比基本配置和低复杂性配置更简单，可用来提供可变采样频率信号。 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-2 AAC的基本模块增益控制(Gain control) 滤波器组(Filter Bank)
增益控制模块用在可变采样率配置中，它由多相正交滤波器PQF (polyphase quadrature filter)、增益检测器(gain detector)和增益修正器(gain modifier)组成。这个模块把输入信号分离到4个相等带宽的频带中。在解码器中也有增益控制模块，通过忽略PQF的高子带信号获得低采样率输出信号。滤波器组(Filter Bank) 滤波器组是把输入信号从时域变换到频域的转换模块，它是MPEG-2 AAC系统的基本模块。这个模块采用了改进离散余弦变换MDCT，它是一种线性正交交迭变换，使用了一种称为时域混迭取消TDAC(time domain aliasing cancellation)技术。 2018/9/20 第二章音频信息处理  音频编码标准

MDCT使用KBD (Kaiser-Bessel derived)窗口或者使用正弦(sine)窗口，正向MDCT变换可使用下式表示：
其中， n ＝样本号，N ＝变换块长度，i = 块号 2018/9/20 第二章音频信息处理  音频编码标准

瞬时噪声定形TNS 在感知声音编码中，TNS模块是用来控制量化噪声的瞬时形状的一种方法，解决掩蔽阈值和量化噪声的错误匹配问题。这种技术的基本想法是，在时域中的音调声信号在频域中有一个瞬时尖峰，TNS使用这种双重性来扩展已知的预测编码技术，把量化噪声置于实际的信号之下以避免错误匹配。联合立体声编码联合立体声编码(joint stereo coding)是一种空间编码技术，其目的是为了去掉空间的冗余信息。MPEG-2 AAC系统包含两种空间编码技术：M/S编码(Mid/Side encoding)和声强/耦合(Intensity /Coupling)。 M/S编码使用矩阵运算，因此把M/S编码称为矩阵立体声编码(matrixed stereo coding)。M/S编码不传送左右声道信号，而是使用标称化的“和”信号与“差”信号，前者用于中央M(middle)声道，后者用于边S(side)声道，因此M/S编码也叫做“和-差编码(sum-difference coding)”。声强/耦合编码的名称也很多，有的叫做声强立体声编码(intensity stereo coding)，或者叫做声道耦合编码(channel coupling coding)，它们探索的基本问题是声道间的不相关性(irrelevance)。 2018/9/20 第二章音频信息处理  音频编码标准

无噪声编码(Noiseless coding)
预测(Prediction) 这是在话音编码系统中普遍使用的一种技术，它主要用来减少平稳(stationary)信号的冗余度。量化器(Quantizer) 使用了非均匀量化器。无噪声编码(Noiseless coding) 无噪声编码实际上就是霍夫曼编码，它对被量化的谱系数、比例因子和方向信息进行编码。 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-2 AAC 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-4 Audio简介 MPEG-4 Audio标准可集成从话音到高质量的多通道声音，从自然声音到合成声音，编码方法还包括参数编码(parametric coding)，码激励线性预测(code excited linear predictive，CELP)编码，时间/频率T / F (time / frequency)编码，结构化声音SA (structured audio)编码和文本-语音TTS (text-to-speech)系统的合成声音等。

自然声音 MPEG-4声音编码器支持数据率介于2 kb/s和64 kb/s之间的自然声音(natural audio)。为了获得高质量的声音，MPEG-4定义了三种类型的声音编码器分别用于不同类型的声音参数编码器：使用声音参数编码技术。对于采样率为8 kHz的话音(speech)，编码器的输出数据率为2～4 kb/s；对于采样频率为8 kHz或者16 kHz的声音(audio)，编码器的输出数据率为4～16 kb/s。 CELP编码器：使用CELP(code excited linear predictive)技术。编码器的输出数据率在6～24 kb/s之间，它用于采样频率为8 kHz的窄带话音或者采样频率为16 kHz的宽带话音。 T/F编码器：使用时间-频率(time-to-frequency，T/F)技术。这是一种使用矢量量化(vector quantization，VQ)和线性预测的编码器，压缩之后输出的数据率大于16 kb/s，用于采样频率为8 kHz的声音信号。 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-4 Audio编码方框图 * UMTS (universal mobile telecommunication system) 通用移动远程通信系统 2018/9/20 第二章音频信息处理  音频编码标准

MPEG-4的译码器支持合成乐音和TTS声音
合成乐音：即所谓的MIDI 文-语转换：Text-to-Speech 2018/9/20 第二章音频信息处理  音频编码标准

5. Dolby Audio Coding Overview of Dolby Audio Coding System
AC-1 : Dolby’s first digital coding system AC-2 : 2-channel stereo system Dolby AC-3 : Multi-channel Digital Audio Compression System

Brief History AC-2 (1989) AC-1 (1987)
Dolby’s first digital coding system Simple delta modulation based coding techniques 4-2-4 multi-channel system, 2-1 bit-rate reduction AC-2 (1989) TDAC (Time Domain Aliasing Cancellation) Filter Bank based on MDCT/MDST 2-channel stereo system Bit allocation based on Psychoacoustic Model AC-2a : pre-echo control by block size adaptation 2018/9/20 第二章音频信息处理  音频编码标准

Brief History AC-3 (1991~) TDAC Filter Bank based on MDCT
5.1 multi-channel (320 kb/s) digital audio USA HDTV Digital Audio Coding Standard First cinema demonstration : Star Trek VI Channel coupling techniques is applied to reduce bit-rate at high frequencies 2018/9/20 第二章音频信息处理  音频编码标准

AC-3 Introduction Input Audio : 1 ~ 5.1 channels of source
0.1 channel : low frequency (Subwoofer) signal sampling rate : 32 kHz, 44.1 kHz, 48kHz windowing : 50% overlap/add Fielder window Bit Rate : 32 kb/s ~ 640 kb/s bandwidth reduction factor : 13.5 uncompressed PCM sample : 6 channel * 48 kHz * 18 bits = Mb/s standard bit rate : 384 kb/s 2018/9/20 第二章音频信息处理  音频编码标准

AC-3 Features AC-3 Encoder 2018/9/20 第二章音频信息处理  音频编码标准

AC-3 Features AC-3 Decoder 2018/9/20 第二章音频信息处理  音频编码标准

AC-3 Features Bit-stream Syntax
1 Frame represents 1536 PCM samples for all channels 1 Block represents 256 PCM for each channel SI=Sync. Info BSI=Bit-stream Info CRC for error correction Aux Data for private control 2018/9/20 第二章音频信息处理  音频编码标准

AC-3 Features The AC-3 Multi-channel Coder
The Conception of Multi-channel 2018/9/20 第二章音频信息处理  音频编码标准

6. Audio Coding Initiatives in China
An Overview of Chinese AVS Project Audio Coding Quality Assessment Methods ♫♪♫♪

China AVS Project AVS : audio video coding standard (数字电视音视频编解码技术标准)
2002 6月21日数字视音频编解码技术标准化工作组在京正式成立，组长高文负责我国数字音视频等媒体的压缩、解压缩、处理和表示编解码技术标准的制定工作工作组挂靠中国科学院计算所 Official Homepage : 2018/9/20 第二章音频信息处理  音频编码标准

工作组将围绕以下几方面开展工作：目标：成果：已经拥有一批专利技术
面向宽带网络多媒体、移动多媒体通信、（高清晰度）数字电视、高密度光盘等重大关键数字音视频前端系统与信息家电产业目标：组织制定国家的视音频编码压缩标准参与制订并影响相关的国际标准形成我国掌握主动权的数字音视频标准体系成果：已经拥有一批专利技术 2018/9/20 第二章音频信息处理  音频编码标准

7. Next Step of Audio Coding Standardization
MPEG 21:多媒体框架(Multimedia Framework)标准三维视音频技术在线游戏标准化可伸缩编码 … ♫♪♫♪

Next Step MPEG-7是多媒体内容描述标准，支持对多媒体资源的组织管理、搜索、过滤、检索，已经基本完成。
三维视音频技术 … ———摘自“MPEG”上海会议新闻第62次MPEG国际会议和第28次JPEG会议于2002年10月21日至25日在上海浦东香格里拉饭店召开。 2018/9/20 第二章音频信息处理  音频编码标准

MIDI的原理与系统音乐合成：FM, Wavetable MIDI文件格式 MIDI规范：SMF/XMF/GM
§2.4 内容提要 MIDI的原理与系统音乐合成：FM, Wavetable MIDI文件格式 MIDI规范：SMF/XMF/GM MIDI 

MIDI简介 Musical Instrument Digital Interface (MIDI) ，可译成“电子乐器数字接口”
用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议：把演奏信息转换成电子数据 MIDI是乐器和计算机使用的标准语言，是一套指令(即命令的约定)，它指示乐器即MIDI设备要做什么，怎么做，如演奏音符、加大音量、生成音响效果等 MIDI不是声音信号，在MIDI电缆上传送的不是声音，而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令 2018/9/20 第二章音频信息处理  音频编码标准

MIDI简介(cont.) 优点跟WAVE的比较生成的文件比较小：是一套音乐符号的定义，而不是实际的音乐声音容易编辑：控制参数少
生成的文件比较小：是一套音乐符号的定义，而不是实际的音乐声音容易编辑：控制参数少可以作背景音乐，它可以和其它的媒体，如数字电视、图形、动画、话音等一起播放，这样可以加强演示效果(画外音) 跟WAVE的比较 WAVE文件和MIDI文件是目前计算机上最常用的两种音频数据文件，它们各有不同的特点和用途两者之间的差别可以从下表中看出 2018/9/20 第二章音频信息处理  音频编码标准

WAVE和MIDI音乐的比较 WAVE和MIDI音乐的比较 MIDI WAVE 文件内容 MIDI指令数字音频数据音源 MIDI乐器
MIDI WAVE 文件内容 MIDI指令数字音频数据音源 MIDI乐器 Mic 磁带 CD唱盘音响容量小与音质成正比效果与声卡质量有关与编码指标有关适用性易编辑声源受限数据量很小不易编辑声源不限数据量大视听实例文件容量 5KB 3.6MB 乐曲长度 52秒 42秒 2018/9/20 第二章音频信息处理  音频编码标准

MIDI简介(cont.) 产生MIDI乐音的方法 MIDI音乐的产生过程 frequency modulation (FM)合成法
乐音样本合成法，也称为波形表(Wavetable)合成法 MIDI音乐的产生过程 2018/9/20 第二章音频信息处理  音频编码标准

FM合成声音 FM声音合成器的工作原理改变数字载波频率可以改变乐音的音调，改变它的幅度可以改变它的音量。
改变波形的类型，如用正弦波、半正弦波或其它波形，会影响基本音调的完整性。快速改变调制波形的频率(即音调周期)可以改变颤音的特性。改变反馈量，就会改变正常的音调，产生刺耳的声音调制声音的电平,即“幅度调制”, 作为音量控制。 2018/9/20 第二章音频信息处理  音频编码标准

FM合成声音(cont.) 声音合成器的波形(Yamaha OPL-III)
FM的13个声音参数和算法共14个控制参数以字节的形式存储在声音卡的ROM中。播放某种乐音时，计算机就发送一个信号，这个信号被转换成ROM的地址，从该地址中取出的数据就是用于产生乐音的数据。FM合成器利用这些数据产生的乐音是否真实，它的真实程度有多高，这就取决于可用的波形源的数目、算法和波形的类型。 2018/9/20 第二章音频信息处理  音频编码标准

乐音样本合成声音 FM的缺陷：产生各种逼真的乐音是相当困难的，有些乐音几乎不能产生。
乐音样本合成就是把真实乐器发出的声音以数字的形式记录下来，播放时改变播放速度，从而改变音调周期，生成各种音阶的音符。乐音样本的采集：音乐家在真实乐器上演奏不同的音符，选择44.1 kHz的采样频率、16位的乐音样本，这相当于CD-DA的质量，把不同音符的真实声音记录下来，这就完成了乐音样本的采集。乐音样本通常放在ROM芯片上。 2018/9/20 第二章音频信息处理  音频编码标准

乐音样本合成声音(cont.) 乐音样本合成器的工作原理
乐音样本合成器所需要的输入控制参数比较少，可控的数字音效也不多，大多数采用这种合成方法的声音设备都可以控制声音包络的ADSR参数，产生的声音质量比FM合成方法产生的声音质量要高。 2018/9/20 第二章音频信息处理  音频编码标准

MIDI系统简单的MIDI系统由一个MIDI键盘控制器和一个MIDI声音模块组成
许多MIDI键盘乐器在其内部既包含键盘控制器，又包含MIDI声音模块功能。在这些单元中，键盘控制器和声音模块之间已经有内部链接，这个链接可以通过该设备中的控制功能(local control)对链接打开或者关闭。 2018/9/20 第二章音频信息处理  音频编码标准

MIDI系统(cont.) MIDI数据流控制器是当作乐器使用的一种设备，在播放时把演奏转换成实时的MIDI数据流
单向异步的数据位流(bit stream)，其速率为31.25 kbps，每个字节为10位(1位开始位，8位数据位和1位停止位)；通常由控制器(MIDI controller)产生，如乐器键盘，或者由音序器(MIDI sequencer)产生。控制器是当作乐器使用的一种设备，在播放时把演奏转换成实时的MIDI数据流乐器上的MIDI接口通常包含3种不同的MIDI连接器，即IN, OUT和THRU(穿越)。来自控制器或者音序器的MIDI数据输出通过该装置的MIDI OUT连接器传输 MIDI数据流的接收设备为声音发生器(MIDI sound generator)或者声音模块(MIDI sound module)，它们在IN端口接收消息(MIDI messages)，然后播放声音。 2018/9/20 第二章音频信息处理  音频编码标准

With TX81Z Synthesizer Module
MIDI系统(cont.) Yamaha MIDI Instruments Simple for Laptop With TX81Z Synthesizer Module 2018/9/20 第二章音频信息处理  音频编码标准

MIDI系统(cont.) MIDI的通道概念
单个物理MIDI通道(MIDI channel)分成16个逻辑通道，每个逻辑通道可指定一种乐器 2018/9/20 第二章音频信息处理  音频编码标准

MIDI系统(cont.) 复杂MIDI系统 2018/9/20 第二章音频信息处理  音频编码标准

MIDI系统(cont.) 使用PC机构成的MIDI系统声音模块就是这样一种单独的多音色声音模块：
使用安装在PC机上的高级的MIDI音序器软件，用户可把MIDI键盘控制器连接到接口卡的IN端口，也可以有相同的音乐创作功能。 MPC(Multimedia PC)规格需要声音卡的合成器是多音色(muti-timbral)和多音调(polyphonic)的合成器。多音色是指合成器能够同时播放几种不同乐器的声音，在英文文献里常看到用voices和patches来表示，音色就是把一个人说话(或一种乐器)的声音与另一个人说话(或另一种乐器)的声音区分开来的音品；多音调是指合成器一次能够播放的音符(note)数。 MPC规格定义了两种音乐合成器：基本合成器(Base-level synthesizer)和扩展合成器(Extended synthesizer) 2018/9/20 第二章音频信息处理  音频编码标准

MIDI系统(cont.) 基本合成器和扩展合成器之间的差别
基本合成器必须具有同时播放3种旋律音色和3种打击音色(鼓乐)的能力，而且还必须具有同时播放6个旋律音符和3个打击音符的能力，因此，基本合成器具有9种音调；扩展合成器要能够同时播放9种旋律音色和8种打击音色。合成器名称 (synthesizer) 旋律乐器声 (melodic instruments) 打击乐器 (percussive instruments) 音色数 (timbres) 音调数 (polyphony) 基本合成器 3种音色 6个音符 3个音符扩展合成器 9种音色 16个音符 8种音色 2018/9/20 第二章音频信息处理  音频编码标准

MIDI消息定义：MIDI文件的内容称之为消息，它可以被认为是告诉音乐合成器如何演奏一小段音乐的一种指令。它由一个8位的状态字节并通常跟着2个数据字节组成(All MIDI status byte and data byte values are in hexadecimal )。类型通道 1 状态（1个字节）数据（2个字节）例如： Status Byte Data Bytes Message Bn 78 00 All Sound Off n 为通道号，0~F 2018/9/20 第二章音频信息处理  音频编码标准

MIDI消息(cont.) 可分为通道消息和系统消息两大类。 2018/9/20 第二章音频信息处理  音频编码标准携带的演奏数据
标识在系统中的所有接收器部件之间的同步厂商的标识代码 2018/9/20 第二章音频信息处理  音频编码标准

MIDI音序器音序器是一种装置，允许MIDI数据被捕获、存储、编辑、组合和重奏。用途：
MIDI合成器实时接收和处理MIDI消息。当合成器接收到一个 note on （乐音开）MIDI消息时就演奏相应的声音，当接收到一个 note off （乐音关）MIDI消息时就停止演奏。如果MIDI数据源是乐器键盘，note on 消息就实时产生，在像这样的实时应用中，就无需与MIDI消息一起发送一个定时信息。如果MIDI数据存储成数据文件，或者使用音序器编辑的数据文件，MIDI消息就需要某种形式的定时标记(time-stamping)。 2018/9/20 第二章音频信息处理  音频编码标准

标准MIDI文件 SMF (Standard MIDI File) / XMF (eXtensible Music Format)
国际MIDI协会(International MIDI Association)出版了标准MIDI文件(Standard MIDI Files)规范，该标准说明了处理定时标记MIDI数据的一种标准化方法。这种方法适合各种应用软件共享MIDI数据文件，这些软件包括音序器、乐谱软件包和多媒体演示软件。标准MIDI文件(Standard MIDI File)规范定义了3种MIDI文件格式，MIDI音序器能够管理文件标准规定的多个MIDI数据流，即声轨(tracks)。MIDI文件格式0 (Format 0)规定所有MIDI音序数据(MIDI sequence data)必须存储在单个声轨上，它仅用于简单的单声轨设备；MIDI文件格式1 (Format 1)规定数据以一个声轨集的方式存储；MIDI文件格式2 (Format 2)可用几个独立模式存储数据。 2018/9/20 第二章音频信息处理  音频编码标准

MIDI规范国际MIDI协会(International MIDI Association)
通用MIDI规范(General MIDI Specification) 用于通用MIDI乐器(General MIDI Instruments) 通用MIDI声音集(General MIDI Sound Set)，即配音映射(patch map)；通用MIDI打击乐音集(General MIDI Percussion Set)，即打击乐音与音符号之间的映射一套通用MIDI演奏(General MIDI Performance)能力，包括声音数目和MIDI消息类型等通用MIDI系统规定MIDI通道1～9和11～16用于旋律乐器声，而通道10用于以键盘为基础的打击乐器声。 2018/9/20 第二章音频信息处理  音频编码标准

参考文献与作业 http://www.midi.org/
作业通读参考文献2，然后：画出MIDI的系统逻辑模型；编谱一段MIDI音乐并试听其效果。 2018/9/20 第二章音频信息处理  音频编码标准

Audio Coding Standards

Similar presentations

Presentation on theme: "Audio Coding Standards"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

Audio Coding Standards

Similar presentations

Presentation on theme: "Audio Coding Standards"— Presentation transcript:

Similar presentations

About project

反馈