四川大学计算机学院陈虎 huchen@scu.edu.cn 多媒体技术基础四川大学计算机学院陈虎 huchen@scu.edu.cn.

Slides:

Advertisements

Similar presentations

第十五课词汇与句子. 学前导航在本课里，我们将学习韩国语的词汇和句子。进入学习韩国语的词汇一共可分为 4 类，即固有词、汉字词、外来词、混合词。固有词是指韩国国民按照固有的语言资料和造词方法创造的词语。韩国语的固有词不到整个词汇的 20% ，但是都是历史上流传下来的基本词汇。

Advertisements

第五节函数的微分一、微分的定义二、微分的几何意义三、基本初等函数的微分公式与微分运算法则四、微分形式不变性五、微分在近似计算中的应用六、小结.

無性生殖是由親代直接產生新的個體，並不涉及配子的生成與結合。

第 7 章数字音频处理技术 7.1 基本概念 7.2 获取声音 7.3 处理声音 7.4 保存声音文件 ■ 声音概念 ■ 声音频率分布

声音素材编辑与处理.

Fundamentals of Computers

第十章多媒体数据压缩技术计算机网络与多媒体技术.

自然的食物就是你最好的醫生上課之前先聽一首歌~稻香歌詞、音樂還不錯和大家分享一下

第一章声现象第一章声现象.

怎樣吃才健康? 賴亭竹.

实验九声音信号的处理信息工程学院网络工程系强文萍.

胫腓骨骨折.

第一次作业知识讲解我和我的小伙伴们薛坚、黄进杨军裕、刘旭宁、李启宏.

第二单元（6-9课）近代化的探索.

MTI 多媒体技术第七讲 XIDIAN 国际视频压缩标准简介.

新帝國主義開港 (一)臺灣成為侵略者目標 1.背景： A.買賣利豐=鴉片進口+米、糖、樟腦、煤炭出口 B.地理位置優越=航行安全+商貿中心 2.新帝國主義： A.19C中：英、法、美、日為主 B.臺被迫開港通商,割地賠款,簽訂不平等條約.

第4章多媒体音频处理技术.

佳力科技防爆叉车的应用、发展浙江佳力科技股份有限公司.

第三章数据类型和数据操作对海量数据进行有效的处理、存储和管理 3.1 数据类型数据源数据量数据结构

烟花爆竹企业开复工安全培训参考课件浏阳市安监局.

第三章人耳听觉特性 3.1声音与音质声音就是声波作用于人的耳脑系统所产生的一种主观感觉。图3-1人耳的听觉机理

常规免疫接种率监测免疫规划科章梦然.

入托、入学儿童预防接种证查验武平县疾病预防控制中心林传贵

§5 微分及其应用一、微分的概念实例:正方形金属薄片受热后面积的改变量..

§5 微分及其应用一、微分的概念实例:正方形金属薄片受热后面积的改变量..

第一章商品第一节价值创造第二节价值量第三节价值函数及其性质第四节商品经济的基本矛盾与利己利他经济人假设.

第二章音频信息的获取与处理数字音频基础音频卡的工作原理音频编码基础和标准音乐合成和MIDI规范.

C++中的声音处理在传统Turbo C环境中，如果想用C语言控制电脑发声，可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为： Beep(频率,持续时间) , 单位毫秒暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒引用这两个函数时，必须包含头文件

计算机基础知识丁家营镇九年制学校徐中先.

Audio Coding Standards

语音编码陈虎.

第8章多媒体技术简介. 第8章多媒体技术简介 1.多媒体技术的概念 1、多媒体的概念媒体数据的类型多媒体的定义呈现信息所用的数据文本图形/图像声音动画/视频多媒体的定义把两种或两种以上的媒体材料有机地组织起来，能够从不同的视角更好地呈现特定的信息用于处理和组织多种媒体材料的技术.

電腦數位音樂介紹 11組電機三陳俊傑吳岳庭.

多媒體元素.

第二章声音和语音编码南通大学计算机应用教研室.

第9章声卡与音箱 9.1 声卡 9.2 音箱.

第四章数字音频基础授课教师：.

通信工程专业英语 Lesson 4 Audio Encoding & Video Encoding 第4课音频编码与视频编码

数字媒体技术基础（第3章数字音频技术）周苏教授浙江大学城市学院 QQ：

DPCM编码的原理 DPCM采用预测编码的方式传输信号，所谓预测编码就是根据过去的信号样值来预测下一个信号样值，并仅把预测值与现实样值的差值加以量化，编码后进行数字信号传输。在接收端经过和发送端相同的预测操作，低通滤波器便可恢复出与原始信号相近的波形。 DPCM是采用固定预测器与固定量化器的差值脉冲调制，它是分析ADPCM工作原理的基础。

MTI 多媒体技术第三讲 XIDIAN 话音编码（Speech Coding）.

应用实例识别Ps & Pt ADTS 压力通道并校验 CPD8000 New MENSOR‘s ADTS: CPA8001.

多媒体技术中南大学信息科学与工程学院黄东军.

第3章信息与信息系统陈恭和.

张奇复旦大学计算机科学技术学院 2010年3月多媒体技术基础(第3版) 第3讲话音编码张奇复旦大学计算机科学技术学院 2010年3月.

晶体管及其小信号放大－单管共射电路的频率特性.

晶体管及其小信号放大－单管共射电路的频率特性.

聖方濟各英文小學升中派位結果(2002/2004) 入讀英文中學：95.9% 第一組別(Band 1)學生：80.2%

计算机网络与网页制作 Chapter 07：Dreamweaver CS5入门

多媒体技术中南大学信息科学与工程学院黄东军.

§6.7 子空间的直和一、直和的定义二、直和的判定三、多个子空间的直和.

音频处理及数字化.

第二章音频信息的获取与处理.

魏新宇 MATLAB/Simulink 与控制系统仿真魏新宇

1.非线性规划模型 2.非线性规划的Matlab形式

GIS基本功能数据存储与管理数据采集数据处理与编辑空间查询空间查询 GIS能做什么？与分析叠加分析缓冲区分析网络分析

声音信号数字化信息工程学院宋荣杰.

語音訊號的特徵向量張智星多媒體資訊檢索實驗室清華大學資訊工程系.

滤波减速器的体积优化仵凡 Advanced Design Group.

多媒体技术中南大学信息科学与工程学院黄东军.

信号发生电路－非正弦波发生电路.

Continuous Authentication for Voice Assistants

FVX1100介绍法视特（上海）图像科技有限公司施俊.

第12章语音合成.

混沌保密通讯实验人郝洪辰（）李鑫（）.

学习目标 1、什么是列类型 2、列类型之数值类型.

Presentation transcript:

四川大学计算机学院陈虎 huchen@scu.edu.cn 多媒体技术基础四川大学计算机学院陈虎 huchen@scu.edu.cn

MPEG声音一、 MPEG-1 Audio 二、 MPEG-2 Audio 三、 MPEG-2 ACC 四、 MPEG-4 Audio

MPEG声音 MPEG-1 Audio 、MPEG-2 Audio、MPEG-2 ACC声音数据压缩编码—— 感知声音编码(perceptual audio coding) 利用人的听觉系统的感知特性来达到压缩声音数据的目的不同于与波形声音压缩编码(如ADPCM)和参数编码(如LPC) ：依据波形本身的相关性和模拟人的发音器官的特性） 3

MPEG声音对响度的感知 “听阈—频率”曲线 4

MPEG声音对音高的感知 “音高—频率”曲线 5

MPEG声音掩蔽效应频域掩蔽时域掩蔽一种频率的声音阻碍听觉系统感受另一种频率的声音的现象一个强纯音会掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽，也称同时掩蔽时域掩蔽在时间上相邻的声音之间的掩蔽现象。两种时阈掩蔽：超前掩蔽和滞后掩蔽 6

心理声学模型(psychoacoustic model) 听觉阈值电平 MPEG声音心理声学模型(psychoacoustic model) 听觉阈值电平听觉阈值的大小随声音频率的改变而改变，各个人的听觉阈值也不同。（大多数人2 kHz～5 kHz）一个人是否能听到声音取决于声音的频率，以及声音的幅度是否高于这种频率下的听觉阈值。听觉掩饰特性听觉阈值电平是自适应的，即听觉阈值电平会随听到的不同频率的声音而发生变化。 7

感知子带编码(perceptual sub-band coding) MPEG声音 MPEG Audio 采用的两种感知编码：感知子带编码(perceptual sub-band coding) 思想是首先把时域中的声音数据变换到频域，对频域内的子带分量分别进行量化和编码，然后根据心理声学模型确定样本的精度，从而达到压缩数据量的目的。不局限于只对话音进行编码，也不局限于哪一种声源。 Dolby AC-3编码 8

MPEG-1 Audio 感知子带编码压缩算法框图 9

MPEG-1 Audio Dolby AC-3压缩编码算法框图 10

MPEG-1 Audio MPEG声音编码器结构图 11

MPEG-1 Audio MPEG声音解码器结构图 12

ISO/MPEG audio层1和层2编码器和解码器的结构 13

ISO/MPEG audio层3编码器和解码器的结构 14

MPEG-2 Audio MPEG-1和-2的声音数据规格参数名称 Linear PCM Dolby AC-3 MPEG-2 Audio 采用频率 48/96 kHz 32/44.1/48 kHz 16/22.05/24/ 32/44.1/48 kHz 样本精度 (每个样本的比特数) 16/20/24 压缩 (16 bits) 16 最大数据传输率 6.144 Mb/s 448 kb/s 8～640 kb/s 32～448 kb/s 最大声道数 8 5.1 5.1/7.1 2 15

MPEG-2 AAC （Advanced audio coding）编码思想： MPEG-2 ACC MPEG-2 AAC （Advanced audio coding）编码思想：主要使用听觉系统的掩蔽特性来减少声音的数据量，并且通过把量化噪声分散到各个子带中，用全局信号把噪声掩蔽掉。与MPEG-1声音格式不兼容适用范围： AAC支持的采用频率可从8 kHz到96 kHz AAC编码器的音源可以是单声道的、立体声的和多声道的声音。（AAC标准可支持48个主声道、16个低频音效加强通道LFE (low frequency effects)、16个配音声道(overdub channel)或者叫做多语言声道(multilingual channel)和16个数据流。） 16

MPEG-2 AAC （Advanced audio coding）压缩率： MPEG-2 ACC MPEG-2 AAC （Advanced audio coding）压缩率： MPEG-2 AAC压缩比为11:1（即每个声道的数据率为(44.1×16 )/11=64 kb/s）。在5个声道的总数据率为320 kb/s的情况下，很难区分还原后的声音与原始声音之间的差别。与MPEG的层2相比，MPEG-2 AAC的压缩率可提高1倍，而且质量更高；与MPEG的层3相比，在质量相同的条件下数据率是它的70％。 17

开发MPEG-2 AAC标准采用模块化的方法： MPEG-2 ACC MPEG-2 AAC的配置开发MPEG-2 AAC标准采用模块化的方法：把整个AAC系统分解成一系列模块，用标准化的AAC工具(advanced audio coding tools)对模块进行定义（MPEG Audio标准是对整个系统进行标准化） AAC标准定义了三种配置：基本配置低复杂性配置可变采样率配置 18

MPEG-2 AAC编码器框图 19

MPEG-2 AAC解码器框图 20

集成从话音~高质量的多通道声音；从自然声音~合成声音编码方法： MPEG-4 Audio MPEG-4 Audio标准：集成从话音~高质量的多通道声音；从自然声音~合成声音编码方法：参数编码(parametric coding) 码激励线性预测(code excited linear predictive，CELP)编码时间/频率T/F(time/frequency)编码结构化声音SA(structured audio)编码合成声音：MIDI；TTS 21

MPEG-4声音编码器支持数据率2 kb/s~64 kb/s之间的自然声音。三种类型声音编码器： MPEG-4 Audio 自然声音 (natural audio) MPEG-4声音编码器支持数据率2 kb/s~64 kb/s之间的自然声音。三种类型声音编码器： 22

MPEG-4 Audio 1、参数编码器使用声音参数编码技术。采样频率为8 kHz的话音(speech)，输出数据率为2～4 kb/s；采样频率为8 kHz或16 kHz的声音(audio)，输出数据率为4～16 kb/s。 2002年10月28日 23

MPEG-4 Audio 2、CELP编码器使用CELP(code excited linear predictive)技术。采样频率为8 kHz的窄带话音或16 kHz的宽带话音，输出数据率6～24 kb/s 2002年10月28日 24

MPEG-4 Audio 3、T/F编码器使用时间-频率(time-to-frequency，T/F)技术。这是一种使用矢量量化(vector quantization，VQ)和线性预测的编码器，采样频率为8 kHz的声音信号，输出的数据率大于16 kb/s。 25

MPEG-4 Audio MPEG-4 Audio编码方框图 26

文-语转换 TTS(text-to-speech) MPEG-4 Audio 文-语转换 TTS(text-to-speech) 将文本形式的信息转换成自然语音的一种技术，最终目标是使计算机根据文本的内容可带各种语调来朗读任意的文本，输出像人一样清晰而又自然的声音。具有巨大的应用潜力和商业价值难点：自然度语-文转换=语音识别： speech -to- text 27

MPEG-4 Audio TTS系统方框图 28