四川大学 计算机学院 陈 虎 huchen@scu.edu.cn 多媒体技术基础 四川大学 计算机学院 陈 虎 huchen@scu.edu.cn.

Slides:



Advertisements
Similar presentations
第十五课 词汇与句子. 学前导航 在本课里, 我们将学习韩国语的词汇和句子。 进入学习 韩国语的词汇一共可分为 4 类,即固有词、汉字词、 外来词、混合词。 固有词是指韩国国民按照固有的语言资料和造词方 法创造的词语。韩国语的固有词不到整个词汇的 20% , 但是都是历史上流传下来的基本词汇。
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
無性生殖是由親代直接產生新的個體,並不涉及配子的生成與結合。
第 7 章 数字音频处理技术 7.1 基本概念 7.2 获取声音 7.3 处理声音 7.4 保存声音文件 ■ 声音概念 ■ 声音频率分布
声音素材编辑与处理.
Fundamentals of Computers
第十章 多媒体数据压缩技术 计算机网络与多媒体技术.
自然的食物就是你最好的醫生 上課之前先聽一首歌~稻香 歌詞、音樂還不錯和大家分享一下
第一章 声现象 第一章 声现象.
怎樣吃才健康? 賴亭竹.
实验九 声音信号的处理 信息工程学院 网络工程系 强文萍.
胫腓骨骨折.
第一次作业知识讲解 我和我的小伙伴们 薛坚、黄进 杨军裕、刘旭宁、李启宏.
第二单元(6-9课) 近代化的探索.
MTI 多媒体技术 第七讲 XIDIAN 国际视频压缩标准简介.
新帝國主義開港 (一)臺灣成為侵略者目標 1.背景: A.買賣利豐=鴉片進口+米、糖、樟腦、煤炭出口 B.地理位置優越=航行安全+商貿中心 2.新帝國主義: A.19C中:英、法、美、日為主 B.臺被迫開港通商,割地賠款,簽訂不平等條約.
第4章 多媒体音频处理技术.
佳力科技 防爆叉车的应用、发展 浙江佳力科技股份有限公司.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
烟花爆竹企业开复工 安 全 培 训参考课件 浏 阳 市 安 监 局.
第三章 人耳听觉特性 3.1声音与音质 声音就是声波作用于人的耳脑系统所产生的一种主观感觉。 图3-1人耳的听觉机理
常规免疫接种率 监测 免疫规划科 章梦然.
入托、入学儿童预防接种证查验 武平县疾病预防控制中心 林传贵
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
请你表演.
词类活用.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第二章 音频信息的获取与处理 数字音频基础 音频卡的工作原理 音频编码基础和标准 音乐合成和MIDI规范.
C++中的声音处理 在传统Turbo C环境中,如果想用C语言控制电脑发声,可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为: Beep(频率,持续时间) , 单位毫秒 暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒 引用这两个函数时,必须包含头文件
计算机基础知识 丁家营镇九年制学校 徐中先.
Audio.
Audio Coding Standards
语音编码 陈虎.
第8章 多媒体技术简介. 第8章 多媒体技术简介 1.多媒体技术的概念 1、多媒体的概念 媒体数据的类型 多媒体的定义 呈现信息所用的数据 文本 图形/图像 声音 动画/视频 多媒体的定义 把两种或两种以上的媒体材料有机地组织起来,能够从不同的视角更好地呈现特定的信息 用于处理和组织多种媒体材料的技术.
電腦數位音樂介紹 11組 電機三 陳俊傑 吳岳庭.
多媒體元素.
第二章 声音和语音编码 南通大学计算机应用教研室.
第9章 声卡与音箱 9.1 声卡 9.2 音箱.
第四章 数字音频基础 授课教师:.
通信工程专业英语 Lesson 4 Audio Encoding & Video Encoding 第4课 音频编码与视频编码
数字媒体技术基础 (第3章 数字音频技术) 周苏 教授 浙江大学城市学院 QQ:
DPCM编码的原理 DPCM采用预测编码的方式传输信号,所谓预测编码就是根据过去的信号样值来预测下一个信号样值,并仅把预测值与现实样值的差值加以量化,编码后进行数字信号传输。在接收端经过和发送端相同的预测操作,低通滤波器便可恢复出与原始信号相近的波形。 DPCM是采用固定预测器与固定量化器的差值脉冲调制,它是分析ADPCM工作原理的基础。
MTI 多媒体技术 第三讲 XIDIAN 话音编码(Speech Coding).
应用实例 识别Ps & Pt ADTS 压力通道并校验 CPD8000 New MENSOR‘s ADTS: CPA8001.
多媒体技术 中南大学信息科学与工程学院 黄东军.
第3章 信息与信息系统 陈恭和.
张奇 复旦大学 计算机科学技术学院 2010年3月 多媒体技术基础(第3版) 第3讲 话音编码 张奇 复旦大学 计算机科学技术学院 2010年3月.
晶体管及其小信号放大 -单管共射电路的频率特性.
晶体管及其小信号放大 -单管共射电路的频率特性.
聖方濟各英文小學 升中派位結果(2002/2004) 入讀英文中學:95.9% 第一組別(Band 1)學生:80.2%
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
多媒体技术 中南大学信息科学与工程学院 黄东军.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
音频处理及数字化.
第二章 音频信息的获取与处理.
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
1.非线性规划模型 2.非线性规划的Matlab形式
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
声音信号数字化 信息工程学院 宋 荣 杰.
語音訊號的特徵向量 張智星 多媒體資訊檢索實驗室 清華大學 資訊工程系.
滤波减速器的体积优化 仵凡 Advanced Design Group.
多媒体技术 中南大学信息科学与工程学院 黄东军.
信号发生电路 -非正弦波发生电路.
Continuous Authentication for Voice Assistants
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
B12 竺越
第12章 语音合成.
混沌保密通讯 实验人 郝洪辰( ) 李 鑫( ).
学习目标 1、什么是列类型 2、列类型之数值类型.
Presentation transcript:

四川大学 计算机学院 陈 虎 huchen@scu.edu.cn 多媒体技术基础 四川大学 计算机学院 陈 虎 huchen@scu.edu.cn

MPEG声音 一、 MPEG-1 Audio 二、 MPEG-2 Audio 三、 MPEG-2 ACC 四、 MPEG-4 Audio

MPEG声音 MPEG-1 Audio 、MPEG-2 Audio、MPEG-2 ACC声音数据压缩编码—— 感知声音编码(perceptual audio coding) 利用人的听觉系统的感知特性来达到压缩声音数据的目的 不同于与波形声音压缩编码(如ADPCM)和参数编码(如LPC) :依据波形本身的相关性和模拟人的发音器官的特性) 3

MPEG声音 对响度的感知 “听阈—频率”曲线 4

MPEG声音 对音高的感知 “音高—频率”曲线 5

MPEG声音 掩蔽效应 频域掩蔽 时域掩蔽 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽 时域掩蔽 在时间上相邻的声音之间的掩蔽现象。 两种时阈掩蔽:超前掩蔽和滞后掩蔽 6

心理声学模型(psychoacoustic model) 听觉阈值电平 MPEG声音 心理声学模型(psychoacoustic model) 听觉阈值电平 听觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值也不同。(大多数人2 kHz~5 kHz) 一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。 听觉掩饰特性 听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的声音而发生变化。 7

感知子带编码(perceptual sub-band coding) MPEG声音 MPEG Audio 采用的两种感知编码: 感知子带编码(perceptual sub-band coding) 思想是首先把时域中的声音数据变换到频域,对频域内的子带分量分别进行量化和编码,然后根据心理声学模型确定样本的精度,从而达到压缩数据量的目的。 不局限于只对话音进行编码,也不局限于哪一种声源。 Dolby AC-3编码 8

MPEG-1 Audio 感知子带编码压缩算法框图 9

MPEG-1 Audio Dolby AC-3压缩编码算法框图 10

MPEG-1 Audio MPEG声音编码器结构图 11

MPEG-1 Audio MPEG声音解码器结构图 12

ISO/MPEG audio层1和层2编码器和解码器的结构 13

ISO/MPEG audio层3编码器和解码器的结构 14

MPEG-2 Audio MPEG-1和-2的声音数据规格 参数名称 Linear PCM Dolby AC-3 MPEG-2 Audio 采用频率 48/96 kHz 32/44.1/48 kHz 16/22.05/24/ 32/44.1/48 kHz 样本精度 (每个样本的比特数) 16/20/24 压缩 (16 bits) 16 最大数据传输率 6.144 Mb/s 448 kb/s 8~640 kb/s 32~448 kb/s 最大声道数 8 5.1 5.1/7.1 2 15

MPEG-2 AAC (Advanced audio coding) 编码思想: MPEG-2 ACC MPEG-2 AAC (Advanced audio coding) 编码思想: 主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。 与MPEG-1声音格式不兼容 适用范围: AAC支持的采用频率可从8 kHz到96 kHz AAC编码器的音源可以是单声道的、立体声的和多声道的声音。(AAC标准可支持48个主声道、16个低频音效加强通道LFE (low frequency effects)、16个配音声道(overdub channel)或者叫做多语言声道(multilingual channel)和16个数据流。) 16

MPEG-2 AAC (Advanced audio coding) 压缩率: MPEG-2 ACC MPEG-2 AAC (Advanced audio coding) 压缩率: MPEG-2 AAC压缩比为11:1(即每个声道的数据率为(44.1×16 )/11=64 kb/s)。 在5个声道的总数据率为320 kb/s的情况下,很难区分还原后的声音与原始声音之间的差别。 与MPEG的层2相比,MPEG-2 AAC的压缩率可提高1倍,而且质量更高;与MPEG的层3相比,在质量相同的条件下数据率是它的70%。 17

开发MPEG-2 AAC标准采用模块化的方法: MPEG-2 ACC MPEG-2 AAC的配置 开发MPEG-2 AAC标准采用模块化的方法: 把整个AAC系统分解成一系列模块,用标准化的AAC工具(advanced audio coding tools)对模块进行定义 (MPEG Audio标准是对整个系统进行标准化) AAC标准定义了三种配置: 基本配置 低复杂性配置 可变采样率配置 18

MPEG-2 AAC编码器框图 19

MPEG-2 AAC解码器框图 20

集成从话音~高质量的多通道声音;从自然声音~合成声音 编码方法: MPEG-4 Audio MPEG-4 Audio标准: 集成从话音~高质量的多通道声音;从自然声音~合成声音 编码方法: 参数编码(parametric coding) 码激励线性预测(code excited linear predictive,CELP)编码 时间/频率T/F(time/frequency)编码 结构化声音SA(structured audio)编码 合成声音:MIDI;TTS 21

MPEG-4声音编码器支持数据率2 kb/s~64 kb/s之间的自然声音。 三种类型声音编码器: MPEG-4 Audio 自然声音 (natural audio) MPEG-4声音编码器支持数据率2 kb/s~64 kb/s之间的自然声音。 三种类型声音编码器: 22

MPEG-4 Audio 1、参数编码器 使用声音参数编码技术。采样频率为8 kHz的话音(speech),输出数据率为2~4 kb/s;采样频率为8 kHz或16 kHz的声音(audio),输出数据率为4~16 kb/s。 2002年10月28日 23

MPEG-4 Audio 2、CELP编码器 使用CELP(code excited linear predictive)技术。采样频率为8 kHz的窄带话音或16 kHz的宽带话音,输出数据率6~24 kb/s 2002年10月28日 24

MPEG-4 Audio 3、T/F编码器 使用时间-频率(time-to-frequency,T/F)技术。这是一种使用矢量量化(vector quantization,VQ)和线性预测的编码器,采样频率为8 kHz的声音信号,输出的数据率大于16 kb/s。 25

MPEG-4 Audio MPEG-4 Audio编码方框图 26

文-语转换 TTS(text-to-speech) MPEG-4 Audio 文-语转换 TTS(text-to-speech) 将文本形式的信息转换成自然语音的一种技术,最终目标是使计算机根据文本的内容可带各种语调来朗读任意的文本,输出像人一样清晰而又自然的声音。 具有巨大的应用潜力和商业价值 难点:自然度 语-文转换=语音识别: speech -to- text 27

MPEG-4 Audio TTS系统方框图 28