MTI 多媒体技术 第三讲 XIDIAN 话音编码(Speech Coding).

Slides:



Advertisements
Similar presentations
第十五课 词汇与句子. 学前导航 在本课里, 我们将学习韩国语的词汇和句子。 进入学习 韩国语的词汇一共可分为 4 类,即固有词、汉字词、 外来词、混合词。 固有词是指韩国国民按照固有的语言资料和造词方 法创造的词语。韩国语的固有词不到整个词汇的 20% , 但是都是历史上流传下来的基本词汇。
Advertisements

C A D C D.
财务管理 利 润 分 配 利 润 分 配 嘉善中专 杨晓燕. 二、利润分配的项目及顺序 第三节 利润分配 一、利润分配的原则 财务管理 >> 第六章 >> 第三节 三、利润分配政策及影响因素.
信息的传递 九年级物理 电磁波的海洋. 感 悟 固定电话之间有电话 线连接着,信息是由 电流通过电话线传递 的 移动电话之间没有电 话线连接,它是靠什 么传递信息的?
一、音调  听过女高音和男低音的歌唱吗?他们的声音 给你的印象是怎样的? 女高音:音调高, 男低音:音调低,比较低沉。
第一章 声现象 第二节声音的特征.
护理学基础 第七章 医院与住院环境.
                                                 伊朗 的今生 与前世 (2)
扬声器的布置与安装.
第二章 数字图像媒体.
第 3 章 聽覺 每章扉頁 3.1 聽覺 3.2 人類耳朵的反應 3.3 聽覺缺陷.
報告書名:父母會傷人 班級:二技幼四甲 姓名:吳婉如 學號:1A2I0034 指導老師:高家斌
《中西翻译简史》课 教 学 探 讨 上海外国语大学高级翻译学院 谢天振.
客家文化的內涵與傳播 潘朝陽 臺灣師大國際與僑教學院院長 臺灣師大東亞系、地理系教授 臺灣師大全球客家文化研究中心主任
第一节 两者之间的差异分析 第二节 总体内部的差异分析 第三节 计算器的使用
─視覺藝術的元素.
第四章 從分裂到統一 第一節 漢唐之際的大變動
第6章 信號編碼技術.
第二章 多媒体数据压缩编码技术.
媽,我們真的不一樣 青少年期與中年期 老師: 趙品淳老師 組員: 胡珮玟4A1I0006 馬菀謙4A1I0040
第一部分 中考基础复习 第一章 声现象.
通信原理概论 张 小 银 安徽工业大学网络中心.
综合院校翻译硕士专业学位(MTI)改革创新路径探索
天府欧城“星光儿童乐园” ---项目计划书 此为机密文件。 天府欧城.
朝鲜.
健康檢查簡介 新湖國小健康中心 王淑華護理師 99/11/17.
情緒與壓力管理─背部舒緩 指導老師:彭易璟 第六組組員:會資三乙 499A0047 謝宛霖 會資三乙 499A0019 吳汶諭
班級:二幼三甲 姓名:郭小瑄 、 詹淑評 學號:1A2I0029 、1A2I0025
第一章 复 习 锦囊妙计 多看书 多看笔记 善于梳理.
现代通信原理 (第3版).
指導老師:陳韻如 姓名:吳宜珊 學號:4A0I0911 班級:幼保二乙
西安电子科技大学 Xidian University (陕西) 云南省凤庆县第一中学 石凤海 2015年1月28日.
1890年, 一艘名叫“马尔波罗号”的帆船在从新西兰驶往英国的途中,突然神秘地失踪了。 20年后,人们在火地岛海岸边发现了它。奇怪的是:船体原封未动,完好如初;船长航海日记的字迹仍然依稀可辨;就连那些死去多年的船员,也都“各在其位”,保持着当年在岗时的“姿势”; 1948年,一艘名为“乌兰格梅奇号”的荷兰货船,在通过马六甲海峡时,突然遇到海上风暴,当救助人员赶到时,船上所有人员都莫明其妙地死了。
鸿门宴 司马迁.
傳統童玩遊戲創新 組別:第八組 班級:幼保二甲 組員: 4A0I0005柯舒涵 4A0I0011謝孟真
行為改變技術 班級:幼保二甲 組員: 4A10H081 蘇靖婷 4A1I0014 陳佳瑩 4A1I0023 尤秀惠 4A1I0074 邱乃晏 指導老師: 楊淑娥 老師.
4.1 音频信号概述 4.2 音频信号的获取与处理 4.3 话音信号的参数编码 4.4 乐器数字接口MIDI 4.5 声卡概述
翰林自然 六年級上學期 第二單元 聲音與樂器.
無線電原理 吳明權 大同技術學院 資訊管理系.
提升國小自然與生活科技領域教師教學智能研習
Audio.
身边的噪音 ——六(1)班班队活动 李瑷蔚 符蓉.
日本 班級:六年四班 座號: 八號 姓名:楊維綱.
單元一:基頻訊號傳送技術實習 (PCM取樣 量化 編碼部分) 數位通訊實習模擬 單元一.
編碼 用於資料傳輸及壓縮 漢明碼 霍夫曼編碼.
语音编码 陈虎.
移动通信技术 机械工业出版社 罗文兴.
電腦數位音樂介紹 11組 電機三 陳俊傑 吳岳庭.
第二章 声音和语音编码 南通大学计算机应用教研室.
无线通信工程 姚彦教授 清华大学微波与数字通信国家重点实验室 2001年11月24日.
第二章 多媒体的硬件和 软件环境的建立 返回.
3 模拟信号的数字化传输 本章要点 抽样定理 脉冲编码调制(PCM) 调增量调制(ΔM) Δ-M、DPCM和数字音节压扩系统
第 10 章 复用和数字复接技术 10.2 时分复用(TDM) 10.3 数字复接技术 10.4 SDH复用原理
國立豐原高級中學 104學年度家長代表大會 主持人:張健家會長 時間:104年10月3日(星期六)上午10時0分 地點:行政樓二樓會議室.
试乘试驾团购执行方案(模板) 单 位:经销商名称 时 间:
媒体基础(一) 向辉 山东大学软件学院 2003年秋季.
13-1 數位/類比(D/A)轉換IC 2019/4/22 第13章 /數位類比(D/A)介面實習.
第3章 时分多路复用及PCM30/32路系统 时分多路复用通信 3.1 PCM30/32路系统 3.2.
Predictive Coding Chapter /4/28 資料壓縮 ※ 第七章 預測編碼 ※
《信息技术与教育技术》听觉媒体技术.
第五章 信源编码技术 5.1 取样定理 5.2 脉冲振幅调制 5.3 量化 5.4 脉冲编码调制 5.5 增量调制(△M或DM)
力学实验复习 杨昌彪 月.
創造不一樣的人生 -如何與身心障礙者接觸 新竹教育大學 薛明里.
第二节 声音的特性 人们有规律的、好听悦耳、使人愉快的声音叫做乐音,无规律的、难听刺耳、让人心烦的声音叫做噪声。
下列各句没有语病的一项是 A.布什政府在陷入伊战泥潭不能自拔的情况下,美国国会通过决议要求政府限期从伊拉克撤军。 B.自上世纪70年代开始,心脏病急剧上升,该病已成为威胁人类健康的主要杀手之一。 C.尊重事实,追求真理是专家的天职,任何违背科学真理的行为都应成为其禁区都不可踏入。 D.北京时间2007年9月14日,9时33分,日本第一颗绕月探测卫星“月亮女神”号在日本九州种子岛宇宙中心发射升空。
第三章时 域 分 析 引言 语音信号的短时处理方法 短时能量和短时平均幅度 短时平均过零率 短时自相关函数 短时时域处理技术应用举例
第十章 變頻控制LED燈光和馬達 調節電壓變化 類比輸出(PWM) 製作調光器 隨機數字與燭光效果 透過序列埠調整燈光亮度 認識直流馬達
主讲 巫玲 E_mail: 西南科技大学网络教育系列课程 计算机应用基础 主讲 巫玲 E_mail:
第12章 语音合成.
声音的特性.
Presentation transcript:

MTI 多媒体技术 第三讲 XIDIAN 话音编码(Speech Coding)

主要内容 话音的形成原理 话音编译码器原理 脉冲编码调制(PCM) 增量调制与自适应增量调制 自适应差分脉冲编码调制(ADPCM) 子带编码 其他编码

话音的形成原理 气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。 话音信号具有很强的相关性(长期相关、短期相关)。 肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。 气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。 话音信号具有很强的相关性(长期相关、短期相关)。 多媒体技术 第3讲

话音的分类 浊音(voiced sounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。 清音(unvoiced sounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。 爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。

话音产生的数字模型 周期 周期脉冲序列发生器 声道参数 时变数字滤波器 浊/清选择 语音 输出 伪随机噪声产生器 音量控制

话音技术的研究热点 话音压缩编码(Speech Coding) 话音识别(Speech Recognition) 文本话音转换(Text To Speech)

话音编译码器 A/D 话音 编码 信道 编码 信道 D/A 话音 译码 信道 译码

衡量话音编码器的参数 数据输出速率 延迟时间 话音质量 价格(实现代价)

语音质量等级划分 广播质量:带宽为7000Hz的高质量话音 长途电话质量:带宽为3400Hz,信噪比为30db,有失真 通信质量:完全可以听懂,但和长途电话质量相比有明显的失真。 合成质量:80%-90%的可懂度,听起来象机器讲话,失去了讲话者的特征

话音编译码器的分类 波形编译码器(waveform coder):不利用生成话音的信号的任何知识,将话音视为一种普通的声音,直接对波形信号进行采样和量化。例如PCM、DPCM、ADPCM等。 音源编译码器(Source coder):也叫参数编译码器、声码器(vocoder)。它从话音波形信号中提取话音生成模型的参数,使用这些参数通过话音生成模型重构出话音。 混合编译码器(Hybrid coder):综合使用上述两种技术。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。

三种话音编译码器的对比

语音信号的冗余度 幅度非均匀分布 样本之间的相关性 周期之间的相关性 基音之间的相关性 静止系数(话音间隙) 长期相关性(long term correlation)

脉冲编码调制(PCM) Pulse Code Modulation

PCM的量化方式 均匀量化与非均匀量化

非均匀量化 对小信号采用小的量化间隔,对大信号采用大的量化间隔,这样可以用较少的位数编码。 对大信号来说,虽然绝对量化误差较大,但是因为:(1)大信号出现的机会不多,(2)信噪比(相对误差)与小信号是一致的,所以对总的话音质量影响不大。 非均匀量化也是一种压缩。

µ律压扩与A律压扩 m 律(m -Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中。 x为 x 为输入信号,规格化为-1<= x <=1 m 为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取100 <= m <= 500。

µ律压扩与A律压扩 A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中 0 <= |x| <= 1/A 1/A <= |x| <= 1 对于采样频率为8 kHz,样本精度为13位、14位或者16位的输入信号,使用m 律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准。

PCM与时分多路复用(TDM)

差分脉冲编码调制(DPCM) - xk ek e’k 量化器 逆量化器 e’’k x’’k x’k 预测器 关键在于预测器与量化器的设计 产生误差 xk ek e’k 量化器 - 自适应量化阶 逆量化器 e’’k x’’k x’k 预测器 自适应预测 关键在于预测器与量化器的设计

差分脉冲编码调制(DPCM) e’k e’’k x’k 逆量化器 x’’k 预测器 译码过程

预测方程式 线性预测: 如果ai是常数,则为时不变线性预测,否则为自适应线性预测 最简单的预测方程:

最简单的DPCM x 1 2 3 4 x’’ e -1

增量调制(△M) 增量调制 (delta modulation,DM) 是一种预测编码技术,是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示。DM编码系统又称为“1位系统”。

自适应增量调制(ADM) CVSD(连续可变斜率增量调制): 如果编码器的输出连续出现三个相同的值,量化阶就加上一个大的增量;反之,就加一个小的增量。

自适应脉冲编码调制(APCM) APCM是一种根据输入信号幅度大小自动改变量化阶大小的一种波形编码技术。

自适应差分脉冲编码调制 自适应差分脉冲编码调制(ADPCM)综合了APCM的自适应特性和DPCM系统的差分特性 多媒体技术 第3讲

自适应差分脉冲编码调制 ADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术,CCITT为此制定了G.721推荐标准,这个标准叫做32 kb/s ADPCM。在此基础上还制定了G.721的扩充推荐标准G.723,使用该标准的编码器的数据率可降低到40 kb/s和24 kb/s。 G.721 的输入信号是G.711 PCM代码,它的数据率为64 kb/s。而G.721 ADPCM的输出是用4位表示的差分信号,它的采样率仍然是8 kHz,它的数据率为32 kb/s,这样就获得了2∶1的数据压缩。

子带-自适应差分脉冲编码调制

G.722编码标准 G.722是CCITT推荐的音频信号编码译码标准。 G.722标准的数据率为64 kb/s,采样频率由8 kHz提高到16 kHz,是G.711 PCM采样率的2倍,因而要被编码的信号频率由原来的3.4 kHz扩展到7 kHz。这就使音频信号的质量有很大改善,由数字电话的话音质量提高到调幅(AM)无线电广播的质量。

其它语音编码方法 线性预测声码器(LPC-10,LPC-10e)数据速率为2.4kb/s。 多脉冲激励线性预测编码器(MPE-LPC)数据速率为10kb/s左右。 规则脉冲激励线性预测编码器(RPE-LTP被定位GSM标准,速率为13kb/s ) 码激励线性预测编码器(CELP),数据速率在4.8-16kb/s之间

音频编码算法和标准一览 多媒体技术 第3讲

MTI XIDIAN 结束