语音编码 陈虎.

Slides:



Advertisements
Similar presentations
第十五课 词汇与句子. 学前导航 在本课里, 我们将学习韩国语的词汇和句子。 进入学习 韩国语的词汇一共可分为 4 类,即固有词、汉字词、 外来词、混合词。 固有词是指韩国国民按照固有的语言资料和造词方 法创造的词语。韩国语的固有词不到整个词汇的 20% , 但是都是历史上流传下来的基本词汇。
Advertisements

四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
1 第一章:绪论 什么是信源编码? 为什么要信源编码 / 数据压缩? 为什么可以信源编码 / 数据压缩? 怎样进行信源编码?
主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
一、音调  听过女高音和男低音的歌唱吗?他们的声音 给你的印象是怎样的? 女高音:音调高, 男低音:音调低,比较低沉。
护理学基础 第七章 医院与住院环境.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
高职高专院校人才培养工作水平评估指标体系解读
第 3 章 聽覺 每章扉頁 3.1 聽覺 3.2 人類耳朵的反應 3.3 聽覺缺陷.
第九章 会计设置及机构.
液 体 高二物理.
2011计算机类教研活动 陈国久.
第五章 信号采集与数字分析原理及技术 与模拟分析相比,数字信号分析有以下一些优点: 高度的灵活性,极好的稳定性和可靠性 可多工处理,分时复用
第二章 多媒体数据压缩编码技术.
第一部分 中考基础复习 第一章 声现象.
通信原理概论 张 小 银 安徽工业大学网络中心.
中信信诚-淮安项目.
本投影片檔案僅供本書上課教師使用,非經作者同意請勿拷貝或轉載,謝謝。
第三組 偏差與正常 4A3I0006 周秀鎂 4A3I0009 閔佑婷 4A3I0035 蔡佩倫 4A3I0041 林宜臻
安陆市场2013年七夕“情人节” 评估 奶特 2013年8月3日.
1890年, 一艘名叫“马尔波罗号”的帆船在从新西兰驶往英国的途中,突然神秘地失踪了。 20年后,人们在火地岛海岸边发现了它。奇怪的是:船体原封未动,完好如初;船长航海日记的字迹仍然依稀可辨;就连那些死去多年的船员,也都“各在其位”,保持着当年在岗时的“姿势”; 1948年,一艘名为“乌兰格梅奇号”的荷兰货船,在通过马六甲海峡时,突然遇到海上风暴,当救助人员赶到时,船上所有人员都莫明其妙地死了。
安满业务代表培训手册 人才是企业最基本也是最重要的资源,对于一个企业来说如何把“人”变成“人才”可以说是重中之重,关系到企业发展的长远问题.
大家好 我們是麵包姊姊菁英團隊 組員: 王仁慧、潘華暄、羅華苑 林怡如、吳宛臻、葉每鈴
辦理建教合作注意事項 國立台灣師範大學 鄭慶民
“西门鸿苑”整合推广方案.
4.1 音频信号概述 4.2 音频信号的获取与处理 4.3 话音信号的参数编码 4.4 乐器数字接口MIDI 4.5 声卡概述
中国科学院老科技工作者协会 中国科学院电工研究所 吴石增
無線電原理 吳明權 大同技術學院 資訊管理系.
提升國小自然與生活科技領域教師教學智能研習
学籍异动学生选课辅导 学年第1学期.
目标 理解多媒体的基本概念、多媒体信息及技术的特点、多媒体技术的应用。掌握多媒体计算机系统的基本组成及简单原理。
Audio.
Ψ研究動機Ψ 上理化課時我們學到可以用食鹽水來製造冷劑,那我們是否可以用其他的東西來替代食鹽,或由改變食鹽和冰的比例來探討哪一種的冷劑效果最好呢?
计算机网络 第二章:物理层 阮晓龙 / 河南中医学院管理信息工程学科 河南中医学院网络信息中心
第2章 物理层 基本内容:计算机网络物理层的基本概念,数据通信系统的模型、信道及其传输速率的计算,常用的传输媒体,信道复用技术,物理层的标准举例 。 重点掌握: 计算机网络物理层的基本概念 信道及其传输速率的计算 信道复用技术 RS-232 接口标准.
單元一:基頻訊號傳送技術實習 (PCM取樣 量化 編碼部分) 數位通訊實習模擬 單元一.
編碼 用於資料傳輸及壓縮 漢明碼 霍夫曼編碼.
Principle and Application of Digital Television
移动通信技术 机械工业出版社 罗文兴.
電腦數位音樂介紹 11組 電機三 陳俊傑 吳岳庭.
第二章 声音和语音编码 南通大学计算机应用教研室.
第十三章 音频水印 13.1音频水印特点 13.2音频水印算法评价标准 13.3音频水印分类及比较
第2章 3G关键技术 移动通信信道 2.1 扩频通信系统 2.2 数字调制技术 2.3 信源编码技术 2.4.
聲轉電信號.
國立中山大學30週年校慶籌備委員會 中山大學30週年校慶籌備會 第二次工作會議 03/29/2010.
无线通信工程 姚彦教授 清华大学微波与数字通信国家重点实验室 2001年11月24日.
MTI 多媒体技术 第三讲 XIDIAN 话音编码(Speech Coding).
第二章 多媒体的硬件和 软件环境的建立 返回.
Channel Multiplexing 陳洋升 (2018/9/10).
3 模拟信号的数字化传输 本章要点 抽样定理 脉冲编码调制(PCM) 调增量调制(ΔM) Δ-M、DPCM和数字音节压扩系统
第 10 章 复用和数字复接技术 10.2 时分复用(TDM) 10.3 数字复接技术 10.4 SDH复用原理
第三节 设计是技术的关键.
数 字 通 信 原 理
媒体基础(一) 向辉 山东大学软件学院 2003年秋季.
第3章 时分多路复用及PCM30/32路系统 时分多路复用通信 3.1 PCM30/32路系统 3.2.
实验八 电子秒表-2.
Predictive Coding Chapter /4/28 資料壓縮 ※ 第七章 預測編碼 ※
105學年度 新北市英語歌曲演唱競賽 志工工作會議 105年11月18日 9:30-10:00 碧華國小演講廳 新北市三重區碧華國小.
第四章 模拟信号分析 模拟信号分析是直接对连续时间信号进行分析处理的过程,利用一定的数学模型所组成的运算网络来实现的。从广义讲,它包括了调制与解调、滤波、放大、微积分、乘方、开方、除法运算等。 本章主要介绍模拟信号分析处理中的调制与解调、滤波、微分、积分以及积分平均等问题。
第五章 信源编码技术 5.1 取样定理 5.2 脉冲振幅调制 5.3 量化 5.4 脉冲编码调制 5.5 增量调制(△M或DM)
雪佛兰定位策略分析报告 市场营销二班二组.
財團法人中華民國私立學校教職員 退休撫卹離職資遣儲金管理委員會 主講人 財務組 李美華 組長
第三章时 域 分 析 引言 语音信号的短时处理方法 短时能量和短时平均幅度 短时平均过零率 短时自相关函数 短时时域处理技术应用举例
主讲 巫玲 E_mail: 西南科技大学网络教育系列课程 计算机应用基础 主讲 巫玲 E_mail:
第12章 语音合成.
移动计算技术 (Mobile Computing,MC)
Presentation transcript:

语音编码 陈虎

声音概述 声音是携带信息的重要媒体 音乐和解说使静态图像更加丰富多彩、音乐和视频的同步使视频图像更具真实性 传统计算机与人交互是通过键盘和显示器,人们通过键盘或鼠标输入,通过视觉接收信息。多媒体计算机为计算机增加音频通道,采用人们最熟悉、最习惯的方式与计算机交换信息 为计算机装上“耳朵”(麦克风),让计算机听懂、理解人们的讲话--语音识别 为计算机安上嘴巴和乐器(扬声器),让计算机能够讲话和奏乐--语音和音乐合成

声音概述 声音是听觉器官对声波的感知,而声波是通过空气或其他媒体传播的连续振动 声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上 声音用电表示时,声音信号在时间和幅度上都是连 续的模拟信号,如图3-1所示 声波具有普通波所具有的特性,例如反射 、折射和衍射等

声音概述 人的听觉器官能感知的声音频率大约是20~20kHz,在这种频率范围里感知的声音幅度大约在0~120dB 语音信号(speech):人说话的信号频率通常为300~3400Hz 亚音信号(subsonic):小于20Hz的信号 超声波信号(ultrasonic):高于20KHz的信号

声音概述 在组合声音信号的一系列分量信号音波中,最低频的音波称为基音,其余音波称为泛音 声音的三要素:音调、音色、音强 音调(音高):取决于基频的高低。直观感受:“唱不上去了”,“跑调了” 音色:是由混入基音的泛音所决定的,如果中高泛音丰富音色就明亮,反之音色就暗淡。不同的乐器、不同人的语音音色不同 音强(响度) :取决于声音的幅度(分贝)

声音的数字化 模拟音频:时间和幅度上都是连续的 数字音频:时间和幅度上都是离散的 A/D转换 模拟磁性录音技术,受电磁性能影响较大 计算机、数字CD、数字磁带(DAT) A/D转换 模拟音频 数字音频

声音的数字化 采样(sampling):时间上的离散化 量化(quantization):幅度上的离散化

声音的数字化 采样定理(Nyquist theory) fs >= 2fmax 奈奎斯特理论指出:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音 人类听觉的频率范围大约为:20~20kHz,为保证不失真,采样频率应在40kHz左右 常用的采样频率有:8kHz, 11.025kHz, 22.05kHz, 16kHz, 37.8kHz, 44.1kHz, 48kHz fs >= 2fmax

声音的数字化 采样精度: 度量声音波形幅度的精确程度,用每个声音样本的 位数(即bps)表示,例如每个声音样本用16位表示,测得的声音样本值是在 [0~65535]范围里的数,它的精度是1/65536 例如每个声音样本用16位表示,测得的声音样本值是在 [0~65535]范围里的数,它的精度是1/65536 精度是在模拟信号数字化过程中度量模拟信号的最小单 位,因此也称量化阶(quantization step size) 0~1 V的电压用256个数表示,量化阶等于1/256 V

声音的数字化 样本位数的大小影响到声音的质量,位数越多,声 音质量越高,所需存储空间也越多;位数越少,声 音质量就越低,所需存储空间也越少 电压范围 量化 编码 0.5 ~ 0.7 3 011 0.3 ~ 0.5 2 010 0.1 ~ 0.3 1 001 -0.1 ~ 0.1 0 000 -0.3 ~ -0.1 -1 111 -0.5 ~ -0.3 -2 110 -0.7 ~ -0.5 -3 101 -0.9 ~ -0.7 -4 100 8位:256个量化级(0~255) 16位:65 536个量化级 16位量化级足以表示从人耳刚刚听得见的极细微的声音到感觉难以忍受的巨大噪声这样大的声音范围

声音的数字化 采样精度的另一种表示方法是信号噪声比, 简称为信噪比 其中,Vsignal表示信号电压,Vnoise表示量化噪声电压(模拟信号的采样值和与它最接近的数 字数值之间的差值),SNR的单位为分贝(db)

声音编码 声音信号经过数字化以后将产生大量的数据。为了降低存储和传输成本,有必要对数字音频数据进行压缩编码 音频编码的可能性 如:CD音频数据(未经压缩): 数据率:44.1×1000×16×2 = 1.41M bit/s 1小时CD音频的数据量约为635M 音频编码的可能性 声音信号中包含大量的冗余信息

从信息保持角度讲,只有当信源本身具有冗余度(redundancy),才能对其进行压缩 声音编码 从信息保持角度讲,只有当信源本身具有冗余度(redundancy),才能对其进行压缩 时、频域信息的冗余 如幅度的非均匀分布、样本间的相关等等 人的听觉感知机理 语音最终是给人听的,要避免做“即使记录了,人耳也听不见”的无用功

声音编码 编码算法的评价 评价的主要依据 音频编码目标 声音的清晰度和自然度难以度量,评价十分困难 具有重要意义 音频质量 数据率 计算复杂度 音频编码目标 低码率、短延时、高质量

声音编码 音频质量评价方法分为两类: 客观测量法:信噪比(SNR) 主观测量法:主观平均判分法(mean opinion score, MOS),一般采用5分制 分数 质量级别 失真级别 5 优 无察觉 4 良 (刚)察觉但不讨厌 3 中 (察觉)有点讨厌 2 差 讨厌但不反感 1 劣 极讨厌(令人反感)

语音的形成原理 肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。 气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。 话音信号具有很强的相关性(长期相关、短期相关)。

语音的分类 浊音(voiced sounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。 清音(unvoiced sounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。 爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。

语音技术的研究热点 话音压缩编码(Speech Coding) 话音识别(Speech Recognition) 文本话音转换(Text To Speech)

语音编译码器 A/D 话音 编码 信道 编码 信道 D/A 话音 译码 信道 译码

衡量语音编码器的参数 数据输出速率 延迟时间 话音质量 价格(实现代价)

语音质量等级划分 广播质量:带宽为7000Hz的高质量话音 长途电话质量:带宽为3400Hz,信噪比为30db,有失真 通信质量:完全可以听懂,但和长途电话质量相比有明显的失真。 合成质量:80%-90%的可懂度,听起来象机器讲话,失去了讲话者的特征

语音编码器的分类 语音编码的分类 基于数据的统计特性进行编码 基于声学参数进行参数编码 混合编码 波形编码:目标是使重建语音波形保持原波形的形状,如PCM、DPCM、APCM、ADPCM等算法。 特点:音质好、但数据率较大 基于声学参数进行参数编码 音源编码:目标是使重建音频保持原音频特性,如LPC 特点:数据率低、质量差、保密性好(军事) 混合编码 将波形编码和音源编码很好的结合起来,如CELPC 特点:在较低的码率上得到较高的音质

语音编码器的对比 三种编译码器的话音质量和数据率的关系

语音信号的冗余度 幅度非均匀分布 样本之间的相关性 周期之间的相关性 基音之间的相关性 静止系数(话音间隙) 长期相关性(long term correlation)

PCM PCM是pulse code modulation的缩写 概念上最简单、理论上最完善、最早研制成功、使 用最为广泛、数据量最大的编码系统

PCM 图中输入是模拟信号,输出是PCM样本。 PCM实际上是模拟信号数字化 防失真滤波器:低通滤波器,用来滤除声音频带以 外的信号 波形编码器:可理解为采样器 量化器:可理解为“量化阶大小(step-size)”生成器或 者称为“量化间隔”生成器 PCM实际上是模拟信号数字化 模拟声音数字化的两个步骤: 第一步是采样,就是每隔一段时间间隔读一次声音 的幅度 第二步是量化,就是把采样得到的声音信号幅度转 换成数字值

PCM时分多路复用  PCM编码早期主要用于话音通信中的多路复用 时分多路复用是在同一条通信线路上使用不同时段 “同时”传送多个独立信号的通信方法 时分多路复用的核心思想是将时间分成等间隔的时 段,为每对用户指定一个时间间隔,每个间隔传输 信号的一部分 例如,话音信号的采样频率f=8000 Hz/s,它的采样 周期=125 s,这个时间称为1帧(frame)。在这个时 间里可容纳的话路数有两种规格24路制 30路制

PCM时分多路复用 24路制的重要参数如下: 每秒钟传送8000帧,每帧 125μs 12帧组成1复帧(用于同步)。 每帧由24个时间片(信道)和1 位同步位组成 每个信道每次传送8位代码, 1帧有24 ×8 +1=193位(位) 数据传输率R=8000×193= 1544 kb/s 每一个话路的数据传输率= 8000×8=64 kb/s

PCM时分多路复用 30路制的重要参数如下: 线路利用率 每秒钟传送8000帧,每帧125s 16帧组成1复帧(用于同步) 每帧由32个时间片(信道)组成 每个信道每次传送8位代码 数据传输率:R=8000×32×8=2048 kb/s 每一个话路的数据传输率=8000×8=64 kb/s 线路利用率 使用时分多路复用技术时,由于当信道无数据传输 时仍给那个信道分配时间槽,因此线路利用率较低 为解决这个问题,开发了统计时分多路复用技术 (statistical time division multiplexing, STDM)。STDM 是按照每个传输信道的传输需要来分配时间间隔的 时分多路复用技术,可提高传输线路的效率

PCM时分多路复用 数字通信线路的数据传输率 为反映PCM信号复用的复杂程度,通常用“群(group)”这个术 语来表示,也称为数字网络的等级 传输容量由一次群(基群)的30路(或24路),增加到二次群的120 路(或96路),三次群的480路(或384路),…… 下图表示二次复用的示意图。图中的N表示话路数,无论N= 30还是N=24,每个信道的数据率都是64 kb/s,经过一次复用 后的数据率就变成2048 kb/s(N=30)或1544 kb/s(N=24) 在数字通信中在北美,具有1544 kb/s数据率的线路叫做“T1远距离数字通信线 路”,提供这种数据率的服务级别称为T1等级 在欧洲,具有2048 kb/s数据率的线路叫做“E1远距离数字通信线 路”,提供这种数据率的服务级别称为E1等级 T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的数据传输率

PCM时分多路复用

PCM时分多路复用 T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的数据传输率

增量调制 △调制(delta modulation,DM),是一种预测编码技术 对实际的采样信号与预测的采样信号之差的极性进行编码。 如果实际的采样信号与预测的采样信号之差的极性为“正”,则 用“1”表示;相反则用“0”表示,或者相反 由于DM编码只须用1位对话音信号进行编码,所以DM编码系 统又称为“1位系统” 比较:PCM是对每个采样信号的整个幅度进行量化编码

增量调制

自适应增量调制 根据输入信号斜率的变化自动调整量化阶Δ的大 小,以使斜率过载和粒状噪声都减到最小。 在检测到斜率过载时开始增大量化阶Δ,而在输入 信号的斜率减小时降低量化阶Δ 例如,宋(Song)在1971描述的ADM技术中提出:每当输出 不变时量化阶增大50%;每当输出值改变时,量化阶减小 50% 又如,由格林弗基斯(Greefkes)在1970年提出的连续可变斜 率增量调制(CVSD)的基本方法是:如果连续可变斜率增量 调制器的输出连续出现三个相同值时,量化阶加一个大的 增量,反之,就加一个小的增量。

自适应增量调制 Motorola公司于20世界80年代初期开发了实现CVSD 算法的集成电路芯片, 如MC3417/MC3517用于一般的数字通信,MC3418/MC3518用于数字电话。 MC3417/MC3418用于民用,MC3517/MC3518用于 军用

APCM 中文术语为自适应脉冲编码调制,adaptive pulse code modulation的缩写 根据输入信号幅度大小来改变量化阶大小的一种 波形编码技术 自适应 瞬时自适应,即量化阶的大小每隔几个样本就改变 音节自适应,即量化阶的大小在较长时间里发生变化

APCM 前向自适应(forward adaptation):根据未量化的样本值的均 方根值来估算输入信号的电平,以此来确定量化阶的大 小,并对其电平进行编码作为边信息(side information)传送 到接收端

APCM 后向自适应(backward adaptation):从量化器刚输出的过去 样本中提取量化阶信息。由于后向自适应能在发收两端自 动生成量化阶,所以它不需要传送边信息

DPCM 中文术语为差分脉冲编码调制, differential pulse code modulation的缩写 利用样本与样本之间存在的信息冗余来进行编码的一种数 据压缩技术 基本思想:根据过去的样本去估算下一个样本信号的幅度 大小,这个值称为预测值,然后对实际信号值与预测值之 差进行量化编码,从而就减少了表示每个样本信号的位数

DPCM 它与脉冲编码调制(PCM)不同的是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差 进行量化编码,存储或者传送的是差值而不是幅度绝对 值,这就降低了传送或存储的数据量 可适应大范围变化的输入信号

DPCM 预测器 整数 舍入 S 源数据 数据 恢复数据 预测误差, en fn f^n en + + -

预测方程式 线性预测: 如果ai是常数,则为时不变线性预测,否则为自适应线性预测 最简单的预测方程:

最简单的DPCM x 1 2 3 4 x’’ e -1

自适应差分脉冲编码调制 ADPCM的中文术语为自适应差分脉冲编码调制 adaptive difference pulse code modulation的缩写 综合了APCM的自适应特性和DPCM系统的差分特 性,是一种性能比较好的波形编码技术 它的核心想法是: 利用自适应的思想改变量化阶的大小,即使用小的量化阶 (step-size)去编码小的差值,使用大的量化阶去编码大的差值 使用过去的样本值估算下一个输入样本的预测值,使实际 样本值和预测值之间的差值总是最小

自适应差分脉冲编码调制 接收端的译码器使用与发送端相同的算法,利用传 送来的信号来确定量化器和逆量化器中的量化阶大 小,并且用它来预测下一个接收信号的预测值

ADPCM编码器 产生误差 xk ek e’k 量化器 - 量化阶 逆量化器 e’’k x’’k x’k 预测器 自适应预测

ADPCM译码器 e’k e’’k x’k 逆量化器 x’’k 预测器

子带编码(sub-band coding,SBC) 用一组带通滤波器(band-pass filter,BPF)把输入声 音信号的频带分成若干个连续的频段,每个频段称 为子带。对每个子带中的声音信号采用单独的编码 方案去编码 在信道上传送时,将每个子带的代码复合在一起; 在接收端译码时,将每个子带的代码单独译码,然 后把它们组合起来,还原成原来的声音信号

子带编码(sub-band coding,SBC) 好处有两个 可对每个子带信号分别进行自适应控制,量化阶的大小可 按照每个子带的能量电平加以调节。具有较高能量电平的 子带用大的量化阶去量化,以减少总的量化噪声  可根据每个子带信号在感觉上的重要性,对每个子带分配 不同的位数,用来表示每个样本值。 例如,在低频子带中,为了保护音调就要求用较小的量化阶、较多的量化级数,即分配较多的位数来表示样本值。而话音中的摩擦音和类似噪声的声音,通常出现在高频子带中,对它分配较少的位数。

子带编码(sub-band coding,SBC) 图中的编码/译码器可 以采用ADPCM,APCM或PCM

声音频带的分割 树型结构划分 采用正交镜像滤波器(quadrature mirror filter,QMF) 来划分频带 首先把整个声音信号带宽分成两个相等带宽的子带:高频子带和低频子带 然后对这两个子带用同样的方法划分,形成4个子带 这个过程可按需要重复下去,以产生2k个子带,K为分割 的次数 用这种办法可以产生等带宽的子带,也可以生成不等带宽的子带 例如,对带宽为4000 Hz的声音信号,当K=3时,可分为8 个相等带宽的子带,每个子带的带宽为500 Hz;也可生成 5个不等带宽的子带,分别为[0,500),[500,1000), [1000,2000),[2000,3000)和[3000,4000] 采用正交镜像滤波器(quadrature mirror filter,QMF) 来划分频带

语音编码标准 国际上,对语音信号压缩编码的审议在CCITT下设的第15研究组进行,相应的建议为G系列。G.711、G.721、G.722、G.723等 G.711——是CCITT为话音信号(300~3.4kHz)制定的编码标准。8kHz、8位/样本、64kb/s — A律和u律PCM G.721——在G.711基础上实现2 : 1的压缩。8kHz、4位/样本、32kb/s — ADPCM G.722——是CCITT推荐的音频信号编码标准。信号带宽为7kHz,采样频率16kHz,保持数据率仍为64kb/s — SB-ADPCM

语音编码标准 G.711和G.721:适用于300~3.4KHz窄带话音信号,应用于公共电话网 G.722:针对50~7KHz的宽带语音,应用于综合业务数据网(ISDN)

语音编码标准 G.711 标准——对于采样频率8kHz,样本精度为13、14位的输入信号,经过A律或u律的PCM编码后的样本精度为8位,输出数据率位64kb/s A 律: u 律:

语音编码标准 正输入码与A律输出码的关系

语音编码标准 G.721 标准--用于64kb/s的A律和u律PCM与32kb/s的ADPCM之间的转换 G.721 标准所采用的编码方法 G.721 的输入信号是G.711 PCM代码,它的数据率为64 kb/s。而G.721 ADPCM的输出是用4位表示的差分信号,它的采样率仍然是8 kHz,它的数据率为32 kb/s,这样就获得了2∶1的数据压缩。 G.721 标准所采用的编码方法 --自适应差分脉冲编码调制(ADPCM) 64kb/s的A律 和u律PCM 32kb/s的 ADPCM

语音编码标准 G.721 标准编译码器框图

语音编码标准 G.722标准——该标准是描述音频信号带宽为7 kHz、数据率为64 kb/s的编译码原理、算法和计算细节。编译码系统采用子带-自适应差分脉冲编码调制(SB-ADPCM) G.722的主要目标是保持64 kb/s的数据率,而音频信号的质量要明显高于G.711的质量。 G.722标准把音频信号采样频率由8 kHz提高到16 kHz,是G.711 PCM采样率的2倍 音频信号的质量有很大改善,由数字电话的话音质量提高到调幅(AM)无线电广播的质量。

语音编码标准 G.722编译码系统采用SB-ADPCM技术 用正交镜象滤波器(QMF)把频带分割成两个等带宽的子带:高频子带和低频子带

语音编码标准

线性预测编码(LPC) 语音压缩技术。将语音生成机理模型化为一个离散 的、时变的、线性的递归滤波器 时变线性滤波器 --编码时使用线性预测分析语音波形产生声道激励和 转移函数的参数,对声音波形的编码实际就转化为 对这些参数的编码,这就可减少声音的数据量 --译码时使用线性预测分析得到的参数,通过语音合 成器重构语音。合成器实际上是一个离散的随时间 变化的时变线性滤波器,它代表人的语音生成系统 模型 时变线性滤波器 分析语音波形时,当作预测器使用 合成语音波形时,当作生成模型使用

线性预测编码(LPC) 线性预测器 使用过去的P个样本值来预测现时刻的采样值x(n)

线性预测编码(LPC) 预测值用过去P个样本值的线性组合表示为 为方便起见,式中采用了负号 残差误差即线性预测误差为一个线性差分方程 在给定的时间范围里,如[n0, n1 ],使e(n)的平方和即  为最小,这样可使预测得到的样本值更精确。

线性预测编码(LPC) 预测系数  通过求解偏微分方程,可找到系数ai的值 在接收端重构的话音不再具体复现真实话音的波 形,而是合成的声音

GSM编译码器简介  GSM是Global System for Mobile communications 的缩写,可译成全球数字移 动通信系统 GSM算法是1992年柏林技术大学(Technical University Of Berlin)根据GSM协议开发的, 这个协议是欧洲最流行的数字蜂窝电话通信 协议。 除了ADPCM算法已经得到普遍应用之外, 还有一种使用较普遍的波形声音压缩算法叫 做GSM算法,使用这种算法的编码器称为 GSM编码器

GSM编译码器简介 GSM的性能 GSM的输入:数据分成帧(frame),一帧(20毫秒)由 带符号的160个样本组成,每个样本为13位或16位 的线性PCM(linear PCM)码 使用的采样频率为8 kHz时,如果每个样本为16位,那么 未压缩的话音数据率为128 kb/s GSM的输出:一帧(160×16位)的数据压缩成260位 的GSM帧,相当于13 kb/s。由于260位不是8位的整 数倍,因此编码器输出的GSM帧为264位的线性 PCM码 使用GSM压缩后的数据率为: (264位×8000样本/秒)/160样本=13.2 千位/秒 GSM的压缩比:128:13.2 = 9.7,近似于10:1

编码器的性能 线性预测声码器(LPC-10,LPC-10e)数据速率为2.4kb/s。 多脉冲激励线性预测编码器(MPE-LPC)数据速率为10kb/s左右。 规则脉冲激励线性预测编码器(RPE-LTP被定位GSM标准,速率为13kb/s ) 码激励线性预测编码器(CELP),数据速率在4.8-16kb/s之间

编码器的性能

编码器的性能

编码器的性能

Thank You !