Presentation is loading. Please wait.

Presentation is loading. Please wait.

学习报告 —语音转换(voice conversion)

Similar presentations


Presentation on theme: "学习报告 —语音转换(voice conversion)"— Presentation transcript:

1 学习报告 —语音转换(voice conversion)
林婧伊

2 汇报内容 一.语音转换的概念 二.语音转换技术的发展概况 三.基于高斯混合模型(GMM)的语音转换技术 四.在高斯混合模型之后产生的方法
五.Toolkit 演示

3 语音转换 从窄带语音通信转换为宽带语音通信 语音产生模型 声关节反转映射 体传送语音增强 发声帮助器 然而我们主要研究 说话者的语音转换

4 VOICE CONVERSION Voice conversion (VC) is a technique to transform the speech of one speaker (source) so that it sounds like it was uttered by another speaker (target) without changing the language context.

5 A voice conversion system contains
Training phase During training phase, a conversion function is estimated from parallel source and target feature vector sequences. Conversion phase In conversion phase, the conversion function is applied on features extracted from new input speech of source speaker, then the modified features are used to reconstruct the converted speech.

6 训练阶段 转换阶段 图1.语音转换技术系统结构图 分析特征提取 源说话人声音 目标说话人声音 对齐 训练 语音 转换 规则 语音转换规则
源语音 语音合成 训练阶段 转换阶段 图1.语音转换技术系统结构图

7 二.语音转换技术的发展概况 (1) 语音转换的发展历程 1980s开始(统计学方法): 1.Abe等人发明码本映射方法。 2.模糊向量量化。
3.建立了源—目标向量间的差异向量。 4.Valbret等人使用了LMR(linear multivariate regression)。 5.其他:说话人插入、神经网络。

8 利用MLE(maximum-likelihood estimation)。
(2)最流行的方法 1.Styrianou 等人: 基于高斯混合模型的转换方法(GMM)。 2.先进的基于高斯混合模型的转换方法: 利用MLE(maximum-likelihood estimation)。 传统方法:基于最小均方差法一帧一帧的转换 先进方法:基于最大似然函数估计来考虑帧与帧之间的关联,进而进行转换。

9 三.基于高斯模型(GMM)的语音转换技术 传统的高斯混合模型: A.概率密度函数: 已知 和 是第t帧的D维源、目标特征向量 是 的联合向量
是 的联合向量 是参数集合:包括权重、平均向量、协 方差矩阵

10 是平均向量 协方差矩阵,各协方差矩阵分别都是对角 线矩阵 在训练过程中: 1.用Dynamic time warping(DTW)将联合向量自动排队。 2.用期望最大化算法(EM)训练GMM模型。

11 EM算法: (1)基本思路: 1. 初始化一组基本参数。 2. 根据后验概率来更新隐含变量(Z)的期望值E(Z)。 3
EM算法: (1)基本思路: 1.初始化一组基本参数。 2.根据后验概率来更新隐含变量(Z)的期望值E(Z)。 3.用E(Z)代Z求出新的参数,如此迭代指导参数趋于稳定。 EM算法分E步和M步

12 E步就是expectation的意思,就是假设模型参数已知的情况下求隐含变量Z分别取z1,z2,…的期望,亦即Z分别取z1,z2,z3…的概率。

13 用最大似然的方法求出模型参数。

14 B.映射函数 的概率密度函数也表示为:

15 在传统方法中,转换是基于最小均方差的: 传统方法虽然非常有效,但是仍然有两个问题:1.采用了时间独立的映射。2.存在过渡平滑的问题。

16

17 先进的高斯混合模型 利用MLE: 考虑了帧与帧之间的联系 考虑了GV

18 四.在高斯混合模型之后产生的方法 在高斯模型之后,产生了非统计学方法: 1.VTLN:Vocal tract length normalization(声道长度归一化) 2.加权频率弯曲 3.动态频率弯曲 4.双线频率弯曲

19 Exemplar-Based Sparse Representation With Residual Compensation for Voice Conversion

20 用字典描述语音的观察值 优点: 1. 直接使用训练数据语音段来构建字典。 2. 允许我们构建高维度的频谱模型来保留细节。
3. 转换谱的产生非常简单,就如组合一些基本的语 音段,不需要映射或修改。

21 贡献: 1. 允许我们直接对高精度的频谱进行建模。 2. 引入一个谱压缩方法来强调重要但低强度的观察 值。 3. 引入残差补偿方法来提高语音质量。

22 伴随残差补偿的基于样本稀疏表示的语音转换技术
A.基于样本的稀疏表示 B.谱的压缩 C.上下文信息 D.使用低精度特征进行更快的计算 E.补偿模型残差 F.字典结构 G.评价

23 A.基于样本的稀疏表示 样本:从训练数据中提取出来的一个包含多帧的语音段。 每一个观察值独立建模,每一个语音段的谱可以表示为: 转换后的谱:
利用非负矩阵分解技术算出H:

24 B.谱的压缩 引入一个谱压缩参数来计算激励矩阵:

25

26 C.上下文信息 一个样本中包含多个帧: D.使用低精度特征向量进行更快的计算:

27 E.补偿模型残差 和 之间的模型误差叫做残差 计算方法:

28

29 F.字典结构 DFT MEL MCC

30 G.评价 Objective:

31 G.评价 Subjective:

32 五.GMM的toolkit 演示


Download ppt "学习报告 —语音转换(voice conversion)"

Similar presentations


Ads by Google