学习报告 —语音转换(voice conversion)

Slides:



Advertisements
Similar presentations
第三部分:食疗和药膳的应用 第一节 药膳的辨证选用 第二节 药膳美容 第三节 常见病药膳食疗. 第一节 药膳的辨证选用 一、体质的概念及影响因素 二、常见体质的调养要点.
Advertisements

海盈丰人力资源出品 HYF HUMAN RESOURCE PRODUCE 时间管理 时间管理就是自我管理 Time Management.
传媒学生应该如何度 过四年大学生活?. 进入大学一个多月了,用一个词形容大 学生活 自卑感 不适应 空虚感 被动感 孤独感 失望感 一、大学新生不适应大学生活的表现:
第二届直博会介绍 主办单位:天津市人民政府 中国航空工业集团公司 中国人民解放军总参谋部陆航部 支持单位:国家发展和改革委员会 工业和信息化部 公安部 交通运输部 体育总局 安全生产监督管理总局 林业局 国务院新闻办公室 国防科技工业局 中国民用航空局 中国人民解放军总参谋部作战部 中国人民解放军总参谋部司令部.
实训15.散光软镜的复查 天津职业大学眼视光工程学院 王海英.
实训11:球面软镜的复查 天津职业大学眼视光工程学院 王海英.
Some theoretical notes on boosting
考点作文十大夺魁技法 第28课时 写作(二) 考点作文十大夺魁技法 6-10 ·新课标.
学党章党规、学系列讲话,做合格党员 学习教育
合肥学院外国语言系 学年第二学期学生工作表彰大会
肖 冰 深圳市达晨创业投资有限公司 副总裁 深圳市达晨财信创业投资管理公司 总裁
舊石器時代 位置: 亞洲大陸東緣,西太平洋弧狀列島一部份 背景 形成: 兩千多萬年前逐漸隆起,形成島嶼 生物: 大角鹿、猛瑪象、亞洲大陸原始人 臺東 長濱文化 苗栗 網形文化 臺南 左鎮人目前臺灣發現最早人類化石 代表 文化 1.住在海邊洞穴-短期定居小型隊群 2.以採集、狩獵為生 3.使用礫石砍伐器、片器、尖器.
中立不可得,角度當慎思 ─以王永慶逝世新聞分析
银联代收产品.
2011年高考考前指导(物理) 报告人:詹道友 (合肥八中).
102年10月17日 臺北市公共運輸處 報告人:陳榮明處長
教材:模式识别(第三版) 张学工编著 清华大学出版社
第十三章 男性生殖系统 Male Reproductive System
資料探勘(Data Mining)及其應用之介紹
风府(GV16 ) 成员: 孙培培 张龙 杨晗丹 李妍玲.
环保文明 编辑:周泽昊 刊号:ZZ55-54 翠园出版社 第3期.
異常採購文件及採購行為之查察技巧探討 教育部秘書處 杜國正.
模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。
国家肉牛牦牛产业技术体系培训 犊牛腹泻及防控 张继瑜 中国农业科学院兰州畜牧与兽药研究所 德州.
研究方向: 多媒体环境下课堂教学模式研究.
食品营养成分的检验. 食品营养成分的检验 科学探究的一般过程: 形成假设 设计方案 收集数据 表达交流 处理信息 得出结论 探究:馒头和蛋糕中是否含有淀粉和脂肪 假设:馒头和蛋糕中含有淀粉和脂肪.
资源的跨区域调配—— 西气东输 山东省东营市第一中学 周琳.
102學年度預算編製說明會 主辦單位:會計室 102/02/22.
Teaching evaluation of nursing
綜合活動活動學習領域的教學應用 愛的路上 EZ GO !!.
项目申报及投资推进工作实务 更多模板、视频教程: 兰溪市发展和改革局 2013年9月 1.
产品功能 办理流程 客户服务 走高速排队缴费! 通行费还不便宜! 去办理ETC要花400元买电子标签! 谁能帮我解决这些问题?
Some Effective Techniques for Naive Bayes Text Classification
Applications of Digital Signal Processing
袁 星 谢正辉,梁妙玲 中国科学院大气物理研究所
处在十字路口的中日关系.
報告人:丁英智 資策會 網路多媒體研究所 11/3/2006
第9课 北美大陆上的新体制 导入新课 新课教学 课堂小结 知识结构 巩固练习
丁 承 國立交通大學經營管理研究所教授 成大統計68級 民國103年6月14日
1 Introduction Prof. Lin-Shan Lee TA: Chun-Hsuan Wang.
1 Introduction Prof. Lin-Shan Lee.
Unit 2 Key points summary.
基於聯合因子分析與麥克風陣列之強健性語音辨認
AIS系統發展生命週期 東吳大學會計學系 謝 永 明.
台中科技大學資料庫教育訓練 2015年3月20日 漢珍數位圖書 陳世宗.
VI. Brief Introduction for Acoustics
Chp9:参数推断 本节课内容:计算似然的极大值 牛顿法 EM算法.
2015年北京科技大学英语演讲比赛 复赛 决赛 即兴演讲 报名及初赛 现场提问 录制演讲音频并上传至赛事邮箱。 30人左右晋级 定题演讲
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
1 Introduction Prof. Lin-Shan Lee.
语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES
Version Control System Based DSNs
VIDEO COMPRESSION & MPEG
计算机问题求解 – 论题3-2 - 贪心算法 2018年09月18日.
有向無環圖支援向量機於多類 音樂識別之應用研究
Representation Learning of Knowledge Graphs with Hierarchical Types
James R. Evans. William M. Lindsay 張倫編譯
More About Auto-encoder
Speaker : YI-CHENG HUNG
學歷:輔仁大學中文系 97畢 經歷:達人女中97.7~98.2 新北市立三重高中98.6 ~101.7 台北市立景文高中101.8
數位家庭中的人機介面研究.
所得稅法第14條、第126條修正條文 薪資所得計算方式二擇一 定額減除 特定費用減除 維持現行薪資所得特別扣除額20萬元減除方式
第三章 音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)
鳥聲辨識之初步研究與分析 Initial Studies and Analysis of Birdsong Recognition
看月亮 作者:计禾.
Gaussian Process Ruohua Shi Meeting
99 教育部專案補助計畫案明細 大類 分項 教育部補助 學校配合款 工作項目 計畫主 持人 執行期限 文號 備註 設備費 業務費 管理學院
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
教師檔案系統資料如何填寫? 如何對應教師評鑑共同基準?.
Presentation transcript:

学习报告 —语音转换(voice conversion) 林婧伊

汇报内容 一.语音转换的概念 二.语音转换技术的发展概况 三.基于高斯混合模型(GMM)的语音转换技术 四.在高斯混合模型之后产生的方法 五.Toolkit 演示

语音转换 从窄带语音通信转换为宽带语音通信 语音产生模型 声关节反转映射 体传送语音增强 发声帮助器 然而我们主要研究 说话者的语音转换

VOICE CONVERSION Voice conversion (VC) is a technique to transform the speech of one speaker (source) so that it sounds like it was uttered by another speaker (target) without changing the language context.

A voice conversion system contains Training phase During training phase, a conversion function is estimated from parallel source and target feature vector sequences. Conversion phase In conversion phase, the conversion function is applied on features extracted from new input speech of source speaker, then the modified features are used to reconstruct the converted speech.

训练阶段 转换阶段 图1.语音转换技术系统结构图 分析特征提取 源说话人声音 目标说话人声音 对齐 训练 语音 转换 规则 语音转换规则 源语音 语音合成 训练阶段 转换阶段 图1.语音转换技术系统结构图

二.语音转换技术的发展概况 (1) 语音转换的发展历程 1980s开始(统计学方法): 1.Abe等人发明码本映射方法。 2.模糊向量量化。 3.建立了源—目标向量间的差异向量。 4.Valbret等人使用了LMR(linear multivariate regression)。 5.其他:说话人插入、神经网络。

利用MLE(maximum-likelihood estimation)。 (2)最流行的方法 1.Styrianou 等人: 基于高斯混合模型的转换方法(GMM)。 2.先进的基于高斯混合模型的转换方法: 利用MLE(maximum-likelihood estimation)。 传统方法:基于最小均方差法一帧一帧的转换 先进方法:基于最大似然函数估计来考虑帧与帧之间的关联,进而进行转换。

三.基于高斯模型(GMM)的语音转换技术 传统的高斯混合模型: A.概率密度函数: 已知 和 是第t帧的D维源、目标特征向量 是 的联合向量 是 的联合向量 是参数集合:包括权重、平均向量、协 方差矩阵

是平均向量 协方差矩阵,各协方差矩阵分别都是对角 线矩阵 在训练过程中: 1.用Dynamic time warping(DTW)将联合向量自动排队。 2.用期望最大化算法(EM)训练GMM模型。

EM算法: (1)基本思路: 1. 初始化一组基本参数。 2. 根据后验概率来更新隐含变量(Z)的期望值E(Z)。 3 EM算法: (1)基本思路: 1.初始化一组基本参数。 2.根据后验概率来更新隐含变量(Z)的期望值E(Z)。 3.用E(Z)代Z求出新的参数,如此迭代指导参数趋于稳定。 EM算法分E步和M步

E步就是expectation的意思,就是假设模型参数已知的情况下求隐含变量Z分别取z1,z2,…的期望,亦即Z分别取z1,z2,z3…的概率。

用最大似然的方法求出模型参数。

B.映射函数 的概率密度函数也表示为:

在传统方法中,转换是基于最小均方差的: 传统方法虽然非常有效,但是仍然有两个问题:1.采用了时间独立的映射。2.存在过渡平滑的问题。

先进的高斯混合模型 利用MLE: 考虑了帧与帧之间的联系 考虑了GV

四.在高斯混合模型之后产生的方法 在高斯模型之后,产生了非统计学方法: 1.VTLN:Vocal tract length normalization(声道长度归一化) 2.加权频率弯曲 3.动态频率弯曲 4.双线频率弯曲

Exemplar-Based Sparse Representation With Residual Compensation for Voice Conversion

用字典描述语音的观察值 优点: 1. 直接使用训练数据语音段来构建字典。 2. 允许我们构建高维度的频谱模型来保留细节。 3. 转换谱的产生非常简单,就如组合一些基本的语 音段,不需要映射或修改。

贡献: 1. 允许我们直接对高精度的频谱进行建模。 2. 引入一个谱压缩方法来强调重要但低强度的观察 值。 3. 引入残差补偿方法来提高语音质量。

伴随残差补偿的基于样本稀疏表示的语音转换技术 A.基于样本的稀疏表示 B.谱的压缩 C.上下文信息 D.使用低精度特征进行更快的计算 E.补偿模型残差 F.字典结构 G.评价

A.基于样本的稀疏表示 样本:从训练数据中提取出来的一个包含多帧的语音段。 每一个观察值独立建模,每一个语音段的谱可以表示为: 转换后的谱: 利用非负矩阵分解技术算出H:

B.谱的压缩 引入一个谱压缩参数来计算激励矩阵:

C.上下文信息 一个样本中包含多个帧: D.使用低精度特征向量进行更快的计算:

E.补偿模型残差 和 之间的模型误差叫做残差 计算方法:

F.字典结构 DFT MEL MCC

G.评价 Objective:

G.评价 Subjective:

五.GMM的toolkit 演示