网页推荐 http://googlechinablog.com/2006/04/blog-post.html 数学之美 系列一 — 统计语言模型 By 吴军, Google 研究员.

Slides:



Advertisements
Similar presentations
我的未来不是梦 攀枝花市经贸旅游学校. 1. 文中案例王萍苦恼的原因是 什么? 2. 你有哪些办法可以帮助王萍? 导入 思考  谁来帮帮她?
Advertisements

强力打造湖北农业信息网 全面推进湖北农村信息化
幾米 作業 1 飛上天空 我想飛上天空 遨遊在無際的天空 美麗的天空 漂亮的天空 這終究只是夢…… (李高仰)
黄金时代 黄金时代:老子,释迦牟尼,苏格拉底,孔子,庄子,耶稣…… 他们是人类智慧的顶峰,他们用人生展示了智慧与慈爱。
学习全国“两会”精神 常州工学院  理学院党总支 2014年3月.
乘势而上再谱发展新篇章 -2012全国两会精神解读
开启新征程 点燃中国梦 开启新征程 点燃中国梦 ——学习、领会2013年全国“两会”精神.
西方行政学说史 导论:西方行政学的产生与发展历程.
第四章 商代之舞蹈 本檔案圖片來源:google圖片.
指 导:高歌老师 责任编辑:汤杰林 杜峥 供 稿:课代表 班委会 团长 栏目创编:张廷信 技术编辑:汤杰林 杜峥 常务编辑:杜峥
考点作文十大夺魁技法 第28课时 写作(二) 考点作文十大夺魁技法 6-10 ·新课标.
嗇色園主辦可立小學 故宮 製作日期:2011年3月21日.
第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统.
舊石器時代 位置: 亞洲大陸東緣,西太平洋弧狀列島一部份 背景 形成: 兩千多萬年前逐漸隆起,形成島嶼 生物: 大角鹿、猛瑪象、亞洲大陸原始人 臺東 長濱文化 苗栗 網形文化 臺南 左鎮人目前臺灣發現最早人類化石 代表 文化 1.住在海邊洞穴-短期定居小型隊群 2.以採集、狩獵為生 3.使用礫石砍伐器、片器、尖器.
第六章 培育职业精神 树立家庭美德.
岩層中的奧秘與寶藏.
狂犬病 保護你我,愛護動物 武漢國中 黃憶暄.
各位弟兄姐妹,主內平安! 請將手機關靜音,帶著敬虔的心來到上帝的面前!
迪士尼動畫 玩具總動員1.
大陸高等教育現況之分析 楊景堯 淡江大學中國大陸研究所.
第一节 呼吸道对空气的处理.
十面“霾”伏 湖南长沙民政职业技术学院“思政”第九组 组员:李亮亮 许静 赵凯丽 何敏 张艳欣 付幻菱 陈京萍 王诗雨.
課程實錄.
如何对付脏空气.
魔獸世界 來吧~ 接受黑暗的力量吧~~.
第八章 了解法律制度 自觉遵守法律.
三餐煮飯佬蕃薯、傍係鹹菜佬菜脯, 日子過得實在艱苦。 頭擺頭擺有一介細阿妹, 按到「梅英姐」,屋下當苦,
動物的繁殖行為.
教師執行計畫案聘任助理說明會 (勞務型、學習型申請方式說明)
5,2 新时代的劳动者.
105年臺北市 優先免試入學 高中職免試入學 五專免試入學 報名方式宣導
一一年 值得关注的日子 元 旦 春 节 情 人 宵 植树节 愚人节 清明节 劳动节 母亲节 儿童节 父亲节 教师节 中秋节 圣诞节
水腫的原因 徐淑娟護理師 PM.
行動報告人:丁俊源 行動參與人和單位: 我們全家人 社區鄰居、管委會 新北市環保局
中国未成年人法制安全课程 雾霾哪里来? 初中段 第七讲.
幸福大讲堂 也谈老年朋友的 “老有所□” 爸妈在线专家宣讲团 ——老年朋友如何乐度后半生概述 主讲:钱锡安
102學年度預算編製說明會 主辦單位:會計室 102/02/22.
劳模的风采.
單車失竊記心得.
何俊賢教學資料.
跨校選課 說明會 主辦人:[國文系學會學權股] 葉軒如、李美玟.
Introduction To Mean Shift
第9课 北美大陆上的新体制 导入新课 新课教学 课堂小结 知识结构 巩固练习
SQL Injection.
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
数据挖掘工具性能比较.
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
基于深度学习模型的高效语音识别 推理结构及搜索算法研究 (解码器研究方向) Inference Architecture & Search Optimization for Deep Learning based ASR 姓名:陈哲怀 导师:俞 凯.
稅知多少.
The First Course in Speech Lab
闖關卡 恭喜你通過所有的考驗! 你是超級厲害的棒! 三年 班 號 姓名: 有色眼鏡 占心數 九九神功 你真棒! 神奇敲敲樂 魔陣密碼
WSDM见闻 程龚.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
9.搜索令、羈押令、法院開庭傳票、 偵查庭開庭傳票、 證人開庭傳票。
長虹虹頂新建工程 中鹿營造/ 宏林營造廠- 聯合承攬
稅知多少 國家的重要基礎.
地質篇 Unit_04_地質年代.
105學年第1學期期初校務會議 圖書館工作報告 報告人: 林佩佳主任.
岗位聘任管理系统使用说明 浙江师范大学人事处 咨询电话: 、
第七、八次实验要求.
基于最大margin的决策树归纳 李 宁.
全陽圓格局位置最好的A6-2樓 面中庭花園3房2廳2衛三面採光 捷運藍線江子翠捷運站1號出口Google距離210公尺
Module_5_Unit_4_ppt Unit4:非线性系统的描述函数法 东北大学《自动控制原理》课程组.
第三课时 Unit 2 What time is it? 天津市津南区双港小学 杨恩妍
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
所得稅法第14條、第126條修正條文 薪資所得計算方式二擇一 定額減除 特定費用減除 維持現行薪資所得特別扣除額20萬元減除方式
第6课 我是共和国的公民.
Rlj
教師檔案系統資料如何填寫? 如何對應教師評鑑共同基準?.
Presentation transcript:

网页推荐 http://googlechinablog.com/2006/04/blog-post.html 数学之美 系列一 — 统计语言模型 By 吴军, Google 研究员

关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理

关键技术-声学建模 从发音描述到语音声学参数 语境变化带来音位变体,音段参数变化 韵律变化带来基本单元韵律声学参数的变化

关键技术-声学建模 从发音描述到语音声学参数 如何“声学地”刻画韵律 语境变化带来音位变体,音段参数变化 韵律变化带来基本单元韵律声学参数的变化 如何“声学地”刻画韵律 基于每个基本单元韵律声学参数,表现整个语句的韵律声学特征

关键技术-声学建模-韵律声学参数 图中绿色为预测值,红色实际计算值 韵律声学参数 音高(F0), 音高斜率(Slope),时长(Duration)

关键技术-声学建模 从发音描述到语音声学参数 如何“声学地”刻画韵律 韵律声学预测建模 语境变化带来音位变体,音段参数变化 韵律变化带来基本单元韵律声学参数的变化 如何“声学地”刻画韵律 基于每个基本单元韵律声学参数,表现整个语句的韵律声学特征 韵律声学预测建模 任务:利用输入的韵律描述信息,计算每个基本单元的韵律声学参数分布概率 技术:决策树(Decision Tree), GMM (Gaussian Mixture Model)

DT and GMM 决策树的结构 聚类样本的概率分布-GMM 某叶子样本集F0分布 韵律状态问题集Q: { 声调、 q1 样本库 q2 左右声调、 边界、 左右边界、 。。。} q1 样本库 q2 q3 q4 q5 q6 q7 1 1.5 2 2.5 10 20 30 40 50 Mean GMM 叶子 聚类样本 某叶子样本集F0分布

关键技术-声学建模-韵律声学预测建模 韵律声学预测建模训练 两类模型 声学参数预测 基于决策树将数据库中所有样本依据韵律声学参数分类 由决策树上每个叶子所有样本计算每个叶子的韵律声学参数GMM 两类模型 目标模型 转移模型 声学参数预测 利用输入的韵律描述信息,通过回答决策树每个节点关于韵律描述信息的问题,得到对应的叶子所关联的GMM

关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理

关键技术-最优搜索 最佳候选样本序列序列搜索 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列

关键技术-最优搜索 最佳候选样本序列序列搜索 数学描述 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 数学描述

关键技术-最优搜索 最佳候选样本序列序列搜索 数学描述 技术 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 数学描述 技术 动态规划(DP)

关键技术-最优搜索 最佳候选样本序列序列搜索 数学描述 技术 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 数学描述 技术 动态规划(DP) Search Target Stream Occurrences Target Cost Transition Occurrence Stream

关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理

关键技术-波形处理 两种情形 挑选样本距离预测值较远,需韵律调整 两拼接端点不吻合,需平滑处理

关键技术-波形处理 两种情形 技术 挑选样本距离预测值较远,需韵律调整 两拼接端点不吻合,需平滑处理 PSOLA (Pitch Synchronous OverLap Add) 加窗

关键技术-波形处理-PSOLA TD-PSOLA a. 基频提高 b. 基频降低 c. 时长延长 d. 时长缩短

State-of-the-Art 通用系统, 5千句录音 个人系统, 326 句录音 英语系统, 8k 句录音 这里长城的走势比司马台更加富于变化和韵律;山势比慕田峪雄奇峻峭;构造墙体的是大块的白山岩,非常醒目。无论春夏秋冬、风云雨雪,各种光线下都能拍出美妙的照片。 个人系统, 326 句录音 英语系统, 8k 句录音 Northwest flight 123 departs New York at eight p.m. on Monday, May eighth and arrives in John F. Kennedy International Airport at ten twenty six p.m.

References [1] Alan Black, “The Blizzard Challenge – 2005: Evaluating corpus-based speech synthesis on common datasets”, INTERSPEECH 2005 [2] A. Hunt and A. Black, “Unit selection in a concatenative speech synthesis system using a large speech database” ICASSP’96 [3] Ma Xijun, “PROBABILITY BASED PROSODY MODEL FOR UNIT SELECTION”, ICASSP’04 [4] Wael Hamza, “On Building a Concatenative Speech Synthesis System from the Blizzard Challenge Speech Databases”, INTERSPEECH 2005

课程报告 语音合成专题 报告二,专题报告 (提交:4-14) 篇幅要求:2页(5号字) 文件命名:学号_姓名_报告名称 四个专题选一: 数据库、文本分析、韵律模型、波形拼接/合成器 具体算法 篇幅要求:2页(5号字) 文件命名:学号_姓名_报告名称