第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统.

Slides:



Advertisements
Similar presentations
第二单元 大珠小珠落玉盘 阅读与欣赏 复习要点 1. 了解古典诗词文学形式的特点。 2. 概括古典诗词中人物形象、景物形象的特点;理解古典诗词中抒发的 情感和思想内涵。 3. 了解作品绘景、叙事、写人、抒情所运用的技巧,品味作品中精妙的 语言。 4. 掌握有关修辞和动静结合以及衬托等知识。 复法指导.
Advertisements

绿色圃中小学教育网 xīn yuàn 心 愿 绿色圃中小学教育网 月亮.
黄国文 中山大学 通用型英语人才培养中的 语言学教学 黄国文 中山大学
一百年後的世界裡, 人類掌握長生不死的秘密, 但伴隨而來的是……
性別平等教育的課程設計與教學實踐 廖千惠.
大漠孤烟直,长河落日圆。 ——唐 王维.
國中多元進路簡報 主講:陳裕宏( ) 現職:木柵高工教務主任 學歷:1.國立台灣師範大學工業教育系(畢業)
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
第九章 認識勞退新制及因應之道 大葉大學 助理教授 邱祈豪.
人教新课标 四年级语文下册 第四组 一个中国孩子的呼声.
公會組織糾紛 指導老師:柯伶玫 組員 495B0065 劉致維 495B0072 廖怡塵 495B0097 范家皓.
大成殿孔子像. 大成殿孔子像 有关孔子 孔子(前551~前479),中国古代著名思想家、政治家、教育家,儒家的创始人。名丘,字仲尼。春秋末期鲁国人。被尊称为“大成至圣”,联合国教科文组织把他列为世界十大名人之一。相传曾修《诗》《书》,订《礼》《乐》,序《周易》,撰《春秋》。孔子曾任鲁国司寇,治理鲁国三个月,便使强大的齐国畏惧。因身处乱世,他所主张的“仁政”没有施展的空间,后携弟子周游列国。入东周拜老子为师。最终返回鲁国,专心执教。孔子开创私人讲学之风,弟子多达三千,贤弟子七十二人(“弟子三千,七十二贤人”
每日一拼 yuèliàng xiang yi ge hai xiu de shao nv yi hui er duo jin yun jian yi hui er you liao kai mian sha lu chu jiao rong zheng ge shi jie dou bei yue.
志願服務倫理  高雄餐旅學院師資培育中心     馮莉雅 副教授.
2013 澎湖自助旅行講座 澎湖,其實就是一片海洋 主辦:沿著菊島旅行 協辦: 台北澎湖同鄉會、台中澎湖同鄉會、高雄澎湖同鄉會
——曹文轩 孤独之旅.
12年國教前哨站 談適性輔導及免試入學 12年國教前哨站 談適性輔導及免試入學 主講人:龍門國中王意蘭 校長 輔導主任 潘姿伶.
实用操作系统概念 张惠娟 副教授 1.
運用網路資源趣味化 「每日飲食指南份量」教學
教育部補助 「大專校院社團帶動中小學社團發展」
Starter: What is that secret number?.  6  7  8  9  10  Liù 六  Qī 七  Bā 八  Ji ǔ 九  Shí 十.
企業講座 組長: 張仁杰 組員: 指導老師:洪伯毅 楊巧歆 楊明芬 陳璿安
能量買賣訊號 ◎波段賣訊:下列四項出現三項以上(含三項) 1、空方能量升至整波上漲之最高水準,且空方能量>多方 能量30%以上。
好好國際物流股份有限公司 全球運籌物流服務建議 中 華 貨 物 通 關 自 動 化 協 會 理 事 長 劉 陽 柳 二○○二年五月十五日
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
MovieBot: Booking Tickets Easily
课程与编码:语言学与应用语言学 张露茜(博士) 浙江工商大学 外国语学院
Visualizing and Understanding Neural Machine Translation
教育人員退休新法說明會 106年12月14日 ★資料來源:參考銓敘部及高雄市教育局人事室簡報檔.
國文(一) 1.第一單元---青春印記 (學習篇、愛情篇) 2.第二單元---生活美學 3.第三單元---優遊家園.
Unit title: 买东西 - Shopping
嵌入式系统课程简介 宋健建 南京大学软件学院 2004/02/10.
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
1 Introduction Prof. Lin-Shan Lee.
Unit 2 Key points summary.
二年中文 [201- Unit 9] 谈谈经历 [孫珞 老師] [Fall 2017].
第五讲 四则运算计算器(一) 精品教程《C#程序设计与应用(第2版)清华大学出版社 谭恒松 主编
学习报告 —语音转换(voice conversion)
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
六 国 论 (北宋 苏洵) 1、作者简介: 见课下注释 补充: 号老泉, 人称“老苏”,唐宋八大家之一。 后人称赞:一门三父子,都是大文豪。
A、資訊系統開發概論與課程簡介 何謂資訊系統? 為何需要系統分析師? 需要瞭解哪些知識? 領域知識? 資訊科技? 開發方法與技術? 課程簡介.
29 父亲和鸟.
  你喜欢鸟吗?这些鸟可爱吗?.   你喜欢鸟吗?这些鸟可爱吗?   自己读通课文,不认识的字借助拼音读准,把课后“我会认”里出现的字多读几遍。   小组内的同学互相指读课文和生字。比一比,看谁读得准确。
今天,我们来学习一首南宋著名的词人辛弃疾的词——《清平乐 村居》。
Connected Speech 3 levels 6 modules 9 speakers 18 tutorials
The First Course in Speech Lab
1 Introduction Prof. Lin-Shan Lee.
语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES
Unit 11.Operating System 11.1 What’s OS 11.2 Related Courses
一个RDF数据自然语言生成器的设计与实现
VIDEO COMPRESSION & MPEG
主題:需求與供給彈性 (一) 第八週 授課:黃柏凱.
本 章 重 點 13-1 資訊系統簡介 13-2 企業內部常用資訊系統簡介.
國語語音屬性偵測器 之初步經驗 交通大學電信系 王逸如 2005/12/17.
维吾尔语音合成技术研究报告 艾斯卡尔·艾木都拉 博士 教授 新疆大学信息科学与工程学院 新疆大学多语种信息技术重点实验室
朱晓兰 博士 深圳市华琛科技有限公司 VoiceXML给我们生活带来的影响 朱晓兰 博士 深圳市华琛科技有限公司
网页推荐 数学之美 系列一 — 统计语言模型 By 吴军, Google 研究员.
中国风背景论文答辩模板 某大学某某信息学院 答辩学生:代用名 指导老师:代用名 答辩时间:201X年1月30日
PBL的核心目標與實例分享 國立台南大學 蔣佳玲.
词语超市: jì计算 计划 妙计 设计suàn算术 算账 心算 口算 mào冒犯 冒险 冒失 假冒 饱览lǎn 博览 游览 浏览 会馆guǎn 展览馆 jĭn紧张 紧急 赶紧 加紧 怦然心跳pēng.
Introduction of this course
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
勞工保險年金制度 簡報人:吳宏翔.
數位家庭中的人機介面研究.
11 北风和小鱼.
法律的解釋 楊智傑.
高级大数据人才培养丛书之一,大数据挖掘技术与应用
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统

第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统

背景 计算机的普及 人机自然语言交互 语音合成在人机交互系统中的作用 语音合成的其它应用 Speech Recognition Natural Language Understanding Dialog Manager Speech Synthesis Natural Language Generation Information Database Speech In Speech Out 计算机的普及 人机自然语言交互 语音合成在人机交互系统中的作用 语音合成的其它应用

第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统

目标 “让计算机像人一样说话” 现阶段-TTS 前瞻性-CTS 等待时机-ITS 从文字到语音TTS(Text-To-Speech) 从概念到语音CTS(Concept-To-Speech) 从意念到语音ITS(Intention-To-Speech) 现阶段-TTS 前瞻性-CTS 等待时机-ITS

第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统

基本问题 原因 从语音到文字的信息缺失 从文字到语音(TTS) 从文字到发音描述 发什么音 如何发音 从发音描述到语音合成

第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统

技术历程 1937,Voder,Bell Lab., H. Dudly 1962,级联共振峰,KTH,G. Fant 1970s 1980s 1990s 2000s Quality Time Format PSOLA Unit-selection: Segment-oriented Prosody-oriented Excellent: Human-liked Fair: acceptable Bad: unacceptable 1937,Voder,Bell Lab., H. Dudly 1962,级联共振峰,KTH,G. Fant 1970s,混合共振峰,MIT,D. Klatt 1986,PSOLA,F. Charpentier 2000s,Unit-selection,N. Campbell & A. Black

技术历程 1937,Voder,Bell Lab., H. Dudly 1962,级联共振峰,KTH,G. Fant 1970s 1980s 1990s 2000s Quality Time Format PSOLA Unit-selection: Segment-oriented Prosody-oriented Excellent: Human-liked Fair: acceptable Bad: unacceptable 1937,Voder,Bell Lab., H. Dudly 1962,级联共振峰,KTH,G. Fant 1970s,混合共振峰,MIT,D. Klatt 1986,PSOLA,F. Charpentier 2000s,Unit-selection,N. Campbell & A. Black 音色,孤立音段 音色,孤立词 音色、韵律,语句 韵律,语句

第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统

典型系统 基于单元挑选的TTS系统构成(韵律导向) 两个模块 一个接口,发音描述 数据库,合成单元 前端:文本处理,从文字到发音描述 Parser Prosodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input text Interface Output speech Frontend Backend 基于单元挑选的TTS系统构成(韵律导向) 两个模块 前端:文本处理,从文字到发音描述 后端:语音处理,从发音描述到语音合成 一个接口,发音描述 数据库,合成单元

典型系统 例:北京交通大学成立于1896年。 Text Normalization:北京交通大学成立于1896年 Frontend Parser Prosodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input text Interface Output speech Frontend Backend 例:北京交通大学成立于1896年。 Text Normalization:北京交通大学成立于1896年

典型系统 例:北京交通大学成立于1896年。 Text Normalization:北京交通大学成立于1896年 Parser Prosodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input text Interface Output speech Frontend Backend POS (Part Of Speech) 例:北京交通大学成立于1896年。 Text Normalization:北京交通大学成立于1896年 Parser:北京(npr) 交通(ng)大学(ng)成立(vgo)于(pg)1896年(t)

典型系统 例:北京交通大学成立于1896年。 Text Normalization:北京交通大学成立于1896年 Parser Prosodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input text Interface Output speech Frontend Backend 例:北京交通大学成立于1896年。 Text Normalization:北京交通大学成立于1896年 Parser:北京(npr) 交通(ng)大学(ng)成立(vgo)于(pg)1896年(t) Prosodic Event: OutPut PWord Layer: 北京 ng 交通 ng 大学 ng 成立于 vg_pg 一八九六年 t OutPut PPhrase Layer: ## 北京交通大学## 成立于## 一八九六年 OutPut IPhrase Layer: ## 北京交通大学成立于一八九六年 OutPut Sentence Layer: ## 北京交通大学成立于一八九六年

典型系统 例:北京交通大学成立于1896年。 Text Normalization:北京交通大学成立于1896年 Parser Prosodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input text Interface Output speech Frontend Backend 例:北京交通大学成立于1896年。 Text Normalization:北京交通大学成立于1896年 Parser:北京(npr) 交通(ng)大学(ng)成立(vgo)于(pg)1896年(t) Prosodic Event: OutPut PWord Layer: 北京 ng 交通 ng 大学 ng 成立于 vg_pg 一八九六年 t Phonetizer:北 bei3 京 jing1(BL :北京) 交 jiao1(BL :交通) 通 tong1(BL :交通) 大 da4(BL :大学) 学 xue2(BL :大学) 成 cheng2(BL :成立) 立 li4(BL :成立) 于 yu2(BL :于) 一 yi1(BL :一八九六年) 八 ba1(BL :一八九六年) 九 jiu3(BL :一八九六年) 六 liu4(BL :一八九六年) 年 nian2(BL :一八九六年)

典型系统 Parser Prosodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input text Interface Output speech Frontend Backend 例:北京交通大学成立于1896年。 Interface: {2 {1 ^2 %0 {0 ^2 %0 [ @ng ^2 %0 < @npr ( #bei3 &MC $北 ) ( #jing1 &MC $京 ) > ] [ @ng ^2 %0 < @ng ( #jiao1 &MC $交 ) ( #tong1 &MC $通 ) > ] [ @ng ^2 %0 < @ng ( #da4 &MC $大 ) ( #xue2 &MC $学 ) > ] 0} {0 ^2 %0 [ @vg_pg ^2 %0 < @vgo ( #cheng2 &MC $成 ) ( #li4 &MC $立 ) > < @pg ( #yu2 &MC $于 ) > ] 0} {0 ^2 %0 [ @t ^2 %0 < @t ( #yi1 &MC $一 ) ( #ba1 &MC $八 ) ( #jiu3 &MC $九 ) ( #liu4 &MC $六 ) ( #nian2 &MC $年 | ) > ] 0} 1} 2}

典型系统 例:北京交通大学成立于1896年。 Prosodic Acoustic Predictor: Parser Prosodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input text Interface Output speech Frontend Backend 例:北京交通大学成立于1896年。 Prosodic Acoustic Predictor: GMM(bei3) GMM(jing1) GMM(jiao1) GMM(tong1) GMM(da4) GMM(xue2) GMM(cheng2) GMM(li4) GMM(yu2) GMM(yi1) GMM(ba1) GMM(jiu3) GMM(liu4) GMM(nian4) Segment Acoustic Predictor: occ(bei3) occ(jing1) occ(jiao1) occ(tong1) occ(da4) occ(xue2) occ(cheng2) occ(li4) occ(yu2) occ(yi1) occ(ba1) occ(jiu3) occ(liu4) occ(nian4)

典型系统 例:北京交通大学成立于1896年。 Prosodic Acoustic Predictor: Parser Prosodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input text Interface Output speech Frontend Backend 例:北京交通大学成立于1896年。 Prosodic Acoustic Predictor: GMM(bei3) GMM(jing1) … Segment Acoustic Predictor: occ(bei3) occ(jing1) … Unit Selection: argmin cost(sam(bei3),sam(jing1),sam(jiao1),…) Corpus: bei3 jing1

典型系统 例:北京交通大学成立于1896年。 Prosodic Acoustic Predictor: Parser Prosodic Event Predictor Phonetizer Prosodic & Phonemic context Prosodic Acoustics Predictor Segment Acoustics Predictor Unit Selection Speech Synthesizer Text Normalization Corpora: speech phonetic alignment, prosodic parameter Dictionary: Lexicon, Rules, Homograph Input text Interface Output speech Frontend Backend 例:北京交通大学成立于1896年。 Prosodic Acoustic Predictor: GMM(bei3) GMM(jing1) … Segment Acoustic Predictor: occ(bei3) occ(jing1) … Unit Selection: argmin cost(sam(bei3),sam(jing1),sam(jiao1),…) Corpus: bei3 jing1… Speech Synthesizer:北京交通大学成立于1896年。

后续题目 基础知识 韵律 原理分析 关键技术 数据库构建 文本处理 声学建模 最优搜索/合成器 相关研究 音色调整/转换 HMM合成器 挑战

基于数据驱动的韵律建模 Two trainable components: based on an annotated corpus Prosodic event predictor Prosodic parameter predictor

韵律功能 Prosody structure Intonation Accent Mood Ex. 1, 已经取得文凭的和尚未取得文凭的干部 Ex. 4, 明天是个晴天,最高气温... (flat) Ex. 5, 明天是个晴天!我们可以... (glad) Ex. 6, 明天是个晴天? (interrogative) Accent Ex. 7, 明天是个晴天 vs. 明天是个晴天 Mood Ex. 8, 明天是个晴天 glad vs. 明天是个晴天 sad prosody is not all for mood, timbre is changed also

韵律的声学实现 In acoustic, prosody is presented as the variances of pitch duration intensity pause

韵律描述 C-ToBI defined 1'st, prosody structure coming, accent index 知觉判断等级与韵律层级结构对应 coming, accent index

汉语韵律层次 韵律结构标注,按照语调短语、中间短语、音步/韵律词三个韵律层级,描述每段发音。 语调短语(intonational phrase):具有完整的语调,听感上可独立成句的一段发音 音步(foot):节奏的基本单位,一般由两个或三个音节构成,少数为单音节。 韵律词(prosodic word): 所有的句法词 具有类似词的连调模式和词重音模式、较短的词组 其它凡是属于一个音步的结构 跨度为1-4个音节,极大多数为2-3个音节, 少数为单音节和四音节结构。 中间短语(intermediate phrase): 介于语调短语和韵律词之间的节奏单元 由一个或多个韵律词构成 中间短语之间可能存在嵌套结构

韵律标注 依据听觉进行边界类型的判断,并辅助以特定类型处理的约定 听觉判决所依据的线索 标注符号 特定类型约定 基频重置,边界末音节展延,停顿,节奏的变化 需从全局的、层级的角度考察每段发音 标注符号 BP2: 用以界定语调短语边界 BP1:用以界定中间短语边界 BP0:用以界定有明显停顿的音步/韵律词间的边界 空格:用以界定音步/韵律词边界 *:用以界定韵律词内的音步边界 特定类型约定 位于短语边界的、听感上轻读的、作为短语间过渡的虚词,倾向于划归后一短语 BP0为音步边界,且具有明显的停、顿,倾向于从严标出

一个韵律结构标注的例子 S1 编者 按(BP2)世界上(BP1) 有些事 是 相似的(BP2)甚至(BP0)惊人地 相似 Problem of consistency training acceptable

韵律的深层次标注 Accent Index What is AI Sample 催眠师有相当的威望 Why is AI needed 体现语义上的着重和聚焦的一种韵律特征 Domains: word level: lexical stress sentence level: prominence, focus, emphasis, accented Why is AI needed more smooth voice more expressive synthesis voice AI acoustic realization relativity: relative accented/unaccented universal: integrate AI prosody function New topic Focus Stress pattern (技术/计数)

AI初步实验 accent index automatically detecting based on the hierarchically prosodic structure prosodic approximation-ratio of the syllable as the indicator, ref. to Xu Yi’s work prosodic parameters predicted with AI Samples 催眠师有相当的威望

课程报告4 语音合成综述及专题 阅读 在线演示 报告一,综述报告 (提交:3-31) 报告二,专题报告 (提交:4-14) 《现代语音技术-基础与应用》第五章,蔡莲红等编著,清华大学出版社,2003 王仁华:“语音合成技术最新研究进展及其应用展望” 初敏 http://research.microsoft.com/users/minchu/ Interspeech, ieee ssw, icassp, speech prosody 在线演示 科大讯飞 http://www.iflytek.com/ 捷通华声 http://www.sinovoice.com.cn/ 报告一,综述报告 (提交:3-31) 思考 文语转换系统的任务 基于数据库的文语转换系统的实现模块 要求:参考文献3篇以上,相关分析注明出处 报告二,专题报告 (提交:4-14) 四个专题选一: 数据库、文本分析、韵律模型、波形拼接/合成器 具体算法 篇幅要求:2页(5号字) 文件命名:学号_姓名_报告名称