Presentation is loading. Please wait.

Presentation is loading. Please wait.

语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES

Similar presentations


Presentation on theme: "语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES"— Presentation transcript:

1 语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES
郑 方 Dr. Thomas Fang Zheng 千禧年会 世纪紫光 清华大学计算机科学与技术系 语音实验室 Speech Lab., Dept. Of Computer Science & Technology, Tsinghua University Nov. 4, 1999 Speech Headlines Applications Trends Challenges

2 SPEECH HEADLINES “Speech will become the next major trend in the personal computer market in the near future.” 在不远的将来,语音将成为个人计算机市场的下一个主流。 Wall Street Journal, 1996 “Speech recognition is the hottest new technology this year…” 语音识别是今年最热的技术。 Byte Magazine, 1997 “Speech Technology is the Next Big Thing in Computing…” 语音技术是计算中下一个大事件… BusinessWeek, 1998 “Speech is not just the future of Windows… But the future of Computing itself.” 语音不仅是视窗的未来…也是计算本身的未来。 William H Gates III, 1998

3 SPEECH HEADLINES (cont’d)
Speech is the most natural way for human-machine interaction. 语音是人机交互最自然的方式。 Speech enhances the user interface and productivity. 语音增强了用户界面和生产力。 Speech is the foundation for new classes of applications. 语音是新型应用的基石。 Speech is a key component of Chinese computing. 语音是汉语计算的关键成分。 Speech is rising technology trend. 语音代表正在成长的技术趋势。

4 APPLICATIONS -- OVERVIEW
语音处理及其应用 说的是什么内容? ····语音识别 是谁在说话? ············声纹识别 说的是什么语言? ····语种识别 计算机去说话? ········文语转换 怎么把话说好? ···说话水平评估

5 APPLICATIONS -- VOICE COMMAND & CONTROL
语音命令和控制--中小词表孤立词语音识别 语音命令导航 (EasyCmd) 家电控制 (Cmd99) 声控号码簿 (Voice PhoneBook) 声控拨号 (Voice Dialler, e.g.: DataBank) 个人数字助理 (PDA, e.g. 快译通)

6 APPLICATIONS -- LARGE VOC. CONT. SPEECH RECOGNITION
大词表连续语音识别 汉语语音听写机(EasyTalk)是汉字输入的重要手段 整句音字转换(EasyConv)是键盘输入的辅助手段 基于文本的语言理解(EasyNav)是理解关键之一 关键词检出(KWS)是基于内容的语音信息检索的基础

7 APPLICATIONS -- SPEAKER & LANGUAGE RECOGNITION
声纹识别--身份鉴别 安全 (金融、网络、…) 个性化配置 语种识别 为多语种语音识别平台提供预分流

8 APPLICATIONS -- SPEECH SYNTHESIS & TEXT-TO-SPEECH
文语转换 有声电子读物 盲人阅读 获取信息的有声反馈

9 APPLICATIONS -- SPEAKING SKILL EVALUATION
说话水平评估--S2E 多媒体语言教学 e.g.1 :《大嘴英语》 e.g.2:《随心所欲说英语》

10 TRENDS -- NETWORKING THE WORLD
远程信息库源 (天气、航班、旅游、其他信息检索…) 一个关于选键笑话(汽车翻车): 如果A请按1;如果B请按2;… 如果A1请按1;如果A2请按2;… 如果A11请按1;如果A12请按2;… 最方便,但只有数字键

11 TRENDS -- NETWORKING THE WORLD (cont’d)
听写机输入的劣势: 1. 容易疲劳 2. 容易泄密 3. 没有理解 听写机、语言理解、口语对话 语音理解 身份鉴别 对话管理 文语转换

12 TRENDS -- SPOKEN LANGUAGE INFORMATION RETRIEVAL
0. 语音去噪和增强 1. 特征提取(MFCC, PLP, E, Z, …) 2. 声学解码(统计语音模型HMM) 3. 语言解码(统计语言模型N-Gram) 0. 口语现象(无意义词、省略、重复、解释、更正、倒序…) 1. 电子辞典(词法属性、句法属性等) 2. 句法分析(句法规则、句法消歧规则) 3. 语义分析和语用分析 TRENDS -- SPOKEN LANGUAGE INFORMATION RETRIEVAL 窄带信道 CSR引擎 0. 语音去噪和增强 1. 连续语音识别引擎 2. 关键词和补白网络 3. 语音确认和拒识 识别结果的 语义分析 及表示 CSR =连续语音识别 KWS=关键词检出 检索目标的 中间语言表达 自然语流 文本搜索 引擎 文本信息库 窄带信道 KWS引擎 文本输出 对话管理 与生成 检索结果 关键词 检出器 语音信息库 语音输出 文语转换 引擎

13 CHALLENGES A Communication Theoretical View
of the generation, acquisition & transmission, and perception of speech: Message Source P(M) M Linguistic Channel P(W|M) W Articulatory Channel P(S|W,M) S Acoustic Channel P(A|S,W,M) A Transmission Channel P(X|A,S,W,M) X Speech Recognizer Message M realized as a word sequence W Words W realized as a sequence of sound S Sounds S received by transducer in acoustic ambient as A Signals A converted from acoustic to electric, transmitted and received as X for processing Task/context specification (dictation, man-machine dialogue, broadcast news, free conversation, ...) Speaker variability - speaker characteristics (anatomy of vocal tract and vocal cord, accent, dialect, …) - speaking behavior (rate, style, Lombard, ...) Phonetic/prosodic context Speaking environment - other speakers - background noise - reverberations Transducer - distortions (spectral characteristics, non-linearities, …) - directional characteristics - electrical noise Distortions (spectral, encode-decode, …) Noise Echoes Dropouts ...

14 too far from classification.
CHALLENGES (cont’d) Speech Recognition Flow: Signal Space X Feature Space FX Model Space X Training D1(•) D2(•) D3(•) Mismatch T FT T Testing Features too close to signal, too far from classification. 重要问题(鲁棒性): 环境(背景噪音、回响和混响、其他说话人…) 麦克风和信道 (噪音、带宽、质量不一致、…) 说话人(性别、口音、速度、音强…) 重要问题(新问题): 发现高可分性、高顽健的特征; 寻找分辨能力更强的分类器; 自适应(说话人、环境;特征、模型;…);

15 CHALLENGES (cont’d) Speech Understanding Flow: 基于N-Gram统计语言模型 句法分析
语义分析 语言理解

16 CHALLENGES (cont’d) 统计语言模型依赖于训练数据 基于规则的语言模型尚不成熟,但可以
数据稀疏问题 对语言领域敏感问题 新词处理问题 无法进行理解 基于规则的语言模型尚不成熟,但可以 对统计语言模型进行平滑 对新词统计概率进行估计 在统计语言模型的基础上发挥作用 充分利用韵律信息(Prosody)进行语言理解 不同的韵律有不同的意义 在合成方面已经取得一定的进展

17 Chinese Computing Platform API
CHALLENGES (cont’d) Application Programming Interfaces: Application # 1 Application # 2 Application # 3 Application # 4 Application # 5 Chinese Computing Platform API Voice Cmd. & Ctrl. Engine Chinese Dicta- tion Machine Engine Pinyin=>Hanzi Hanzi=>Pinyin Engine Handwriting Recognition Engine Speaker Recognition Engine Sentence Parsing Engine Text-to-Speech Engine Linguistic Data Technology Capability

18 CONCLUSIONS 国外已经取得很大成功:IBM、Microsoft、… 中国也有成功的典范:清华大学、中国科学院…
中文信息处理的核心和中坚在中国:如中文语言理解 跨国大公司占领中文信息处理市场的策略是: 国外的投入+中国的技术(部分或全部) =国外的产权(部分或全部) 国内要加强“产学研”的结合

19 Speech Lab., Dept. Of Computer Science & Technology,
THANKS FOR LISTENING 郑 方 Dr. Thomas Fang Zheng 清华大学计算机科学与技术系 语音实验室 Speech Lab., Dept. Of Computer Science & Technology, Tsinghua University Nov. 4, 1999 丰富的经验积累 强大的研究队伍 科学的管理机制 坚定的振兴决心


Download ppt "语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES"

Similar presentations


Ads by Google