语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES

语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES
郑方 Dr. Thomas Fang Zheng 千禧年会世纪紫光清华大学计算机科学与技术系语音实验室 Speech Lab., Dept. Of Computer Science & Technology, Tsinghua University Nov. 4, 1999 Speech Headlines Applications Trends Challenges

SPEECH HEADLINES “Speech will become the next major trend in the personal computer market in the near future.” 在不远的将来，语音将成为个人计算机市场的下一个主流。 Wall Street Journal, 1996 “Speech recognition is the hottest new technology this year…” 语音识别是今年最热的技术。 Byte Magazine, 1997 “Speech Technology is the Next Big Thing in Computing…” 语音技术是计算中下一个大事件… BusinessWeek, 1998 “Speech is not just the future of Windows… But the future of Computing itself.” 语音不仅是视窗的未来…也是计算本身的未来。 William H Gates III, 1998

SPEECH HEADLINES (cont’d)
Speech is the most natural way for human-machine interaction. 语音是人机交互最自然的方式。 Speech enhances the user interface and productivity. 语音增强了用户界面和生产力。 Speech is the foundation for new classes of applications. 语音是新型应用的基石。 Speech is a key component of Chinese computing. 语音是汉语计算的关键成分。 Speech is rising technology trend. 语音代表正在成长的技术趋势。

APPLICATIONS -- OVERVIEW
语音处理及其应用说的是什么内容？ ····语音识别是谁在说话？ ············声纹识别说的是什么语言？ ····语种识别计算机去说话？ ········文语转换怎么把话说好？ ···说话水平评估

APPLICATIONS -- VOICE COMMAND & CONTROL
语音命令和控制－－中小词表孤立词语音识别语音命令导航 (EasyCmd) 家电控制 (Cmd99) 声控号码簿 (Voice PhoneBook) 声控拨号 (Voice Dialler, e.g.: DataBank) 个人数字助理 (PDA, e.g. 快译通) …

APPLICATIONS -- LARGE VOC. CONT. SPEECH RECOGNITION
大词表连续语音识别汉语语音听写机(EasyTalk)是汉字输入的重要手段整句音字转换(EasyConv)是键盘输入的辅助手段基于文本的语言理解(EasyNav)是理解关键之一关键词检出(KWS)是基于内容的语音信息检索的基础 …

APPLICATIONS -- SPEAKER & LANGUAGE RECOGNITION
声纹识别－－身份鉴别安全 (金融、网络、…) 个性化配置 … 语种识别为多语种语音识别平台提供预分流 …

APPLICATIONS -- SPEECH SYNTHESIS & TEXT-TO-SPEECH
文语转换有声电子读物盲人阅读获取信息的有声反馈 …

APPLICATIONS -- SPEAKING SKILL EVALUATION
说话水平评估－－S2E 多媒体语言教学 e.g.1 :《大嘴英语》 e.g.2:《随心所欲说英语》 …

TRENDS -- NETWORKING THE WORLD
远程信息库源 (天气、航班、旅游、其他信息检索…) 一个关于选键笑话(汽车翻车)：如果A请按1；如果B请按2；… 如果A1请按1；如果A2请按2；… 如果A11请按1；如果A12请按2；… 最方便，但只有数字键

TRENDS -- NETWORKING THE WORLD (cont’d)
听写机输入的劣势： 1. 容易疲劳 2. 容易泄密 3. 没有理解听写机、语言理解、口语对话语音理解身份鉴别对话管理文语转换

TRENDS -- SPOKEN LANGUAGE INFORMATION RETRIEVAL
0. 语音去噪和增强 1. 特征提取(MFCC, PLP, E, Z, …) 2. 声学解码(统计语音模型HMM) 3. 语言解码(统计语言模型N-Gram) 0. 口语现象(无意义词、省略、重复、解释、更正、倒序…) 1. 电子辞典(词法属性、句法属性等) 2. 句法分析(句法规则、句法消歧规则) 3. 语义分析和语用分析 TRENDS -- SPOKEN LANGUAGE INFORMATION RETRIEVAL 窄带信道 CSR引擎 0. 语音去噪和增强 1. 连续语音识别引擎 2. 关键词和补白网络 3. 语音确认和拒识识别结果的语义分析及表示 CSR ＝连续语音识别 KWS＝关键词检出检索目标的中间语言表达自然语流文本搜索引擎文本信息库窄带信道 KWS引擎文本输出对话管理与生成检索结果关键词检出器语音信息库语音输出文语转换引擎

CHALLENGES A Communication Theoretical View
of the generation, acquisition & transmission, and perception of speech: Message Source P(M) M Linguistic Channel P(W|M) W Articulatory Channel P(S|W,M) S Acoustic Channel P(A|S,W,M) A Transmission Channel P(X|A,S,W,M) X Speech Recognizer Message M realized as a word sequence W Words W realized as a sequence of sound S Sounds S received by transducer in acoustic ambient as A Signals A converted from acoustic to electric, transmitted and received as X for processing Task/context specification (dictation, man-machine dialogue, broadcast news, free conversation, ...) Speaker variability - speaker characteristics (anatomy of vocal tract and vocal cord, accent, dialect, …) - speaking behavior (rate, style, Lombard, ...) Phonetic/prosodic context Speaking environment - other speakers - background noise - reverberations Transducer - distortions (spectral characteristics, non-linearities, …) - directional characteristics - electrical noise Distortions (spectral, encode-decode, …) Noise Echoes Dropouts ...

too far from classification.
CHALLENGES (cont’d) Speech Recognition Flow: Signal Space X Feature Space FX Model Space X Training D1(•) D2(•) D3(•) Mismatch T FT T Testing Features too close to signal, too far from classification. 重要问题(鲁棒性)：环境(背景噪音、回响和混响、其他说话人…) 麦克风和信道 (噪音、带宽、质量不一致、…) 说话人(性别、口音、速度、音强…) … 重要问题(新问题)：发现高可分性、高顽健的特征；寻找分辨能力更强的分类器；自适应(说话人、环境；特征、模型；…)；

CHALLENGES (cont’d) Speech Understanding Flow: 基于N-Gram统计语言模型句法分析
语义分析语言理解

CHALLENGES (cont’d) 统计语言模型依赖于训练数据基于规则的语言模型尚不成熟，但可以
数据稀疏问题对语言领域敏感问题新词处理问题无法进行理解基于规则的语言模型尚不成熟，但可以对统计语言模型进行平滑对新词统计概率进行估计在统计语言模型的基础上发挥作用充分利用韵律信息(Prosody)进行语言理解不同的韵律有不同的意义在合成方面已经取得一定的进展

Chinese Computing Platform API
CHALLENGES (cont’d) Application Programming Interfaces: Application # 1 Application # 2 Application # 3 Application # 4 Application # 5 Chinese Computing Platform API Voice Cmd. & Ctrl. Engine Chinese Dicta- tion Machine Engine Pinyin=>Hanzi Hanzi=>Pinyin Engine Handwriting Recognition Engine Speaker Recognition Engine Sentence Parsing Engine Text-to-Speech Engine Linguistic Data Technology Capability

CONCLUSIONS 国外已经取得很大成功：IBM、Microsoft、… 中国也有成功的典范：清华大学、中国科学院…
中文信息处理的核心和中坚在中国：如中文语言理解跨国大公司占领中文信息处理市场的策略是：国外的投入＋中国的技术(部分或全部) ＝国外的产权(部分或全部) 国内要加强“产学研”的结合

Speech Lab., Dept. Of Computer Science & Technology,
THANKS FOR LISTENING 郑方 Dr. Thomas Fang Zheng 清华大学计算机科学与技术系语音实验室 Speech Lab., Dept. Of Computer Science & Technology, Tsinghua University Nov. 4, 1999 丰富的经验积累强大的研究队伍科学的管理机制坚定的振兴决心

语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES

Similar presentations

Presentation on theme: "语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES

Similar presentations

Presentation on theme: "语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES"— Presentation transcript:

Similar presentations

About project

反馈