语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES

Slides:



Advertisements
Similar presentations
《普通高中课程标准实验教科书 英语 》 (New Senior English For China) (必修模块)培训 湛江市教育局教研室 张 英 2009 年.
Advertisements

資管系 吳明泉 2012 管理學 1 管理溝通與資訊科技 Manage Communication and IT.
聚焦全球领先科技资源——IEL数据库让您的科研生活更高效
語文教學 教學理念 竹大附小 陳枝田 將地方圖案插入此投影片 選取〔插入〕功能表 〔圖片〕指令 選取〔從檔案〕指令 選取你的標幟圖片檔案
軟體工程 -物件導向程式設計與UML系統分析實作
???.
陳浩然 國立台灣師範大學英語系 網路與英語學習: 口語,閱讀,及寫作 陳浩然 國立台灣師範大學英語系
信息技术与旅游的交叉研究进展 北京联合大学旅游学院 黎巎 张凌云 2012年4月21日.
图书馆订购的纸质外文期刊目录 F:经济 H:语言、文字 I:文学 O:数理科学和化学 Z:综合性图书 T:工业技术 TB:一般工业技术
教 师 人 际 沟 通 与 协 调 (023) 邹 顺 康 (023) 西南大学政治与公共管理学院.
第一章 人際關係的原則 第一節 為什麼需要人際溝通 第二節 溝通的意義與歷程 第三節 全方位的人際溝通 第四節 人際溝通的特性.
如何與老人互動 臺灣大學職能治療學系 毛慧芬
‧姓名‧年級‧ ‧年月‧ Type out your Chinese name and grade Record your voice:
漫谈生命与信息 李 衍 达
课程改革:培养学 生的独立人格 ——中学校长《课程改革 与校长担当》论坛的讲话 郭振有
GIS教学体系探讨 ——以北京大学本科教育为例 邬 伦
信息检索教材配套讲稿--邓发云.
职业汉语应用 第一讲 职业汉语漫谈 张慧欣
一个独特智库的要素 Arthur Hanson.
1.1信号与系统.
Leftmost Longest Regular Expression Matching in Reconfigurable Logic
深層學習 暑期訓練 (2017).
MovieBot: Booking Tickets Easily
Applications of Digital Signal Processing
HKLA FORUM 2006.
報告人:丁英智 資策會 網路多媒體研究所 11/3/2006
報告人:趙善中 理事長 國際企業架構師協會 台灣分會 中華企業架構師學會
.NET Framework 3.0 Windows WorkFlow Foundation 工作流设计
汇报人:王晓东 单 位:信息科学与工程学院 日 期:2016年9月
數位典藏 - 全文檢索系統簡介 Reporter:Chia-Hao Lee
軟體原型 (Software Prototyping)
Acoustic规范和测试 Base Band 瞿雪丽 2002/1/30.
IET Digital Library 電子電機電通全文資料庫
視訊串流\Streaming Video Part-1 Multimedia on Computer Digital
移动系统的安全: 攻击和防御 杜文亮 教授 Dept. of Elec. Eng. & Comp. Sci.
1 Introduction Prof. Lin-Shan Lee.
理論.
文字探勘與知識工程 Text Mining & Knowledge Engineering
SAP 架構及基本操作 SAP前端軟體安裝與登入 Logical View of the SAP System SAP登入 IDES
Formal Pivot to both Language and Intelligence in Science
学习报告 —语音转换(voice conversion)
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
第二讲 计算机信息检索概述 主要内容: 一 信息检索的基本概念 二 电子资源的概念与类型 三 计算机信息检索系统 四 计算机检索技术.
Connected Speech 3 levels 6 modules 9 speakers 18 tutorials
Teaching Plan for This Term
服務於中國研究的網絡基礎設施 A Cyberinfrastructure for Historical China Studies
The First Course in Speech Lab
1 Introduction Prof. Lin-Shan Lee.
SAP R/3架構及前端軟體安裝 Logical View of the R/3 System SAP Frontend 6.2安裝
Sensor Networks: Applications and Services
暑期活动见闻 程龚.
虚 拟 仪 器 virtual instrument
美国经济的发展 第8课.
SoC 與微控制器的發展 朱亞民.
李宏毅專題 Track A, B, C 的時間、地點開學前通知
SAP 架構及基本操作 SAP前端軟體安裝與登入 Logical View of the SAP System SAP登入 IDES
An Quick Introduction to R and its Application for Bioinformatics
More About Auto-encoder
參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
數位家庭中的人機介面研究.
Operating System Software School of SCU
SAP 架構及前端軟體安裝 Logical View of the SAP System SAP Frontend 7.1安裝 SAP登入
人工智慧&Scratch 林俞均 侯藹玲 陳芸儀 鄭涵庭
学术报告 文献检索与论文写作的几点体会 生态环境系.
英语口译 4 Education and Campus 大学英语教学部 向丁丁.
Gyrophone: Recognizing Speech From Gyroscope Signals
WiFi is a powerful sensing medium
ILemon_Chart Happy new years 如何制作一张专业的商业图表(一) 配色篇.
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
Presentation transcript:

语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES 郑 方 Dr. Thomas Fang Zheng 千禧年会 世纪紫光 清华大学计算机科学与技术系 语音实验室 Speech Lab., Dept. Of Computer Science & Technology, Tsinghua University Nov. 4, 1999 fzheng@sp.cs.tsinghua.edu.cn http://sp.cs.tsinghua.edu.cn Speech Headlines Applications Trends Challenges

SPEECH HEADLINES “Speech will become the next major trend in the personal computer market in the near future.” 在不远的将来,语音将成为个人计算机市场的下一个主流。 Wall Street Journal, 1996 “Speech recognition is the hottest new technology this year…” 语音识别是今年最热的技术。 Byte Magazine, 1997 “Speech Technology is the Next Big Thing in Computing…” 语音技术是计算中下一个大事件… BusinessWeek, 1998 “Speech is not just the future of Windows… But the future of Computing itself.” 语音不仅是视窗的未来…也是计算本身的未来。 William H Gates III, 1998

SPEECH HEADLINES (cont’d) Speech is the most natural way for human-machine interaction. 语音是人机交互最自然的方式。 Speech enhances the user interface and productivity. 语音增强了用户界面和生产力。 Speech is the foundation for new classes of applications. 语音是新型应用的基石。 Speech is a key component of Chinese computing. 语音是汉语计算的关键成分。 Speech is rising technology trend. 语音代表正在成长的技术趋势。

APPLICATIONS -- OVERVIEW 语音处理及其应用 说的是什么内容? ····语音识别 是谁在说话? ············声纹识别 说的是什么语言? ····语种识别 计算机去说话? ········文语转换 怎么把话说好? ···说话水平评估

APPLICATIONS -- VOICE COMMAND & CONTROL 语音命令和控制--中小词表孤立词语音识别 语音命令导航 (EasyCmd) 家电控制 (Cmd99) 声控号码簿 (Voice PhoneBook) 声控拨号 (Voice Dialler, e.g.: DataBank) 个人数字助理 (PDA, e.g. 快译通) …

APPLICATIONS -- LARGE VOC. CONT. SPEECH RECOGNITION 大词表连续语音识别 汉语语音听写机(EasyTalk)是汉字输入的重要手段 整句音字转换(EasyConv)是键盘输入的辅助手段 基于文本的语言理解(EasyNav)是理解关键之一 关键词检出(KWS)是基于内容的语音信息检索的基础 …

APPLICATIONS -- SPEAKER & LANGUAGE RECOGNITION 声纹识别--身份鉴别 安全 (金融、网络、…) 个性化配置 … 语种识别 为多语种语音识别平台提供预分流 …

APPLICATIONS -- SPEECH SYNTHESIS & TEXT-TO-SPEECH 文语转换 有声电子读物 盲人阅读 获取信息的有声反馈 …

APPLICATIONS -- SPEAKING SKILL EVALUATION 说话水平评估--S2E 多媒体语言教学 e.g.1 :《大嘴英语》 e.g.2:《随心所欲说英语》 …

TRENDS -- NETWORKING THE WORLD 远程信息库源 (天气、航班、旅游、其他信息检索…) 一个关于选键笑话(汽车翻车): 如果A请按1;如果B请按2;… 如果A1请按1;如果A2请按2;… 如果A11请按1;如果A12请按2;… 最方便,但只有数字键

TRENDS -- NETWORKING THE WORLD (cont’d) 听写机输入的劣势: 1. 容易疲劳 2. 容易泄密 3. 没有理解 听写机、语言理解、口语对话 语音理解 身份鉴别 对话管理 文语转换

TRENDS -- SPOKEN LANGUAGE INFORMATION RETRIEVAL 0. 语音去噪和增强 1. 特征提取(MFCC, PLP, E, Z, …) 2. 声学解码(统计语音模型HMM) 3. 语言解码(统计语言模型N-Gram) 0. 口语现象(无意义词、省略、重复、解释、更正、倒序…) 1. 电子辞典(词法属性、句法属性等) 2. 句法分析(句法规则、句法消歧规则) 3. 语义分析和语用分析 TRENDS -- SPOKEN LANGUAGE INFORMATION RETRIEVAL 窄带信道 CSR引擎 0. 语音去噪和增强 1. 连续语音识别引擎 2. 关键词和补白网络 3. 语音确认和拒识 识别结果的 语义分析 及表示 CSR =连续语音识别 KWS=关键词检出 检索目标的 中间语言表达 自然语流 文本搜索 引擎 文本信息库 窄带信道 KWS引擎 文本输出 对话管理 与生成 检索结果 关键词 检出器 语音信息库 语音输出 文语转换 引擎

CHALLENGES A Communication Theoretical View of the generation, acquisition & transmission, and perception of speech: Message Source P(M) M Linguistic Channel P(W|M) W Articulatory Channel P(S|W,M) S Acoustic Channel P(A|S,W,M) A Transmission Channel P(X|A,S,W,M) X Speech Recognizer Message M realized as a word sequence W Words W realized as a sequence of sound S Sounds S received by transducer in acoustic ambient as A Signals A converted from acoustic to electric, transmitted and received as X for processing Task/context specification (dictation, man-machine dialogue, broadcast news, free conversation, ...) Speaker variability - speaker characteristics (anatomy of vocal tract and vocal cord, accent, dialect, …) - speaking behavior (rate, style, Lombard, ...) Phonetic/prosodic context Speaking environment - other speakers - background noise - reverberations Transducer - distortions (spectral characteristics, non-linearities, …) - directional characteristics - electrical noise Distortions (spectral, encode-decode, …) Noise Echoes Dropouts ...

too far from classification. CHALLENGES (cont’d) Speech Recognition Flow: Signal Space X Feature Space FX Model Space X Training D1(•) D2(•) D3(•) Mismatch T FT T Testing Features too close to signal, too far from classification. 重要问题(鲁棒性): 环境(背景噪音、回响和混响、其他说话人…) 麦克风和信道 (噪音、带宽、质量不一致、…) 说话人(性别、口音、速度、音强…) … 重要问题(新问题): 发现高可分性、高顽健的特征; 寻找分辨能力更强的分类器; 自适应(说话人、环境;特征、模型;…);

CHALLENGES (cont’d) Speech Understanding Flow: 基于N-Gram统计语言模型 句法分析 语义分析 语言理解

CHALLENGES (cont’d) 统计语言模型依赖于训练数据 基于规则的语言模型尚不成熟,但可以 数据稀疏问题 对语言领域敏感问题 新词处理问题 无法进行理解 基于规则的语言模型尚不成熟,但可以 对统计语言模型进行平滑 对新词统计概率进行估计 在统计语言模型的基础上发挥作用 充分利用韵律信息(Prosody)进行语言理解 不同的韵律有不同的意义 在合成方面已经取得一定的进展

Chinese Computing Platform API CHALLENGES (cont’d) Application Programming Interfaces: Application # 1 Application # 2 Application # 3 Application # 4 Application # 5 Chinese Computing Platform API Voice Cmd. & Ctrl. Engine Chinese Dicta- tion Machine Engine Pinyin=>Hanzi Hanzi=>Pinyin Engine Handwriting Recognition Engine Speaker Recognition Engine Sentence Parsing Engine Text-to-Speech Engine Linguistic Data Technology Capability

CONCLUSIONS 国外已经取得很大成功:IBM、Microsoft、… 中国也有成功的典范:清华大学、中国科学院… 中文信息处理的核心和中坚在中国:如中文语言理解 跨国大公司占领中文信息处理市场的策略是: 国外的投入+中国的技术(部分或全部) =国外的产权(部分或全部) 国内要加强“产学研”的结合

Speech Lab., Dept. Of Computer Science & Technology, THANKS FOR LISTENING 郑 方 Dr. Thomas Fang Zheng 清华大学计算机科学与技术系 语音实验室 Speech Lab., Dept. Of Computer Science & Technology, Tsinghua University Nov. 4, 1999 fzheng@sp.cs.tsinghua.edu.cn http://sp.cs.tsinghua.edu.cn 丰富的经验积累 强大的研究队伍 科学的管理机制 坚定的振兴决心