结合语义理解的语音识别技术和深度学习技术

Slides:



Advertisements
Similar presentations
定 格 入 格 破 格 —— 新诗仿写复习训练 仿照下列句子,再把 “ 人生 ” 比喻成 “ 大海 ”“ 天空 ” , 造两个句子。 如果说人生是一首优美的乐曲,那么痛苦则 是其中一个不可或缺的音符。 参考答案: 1 、如果说人生是一望无际的大海,那么挫折则 是其中一个骤然翻起的浪花。 2 、如果说人生是一片湛蓝的天空,那么失意则.
Advertisements

我国国有银行 资本构成及资本充足率变化 小组成员:金融 尹佳裕 王淼 刘钰 金融 吴昱.
昆明机场. 目录  机场历史 机场历史  建设状况 建设状况  运行状况 运行状况  航线 航线.
第十四章 人口(二) 高中地理(一). 第一節 人口成長 第二節 人口組成 第三節 人口問題 第十四章 人口(二)
中國歷史 社會主義文化大革命 我們的報告是關於中國著名的革命 —— 文化大革命。你可會立即想到它何時發 生、怎麼會發生等等。我們將會介紹文 化大革命,希望你細心欣賞。
党课讲座 入党的条件与程序.
中國大陸教育 督導制度探究 凌林煌教授/博士 講授 國立中山大學共同科歷史學程
计算机组成原理.
温故知新 犬 戎 公元前 770年 周平王 公元前771年 东周 洛邑 西周 镐京.
让我们走进秋天.
客房備品管理 新竹老爺大酒店 客房部 協理 邱建銘.
小组成员:范静静、郑明、郑羽竹、 金睿、杨阳、姜萌、潘亚伟
三本小说比较——三位小说家笔下的故事发展
第一章 教育与教育学 讲授提纲 教育与教育学 思考题目 主讲: 白彦茹(教授) 阅读文献 教学目的与要求 教学重点与难点 退出.
我国政府受人民的监督 权力的行使:需要监督.
第二冊 第五課 行政法與生活 師大附中 陳采妍.
鹽酥蝦 蝦子先處理好 蝦頭剪至眼睛處,鬚及蝦頭的小腳也都剪乾淨 2 再用廚房用剪刀開背去腸泥
第四节 K线图研判技巧.
大规模深度学习算法 Deep Belief Network及其应用
农业银行网上签约流程 宁夏金溢投资 内部资料 1.
廉政會報專題報告 農地重劃工程 施工常見缺失 報告:吳東霖 製作:張昌鈴 日期:103年12月23日.
以语言输出为驱动, 培养学生的英语演讲能力
專案製作經驗談.
关于在宝钢全体党员中开展“学党章党规、 学系列讲话,做合格党员”学习教育的 实施方案
More『2』莊園 1+1 MORE 2 的秘密.
上海万科2010年新品发布会策划案 2010年8月31日.
小學四年級常識科 食物的消化.
旅游资源赏析.
道路交通事故處理.
前言 1.课程安排: 第一章 操作系统引论(7学时) 第二章 进程管理(14学时) 第三章 处理机调度与死锁(10学时)
旅游心理学 模块三 项目二 任务四 旅游者的气质.
第一节 房地产开发概述 第二节 房地产开发程序 第三节 房地产开发建设管理 第四节 房地产开发的可行性研究
金門縣重大空難應變機制-消防局 壹、消防搶救、滅火、緊急救護 一、派遣作為:
2103年杨浦科技园区运动会 策划方案.
心跳加快 安靜且無發燒時,心跳每分鐘120次以上 肌躍型抽搐 (睡眠中無故驚嚇/突然間肌肉收縮)
高中地理(一) 第十六章 產業(二)林、漁、礦業.
第七章 人 口 第一節 種族的分布與現況 第二節 人口結構與成長 第三節 人口問題 總目錄.
关于全国高校数学微课程 教学设计竞赛 林亚南 2015年12月12日.
基隆市立八斗高中 102 學年度第二學期 402 班『親師座談』
第三章 文学作为活动.
宗教故事 Back >> 【被逐出樂園】米開朗基羅1508~12年.壁畫
設計者:台中縣永隆國小 王慶祥 老師 主講者:高雄市光華國小 洪秋龍 主任 日期:2003/11/08
影帝有很多个, 而歌神就只有一个.
升學應選擇符合自己性向、興趣或能力的學校就 讀,有五專、高職、高中、綜合高中或進修學校, 可要多花些時間了解一下哦!
2.4 民主监督—— 守望公共家园.
立體圖形、圖形變換、空間 第十一組 廖芳苓 葉玟孝 林佩君.
視野死角與內輪差 埔心國小交通安全團隊.
交換生說明會 101學年度下學期 (2013年春季學期) 2013年2月18日 (工程一館106室)
第1章 电脑的硬件组成 本章要点 拆卸电脑 PC的基本构成 主机箱内的主要部件 电脑主机箱背面的接口 主要配件的外观.
第4章 作業系統的介紹及操作.
第十三章 電腦病毒(Computer Virus)
教學意見網路調查 填答說明 填答說明 教務處 102年12月.
雨後的濕地 夜晚的落葉層 清晨的姑婆芋下   你可能曾經和這個小精靈錯身而過…… 遇見蝸牛百分百 《蝸牛不思議》/遠流出版.
南瑞学堂 学员简明操作指南 上海时代光华教育发展有限公司 2013年.
sequence-to-sequence
CISC vs. RISC 複雜指令集電腦(Complex Instruction Set Computer: CISC)
Advanced word vector representations
第十讲 刘少奇与中国革命和建设.
第11章 神经网络.
使用服务平台办理离校 操作指南.
2019/4/29 计算机组成原理 辅导教师:陆明强.
105學年度 服務學習教育說明會 Service Learning.
学年第一学期领取教材明细查询的通知 学年第一学期学生使用的教材均在网上平台公示。现将有关事项通知如下:
项目一 了解计算机 项目二 选配计算机硬件 项目三 组装计算机 项目四 设置BIOS和硬盘分区 项目五 安装操作系统和常用软件
生命教育 媒材應用分享 電影 天外奇蹟(UP) 華盛頓高中 巫孟容.
欠拟合与过拟合 龙沛洵
Speaker : YI-CHENG HUNG
小組製作人介紹 2 年 14 班 21 號 高嘉駿 2 年 14 班 20 號 林宏恩 2 年 14 班 14 號 林立仁.
景文科技大學學生校外實習訪視暨差旅費核銷說明
Presentation transcript:

结合语义理解的语音识别技术和深度学习技术 百度语音技术部 贾磊 2013.8.01

. . . 通用语音识别服务简介 声学训练 数据 语言训练 返回识别结果/命令 个人用户 账号信息 个人账号分享信息 任务调度模块 声学模型 语音压缩 无线网络 网络 接口协议 . . . 声学训练 数据 语言训练 语言模型自适应 解码器 识别结果返回 返回识别结果/命令 语言模型 个人用户 账号信息 个人账号分享信息 解码空间组织和构建 任务调度模块 端点检测 手机本地解析 声学模型 输出分布 DNN 语音服务内容 … …

识别文字结果,输入query种类,指令内容解析 一套解码器支持多种应用 ( 统一入口技术) 百度搜索 好123 手机地图 百度应用 百度音乐 手机浏览器 输入法 语音助手 手机指令 统一构架交互入口 融合Grammer 和 Ngram信息的解码空间 类语言模型,Grammer模型,Ngram模型 深度神经网络 模型 一遍解码 识别文字结果,输入query种类,指令内容解析

互联网下的语音识别的技术挑战 1. 网络化的识别构架 海量的来自各种终端的声学语料和声学模型的个性化自适应 1. 网络化的识别构架 海量的来自各种终端的声学语料和声学模型的个性化自适应 海量的来自各种渠道的文本语料和语言信息的快速更新 4. 语义理解和语音识别紧密相关,语音识别和互联网服务紧密相关 5. 语音识别服务计算资源耗费严重 数据增加 算法性能提升

分布式语言模型分块高速训练(1) 倒数第二个词是W2的后缀树的直接快速抽取 递归的后缀树排序 语料 语料1 +索引 网络传输 语料2 语料3 。。。 CPU Kernel1 CPU Kernel2 CPU Kernel3 递归的后缀树排序 语料 +索引 倒数第二个词是W2的后缀树的直接快速抽取 网络传输 基于树合并的归并排序

融合语义解析的声学空间网络 词典自跳转 Grammer: 打电话给【人名】 发短息给【人名】说【短信内容】 从【地名】到【地名】怎么走 词条1 词条2 词条3 词条4 … … 词典自跳转 语言模型的中任意单个词 一些同义词构成的词组集合。例如: 想,要,要求 一些专名集合。例如人名,地名等 一些助词。例如:吧,呢,吗等 个性化的专名和称谓 Grammer: 打电话给【人名】 发短息给【人名】说【短信内容】 从【地名】到【地名】怎么走 我想订【时间】的去【地名】的机票 发短信给【妈妈】说我去贵阳开会了 未来:统计语言模型之后 最大墒语言模型 RNN 短语模型 - 层次短语模型 词典定义 词类定义

混合高斯模型和DNN模型 图二: 深度神经网络 。。。 更多隐层 图一:混合高斯模型

DNN模型在百度的应用 百度在2012年9月份上线了语音搜索引擎的DNN模型, 2012年10月份和2012年12月份分别上线了百度的语音输入法和语音助手的DNN模型。平均相对误识别率相对于百度最好的GMM系统而言降低20%以上

语音识别中的DNN成功的启示 DNN成功的原因 DNN成功的启示 深度建模: 深度多层的网络结构 特征融合: 融合当前帧的更多的左右context信息 稀疏化的权重分布:神经元的局部记忆激活 海量数据训练 GPU训练 DNN成功的启示 要采用能够使用更多特征的分类器 要选择能够配合大数据使用的分类器 要采用能够随着数据量增加就轻松的scale up的分类器 要选择能够分布式并行化训练的分类器 要选择能够用算法简化结构的模型,分类器要能够压缩在线计算量 不片面追求优化算法的最优,更重视大数据的使用

Down-pure SGD (on-line method) 异步SGD训练和LBFGS Down-pure SGD (on-line method) LBFGS Bache mode Robust to computer failure Possible sub-set model parameter sharing Introduce more stochasticity Asynchronous model update Much less bandwidth requirement Bache mode learning

基于二阶统计信息的DNN训练 Deep learning: 一个拥有千万个未知参数的数学优化问题。 Hassian-Free Deep Learning: (1) 神经网络的输出损失函数(交互墒,最小二乘,softmax) 是凸函数 (2) 采用高斯牛顿法近似整个神经网络的损失函数 (3) 由于G是正定的,因此构建下面的二阶辅助目标函数 (4) 共轭梯度法 优化二阶辅助目标函数 (5) 核心Trick1: Gd 核心Trick2: Mini-bache 高斯牛顿估计 核心Trick3: Back-tracing 高斯牛顿法的 二阶矩阵G 如何调节?

序列化的区分度DNN学习 交互墒准则 2. 关键帧抽样和引入序列信息的序列区分度 VTB结果 Lattice结果

分布式多GPU并行DNN训练系统 = 数据分布式存储,模型集中存储 每个计算节点是都采用单机四核的异步SGD算法 。。。 树状和环装连接同时支持的网络结构 PC Server GPU = 计算平台 (Deep Brain) 数据分布式存储,模型集中存储 每个计算节点是都采用单机四核的异步SGD算法 跨机多GPU并行DNN训练问题的主要难度: - 基于mini-bache的SGD算法本质上是个串行算法 跨机器异步SGD的机器间通讯时间远大于训练时间 提出一种分布式跨机多GPU并行训练新算法:结合平均SGD和异步SGD。成功解决上述问题。 算法效果: 训练速度可以加速10倍以上,识别率较单机训练低于0.5点以内

人才招聘 - 相信技术的力量 1. 招聘对语音识别技术、语音合成技术、音乐处理相关技术自然语言处理技术,和机器学习技术有热情的年轻人。 人才招聘 - 相信技术的力量 1. 招聘对语音识别技术、语音合成技术、音乐处理相关技术自然语言处理技术,和机器学习技术有热情的年轻人。 2. 较好的算法或者产品研发经验,优秀的代码能力 3. jialei@baidu.com

结束… 谢谢大家