高级大数据人才培养丛书之一,大数据挖掘技术与应用

Slides:



Advertisements
Similar presentations
“ 菸 ” 之非福 Part Ⅰ. 你的想法 ─ Q1 :你覺得他很有個性嗎? Q2 :吸菸會增加個人魅力嗎? Q3 :吸菸會讓人感覺成熟?
Advertisements

環境游離輻射 ( 六 ) 輻射與核能發電. 媽!這是我上班的 地方-核電廠。 地方好寬闊喔! 聽說日本原子彈爆炸死好幾 萬人,阿榮啊!你在這裡上 班,安全嗎?
1 門市服務丙級技術士 技能檢定介紹 門市服務丙級技術士報告注意事項 證照名稱:門市服務丙級技術士 發照單位:行政院勞工委員會 有效期限:終生有效 考照時間:每年一次,皆為第一梯次 1. 簡章與報名書表發售時間:每年 1 月 2. 報名時間:每年 1 月。 3. 學科考試時間:每年 3.
學會摘要 四年級 ( 內容擷取自劍潭國小陳錦蓮和詹珮怡老師的簡報 ). 2 分享綱要 1 1 什麼是摘要 2 3 如何教摘要 實例與實際操作.
《小狗包弟 》之 从阅读到写作 学校:和风中学 年级:高一 参赛者:彭龙英. 预习检测一 思考:同学们读完作者与包弟 的故事后,说一说作者所表达的情 感是什么?
我們可以如何應付氾濫 ? 2c 第三組. 目錄 防洪 (1) 防洪 (2) 湖北坪興建三峽主壩簡介 長江三峽水利樞紐工程 三峽工程的利益 (Part1) 三峽工程的利益 (Part2) 三峽工程的弊 (Part1) 三峽工程的弊 (Part2) 總結 組員名單 完.
1 寫作測驗武功秘笈 洪德惠老師 99 年 1 月 18 日. 2 PART1 理論部分 3 寫作測驗的基本能力 1. 能掌握寫作步驟,充實作品內容,精確表達自 己的思想。 2. 能依收集材料立意、選材、安排段落及組織等 步驟行文。 3. 能運用觀察的方法觀察周遭事物,並能寫下重 點。 4. 能適切地遣詞造句,使用正確的標點符號,完.
生源地助学贷款系统还款功能优化说明 评审三局 2015年5月.
幾米 作業 1 飛上天空 我想飛上天空 遨遊在無際的天空 美麗的天空 漂亮的天空 這終究只是夢…… (李高仰)
備審資料與面試準備 高雄醫學大學醫學系 林郁涵.
閱讀 ~ 悅讀 ~ 越讀 國文第二週.
探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆  探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆 
学习全国“两会”精神 常州工学院  理学院党总支 2014年3月.
乘势而上再谱发展新篇章 -2012全国两会精神解读
开启新征程 点燃中国梦 开启新征程 点燃中国梦 ——学习、领会2013年全国“两会”精神.
報告書名:父母會傷人 班級:二技幼四甲 姓名:吳婉如 學號:1A2I0034 指導老師:高家斌
職校、五專群科簡介.
千秋大业在担当 《中国共产党问责条例》解读提纲.
第一章 会计信息系统 第一节 计算机会计概述.
二、信用工具和外汇.
为您扬帆,助您远航! 徽商银行特色新产品介绍. 为您扬帆,助您远航! 徽商银行特色新产品介绍.
大型探索节目《谜》之 感恩.
媽,我們真的不一樣 青少年期與中年期 老師: 趙品淳老師 組員: 胡珮玟4A1I0006 馬菀謙4A1I0040
為什麼要讀書?.
欢迎使用本课件 教材简介: 名 称:人工智能原理与应用 作 者:张仰森 出版社:高等教育出版社 章 节:共十章 主讲教师: 宗春梅.
各位弟兄姐妹,主內平安! 請將手機關靜音,帶著敬虔的心來到上帝的面前!
公务卡使用说明.
第一节 呼吸道对空气的处理.
十面“霾”伏 湖南长沙民政职业技术学院“思政”第九组 组员:李亮亮 许静 赵凯丽 何敏 张艳欣 付幻菱 陈京萍 王诗雨.
生命停看聽—生命圖書館 萬中選一的祝福 推薦人:彰師附工進修學校 蘇郁惠.
财务知识培训 杨 秀 玲 2014年10月.
如何对付脏空气.
301——隆重登场.
班級:二幼三甲 姓名:郭小瑄 、 詹淑評 學號:1A2I0029 、1A2I0025
第一章会计技能的内容 1.1会计技能的重要性.
愛心月課程活動 設計者:洪雪玲老師.
《乡村教师支持计划 年》 解读.
教師執行計畫案聘任助理說明會 (勞務型、學習型申請方式說明)
指導老師:陳韻如 姓名:吳宜珊 學號:4A0I0911 班級:幼保二乙
1-3 探究自然的科學方法.
水腫的原因 徐淑娟護理師 PM.
中国未成年人法制安全课程 雾霾哪里来? 初中段 第七讲.
姓名:梁晓莹 职务:安徽省旅游局安全办主任(高级经济师) 中国旅游研究院(华侨大学)旅游安全研究基地行业顾问 经历: 自1987年就职于安徽省旅游局 自2009年主持安全办工作 曾主编《旅游安全宣传手册——暨安徽旅游安全格言警句精选》、《安徽旅游安全》、《安徽旅游发展大事记》等 承办过“安徽省旅游安全演讲征文大赛”及“旅游安全调研成果奖”评选等工作.
培训教案 公司审计部
傳統童玩遊戲創新 組別:第八組 班級:幼保二甲 組員: 4A0I0005柯舒涵 4A0I0011謝孟真
本活動 想解決的問題是……. 本活動 想解決的問題是…… 130最少要加上多少才能被8整除? 130最少要減去多少才能被8整除? 《除法定理》 被乘數=乘數 x 商 + 餘數.
雞蛋這樣孵出小雞的 動物的生殖 Part I.
何俊賢教學資料.
双牛智能机器人客服项目 互联网+人工智能 青岛双牛信息技术有限公司 2015年.
语言及其文法.
InterSpeech 2013 Investigation of Recurrent-Neural-Network Architectures and Learning Methods for Spoken Language Understanding University of Rouen(France)
第2次课 上下文无关文法
第七章常見的演算法 目的:解決問題 遞迴演算法 (一)從程式語言的角度來看:就是程序自 己呼叫自己的情況。
sequence-to-sequence
Answering aggregation question over knowledge base
第6章 組合邏輯應用實驗 6-1 編碼∕解碼器實驗 6-2 多工∕解多工器實驗 6-3 七段顯示解碼器.
公务卡日常管理篇 办卡激活/遗失补办/ 停用销卡/额度调整 财务处 2016年.
英文文本分析入门.
录入 教学任务、教学进度表 操作说明.
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
大数据应用人才培养系列教材 Python语言 刘 鹏 张 燕 总主编 李肖俊 主编 刘 河 钟 涛 副主编.
大数据应用人才培养系列教材 数据清洗 刘 鹏 张 燕 总主编 李法平 主编 陈潇潇 副主编.
数据挖掘 DATA MINING 刘 鹏 张 燕 总主编 王朝霞 主编 施建强 杨慧娟 陈建彪 副主编
第6课 我是共和国的公民.
大数据应用人才培养系列教材 Python语言 刘 鹏 张 燕 总主编 李肖俊 主编 刘 河 钟 涛 副主编.
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
高级大数据人才培养丛书之一,大数据挖掘技术与应用
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
大数据应用人才培养系列教材 数据清洗 刘 鹏 张 燕 总主编 李法平 主编 陈潇潇 副主编.
Presentation transcript:

高级大数据人才培养丛书之一,大数据挖掘技术与应用 深度学习 BIG DATA 刘 鹏 张 燕 总主编 刘鹏 主编 赵海峰 副主编

第九章 深度学习在文本中的应用 概述 9.1 自然语言处理基础 9.2 基于深度学习的文本处理 9.3 应用举例:机器翻译 全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用 第九章 深度学习在文本中的应用 概述 9.1 自然语言处理基础 9.2 基于深度学习的文本处理 9.3 应用举例:机器翻译 9.4 应用举例:聊天机器人 习题 2 of 37

概述 自然语言处理(Natural Language Processing,简称NLP)需要兼顾到不同平面的知识: 第四章 深度学习基本过程 词汇学,描述词汇系统的规定说明单词本身固有的语义特性和语法特性; 句法学,根据单词和词组之间的结构规则说明单词和词组怎样形成句子; 语义学,描述句子中各个成分之间的语义关系,这样的语义关系是与情境是无关的; 语用学,描述与情境有关的情景语义,说明怎样推导出句子具有的与周围话语有关的各种涵义。 每个层面具备自身的特点:词汇学主要描述具体的单词的构成成份,如语素、屈折变化形式等;句法学涉及的是词和词组怎样组成句子的知识;语义学指的是给句子指派意义;语用学则涉及在对话中话语焦点的转移以及在给定的上下文中解释句子的含义。 3 of 37

第九章 深度学习在文本中的应用 概述 9.1 自然语言处理基础 9.2 基于深度学习的文本处理 9.3 应用举例:机器翻译 概述 全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用 第九章 深度学习在文本中的应用 概述 9.1 自然语言处理基础 9.2 基于深度学习的文本处理 9.3 应用举例:机器翻译 概述 9.4 应用举例:聊天机器人 习题 4 of 37

9.1 自然语言处理基础 9.1.1. 正则表达式和自动机 第四章 深度学习基本过程 9.1 自然语言处理基础 第四章 深度学习基本过程 9.1.1. 正则表达式和自动机 正则表达式(regular expression,简称RE)是字符文本序列的标准记录方式,是一种用于描述文本搜索符号串的语言,广泛应用于各类信息检索中。 有限状态自动机(finite-state automaton,简称FSA)能够而且只能够生成或识别满足形式语言定义所要求的形式语言的字符串。 示例,五个状态:节点0是初始状态(start state),节点4是最后状态(final state),用双圆圈表示,另外还有4个转移(transition),用箭头线表示。 5 of 37

9.1 自然语言处理基础 9.1.2. 句法处理 第四章 深度学习基本过程 9.1 自然语言处理基础 第四章 深度学习基本过程 9.1.2. 句法处理 句法(syntax)是指把单词和词组安排在一起怎样形成句子的方法。 单词是语言处理的单元,句法是骨架,句法研究单词之间的形式关系。 单词可以类聚为词类(part-of-speech),或者与相邻的单词组合成短语。 Peter gave the book to Ana. (彼得把这本书给了安娜。) The book was given to Ana by Peter. (这本书被彼得给了安娜。) 句子的结构并不反映句子的意义,相同的句法结构,在不同的环境下,具有不同的意义。 6 of 37

9.1 自然语言处理基础 9.1.3. 词类和词类标注 第四章 深度学习基本过程 9.1 自然语言处理基础 第四章 深度学习基本过程 9.1.3. 词类和词类标注 词类又称为POS(Part-of-Speech)能够提供关于单词及其邻近成分的信息。 词类标注(Part-of-Speech tagging或POS tagging ),简称标注,指给语料库中的单词指派词类标记的过程。这些标记也用来标注标点符号,因此自然语言的标注过程与计算机语言的词例还原(tokenization)过程是一样的。 英语词类标注中的常用标记集: Penn Treebank的标记集包含45个标记,是小标记集; CLAWS(the Constituent Likelihood Automatic Word-tagging System)使用的标记集C5包含61个标记,是中型的标记集,用于标注英国国家语料库(the British National Corpus,简称BNC); 第三个标记集是包含146个标记的大型标记集C7。 7 of 37

9.1 自然语言处理基础 9.1.4. 上下文无关语法 第四章 深度学习基本过程 9.1 自然语言处理基础 第四章 深度学习基本过程 9.1.4. 上下文无关语法 上下文无关语法(Context-Free Grammar,简称CFG),上下文无关语法又称为短语结构语法(Phrase-Structure Grammar),由规则(rule)以及词表(lexicon)构成。 Chomsky层次语法理论: 8 of 37

9.1 自然语言处理基础 9.1.5. 浅层句法分析 第四章 深度学习基本过程 9.1 自然语言处理基础 第四章 深度学习基本过程 9.1.5. 浅层句法分析 浅层语法分析(shallow parsing)也称为局部语法分析(partial parsing),处理层次可分为: 词 短语 句子 常见的浅层语法分析主要有两类: 基于统计 基于规则 基于规则的方法就是根据人工书写的或半自动获取的语法规则标注出短语的边界和短语的类型。规则的使用相对简单,但是规则的获取却比较困难。 9 of 37

9.1 自然语言处理基础 9.1.6. 语义分析 第四章 深度学习基本过程 判断一句话的意思要分两步来进行: 9.1 自然语言处理基础 第四章 深度学习基本过程 9.1.6. 语义分析 判断一句话的意思要分两步来进行: 首先,计算出它上下文无关的标记形式,称之为逻辑形式(logical form); 然后,在上下文中对逻辑形式进行解释,生成最终的意义表示。 对上下文无关意义的研究称为语义学。 对上下文相关语言的研究称为语用学。 10 of 37

9.1 自然语言处理基础 9.1.7. 语义网络 第四章 深度学习基本过程 9.1 自然语言处理基础 第四章 深度学习基本过程 9.1.7. 语义网络 语义网络是一种词法知识的表示方法,由带标记的链和带标记的节点组成的图。 节点表示词义,链表示节点之间的语义关系。 典型词汇关系信息库有: WordNet ConceptNet FrameNet 11 of 37

第九章 深度学习在文本中的应用 概述 9.2 基于深度学习的文本处理 9.1 自然语言处理基础 9.3 应用举例:机器翻译 概述 全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用 第九章 深度学习在文本中的应用 概述 9.2 基于深度学习的文本处理 9.1 自然语言处理基础 9.3 应用举例:机器翻译 概述 9.4 应用举例:聊天机器人 习题 12 of 37

9.2 基于深度学习的文本处理 9.2.1. 词汇向量化表示 第四章 深度学习基本过程 9.2 基于深度学习的文本处理 第四章 深度学习基本过程 9.2.1. 词汇向量化表示 使用神经网络的方法自动学习词汇的向量化表示,其基本原则是:一个词包含的意义应该由该词周围的词决定。 13 of 37

9.2 基于深度学习的文本处理 第四章 深度学习基本过程 9.2.2. 句法分析 使用递归神经网络(Recursive Neural Network,RNN)可以实现对树型结构的预测。 递归神经网络的输入层有两部分: 左子节点的向量表示; 右子节点的向量表示。 两个子节点的向量表示通过神经网络后生成父节点的向量表示,同时生成一个打分,表示父节点的可信度。 父节点的向量表示又可以与其他子节点组合形成更大的父节点。 依次递归,从而形成一棵完整的句法分析树。 14 of 37

9.2 基于深度学习的文本处理 第四章 深度学习基本过程 9.2.3. 神经机器翻译 递归自动编码的神经网络用于学习双语的片段向量化表示,使用交互优化的方式训练神经网络: 首先,固定目标语言片段的向量表示; 然后,以该向量表示为优化目标,优化源语言的神经网络; 最后,固定源语言片段的向量表示,优化目标语言的神经网络。 双语约束得到的片段表示应用于统计机器翻译的概率估计中,取得了显著的效果。 15 of 37

9.2 基于深度学习的文本处理 9.2.4. 情感分析 理解人类情感是人工智能的目标,深度学习可用来判断情感类别及强度。 9.2 基于深度学习的文本处理 第四章 深度学习基本过程 9.2.4. 情感分析 理解人类情感是人工智能的目标,深度学习可用来判断情感类别及强度。 为处理情感分析问题中语义合成的问题(如“不是很喜欢”与“喜欢”的情感极性相反),利用自然语言的递归性质与语义的可合成性,句子的情感语义进行建模。 半监督递归自动编码模型在由词向量构建短语向量表示时,可以更多地保留情感信息。 句法分析树用来决定语义合成的顺序,以此替代递归自动编码模型中通过贪心搜索损失最小的递归结构。 将每个词的情感语义操作信息嵌入到词向量中,进而用来选择不同的语义合成函数。 16 of 37

第九章 深度学习在文本中的应用 概述 9.3 应用举例:机器翻译 9.2 基于深度学习的文本处理 9.1 自然语言处理基础 概述 全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用 第九章 深度学习在文本中的应用 概述 9.3 应用举例:机器翻译 9.2 基于深度学习的文本处理 9.1 自然语言处理基础 概述 9.4 应用举例:聊天机器人 习题 17 of 37

9.3 应用举例:机器翻译 基于理性主义的机器翻译方法 主张:由人类专家通过编纂规则的方式,将自然语言之间的转换规律“传授”给计算机。 9.3 应用举例:机器翻译 第四章 深度学习基本过程 基于理性主义的机器翻译方法 主张:由人类专家通过编纂规则的方式,将自然语言之间的转换规律“传授”给计算机。 主要优点是: 能够显式描述深层次的语言转换规律。 主要缺点是: 对于人的要求非常高,通晓源语言和目标语言,熟悉待翻译文本领域背景知识,还需熟练掌握相关计算机操作技能。 使得研制系统的人工成本高、开发周期长,面向小语种开发垂直领域的机器翻译因人才稀缺而变得极其困难。 当翻译规则库达到一定的规模后,如何确保新增的规则与已有规则不冲突也是非常大的挑战。 18 of 37

9.3 应用举例:机器翻译 基于经验主义的机器翻译方法 主张:计算机自动从大规模数据中“学习”自然语言之间的转换规律。 主要优点是: 9.3 应用举例:机器翻译 第四章 深度学习基本过程 基于经验主义的机器翻译方法 主张:计算机自动从大规模数据中“学习”自然语言之间的转换规律。 主要优点是: 人工成本低; 开发周期短。 主要缺点是: 线性不可分; 缺乏合适的语义表示; 难以设计特征; 难以充分利用非局部上下文; 数据稀疏; 错误传播。 19 of 37

9.3 应用举例:机器翻译 基于深度学习的方法 大致可以分为两类方法。 9.3 应用举例:机器翻译 第四章 深度学习基本过程 基于深度学习的方法 大致可以分为两类方法。 利用深度学习改进统计机器翻译:仍以统计机器翻译为主体框架,利用深度学习改进其中的关键模块。 端到端神经机器翻译:一种全新的方法体系,直接利用神经网络实现源语言文本到目标语言文本的映射。 20 of 37

9.3 应用举例:机器翻译 深度学习改进统计机器翻译 9.3 应用举例:机器翻译 第四章 深度学习基本过程 深度学习改进统计机器翻译 核心思想是以统计机器翻译为主体,使用深度学习改进其中的关键模块,如语言模型、翻译模型、调序模型、词语对齐等。 优点: 能够帮助机器翻译缓解数据稀疏问题。 能够解决特征难以设计的问题。 21 of 37

9.3 应用举例:机器翻译 第四章 深度学习基本过程 端到端神经机器翻译 基本思想是使用神经网络直接将源语言文本映射成目标语言文本,直接采用神经网络以端到端方式进行翻译建模的机器翻译方法。 优点: 不再需要人工设计的词语对齐、短语切分、句法树等隐结构; 不再需要人工设计特征,仅使用非线性的神经网络直接实现文本的转换。 22 of 37

9.3 应用举例:机器翻译 第四章 深度学习基本过程 循环神经网络自动翻译 两个RNNs首尾相连,第一个RNN给句子生成编码,第二RNN遵循相反的逻辑,解码得到目标语言,就可以将一序列源语言转换成同样的目标语言序列。 神经机器翻译的翻译性能取得了突破,超过了发展多年的传统统计机器翻译。 23 of 37

第九章 深度学习在文本中的应用 概述 9.4 应用举例:聊天机器人 9.2 基于深度学习的文本处理 9.3 应用举例:机器翻译 概述 全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用 第九章 深度学习在文本中的应用 概述 9.4 应用举例:聊天机器人 9.2 基于深度学习的文本处理 9.3 应用举例:机器翻译 概述 9.1 自然语言处理基础 习题 24 of 37

9.4 应用举例:聊天机器人 9.4.1. 聊天机器人的主要功能模块 语音识别模块; 自然语言处理模块; 对话管理模块。 9.4 应用举例:聊天机器人 第四章 深度学习基本过程 9.4.1. 聊天机器人的主要功能模块 语音识别模块; 自然语言处理模块; 对话管理模块。 25 of 37

9.4 应用举例:聊天机器人 第四章 深度学习基本过程 9.4.2. 主要的技术挑战 对话上下文建模:对话的过程是一个在特定背景下的连续交互过程,一句话的意义往往要结合上下文或者背景才能确定。而现有的自然语言处理的技术主要还是基于上下文无关假设,因此对上下文的建模成为亟待解决的问题。 对话过程中的知识表示:知识表示是人工智能研究的重要基础,也是聊天机器人质量提升的重要前提,涉及到众多复杂的因素,只有全面地描述这些因素的含义和关系,才能实现真正的人机交流。 26 of 65

9.4 应用举例:聊天机器人 9.4.3. 深度学习构建智能聊天机器人 9.4 应用举例:聊天机器人 第四章 深度学习基本过程 9.4.3. 深度学习构建智能聊天机器人 大多采用Encoder-Decoder框架,主要用于文本处理的研究,比如:机器翻译、文本摘要、句法分析。 一般采用RNN模型,因为RNN模型对于线性序列的字符串来说是比较有效的深度学习模型,RNN的改进模型LSTM也是经常使用的模型。 根据用户输入的问题,自动生成回答。深度学习解决多轮会话的上下文信息问题时大致思路相同,都是在Encoder阶段把上下文信息及当前输入的问题同时编码,以促进Decoder阶段可以参考上下文信息生成回答。 27 of 37

9.4 应用举例:聊天机器人 第四章 深度学习基本过程 语音服务系统 “自动语音系统”通过机器人将传统的多层自助语音菜单扁平化,用更人性化的方式实现语音导航、语音交互、语音咨询等常用功能。 用户还可以通过语音对话直接告知业务需求,实现快速办理相关业务,如:查询手机流量情况、申请信用卡额度调整等。 28 of 37

习题: 1.正则表达式与有限状态向量机的关系是什么? 2. Chomsky层次语法理论包含哪几种类型的语法? 3.为什么在文本处理中常用递归神经网络(RNN),他的特点有哪些? 4.尝试用LSTM方法进行机器自动翻译?

AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台

云创公众号推荐 刘鹏看未来 云计算头条 中国大数据 深度学习世界 云创大数据订阅号 云创大数据服务号 高校大数据与人工智能 微信号:lpoutlook 云计算头条 微信号:chinacloudnj 中国大数据 微信号:cstorbigdata 深度学习世界 微信号:dl-world 云创大数据订阅号 微信号:cStor_cn 云创大数据服务号 微信号:cstorfw 高校大数据与人工智能 微信号:data_AI

手机APP推荐 我的PM2.5 随时随地准确 查看身边的 PM2.5值 同声译 支持26种语言 互译的实时翻 译软件 我的南京 云创大数据为路 况大数据应用提 供技术支持 科技头条 汇聚前沿资讯 的科技情报站

网站推荐 万物云 智能硬件大数据免费托管平台 环境云 环境大数据开放共享平台

感谢聆听