Download presentation
Presentation is loading. Please wait.
Published by仟手 邹 Modified 7年之前
1
宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院
智能科学 之 自然语言处理 宋巍 首都师范大学信息工程学院
2
关于我 姓名:宋巍 性别:男 分别于2006、2008、2013年于哈尔滨工业大 学计算机科学与技术学院,获得学士、硕士 和博士学位
2013年起在首师大信息工程学院任教
3
关于我 姓名:宋巍 性别:男 分别于2006、2008、2013年于哈尔滨工业大 学计算机科学与技术学院,获得学士、硕士 和博士学位
2013年起在首师大信息工程学院任教
4
关于我 业余爱好:体育运动 哈工大计算机学院足球队成员,学院杯足球赛冠军, 最佳射手(2004)
哈工大计算机学院光熙杯篮球赛最佳运动员(2007) 哈工大建工杯羽毛球团体赛第四名(2010) 微软亚洲研究院Tango杯羽毛球团体赛亚军(2011) 首师大教工足球联赛冠军(2013) 首师大教工羽毛球团体赛冠军(2013)
5
主要研究方向 发表论文 奖励 信息检索(Information Retrieval)
自然语言处理(Natural Language Processing) 社会计算(Social Computing) 发表论文 SIGIR 2011, SIGIR 2012 (信息检索领域顶级会议) Coling 2010 (自然语言处理领域顶级会议) …… 奖励 哈工大优秀毕业生 (2013) 国家奖学金 (2012) 黑龙江省科技发明二等奖 (2012) 微软亚洲研究院杰出实习生(2011)
6
关于我 如果,你对IR,NLP,SC等研究方向感兴趣, 或者有新想法,欢迎与我讨论 Email:wsong@cnu.edu.cn
Office:北二区231
7
课堂计划 自然语言处理的基本概念与方法 自然语言处理的典型应用 总结,问答,思考题
8
智能科学 人工智能:像人类一样理解,思考,交流 图灵测试 我们能做到吗?
9
IBM Deep Blue 1997年5月11日, 早晨4时50分, 国际象棋世界 冠军卡斯帕罗 夫,在与一台 名叫“深蓝”的 IBM超级计算 机,经过六局 规则比赛的对 抗后,最终拱 手称臣。
10
IBM Deep Blue 1.4吨重 32个并行处理器 世界上所有国际象棋大师的棋谱 拥有每秒计算2亿步棋的能力
11
IBM Deep Blue 许峰雄 深蓝之父,博士,1987年毕业于卡内基梅隆大学 (Carnegie Mellon University, CMU) 历经12年,机器战胜棋王 人称:Crazy Bird 需要研究一下许峰雄的故事
12
“当时我也没有想到,这件事情一 做就是12年。” “在战胜卡斯帕罗夫之前,我根本不知 道女人是怎么回事。” “定下一个目标努力,去实现它, 成长比成功更重要!”
13
超级计算机的胜利 够了吗? 给了我们希望! 计算机比人类擅长机械的,高速的,大规模的精确 计算 穷举所有可能的情况,并作出最优选择
任务单一:象棋,有限状态 表现机械,没有情感,无法交流 给了我们希望!
14
IBM Watson Deep QA 2011年,美国电视智力竞赛Jeopardy“危险边 缘”冠军赛
15
IBM Watson Deep QA 问答系统 (Question and Answering System) 如何得到答案?
理解人类语言 自动获取答案 如何得到答案? 语音识别 (语音转化为文本) 问题理解 (文本分类) 答案候选获取 (文本数据挖掘) 答案候选排序 提供答案 (文本转化为语音) 基础:自然语言处理 信息检索
16
自然语言处理的基本概念
17
基本概念 语言 自然语言 自然语言处理 广义上:一套共同采用的沟通符号、表达方式与处理规则 自然语言 vs. 动物语言 vs. 电脑语言
指自然地随文化演化的语言,是人类交流和思维的主要工具, 例如英语、汉语、日语等 文字、声音 自然语言处理 又称自然语言理解,是人工智能和语言学领域的分支学 利用计算机为工具对人类特有的书面形式和口头形式的自然 语言的信息自动地进行各种类型处理和加工的技术。
18
为什么需要自然语言处理 语言是人类区别其他动物的本质特性。在所有生物 中,只有人类才具有语言能力。人类的多种智能都 与语言有着密切的关系。人类的逻辑思维以语言为 形式,人类的绝大部分知识也是以语言文字的形式 记载和流传下来的。因而,它也是人工智能的一个 重要,甚至核心部分。 用自然语言与计算机进行通信,这是人们长期以来 所追求的。因为它既有明显的实际意义,同时也有 重要的理论意义:人们可以用自己最习惯的语言来 使用计算机,而无需再花大量的时间和精力去学习 不很自然和习惯的各种计算机语言;人们也可通过 它进一步了解人类的语言能力和智能的机制。
19
自然语言处理的终极目标 让机器理解语言 理解人类思考的机理
20
基本任务
21
分词与词性标注 n:名词,v:动词,wp:标点 输入句子:徐志摩喜欢林徽因。 分词:徐志摩/喜欢/林徽因/。
词性标注:徐志摩/n喜欢/v林徽因/n。/wp n:名词,v:动词,wp:标点 为什么要分词? 语言理解的角度 实用的角度:搜索引擎的索引 词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。
22
句法分析 对句子中的词语语法功能进行分析
23
命名实体识别 识别人名、地名和机构名 对很多应用都有用,如:问答,搜索,信息 抽取等
24
语义分析 语义角色标注 施事:A0 受事:A1
25
语义分析 推理 不仅理解表面含义,而且能加以变换
26
自然语言处理有多难? 自然语言与生俱来的歧义性 结构歧义
28
[李天一他妈]的要求高…… 李天一[他妈的]adv要求高……
29
自然语言处理有多难? 自然语言与生俱来的歧义性 语义歧义(一词多义)--- 语义分析
30
自然语言处理有多难? 自然语言与生俱来的歧义性 语义歧义(一词多义)--- 语义分析
31
自然语言处理有多难? 自然语言与生俱来的歧义性 语义歧义(多词一义)---语义分析
32
自然语言处理有多难? 自然语言与生俱来的歧义性 切分歧义 南京市长江大桥 南京市/长江大桥 南京/市长/江大桥
33
自然语言处理有多难? 自然语言中存在未知的语言现象 新的词汇 新的词义 新的结构用法 叫兽:骚年,你真是图样图森破,替你捉急
骚年:不明觉厉。向白富美表白。 白富美:十动然拒。只爱高富帅 新的词义 打酱油,杯具,粉丝 新的结构用法 我决了个定
34
基本方法 基于规则的方法 基于统计的方法 人机协同
35
基于规则的方法(理性主义者) 语言学的目的是为了能够描述和解释语言现 象:对话,写作等。
基于规则的方法试图通过建立规则来把语言 表达结构化,试图描述什么是正确的和不正 确的语言表达 基于词典 基于推理 “我决了个定”是不是一个正确的表达??
36
假定人脑中有一套语言机理,尝试用规则去 描述
37
句子的生成过程
38
基于规则的方法(理性主义者) 局限性 依赖于专家,如:语言学家 时间代价太大 再完备的规则也不能覆盖所有的语言现象
学了这么多年英语语法,考GRE仍然不行。 语言相关性:中文,英文,葡萄牙文,阿拉伯文
39
基于统计的方法(实验主义者) 统计方法不去决定语言使用正确与否,而是试图描 述真实出现的语言是什么形式 语料库(文本集合) 统计模型成为主导
或者说:描述一个语言现象正确的可能性 什么叫统计:查数(count) 语料库(文本集合) 词频统计 估计语言模型 p(“我决了个定”)=? p(“我决定”) > p(“我决了个定”) p(“I want to learn knowledge”) < p(“I want to have knowledge”) 标注词性和句法分析的结果 统计模型成为主导 机器学习技术:运用算法从历史数据中进行学习,对未来进 行预测
40
基于统计的方法 Fredrick Jelinek (1932-2010) 毕业于麻省理工大学
先后在康奈尔大学,IBM Watson 实验室和约翰霍普金斯大学工作 语音识别,机器翻译 "我每开除一名语言学家,我的语 音识别系统错误率就降低一个百分 点。" 很讨厌语言学家
41
Fredrick Jelinek 终身致力于自然语言处理 计算语言学终身成就奖 70+岁依然周末到实验室加班
2010年9月14日,和往常一样 来到实验室工作,由于心脏 病发作,在办公桌前过世。 “把工作当做事业来做。”
42
基于统计的方法 极大的推动了自然语言处理 机器学习(Machine Learning) 语言模型 机器翻译 模式识别
有指导的机器学习方法:分类 无指导的机器学习方法:聚类
43
有指导的机器学习方法
44
文本分类 问题定义 输入: 输出: 文本d 给定的类别C={c1,c2,…,cn}
给定的有标注的文本训练集D={(d1, y1),…,(dm, ym)} 输出: 学习到的分类器f:将d映射到y,y in C 分类器就是一个函数
45
文本分类 假设是二元分类,C={c1=篮球,c2=非篮球} 训练数据: 特征 训练分类器f:为每一个特征赋予一个权重
d1 ={“杜兰特,詹姆斯,乔治谁是NBA最强小前锋”},y1=c1 d2 ={“中国首次真正登陆月球。”},y2=c2 …… dm={“圣诞节就要到了,祝大家圣诞快乐!”},ym=c2 特征 所有的词构成的词表{“杜兰特”,“詹姆斯”,…} 训练分类器f:为每一个特征赋予一个权重 NBA:0.9,圣诞:0.1
46
文本分类 对于新的文本d={“热火赢得NBA总冠军”} 将其划分到c1或c2 如果训练数据只有3篇
数据稀疏 有指导的机器学习需要大规模的训练语料来 涵盖尽可能多的语言现象
47
无指导学习 文本聚类 给定一组文本集合,没有类别标注 计算文本之间的相似度 将文本分为若干个簇(聚类) 簇内的文本之间的相似度尽可能大
簇间的文本之间的相似度尽可能小
48
Mitch Marcus 宾西法尼亚大学教授 博士毕业于麻省理工大学
建立了LDC语料库(Linguistic Data Consortium) 统计学习需要大规模数据 便于同行之间进行比较 流行20年至今仍然是标注语料库
49
Mitch Marcus Penn Treebank(人工标注) 包括多种语言 每种语言包括几十万到几百万字典型的句子
50
Mitch Marcus “自然语言处理领域的教父” 语料库引领自然语言处理20年 众多出色的弟子
Michael Collins:哥伦比亚大学教授。曾任麻省理工大学教授,AT&T实验室研究员。 博士毕业于宾夕法尼亚大学。5年博士毕业。 世界上最好的句法分析器。 最求完美,不放过任何一个细节。 博士论文被称为自然语言处理领域的典范, 就像是一本小说。 6 best papers on top conferences
51
人机协同 错误驱动 机器进行初步的分析 人工进行校对 重新训练模型
52
人本计算 历史上有很多重要的古籍 如何使这些古籍电子化?
文化遗产 数量庞大 如何使这些古籍电子化? 电子版,如pdf,可印刷,可复制 方法1:OCR(Optical Character Recognition的缩写),光学字符识别 错误率高
53
人本计算 CAPTCHA (验证码) 利用计算机无 法完成的AI任 务应用于网络 安全
54
人本计算 Luis von Ahn 大约20亿次验证码被用户识别 平均花费10秒钟 能否利用这些时间做些好事?
2005年毕业于卡内基梅隆大学 Thesis:Homan Computation 2006年麦克阿瑟天才奖 大约20亿次验证码被用户识别 平均花费10秒钟 能否利用这些时间做些好事?
55
人本计算 ReCAPTCHA 一个单词已被正确识别 一个单词不知道答案 如果很多人的答案一致, 识别的准确率很高 新的被正确识别的单词
56
人本计算(Human Computing)
即利用网络的分众性和协同性,可以轻易完 成很多计算机不可能完成的事情。 这门学科正是研究如何把人的这个优势发挥 出来,与计算机互动,达到一个最佳结果。 利用互联网,利用社会化的协同工作模式, 实现计算机根本不可能完成的事情,以达成 群体智能的效果。
57
人本计算(Human Computing)
没有复杂的公式,却有着高明的思想。 Think out of the box. “Everything must be made as simple as possible. But not simpler.” ― Albert Einstein Science is about the problems, not equations. 斯坦福大学教授
58
自然语言处理的典型应用
59
统计机器翻译 历史悠久,美国国防部发起 50-60年代,美苏对抗,美国需要把大量的 俄文技术材料和情报翻译为英文
失败。失败原因:太差! 60-80年代,基于规则的机器翻译系统 80年代-,基于统计的机器翻译系统逐渐占 据主流
60
统计机器翻译 Peter Brown IBM Watson实验室(Jelinek领导)
划时代的论文《The Mathematics of Machine Translation》 进军华尔街 Renaissance Technologies 赚了好多好多钱(¯﹃¯)
61
统计机器翻译
62
统计机器翻译 2002年开始美国国防部推出NIST评测 Franz Joseph Och 2002年德国亚琛工业大学第一名
2003年美国南加州大学(USC)第一名 2004年Google第一名 Franz Joseph Och 2002年毕业于德国亚琛工业大学 2003年到美国南加州大学信息科学研究所工作 2004年加盟Google
63
“Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.”。 “只要给我足够的并行语言数据,那么,对 于任何的两种语言,我就可以在几小时之内 构造出一个机器翻译系统。”
64
统计机器翻译 Google,百度,微软等公司投入大力度 数据规模越来越大, 计算能力越来越强 机器翻译信、达、雅
A long way to go
65
情感分析 通过计算机技术,自动分析文本、图像等对象包含的情 感倾向及其强度等 计算问题 主观性(Subjectivity)
主观,客观 情感极性(Polarity) 正向(褒),负向(贬),中性 正向:喜欢,快乐 负向:讨厌,悲伤 情绪 喜,怒,悲,恐,惊 紧张,焦虑 性格 冷静型,热情型, 识别情感的描述对象
66
情感分析 主要任务 情感词的挖掘 情感对象搭配 情感强度 好,幸福,善良,美丽 坏,卑鄙,猥琐,狼狈为奸 这款手机的屏幕很亮丽
这款车油耗很高 这个公司工资很高 情感强度 这款手机一般 这款手机太差了
67
情感分析的应用 产品推荐
68
情感分析的应用 幸福指数的度量
69
情感分析的应用 幸福指数的度量
70
情感分析的应用 预测美国大选 预测股票 预测奥斯卡奖项
71
尾声
72
浪潮之巅-国际 IBM(国际商用机器公司) Microsoft(微软) 曾经的AT&T(贝尔实验室) Google(谷歌) Facebook
蓝色巨人,保守的创新者 Microsoft(微软) 比尔盖茨 李开复 曾经的AT&T(贝尔实验室) 香农 Google(谷歌) 现在最好的公司,打工皇帝 Facebook 连接世界 Twitter 社交为王 Apple(苹果) 乔布斯已逝。何去何从? Stay hungry,stay foolish. Keep looking, never settle.
73
浪潮之巅-国内 Baidu(百度) Tencent(腾讯) ALIBABA(阿里巴巴) 国内搜索的老大,创始人李彦宏 用户为王,创始人马化腾
电子商务,创始人马云
74
国内大学-自然语言处理 清华大学 哈尔滨工业大学 中国科学院计算所,软件所,自动化所 北京大学 复旦大学 上海交通大学 ……
75
总结 自然语言处理的相关概念 定义 概念 难点 主要方法 自然语言处理的典型应用 文本分类 机器翻译 情感分析 问答系统
76
展望 大数据时代(Big Data) 自然语言处理将发挥巨大作用,大有可为 机器理解语言是一个长远的发展道路
Much Much more data than Knowledge Information overload 自然语言处理将发挥巨大作用,大有可为 机器理解语言是一个长远的发展道路
77
More Information Andrew Ng, 来自于斯坦 福大学,机器学习专家
Daphne Koller,来自于 斯坦福大学,机器学习 专家 网易公开课
78
Question & Answering?
79
思考题 1. 自然语言处理为什么很难?你能举几个老 师没讲过的例子说明吗? 2. 自然语言处理的主要方法有哪些?各有什 么优缺点?
3. 课堂介绍了几个应用?你觉得哪个最有趣? 你有什么改进方案吗? 4. 你觉得哪些问题是当前的搜索引擎解决的 不好的?在使用搜索引擎的过程中,你遇到 过哪些麻烦?你觉得怎么能够改进?
80
Watson的体系架构
81
自动问答系统 类似于Watson
82
社区问答系统 百度知道
Similar presentations