宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院智能科学之自然语言处理宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院.

宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院
智能科学之自然语言处理宋巍首都师范大学信息工程学院

关于我姓名：宋巍性别：男分别于2006、2008、2013年于哈尔滨工业大学计算机科学与技术学院，获得学士、硕士和博士学位
2013年起在首师大信息工程学院任教

关于我业余爱好：体育运动哈工大计算机学院足球队成员，学院杯足球赛冠军，最佳射手（2004）
哈工大计算机学院光熙杯篮球赛最佳运动员（2007）哈工大建工杯羽毛球团体赛第四名（2010）微软亚洲研究院Tango杯羽毛球团体赛亚军（2011）首师大教工足球联赛冠军（2013）首师大教工羽毛球团体赛冠军（2013）

主要研究方向发表论文奖励信息检索（Information Retrieval）
自然语言处理（Natural Language Processing）社会计算（Social Computing）发表论文 SIGIR 2011， SIGIR 2012 （信息检索领域顶级会议） Coling 2010 （自然语言处理领域顶级会议） …… 奖励哈工大优秀毕业生（2013）国家奖学金（2012）黑龙江省科技发明二等奖（2012）微软亚洲研究院杰出实习生（2011）

关于我如果，你对IR，NLP，SC等研究方向感兴趣，或者有新想法，欢迎与我讨论 Email：wsong@cnu.edu.cn
Office：北二区231

课堂计划自然语言处理的基本概念与方法自然语言处理的典型应用总结，问答，思考题

智能科学人工智能：像人类一样理解，思考，交流图灵测试我们能做到吗？

IBM Deep Blue 1997年5月11日，早晨4时50分，国际象棋世界冠军卡斯帕罗夫，在与一台名叫“深蓝”的 IBM超级计算机，经过六局规则比赛的对抗后，最终拱手称臣。

IBM Deep Blue 1.4吨重 32个并行处理器世界上所有国际象棋大师的棋谱拥有每秒计算2亿步棋的能力

IBM Deep Blue 许峰雄深蓝之父，博士，1987年毕业于卡内基梅隆大学（Carnegie Mellon University， CMU）历经12年，机器战胜棋王人称：Crazy Bird 需要研究一下许峰雄的故事

“当时我也没有想到，这件事情一做就是12年。” “在战胜卡斯帕罗夫之前，我根本不知道女人是怎么回事。” “定下一个目标努力，去实现它，成长比成功更重要！”

超级计算机的胜利够了吗？给了我们希望！计算机比人类擅长机械的，高速的，大规模的精确计算穷举所有可能的情况，并作出最优选择
任务单一：象棋，有限状态表现机械，没有情感，无法交流给了我们希望！

IBM Watson Deep QA 2011年，美国电视智力竞赛Jeopardy“危险边缘”冠军赛

IBM Watson Deep QA 问答系统（Question and Answering System）如何得到答案？
理解人类语言自动获取答案如何得到答案？语音识别（语音转化为文本）问题理解（文本分类）答案候选获取（文本数据挖掘）答案候选排序提供答案（文本转化为语音）基础：自然语言处理信息检索

自然语言处理的基本概念

基本概念语言自然语言自然语言处理广义上：一套共同采用的沟通符号、表达方式与处理规则自然语言 vs. 动物语言 vs. 电脑语言
指自然地随文化演化的语言，是人类交流和思维的主要工具，例如英语、汉语、日语等文字、声音自然语言处理又称自然语言理解，是人工智能和语言学领域的分支学利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息自动地进行各种类型处理和加工的技术。

为什么需要自然语言处理语言是人类区别其他动物的本质特性。在所有生物中，只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式，人类的绝大部分知识也是以语言文字的形式记载和流传下来的。因而，它也是人工智能的一个重要，甚至核心部分。用自然语言与计算机进行通信，这是人们长期以来所追求的。因为它既有明显的实际意义，同时也有重要的理论意义：人们可以用自己最习惯的语言来使用计算机，而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言；人们也可通过它进一步了解人类的语言能力和智能的机制。

自然语言处理的终极目标让机器理解语言理解人类思考的机理

基本任务

分词与词性标注 n：名词，v：动词，wp：标点输入句子：徐志摩喜欢林徽因。分词：徐志摩/喜欢/林徽因/。
词性标注：徐志摩/n喜欢/v林徽因/n。/wp n：名词，v：动词，wp：标点为什么要分词？语言理解的角度实用的角度：搜索引擎的索引词性标注（Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性，也就是要确定每个词是名词、动词、形容词或其他词性的过程，又称词类标注或者简称标注。

句法分析对句子中的词语语法功能进行分析

命名实体识别识别人名、地名和机构名对很多应用都有用，如：问答，搜索，信息抽取等

语义分析语义角色标注施事：A0 受事：A1

语义分析推理不仅理解表面含义，而且能加以变换

自然语言处理有多难？自然语言与生俱来的歧义性结构歧义

[李天一他妈]的要求高…… 李天一[他妈的]adv要求高……

自然语言处理有多难？自然语言与生俱来的歧义性语义歧义（一词多义）--- 语义分析

自然语言处理有多难？自然语言与生俱来的歧义性语义歧义（多词一义）---语义分析

自然语言处理有多难？自然语言与生俱来的歧义性切分歧义南京市长江大桥南京市/长江大桥南京/市长/江大桥

自然语言处理有多难？自然语言中存在未知的语言现象新的词汇新的词义新的结构用法叫兽：骚年，你真是图样图森破，替你捉急
骚年：不明觉厉。向白富美表白。白富美：十动然拒。只爱高富帅新的词义打酱油，杯具，粉丝新的结构用法我决了个定

基本方法基于规则的方法基于统计的方法人机协同

基于规则的方法（理性主义者）语言学的目的是为了能够描述和解释语言现象：对话，写作等。
基于规则的方法试图通过建立规则来把语言表达结构化，试图描述什么是正确的和不正确的语言表达基于词典基于推理 “我决了个定”是不是一个正确的表达？？

假定人脑中有一套语言机理，尝试用规则去描述

句子的生成过程

基于规则的方法（理性主义者）局限性依赖于专家，如：语言学家时间代价太大再完备的规则也不能覆盖所有的语言现象
学了这么多年英语语法，考GRE仍然不行。语言相关性：中文，英文，葡萄牙文，阿拉伯文

基于统计的方法（实验主义者）统计方法不去决定语言使用正确与否，而是试图描述真实出现的语言是什么形式语料库（文本集合）统计模型成为主导
或者说：描述一个语言现象正确的可能性什么叫统计：查数（count）语料库（文本集合）词频统计估计语言模型 p(“我决了个定”)=？ p(“我决定”) > p(“我决了个定”) p(“I want to learn knowledge”) < p(“I want to have knowledge”) 标注词性和句法分析的结果统计模型成为主导机器学习技术：运用算法从历史数据中进行学习，对未来进行预测

基于统计的方法 Fredrick Jelinek （1932-2010）毕业于麻省理工大学
先后在康奈尔大学，IBM Watson 实验室和约翰霍普金斯大学工作语音识别，机器翻译 "我每开除一名语言学家，我的语音识别系统错误率就降低一个百分点。" 很讨厌语言学家

Fredrick Jelinek 终身致力于自然语言处理计算语言学终身成就奖 70+岁依然周末到实验室加班
2010年9月14日，和往常一样来到实验室工作，由于心脏病发作，在办公桌前过世。 “把工作当做事业来做。”

基于统计的方法极大的推动了自然语言处理机器学习（Machine Learning）语言模型机器翻译模式识别
有指导的机器学习方法：分类无指导的机器学习方法：聚类

有指导的机器学习方法

文本分类问题定义输入：输出：文本d 给定的类别C={c1,c2,…,cn}
给定的有标注的文本训练集D={(d1, y1),…,(dm, ym)} 输出：学习到的分类器f：将d映射到y，y in C 分类器就是一个函数

文本分类假设是二元分类，C={c1=篮球，c2=非篮球} 训练数据：特征训练分类器f：为每一个特征赋予一个权重
d1 ={“杜兰特，詹姆斯，乔治谁是NBA最强小前锋”}，y1=c1 d2 ={“中国首次真正登陆月球。”}，y2=c2 …… dm={“圣诞节就要到了，祝大家圣诞快乐！”}，ym=c2 特征所有的词构成的词表{“杜兰特”，“詹姆斯”，…} 训练分类器f：为每一个特征赋予一个权重 NBA：0.9，圣诞：0.1

文本分类对于新的文本d={“热火赢得NBA总冠军”} 将其划分到c1或c2 如果训练数据只有3篇
数据稀疏有指导的机器学习需要大规模的训练语料来涵盖尽可能多的语言现象

无指导学习文本聚类给定一组文本集合，没有类别标注计算文本之间的相似度将文本分为若干个簇（聚类）簇内的文本之间的相似度尽可能大
簇间的文本之间的相似度尽可能小

Mitch Marcus 宾西法尼亚大学教授博士毕业于麻省理工大学
建立了LDC语料库（Linguistic Data Consortium）统计学习需要大规模数据便于同行之间进行比较流行20年至今仍然是标注语料库

Mitch Marcus Penn Treebank（人工标注）包括多种语言每种语言包括几十万到几百万字典型的句子

Mitch Marcus “自然语言处理领域的教父” 语料库引领自然语言处理20年众多出色的弟子
Michael Collins：哥伦比亚大学教授。曾任麻省理工大学教授，AT&T实验室研究员。博士毕业于宾夕法尼亚大学。5年博士毕业。世界上最好的句法分析器。最求完美，不放过任何一个细节。博士论文被称为自然语言处理领域的典范，就像是一本小说。 6 best papers on top conferences

人机协同错误驱动机器进行初步的分析人工进行校对重新训练模型

人本计算历史上有很多重要的古籍如何使这些古籍电子化？
文化遗产数量庞大如何使这些古籍电子化？电子版，如pdf，可印刷，可复制方法1：OCR（Optical Character Recognition的缩写），光学字符识别错误率高

人本计算 CAPTCHA （验证码）利用计算机无法完成的AI任务应用于网络安全

人本计算 Luis von Ahn 大约20亿次验证码被用户识别平均花费10秒钟能否利用这些时间做些好事？
2005年毕业于卡内基梅隆大学 Thesis：Homan Computation 2006年麦克阿瑟天才奖大约20亿次验证码被用户识别平均花费10秒钟能否利用这些时间做些好事？

人本计算 ReCAPTCHA 一个单词已被正确识别一个单词不知道答案如果很多人的答案一致，识别的准确率很高新的被正确识别的单词

人本计算（Human Computing）
即利用网络的分众性和协同性，可以轻易完成很多计算机不可能完成的事情。这门学科正是研究如何把人的这个优势发挥出来，与计算机互动，达到一个最佳结果。利用互联网，利用社会化的协同工作模式，实现计算机根本不可能完成的事情，以达成群体智能的效果。

人本计算（Human Computing）
没有复杂的公式，却有着高明的思想。 Think out of the box. “Everything must be made as simple as possible. But not simpler.” ― Albert Einstein Science is about the problems, not equations. 斯坦福大学教授

自然语言处理的典型应用

统计机器翻译历史悠久，美国国防部发起 50-60年代，美苏对抗，美国需要把大量的俄文技术材料和情报翻译为英文
失败。失败原因：太差！ 60-80年代，基于规则的机器翻译系统 80年代-，基于统计的机器翻译系统逐渐占据主流

统计机器翻译 Peter Brown IBM Watson实验室（Jelinek领导）
划时代的论文《The Mathematics of Machine Translation》进军华尔街 Renaissance Technologies 赚了好多好多钱（¯﹃¯）

统计机器翻译

统计机器翻译 2002年开始美国国防部推出NIST评测 Franz Joseph Och 2002年德国亚琛工业大学第一名
2003年美国南加州大学（USC）第一名 2004年Google第一名 Franz Joseph Och 2002年毕业于德国亚琛工业大学 2003年到美国南加州大学信息科学研究所工作 2004年加盟Google

“Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.”。 “只要给我足够的并行语言数据，那么，对于任何的两种语言，我就可以在几小时之内构造出一个机器翻译系统。”

统计机器翻译 Google，百度，微软等公司投入大力度数据规模越来越大, 计算能力越来越强机器翻译信、达、雅
A long way to go

情感分析通过计算机技术，自动分析文本、图像等对象包含的情感倾向及其强度等计算问题主观性（Subjectivity）
主观，客观情感极性（Polarity）正向（褒），负向（贬），中性正向：喜欢，快乐负向：讨厌，悲伤情绪喜，怒，悲，恐，惊紧张，焦虑性格冷静型，热情型，识别情感的描述对象

情感分析主要任务情感词的挖掘情感对象搭配情感强度好，幸福，善良，美丽坏，卑鄙，猥琐，狼狈为奸这款手机的屏幕很亮丽
这款车油耗很高这个公司工资很高情感强度这款手机一般这款手机太差了

情感分析的应用产品推荐

情感分析的应用幸福指数的度量

情感分析的应用预测美国大选预测股票预测奥斯卡奖项

尾声

浪潮之巅-国际 IBM（国际商用机器公司） Microsoft（微软）曾经的AT&T（贝尔实验室） Google（谷歌） Facebook
蓝色巨人，保守的创新者 Microsoft（微软）比尔盖茨李开复曾经的AT&T（贝尔实验室）香农 Google（谷歌）现在最好的公司，打工皇帝 Facebook 连接世界 Twitter 社交为王 Apple（苹果）乔布斯已逝。何去何从？ Stay hungry，stay foolish. Keep looking, never settle.

浪潮之巅-国内 Baidu（百度） Tencent（腾讯） ALIBABA（阿里巴巴）国内搜索的老大，创始人李彦宏用户为王，创始人马化腾
电子商务，创始人马云

国内大学-自然语言处理清华大学哈尔滨工业大学中国科学院计算所，软件所，自动化所北京大学复旦大学上海交通大学 ……

总结自然语言处理的相关概念定义概念难点主要方法自然语言处理的典型应用文本分类机器翻译情感分析问答系统

展望大数据时代（Big Data）自然语言处理将发挥巨大作用，大有可为机器理解语言是一个长远的发展道路
Much Much more data than Knowledge Information overload 自然语言处理将发挥巨大作用，大有可为机器理解语言是一个长远的发展道路

More Information Andrew Ng, 来自于斯坦福大学，机器学习专家
Daphne Koller，来自于斯坦福大学，机器学习专家网易公开课

Question & Answering？

思考题 1. 自然语言处理为什么很难？你能举几个老师没讲过的例子说明吗？ 2. 自然语言处理的主要方法有哪些？各有什么优缺点？
3. 课堂介绍了几个应用？你觉得哪个最有趣？你有什么改进方案吗？ 4. 你觉得哪些问题是当前的搜索引擎解决的不好的？在使用搜索引擎的过程中，你遇到过哪些麻烦？你觉得怎么能够改进？

Watson的体系架构

自动问答系统类似于Watson

社区问答系统百度知道

宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院智能科学之自然语言处理宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院.

Similar presentations

Presentation on theme: "宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院智能科学之自然语言处理宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院 智能科学 之 自然语言处理 宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院.

Similar presentations

Presentation on theme: "宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院 智能科学 之 自然语言处理 宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院."— Presentation transcript:

Similar presentations

About project

反馈

宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院智能科学之自然语言处理宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院.

Presentation on theme: "宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院智能科学之自然语言处理宋巍 wsong@cnu.edu.cn 首都师范大学信息工程学院."— Presentation transcript: