Presentation is loading. Please wait.

Presentation is loading. Please wait.

观点挖掘的研究初步 李智超 清华大学计算机科学与技术系

Similar presentations


Presentation on theme: "观点挖掘的研究初步 李智超 清华大学计算机科学与技术系"— Presentation transcript:

1 观点挖掘的研究初步 李智超 清华大学计算机科学与技术系 lizhichaoxyz@sohu.com Superplum@newsmth
2017年3月13日

2 引言 什么是观点挖掘 观点:人们对事物的看法,具有明显的主观性,不同人对同一事物的看法存在差异 挖掘:发现人们对事物的看法 主观:我是猪
客观:八戒是猪 挖掘:发现人们对事物的看法 2017/3/13 共46页

3 引言 为什么进行观点挖掘 个体用户对观点挖掘的需求 政府、产业界对观点挖掘的需求 互联网成为观点的重要载体 2017/3/13 共46页

4 引言 为什么进行观点挖掘 个体用户对观点挖掘的需求 政府、产业界对观点挖掘的需求 互联网成为观点的重要载体 2017/3/13 共46页

5 引言 为什么进行观点挖掘 个体用户对观点挖掘的需求 政府、产业界对观点挖掘的需求 互联网成为观点的重要载体 2017/3/13 共46页

6 引言 观点挖掘的相关学科 信息检索(应用) 主题相关的观点挖掘 计算语言学(基础) 汉语分词 词性标注 语法分析 模式识别(方法)
分类与聚类 2017/3/13 共46页

7 引言 观点挖掘的国际用语 观点挖掘 opinion mining 观点分析 opinion analysis
情感分类 sentiment classification 情感分析 sentiment analysis …… 2017/3/13 共46页

8 引言 观点挖掘任务 情感维度 主观性判断 主观:我是猪 客观:八戒是猪 2017/3/13 共46页

9 引言 观点挖掘任务 情感维度 倾向性判断 负面:我是猪 正面:我是神 2017/3/13 共46页

10 引言 观点挖掘任务 情感维度 强度判断 轻度:我弱了 重度:我脑残 2017/3/13 共46页

11 引言 观点挖掘任务 粒度维度 篇章级(目的) 句子级(目的) 词语级(手段,工具) 2017/3/13 共46页

12 词语级倾向性判断 两类方法 基于统计/学习的方法 基于规则的方法 更多情况是两种相结合使用 2017/3/13 共46页

13 词语级倾向性判断 Hatzivassiloglou, V. and McKeown, K. R. [1997] 判断形容词的感情倾向
以and或but等连词作为分类的依据将词语分为两类(规则) 包含词语较多的为正面倾向性(统计) 2017/3/13 共46页

14 词语级倾向性判断 Turney, P. D. and Littman, M. L. [2003] 判断形容词的感情倾向
在连词的基础上,考虑了同现关系(统计) 2017/3/13 共46页

15 词语级倾向性判断 Hu, M. and Liu, B. [2004]
使用了已有的语言资源WordNet中的同义与反义的关系,来找出属于同义倾向性的词语,并分类(规则) 2017/3/13 共46页

16 词语级倾向性判断 Esuli, A. and Sebastiani, F. [2005] SentiWordNet
不只对形容词进行倾向性判断 倾向性会有程度的区分 多义项词汇会有不同倾向性 2017/3/13 共46页

17 词语级倾向性判断 一个问题:同一个词语在不同的语言环境中会有不同的倾向性。即词语不具有固定的倾向性。 价格太高了 它拥有很高的传输速度
2017/3/13 共46页

18 词语级倾向性判断 X. Ding, B. Liu, etc. [2008] 词典中只保留具有固定倾向性的词语
否则根据上下文判断其倾向性(规则) 2017/3/13 共46页

19 词语级倾向性判断 规则1 句内连词 规则2 句内无连词 规则3 句间关系 规则4 同反义词关系
具有明显并列关系(and)和转折关系(but) 他成绩优秀,并且写作水平高 他球踢的好,但是脾气大 规则2 句内无连词 认为默认为并列关系 屏幕鲜艳,待机时间长 规则3 句间关系 认为两句之间若无明显转折关系 则并列 规则4 同反义词关系 认为其同义词倾向性一致,反义词相反 2017/3/13 共46页

20 词语级倾向性判断 Zhuang L. [2007] 根据句子中的语法结构,将情感词和语言环境一起作为对象,判断倾向性。
语言环境:情感词所修饰的内容 价格太高了 它拥有很高的传输速度 属性词-情感词词对 2017/3/13 共46页

21 词语级倾向性判断 M. Hu and B. Liu [2004] 根据同现关系抽取抽取名词、名词词组作为属性词 再根据一些规则进行剪枝
2017/3/13 共46页

22 词语级倾向性判断 A. Popescu and O. Etzioni [2005]
使用KnowItAll系统,抽取名词和名词词组作为属性词(规则) 再通过属性词和特定领域的同现频率进行剪枝(统计) 2017/3/13 共46页

23 词语级倾向性判断 J. Yi and W. Niblack [2005]
通过识别以“the”引导并且后面跟随动词的词语或词语作为属性词,以提高准确率(规则) 2017/3/13 共46页

24 词语级倾向性判断 C. Scaffidi, K. Bierhoff [2007]
通过在同样规模下的随机文本中词语的分布和特定文本中分布的区别来剪枝(统计) 2017/3/13 共46页

25 词语级倾向性判断 B. Wang and H. Wang [2007]
对词语在句子中的自然语言特征,判断是否为属性词,和情感词迭代进行。(学习) 2017/3/13 共46页

26 词语级倾向性判断 Li Z. [2009] 抽取名词、动词、名词词组作为属性词,结合词语在句子中上下文的一些信息(规则)
根据词语在互联网集合中出现的频率和在特定文本中的频率的比较来进行剪枝(统计) 结合自然语言处理中未登录词的技术提高属性词抽取的Recall(统计) 2017/3/13 共46页

27 词语级倾向性判断 Li Z. [2009] 抽取名词、动词、名词词组作为属性词,结合词语在句子中上下文的一些信息(规则) 2017/3/13
共46页

28 词语级倾向性判断 Li Z. [2009] 根据词语在互联网集合中出现的频率和在特定文本中的频率的比较来进行剪枝(统计) 生活 杂音
2017/3/13 共46页

29 词语级倾向性判断 Li Z. [2009] 结合自然语言处理中未登录词的技术提高属性词抽取的Recall(统计) 2017/3/13
共46页

30 词语级倾向性判断 词语规模: 形容词->所有词性 习惯用语、常用搭配…… 词语结构: 单一词语->和属性词结合
隐含场景、上下文…… 2017/3/13 共46页

31 篇章级倾向性判断 主要是主观性的判断 机器学习的方法 文本分类 检索的方法 BLOG TREC 将情感词作为查询 2017/3/13
共46页

32 观点挖掘的应用 产品类观点挖掘 事件类观点挖掘 观点复杂多样 新词日新月异 2017/3/13 共46页

33 观点挖掘的应用 产品类观点挖掘 事件类观点挖掘 更加复杂多样 2017/3/13 共46页

34 谢谢! thanks! 2017/3/13 共46页


Download ppt "观点挖掘的研究初步 李智超 清华大学计算机科学与技术系"

Similar presentations


Ads by Google