BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告
巢文涵北京航空航天大学计算机学院

大纲引言 BUAA-SA系统结构实验总结

引言 BUAA-SA是一个规则与统计相结合的情感分析系统参加了三个子任务情感词处理细节处理：反讽、程度词等话题自适应观点句识别
极性判断情感要素抽取

BUAA-SA结构情感分析接口观点句识别情感倾向判断情感要素抽取情感词处理细节处理话题自适应应用层处理层基础层数据层
话题情感要素表原始情感词库分级情感词库反讽词表、程度词

情感词处理数据源 Hownet情感词台湾大学情感词（清华大学情感词（nlp.csai.tsinghua.edu.cn/site2/）极性值判断及分级将情感词的权值定义为情感词的“专注性” 即如果情感词修饰的名词性成分越固定，则它在句子中表示一个修饰成分的可能性越高，其权值越高将情感词划分为5个等级 Thanks to Brendan O’Connor and Noah Smith ( , 1/18/12) for permission to use this figure.

细节处理讽刺就算、竟程度词彻头彻尾、地地道道、极度有点、颇为、未免增强弱化
Thanks to Brendan O’Connor and Noah Smith ( , 1/18/12) for permission to use this figure. 6

话题自适应话题评价元素获取建立一个通用的情感词种子词集根据具体的话题，从互联网爬取相关文本抽取评价对象和情感词
参见：Expanding Domain Sentiment Lexicon through Double Propagation Thanks to Brendan O’Connor and Noah Smith ( , 1/18/12) for permission to use this figure. 7

任务-1：观点句识别规则方法至少包含一个强情感词或者两个弱情感词[Y] 普通情感词+话题情感词特征+SVM方法

任务-1分类特征选择(续) F1：情感词（可含话题相关情感词） F2：不规范标点[Y] F3：否定词 F4：程度词 F5：表情符号
F6：特殊符号[N] F7：叹词与带有情感色彩的标点融合 F8：主张词 F9：第一、二人称代词 F10：祝愿、但愿、希望等表达愿望的词 F11：程度词+情感词 F12：否定词+程度词+情感词 F13：其它融合特征或者其它特征

任务-2：极性判断规则方法对每个情感词进行分类，判断它是否表达情感对句子中的情感词加权特征+SVM方法

任务-2分类特征选择(续) 句子中表情符号个数积极表情符号的个数消极表情符号的个数句子是问句、陈述句、还是感叹句。。。。
情感词对应的词性标记分别为{"n", "v", "a", "z", "d"}的个数情感词对应的词性标记分别为{"n", "v", "a", "z", "d"}的情感极值和积极词个数消极词个数句子的情感词极值和否定词的个数感叹号个数问号个数非情感词的各类词性标记个数n、t、s、f、v、a、b、z、r、m、q、d、p、c、u、e、y、o、h、x、w 主题相关的情感词个数 {"n", "v", "a", "z", "d"}等话题相关的情感词对应词性标记的个数句子包含target数量话题总体情感倾向话题正面情感倾向话题负面情感倾向

任务-3：情感要素抽取候选评价对象生成判断句子中是否包含话题相关的评价对象，如果有则直接选用它作为候选评价对象
如果没有，则对句子中的所有可能的评价对象（主要是词性为n的词）进行分类观察候选评价对象的个数，如果为0，则选择hashTAG中出现的名词作为唯一的候选评价对象

任务-3：情感要素抽取(续) 识别句子中的评价词观察句子中是否有强烈的情感词（强情感词定义为程度为4和5的词），如果有则直接作为候选，
如果没有则把句子中情感词作为可能的评价词，如果其个数小于等于2则直接将它们作为候选，如果大于2，则进行分类

任务-3：情感要素抽取(续) 生成所有候选搭配，并输出最佳结果如果候选搭配个数小于等于2，则直接输出结果
如果候选数量大于2，则对所有候选进行分类分类特征包括

任务-3：情感要素抽取(续) 分类特征评价对象是否在hashtag中出现评价词是否为主题相关的评价词评价对象与评价词之间的的依存关系
评价词极值评价词是否与程度词存在依存关系评价词是否与形容词存在依存关系评价词是否与副词存在依存关系评价词前后词汇及其词性评价词是否存在否定依存关系评价词一定窗口（窗口大小可设为2）内是否出现讽刺性词语。候选搭配的个数句子中表情符号个数积极表情符号的个数消极表情符号的个数

实验结果表1 观点句识别评果微平均宏平均正确率召回率 F值 SVM 0.681 0.918 0.782 0.684 0.914
0.779 规则 0.707 0.577 0.635 0.715 0.632 Thanks to Brendan O’Connor and Noah Smith ( , 1/18/12) for permission to use this figure. 16

实验结果表2 情感倾向性判断评测结果微平均宏平均正确率召回率 F值 SVM 0.761 0.698 0.728 0.768
表2 情感倾向性判断评测结果微平均宏平均正确率召回率 F值 SVM 0.761 0.698 0.728 0.768 0.702 0.733 规则 0.764 0.440 0.559 0.758 0.445 Thanks to Brendan O’Connor and Noah Smith ( , 1/18/12) for permission to use this figure. 17

实验结果表3 情感要素抽取评测结果微平均宏平均正确率召回率 F值严格 0.066 0.147 0.091 0.070 0.144
表3 情感要素抽取评测结果微平均宏平均正确率召回率 F值严格 0.066 0.147 0.091 0.070 0.144 0.093 宽松 0.264 0.325 0.291 0.269 0.330 Thanks to Brendan O’Connor and Noah Smith ( , 1/18/12) for permission to use this figure. 18

总结 BUAA-SA系统参加了三个评测子任务主要的特点在于情感词的处理细节的处理话题适应性

思考话题的倾向性太强？训练集、测试集的主观性太强？在应用中如何提高用户的满意度？

主要参考文献 Guang Qiu, Bing Liu, Jiajun Bu and Chun Chen. Expanding Domain Sentiment Lexicon through Double Propagation, IJCAI 2009. Valentin Jijkoun, Maarten de Rijke and Wouter Weerkamp. Generating Focused Topic-specific Sentiment Lexicons, ACL 2010. 赵妍妍, 秦兵, 刘挺.文本情感分析综述许洪波,孙乐,姚天昉(主编).第三届中文倾向性分析评测(COAE2011)论文集. 中国科学院计算技术研究所,2011. Thanks to Brendan O’Connor and Noah Smith ( , 1/18/12) for permission to use this figure. 21

谢谢！ Thank you very much!

附录北航计算机学院信息安全与智能信息处理实验室欢迎各位专家莅临指导研究方向：机器翻译、情感分析、自然语言处理文本挖掘、机器学习
信息安全、内容安全、舆情分析联系北航新主楼G1001/G930 (O) 欢迎各位专家莅临指导

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告

Similar presentations

Presentation on theme: "BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告

Similar presentations

Presentation on theme: "BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告"— Presentation transcript:

Similar presentations

About project

反馈