BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

年節保腸健胃 - 遠離腸癌飲食注意事項 台大醫院營養室 鄭金寶. 大腸癌朋友春節飲食原則 1. 遵守治療醫矚, 不放假 2. 過年期間,不舒服即時就醫 3. 配合支持醫療的飲食原則, (1) 心理建設有個準備 : 過年要 像平日一樣沒有什麼大不同 (2) 該限制的還是要限制 (3)
主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
北台小学 构建和谐师生关系 做幸福教师 2012—2013上职工大会.
大勇國小六年三班 指導老師:林靜宜 ♂第四組成員♂ 賴懿綾★賴欣慧 魯宛憶★陳昱如 周家圓★李奕璇 ★許賀晴★
福榮街官立小學 我家孩子上小一.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
历史人物的研究 ----曾国藩 组员: 乔立蓉 杜曜芳 杨慧 组长:马学思 杜志丹 史敦慧 王晶.
教育部高职高专英语类专业教学指导委员会 刘黛琳 山东 • 二○一一年八月
淡雅诗韵 七(12)班 第二组 蔡聿桐.
第七届全国英语专业院长/系主任高级论坛 汇报材料
小數怕長計, 高糖飲品要節制 瑪麗醫院營養師 張桂嫦.
制冷和空调设备运用与维修专业 全日制2+1中等职业技术专业.
会计信息分析与运用 —浙江古越龙山酒股份有限公司财务分析 组员:2006级工商企业管理专业 金国芳 叶乐慧 魏观红 徐挺挺 虞琴琴.
第六章 人体生命活动的调节 人体对外界环境的感知.
芹菜 英语051班 9号 黄秋迎 概论:芹菜是常用蔬菜之一,既可热炒,又能凉拌,深受人们喜爱。近年来诸多研究表明,这是一种具有很好药用价值的植物。 别名:旱芹、样芹菜、药芹、香芹、蒲芹 。 芹菜属于花,芽及茎类。
2012年 学生党支部书记工作交流 大连理工大学 建工学部 孟秀英
北京市职业技能鉴定管理中心试题管理科.
2014吉林市卫生局事业单位招聘153名工作人员公告解读
各類所得扣繳法令 與申報實務 財政部北區國稅局桃園分局 103年9月25日
初級游泳教學.
爱国卫生工作的持续发展 区爱卫办 俞贞龙.
第八章 数学活动 方程组图象解法和实际应用
本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响. 本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响.
散文鉴赏方法谈.
比亚迪集成创新模式探究 深圳大学2010届本科毕业论文答辩 姓名:卓华毅 专业:工商管理 学号: 指导老师:刘莉
如何撰写青年基金申请书 报 告 人: 吴 金 随.
点击输 入标题 点击输入说明性文字.
國際志工海外僑校服務 越南 國立臺中教育大學 2010年國際志工團隊.
痰 饮.
學分抵免原則及 學分抵免線上操作說明會.
教 学 查 房 黄宗海 南方医科大学第二临床医学院 外科学教研室.
评 建 工 作 安 排.
六己第一組 指導老師:鄭素美 老師 組員:呂頤姍,白宇軒,葉米柑 吳國逸,吳育銘,陳佳豐
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
首都体育学院 武术与表演学院 张长念 太极拳技击运用之擒拿 首都体育学院 武术与表演学院 张长念
现行英语中考考试内容与形式的利与弊 黑龙江省教育学院 于 钢 2016, 07,黄山.
第5讲:比较安全学的创建 吴 超 教授 (O)
当挪亚六百岁,二月十七日那一天,大渊的泉源都裂开了,天上的窗户也敞开了,四十昼夜降大雨在地上。(创7:11-12)
彰化縣西勢國小備課工作坊 新生入學的班級經營 主講:黃盈禎
中国历史 七年级下册.
重庆市西永组团K标准分区基本情况介绍.
西貢區歷史文化 清水灣 鍾礎營,楊柳鈞,林顥霖, 譚咏欣,陳昭龍.
所得稅扣繳法令與實務 財政部北區國稅局桃園分局 102年12月19日 1 1.
角 色 造 型 第四章 欧式卡通造型 主讲:李娜.
走进校园流行 高二15班政治组 指导老师:曾森治老师.
医院文化建设 广东省中医院 2011年3月26日.番禺.
案例:海底捞模式 ——把服务做到极致.
观点挖掘的研究初步 李智超 清华大学计算机科学与技术系
第35届北京青少年科技创新大赛 网上申报 北京青少年科技中心 2014年12月8日 李佳熹.
浙江工商大学 计算机与信息工程学院 报告人:陈威 指导老师:施寒潇
外 伤 之 后.
洪水与方舟 (审判与拯救) 義人挪亞(NOAH).
臺灣名勝古蹟 指導老師:陳佳媚 製作人:林智捷.陳沛璉.畢冠雄.
課程地圖網站建置- 3.職業與課程推薦.
基于规则抽取的 时间表达式识别.
中文题名 介绍/亮点 研究方法 结果/讨论 结论 作者1 1*,作者2 1,2,作者3 2
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
南华大学 计算机科学与技术学院 多策略中文微博细粒度情绪分析研究 南华大学 欧阳纯萍 2013年11月18日.
入侵检测技术 大连理工大学软件学院 毕玲.
Presentation transcript:

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告 巢文涵 chaowenhan@buaa.edu.cn 010-82338927 北京航空航天大学计算机学院 2012.11.01

大纲 引言 BUAA-SA系统结构 实验 总结

引言 BUAA-SA是一个规则与统计相结合的情感分析系统 参加了三个子任务 情感词处理 细节处理:反讽、程度词等 话题自适应 观点句识别 极性判断 情感要素抽取

BUAA-SA结构 情感分析接口 观点句识别 情感倾向判断 情感要素抽取 情感词处理 细节处理 话题自适应 应用层 处理层 基础层 数据层 话题情感要素表 原始情感词库 分级情感词库 反讽词表、程度词

情感词处理 数据源 Hownet情感词 台湾大学情感词(http://nlg18.csie.ntu.edu.tw:8080/lwku/index.html) 清华大学情感词(nlp.csai.tsinghua.edu.cn/site2/) 极性值判断及分级 将情感词的权值定义为情感词的“专注性” 即如果情感词修饰的名词性成分越固定,则它在句子中表示一个修饰成分的可能性越高,其权值越高 将情感词划分为5个等级 Thanks to Brendan O’Connor and Noah Smith (email, 1/18/12) for permission to use this figure.

细节处理 讽刺 就算、竟 程度词 彻头彻尾、地地道道、极度 有点、颇为、未免 增强 弱化 Thanks to Brendan O’Connor and Noah Smith (email, 1/18/12) for permission to use this figure. 6

话题自适应 话题评价元素获取 建立一个通用的情感词种子词集 根据具体的话题,从互联网爬取相关文本 抽取评价对象和情感词 参见:Expanding Domain Sentiment Lexicon through Double Propagation Thanks to Brendan O’Connor and Noah Smith (email, 1/18/12) for permission to use this figure. 7

任务-1:观点句识别 规则方法 至少包含一个强情感词或者两个弱情感词[Y] 普通情感词+话题情感词 特征+SVM方法 Thanks to Brendan O’Connor and Noah Smith (email, 1/18/12) for permission to use this figure. 8

任务-1分类特征选择(续) F1:情感词(可含话题相关情感词) F2:不规范标点[Y] F3:否定词 F4:程度词 F5:表情符号 F6:特殊符号[N] F7:叹词与带有情感色彩的标点融合 F8:主张词 F9:第一、二人称代词 F10:祝愿、但愿、希望等表达愿望的词 F11:程度词+情感词 F12:否定词+程度词+情感词 F13:其它融合特征或者其它特征

任务-2:极性判断 规则方法 对每个情感词进行分类,判断它是否表达情感 对句子中的情感词加权 特征+SVM方法 Thanks to Brendan O’Connor and Noah Smith (email, 1/18/12) for permission to use this figure. 10

任务-2分类特征选择(续) 句子中表情符号个数 积极表情符号的个数 消极表情符号的个数 句子是问句、陈述句、还是感叹句。。。。 情感词对应的词性标记分别为{"n", "v", "a", "z", "d"}的个数 情感词对应的词性标记分别为{"n", "v", "a", "z", "d"}的情感极值和 积极词个数 消极词个数 句子的情感词极值和 否定词的个数 感叹号个数 问号个数 非情感词的各类词性标记个数n、t、s、f、v、a、b、z、r、m、q、d、p、c、u、e、y、o、h、x、w 主题相关的情感词个数 {"n", "v", "a", "z", "d"}等话题相关的情感词对应词性标记的个数 句子包含target数量 话题总体情感倾向 话题正面情感倾向 话题负面情感倾向

任务-3:情感要素抽取 候选评价对象生成 判断句子中是否包含话题相关的评价对象,如果有则直接选用它作为候选评价对象 如果没有,则对句子中的所有可能的评价对象(主要是词性为n的词)进行分类 观察候选评价对象的个数,如果为0,则选择hashTAG中出现的名词作为唯一的候选评价对象

任务-3:情感要素抽取(续) 识别句子中的评价词 观察句子中是否有强烈的情感词(强情感词定义为程度为4和5的词),如果有则直接作为候选, 如果没有则把句子中情感词作为可能的评价词,如果其个数小于等于2则直接将它们作为候选,如果大于2,则进行分类

任务-3:情感要素抽取(续) 生成所有候选搭配,并输出最佳结果 如果候选搭配个数小于等于2,则直接输出结果 如果候选数量大于2,则对所有候选进行分类 分类特征包括

任务-3:情感要素抽取(续) 分类特征 评价对象是否在hashtag中出现 评价词是否为主题相关的评价词 评价对象与评价词之间的的依存关系 评价词极值 评价词是否与程度词存在依存关系 评价词是否与形容词存在依存关系 评价词是否与副词存在依存关系 评价词前后词汇及其词性 评价词是否存在否定依存关系 评价词一定窗口(窗口大小可设为2)内是否出现讽刺性词语。 候选搭配的个数 句子中表情符号个数 积极表情符号的个数 消极表情符号的个数

实验结果 表1 观点句识别评果 微平均 宏平均 正确率 召回率 F值 SVM 0.681 0.918 0.782 0.684 0.914 0.779 规则 0.707 0.577 0.635 0.715 0.632 Thanks to Brendan O’Connor and Noah Smith (email, 1/18/12) for permission to use this figure. 16

实验结果 表2 情感倾向性判断评测结果 微平均 宏平均 正确率 召回率 F值 SVM 0.761 0.698 0.728 0.768 表2 情感倾向性判断评测结果 微平均 宏平均 正确率 召回率 F值 SVM 0.761 0.698 0.728 0.768 0.702 0.733 规则 0.764 0.440 0.559 0.758 0.445 Thanks to Brendan O’Connor and Noah Smith (email, 1/18/12) for permission to use this figure. 17

实验结果 表3 情感要素抽取评测结果 微平均 宏平均 正确率 召回率 F值 严格 0.066 0.147 0.091 0.070 0.144 表3 情感要素抽取评测结果 微平均 宏平均 正确率 召回率 F值 严格 0.066 0.147 0.091 0.070 0.144 0.093 宽松 0.264 0.325 0.291 0.269 0.330 Thanks to Brendan O’Connor and Noah Smith (email, 1/18/12) for permission to use this figure. 18

总结 BUAA-SA系统参加了三个评测子任务 主要的特点在于 情感词的处理 细节的处理 话题适应性 Thanks to Brendan O’Connor and Noah Smith (email, 1/18/12) for permission to use this figure. 19

思考 话题的倾向性太强? 训练集、测试集的主观性太强? 在应用中如何提高用户的满意度?

主要参考文献 Guang Qiu, Bing Liu, Jiajun Bu and Chun Chen. Expanding Domain Sentiment Lexicon through Double Propagation, IJCAI 2009. Valentin Jijkoun, Maarten de Rijke and Wouter Weerkamp. Generating Focused Topic-specific Sentiment Lexicons, ACL 2010. 赵妍妍, 秦兵, 刘挺.文本情感分析综述. 2009. 许洪波,孙乐,姚天昉(主编).第三届中文倾向性分析评测(COAE2011)论文集. 中国科学院计算技术研究所,2011. Thanks to Brendan O’Connor and Noah Smith (email, 1/18/12) for permission to use this figure. 21

谢谢! Thank you very much!

附录 北航计算机学院 信息安全与智能信息处理实验室 欢迎各位专家莅临指导 研究方向: 机器翻译、情感分析、自然语言处理 文本挖掘、机器学习 信息安全、内容安全、舆情分析 联系 北航新主楼G1001/G930 chaowenhan@buaa.edu.cn; 010-82338927 (O) 欢迎各位专家莅临指导