汇报人:周学广 教授 E-mail:zxg196610@hotmail.com 基于依存分析的 中文微博情感分析 汇报人:周学广 教授 E-mail:zxg196610@hotmail.com
汇报内容 观点句识别评测 情感倾向性判断评测 情感要素抽取评测 任务一 任务二 任务三 本单位参加了中文微博情感分析评测的所有三个任务,下面对每个任务所使用的方法和评测结果进行介绍。 任务三 情感要素抽取评测
任务一:观点句识别评测 为了有效区分观点句与非观点句,我们从句子中抽取组件对应的词语特征作为识别线索,并在情感词和评价对象的依存模式的基础上,提出基于词语特征的观点句识别方法--OSR_WF方法。 观点句有两种类型,一种是对特定事物或对象的评价,例如“我真心喜欢iphone的屏幕效果”类型的句子;另一种是表达内心自我情感、意愿或心情,比如“我感到很高兴”类型的句子。 本次评测针对的是第一种观点句的识别。
任务一:观点句识别评测 OSR_WF方法流程: 新词识别; 含极性词库中的词,则认为该句子是观点句; 主语为第一人称代词,谓语为主张动词,状语为表达“喜、 怒、哀、乐”的情感词的句子认为不是观点句; 含有能愿动词库中的词作谓语的句子认为不是观点句; 由条件连词库中的词作连词的句子认为不是观点句; 其它符合评价单元依存模式的句子认为是观点句。
任务一:观点句识别评测 提出基于规则与统计的新词识别方法 规则制定: 制定组合模式 构建非语素词性集 构建停用词表 候选新词剪枝: 成词权重统计: 转移频率和文档频数,计算成词权重:
任务一:观点句识别评测 词库构建: 情感词库 极性词库 否定词库 能愿动词库 条件连词库 情感词库:以《知网》公布的情感词表、《常用褒贬义词语详解词典》、《学生褒贬义词典》、《褒义词词典》和《贬义词词典》为基础,删除其中使用频率很低的情感词,增加网络用语和口语情感词,构建了一个情感词库,其中含褒义词5554个,贬义词6321个。 极性词库:有部分情感词极性非常强烈,特别是一些骂人的贬义词,在观点句的识别时,只要出现这些词,就将观点句的极性判定为该词的极性(否定句式中取反)。为区别于大的情感词库,将这类词库称为极性词库,其中包含褒义词16个,贬义词262个。情感词库与极性词库是包含关系,即情感词库包含极性词库中的所有词。 否定词库:否定词库对于情感词的极性判断很重要。否定词库含“不、未、没有、欠”等否定词20个。 能愿动词库:能愿动词库用于观点句的识别中。能愿动词库含“祝、希望、应该、必须”等能愿动词共16个。 条件连词库:条件连词库用于观点句的识别中。条件连词库含“如果、要是、假如、也许”等条件连词共11个。
任务一:观点句识别评测 评价单元依存模式 评价单元模式 情感词词性 评价对象词性 VA, VV NN, NR, NT, PN VA, JJ 情感词和评价对象具有映射关系,通过对评价对象和情感词的依存关系分析,我们发现两者的依存模式可以归纳成以下6种。 第1种模式表示主语为评价对象,主语依存的动词为情感词,评价对象与与情感词之间是直接依存关系。 第2种模式表示谓语为系动词,主语为评价对象,表语的定语为情感词,主语与表语定语之间是扩展的依存关联关系。 第3种模式表示谓语不为系动词,宾语为评价对象,谓语为情感词,宾语与谓语之间是直接依存关系。 第4种模式表示主语为评价对象,动词的补语为情感词,主语与动词的补语是依存关联或扩展的依存关联关系。 第5种模式表示主语为评价对象,修饰主语的定语为情感词,主语与主语定语是直接或间接依存关系。 第6种模式表示宾语为评价对象,修饰宾语的定语为情感词,宾语与宾语定语是直接或间接依存关系。
任务一:观点句识别评测 结果编号 微平均 宏平均 准确率 召回率 F值 17 0.828 0.537 0.651 0.826 0.520 0.629 平均值 0.727 0.615 0.647 0.607 0.634 最好值 0.835 0.959 0.784 0.836 0.96 0.783 任务1观点句识别评测共有34个单位提交了53组结果,此表给出了本组结果与任务1所提交的53组结果的平均值和53组结果中的每个评价指标的最好值比较。
53组结果的微平均和宏平均评测结果如图所示,其中红色方框部分是采用我们提出的OSR_WF方法参加任务1观点句识别的评测结果。 从上图和上表中可以看出,OSR_WF方法在评测结果中准确率较高,但召回率偏低。在微平均评测结果中准确率排名第2,与排名第1的仅差0.007,在宏平均评测结果中准确率排名第3,与排名第1的相差0.01。但是召回率结果在所有结果中处于中下,在微平均评测结果中比平均值低0.078,在宏平均评测结果中比平均值低0.087。虽然准确率较高,但综合考虑准确率和召回率,OSR_WF方法的F值仅与平均值约持平,在微平均评测结果中比平均值略高,约0.004,在宏平均评测结果中略低于平均值,约差0.005。
任务二:情感倾向性判断评测 线性相加法 统计观点句中情感倾向性值,句子从左往右,含褒义情感词+1,含贬义情感词-1,出现“但、但是”连词,将情感倾向性值清零,从转折后继续计算,最后得到句子的倾向,大于0判断为POS,小于0判断为NEG,等于0为OTHER。 由于观点句和观点句中的情感词极性已经确定,故采用最简单的线性相加法进行句子的情感倾向性判断,
任务二:情感倾向性判断评测 结果编号 微平均 宏平均 准确率 召回率 F值 17 0.772 0.415 0.54 0.776 0.404 0.523 平均值 0.745 0.455 0.552 0.744 0.450 最好值 0.93 0.771 0.794 0.919 0.778 任务2共有32个单位提交了48组结果,此表给出了本组结果与任务2所有组的结果平均值和最好值比较。
从上表和此图中我们可以看出,线性相加法在任务2中的情感倾向性判断评测中准确率比平均值略高,召回率低于平均值,导致F值比平均值略低。 线性相加法操作、简单实现快速,但是结果不是很理想,这是我们需要改进的地方。
任务三:情感要素抽取评测 基于依存模式的情感要素抽取方法 获取候选情感词和候选评价对象; 采用评价单元依存模式对候选评价单元进行筛选; --SFE_DM 方法 获取候选情感词和候选评价对象; 采用评价单元依存模式对候选评价单元进行筛选; 通过评价对象归并算法得到完整的评价对象。 将待分析句子中所有在情感词库中出现的情感词列为候选情感词,所有名词或代名词列为候选评价对象。 评价单元依存模式在观点句的识别中已经介绍过了
任务三:情感要素抽取评测 评价对象归并算法 为区分原始的评价对象和归并后得到的评价对象,将原始的评价对象称为评价对象基准词。评价对象归并时从评价对象基准词的左邻词开始,从右往左依次判断,若其父亲节点为基准词或为其右邻词,将其归并到评价对象中;若为句首或其父亲节点不为基准词或不为其右邻词时停止归并。
任务三:情感要素抽取评测 严格评价指标下结果: 结果编号 微平均 宏平均 准确率 召回率 F值 17 0.311 0.177 0.225 0.324 0.174 0.22 平均值 0.172 0.098 0.112 最好值 0.485 0.275 0.288 0.474 0.265 0.278 任务3情感要素抽取评测共有15个单位提交了22组结果,此表给出了严格评价指标下本组结果与任务3所有组的结果平均值和最好值比较 。
任务三:情感要素抽取评测 在严格评价指标下微平均和宏平均评测结果如图所示,其中红色方框部分是采用本文提出的SFE_DM方法参加任务3情感要素抽取(严格评价指标)评测结果。 从此图和上表中可以看出,SFE_DM方法在22组提交结果中名列前茅,微平均和宏平均的准确率、召回率和F值都排名第3。排名靠前的结果中分别有两组来自同一个单位,即SFE_DM方法在15个单位的提交结果中,微平均和宏平均的准确率、召回率和F值都排名第2,F值正好是平均值的2倍。这个结果表明了SFE_DM方法通过定义6种评价单元依存模式并对情感对象进行归并能够抽取出完整的情感要素,除中国传媒大学国家语言资源监测与研究中心外比其它13个单位所用方法更有效。
任务三:情感要素抽取评测 宽松评价指标下结果: 结果编号 微平均 宏平均 准确率 召回率 F值 17 0.404 0.223 0.287 0.42 0.219 0.279 平均值 0.289 0.149 0.18 0.29 0.177 最好值 0.636 0.356 0.371 0.643 0.344 0.359 严格评价指标下本组结果与任务3所有组的结果平均值和最好值比较 如表所示。
任务3结果与分析(宽松评价) 在宽松评价指标下微平均和宏平均评测结果如图所示,其中红色方框部分是采用我们提出的SFE_DM方法参加任务3情感要素抽取(宽松评价指标)评测结果。 宽松评价指标评测存在误判率高的问题,如在例句“ipad的屏幕很棒!”中,抽取出“ipad的屏幕”中的任意词语或短语都算正确,包括“ipad的”、“的”、“的屏幕”等非情感对象。故综合来看,宽松评价指标并不能作为情感要素抽取任务的准确评测依据。 对比严格评价和宽松评价指标下的结果我们发现,我们提出的SFE_DM方法在宽松评价指标评测中,微平均的F值是严格评价中F值的1.276倍,宏平均是1.268倍。计算22组结果的微平均F值平均值在宽松评价中是严格评价中的F值的1.607倍,宏平均是1.580倍。这两组结果说明了SFE_DM方法的F值在宽松评价指标评测中的提高率比平均值的提高率低,进一步表明了SFE_DM方法采用依存树的归并来得到完整的情感对象是有效的。
汇报完毕,谢谢大家!