汇报人:周学广 教授 E-mail:zxg196610@hotmail.com 基于依存分析的 中文微博情感分析 汇报人:周学广 教授 E-mail:zxg196610@hotmail.com.

Slides:



Advertisements
Similar presentations
软饮料概述 人文艺术系 石惠舟. 什么是饮料? 饮料概述 饮料是指以水为基本原料,由 不同的配方和制造工艺生产出 来,供人们直接饮用的液体食 品。 饮料 饮料除提供水分外,由于在不 同品种的饮料中含有不等量的 糖、酸、乳以及各种氨基酸、 维生素、无机盐等营养成分, 因此有一定的营养。
Advertisements

1 認識創業之財務 ( 資金 ) 及稅務問題 講師 : 蘇炳章 日期 : 92 年 8 月 12 日.
1 門市服務丙級技術士 技能檢定介紹 門市服務丙級技術士報告注意事項 證照名稱:門市服務丙級技術士 發照單位:行政院勞工委員會 有效期限:終生有效 考照時間:每年一次,皆為第一梯次 1. 簡章與報名書表發售時間:每年 1 月 2. 報名時間:每年 1 月。 3. 學科考試時間:每年 3.
第五单元 酒水知识与酒吧服务 主题三 蒸 馏 酒 —— 中国蒸馏酒. 蒸馏酒是把经过发酵的酿酒原料,经过一次或多次的蒸馏过 程提取的高酒度酒液。
說明文導論 講 師:楊宏通. 1. 說明文的內涵 1.1 一種使用頻率極高的文體 – 介紹工作方法、學習方法; – 介紹、解釋科學知識; – 介紹產品使用方法; – 介紹電影、劇情、書刊 ……
生源地助学贷款系统还款功能优化说明 评审三局 2015年5月.
少年儿童营养配餐与饮食安全 科学饮食为孩子的未来积攒本钱.
鬼太郎 身為幽靈族後裔一員的鬼太郎,他出生的時候,父母便雙亡,不過他的爸爸化身為眼珠,陪伴著他。而鬼太郎與他的同伴貓女、臭鼠人等,為了維持妖怪與人類間的和平,他們將一一消滅邪惡的妖怪,守護這世界的和平。
高齡自主學習團體終身學習試辦計畫經費核銷
第二框 信用工具和外汇.
二、信用工具和外汇.
为您扬帆,助您远航! 徽商银行特色新产品介绍. 为您扬帆,助您远航! 徽商银行特色新产品介绍.
2011年广州市高二语文水平测试质量分析 广州市教育局教学研究室 陈坪
奇集集網站之經營概況 指導老師:吳有龍 學生:朱昱棠.
王老吉多加宝之争分析.
2013年生源地贷款工作回顾及下一步工作思路 2013年11月.
奥林匹斯山平安夜 三重震撼 八重串烧 惊现京城
台北縣98年三鶯區語文研習 --建國國小 修辭與標點符號 福和國中廖惠貞
银联代付产品.
公务卡使用说明.
術科測試解析 第二站 櫃檯作業 (瑋博POS系統).
有三件事我很確定: 第一、愛德華是吸血鬼 第二、出於天性,他渴望喝我的血 第三、我無可救藥地愛上他了……
财务知识培训 杨 秀 玲 2014年10月.
人身自由與訴訟權 楊智傑 雲林科技大學科技法律所副教授.
康寧大學102年招生囉!.
六和高中104學年度 普通科簡介 報告人:普通科陳蓓蓉主任.
【调查方式】依据统计学理论和国际惯例,主要采用互联网在线调查方法进行; 【样本总数】共收集有效样本数据2890份;
法律修养专题 对应教材的第七、八章内容 及第五、六章法律部分内容.
陶板屋 組員:陳婷 劉峻愷 趙崇佑 陳鵬如.
第一章会计技能的内容 1.1会计技能的重要性.
超星成长冬令营 内容介绍. 超星成长冬令营 内容介绍 史上最长寒假,您打算怎样度过? 为慕课时代下的教学创新而思索吗?为史上最难就业季而惆怅吗? 与其苦思,不如行动起来,快来参加超星成长“虚拟”竞赛冬令营吧!  
第十一章 真理与价值 主讲人:阎华荣.
东南大学 数字迎新的探索 东南大学 网络与信息中心 张月琳.
新时期下的财政票据管理 省非税局票据管理处 陈奕晶.
您的一生要花多少钱?.
第七章 固 定 资 产.
第三方支付风生水起,多路大佬竞角逐 第三方支付为互联网企业带来的巨大利益,各路势力目前 正争相获取第三方支付牌照,但第三方支付平台跑路、盗 刷等问题频出,使得行业未来发展受到挑战,那么未来第 三方支付将走向如何? 对此,九次方大数据结合网络舆情,对第三方支付行业进 行了梳理,您会发现: 1、央行发放支付牌照政策收紧,新增获得第三方支付牌照的企业数量骤降.
崇拜前 安靜片刻 預備心靈    敬拜上帝.
企業(委任經理人)留才 退休規劃與稅賦利基.
第六章 技术创新与经济增长 本章主要问题 ---技术创新过程 ---技术创新分类 ---技术创新动力源 ---技术创新影响因素
講師:聯捷聯合會計師事務所 張志勝會計師(所長)
恩典更新 羅15:1-13.
第一单元 生活与消费 第一课 神奇的货币 第二课时 信用工具和外汇 建行龙卡 工行 牡丹卡 农行 金穗卡.
淘宝商城光棍节营销案例.
作文《适合就好》讲评.
龙泰▪御花园 2014年度营销总结 龙泰公司营销部 2015年1月10日
公務員廉政倫理規範.
成员名单 陈丽 陈敏 杨娇 高丽莉 李亚金 吴沅娟 任津沙 张舒蓉.
組 員: 王 新 惠 吳 映 暄 李 盈 慧 廖 香 涵 盧 姵 華 訪談日期:
马克思主义基本原理概论 第三章 人类社会及其发展规律.
行政院國軍退除役官兵輔導委員會 嘉義榮民醫院.
公立學校教職員退休資遣撫卹條例重點說明 苗栗縣政府人事處編製 主講人:陳處長坤榮 107年5月2日.
禹利个人感恩餐会.
小小銀行家 擔心子女未來的「錢」途嗎?或是否正苦思對策,希望能教導子女更負責任的使用、管理金錢?
水足跡調查報告發表 環境品質文教基金會 董事長 謝英士
提升整體品質 讓各級學校成為… 學生學習的贏家學校 2013年3月24日.
单元17 钢 结 构 学习目标 (1)了解钢结构的特点。 (2)了解钢结构的发展现状。 (3)掌握钢结构的链接方式。
門市服務丙級技術士技能術科檢定程序 第一崗位 (30%) 筆試類型(22.5%) 1.服務品質~30題 2.危機處理~30題 50分鐘
我的无穷探索之路  何华灿 向网友们的汇报提纲.
汽车电器与控制设备 第0章 绪论.
【VA虚拟应用管理平台】专题培训 用户管理 陕西益和信息技术开发有限责任公司 2011年2月.
【VA虚拟应用管理平台】专题培训 服务器安全策略 陕西益和信息技术开发有限责任公司 2011年2月.
假代购诈骗钱 P2P网络非法集资洗钱 虚开增值税发票洗钱 非法经营POS机套现 被第三方支付平台骗取资金 买卖信用卡洗钱
組員:.
中文微博情感分析系统-LTLAB 上海交通大学中德语言技术联合实验室
 主講人:楊文明主任委員   106/06/30 中華電信職工福利委員會台北分會業務簡介.
第八章 异步电动机.
基本建设项目档案的归档.
2013年双十一全案 (初稿) 2013年9月6日.
Template OFFICE 2010教程 资讯服务组.
Presentation transcript:

汇报人:周学广 教授 E-mail:zxg196610@hotmail.com 基于依存分析的 中文微博情感分析 汇报人:周学广 教授 E-mail:zxg196610@hotmail.com

汇报内容 观点句识别评测 情感倾向性判断评测 情感要素抽取评测 任务一 任务二 任务三 本单位参加了中文微博情感分析评测的所有三个任务,下面对每个任务所使用的方法和评测结果进行介绍。 任务三 情感要素抽取评测

任务一:观点句识别评测 为了有效区分观点句与非观点句,我们从句子中抽取组件对应的词语特征作为识别线索,并在情感词和评价对象的依存模式的基础上,提出基于词语特征的观点句识别方法--OSR_WF方法。 观点句有两种类型,一种是对特定事物或对象的评价,例如“我真心喜欢iphone的屏幕效果”类型的句子;另一种是表达内心自我情感、意愿或心情,比如“我感到很高兴”类型的句子。 本次评测针对的是第一种观点句的识别。

任务一:观点句识别评测 OSR_WF方法流程: 新词识别; 含极性词库中的词,则认为该句子是观点句; 主语为第一人称代词,谓语为主张动词,状语为表达“喜、   怒、哀、乐”的情感词的句子认为不是观点句; 含有能愿动词库中的词作谓语的句子认为不是观点句; 由条件连词库中的词作连词的句子认为不是观点句; 其它符合评价单元依存模式的句子认为是观点句。

任务一:观点句识别评测 提出基于规则与统计的新词识别方法 规则制定: 制定组合模式 构建非语素词性集 构建停用词表 候选新词剪枝: 成词权重统计: 转移频率和文档频数,计算成词权重:

任务一:观点句识别评测 词库构建: 情感词库 极性词库 否定词库 能愿动词库 条件连词库 情感词库:以《知网》公布的情感词表、《常用褒贬义词语详解词典》、《学生褒贬义词典》、《褒义词词典》和《贬义词词典》为基础,删除其中使用频率很低的情感词,增加网络用语和口语情感词,构建了一个情感词库,其中含褒义词5554个,贬义词6321个。 极性词库:有部分情感词极性非常强烈,特别是一些骂人的贬义词,在观点句的识别时,只要出现这些词,就将观点句的极性判定为该词的极性(否定句式中取反)。为区别于大的情感词库,将这类词库称为极性词库,其中包含褒义词16个,贬义词262个。情感词库与极性词库是包含关系,即情感词库包含极性词库中的所有词。 否定词库:否定词库对于情感词的极性判断很重要。否定词库含“不、未、没有、欠”等否定词20个。 能愿动词库:能愿动词库用于观点句的识别中。能愿动词库含“祝、希望、应该、必须”等能愿动词共16个。 条件连词库:条件连词库用于观点句的识别中。条件连词库含“如果、要是、假如、也许”等条件连词共11个。

任务一:观点句识别评测 评价单元依存模式 评价单元模式 情感词词性 评价对象词性 VA, VV NN, NR, NT, PN VA, JJ 情感词和评价对象具有映射关系,通过对评价对象和情感词的依存关系分析,我们发现两者的依存模式可以归纳成以下6种。 第1种模式表示主语为评价对象,主语依存的动词为情感词,评价对象与与情感词之间是直接依存关系。 第2种模式表示谓语为系动词,主语为评价对象,表语的定语为情感词,主语与表语定语之间是扩展的依存关联关系。 第3种模式表示谓语不为系动词,宾语为评价对象,谓语为情感词,宾语与谓语之间是直接依存关系。 第4种模式表示主语为评价对象,动词的补语为情感词,主语与动词的补语是依存关联或扩展的依存关联关系。 第5种模式表示主语为评价对象,修饰主语的定语为情感词,主语与主语定语是直接或间接依存关系。 第6种模式表示宾语为评价对象,修饰宾语的定语为情感词,宾语与宾语定语是直接或间接依存关系。

任务一:观点句识别评测 结果编号 微平均 宏平均 准确率 召回率 F值 17 0.828 0.537 0.651 0.826 0.520 0.629 平均值 0.727 0.615 0.647 0.607 0.634 最好值 0.835 0.959 0.784 0.836 0.96 0.783 任务1观点句识别评测共有34个单位提交了53组结果,此表给出了本组结果与任务1所提交的53组结果的平均值和53组结果中的每个评价指标的最好值比较。

53组结果的微平均和宏平均评测结果如图所示,其中红色方框部分是采用我们提出的OSR_WF方法参加任务1观点句识别的评测结果。 从上图和上表中可以看出,OSR_WF方法在评测结果中准确率较高,但召回率偏低。在微平均评测结果中准确率排名第2,与排名第1的仅差0.007,在宏平均评测结果中准确率排名第3,与排名第1的相差0.01。但是召回率结果在所有结果中处于中下,在微平均评测结果中比平均值低0.078,在宏平均评测结果中比平均值低0.087。虽然准确率较高,但综合考虑准确率和召回率,OSR_WF方法的F值仅与平均值约持平,在微平均评测结果中比平均值略高,约0.004,在宏平均评测结果中略低于平均值,约差0.005。

任务二:情感倾向性判断评测 线性相加法 统计观点句中情感倾向性值,句子从左往右,含褒义情感词+1,含贬义情感词-1,出现“但、但是”连词,将情感倾向性值清零,从转折后继续计算,最后得到句子的倾向,大于0判断为POS,小于0判断为NEG,等于0为OTHER。 由于观点句和观点句中的情感词极性已经确定,故采用最简单的线性相加法进行句子的情感倾向性判断,

任务二:情感倾向性判断评测 结果编号 微平均 宏平均 准确率 召回率 F值 17 0.772 0.415 0.54 0.776 0.404 0.523 平均值 0.745 0.455 0.552 0.744 0.450 最好值 0.93 0.771 0.794 0.919 0.778 任务2共有32个单位提交了48组结果,此表给出了本组结果与任务2所有组的结果平均值和最好值比较。

从上表和此图中我们可以看出,线性相加法在任务2中的情感倾向性判断评测中准确率比平均值略高,召回率低于平均值,导致F值比平均值略低。 线性相加法操作、简单实现快速,但是结果不是很理想,这是我们需要改进的地方。

任务三:情感要素抽取评测 基于依存模式的情感要素抽取方法 获取候选情感词和候选评价对象; 采用评价单元依存模式对候选评价单元进行筛选; --SFE_DM 方法 获取候选情感词和候选评价对象; 采用评价单元依存模式对候选评价单元进行筛选; 通过评价对象归并算法得到完整的评价对象。 将待分析句子中所有在情感词库中出现的情感词列为候选情感词,所有名词或代名词列为候选评价对象。 评价单元依存模式在观点句的识别中已经介绍过了

任务三:情感要素抽取评测 评价对象归并算法 为区分原始的评价对象和归并后得到的评价对象,将原始的评价对象称为评价对象基准词。评价对象归并时从评价对象基准词的左邻词开始,从右往左依次判断,若其父亲节点为基准词或为其右邻词,将其归并到评价对象中;若为句首或其父亲节点不为基准词或不为其右邻词时停止归并。

任务三:情感要素抽取评测 严格评价指标下结果: 结果编号 微平均 宏平均 准确率 召回率 F值 17 0.311 0.177 0.225 0.324 0.174 0.22 平均值 0.172 0.098 0.112 最好值 0.485 0.275 0.288 0.474 0.265 0.278 任务3情感要素抽取评测共有15个单位提交了22组结果,此表给出了严格评价指标下本组结果与任务3所有组的结果平均值和最好值比较 。

任务三:情感要素抽取评测 在严格评价指标下微平均和宏平均评测结果如图所示,其中红色方框部分是采用本文提出的SFE_DM方法参加任务3情感要素抽取(严格评价指标)评测结果。 从此图和上表中可以看出,SFE_DM方法在22组提交结果中名列前茅,微平均和宏平均的准确率、召回率和F值都排名第3。排名靠前的结果中分别有两组来自同一个单位,即SFE_DM方法在15个单位的提交结果中,微平均和宏平均的准确率、召回率和F值都排名第2,F值正好是平均值的2倍。这个结果表明了SFE_DM方法通过定义6种评价单元依存模式并对情感对象进行归并能够抽取出完整的情感要素,除中国传媒大学国家语言资源监测与研究中心外比其它13个单位所用方法更有效。

任务三:情感要素抽取评测 宽松评价指标下结果: 结果编号 微平均 宏平均 准确率 召回率 F值 17 0.404 0.223 0.287 0.42 0.219 0.279 平均值 0.289 0.149 0.18 0.29 0.177 最好值 0.636 0.356 0.371 0.643 0.344 0.359 严格评价指标下本组结果与任务3所有组的结果平均值和最好值比较 如表所示。

任务3结果与分析(宽松评价) 在宽松评价指标下微平均和宏平均评测结果如图所示,其中红色方框部分是采用我们提出的SFE_DM方法参加任务3情感要素抽取(宽松评价指标)评测结果。 宽松评价指标评测存在误判率高的问题,如在例句“ipad的屏幕很棒!”中,抽取出“ipad的屏幕”中的任意词语或短语都算正确,包括“ipad的”、“的”、“的屏幕”等非情感对象。故综合来看,宽松评价指标并不能作为情感要素抽取任务的准确评测依据。 对比严格评价和宽松评价指标下的结果我们发现,我们提出的SFE_DM方法在宽松评价指标评测中,微平均的F值是严格评价中F值的1.276倍,宏平均是1.268倍。计算22组结果的微平均F值平均值在宽松评价中是严格评价中的F值的1.607倍,宏平均是1.580倍。这两组结果说明了SFE_DM方法的F值在宽松评价指标评测中的提高率比平均值的提高率低,进一步表明了SFE_DM方法采用依存树的归并来得到完整的情感对象是有效的。

汇报完毕,谢谢大家!