浙江工商大学 计算机与信息工程学院 报告人:陈威 指导老师:施寒潇

Slides:



Advertisements
Similar presentations
1 門市服務丙級技術士 技能檢定介紹 門市服務丙級技術士報告注意事項 證照名稱:門市服務丙級技術士 發照單位:行政院勞工委員會 有效期限:終生有效 考照時間:每年一次,皆為第一梯次 1. 簡章與報名書表發售時間:每年 1 月 2. 報名時間:每年 1 月。 3. 學科考試時間:每年 3.
Advertisements

一、老师申请题目,以下指导老 师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”
生源地助学贷款系统还款功能优化说明 评审三局 2015年5月.
专题六 语文课程标准修订对“实验稿”作了哪些修改和调整
资源平台应用培训 武汉市交通学校信息化建设指导委员会.
爱上我们的图书馆 —新生入馆引导 河海大学图书馆.
104年度國立宜蘭大學新進主管研討 主計業務宣導說明
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
二、信用工具和外汇.
102年實施之高中職及五專多元入學(含免試入學)之招生機制
学 生:王莉峰 指导老师:秦 兵 老师 日 期: 基于有指导的音乐实体关系抽取 学 生:王莉峰 指导老师:秦 兵 老师 日 期:
读者与图书馆 2009年春季版 总第 15 期 山 东 交 通 学 院 图 书 馆 2009年3月.
为您扬帆,助您远航! 徽商银行特色新产品介绍. 为您扬帆,助您远航! 徽商银行特色新产品介绍.
公务卡使用说明.
网络学习 浙江省天台县赤城中学.
财务知识培训 杨 秀 玲 2014年10月.
观点挖掘的研究初步 李智超 清华大学计算机科学与技术系
网页设计师的职业成长规律 主讲:刘万辉 淮安信息职业技术学院.
2012级暑期放假安全教育 及宿舍搬迁工作布置会 北京化工大学理学院 辅导员:曹鼎 2013年6月6日.
汇报大纲 一、报送系统总体介绍 二、自查及检查评分报送流程 三、自查及检查方法及关键点 四、建议及注意事项.
第八章 网络课程的设计与开发.
第一章会计技能的内容 1.1会计技能的重要性.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
资源的跨区域调配—— 西气东输 山东省东营市第一中学 周琳.
俄语字母的发音体系 阅读规则.
2015年云南财经大学图书馆 新生入馆教育考核试题 答题指南
涉税事项网上办理 申请代开增值税专用发票操作指引
互联网时代班主任的挑战 万玮 2014年9月20日.
“基于时政热点问题,政史地学科横向统整”的拓展型课程开发与实践研究
BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告
Wentao Ding Linfeng Shi Jiajie Yu
鄉村尋根-農具篇.
管理信息结构SMI.
Wentao Ding Linfeng Shi Jiajie Yu
第五讲 四则运算计算器(一) 精品教程《C#程序设计与应用(第2版)清华大学出版社 谭恒松 主编
Introduction to AI and ML
2018 北京大学汇丰商学院 日期:
2018 北京大学汇丰商学院 日期:
Online job scheduling in Distributed Machine Learning Clusters
逆向工程-汇编语言
数据挖掘工具性能比较.
基于规则抽取的 时间表达式识别.
中国科学技术大学计算机系 陈香兰(0551- ) Spring 2009
数据说明 郝蕊.
WSDM见闻 程龚.
一个RDF数据自然语言生成器的设计与实现
毕业论文答辩 答辩学生:宝藏PPT 指导老师:XXX.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
职场培训●工作计划●汇报总结●项目策划 明确目标 精准出击 动态 红黑双色,版式工整,通用实用,动态页面
网页设计与制作 —— 学习情境二:网页模板设计
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
实体描述呈现方法的研究 实验评估 2019/5/1.
Web安全基础教程
中国风背景论文答辩模板 某大学某某信息学院 答辩学生:代用名 指导老师:代用名 答辩时间:201X年1月30日
Deep Learning Research & Application Center
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
南华大学 计算机科学与技术学院 多策略中文微博细粒度情绪分析研究 南华大学 欧阳纯萍 2013年11月18日.
“修身成材” 班级干部培训班 黑龙江大学党委学工部.
计算机绘图 AutoCAD2016.
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
Continuous Authentication for Voice Assistants
Adj + Noun映射到知识库中的classes
学习数据结构的意义 (C语言版) 《数据结构》在线开放课程 主讲人:李刚
入侵检测技术 大连理工大学软件学院 毕玲.
高中物理“平抛运动的应用” 点评专家:谭一宁.
汉语分词:最大匹配方法 (6学时) 陈文亮 2016年3月14日.
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

浙江工商大学 计算机与信息工程学院 报告人:陈威 指导老师:施寒潇 中文微博情感评测报告 浙江工商大学 计算机与信息工程学院 报告人:陈威 指导老师:施寒潇

提纲 研究背景及意义 任务预备 任务分析与实施 总结

背景 在Web2.0大背景下,微博作为用户发言、相互交流的重要途径,具有数量大、更新快的特点,是从中发掘用户观点以及情感倾向的可靠来源。针对微博的自然语言处理研究已成为当前一个新的研究热点和前沿课题,而情感分析就是其中一个热点话题。

微博情感分析 情感分析,包括观点挖掘、观点分析、主客观分析等。情感分析的目的是从文本中挖掘用户表达的观点以及情感倾向。 主要技术:(1)情感词典与规则相结合的方法(2)机器学习

意义 过滤不合法网络舆论信息,营造良好的网络环境 监督舆论的走势,辅助社会管理 实现商品个性化推荐 对社会计算的研究有重要的意义

提纲 研究背景及意义 任务预备 任务分析与实施 总结

任务清单 任务一:观点句判定 任务二:分析情感倾向 任务三:提取情感要素

技术准备 分类器:SVM 、 CRF 情感词典扩充:加入网络用语和表情符号 中文分词技术:海量云分词

提纲 研究背景及意义 任务预备 任务分析与实施 总结

任务处理流程 人工标注 训练语料 构建特征集 训练集及训 练模型生成 预测集生 成及预测

人工标注 利用本团队自主开发的标注工具标注 严格按照主办方提供的标注规则,从样列文件中选取1219条具有代表性的微博进行标注 标注内容包括:是否为观点句、情感倾向性、情感要素

训练语料 任务一:人工标注的1219条微博 任务二:任务一训练语料中451条为观点句的微博

任务一特征集 特征序号 特征类型 特征内容 描述 1 链接 是否含有url链接 链接通常以http:开头。 2 表情符号 是否含有情感表情符号 参考网络表情符号词典 3 情感词 是否出现情感词 在基本的情感词典基础上,再加入包含情感的网络用语作为情感词典的扩充。 4 情感词个数 情感词出现的个数 5 标点符号 是否出现感叹号和问号。 ! ? 6 是否出现连续的感叹号和问号。 !!!,??? 7 反转词 是否出现反转词。 是否情感词前面存在反转词(情感词前3个词之内) 8 程度副词 是否含有程度副词。 很,特别等 9 语气词 是否含有语气词。 啊,哪,啦,呀,吧,呢 10 网络用语 是否存在网络用语 参考网络用语词典内容 11 目标值 是否为观点句

任务二特征集 特征序号 特征类型 特征内容 描述 1 链接 是否含有url链接 链接通常以http:开头。 2 正面表情符号 正向情感表情符号个数 参考网络用语表情词典 3 负面表情符号 负向情感表情符号个数 4 正面情感词 正向情感词出现个数 在基本的情感词典基础上,加入包含情感的网络用语作为情感词典的扩充。 5 负面情感词 负向情感词出现个数 6 反转词 是否出现反转词。 是否情感词前面存在反转词(情感词前3个词之内) 7 问号 是否出现问号 8 标点符号 是否出现问号或者连续的问号。 9 目标值 情感正负

训练模型生成 网络用语、表情特征提取 人工标注语料 海量分词格式 格式转换 分词 提取特征 分词结果 训练模型 训练集 SVM训练 格式转换

预测集生成 网络用语、表情特征提取 待预测微博 海量分词格式 格式转换 预处理 分词 提取特征 分词结果 预测集 格式转换

预测集生成及预测细节 任务一分词前预处理 : 过滤类似 “我感到很高兴”这样的主观抒发情感句,并定为非观点句。 任务二预测集生成:根据任务一的预测结果,从中提取预测为观点句的微博 使用SVM对预测集进行预测

评测结果 任务 微平均 宏平均 正确率 召回率 F值 一 0.645 0.959 0.772 0.649 0.960 0.770 二 0.804 0.771 0.787 0.809 0.778 0.793

任务三流程 分词 特征提取 CRF训练及预测 情感要素提取 结构化标注

任务三特征集 特征序号 特征类型 特征内容 描述 1 Token 即该词语名称 分词所得的某一个词的名称 2 POS Token的词性 该词的词性,可以在分词结果中取得 3 上下文窗口 某Token上下Token的特征 选取了上下文窗口为5的词语的Token 、POS特征 4 目标值 结构化标注 用于提取情感要素特征

训练集生成 使用与任务二相同的人工标注集作为训练语料 结构化标注:TP-B 表示情感要素开始词,TP-E 表示情感要素结束词 SO为情感词,BG为背景

情感要素确定 标注为SO,即情感词,作为微博情感倾向 标注为TP-B或TP-E,则可能是情感要素

总结 本团队在本次比赛中,运用自然语言处理与机器学习的相关知识,结合自身的思路与创新,对任务一(观点句识别)和任务二(情感倾向分析)的评测取得了较为理想的结果,而在任务三的实施方面由于时间和精力方面的原因,尚存一定偏差。在以后的时间里,我们一定会继续深入研究和努力,进一步改进预测方式,扩充情感词典,完善训练模型,提高在中文微博评测领域的水平。

感谢各位专家、学者聆听本次报告!