Presentation is loading. Please wait.

Presentation is loading. Please wait.

浙江工商大学 计算机与信息工程学院 报告人:陈威 指导老师:施寒潇

Similar presentations


Presentation on theme: "浙江工商大学 计算机与信息工程学院 报告人:陈威 指导老师:施寒潇"— Presentation transcript:

1 浙江工商大学 计算机与信息工程学院 报告人:陈威 指导老师:施寒潇
中文微博情感评测报告 浙江工商大学 计算机与信息工程学院 报告人:陈威 指导老师:施寒潇

2 提纲 研究背景及意义 任务预备 任务分析与实施 总结

3 背景 在Web2.0大背景下,微博作为用户发言、相互交流的重要途径,具有数量大、更新快的特点,是从中发掘用户观点以及情感倾向的可靠来源。针对微博的自然语言处理研究已成为当前一个新的研究热点和前沿课题,而情感分析就是其中一个热点话题。

4 微博情感分析 情感分析,包括观点挖掘、观点分析、主客观分析等。情感分析的目的是从文本中挖掘用户表达的观点以及情感倾向。
主要技术:(1)情感词典与规则相结合的方法(2)机器学习

5 意义 过滤不合法网络舆论信息,营造良好的网络环境 监督舆论的走势,辅助社会管理 实现商品个性化推荐 对社会计算的研究有重要的意义

6 提纲 研究背景及意义 任务预备 任务分析与实施 总结

7 任务清单 任务一:观点句判定 任务二:分析情感倾向 任务三:提取情感要素

8 技术准备 分类器:SVM 、 CRF 情感词典扩充:加入网络用语和表情符号 中文分词技术:海量云分词

9 提纲 研究背景及意义 任务预备 任务分析与实施 总结

10 任务处理流程 人工标注 训练语料 构建特征集 训练集及训 练模型生成 预测集生 成及预测

11 人工标注 利用本团队自主开发的标注工具标注 严格按照主办方提供的标注规则,从样列文件中选取1219条具有代表性的微博进行标注
标注内容包括:是否为观点句、情感倾向性、情感要素

12 训练语料 任务一:人工标注的1219条微博 任务二:任务一训练语料中451条为观点句的微博

13 任务一特征集 特征序号 特征类型 特征内容 描述 1 链接 是否含有url链接 链接通常以http:开头。 2 表情符号
是否含有情感表情符号 参考网络表情符号词典 3 情感词 是否出现情感词 在基本的情感词典基础上,再加入包含情感的网络用语作为情感词典的扩充。 4 情感词个数 情感词出现的个数 5 标点符号 是否出现感叹号和问号。 ! ? 6 是否出现连续的感叹号和问号。 !!!,??? 7 反转词 是否出现反转词。 是否情感词前面存在反转词(情感词前3个词之内) 8 程度副词 是否含有程度副词。 很,特别等 9 语气词 是否含有语气词。 啊,哪,啦,呀,吧,呢 10 网络用语 是否存在网络用语 参考网络用语词典内容 11 目标值 是否为观点句

14 任务二特征集 特征序号 特征类型 特征内容 描述 1 链接 是否含有url链接 链接通常以http:开头。 2 正面表情符号
正向情感表情符号个数 参考网络用语表情词典 3 负面表情符号 负向情感表情符号个数 4 正面情感词 正向情感词出现个数 在基本的情感词典基础上,加入包含情感的网络用语作为情感词典的扩充。 5 负面情感词 负向情感词出现个数 6 反转词 是否出现反转词。 是否情感词前面存在反转词(情感词前3个词之内) 7 问号 是否出现问号 8 标点符号 是否出现问号或者连续的问号。 9 目标值 情感正负

15 训练模型生成 网络用语、表情特征提取 人工标注语料 海量分词格式 格式转换 分词 提取特征 分词结果 训练模型 训练集 SVM训练 格式转换

16 预测集生成 网络用语、表情特征提取 待预测微博 海量分词格式 格式转换 预处理 分词 提取特征 分词结果 预测集 格式转换

17 预测集生成及预测细节 任务一分词前预处理 : 过滤类似 “我感到很高兴”这样的主观抒发情感句,并定为非观点句。
任务二预测集生成:根据任务一的预测结果,从中提取预测为观点句的微博 使用SVM对预测集进行预测

18 评测结果 任务 微平均 宏平均 正确率 召回率 F值 一 0.645 0.959 0.772 0.649 0.960 0.770 二
0.804 0.771 0.787 0.809 0.778 0.793

19 任务三流程 分词 特征提取 CRF训练及预测 情感要素提取 结构化标注

20 任务三特征集 特征序号 特征类型 特征内容 描述 1 Token 即该词语名称 分词所得的某一个词的名称 2 POS Token的词性
该词的词性,可以在分词结果中取得 3 上下文窗口 某Token上下Token的特征 选取了上下文窗口为5的词语的Token 、POS特征 4 目标值 结构化标注 用于提取情感要素特征

21 训练集生成 使用与任务二相同的人工标注集作为训练语料 结构化标注:TP-B 表示情感要素开始词,TP-E 表示情感要素结束词
SO为情感词,BG为背景

22 情感要素确定 标注为SO,即情感词,作为微博情感倾向 标注为TP-B或TP-E,则可能是情感要素

23 总结 本团队在本次比赛中,运用自然语言处理与机器学习的相关知识,结合自身的思路与创新,对任务一(观点句识别)和任务二(情感倾向分析)的评测取得了较为理想的结果,而在任务三的实施方面由于时间和精力方面的原因,尚存一定偏差。在以后的时间里,我们一定会继续深入研究和努力,进一步改进预测方式,扩充情感词典,完善训练模型,提高在中文微博评测领域的水平。

24 感谢各位专家、学者聆听本次报告!


Download ppt "浙江工商大学 计算机与信息工程学院 报告人:陈威 指导老师:施寒潇"

Similar presentations


Ads by Google