南华大学 计算机科学与技术学院 多策略中文微博细粒度情绪分析研究 南华大学 欧阳纯萍 2013年11月18日
任务概述 技术要点 实验结果 总结
评测任务 微博情绪识别与分类(Close测试): 对于输入的整条微博,本任务要求判断出该微博是否包含情绪。 对包含情绪的微博,要求判别其情绪分类输出为anger 愤怒、disgust 厌恶、fear 恐惧、happiness 高兴、like 喜好、sadness 悲伤、surprise 惊讶中的一种,即单分类输出。
任务概述 技术要点 实验结果 总结
技术要点
技术要点一 朴素贝叶斯分类的特征词选择 i=0,判断某词在有情绪微博中的表征作用。 i=1,判断某词在无情绪微博中的表征作用。 对有无情绪微博中的词性特征进行分析,筛选出表征能力强的词性特征。 最终,经试验取k=4,n=20,得到了796个特征词和19种词性,组成了815个特征集合。
技术要点二 面向细粒度情绪的微博向量化 α=0.9,β=0.1, w表示属于第m维情感类的总词数,intension表示情感强度,polarity表示情感极性。 对卡方检验的特征词进行情感强度和极性人工标注。(参考大连理工本体库) 根据计算得到的特征词权重值,对分词后的微博进行向量化。
任务概述 技术要点 实验结果 总结
实验结果 情绪判别实验结果 情绪分类宏平均实验结果 Precision Recall F-measure NB+SVM 0.6626 0.8012 0.7254 NB+KNN 0.6676 0.7982 0.7271 MAX 0.7494 0.9517 情绪分类宏平均实验结果 Macro Precision Recall F-measure NB+SVM 0.2109 0.1996 0.2051 NB+KNN 0.2704 0.3064 0.2873 MAX 0.2844
实验结果 情绪分类微平均实验结果 Micro Precision Recall F-measure NB+SVM 0.2539 0.3070 0.2779 NB+KNN 0.3133 0.3746 0.3412 MAX 0.3834 0.3976
任务概述 技术要点 实验结果 总结
总结 分阶段进行微博情绪分析的方案比较理想。 无论是情绪分类还是情绪判别,特征词的选择,微博的特征化都是非常重要的环节。 本次实验并未对分类算法进行改进,将是下一步工作的重点。
南华大学 计算机科学与技术学院 谢 谢!