中文微博情感分析系统-LTLAB 上海交通大学中德语言技术联合实验室

Slides:



Advertisements
Similar presentations
指導教授: 謝秀雄 教授、葉佳聖 教授 班 級:碩專休閒二甲 學 生:洪碧蓮、李曜任、施念怡、洪士哲、黃銘進 學 號: N96B0002 、 N96B0003 、 N96B0012 、 N96B0014 、 N96B0053.
Advertisements

软饮料概述 人文艺术系 石惠舟. 什么是饮料? 饮料概述 饮料是指以水为基本原料,由 不同的配方和制造工艺生产出 来,供人们直接饮用的液体食 品。 饮料 饮料除提供水分外,由于在不 同品种的饮料中含有不等量的 糖、酸、乳以及各种氨基酸、 维生素、无机盐等营养成分, 因此有一定的营养。
营养不良的负面影响 营养不良可直接导致孩子身高体重增长缓慢,如果孩子经常不喝牛 奶,不吃肝、蛋或蔬菜,身体就会缺乏 VA ,牙买加西印度大学学者 进行的一项新研究表明,在童年时期营养严重不良的儿童,今后患 高血压的风险增大,童年时营养不良,长大后舒张压较高,小血管 中血液流动阻力较大,心脏输送血液和氧气的效率也较低,这增加.
1 認識創業之財務 ( 資金 ) 及稅務問題 講師 : 蘇炳章 日期 : 92 年 8 月 12 日.
第五单元 酒水知识与酒吧服务 主题三 蒸 馏 酒 —— 中国蒸馏酒. 蒸馏酒是把经过发酵的酿酒原料,经过一次或多次的蒸馏过 程提取的高酒度酒液。
少年儿童营养配餐与饮食安全 科学饮食为孩子的未来积攒本钱.
有禮真好~玩得更快樂! 陽明山國家公園 故宮博物院 黃金博物館 六福村 飯店、旅館.
第六节 美国 ■移民国家与多元化 ■现代化的农业 ■引领美国制造业的高新技术产业.
鬼太郎 身為幽靈族後裔一員的鬼太郎,他出生的時候,父母便雙亡,不過他的爸爸化身為眼珠,陪伴著他。而鬼太郎與他的同伴貓女、臭鼠人等,為了維持妖怪與人類間的和平,他們將一一消滅邪惡的妖怪,守護這世界的和平。
高齡自主學習團體終身學習試辦計畫經費核銷
SARS 病毒肆虐!許多消費者紛紛購買「口罩」以求自保,建議口罩可
股市低迷之際 如何操作期貨與選擇權 避險及獲利 統一期貨 投資顧問部 廖朝正.
台北縣98年三鶯區語文研習 --建國國小 修辭與標點符號 福和國中廖惠貞
有三件事我很確定: 第一、愛德華是吸血鬼 第二、出於天性,他渴望喝我的血 第三、我無可救藥地愛上他了……
以符號代表數.
人身自由與訴訟權 楊智傑 雲林科技大學科技法律所副教授.
康寧大學102年招生囉!.
青少年心理危机干预 策略与技术 白云阁 呼和浩特.
全省电大系统评聘工作有关事项说明 2014年9月17日.
第4章 种群和群落.
陶板屋 組員:陳婷 劉峻愷 趙崇佑 陳鵬如.
班级安全文化建设的思考与实践 夯实安全基础 规范安全行为 培养安全习惯 训练安全能力 尤 学 文 管 理 学 博 士
第十一章 真理与价值 主讲人:阎华荣.
散文诗两首 《金色花》 泰戈尔 《荷叶·母亲 》 冰心.
国家和我省禽业发展政策 和扶持项目解读 安徽省畜牧兽医局
第七章 固 定 资 产.
石狮市教师进修学校 黄玉香 联系方式: 、 “解决问题”教学实践与思考 石狮市教师进修学校 黄玉香 联系方式: 、 苏佳华 制作.
俄语字母的发音体系 阅读规则.
大陸產業分析 課程說明會.
企業(委任經理人)留才 退休規劃與稅賦利基.
第六章 技术创新与经济增长 本章主要问题 ---技术创新过程 ---技术创新分类 ---技术创新动力源 ---技术创新影响因素
Relation Detection And Recognition
講師:聯捷聯合會計師事務所 張志勝會計師(所長)
[聚會時,請將傳呼機和手提電話關掉,多謝合作]
恩典更新 羅15:1-13.
企業的土狗精神 土管二 賴柏勳.
公務員廉政倫理規範.
運輸與空間的交互作用 運輸發展的階段 一、分散的港口 二、侵入路線 三、發展支線 四、初步相互連結 五、完全相互連結 六、高度優越的幹線
成员名单 陈丽 陈敏 杨娇 高丽莉 李亚金 吴沅娟 任津沙 张舒蓉.
組 員: 王 新 惠 吳 映 暄 李 盈 慧 廖 香 涵 盧 姵 華 訪談日期:
实验3.2 电场描绘 实验简介 实验目的 实验原理 实验仪器 实验内容 注意事项 数据处理.
行政院國軍退除役官兵輔導委員會 嘉義榮民醫院.
第八章 第一节 日本 邹旭丹 滨河中学初中部 湘教版地理初一年级.
建國國小英語教學線上課程 字母拼讀篇(一) 製作者:秦翠虹老師、林玉川老師.
SARS 病毒肆虐!許多消費者紛紛購買「口罩」以求自保,雖然口罩可
公立學校教職員退休資遣撫卹條例重點說明 苗栗縣政府人事處編製 主講人:陳處長坤榮 107年5月2日.
小小銀行家 擔心子女未來的「錢」途嗎?或是否正苦思對策,希望能教導子女更負責任的使用、管理金錢?
第二节 极限 一、数列极限 定义:.
从句分析的一些总结 丁文韬.
探索更小的微粒.
機率論 研究自然律的重要工具之一 解決日常生活中的簡單問題。  . 機率論 研究自然律的重要工具之一 解決日常生活中的簡單問題。  
单元17 钢 结 构 学习目标 (1)了解钢结构的特点。 (2)了解钢结构的发展现状。 (3)掌握钢结构的链接方式。
汇报人:周学广 教授 基于依存分析的 中文微博情感分析 汇报人:周学广 教授
新進人員職前訓練 人事福利課程 人力資源室 余玉竹.
業務員 傷害險通報作業 新光人壽內網-產險傷害險通報P2~P4 【個人】傷害險通報作業P5~P10 【團體】傷害險通報作業P11~P16
实验一 原子发射光谱定性半定量分析 一、概述 二、仪器装置 三、实验步骤.
汽车电器与控制设备 第0章 绪论.
【VA虚拟应用管理平台】专题培训 用户管理 陕西益和信息技术开发有限责任公司 2011年2月.
【VA虚拟应用管理平台】专题培训 服务器安全策略 陕西益和信息技术开发有限责任公司 2011年2月.
【VA虚拟应用管理平台】专题培训 接入防火墙 陕西益和信息技术开发有限责任公司 2011年2月.
【VA虚拟应用管理平台】专题培训 智能打印 陕西益和信息技术开发有限责任公司 2011年2月.
班級經營分享 主講人:吳姈娟 時間:104年3月4日.
組員:.
第三章 會計循環 3-1 瞭解會計循環織概念 3-2 清楚需要設置哪些帳簿及帳簿相關規定 3-3 評量.
 主講人:楊文明主任委員   106/06/30 中華電信職工福利委員會台北分會業務簡介.
JJ 林俊杰.
SEWM 2008中文Web检索评测报告 木棉队 魏本洁 何章鸿 毛志科 黄翀民 李浩 文胜 华南理工大学广东省计算机网络重点实验室.
§2.2.1对数与对数运算.
基慧小學 (馬灣) 升中選校座談會(12-14).
基本建设项目档案的归档.
Presentation transcript:

中文微博情感分析系统-LTLAB 上海交通大学中德语言技术联合实验室 报告人:周霄

简介 在本届评测设立的3个评测任务中,LTLAB分别参加了 任务1(观点句识别)和任务3(情感要素抽取)。 对于任务1:采用了基于分类器的方案,特征抽取时 考虑到了多种词性和句法特征。 对于任务3:参评系统结合了基于分类器的抽取和基 于模板的抽取两种方案,考虑到了词的统计信息和微 博特有的话题信息。

1. 预处理 预处理过程主要进行句子的分词、句法分析、以及评价词抽取。 鉴于微博文本的特殊性,预处理不直接对整句操作,而是将每个句 子划分成四种不同的成分: URL 用户名及转发标志:变现为:“@ + 用户名”,或“|| @ + 用户名” 话题:即一对“#”包裹的非空格字符 正常文本信息 分词和句法分析 分词使用了中科院的分词系统ICTCLAS,句法分析使用了Stanford Parser。 为了改善分词效果,评测小组成员从网络和评测样例数据中收集了一部 分常用网络用语,加入用户词典中。

1. 预处理 评价词抽取 基于评价词词典对词或词组进行匹配 分为正面评价词词典和负面评价词词典 词典来源由3部分构成:Hownet情感词集合、NTUSD情感词集合、 来自网络和评测数据样例的评价词 词典加入正则表达式模板,如“丢.{1,4}的脸”可以匹配“丢我的 脸” 对于抽取出的评价词,首先设定初始评价极性为词典中的极性; 然后向前一个范围内寻找是否含有表否定的词语,如“不”、 “没有”等,每找到一个词就对当前评价极性进行一次反转。

2. 观点句识别 基于VFI(Voting Feature Interval)分类器进行二值分类,正例即为观 点句: 人工标注了评测样例数据作为训练数据。 VFI分类器的原理较简单,它假设各维特征独立,每维特征对所有类标识进 行投票,每类的得分正比于该类得到的票数。 VFI分类器不显式考虑先验概率。由于训练数据不平衡(正例较少),因此 有助于提高结果的召回率。下表是我们在小范围数据上使用各种分类器得 到的结果。 准确率 召回率 F值 SVM 0.779 0.726 0.7516 NB 0.708 0.723 0.7154 Tree 0.719 0.689 0.7037 VFI 0.748 0.776 0.7617

2. 观点句识别 对于微博中的每一句,抽取如下几种特征: 根据实验结果,人工调整了个别特征的权重,调低了分类器 判分的阈值 基于词性的特征。选取了在观点句中常出现的词性或词性组合作 为特征,如:连词个数、代词个数、副词+形容词个数、 “不”+形容词个数等等 基于标点符号的特征:问号的数量和感叹号的数量 句中评价词的个数 纯粹表达主观意愿词的个数。评测要求纯粹表达主观意愿的句子 不算作观点句。针对这一要求,我们人工收集了一些纯粹表达主 观意愿词(如“祝愿”),并将句中该类词的数量作为一个特征 根据实验结果,人工调整了个别特征的权重,调低了分类器 判分的阈值

3. 情感要素抽取 主要使用基于分类器的方法,辅以基于模板的方法。使用评价 对象与评价词间的位置关系判别极性。 分类器同样采用VFI分类器。对于一条微博,首先抽取其中的 候选评价对象,然后对于微博中的每个观点句,分别判断每个 候选评价对象是否是其正确评价对象。 对微博m,抽取其中所有候选评价对象 对微博中的每一句,分别构建分类实例<候选评价对象, 句子> 对每一个分类实例,输出二值结果:true/false

3. 情感要素抽取 候选评价对象抽取 有两种情况:句子中长度小于阈值的、句法成分为NN、 NR、NP、IP、FW之一的词组;当前话题的关键词之一。 使用了两种方法抽取话题关键词: 方法一:使用话题中的名词。如“#假和尚搂女子#”,则抽 取关键词“和尚”、“女子” 方法二:使用话题中的名词词组,以及整个话题。即“假和 尚”、“女子”、“假和尚搂女子” 第二种方法的评测结果略好于方法一

3. 情感要素抽取 构建分类实例 对于每一个候选评价对象t,将其与微博中的每一句s分别组合构 成分类实例<t, s>。系统需要对每个分类实例判断true/false,对 应t 是/不是 s的评价对象 每个分类实例抽取以下特征: t的句法成分 t与s的距离,即t与s间隔的字数。若t在s中,则距离为0;若t在s之前, 则为一负值;若t在s之后,则为一正值 t是否是话题关键词 t是否出现在一对“#”之间 t在话题相关微博中出现的频次

rcmod, nsubj, amod, assmod, nn, vmod 3. 情感要素抽取 基于模板的方法 评测小组借鉴了史兴等人在COAE 2011论文集中使用的方法,对微博中所 有<依存关系,评价对象句法成分,评价词句法成分>都满足下表的三元 组进行抽取 成分 允许的类型 依存关系 rcmod, nsubj, amod, assmod, nn, vmod 评价对象 FW, NR, NT, NN 评价词 VA, JJ, VV 评价对象的极性判别 对每个评价对象,在一个窗口范围内寻找最近的评价词,若找到则使用 该评价词的极性 若窗口内无评价词,则计算句子中正负评价词的个数,以此判断评价对 象极性

4. 总结 经验 不足 两个任务中都使用到了VFI分类器,在保证准确率变化不大的情况下获得了较高的召回率。 构建适合网络语言的分词词表和情感词典较大程度的改善了结果。 机器学习方法+后续规则过滤是行之有效的方法。 不足 评价词抽取采用了较简单的词典匹配的方法,未考虑到上下文 人工收集词典的方式过于低效,不利于扩展 系统依赖于完整的依存句法分析,速度受到限制,不利于扩展

谢谢!