观点挖掘的研究初步 李智超 清华大学计算机科学与技术系

Slides:



Advertisements
Similar presentations
模板的使用 教育学 江西教育学院教育系 冯芳 2012 - 10. 第二章 教育学的产生和发展 第一节 教育学的研究对象和任务 第二节 教育学的产生与发展 第三节 学习教育学的意义与方法.
Advertisements

2014 年职称英语等级考试 综合类精讲班 主讲:叶老师. 职称英语考试与复习方法 一、职称英语考试 1. 职称英语考试的特点: a 综合英语分为 A B C 级 b 职称英语考试和教材的关系 c 可以借助字典 d 送分( 分) (1) 词汇选项(可能送 3—8 分) (2) 阅读判断.
用 藥 安 全 用 藥 安 全 護 理 師 張 嘉 芬. 前 言 前 言 正確用藥的方法 藥袋上的秘辛 為了減少重大疾病或是醫療處理、 用藥不當的相關事件發生。
阿尔伯特亲王 阿尔伯特亲王纪念碑 维多利亚女王夫妇 维多利亚女王一家 建造水晶宫 水晶宫初建时的照片.
4.体词 体词包括:名词,处所词,方位词,时间词,区别词,数词,量词以及一部分代词。.
梦想启航 ——大学生活与职业规划专题讲座.
辨析近义词的方法 (一) 词的色彩不同 词语色彩----感情色彩 ----语体色彩.
看不見的聲音 唐代女性文學.
河北保定外国语学校 高三家长会.
GOOWI 万物“无”连 --低功耗蓝牙在IoT中的应用    魏心伟 高为通信技术有限公司.
第五章 主张超尘绝俗的 佛家.
以信息化带动教育现代化,打造教育的“南山质量”
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
个体税收征管政策讲解 浏阳市地方税务局.
封面 2015易驾考最新分享: 科目二考试方法秘诀 文章来源:易驾考官网.
基于行业的 企业技术创新信息保障体系研究 刘 华 博士 中国科学技术信息研究所.
第四讲 1949—1991年的中苏关系 及其经验教训.
“鼠标加水泥”的百货公司——武汉中百 朱巧巧 陆嘉怡 田泽宇.
合理控制索道游客流量 确保景区可持续发展 云南丽江玉龙雪山索道 陈加林 二0一五年十一月.
千里挑一的“征途” ——浅谈中国“国考”热.
第二课 扬起自信的风帆 我能“行”.
研修4组 学习简报(第3期) 主编:左文玲 2015年2月7日.
潘集小学英语班 学习简报(第5期) 主编:吴婷 2016年2月28日.
与领导、下级、同事的 沟通技巧.
潜能宇宙平衡法则 ——启动11.11天地人合新生命工程(分类系统) 凛然智慧(北京)教育咨询有限公司.
杜甫诗三首 《望岳》 《春望》 《石壕吏》 授课人:姚晓霞.
失眠的饮食及调理 北京国济中医院
中餐烹調實習Ⅲ 第九章中國菜系介紹 林可薇 製作.
新高考研究介绍 湖北省教育考试院项目研究组.
勞動權益 教師:黃益中.
如东中专 学校文化课现状及提升举措的思考
2008秋季四年级 语文期末笔试卷质量分析 主讲人:华美英
职团客户促销活动 2016年9月.
第3讲 时间管理.
续班指导.
高等教育出版社 工作汇报 化学化工分社 翟怡.
******班班级学习简报(第*期) 主编:*** ****年**月**日.
猜猜他是谁? 他是美国人 他一生却有两千多项创造发明,对人类的文化和进步作出了巨大的贡献 电灯、电话就是他发明的 dí 爱迪生.
Dí 爱迪生.
基本要求:了解隋朝各项制度的历史渊源及其各方面的发展成就的社会基础,力求领会中国封建社会历史发展的基本规律并真正把握隋朝的历史地位。
根根胡须入泥沙, 自造房屋自安家, 地上开花不结果, 地下结果不开花。 ——花生.
一、古代中国的农业经济 必修二 /专题一 古代中国经济的基本结构与特点 ▲1.农业的主要耕作方式和土地制度
《数据结构》课程简介 李武军 南京大学计算机科学与技术系 2016年秋季.
2009届高考专项复习 ——辨析病句.
杜甫诗三首 《望岳》 《春望》 《石壕吏》.
BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告
单元解析:教材主编 牛长清.
Wentao Ding Linfeng Shi Jiajie Yu
Introduction to AI and ML
数据挖掘工具性能比较.
基于规则抽取的 时间表达式识别.
义务教育课程标准实验教科书七年级上册第24课
“两弹”元勋邓稼先            顾迈南.
《知网2000座谈会》发言 董振东 董强 Tel: (8610) Tel: (8610)
找人随时随地 完善的控制权限 通讯录信息字段自定义 支持各种组织架构 支持既有人事系统.
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
從一本被卅三家出版社拒絕的書稿    變成有幾十部續集、行銷千萬冊的搶手叢書 《心靈雞湯》的出版就是活脫脫的勵志傳奇.
104年度 藝術與人文教學深耕計畫簡報 南投縣立集集國民中學 健康和諧 充滿活力 樂觀精進 追求卓越 溫馨成長 創作潛能
基于知识库对自然语言中属性取值对的探索 潘笑吟.
了解介词.
南华大学 计算机科学与技术学院 多策略中文微博细粒度情绪分析研究 南华大学 欧阳纯萍 2013年11月18日.
2.古诗两首 自忠小学 赵镒涓.
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
S + Vt. + O (主语+谓语+宾语 句型).
地理试题名词动词初步统计 施林锋 王远.
词的搭配(一).
入侵检测技术 大连理工大学软件学院 毕玲.
汉语分词:最大匹配方法 (6学时) 陈文亮 2016年3月14日.
2019/9/19 互联网产业、立法与网规 张钦坤 腾讯法务部.
Presentation transcript:

观点挖掘的研究初步 李智超 清华大学计算机科学与技术系 lizhichaoxyz@sohu.com Superplum@newsmth 2017年3月13日

引言 什么是观点挖掘 观点:人们对事物的看法,具有明显的主观性,不同人对同一事物的看法存在差异 挖掘:发现人们对事物的看法 主观:我是猪 客观:八戒是猪 挖掘:发现人们对事物的看法 2017/3/13 共46页

引言 为什么进行观点挖掘 个体用户对观点挖掘的需求 政府、产业界对观点挖掘的需求 互联网成为观点的重要载体 2017/3/13 共46页

引言 为什么进行观点挖掘 个体用户对观点挖掘的需求 政府、产业界对观点挖掘的需求 互联网成为观点的重要载体 2017/3/13 共46页

引言 为什么进行观点挖掘 个体用户对观点挖掘的需求 政府、产业界对观点挖掘的需求 互联网成为观点的重要载体 2017/3/13 共46页

引言 观点挖掘的相关学科 信息检索(应用) 主题相关的观点挖掘 计算语言学(基础) 汉语分词 词性标注 语法分析 模式识别(方法) 分类与聚类 2017/3/13 共46页

引言 观点挖掘的国际用语 观点挖掘 opinion mining 观点分析 opinion analysis 情感分类 sentiment classification 情感分析 sentiment analysis …… 2017/3/13 共46页

引言 观点挖掘任务 情感维度 主观性判断 主观:我是猪 客观:八戒是猪 2017/3/13 共46页

引言 观点挖掘任务 情感维度 倾向性判断 负面:我是猪 正面:我是神 2017/3/13 共46页

引言 观点挖掘任务 情感维度 强度判断 轻度:我弱了 重度:我脑残 2017/3/13 共46页

引言 观点挖掘任务 粒度维度 篇章级(目的) 句子级(目的) 词语级(手段,工具) 2017/3/13 共46页

词语级倾向性判断 两类方法 基于统计/学习的方法 基于规则的方法 更多情况是两种相结合使用 2017/3/13 共46页

词语级倾向性判断 Hatzivassiloglou, V. and McKeown, K. R. [1997] 判断形容词的感情倾向 以and或but等连词作为分类的依据将词语分为两类(规则) 包含词语较多的为正面倾向性(统计) 2017/3/13 共46页

词语级倾向性判断 Turney, P. D. and Littman, M. L. [2003] 判断形容词的感情倾向 在连词的基础上,考虑了同现关系(统计) 2017/3/13 共46页

词语级倾向性判断 Hu, M. and Liu, B. [2004] 使用了已有的语言资源WordNet中的同义与反义的关系,来找出属于同义倾向性的词语,并分类(规则) 2017/3/13 共46页

词语级倾向性判断 Esuli, A. and Sebastiani, F. [2005] SentiWordNet 不只对形容词进行倾向性判断 倾向性会有程度的区分 多义项词汇会有不同倾向性 2017/3/13 共46页

词语级倾向性判断 一个问题:同一个词语在不同的语言环境中会有不同的倾向性。即词语不具有固定的倾向性。 价格太高了 它拥有很高的传输速度 2017/3/13 共46页

词语级倾向性判断 X. Ding, B. Liu, etc. [2008] 词典中只保留具有固定倾向性的词语 否则根据上下文判断其倾向性(规则) 2017/3/13 共46页

词语级倾向性判断 规则1 句内连词 规则2 句内无连词 规则3 句间关系 规则4 同反义词关系 具有明显并列关系(and)和转折关系(but) 他成绩优秀,并且写作水平高 他球踢的好,但是脾气大 规则2 句内无连词 认为默认为并列关系 屏幕鲜艳,待机时间长 规则3 句间关系 认为两句之间若无明显转折关系 则并列 规则4 同反义词关系 认为其同义词倾向性一致,反义词相反 2017/3/13 共46页

词语级倾向性判断 Zhuang L. [2007] 根据句子中的语法结构,将情感词和语言环境一起作为对象,判断倾向性。 语言环境:情感词所修饰的内容 价格太高了 它拥有很高的传输速度 属性词-情感词词对 2017/3/13 共46页

词语级倾向性判断 M. Hu and B. Liu [2004] 根据同现关系抽取抽取名词、名词词组作为属性词 再根据一些规则进行剪枝 2017/3/13 共46页

词语级倾向性判断 A. Popescu and O. Etzioni [2005] 使用KnowItAll系统,抽取名词和名词词组作为属性词(规则) 再通过属性词和特定领域的同现频率进行剪枝(统计) 2017/3/13 共46页

词语级倾向性判断 J. Yi and W. Niblack [2005] 通过识别以“the”引导并且后面跟随动词的词语或词语作为属性词,以提高准确率(规则) 2017/3/13 共46页

词语级倾向性判断 C. Scaffidi, K. Bierhoff [2007] 通过在同样规模下的随机文本中词语的分布和特定文本中分布的区别来剪枝(统计) 2017/3/13 共46页

词语级倾向性判断 B. Wang and H. Wang [2007] 对词语在句子中的自然语言特征,判断是否为属性词,和情感词迭代进行。(学习) 2017/3/13 共46页

词语级倾向性判断 Li Z. [2009] 抽取名词、动词、名词词组作为属性词,结合词语在句子中上下文的一些信息(规则) 根据词语在互联网集合中出现的频率和在特定文本中的频率的比较来进行剪枝(统计) 结合自然语言处理中未登录词的技术提高属性词抽取的Recall(统计) 2017/3/13 共46页

词语级倾向性判断 Li Z. [2009] 抽取名词、动词、名词词组作为属性词,结合词语在句子中上下文的一些信息(规则) 2017/3/13 共46页

词语级倾向性判断 Li Z. [2009] 根据词语在互联网集合中出现的频率和在特定文本中的频率的比较来进行剪枝(统计) 生活 杂音 2017/3/13 共46页

词语级倾向性判断 Li Z. [2009] 结合自然语言处理中未登录词的技术提高属性词抽取的Recall(统计) 2017/3/13 共46页

词语级倾向性判断 词语规模: 形容词->所有词性 习惯用语、常用搭配…… 词语结构: 单一词语->和属性词结合 隐含场景、上下文…… 2017/3/13 共46页

篇章级倾向性判断 主要是主观性的判断 机器学习的方法 文本分类 检索的方法 BLOG TREC 将情感词作为查询 2017/3/13 共46页

观点挖掘的应用 产品类观点挖掘 事件类观点挖掘 观点复杂多样 新词日新月异 2017/3/13 共46页

观点挖掘的应用 产品类观点挖掘 事件类观点挖掘 更加复杂多样 2017/3/13 共46页

谢谢! thanks! 2017/3/13 共46页