Background Underlying demand Identify Recommend Valuable solution

Slides:

Advertisements

Similar presentations

外贸英文函电 Business Letters Chapter Three Enquiry. Chapter Two Inquiry  Revision Revision  Objectives Objectives  Warming-up Questions Warming-up Questions.

Advertisements

期末考试作文讲解 % 的同学赞成住校 30% 的学生反对住校 1. 有利于培养我们良好的学习和生活习惯； 1. 学生住校不利于了解外界信息； 2 可与老师及同学充分交流有利于共同进步。 2. 和家人交流少。在寄宿制高中，大部分学生住校，但仍有一部分学生选择走读。你校就就此开展了一次问卷调查，主题为.

黄国文中山大学通用型英语人才培养中的语言学教学黄国文中山大学

◈ 中小企业需要的所有功能各种功能，可以永久使用的系统 Ecount ERP 每月$55 库存/销售/采购生产/成本/利润会计/资金

2014 年上学期湖南长郡卫星远程学校制作 13 Getting news from the Internet.

信息技术在教学中的应用信息技术应用于教学的整体观、系统观信息技术应用于教学的整体观、系统观对信息技术整合的理解——教师的视角

杨宇航百度社区技术部推荐技术在百度UGC产品中的应用杨宇航百度社区技术部

Presented By: 王信傑 Ricky Wang Date:2010/10/6

SEWM2006 Web检索山东大学陈竹敏.

-CHINESE TIME (中文时间): Free Response idea: 你周末做了什么？

資訊科技挑戰獎勵計劃樂善堂梁銶琚學校 6A(06)陳芷蘊中華白海豚. 資訊科技挑戰獎勵計劃樂善堂梁銶琚學校 6A(06)陳芷蘊中華白海豚.

（Problem-Based learning 教学法）

专题八书面表达.

微博中的信息传播特点及其优点与不足.

職業災害調查及善後處理.

一张图读懂创新现状互联网+电影产业商业模式.

浙江工商大学计算机与信息工程学院报告人：陈威指导老师：施寒潇

手持裝置應用系統之設計與未來發展黃有評大同大學資訊工程系.

璜田中心学校胡海霞 Section A bank save money Café house chat and drink coffee.

打開學習錦盒學習活動系列講座問卷感謝出席本系列講座，希望今天的安排您會滿意。離開前，請留下寶貴意見，以作為日後專題講座主題之參考。

第一讲雅思阅读概述王冉 2015/02.

初中进阶 (2346 期 ) 1 版. 1. What types of bullying do you know about? Physical hitting, tripping, stealing and hair pulling Social telling other kids.

5B 教材分析.

59 中张丽娟学习目标： 1. 识记并理解运用 6 个单词和 5 个短语。 (source, accessible, network, access, via, create come up with, from the moment on, consist of, go down ， at the.

Unit 3 A day out Welcome to the unit.

Welcome Welcome to my class Welcome to my class!.

Unit 4 I used to be afraid of the dark.

Web 2.0 發展趨勢盧希鵬國立台灣科技大學資訊管理系教授.

International Conference ITIE2010: Inspiration from Best Practices

模式识别 Pattern Recognition

Wentao Ding Linfeng Shi Jiajie Yu

面向对象建模技术软件工程系林琳.

SOA – Experiment 3: Web Services Composition Challenge

Omid Bakhshandeh and James F. Allen IWCS 2015

第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库数据库中数据的组织由低到高分为四级：字段、记录、表、数据库四种。

以ISI平台为例，为您演示一下如何在Endnote文献中查看该文献的References

Online job scheduling in Distributed Machine Learning Clusters

数据挖掘工具性能比较.

基于规则抽取的时间表达式识别.

Towards Emotional Awareness in Software Development Teams

Science and technology report service systemUsage method

数据说明郝蕊.

搜刘智 iLife信息素养协会索.

WSDM见闻程龚.

SOA – Experiment 2: Query Classification Web Service

Answering aggregation question over knowledge base

Identity Linkage 学习、分享与交流陈凯 2016/5/9.

Internet-based exercise

人社學院通識教育中心邱子恒網際網路資源之檢索與評選人社學院通識教育中心邱子恒

模型分类问题 Presented by 刘婷婷苏琬琳.

Learn Question Focus and Dependency Relations from Web Search Results for Question Classification 各位老師大家好,這是我今天要報告的論文題目,…… 那在題目上的括號是因為,前陣子我們有投airs的paper,那有reviewer對model的名稱產生意見.

WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了，与其他文章的区别是什么？ 2.Charging Control的手段是什么？ 3.Power Reigon是什么东西？

Lightweight Data-flow Analysis for Execution-driven Constraint Solving

实体描述呈现方法的研究实验评估 2019/5/1.

系统科学与复杂网络初探刘建国上海理工大学管理学院

Web安全基础教程

Deep Learning Research & Application Center

基于知识库对自然语言中属性取值对的探索潘笑吟.

南华大学计算机科学与技术学院多策略中文微博细粒度情绪分析研究南华大学欧阳纯萍 2013年11月18日.

完形填空的解题技巧禹州高中胡晓芳.

參考資料：林秋燕曾元顯卜小蝶，Chap. 1、3 Chowdhury，Chap.9

第六章 Excel的应用五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行

P4 STEAM SCIENCE.

基于列存储的RDF数据管理朱敏

Continuous Authentication for Voice Assistants

Adj + Noun映射到知识库中的classes

Reading Training 授课教师:王立民.

WiFi is a powerful sensing medium

適用於數位典藏多媒體內容之複合式多媒體檢索技術

变化的新环境，变化的图书馆 Changing Landscape, Changing Libraries

Presentation transcript:

Finding question microblog post and recommend answers for it 林春 2012.08.30

Background Underlying demand Identify Recommend Valuable solution Microblog revolution Change surfing habit of Internet: users first logining microblog reach 20% Make the web like a real social world Characteristics of microblog data Massive user-generated content (contain rare information) Complex and underlying relationships (authority user or expert) Fast Information propagation (get first-hand information about hot topic ) Changes of information seeking approach Asking question in social network become a popular form. 这几天海鲜吃多了，上火了，脸上冒痘痘了，呜呜…怎么办？ Mission of microblog mining Identifying whether one post states something bothersome instantly and recommending a solution or an answer for it. Microblog changes Internet user's surfing habit & web content Internet users first logining microblog reach 20% Underlying demand Identify Recommend Valuable solution Copyright 2012 FUJITSU R&D CENTER CO.,LTD

Copyright 2012 FUJITSU R&D CENTER CO.,LTD

Our work Demand Identification Content recommendation identify the post expressing something bothersome or asking for information content-based model: topic & setiment detection classifier-based model: feature extraction & classify Demand Identification Content recommendation User recommendation recommend latest or exact content from web or microblog microblog re-rank to get best answer content-based & collaborative recommendation recommend authoritative and interested user authoritative user: content-based recommendation interested user: collaborative filtering recommendation Copyright 2012 FUJITSU R&D CENTER CO.,LTD

Related Work SearchBuddies: Bring Search Engines Engines into the Conversation 这篇论文是对社交系统中的更新判断是否推荐，并推荐内容，其实现的内容与我们的任务很相似。 Emoticon smoothed language models for twitter sentiment analysis 这篇文章是交大做的twitter中的情感分析，其主要是将表情信息应用到语言模型中来做情感分析。微博识别中可以借鉴其使用微博表情的思路。 Finding similar questions in large question and answer archives 2005年，发表在CIKM上的论文内容是基于雅虎问答实现的根据答案找相似问题。可用于查询扩展。 Learning from the past: answering new questions with past answers 这篇论文发表在www 2012，内容是找相似问题，并把其答案返回给新问题 I want to answer who has a question yahoo answers recommender system 这篇论文是雅虎研究所做的基于QA系统中为用户推荐问题，此篇文章涉及很多的特征构造和选择。用户推荐可以借用其方法或特征构造。 Microblog changes Internet user's surfing habit & web content Internet users first logining microblog reach 20% Copyright 2012 FUJITSU R&D CENTER CO.,LTD

什么是问题微博? 首先必须满足是原创微博，其次满足以下条件之一：例子 1. 微博内容明确提出问题或询问建议，对于此类微博，如果其所提出的问题是客观的，可以回答，则认为是可推荐微博。问题的客观性是指其答案比较统一，导致问题的原因比较普遍和客观。如：“上火了，怎么办？”上火是普遍现象，可以为其推荐解决方法；而微博“社会，还真TMD有不要脸的，打坏了人，还不赔钱！我该怎么办，才可以让妈妈不上火”指明导致问题的原因是社会不公现象导致，因主观性较强，所以不为其做推荐。 2. 微博内容是陈述形式，陈述的内容不是记录型（记录完成某件事情）、评价型的（对某种现象的看法），分析内容的侧重点，如果其陈述的重点是将要或最近发生的事，且陈述的事实具有客观性和普遍性（客观性描述与1相同），并且该事实困扰着用户，还没有有效的解决方法或好的建议。例子心若闲，事多人忙心不忙；心不闲，事少心忙人不忙。（非问题微博）天气干燥，嘴唇上火起泡，怎么办？（问题微博） (1)对应的例子 For example, in the post “上火了，怎么办？”, the cause of the problem is internal heat, which is an general phenomenal. However, the reason of the post “社会，还真TMD有不要脸的，打坏了人，还不赔钱！我该怎么办，才可以让妈妈不上火” is society injustice, which is rather subjective, so there is no good solution to recommend Copyright 2012 FUJITSU R&D CENTER CO.,LTD

数据集数据集是从新浪微博中抓取，其中正例微博是通过关键字搜索，再进行人工标注得到，负例微博是从微博中随机抓取得到。训练集有6426条微博，正例662条，负例5764条，其中正例涉及的主题有：“胃好疼难受”、“头昏喉咙痛”、“脖子疼”、“牙疼”、“熬夜伤不起”等。测试集有3753条微博，正例302条，负例3453条，其中正例涉及主题有：“上火怎么办”、“油滴到衣服上”、“眼袋好重”、“纽曼怎么样”、“自动关机自动重启”、“佳能多少钱”、“父亲节送什么”、“快速消肿”等。 Copyright 2012 FUJITSU R&D CENTER CO.,LTD

系统实现原理本系统分为两大模块：问题微博识别模块和答案推荐模块。问题微博识别模块采用SVM分类器，提取微博4种不同的特征：情感特征（emotion）、事件特征（event）、词语情感特征（percent）以及外部特征（external），分类器在不同的特征实例集上训练模型，预测时，加载各种模型，采用投票方式得到最终类别。答案推荐模块：分别从web和weibo中获取相关内容推荐给用户。web推荐是将去除表情信息的微博作为查询，在百度知道中搜索，然后对其结果重新计算相似度，将最相关问题的答案返回给用户。weibo推荐是提取微博的关键字将其作为查询主题，在新浪微博中搜索，并对检索结果重排序，将前5条微博作为推荐内容。 Copyright 2012 FUJITSU R&D CENTER CO.,LTD

微博识别特征提取分类集成预测内部特征外部特征使用SVM分类器进行分类对内部特征的预测结果进行相对投票表情特征、事件特征、关键词情感特征外部特征知道特征、百科特征、微博特征分类使用SVM分类器进行分类集成预测对内部特征的预测结果进行相对投票结合相对投票结果与外部特征结果做绝对投票 Copyright 2012 FUJITSU R&D CENTER CO.,LTD

内部特征表情特征提取（emotion特征）事件特征提取（event特征）关键词情感特征提取（percent特征）输入：微博和悲观表情文档处理：判断微博是否含有悲观表情输出：含有，则返回1；否则，返回0 事件特征提取（event特征）输入：微博处理：分词和词性标注，判断是否含有词性为t (时间)，nr (人名)，ns (地名)，nt (机构)的词输出：四个二值数字（由0或1组成），如果包含以上词性，则返回1，否则，返回0. 关键词情感特征提取（percent特征）输入：训练集和微博处理：1）将训练集根据表情符号分为3个部分：包含正面表情微博，包含负面表情微博和不包含表情微博。然后对其分词并统计各集合单词词频。 2）对于输入的微博，将其分词和词性标注，提取词性为v，n，a，vn的词作为关键词，取其在（1）中提到的3个集合中出现的词频，并归一化，则单词w会返回三个值neg_ratio、pos_ratio、neu_ratio，整体微博的关键词情感特征即为其比值之和。输出：返回neg_ratio/pos_ratio 和 neg_ratio/neu_ratio Copyright 2012 FUJITSU R&D CENTER CO.,LTD

外部特征：知道特征输入：整体微博信息（去除表情符号）处理：（1）将整体微博输入百度知道搜索，提取搜索结果第一个页面的所有问题，然后对其进行分词和词性标注，去除词性为w（标点符号）、r（代词）、u（助词）和没有被标注的词，统计剩余单词的词频，均值化（除以问题个数），并排序，得到问题单词列表（QuestionWordList）。（2）对微博分词和词性标注，去除词性为w、r、u和没有被标注的词，得到微博单词列表（PostWordList），其中每个单词词频为1；计算其长度L，从QuestionWordList中获取top L个单词，然后计算PostWordList与其之间的余弦距离。输出：余弦距离：浮点型 Copyright 2012 FUJITSU R&D CENTER CO.,LTD

外部特征：百科特征首先根据百科开放分类爬取其下的词条，最终保存词条及其上层类别（第一层类别或第二层类别）。如：词条：鱼香肉丝→烹饪→饮食→生活（目前只划分到“饮食”那一层的类别），则烹饪是第二层类别，饮食是第一层类别。输入：微博处理：1）统计其含悲观表情的个数，保存为e_count； 2）然后将其去除后，分词和词性标注，获取词性为n（名词）、vn（名动词）、v（动词）、a （形容词）的词，将其作为关键词，统计其个数key_count，并获取其对应的主题类别。则统计主题类别的数目topic_count 和可以找到主题的关键词数目 topic_key_count.； 3）最后根据已有的疑问词列表，提取微博包含的疑问词个数r_count. 4）最后根据以下公式，为微博打分。微博统计包含的输出：处理过程得到的value值 Copyright 2012 FUJITSU R&D CENTER CO.,LTD

外部特征：微博特征输入：微博处理：1）去除表情符号，分词，词性标注，如果其长度小于等于5，则将具有词性标注的词作为关键词；否则，提取词性为n，vn，v的词，按照规则v+n, v+v,v+vn, n+v,n+n,n+nv及其组合提取关键词。 2）将每个关键词作为输入，在微博搜索中检索结果，获取前10个页面的微博。返回的结果包括微博ID、微博内容、发送微博博主的分数，是否转发等。 3）统计微博中转发条数比例（RT_ratio），名人微博比例（celeb_ratio)，乐观微博比例（Positive_ratio)，悲观微博比例（Negative_ratio)，URL微博比例（URL_ratio）。 4）每条微博的这5个信息量则是取关键词信息量的平均值输出：RT_ratio,celeb_ratio,Positive_ratio,Negative_ratio,URL_ratio Copyright 2012 FUJITSU R&D CENTER CO.,LTD

分类器训练 SVM分类器，其参数设置为“-S 0 -K 2 -D 3 -G 0.16 -R 0.0 -N 0.5 -M 40.0 -C 1.0 -E 0.0010 -P 0.1”。训练集中存在正负实例不平衡现象，通过多倍复制正例使得训练集中正例、负例条数均衡来避免。 Copyright 2012 FUJITSU R&D CENTER CO.,LTD

答案推荐答案推荐包含两部分：基于web推荐和基于weibo推荐基于web推荐 Copyright 2012 FUJITSU R&D CENTER CO.,LTD

基于weibo推荐目的：将微博搜索结果中最相关且信息量最大的微博内容返回。具体策略：（1）获取查询词（2）微博搜索结果排序首先，将除去表情符号的微博内容作为查询在百度知道中搜索，得到第一个页面中的所有问题集合，然后计算集合中所有词的词频并排序。其次，对微博内容分词，标注词性，取出词性为n，v，a，vn的词作为关键词，然后根据上一步得到的词频序列对候选关键词排序，最多取前5个词作为查询词。（2）微博搜索结果排序将查询词在微博搜索中进行搜索，取结果中的所有微博内容，对每条微博内容提取特征，打分，然后根据分数进行排序，取top 5 条微博结果最为推荐内容返回。 Copyright 2012 FUJITSU R&D CENTER CO.,LTD

实验结果分析问题微博识别答案推荐查询扩展根据以上介绍的分类器方法，微博识别精度为0.6822034，召回率0.52960527，其中关于健康类的微博其识别率相比其他类别高。其可能原因与训练集有关，训练集中正例包含的主题大部分是关于健康类别。答案推荐目前，基于百度知道返回的答案推荐结果要比基于微博搜索的推荐好，其主要原始是用于微博搜索的关键词不能搜索到比较好的微博推荐内容，所以下一步可以针对是否对微博查询词进行扩展，如何找到比较好的既与微博相关又比较有总结性的查询词？查询扩展将微博作为查询在百度知道中搜索，返回与其最相似的问题，并得到答案，然后再将答案作为查询在百度知道中搜索得到类似问题。微博原关键词扩展词眼袋好重。眼袋好重黑眼圈眼袋眼去是好办法有严重吃东西老是把油滴到衣服上，烦死了！本来就讨厌洗衣服… 洗衣服死烦讨厌衣服油渍洗清洗油污去除掉顽固到油 Copyright 2012 FUJITSU R&D CENTER CO.,LTD

Copyright 2012 FUJITSU R&D CENTER CO.,LTD