Finding question microblog post and recommend answers for it 林 春 2012.08.30
Background Underlying demand Identify Recommend Valuable solution Microblog revolution Change surfing habit of Internet: users first logining microblog reach 20% Make the web like a real social world Characteristics of microblog data Massive user-generated content (contain rare information) Complex and underlying relationships (authority user or expert) Fast Information propagation (get first-hand information about hot topic ) Changes of information seeking approach Asking question in social network become a popular form. 这几天海鲜吃多了,上火了,脸上冒痘痘了,呜呜…怎么办? Mission of microblog mining Identifying whether one post states something bothersome instantly and recommending a solution or an answer for it. Microblog changes Internet user's surfing habit & web content Internet users first logining microblog reach 20% Underlying demand Identify Recommend Valuable solution Copyright 2012 FUJITSU R&D CENTER CO.,LTD
Copyright 2012 FUJITSU R&D CENTER CO.,LTD
Our work Demand Identification Content recommendation identify the post expressing something bothersome or asking for information content-based model: topic & setiment detection classifier-based model: feature extraction & classify Demand Identification Content recommendation User recommendation recommend latest or exact content from web or microblog microblog re-rank to get best answer content-based & collaborative recommendation recommend authoritative and interested user authoritative user: content-based recommendation interested user: collaborative filtering recommendation Copyright 2012 FUJITSU R&D CENTER CO.,LTD
Related Work SearchBuddies: Bring Search Engines Engines into the Conversation 这篇论文是对社交系统中的更新判断是否推荐,并推荐内容,其实现的内容与我们的任务很相似。 Emoticon smoothed language models for twitter sentiment analysis 这篇文章是交大做的twitter中的情感分析,其主要是将表情信息应用到语言模型中来做情感分析。微博识别中可以借鉴其使用微博表情的思路。 Finding similar questions in large question and answer archives 2005年,发表在CIKM上的论文 内容是基于雅虎问答实现的根据答案找相似问题。可用于查询扩展。 Learning from the past: answering new questions with past answers 这篇论文发表在www 2012,内容是找相似问题,并把其答案返回给新问题 I want to answer who has a question yahoo answers recommender system 这篇论文是雅虎研究所做的基于QA系统中为用户推荐问题,此篇文章涉及很多的特征构造和选择。用户推荐可以借用其方法或特征构造。 Microblog changes Internet user's surfing habit & web content Internet users first logining microblog reach 20% Copyright 2012 FUJITSU R&D CENTER CO.,LTD
什么是问题微博? 首先必须满足是原创微博,其次满足以下条件之一: 例子 1. 微博内容明确提出问题或询问建议,对于此类微博,如果其所提出的问题是客观的,可以回答,则认为是可推荐微博。 问题的客观性是指其答案比较统一,导致问题的原因比较普遍和客观。如:“上火了,怎么办?”上火是普遍现象,可以为其推荐解决方法;而微博“社会,还真TMD有不要脸的,打坏了人,还不赔钱!我该怎么办,才可以让妈妈不上火”指明导致问题的原因是社会不公现象导致,因主观性较强,所以不为其做推荐。 2. 微博内容是陈述形式,陈述的内容不是记录型(记录完成某件事情)、评价型的(对某种现象的看法),分析内容的侧重点,如果其陈述的重点是将要或最近发生的事,且陈述的事实具有客观性和普遍性(客观性描述与1相同),并且该事实困扰着用户,还没有有效的解决方法或好的建议。 例子 心若闲,事多人忙心不忙;心不闲,事少心忙人不忙。(非问题微博) 天气干燥,嘴唇上火起泡,怎么办? (问题微博) (1)对应的例子 For example, in the post “上火了,怎么办?”, the cause of the problem is internal heat, which is an general phenomenal. However, the reason of the post “社会,还真TMD有不要脸的,打坏了人,还不赔钱!我该怎么办,才可以让妈妈不上火” is society injustice, which is rather subjective, so there is no good solution to recommend Copyright 2012 FUJITSU R&D CENTER CO.,LTD
数据集 数据集是从新浪微博中抓取,其中正例微博是通过关键字搜索,再进行人工标注得到,负例微博是从微博中随机抓取得到。 训练集有6426条微博,正例662条,负例5764条,其中正例涉及的主题有:“胃好疼难受”、“头昏喉咙痛”、“脖子疼”、“牙疼”、“熬夜伤不起”等。 测试集有3753条微博,正例302条,负例3453条,其中正例涉及主题有:“上火怎么办”、“油滴到衣服上”、“眼袋好重”、“纽曼怎么样”、“自动关机自动重启”、“佳能多少钱”、“父亲节送什么”、“快速消肿”等。 Copyright 2012 FUJITSU R&D CENTER CO.,LTD
系统实现原理 本系统分为两大模块:问题微博识别模块和答案推荐模块。 问题微博识别模块采用SVM分类器,提取微博4种不同的特征:情感特征(emotion)、事件特征(event)、词语情感特征(percent)以及外部特征(external),分类器在不同的特征实例集上训练模型,预测时,加载各种模型,采用投票方式得到最终类别。 答案推荐模块:分别从web和weibo中获取相关内容推荐给用户。web推荐是将去除表情信息的微博作为查询,在百度知道中搜索,然后对其结果重新计算相似度,将最相关问题的答案返回给用户。weibo推荐是提取微博的关键字将其作为查询主题,在新浪微博中搜索,并对检索结果重排序,将前5条微博作为推荐内容。 Copyright 2012 FUJITSU R&D CENTER CO.,LTD
微博识别 特征提取 分类 集成预测 内部特征 外部特征 使用SVM分类器进行分类 对内部特征的预测结果进行相对投票 表情特征、事件特征、关键词情感特征 外部特征 知道特征、百科特征、微博特征 分类 使用SVM分类器进行分类 集成预测 对内部特征的预测结果进行相对投票 结合相对投票结果与外部特征结果 做绝对投票 Copyright 2012 FUJITSU R&D CENTER CO.,LTD
内部特征 表情特征提取 (emotion特征) 事件特征提取 (event特征) 关键词情感特征提取 (percent特征) 输入:微博和悲观表情文档 处理:判断微博是否含有悲观表情 输出:含有,则返回1;否则,返回0 事件特征提取 (event特征) 输入:微博 处理:分词和词性标注,判断是否含有词性为t (时间),nr (人名),ns (地名),nt (机构)的词 输出:四个二值数字(由0或1组成),如果包含以上词性,则返回1,否则,返回0. 关键词情感特征提取 (percent特征) 输入:训练集和微博 处理:1)将训练集根据表情符号分为3个部分:包含正面表情微博,包含负面表情微博和不包含表情微博。然后对其分词并统计各集合单词词频。 2)对于输入的微博,将其分词和词性标注,提取词性为v,n,a,vn的词作为关键词,取其在(1)中提到的3个集合中出现的词频,并归一化,则单词w会返回三个值neg_ratio、pos_ratio、neu_ratio,整体微博的关键词情感特征即为其比值之和。 输出:返回neg_ratio/pos_ratio 和 neg_ratio/neu_ratio Copyright 2012 FUJITSU R&D CENTER CO.,LTD
外部特征:知道特征 输入:整体微博信息(去除表情符号) 处理:(1)将整体微博输入百度知道搜索,提取搜索结果第一个页面的所有问题,然后对其进行分词和词性标注,去除词性为w(标点符号)、r(代词)、u(助词)和没有被标注的词,统计剩余单词的词频,均值化(除以问题个数),并排序,得到问题单词列表(QuestionWordList)。 (2)对微博分词和词性标注,去除词性为w、r、u和没有被标注的词,得到微博单词列表(PostWordList),其中每个单词词频为1;计算其长度L,从QuestionWordList中获取top L个单词,然后计算PostWordList与其之间的余弦距离。 输出:余弦距离:浮点型 Copyright 2012 FUJITSU R&D CENTER CO.,LTD
外部特征:百科特征 首先根据百科开放分类爬取其下的词条,最终保存词条及其上层类别(第一层类别或第二层类别)。如:词条:鱼香肉丝→烹饪→饮食→生活(目前只划分到“饮食”那一层的类别),则烹饪是第二层类别,饮食是第一层类别。 输入:微博 处理:1)统计其含悲观表情的个数,保存为e_count; 2)然后将其去除后,分词和词性标注,获取词性为n(名词)、vn(名动词)、v(动词)、a (形容词)的词,将其作为关键词,统计其个数key_count,并获取其对应的主题类别。则统计主题类别的数目topic_count 和 可以找到主题的关键词数目 topic_key_count.; 3)最后根据已有的疑问词列表,提取微博包含的疑问词个数r_count. 4)最后根据以下公式,为微博打分。微博统计包含的 输出:处理过程得到的value值 Copyright 2012 FUJITSU R&D CENTER CO.,LTD
外部特征:微博特征 输入:微博 处理:1)去除表情符号,分词,词性标注,如果其长度小于等于5,则将具有词性标注的词作为关键词;否则,提取词性为n,vn,v的词,按照规则v+n, v+v,v+vn, n+v,n+n,n+nv及其组合提取关键词。 2)将每个关键词作为输入,在微博搜索中检索结果,获取前10个页面的微博。返回的结果包括微博ID、微博内容、发送微博博主的分数,是否转发等。 3)统计微博中转发条数比例(RT_ratio),名人微博比例(celeb_ratio),乐观微博比例(Positive_ratio),悲观微博比例(Negative_ratio),URL微博比例(URL_ratio)。 4)每条微博的这5个信息量则是取关键词信息量的平均值 输出:RT_ratio,celeb_ratio,Positive_ratio,Negative_ratio,URL_ratio Copyright 2012 FUJITSU R&D CENTER CO.,LTD
分类器训练 SVM分类器,其参数设置为“-S 0 -K 2 -D 3 -G 0.16 -R 0.0 -N 0.5 -M 40.0 -C 1.0 -E 0.0010 -P 0.1”。 训练集中存在正负实例不平衡现象,通过多倍复制正例使得训练集中正例、负例条数均衡来避免。 Copyright 2012 FUJITSU R&D CENTER CO.,LTD
答案推荐 答案推荐包含两部分:基于web推荐和基于weibo推荐 基于web推荐 Copyright 2012 FUJITSU R&D CENTER CO.,LTD
基于weibo推荐 目的:将微博搜索结果中最相关且信息量最大的微博内容返回。 具体策略: (1)获取查询词 (2)微博搜索结果排序 首先,将除去表情符号的微博内容作为查询在百度知道中搜索,得到第一个页面中的所有问题集合,然后计算集合中所有词的词频并排序。 其次,对微博内容分词,标注词性,取出词性为n,v,a,vn的词作为关键词,然后根据上一步得到的词频序列对候选关键词排序,最多取前5个词作为查询词。 (2)微博搜索结果排序 将查询词在微博搜索中进行搜索,取结果中的所有微博内容,对每条微博内容提取特征,打分,然后根据分数进行排序,取top 5 条微博结果最为推荐内容返回。 Copyright 2012 FUJITSU R&D CENTER CO.,LTD
实验结果分析 问题微博识别 答案推荐 查询扩展 根据以上介绍的分类器方法,微博识别精度为0.6822034,召回率0.52960527,其中关于健康类的微博其识别率相比其他类别高。其可能原因与训练集有关,训练集中正例包含的主题大部分是关于健康类别。 答案推荐 目前,基于百度知道返回的答案推荐结果要比基于微博搜索的推荐好,其主要原始是用于微博搜索的关键词不能搜索到比较好的微博推荐内容,所以下一步可以针对是否对微博查询词进行扩展,如何找到比较好的既与微博相关又比较有总结性的查询词? 查询扩展 将微博作为查询在百度知道中搜索,返回与其最相似的问题,并得到答案,然后再将答案作为查询在百度知道中搜索得到类似问题。 微博 原关键词 扩展词 眼袋好重。 眼袋 好 重 黑 眼圈 眼袋 眼 去 是 好 办法 有 严重 吃东西老是把油滴到衣服上,烦死了!本来就讨厌洗衣服… 洗 衣服 死 烦 讨厌 衣服 油渍 洗 清洗 油污 去除 掉 顽固 到 油 Copyright 2012 FUJITSU R&D CENTER CO.,LTD
Copyright 2012 FUJITSU R&D CENTER CO.,LTD