基于Hadoop平台的微博热点事件提取.

Slides:

Advertisements

Similar presentations

本文內容摘自：「公主變惡女 — 男人都愛我」 Mail ： kingbookmail.gmail.com.

Advertisements

第五章导数和微分 §1 导数的概念一、问题的提出 1. 自由落体运动的瞬时速度问题如图, 取极限得.

學校操作畫面. 建議使用 Chrom 瀏覽器開啟網址： ★帳號統計處學校代碼 6 個數字 +H01 人事帳號統計處學校代碼 6 個數字 +A01 教務 ★預設密碼驗證碼不分大小寫、點圖片可換一張 3. 登入 ※若有同處室第.

兵车行杜甫福州十一中语文组林嵘臻.

第十五章控制方法.

場內禁止飲食 104年度兼辦政風業務人員研習會課程表報到兼辦政風業務說明休息貪瀆不法案例介紹署長致詞午餐公務倫理意見交流

中华传统文化 ——礼俗、宗法.

市直单位财务明细信息表填报说明珠海市财政局 2013年12月 1.

综合实践活动设计与实践案例 ——《感恩父母》主题班会.

第5章排版的高级应用.

国学传统与企业文化建设刘大洋博士.

等你知道但以理書4.

校园信息管理系统河北科技大学网络中心 2000/4/10.

本章内容 3 建筑工程流水施工 3.1 流水施工的基本概念 3.2 流水施工主要参数 3.3 与流水施工方式有关的术语

霍乱及其调查处理传染病防治科谢华金寨疾控网站

EBU实施--行业知识快递 --电线电缆行业基础知识介绍 EBU行业及咨询实施部姓名：向书章 2010年9月22日 2010/09/5.

基于Hadoop的Map/Reduce框架研究报告

通用技术教学与实践常德市鼎城区第八中学刘启红.

现场调查报告的撰写.

教育媒体技术新发展与大学生微博.

关于职教发展的几个理念上海市教育科学研究院周亚弟.

创业计划书的编写白城师范学院创业教育与文化研究中心陆东辉.

生物学新课标.

一是靠车辆的轮子相对车身偏转一定角度实现；二是靠改变行走装置两侧的驱动力来实现；三是既改变两侧行走装置的驱动力又使轮子偏转。

高标准基本农田建设年度实施方案编制要点河南省土地整理中心樊雷二○一二年五月.

徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之

企业税收筹划与税务风险管理暨南大学财税系沈肇章.

第五讲城市对外交通规划主要内容提要 ★ 城市铁路交通规划 ★ 城市公路交通规划 ★ 城市航空交通规划 ★ 城市水运交通规划

讲义大家好！根据局领导的指示，在局会计科和各业务科室的安排下，我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽，便于我们为预算单位提供更优质的服务。下面我主要从三方面介绍集中支付业务，一是网上支付系统，二是集中支付业务流程及规定等，

第七章项目融资评估.

中国人民公安大学经费管理办法（试行）第一章总则第四条：“一支笔” “一支笔”--仅指单位主要负责人。负责对本单位的经费进行审核审批。

經濟部文書作業實務報告人：何國金.

2010年高考语文《考试大纲》对本考点的要求是:“正确使用标点符号。”能力层级为D(表达应用)。

發展東華特色課程期末成果發表呂進瑞國立東華大學財金系.

崇右技術學院電子公文線上簽核系統教育訓練

前不久看到了这样一则报道：某个大学校园里，一个大学生出寝室要给室友留一张字条，告诉他钥匙放在哪里。可是“钥匙”两个字他不会写，就问了其他寝室的同学，问了好几个，谁也不会写，没办法，只好用“KEY”来代替了。请大家就此事发表一下自己看法。

第一章　地球和地图第三节地图的阅读.

注重物理基本思想和方法教学讲究实效 ——2012年高考物理复习备考建议

經國管理學院電子公文線上簽核系統教育訓練

走近孔子，走进《论语》 ——青岛七中“百家讲坛”讲座

整數加減【教學準備篇】適用年級：1-4年級設計者：MRI團隊.

利用共同供應契約辦理大量訂購流程說明.

CHAPTER 6 認識MapReduce.

港口股份有限公司东源分公司降本增效部门：机械队流机二班发言人：程广州.

Homework 1(上交时间：10月14号) 倒排索引.

105年度大專校院校外實習學生團體保險第一產物保險股份有限公司營業二部蔡承瑋.

織物的認識演示者:陳明玲美容科:家政概論.

淑明女子大學在哪裡?. 淑明女子大學在哪裡? 學校週遭第一次剛到淑大時?

定积分的应用.

國有公用財產管理簡介總務處保管組 104年04月07日.

第十三章　存貨管理 2.

基于云计算及数据挖掘技术的海量数据处理研究

北投溫泉博物館建築特色 ★小組成員：高103林孟璇、林念儀、施妤柔★.

微信商城系统操作说明色卡会智能门店.

第三章世界文明的蛻變與互動第一節歐洲社會的蛻變第二節世界文明的交匯第三節亞洲大帝國的發展 1.

兒童及少年保護、家庭暴力及性侵害事件、高風險家庭宣導與通報

教育部特殊教育通報網學生異動、接收操作說明.

大学计算机基础——周口师范学院第3章 Word字处理软件 3.8页眉与页脚.

進貨管理介接更動有關「匯入進貨資料」傳，請注意「上游業者出貨單號」，上游業者出貨單號要配合「匯出上游出貨資料」中的「出貨單號」或是「自有系統上傳的出貨單號」。 Ø 若「自有系統上傳的出貨單號」有值，則「匯入進貨資料」中的「上游業者出貨單號」就要key入「匯出上游出貨資料」中的「自有系統上傳的出貨單號」。

105學年度第2學期會計室業務重點宣導 106年3月8日.

大綱一.受試者之禮券/禮品所得稅規範二.範例介紹三.自主管理四.財務室提醒.

手机淘宝“变形”产品—微淘操作流程指南（内测版）.

一棵小树十个杈，不长叶子不开花，能学会算还会画，天天干活不说话。猜一猜.

東吳大學『樂齡大學』外雙溪環境與生態產業黃顯宗東吳大學微生物學系 101.

第十章、核銷系統操作之注意事項.

银川社保网上申报宁夏人力资源和社会保障网上服务大厅操作

走讀台灣旅遊計畫範本.

‘人因罪與神隔絕’ 左邊代表每一個人像你和我。黑暗代表我們的罪。聖經說: 世人都犯了罪,虧缺了神的榮耀。 (羅3:23)

Presentation transcript:

基于Hadoop平台的微博热点事件提取

大纲背景相关定义算法流程实验设置与分析总结

背景微博的即时通讯功能强大，用户可利用各种手段在微博上实时、快捷地发布社会热点事件。但是微博平台在短时间内发布大量信息的特点在一定程度上造成了信息的碎片化，而且迅速的信息更新速度易造成重要信息的不易检索。像汶川地震，温州动车事故这些事件都是从微博上第一时间被发布的。传播受众群体的广泛性；传播途径的草根性以及传播内容的原创性。对一段时间内的微博数据进行分析，提取在这段时间内的热点事件。

背景热点话题发现与跟踪（topic detection and tracking,TDT）就是从网络文本集中识别出突发性热点话题，并跟踪话题的演变过程。对热点话题的检测通常采用的方法有两种：（1）基于内容的热点话题检测；（2）基于时序特征的热点话题检测。基于内容的话题检测技术可以有效地识别和跟踪具有相似内容的话题，被广泛地运用在TDT和文本分析领域。但是这类方法不适合微博这种短文本内容的数据。

大纲背景相关定义算法流程实验设置与分析总结

微博标签（microblog tag）每个MT由两部分组成，微博内容C和该微博内容发表的时间T，记为（T,C）；定义：微博标签（microblog tag）每个MT由两部分组成，微博内容C和该微博内容发表的时间T，记为（T,C）；单词序列（word seqence）单词序列WS定义为（W,Fs）。其中W为单词，Fs={f1,f2,...fn}是单词W的词频序列，每个fi对应于一个单位时间内的词频。用户名，用户ID

定义：爆发度（butsty）假定每个单词的词频服从高斯分布，定义爆发度Bi为: 爆发序列(bursty sequence) 爆发序列BS定义为(W,Bs)。W为单词，Bs={b1,b2,...bn}是爆发序列，每个bi对应于一个词频的爆发度。

大纲背景相关定义算法流程实验设置与分析总结

算法流程

ws的生成 1. 将MT作为Map端的输入，每次读入一条MT数据，用中文分词法将C分成不同的单词W； 2.创建一个时间数组TL，并初始化为0，数组长度等于总的时间片段个数。根据T计算相对应的数组下标j，令TL[j]=1； 3.将每个单词W作为key，数组TL作为value输出到Reduce端； 4.在Reduce端，将每个key的value值相加，得到一个总的svalue。然后将key和svalue作为键值对返回。经过这样处理就能得到WS。

WS生成流程 Reduce 10

BS的生成 Map端读入一条WS数据，对每个ti时间段的词频fi，将其作为value值分别发给ti后的W个时间段; key是由单词w和对应的要发给的时间段j,以及在时间段j的词频fj组成的字符串; 这样在Reduce端，除最前面的W个时间片段外，每个时间片段都能得到其前面的W个词频。由前面的定义可知，要获得ti时刻的爆发度Bi，需要知道ti前W个时间段的词频fj（i-W<=j<i）. 最后采用一个类K-MENSE的聚类算法，将单词的爆发度序列聚类生成热点事件。

爆发时间段检测

大纲背景相关定义算法流程实验设置与分析总结

实验分析

时间爆发时间段检测

总结利用微博数据跟踪社会热点事件；利用Hadoop平台计算词频和爆发度；检测热点事件的爆发时间段；

谢谢！

Q & A