基于位置感知和负载均衡 MapReduce的Join算法优化 汇报人:黄梓铭 厦大数据库实验室 2015-3-7.

Slides:



Advertisements
Similar presentations
关于德国立能的疑难解答. Page  2 德国立能真正有效果吗?多长时间有效?  答:立能产品来自国际航天科技,曾作为国家机密封存了 20 年之久,一经投入民用市场就迅速受到高端人群和有识 之士的追捧!它的实验效果立竿见影,坚持使用时间越久, 对脊柱养护和人体整体的健康保健效果越好!
Advertisements

喜迎 G20 中国 CONTENTS 目 录目 录 1 中国美食 2 中国守护神 美食美食,顾名思义就是美味的食 物,贵的有山珍海味,便宜的 有街边小吃。但是不是所有人 对美食的标准都是一样的,其 实美食是不分贵贱的,只要是 自己喜欢的,就可以称之为美 食。吃前有期待、吃后有回味 的东西。美食遭遇心情的时候,
庄子思想 天地与我并生 万物与我为一 形而上的本体观念 法则、规范、不可思议之事. 庄子作品 极富想象力和浪漫色彩,擅用寓(寄托)言,《史 记》载: “ 其著书十余万言,大抵率寓言也 ” 。 又称《南华经》、《南华真经》 内篇 7 ,外篇 15 ,杂篇 11 《庄子》内容 《逍遥游》《齐物论》《养生主》《人间世》
教师队伍建设 组员:王英利 赵香媖 侯娟. 主讲内容 2. 中小学教师队伍建设 1. 职业教育师资队伍建设国际比较 3. 高校教师队伍建设与管理.
学分制改革为大学英语教学带来的 挑战与机遇 —— 武汉科技大学交流报告. Contents 武汉科技大学外国语学院简介 一 四 我校学分制改革后大学英语教学改革探索 二 学分制改革为大学英语教学带来的挑战 三 学分制改革为大学英语教学带来的机遇.
提 纲 三次考察与改革的回顾 1 学院三周来的新面貌 及下一步工作思路 2 凝心聚力、团结协作、狠抓落实 3.
因为爱,我们让研修果实更香甜 ——阜阳市临泉县小语1班第三期简报 编辑 葛泽付.
——以通渭县图书馆青树小项目“携老上网游”为例
甘肃小吃 文产二班 陶方 羊肉泡 牛肉面 暖锅.
励行“三严三实” 争做新时期“好干部” 专题教育党课 国电内蒙古东胜热电有限公司张殿福 2015年6月.
目 录 探索社会力量参与矛盾化解新模式 创新背景 主要做法 创新亮点 取得成效 杭州市信访局(“12345”)
计划组织协调能力类题型备考专场
2013浙江省行测专题 密卷解析及备考冲刺 罗 姮.
周刊 总第38期 2013年6月1日 本期编辑:翁茜茜 温州滨海学校教科室主办
先秦诸子的性情人生 “语文教材微专题系列研究”之一 复旦附中 李郦.
全国“三新”作文研讨会成果交流 罗外初中部 曾祎闱.
校园信息管理系统 河北科技大学网络中心 2000/4/10.
川信·中国奥园优债集合 资金信托计划1号 华南片区投资银行一部 2016年5月.
舟山港综合保税区文促元鼎文化发展有限公司
述职报告书.
中狮基金 年度工作计划 张国筠.
纳税人学堂课件天地第201509期 高新技术产业税收优惠政策培训 授课老师:周晶 上海市嘉定区国家税务局
医院后勤标准化信息化研究汇报 汇报人:黄如春.
中国好看的PPT模板网: 搜集整理发布
生物化学与养生 化学三班 张震.
深入贯彻党的十七届四中全会精神 切实提高全区组织工作科学化水平
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
目 录 CONTENTS 公积金信息系统升级概述 缴存和提取业务培训 第一部分 第二部分 Part 1 Part 2
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
第三章 心理安全 广西师范大学 罗蕾.
人民通史版 第二部分 近代世界 专题总结.
关注教师、学生的应用体验 营造实用、高效的数字校园生态环境
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
圖書館新生導覽 圖書館使用秘笈~新鮮人篇 陳孟珠
时间管理 -----高一团体辅导.
2010年,全世界约有盲人4000万到4500万,低视力者是盲人的3倍,约1.4亿人
中交天津航道局有限公司 党委工作部 陈晓敏 2012年11月5日
2016年6月.
解读《全国文化市场技术与服务平台应用规范》
风 波 鲁 迅 江南水乡风景.
前不久看到了这样一则报道:某个大学校园里,一个大学生出寝室要给室友留一张字条,告诉他钥匙放在哪里。可是“钥匙”两个字他不会写,就问了其他寝室的同学,问了好几个,谁也不会写,没办法,只好用“KEY”来代替了。 请大家就此事发表一下自己看法。
项目办公室.
28 唯一的听众 九年制义务教育课本第十册 Contents 作者:落雪.
中共盘县卫生和计划生育局党组落实主体责任情况汇报
利用共同供應契約 辦理大量訂購流程說明.
CHAPTER 6 認識MapReduce.
Skew Join相关论文 报告人:蔡珉星 厦大数据库实验室
Homework 1(上交时间:10月14号) 倒排索引.
Cloud Computing Google云计算原理.
2017 工作总结汇报模板 木子尧 汇报人 营销部第二小组 2017.X.X.
105年度 大專校院校外實習學生 團體保險 第一產物保險股份有限公司 營業二部 蔡承瑋.
教專評轉型規劃草案說明 臺中市教專中心秘書 張素女
K/3 Cloud V6.0产品培训 -- s-HR集成
運動競賽制度 授課教師:鄭俊傑副教授.
K/3 Cloud V6.0产品培训 -- 业务监控 K/3 Cloud 产品部
新个人所得税 相关政策解读.
K/3 Cloud V6.1产品培训 -- 业务监控 K/3 Cloud 产品部
汕头大学医学院附属肿瘤医院 医务科 药学部 2014年12月
微信商城系统操作说明 色卡会智能门店.
产品防伪防窜管理系统 运营中心操作指引 信息管理部.
基于MapReduce的Join算法优化
音乐1 工作坊 学习简报 (第1期) 音乐1坊主: 胡真真 2016年5月.
綠色食品的銷售前境 此專題習作乃是我組嘔心瀝血的作品 , 保證史無前例 . 如在任何地方見過此雷同習題 . 請認定他是抄我們的!! 因為呢個電腦部分係全權由全組最精於電腦個個負責! 絕無可能流出市面!! 想知我個組有邊個!? 睇落去就知!
兒童及少年保護、 家庭暴力及性侵害事件、 高風險家庭 宣導與通報
教育部特殊教育通報網 學生異動、接收操作說明.
進貨管理介接更動 有關「匯入進貨資料」傳,請注意「上游業者出貨單號」,上游業者出貨單號要配合「匯出上游出貨資料」中的「出貨單號」或是「自有系統上傳的出貨單號」。 Ø  若「自有系統上傳的出貨單號」有值,則「匯入進貨資料」中的「上游業者出貨單號」就要key入「匯出上游出貨資料」中的「自有系統上傳的出貨單號」。
请添加标题 请添加作者.
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
银川社保网上申报 宁夏人力资源和社会保障 网上服务大厅操作
Presentation transcript:

基于位置感知和负载均衡 MapReduce的Join算法优化 汇报人:黄梓铭 厦大数据库实验室 2015-3-7

目录页 CONTENTS PAGE P1.Reduce-side Join P2.已有的研究方法 P3.我的创新点 P4.总结

Reduce-side Join

Reduce-side Join 以id为key连接 表A 表B

Mapreduce的Join过程

所以我们主要就是要通过设计新的partition函数来替换掉已有的hash函数,已解决负载不均衡的问题。接下来我们看看已有的研究成果。 Hadoop现有的划分方法以组为单位进行划分,具有相同键的所有记录被分配到同一个Reducer进行处理.这种划分方法没有考虑每个组内包含的记录数目。比如partition函数是通过hash函数来觉决定分区结果。如果是数据均衡情况下,分区效果还是很理想的。但是在数据倾斜的情况下,就会出现一些较大key值被分配到同一个Reducer上照成负载的不均衡。比如下面这个例子。 所以我们主要就是要通过设计新的partition函数来替换掉已有的hash函数,已解决负载不均衡的问题。接下来我们看看已有的研究成果。

已有研究方法

基于动态划分的负载均衡方法 论文《一种基于动态划分的MapReduce负载均衡方法》提出一种基于动态划分的方法

基于动态划分的负载均衡方法 从图中可以看到样本信息包含5个组,每组的记录数分别为20,18,10,9,3,根据算,法1,我们可以得到Reducer0分配到的样本组为<0,20>,Reducer1,分配到的样本组有2个,分别为<1,18>和<4,3>,Reducer2分配到的样本组为<2,10>和<5,9>.每个Reducer处理的记录总数分别为20,21和19,负载非常均衡. 论文《LEEN LocalityFairness- Aware Key Partitioning for MapReduce in the Cloud》

LEEN算法 论文《LEEN LocalityFairness- Aware Key Partitioning for MapReduce in the Cloud 》 该算法是对于每一个key通过一个最优化的方法将其分配到最合适的分块,从而达到reducer的负载均衡。不仅考虑了locality并且解决了数据倾斜(fairness)的问题,即它寻求的是一种(fairness/locality)的最小值

LEEN算法 论文《LEEN LocalityFairness- Aware Key Partitioning for MapReduce in the Cloud 》 74 44% 74 50% 77 46%

谢谢指导!