厦门大学数据库实验室 论文阅读成果和创新点 罗道文 2015-03-07.

Slides:



Advertisements
Similar presentations
模板的使用 教育学 江西教育学院教育系 冯芳 2012 - 10. 第二章 教育学的产生和发展 第一节 教育学的研究对象和任务 第二节 教育学的产生与发展 第三节 学习教育学的意义与方法.
Advertisements

第七組古文閱讀報告 組長:秀惠 組員:孟筑、雅曼、雅文、盈蓁. 《朱買臣苦學有成》之原文翻譯 朱買臣,字翁子,吳人也。 朱買臣,字翁子,吳國人。 家貧,好讀書,不治產業,常刈(一ˋ)薪 樵,賣以給 (ㄐㄧ ˇ ) 食。 家裡雖然很窮困,但是他還是很喜歡讀書,因 不懂得如何治理產業,只能靠著上山砍材去城.
你不知道的 3M P 班級 : 創意二甲 指導老師 : 袁又華 組長 : 林毓茹 組員 : 林以軒 林欣汝 陳盈羽 陳怡如 劉玉婷.
用 藥 安 全 用 藥 安 全 護 理 師 張 嘉 芬. 前 言 前 言 正確用藥的方法 藥袋上的秘辛 為了減少重大疾病或是醫療處理、 用藥不當的相關事件發生。
阿尔伯特亲王 阿尔伯特亲王纪念碑 维多利亚女王夫妇 维多利亚女王一家 建造水晶宫 水晶宫初建时的照片.
梦想启航 ——大学生活与职业规划专题讲座.
河北保定外国语学校 高三家长会.
五所交大是一家 演讲: 孔谐和 尹天威.
以信息化带动教育现代化,打造教育的“南山质量”
个体税收征管政策讲解 浏阳市地方税务局.
封面 2015易驾考最新分享: 科目二考试方法秘诀 文章来源:易驾考官网.
基于行业的 企业技术创新信息保障体系研究 刘 华 博士 中国科学技术信息研究所.
第四讲 1949—1991年的中苏关系 及其经验教训.
国学传统与企业文化建设 刘大洋 博士.
民主國家的政府體制 我國的中央政府體制 我國中央政府的功能 地方政府組織與功能
“鼠标加水泥”的百货公司——武汉中百 朱巧巧 陆嘉怡 田泽宇.
合理控制索道游客流量 确保景区可持续发展 云南丽江玉龙雪山索道 陈加林 二0一五年十一月.
千里挑一的“征途” ——浅谈中国“国考”热.
做好就业与自主创业的准备.
研修4组 学习简报(第3期) 主编:左文玲 2015年2月7日.
經費結報認證制度 種子人員講習會 主辦:汪憶芳 協辦:陳蓮萍 鄭曉雲 江一帆 日期:2012/09/04(二) 時間:09:00~12:15
潘集小学英语班 学习简报(第5期) 主编:吴婷 2016年2月28日.
鞘翅目 生科四乙 蘇俊融.
基于Hadoop的Map/Reduce框架研究报告
与领导、下级、同事的 沟通技巧.
潜能宇宙平衡法则 ——启动11.11天地人合新生命工程(分类系统) 凛然智慧(北京)教育咨询有限公司.
失眠的饮食及调理 北京国济中医院
中餐烹調實習Ⅲ 第九章中國菜系介紹 林可薇 製作.
新高考研究介绍 湖北省教育考试院项目研究组.
如东中专 学校文化课现状及提升举措的思考
監察院公職人員財產申報處 編製 報告人:林世忠
第3讲 时间管理.
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
续班指导.
高等教育出版社 工作汇报 化学化工分社 翟怡.
******班班级学习简报(第*期) 主编:*** ****年**月**日.
采购控制程序 2008年9月.
单位:十堰离退休职工服务中心 时间:2016年2月1日
中国家电企业如何打造全球化品牌 黄 辉.
四川信托-汇誉10号集合资金信托计划.
《现代大学 英语》 说课程 公共课部 臧朝晖 益阳医学高等专科学校.
保大人还是保小孩 ---产房里的伦理学问题 小组成员 蔡婷 基础医学系 郭灵飞 基础医学系
超星尔雅 tsk.erya100.chaoxing.com 网络通识课程学习指导.
中药学 第十一章 祛风湿药.
形势与政策 2016年上.
核心价值观记心中 主题班会
幼儿园班务管理实践.
中 医 内 科 学 第一章 第一节 感冒.
不動產市場 分析與預測 第四章 不動產市場分析與研究.
中共江西省委党史研究室 从井冈山斗争中汲取信念的力量 沈谦芳 (江西省委党史研究室主任,博士、教授)
电气安全技术和管理 ——面对工厂管理者的电气安全管理 主讲人:林仿生.
第四节 存货 一、存货的分类 二、存货核算的主要内容 三、存货的确认条件 四、存货入账价值的确定 五、存货发出的计价 六、原材料
七年级下册《生物学》 神经调节的基本方式 小关镇第一初级中学 张书珺.
家庭教育 ----关爱成长 颜士杰.
前不久看到了这样一则报道:某个大学校园里,一个大学生出寝室要给室友留一张字条,告诉他钥匙放在哪里。可是“钥匙”两个字他不会写,就问了其他寝室的同学,问了好几个,谁也不会写,没办法,只好用“KEY”来代替了。 请大家就此事发表一下自己看法。
Introduction to MapReduce
利用共同供應契約 辦理大量訂購流程說明.
CHAPTER 6 認識MapReduce.
Skew Join相关论文 报告人:蔡珉星 厦大数据库实验室
Homework 1(上交时间:10月14号) 倒排索引.
Online job scheduling in Distributed Machine Learning Clusters
学做统一 清香四溢 两学一做学习教育总结汇报 ——第七党总支 刘红平.
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
基于MapReduce的Join算法优化
iSIGHT 基本培训 使用 Excel的栅栏问题
第三章 世界文明的蛻變與互動 第一節 歐洲社會的蛻變 第二節 世界文明的交匯 第三節 亞洲大帝國的發展 1.
兒童及少年保護、 家庭暴力及性侵害事件、 高風險家庭 宣導與通報
基于位置感知和负载均衡 MapReduce的Join算法优化 汇报人:黄梓铭 厦大数据库实验室
基于列存储的RDF数据管理 朱敏
技專校院多元入學管道 國立臺北科技大學 教務處 涂雅筑.
Presentation transcript:

厦门大学数据库实验室 论文阅读成果和创新点 罗道文 2015-03-07

基于Locality-Aware的reduce任务调度 目 录 SAND_JOIN algorithm 基于Locality-Aware的reduce任务调度 SAND_JOIN算法不足之处 SAND_JOIN算法改进

SAND_JOIN algoririthm 思想:在执行reduce-join连接之前,先运行一个job,统计键值的分布情况,即抽样思想,接着利用样本的键值分布情况,对所有数据进行分区。 分为:简单范围分区和虚拟处理器范围分区。 简单的范围分区 思想:Map端采样:每个Mapper随机选取X个样本,有n个Mapper。 Reduce端统计分布:只需要一个Reducer对样本所有key值统计分析,构造出分区序列。

SAND_JOIN algoririthm 简单的范围分区(续) 若执行的Join连接有N个Reduce,则可以根据步长n*x/N获得一个分区序列。 例如: Sample:[1,3,3,4,5,5,6,6,6,6,8,9,9,10,10],5个Reducer,步长为3, 分区序列为:[3,5,6,9] Join Partition: key≤3 3<key≤5 5<key≤6 6<key≤9 9<key [1,3,3] [4,5,5] [6,6,6,6] [8,9,9] [10,10] 倾斜情况: Samples: [1, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10], 5个Reducer,步进3 分区序列: [3, 5, 6, 6] -> 键为6的有两个可选Reducer 解决: build relation: 随机选择一个可选Reducer probe relation: 需发送到每个可选Reducer 适合一个大表一个小表的情况!

SAND_JOIN algoririthm 倾斜键存在大小表的情况 Samples: [1, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10], 5个Reducer,步进3 分区序列: [3, 5, 6, 6] -> 键为6的有两个可选Reducer 3 和 4 R join S,对于键6,若 R.6 == S.6 可将所有的S.6传输到3和4上,然后R.6可以随机分配到3或4上 其实就是x*y=x*(y1+y2)=x*y1+x*y2

SAND_JOIN algoririthm 论文具体实现: 1.将小表S加载到每一台机器,建立哈希表,<key,tuplelist>的形式。 2.当R表某个键值key分配到某个Reducer上时,从哈希表中检索key的value值,即tuplelist,与R表中的元组做Join操作。

SAND_JOIN algoririthm 虚拟处理器范围分区 实际是N个Reducer,但假定分成 α*N 个分区(α为整数)。 例如 Samples: [1, 3, 4, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 11, 11, 11, 15, 16], 5个Reducer Join Partition: [1,3,4,4], [5,5,6,6], [6,6,6,6], [9,10,10,11,11,11], [15,16] α = 2,则分成2*5=10个分区 Samples: [1, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 11, 11, 11, 15, 16], 10个Reducer Join Partition: [1,3,3], [4], [5,5], [6,6], [6,6], [6,6], [9,10,10], [11], [11,11], [15,16] · 采用虚拟范围分区,数据分配更加均衡 · 处理方式: 轮叫调度 或 当某一节点完成时,将下一剩余任务分配给该节点 · 论文的实验结果表明虚拟范围分区优于简单范围分区

SAND_JOIN algoririthm

Locality-Aware的reduce任务调度 “Hadoop’s framework adopts a pull scheduling strategy rather than a push one” 意思就是说JobTracker并不是把map和reduce任务push给TaskTracer,而是TaskTracker通过请求向JobTracker pull一个map或者reduce任务。 思想:尽量将某个key分配给所有节点中该key最大的节点。 优点:减少数据量的传输。

Locality-Aware的reduce任务调度 TTi:Tasktracker i JT:JobTracker PRi:TTj:表示TTj产生的数据分配给Ri.

Thanks for listening