Skew Join相关论文报告人：蔡珉星厦大数据库实验室 2014-08-30.

Slides:

Advertisements

Similar presentations

模板的使用教育学江西教育学院教育系冯芳 2012 － 10. 第二章教育学的产生和发展第一节教育学的研究对象和任务第二节教育学的产生与发展第三节学习教育学的意义与方法.

Advertisements

大数据基础技术和应用. 大纲大数据概述大数据基础技术工程技术策略技术典型应用我们处于数据爆炸的时代数据库文字记录照片线下数据信息化网页数据用户行为记录数字图像互联网 - 移动互联网设备监控智能家居摄像头传感器地球上至今总共的数据量：在 2006 年，个人用户才刚刚迈.

“ 菸 ” 之非福 Part Ⅰ. 你的想法 ─ Q1 ：你覺得他很有個性嗎？ Q2 ：吸菸會增加個人魅力嗎？ Q3 ：吸菸會讓人感覺成熟？

用藥安全用藥安全護理師張嘉芬. 前言前言正確用藥的方法藥袋上的秘辛為了減少重大疾病或是醫療處理、用藥不當的相關事件發生。

阿尔伯特亲王阿尔伯特亲王纪念碑维多利亚女王夫妇维多利亚女王一家建造水晶宫水晶宫初建时的照片.

學會摘要四年級 ( 內容擷取自劍潭國小陳錦蓮和詹珮怡老師的簡報 ). 2 分享綱要 1 1 什麼是摘要 2 3 如何教摘要實例與實際操作.

我們可以如何應付氾濫 ? 2c 第三組. 目錄防洪 (1) 防洪 (2) 湖北坪興建三峽主壩簡介長江三峽水利樞紐工程三峽工程的利益 (Part1) 三峽工程的利益 (Part2) 三峽工程的弊 (Part1) 三峽工程的弊 (Part2) 總結組員名單完.

1 寫作測驗武功秘笈洪德惠老師 99 年 1 月 18 日. 2 PART1 理論部分 3 寫作測驗的基本能力 1. 能掌握寫作步驟，充實作品內容，精確表達自己的思想。 2. 能依收集材料立意、選材、安排段落及組織等步驟行文。 3. 能運用觀察的方法觀察周遭事物，並能寫下重點。 4. 能適切地遣詞造句，使用正確的標點符號，完.

梦想启航 ——大学生活与职业规划专题讲座.

備審資料與面試準備高雄醫學大學醫學系林郁涵.

河北保定外国语学校高三家长会.

千秋大业在担当《中国共产党问责条例》解读提纲.

以信息化带动教育现代化，打造教育的“南山质量”

个体税收征管政策讲解浏阳市地方税务局.

封面 2015易驾考最新分享：科目二考试方法秘诀文章来源：易驾考官网.

基于行业的企业技术创新信息保障体系研究刘华博士中国科学技术信息研究所.

第四讲 1949—1991年的中苏关系及其经验教训.

大型探索节目《谜》之感恩.

“鼠标加水泥”的百货公司——武汉中百朱巧巧陆嘉怡田泽宇.

合理控制索道游客流量确保景区可持续发展云南丽江玉龙雪山索道陈加林二0一五年十一月.

千里挑一的“征途” ——浅谈中国“国考”热.

研修4组学习简报(第3期) 主编：左文玲 2015年2月7日.

潘集小学英语班学习简报(第5期) 主编：吴婷 2016年2月28日.

生命停看聽—生命圖書館萬中選一的祝福推薦人：彰師附工進修學校蘇郁惠.

基于Hadoop的Map/Reduce框架研究报告

与领导、下级、同事的沟通技巧.

潜能宇宙平衡法则 ——启动11.11天地人合新生命工程（分类系统）凛然智慧（北京）教育咨询有限公司.

回顾与展望：高州经验与广东医改省卫生计生委、省医改办黄飞 2015年7月3日.

作文教學變奏曲在一個空桶裡舀水，只是枉然；在一頭公牛身上擠奶，則是危險；讓一個沒有話的人說話，那就是——作文!（史英）

愛心月課程活動設計者：洪雪玲老師.

《乡村教师支持计划年》解读.

巨量資料平台： Hadoop的生態系.

1-3 探究自然的科學方法.

幸福大讲堂也谈老年朋友的 “老有所□” 爸妈在线专家宣讲团 ——老年朋友如何乐度后半生概述主讲：钱锡安

第六章数据库设计.

数据库应用技术天津大学计算机基础教学部 2013年9月.

姓名：梁晓莹职务：安徽省旅游局安全办主任（高级经济师）中国旅游研究院（华侨大学）旅游安全研究基地行业顾问经历：自1987年就职于安徽省旅游局自2009年主持安全办工作曾主编《旅游安全宣传手册——暨安徽旅游安全格言警句精选》、《安徽旅游安全》、《安徽旅游发展大事记》等承办过“安徽省旅游安全演讲征文大赛”及“旅游安全调研成果奖”评选等工作.

基于hadoop的数据仓库技术.

本活動想解決的問題是……. 本活動想解決的問題是…… 130最少要加上多少才能被8整除？ 130最少要減去多少才能被8整除？《除法定理》被乘數=乘數 x 商 + 餘數.

發展東華特色課程期末成果發表呂進瑞國立東華大學財金系.

雞蛋這樣孵出小雞的動物的生殖 Part I.

前不久看到了这样一则报道：某个大学校园里，一个大学生出寝室要给室友留一张字条，告诉他钥匙放在哪里。可是“钥匙”两个字他不会写，就问了其他寝室的同学，问了好几个，谁也不会写，没办法，只好用“KEY”来代替了。请大家就此事发表一下自己看法。

第三章人类社会及其发展规律.

Introduction to MapReduce

利用共同供應契約辦理大量訂購流程說明.

分布式系统中的关键概念及Hadoop的起源、架构、搭建

9 SELECT敘述的進階查詢 9-1 SQL的多資料表查詢 9-2 合併查詢 9-3 集合運算查詢 9-4 子查詢

課程名稱：資料庫系統授課老師：李春雄博士

CHAPTER 6 認識MapReduce.

厦门大学数据库实验室 MapReduce 连接

第九章進階的查詢技巧.

基于大数据的物流资源整合福建师范大学协和学院沈庆琼.

Homework 1(上交时间：10月14号) 倒排索引.

第18章 SQL結構化查詢語言 18-1 SQL語言的基礎 18-2 SQL的查詢指令 18-3 SQL子查詢與合併查詢.

A Big Data Framework for u-Healthcare Systems Utilizing Vital Signs

学习目标 1、什么是表连接 2、表连接类型 3、表连接区别.

查询与视图蔡海洋.

第14章 SQL数据查询与操纵内容提要本章知识点

基于云计算及数据挖掘技术的海量数据处理研究

基于MapReduce的Join算法优化

公务卡日常管理篇办卡激活/遗失补办/ 停用销卡/额度调整财务处 2016年.

第三章世界文明的蛻變與互動第一節歐洲社會的蛻變第二節世界文明的交匯第三節亞洲大帝國的發展 1.

兒童及少年保護、家庭暴力及性侵害事件、高風險家庭宣導與通報

中国农业科学院博士后学术论坛博士后基金申请的经验及体会中国农业科学院生物技术研究所秦华博士

——向刑事案件被告人家属调查取证的伦理性讨论

資料庫系統 Database System 施莉萍 2017/12/28.

基于位置感知和负载均衡 MapReduce的Join算法优化汇报人：黄梓铭厦大数据库实验室

统计学第7章参数估计教师：张文利.

Experimental Analysis of Distributed Graph Systems

第 9 章查詢資料－善用 SELECT 敘述.

Presentation transcript:

Skew Join相关论文报告人：蔡珉星厦大数据库实验室 2014-08-30

论文：Efficient outer join data skew handling in parallel DBMS 目录遇到的问题论文：Efficient outer join data skew handling in parallel DBMS 其他论文

论文：Efficient outer join data skew handling in parallel DBMS Part 1

背景知识 Inner join 和 Outer join： inner join (等价于 join) 是求两个集合的交集 Left outer join: 返回左表中的所有结果，若右表有匹配项，则返回结果，否则返回NULL。 Right outer join: 返回的是右表中的所有结果…… Full outer join: 返回的是左右表中的所有结果……

Outer join 实例考虑如下Outer join实例 R(x, a) S(y, b) T(z, d)

Outer join 实例假设先进行 R left outer join S，再进行left outer join T

Outer join 实例假设先进行 R left outer join S，再进行left outer join T

Outer join 实例假设先进行 R left outer join S，再进行left outer join T J.c left outer join T.d J.c的部分数据为NULL，需要单独进行分区处理。常规情况： H(null) = 1 导致大量含NULL的数据聚集在1号Reducer上

Outer join 实例

问题分析 Outer join 存在的问题：由于outer join操作本身的特性，结果中的某些列会出现NULL值，如果这包含NULL值的列再参与其他的join操作（多表连接），在常规的解决方法中，是将含NULL值数据都划分到某个节点上（H(NULL) = x），从而导致在原始数据不倾斜的情况下，join操作过程却出现了倾斜情况。

若中间结果为NULL的行，最终结果中新字段也为NULL 问题分析解决 Outer join 存在的问题：随机分配含NULL值的数据，而不是聚集在某一个节点上。 H(NULL) = random(1, n) 分析一下上述方法的执行结果 R left outer join S T 节点的最终结果 x a y c z 2 9 1 3 N 6 x a y c 2 9 1 3 N 6 z d 3 1 4 5 7 left outer join 若中间结果为NULL的行，最终结果中新字段也为NULL

问题解决解决Outer join（该实例）存在的问题的最佳方法：直接将新字段填充为NULL，输出即可，无需重新分配来进行剩下的join操作。 R left outer join S的结果

问题解决解决 Outer join 存在的问题的最佳方法：结果分成两部分：是否包含NULL值，不包含NULL的数据继续参与后续join

包含NULL的数据直接填充新字段为NULL。问题解决解决 Outer join 存在的问题的最佳方法：包含NULL的数据直接填充新字段为NULL。最后将两部分合并即为最终结果。

其他论文 Part 3

+ A New Framework for Join Product Skew 解决问题核心思想解决Join操作中的数据倾斜问题统计出每个join key的频次；根据节点处理该join key的代价（数据量），判断是否会出现倾斜情况；如果会出现倾斜，比较两个表中该join key的频次：例如Fr > Fs，则将R表中的该join key的数据均分到多个Reducer，将S 表中该join key的数据广播到这些Reducer上。 1000个A + 500个A

Advanced Join Strategies for Large-Scale Distributed Computation 主要内容分析了常见的Join操作，讨论如何实现有效、健壮的join算法。如何解决倾斜问题核心想法：区别处理高频次的join key数据和低频次的join key数据低频次的join key采用hash partition即可，高频次的join key依情况选择广播join或重分区join，或两者结合。判断是否是会出现倾斜的高频次join key （根据节点处理代价）对高频次、低频次join key的处理不同

MapReduce上基于抽样的数据划分最优化研究主要内容基于抽样的划分是一种比较有效的数据划分方法，为了使得抽样方法发挥最大程度的效益，研究了抽样效果与其重要影响因素之间的定量关系，从而可通过尽可能小的抽样代价来得到满足要求的数据划分。重要结论采样（分块随机采样）准确率的影响因素：准确率随样本规模的增加而增大，但在一个不大的阈值N后增长缓慢；在相同的准确率要求下，不过规模的数据集所需的样本规模相同；准确率随着节点个数的增加而减少。所以不管数据集有多大，都可以只取少量的样本数。并且随着节点个数的增加，需要更多的样本数量来维持原有的准确率。

Implementation and Analysis of Join Algorithms to handle skew for the Hadoop Map/Reduce Framework 主要内容学位论文，较为详细的介绍了Hadoop中Join算法的实现和分析。创新点提出了Hybrid Join：结合Map-side join和Reduce-side join。

Implementation and Analysis of Join Algorithms to handle skew for the Hadoop Map/Reduce Framework 主要内容学位论文，较为详细的介绍了Hadoop中Join算法的实现和分析。创新点提出了Hybrid Join：结合Map-side join和Reduce-side join。

Implementation and Analysis of Join Algorithms to handle skew for the Hadoop Map/Reduce Framework 主要内容学位论文，较为详细的介绍了Hadoop中Join算法的实现和分析。创新点提出了Hybrid Join：结合Map-side join和Reduce-side join。

Implementation and Analysis of Join Algorithms to handle skew for the Hadoop Map/Reduce Framework 主要内容学位论文，较为详细的介绍了Hadoop中Join算法的实现和分析。创新点提出了Hybrid Join：结合Map-side join和Reduce-side join。处理数据倾斜：简单范围分区算法虚拟范围分区算法

遇到的问题 Thanks. 23