Skew Join相关论文 报告人:蔡珉星 厦大数据库实验室 2014-08-30.

Slides:



Advertisements
Similar presentations
模板的使用 教育学 江西教育学院教育系 冯芳 2012 - 10. 第二章 教育学的产生和发展 第一节 教育学的研究对象和任务 第二节 教育学的产生与发展 第三节 学习教育学的意义与方法.
Advertisements

大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
“ 菸 ” 之非福 Part Ⅰ. 你的想法 ─ Q1 :你覺得他很有個性嗎? Q2 :吸菸會增加個人魅力嗎? Q3 :吸菸會讓人感覺成熟?
用 藥 安 全 用 藥 安 全 護 理 師 張 嘉 芬. 前 言 前 言 正確用藥的方法 藥袋上的秘辛 為了減少重大疾病或是醫療處理、 用藥不當的相關事件發生。
阿尔伯特亲王 阿尔伯特亲王纪念碑 维多利亚女王夫妇 维多利亚女王一家 建造水晶宫 水晶宫初建时的照片.
學會摘要 四年級 ( 內容擷取自劍潭國小陳錦蓮和詹珮怡老師的簡報 ). 2 分享綱要 1 1 什麼是摘要 2 3 如何教摘要 實例與實際操作.
我們可以如何應付氾濫 ? 2c 第三組. 目錄 防洪 (1) 防洪 (2) 湖北坪興建三峽主壩簡介 長江三峽水利樞紐工程 三峽工程的利益 (Part1) 三峽工程的利益 (Part2) 三峽工程的弊 (Part1) 三峽工程的弊 (Part2) 總結 組員名單 完.
1 寫作測驗武功秘笈 洪德惠老師 99 年 1 月 18 日. 2 PART1 理論部分 3 寫作測驗的基本能力 1. 能掌握寫作步驟,充實作品內容,精確表達自 己的思想。 2. 能依收集材料立意、選材、安排段落及組織等 步驟行文。 3. 能運用觀察的方法觀察周遭事物,並能寫下重 點。 4. 能適切地遣詞造句,使用正確的標點符號,完.
梦想启航 ——大学生活与职业规划专题讲座.
備審資料與面試準備 高雄醫學大學醫學系 林郁涵.
河北保定外国语学校 高三家长会.
千秋大业在担当 《中国共产党问责条例》解读提纲.
以信息化带动教育现代化,打造教育的“南山质量”
个体税收征管政策讲解 浏阳市地方税务局.
封面 2015易驾考最新分享: 科目二考试方法秘诀 文章来源:易驾考官网.
基于行业的 企业技术创新信息保障体系研究 刘 华 博士 中国科学技术信息研究所.
第四讲 1949—1991年的中苏关系 及其经验教训.
大型探索节目《谜》之 感恩.
“鼠标加水泥”的百货公司——武汉中百 朱巧巧 陆嘉怡 田泽宇.
合理控制索道游客流量 确保景区可持续发展 云南丽江玉龙雪山索道 陈加林 二0一五年十一月.
千里挑一的“征途” ——浅谈中国“国考”热.
研修4组 学习简报(第3期) 主编:左文玲 2015年2月7日.
潘集小学英语班 学习简报(第5期) 主编:吴婷 2016年2月28日.
生命停看聽—生命圖書館 萬中選一的祝福 推薦人:彰師附工進修學校 蘇郁惠.
基于Hadoop的Map/Reduce框架研究报告
与领导、下级、同事的 沟通技巧.
潜能宇宙平衡法则 ——启动11.11天地人合新生命工程(分类系统) 凛然智慧(北京)教育咨询有限公司.
回顾与展望:高州经验与广东医改 省卫生计生委、省医改办 黄 飞 2015年7月3日.
作文教學變奏曲 在一個空桶裡舀水,只是枉然;在一頭公牛身上擠奶,則是危險;讓一個沒有話的人說話,那就是——作文!(史英)
愛心月課程活動 設計者:洪雪玲老師.
《乡村教师支持计划 年》 解读.
巨量資料平台: Hadoop的生態系.
1-3 探究自然的科學方法.
幸福大讲堂 也谈老年朋友的 “老有所□” 爸妈在线专家宣讲团 ——老年朋友如何乐度后半生概述 主讲:钱锡安
第六章 数据库设计.
数据库应用技术 天津大学计算机基础教学部 2013年9月.
姓名:梁晓莹 职务:安徽省旅游局安全办主任(高级经济师) 中国旅游研究院(华侨大学)旅游安全研究基地行业顾问 经历: 自1987年就职于安徽省旅游局 自2009年主持安全办工作 曾主编《旅游安全宣传手册——暨安徽旅游安全格言警句精选》、《安徽旅游安全》、《安徽旅游发展大事记》等 承办过“安徽省旅游安全演讲征文大赛”及“旅游安全调研成果奖”评选等工作.
基于hadoop的数据仓库技术.
本活動 想解決的問題是……. 本活動 想解決的問題是…… 130最少要加上多少才能被8整除? 130最少要減去多少才能被8整除? 《除法定理》 被乘數=乘數 x 商 + 餘數.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
雞蛋這樣孵出小雞的 動物的生殖 Part I.
前不久看到了这样一则报道:某个大学校园里,一个大学生出寝室要给室友留一张字条,告诉他钥匙放在哪里。可是“钥匙”两个字他不会写,就问了其他寝室的同学,问了好几个,谁也不会写,没办法,只好用“KEY”来代替了。 请大家就此事发表一下自己看法。
第三章 人类社会及其发展规律.
Introduction to MapReduce
利用共同供應契約 辦理大量訂購流程說明.
分布式系统中的关键概念及Hadoop的起源、架构、搭建
9 SELECT敘述的進階查詢 9-1 SQL的多資料表查詢 9-2 合併查詢 9-3 集合運算查詢 9-4 子查詢
課程名稱:資料庫系統 授課老師:李春雄 博士
CHAPTER 6 認識MapReduce.
厦门大学数据库实验室 MapReduce 连接
第九章 進階的查詢技巧.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
第18章 SQL結構化查詢語言 18-1 SQL語言的基礎 18-2 SQL的查詢指令 18-3 SQL子查詢與合併查詢.
A Big Data Framework for u-Healthcare Systems Utilizing Vital Signs
学习目标 1、什么是表连接 2、表连接类型 3、表连接区别.
查询与视图 蔡海洋.
第14章 SQL数据查询与操纵 内容提要 本章知识点
基于云计算及数据挖掘技术的海量数据处理研究
基于MapReduce的Join算法优化
公务卡日常管理篇 办卡激活/遗失补办/ 停用销卡/额度调整 财务处 2016年.
第三章 世界文明的蛻變與互動 第一節 歐洲社會的蛻變 第二節 世界文明的交匯 第三節 亞洲大帝國的發展 1.
兒童及少年保護、 家庭暴力及性侵害事件、 高風險家庭 宣導與通報
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
——向刑事案件被告人家属调查取证的伦理性讨论
資料庫系統  Database System 施莉萍 2017/12/28.
基于位置感知和负载均衡 MapReduce的Join算法优化 汇报人:黄梓铭 厦大数据库实验室
统计学 第7章 参数估计 教师:张文利.
Experimental Analysis of Distributed Graph Systems
第 9 章 查詢資料- 善用 SELECT 敘述.
Presentation transcript:

Skew Join相关论文 报告人:蔡珉星 厦大数据库实验室 2014-08-30

论文:Efficient outer join data skew handling in parallel DBMS 目录 遇到的问题 论文:Efficient outer join data skew handling in parallel DBMS 其他论文

论文:Efficient outer join data skew handling in parallel DBMS Part 1

背景知识 Inner join 和 Outer join: inner join (等价于 join) 是求两个集合的交集 Left outer join: 返回左表中的所有结果,若右表有匹配项,则返回结果,否则返回NULL。 Right outer join: 返回的是右表中的所有结果…… Full outer join: 返回的是左右表中的所有结果……

Outer join 实例 考虑如下Outer join实例 R(x, a) S(y, b) T(z, d)

Outer join 实例 假设先进行 R left outer join S,再进行left outer join T

Outer join 实例 假设先进行 R left outer join S,再进行left outer join T

Outer join 实例 假设先进行 R left outer join S,再进行left outer join T J.c left outer join T.d J.c的部分数据为NULL, 需要单独进行分区处理。 常规情况: H(null) = 1 导致大量含NULL的数据聚集在1号Reducer上

Outer join 实例

问题分析 Outer join 存在的问题: 由于outer join操作本身的特性,结果中的某些列会出现NULL值,如果这包含NULL值的列再参与其他的join操作(多表连接),在常规的解决方法中,是将含NULL值数据都划分到某个节点上(H(NULL) = x),从而导致在原始数据不倾斜的情况下,join操作过程却出现了倾斜情况。

若中间结果为NULL的行,最终结果中新字段也为NULL 问题分析 解决 Outer join 存在的问题: 随机分配含NULL值的数据,而不是聚集在某一个节点上。 H(NULL) = random(1, n) 分析一下上述方法的执行结果 R left outer join S T 节点的最终结果 x a y c z 2 9 1 3 N 6 x a y c 2 9 1 3 N 6 z d 3 1 4 5 7 left outer join 若中间结果为NULL的行,最终结果中新字段也为NULL

问题解决 解决Outer join(该实例)存在的问题的最佳方法: 直接将新字段填充为NULL,输出即可,无需重新分配来进行剩下的join操作。 R left outer join S的结果

问题解决 解决 Outer join 存在的问题的最佳方法: 结果分成两部分:是否包含NULL值,不包含NULL的数据继续参与后续join

包含NULL的数据直接填充新字段为NULL。 问题解决 解决 Outer join 存在的问题的最佳方法: 包含NULL的数据直接填充新字段为NULL。 最后将两部分合并即为最终结果。

其他论文 Part 3

+ A New Framework for Join Product Skew 解决问题 核心思想 解决Join操作中的数据倾斜问题 统计出每个join key的频次; 根据节点处理该join key的代价(数据量),判断是否会出现倾斜情况; 如果会出现倾斜,比较两个表中该join key的频次: 例如Fr > Fs,则将R表中的该join key的数据均分到多个Reducer,将S 表中该join key的数据广播到这些Reducer上。 1000个A + 500个A

Advanced Join Strategies for Large-Scale Distributed Computation 主要内容 分析了常见的Join操作,讨论如何实现有效、健壮的join算法。 如何解决倾斜问题 核心想法:区别处理高频次的join key数据和低频次的join key数据 低频次的join key采用hash partition即可,高频次的join key依情况选择广播join或重分区join,或两者结合。 判断是否是会出现倾斜的高频次join key (根据节点处理代价) 对高频次、低频次join key的处理不同

MapReduce上基于抽样的数据划分最优化研究 主要内容 基于抽样的划分是一种比较有效的数据划分方法,为了使得抽样方法发挥最大程度的效益,研究了抽样效果与其重要影响因素之间的定量关系,从而可通过尽可能小的抽样代价来得到满足要求的数据划分。 重要结论 采样(分块随机采样)准确率的影响因素: 准确率随样本规模的增加而增大,但在一个不大的阈值N后增长缓慢; 在相同的准确率要求下,不过规模的数据集所需的样本规模相同; 准确率随着节点个数的增加而减少。 所以不管数据集有多大,都可以只取少量的样本数。并且随着节点个数的增加,需要更多的样本数量来维持原有的准确率。

Implementation and Analysis of Join Algorithms to handle skew for the Hadoop Map/Reduce Framework 主要内容 学位论文,较为详细的介绍了Hadoop中Join算法的实现和分析。 创新点 提出了Hybrid Join:结合Map-side join和Reduce-side join。

Implementation and Analysis of Join Algorithms to handle skew for the Hadoop Map/Reduce Framework 主要内容 学位论文,较为详细的介绍了Hadoop中Join算法的实现和分析。 创新点 提出了Hybrid Join:结合Map-side join和Reduce-side join。

Implementation and Analysis of Join Algorithms to handle skew for the Hadoop Map/Reduce Framework 主要内容 学位论文,较为详细的介绍了Hadoop中Join算法的实现和分析。 创新点 提出了Hybrid Join:结合Map-side join和Reduce-side join。

Implementation and Analysis of Join Algorithms to handle skew for the Hadoop Map/Reduce Framework 主要内容 学位论文,较为详细的介绍了Hadoop中Join算法的实现和分析。 创新点 提出了Hybrid Join:结合Map-side join和Reduce-side join。 处理数据倾斜: 简单范围分区算法 虚拟范围分区算法

遇到的问题 Thanks. 23