基于MapReduce的Knn连接方法 ----谢荣东论文观点展示.

Slides:



Advertisements
Similar presentations

Advertisements

2 和 5 的倍数的特征 运动热身 怎样找一个数的倍数? 从小到大写出 2 的倍数( 10 个): 写出 5 的倍数( 6 个) 2 , 4 , 6 , 8 , 10 , 12 , 14 , 16 , 18 , 20 5 , 10 , 15 , 20 , 25 , 30.
第二节 东南亚 地理位置和自然环境 一 地理位置和 范围 1 地理位置 1 地理位置 纬度位置 纬度位置 海陆位置 海陆位置.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
形式逻辑学的框架 推理 判断 概念 演绎 归纳 直 接 复 合 三段论 枚 举 完 全 科 学 【有效性与真实性】
科学六年级下册 《减少丢弃及重新使用》 澳头第一小学 执教:陈辉东. 二、减少丢弃的探讨 1 、日常生活中有哪些垃圾是可以减少的?怎样减少? (不用、少用 延长寿命 )
五專醫護類科介紹 樹人醫專 職業教育組 李天豪 組長.
第九章 算法初步、统计与统计案例、概率 第三节 抽样方法.
主題四 與世界相遇 (2-行旅蒼穹).
思想品德八(下)中考复习 第三单元 我们的文化、经济权利 龙岩初级中学 王慧.
班級:醫管3B 組別:第二組 組員:王品媛、郭雅瑄、謝淑玲、蔡孟蔙
国学传统与企业文化建设 刘大洋 博士.
现代农业创业指导 广西省兴安县农广校.
臺北市政府社會局 公共住宅30%特殊弱勢保障戶分配機制 主講者:許立民 局長 日 期:105年3月17日.
国王赏麦的故事.
基于Hadoop的Map/Reduce框架研究报告
生活与哲学 生活中处处有哲学.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
面向海量数据的 高效天文交叉证认的研究 答辩人:赵青 指导老师:孙济洲 教授 天津大学计算机学院
我班最喜愛的零食 黃行杰.
项目二 网店运营 2.2 网店日常运营管理.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
一种基于Hadoop的视频大数据分布式解码方法 冯强
基于R和pentaho的全套开源BI平台的实现
The Links portal: Navigating over Linked Data
CHAPTER 6 認識MapReduce.
SQL Injection.
Skew Join相关论文 报告人:蔡珉星 厦大数据库实验室
辅导课程六.
Homework 1(上交时间:10月14号) 倒排索引.
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
动态规划(Dynamic Programming)
绿色圃中小学教育网 比例 比例的意义 绿色圃中小学教育网
用event class 从input的root文件中,由DmpDataBuffer::ReadObject读取数据的问题
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
顺序表的删除.
SView /4/16.
2019/4/16 关注NE官方微信,获取更多服务.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
实验四、TinyOS执行机制实验 一、实验目的 1、了解tinyos执行机制,实现程序异步处理的方法。
第二章 Java基本语法 讲师:复凡.
基于云计算及数据挖掘技术的海量数据处理研究
北投溫泉博物館 建築特色 ★小組成員:高103林孟璇、林念儀、施妤柔★.
复习.
201x 公司LOGO LOGO XX公司年终总结 201x/10/18 201x
Web安全基础教程
基于MapReduce的Join算法优化
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
第三章 世界文明的蛻變與互動 第一節 歐洲社會的蛻變 第二節 世界文明的交匯 第三節 亞洲大帝國的發展 1.
3.16 枚举算法及其程序实现 ——数组的作用.
函 数 连 续 的 概 念 淮南职业技术学院.
1.2 子集、补集、全集习题课.
上杭二中 曾庆华 上杭二中 曾庆华 上杭二中 曾庆华.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
Cloud Computing Google云计算原理.
§2 方阵的特征值与特征向量.
數學遊戲二 大象轉彎.
基于位置感知和负载均衡 MapReduce的Join算法优化 汇报人:黄梓铭 厦大数据库实验室
基于列存储的RDF数据管理 朱敏
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
本节内容 如何调试驱动程序? 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
本节内容 进程 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
第四章 UNIX文件系统.
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
Rlj
质量控制(QC)模式 BrookFIELD.
最小生成树 最优二叉树.
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
厦门大学数据库实验室 论文阅读成果和创新点 罗道文
Presentation transcript:

基于MapReduce的Knn连接方法 ----谢荣东论文观点展示

Knn连接 即K最近邻(kNN,k-NearestNeighbor) 连接

H-BNLJ(Hadoop Block Nested Loop Join)的方法 简介:是一种直接的局部暴力解决KNN连接的算法,它利用 MapReduce的循环嵌套算法。 基本思想:把待连接的两个集合R和S分割成大小相等的n 块,这里可以通过线性扫描的方法来进行,每个块中分别 包含有|R|/n(或|S|/n)个元素。然后,在Map阶段,每个 连接块包含一个来自于R的分割块一个来自于S的分割块 (也就是总共有n2个连接块)。在Reduce阶段,采用了n2个 reduce来处理每个mapper生成的中间结果。每个reduce在本 地嵌套执行局部R和S的Knn连接,也就是,对每个局部块中 的S通过嵌套循环找到在局部快中的R的knn。所有来自 reduce的结果写入(n2)DFS文件再进行排序。

H-BNLJ的问题 本质上是暴力解法 未采用索引,当数据量大时,不能有效从外存(DFS)数 据加载到内存中

DSGMR-J((Distributed Sketched Grid) 引入分布式概略化网格索引来对数据进行划分和索引 基本思想:先对数据进行网格化划分,根据R和S的变化 范围生成m2个栅格,其中每个栅格的x和y变化范围为 intervalx和intervaly。每个R或S中的元素根据它的x和y坐标 确定所属的栅格。对每个栅格而言,我们分布地创建了 对应于此栅格的分布式索引DSG。这样,每个reduce可以 快速地通过本地DSG索引来发现本地Knn而避免嵌套循 环。

R的空间范围: S的空间范围: 相对应的空间范围: 根据公式进行拓展,需要两次MapReduce

基于R树的MapReduce-knn连接