分布式数据分析算法 杨 旭 数据平台事业部-产品与平台服务.

Slides:



Advertisements
Similar presentations
面向侧面的程序设计 方林博士 本文下载地址:
Advertisements

高级服务器设计和实现 1 —— 基础与进阶 余锋
第5讲 索引构建 Index construction 授课人:高曙明
强力打造湖北农业信息网 全面推进湖北农村信息化
黄金时代 黄金时代:老子,释迦牟尼,苏格拉底,孔子,庄子,耶稣…… 他们是人类智慧的顶峰,他们用人生展示了智慧与慈爱。
第四章 商代之舞蹈 本檔案圖片來源:google圖片.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
阿里巴巴离线大数据处理平台概述 汤子楠.
班級:醫管3B 組別:第二組 組員:王品媛、郭雅瑄、謝淑玲、蔡孟蔙
嗇色園主辦可立小學 故宮 製作日期:2011年3月21日.
狂犬病 保護你我,愛護動物 武漢國中 黃憶暄.
做好就业与自主创业的准备.
PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司.
第二章 项目一:企业厂区与车间平面设计 1.
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
第8章 机床操作 主讲:臧红彬 博士.
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
科學科 污染 空氣 成因 的 : 題目 及 減少空氣污染的方法 陳玉玲 (4) 姓名 : 去到目錄.
服務聯網地政雲.
Ch3 指數與對數 3-5 指數與對數的應用 影音錄製:陳清海老師 資料提供:龍騰文化事業股份有限公司.
Information & Security System in China China North Eastern Air Traffic Control Bureau (CAAC) Customer Background Subsidiary of General Administration of.
YARN & MapReduce 2.0 Boyu Diao
基于R和pentaho的全套开源BI平台的实现
分布式系统中的关键概念及Hadoop的起源、架构、搭建
MPI并行程序设计简介 曙光信息产业(北京)有限公司 2018年11月.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
云计算之分布式计算.
并行算法实践.
ET200S应用问题 1、ET200S程序无法下载解决方案 2、ET200S单独使用时输入输出模块无法监控.
第二讲 搭建Java Web开发环境 主讲人:孙娜
学习前的准备工作 讲师:burning.
第四讲 MPI并行程序设计 课程网站:CourseGrading buaa.edu.cn 主讲教师: 赵长海
基于MPI的并行程序设计 王振海 西北工业大学理学院 西北工业大学高性能计算研究与发展中心 2018/11/28.
Homework 1(上交时间:10月14号) 倒排索引.
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
晟元大数据云平台 食品安全云大数据云平台 2017年4月 北京晟元亿讯科技有限公司.
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
Windows网络操作系统管理 ——Windows Server 2008 R2.
第17章 网站发布.
Online job scheduling in Distributed Machine Learning Clusters
数据挖掘工具性能比较.
CPU结构和功能.
Embed Google Map 資二乙 1號 王思洋.
Windows 7 的系统设置.
VSS使用简介 王树升
用event class 从input的root文件中,由DmpDataBuffer::ReadObject读取数据的问题
程序设计工具实习 Software Program Tool
生涯手冊第18頁 生涯統整面面觀.
内容摘要 ■ 课程概述 ■ 教学安排 ■ 什么是操作系统? ■ 为什么学习操作系统? ■ 如何学习操作系统? ■ 操作系统实例
C语言程序设计 主讲教师:陆幼利.
微机系统的组成.
VisComposer 2019/4/17.
产品介绍 TOPOLF-T198 产品类型:4G MIFI 建议零售价格:699元 上市时间: 2015年1月 目标人群:差旅人士
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
第三章 世界文明的蛻變與互動 第一節 歐洲社會的蛻變 第二節 世界文明的交匯 第三節 亞洲大帝國的發展 1.
2019/5/8 第2章 数据分析软件介绍.
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
LOGIX500软件入门 西安华光信息技术有限公司 2008年7月11日.
系统权限管理概要 用 户 访问权限 对 象 用户和组 全局权限 类别 每个用户可以属于多个用户组 用户组可以与AD安全组同步 系统预置用户组
Touch Github = Touch the World
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Cloud Computing Google云计算原理.
基于列存储的RDF数据管理 朱敏
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
本节内容 进程 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
网页版报名流程 Step 4 点击“详情”查阅具体岗位信息,输入身份数据及申请序列码进行最终报名
Presentation transcript:

分布式数据分析算法 杨 旭 数据平台事业部-产品与平台服务

概要 MapReduce MPI ODPS简介 ODPS MPI 常用算法 质量控制与工程实践

MapReduce 针对海量数据处理的分布式编程模型 MapReduce包括两种任务 Google公司的Jeffrey Dean 和 Sanjay Ghemawat “MapReduce: Simplied Data Processing on Large Clusters”, OSDI,2004 MapReduce包括两种任务 Map任务,对集合中的所有成员进行指定操作,得到中间结果集,然后交给Reduce任务处理 Reduce任务是对多个Map任务处理节点产生的中间结果进行合并和化简 Map任务和Reduce任务都可以高度并行,这对高效地处理海量数据非常重要。

MapReduce

什么是 MPI? Massage Passing Interface (消息传递接口) 是一种编程接口标准,而不是一种具体的编程语言 MPI-2.0发布,以前的版本统称MPI-1(97年7月) MPI-2.2发布 (09年9月)

最基本的MPI函数 MPI_Init(…); MPI_Comm_size(…); MPI_Comm_rank(…); MPI_Send(…); MPI_Recv(…); MPI_Finalize();

MPI 与 MapReduce 数据传输 MapReduce模式 MPI模式 各个计算节点间都可以传输数据

Open Data Processing Service(ODPS) 支持海量结构化数据的离线存储和计算 以RESTful API的方式提供服务 基于飞天平台 支持高吞吐量的数据上传下载服务 支持SQL和存储过程 支持数据挖掘和统计算法 支持用户开发、运行MapReduce程序 *支持类Dremel(准实时查询)和类pregel(图编程) 支持多用户管理和基于ACL和policy的权限控制 基于ODPS可以打造完整的数据仓库解决方案

ODPS MPI 计算任务的资源使用,启动,停止,运行状态要严格受系统控制 资源按需分配 数据需被授权访问 MPI可执行程序的分发 不能划出一片资源,一直占用 每次申请资源花费的时间也需考虑 数据需被授权访问 MPI可执行程序的分发

常用算法 基本数据操作 机器学习 统计分析 矩阵计算

质量控制与工程实践 内存控制 面向正确性验证的开发流程 发挥工具的力量 每个计算节点的内存都是经过规划的 对于无法精确规划的,例:数据表中的String类型。则从Job级别进行调整 面向正确性验证的开发流程 单机验证算法, Fuxi Job跑通,使用常用数据集(通常数据量较小)验证, 构造验证算法,进行大数据集验证 发挥工具的力量 实时汇总查看各计算Instance的CPU ,内存,硬盘IO,网络IO。 可视化工具,不需跳转,直接查看各节点的log, stdout, stderr. 自动诊断Job

分享让我变成我们! 分享可以改变世界!