Jiapeng.xiao@datayes; taotao.li@datayes.com 12/16/2014 Spark Fire Where there is spark, there is fire jiapeng.xiao@datayes; taotao.li@datayes.com 12/16/2014.

Slides:



Advertisements
Similar presentations
实习期工作总结 述职人:孙伟 —— 个人简历 姓名:孙伟 毕业院校 : 内蒙古民族大学 专业:农业机械化及其自动化.
Advertisements

應用文 ( 課程名稱 ) 優質通識學生學習檔案 授課教授:○○○教授 學 生:○○○ 學 號:○○○○ 範本 個人照片一張 中國科技大學.
布袋戲曲的賞析. 什麼是戲曲? 布袋戲是 戲曲嗎? 泉州木偶戲欣賞: 564 布袋戲初傳台灣時,受南管影響。 在台灣深根發展後,轉受北管影響深遠。 進入電視布袋戲後,與南北管脫勾, 黃俊雄領導的金光布袋戲引入台語流行歌,
Amazon 云计算 AWS (三) 云计算 (第三版) 第 3 章 CLOUD COMPUTING Third Edition
班級:四餐二B 組別:第二組 組員:龔詩婷、王雅婷、 楊琇芬、高嘉勵、 王怡雯、黃勁斌、 簡垠佶
第120讲:Hadoop的MapReduce和Yarn的配置实战详解
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
Big Data Ecosystem – Hadoop Distribution
黄岛区政府部门责任清单编制工作介绍 二〇一五年六月.
数字化教学资源建设在大学化学教学中的 探索与实践 刘志广 大连理工大学 2007年5月12日 济南.
工程定额与计价方法 教材名称:工程建设定额原理与实务
建设工程施工管理 模拟卷 一、单项选择题 1.下列选项中,除( )以外都属于施工机械使用费。 A.购置费 B.安拆费及场外运费 C.折旧费 D.修理费.
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
广东农村供水发展现状和“十三五”工作设想
宁波市慈溪进出口股份有限公司 多媒体电子演示文稿(PPT)参赛作品
第 4 章 社會中的文化 一、文化的意義與特徵 二、文化的內涵 三、次文化 四、文化的傳承與創新 課後複習 歷屆基測試題.
穆公(朱金清 微博:淘穆公 阿里HBase业务设计实践 穆公(朱金清 微博:淘穆公
E-Mapreduce培训系列 基本介绍.
科目名稱: 觀光與文化 教師:李奇嶽.
2015版《中国地震动参数区划图》 对我市城乡建设的影响
個人投資理財分析 財務狀況匯總表 銀行存款 共同基金 外幣基金 股票投資 保險價值 黃金投資 支出預算 房貸計算 不動產價值 資源變化資料庫
《大数据技术原理与应用》 课程介绍 (2016春季学期)
危险废物环境管理情况 河南省固体废物管理中心  韩晓晗 2007年6月6日.
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
当众讲话的艺术 说什么,如何说,大家才肯听
为教师开展大数据课程教学提供全方位、一站式服务
餐饮服务从业人员 食品安全知识培训 孔莉 朔州市食品药品监督管理局.
首次数据采集填报说明 内蒙古自治区校车信息管理系统 靳 丽 内蒙古自治区教育信息中心 2013年5月
本位課程分享 報告:葉尚旻
转正述职报告 乐恩公司 史航
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
Oracle数据库 Oracle 子程序.
防空地下室审批要点 主讲人:陈玉亭.
治超新政相关文件解读 厅执法局 江涛 二零一六年九月.
期中考试后改薄工作督导点评 教务处 督导室.
关于加强城市排水防涝有关政策解读 吉林省住房和城乡建设厅 臧 锐.
Made by Feng Nie 开源机器学习库&Hadoop介绍 Made by Feng Nie
YARN & MapReduce 2.0 Boyu Diao
基于R和pentaho的全套开源BI平台的实现
分布式系统中的关键概念及Hadoop的起源、架构、搭建
雲端計算 參考書籍:Python+Spark 2.0+Hadoop 機器學習與大數據分析實戰
云计算之分布式计算.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
基于Hadoop的数据仓库Hive.
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
Hadoop平台與應用規劃實作 報告者:劉育維.
从TDW-Hive到TDW-SparkSQL
Jul 2014 HEAT部署Hadoop集群
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
《Spark编程基础》 《 Spark编程基础》课程介绍 (PPT版本号:2018年2月)
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
软件工程基础 云计算概论 刘 驰.
資料庫管理 Homework #4 楊立偉教授 台灣大學工管系 2016.
范文下载: 试卷下载: Word教程: Excel教程: 优秀PPT下载: PPT教程: 节日PPT模板: PPT素材下载:
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
Apache Flink 刘 驰.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
Effect More information placed here.
资料下载: PPT课件下载: 范文下载: 试卷下载: Word教程:
印天电子白板软件使用讲解 -杨馥宇 QQ:
IT网络科技PPT模板 PPT宝藏模板网,
整合私有雲、公有雲 打造企業「最適雲」.
范文下载: 试卷下载: 教案下载: Word教程: Excel教程: 优秀PPT下载: PPT教程: 节日PPT模板: PPT素材下载:
第8章 Spark MLlib (PPT版本号: 2019年春季学期)
Experimental Analysis of Distributed Graph Systems
《大数据导论(通识课版)》 第4章 大数据应用 (PPT版本号:2019年秋季学期)
《大数据导论(通识课版)》 第6章 大数据思维 (PPT版本号:2019年秋季学期)
《大数据导论(通识课版)》 教材官网: 第5章 大数据安全 (PPT版本号:2019年秋季学期)
Presentation transcript:

jiapeng.xiao@datayes; taotao.li@datayes.com 12/16/2014 Spark Fire Where there is spark, there is fire jiapeng.xiao@datayes; taotao.li@datayes.com 12/16/2014

1 2 3 4 Content The Birth and Power of Spark Spark Cluster Configure Spark Task Demo 4 Deep Into Databricks

The Birth and Power of Spark : 比你换对象的速度还快! Just the beginning of BDAS 成为Apache顶级项目 2014 正式入驻Apache 2013 2009 : Spark诞生于伯克利大学AMPLab 2010 : 正式开源 2009~2010

The Birth and Power of Spark:想不爱,太难! 1 Speed tooooooooo fast...compared with hadoop: 100x in memory, 10x on disk 2 Easy to use: scala, python, java people can use 3 Generality: SQL, Streaming, Mlib, GraphX -> BDAS 4 Compatible: runs on hadoop, mesos, standalone, cloud; get data from HDFS, Cassandra, HBase, S3

The Birth and Power of Spark:天下武功,唯快不破! 配置:EC2 master node: *1 slave node: *3 [each 2 cpus, 15.7GB mem] 任务: 20GB wikipedia 流量数据,计算英文条目数量。 本例中所有条目数量: 329,641,466 其中有英文条目数量: 122,352,588 比较: On disk: 90-150s; In mem: 2-3s;

The Birth and Power of Spark:天下武功,唯快不破!

Spark Cluster Configure

Spark Cluster Configure 1. 2. 3. 应用程序逻辑 . Driver Program 给应用分配、管理计算资源。一旦你的Driver Node连接上Cluster Manager,spark将会处理下面三件事: 1. 连接计算节点,这些节点是用来运行你的应用程序和存储应用数据的; 2. 把你在Driver Program里定义的应用逻辑发送到计算节点上; 3. 在每个节点上分配计算任务; Cluster Manager 你的所有计算资源 . Nodes

Spark Task Demo : word count RDD 1 RDD 2 RDD 3 RDD 4 RDD 5 Origin Content sc.textFile Apply split to each line flatMap(line => line.split(" ")) Combine to a tuple map(x=>(x,1)).reduceByKey(_+_) Doing swap key and value map(x=>(x._2, x._1) RDD Lineage Sortby key(that's value) sortByKey(false)

Spark Task Demo : my resource cluster resource resource assigned to me

Spark Task Demo : cluster resource 每个应用的资源可以申请,现在假设每个应用都只需要2.6GB,现在的集群规模可以容纳61.9*9/2.6 = 214个应用。按每个用户只运行一个app的话,可以供214个用户。 参考:EC2免费版配置:6 CPUs,45 GB MEM;

Deep Into Databricks : components 01. Notebooks 02. Dashboards 03. Tables 04. Clusters 05. Libraries 第一PPT模板网,PPT素材下载 www.1ppt.com/sucai/

Deep Into Databricks : Feature Notebooks 选语言 选集群 分类解析 %md %sql default sql Dashboards 协作/分享 实时更新 Tables 上传数据 每一个数据文件视为一个完整的数据库/数据表,可在notebooks里面用sql来操作

Deep Into Databricks : Feature Clusters 创建/修改集群配置 S3/EC2 Libraries 上传个人代码库 可在notebooks里导入

谢 谢