Jiapeng.xiao@datayes; taotao.li@datayes.com 12/16/2014 Spark Fire Where there is spark, there is fire jiapeng.xiao@datayes; taotao.li@datayes.com 12/16/2014.

Slides:

Advertisements

Similar presentations

实习期工作总结述职人：孙伟 —— 个人简历姓名：孙伟毕业院校 : 内蒙古民族大学专业：农业机械化及其自动化.

Advertisements

應用文 ( 課程名稱 ) 優質通識學生學習檔案授課教授：○○○教授學生：○○○ 學號：○○○○ 範本個人照片一張中國科技大學.

布袋戲曲的賞析. 什麼是戲曲？布袋戲是戲曲嗎？泉州木偶戲欣賞： 564 布袋戲初傳台灣時，受南管影響。在台灣深根發展後，轉受北管影響深遠。進入電視布袋戲後，與南北管脫勾，黃俊雄領導的金光布袋戲引入台語流行歌，

Amazon 云计算 AWS (三) 云计算（第三版）第 3 章 CLOUD COMPUTING Third Edition

班級：四餐二B 組別：第二組組員：龔詩婷、王雅婷、楊琇芬、高嘉勵、王怡雯、黃勁斌、簡垠佶

第120讲：Hadoop的MapReduce和Yarn的配置实战详解

DATE: 14/10/2009 陳威宇格網技術組雲端運算相關應用 (Based on Hadoop)

Big Data Ecosystem – Hadoop Distribution

黄岛区政府部门责任清单编制工作介绍二〇一五年六月.

数字化教学资源建设在大学化学教学中的探索与实践刘志广大连理工大学 2007年5月12日济南.

工程定额与计价方法教材名称：工程建设定额原理与实务

建设工程施工管理模拟卷一、单项选择题 1.下列选项中，除（）以外都属于施工机械使用费。 A.购置费 B.安拆费及场外运费 C.折旧费 D.修理费.

第八讲基于Hadoop的数据仓库Hive （PPT版本号：2016年4月6日版本）

广东农村供水发展现状和“十三五”工作设想

宁波市慈溪进出口股份有限公司多媒体电子演示文稿（PPT）参赛作品

第 4 章社會中的文化一、文化的意義與特徵二、文化的內涵三、次文化四、文化的傳承與創新 課後複習 歷屆基測試題.

穆公(朱金清微博：淘穆公阿里HBase业务设计实践穆公(朱金清微博：淘穆公

E-Mapreduce培训系列基本介绍.

科目名稱：觀光與文化教師:李奇嶽.

2015版《中国地震动参数区划图》对我市城乡建设的影响

個人投資理財分析財務狀況匯總表銀行存款共同基金外幣基金股票投資保險價值黃金投資支出預算房貸計算不動產價值資源變化資料庫

《大数据技术原理与应用》课程介绍（2016春季学期）

危险废物环境管理情况河南省固体废物管理中心　韩晓晗 2007年6月6日.

HADOOP的高能物理分析平台孙功星高能物理研究所/计算中心

当众讲话的艺术说什么，如何说，大家才肯听

为教师开展大数据课程教学提供全方位、一站式服务

餐饮服务从业人员食品安全知识培训孔莉朔州市食品药品监督管理局.

首次数据采集填报说明内蒙古自治区校车信息管理系统靳丽内蒙古自治区教育信息中心 2013年5月

本位課程分享報告：葉尚旻

转正述职报告乐恩公司史航

發展東華特色課程期末成果發表呂進瑞國立東華大學財金系.

Oracle数据库 Oracle 子程序.

防空地下室审批要点主讲人：陈玉亭.

治超新政相关文件解读厅执法局江涛二零一六年九月.

期中考试后改薄工作督导点评教务处督导室.

关于加强城市排水防涝有关政策解读吉林省住房和城乡建设厅臧锐.

Made by Feng Nie 开源机器学习库&Hadoop介绍 Made by Feng Nie

YARN & MapReduce 2.0 Boyu Diao

基于R和pentaho的全套开源BI平台的实现

分布式系统中的关键概念及Hadoop的起源、架构、搭建

雲端計算參考書籍：Python+Spark 2.0+Hadoop 機器學習與大數據分析實戰

云计算之分布式计算.

王耀聰陳威宇國家高速網路與計算中心(NCHC)

基于Hadoop的数据仓库Hive.

CHAPTER 6 認識MapReduce.

Spark在智慧图书馆建设中的应用探索 2017年12月22日.

Hadoop平台與應用規劃實作報告者：劉育維.

从TDW-Hive到TDW-SparkSQL

Jul 2014 HEAT部署Hadoop集群

基于大数据的物流资源整合福建师范大学协和学院沈庆琼.

Homework 1(上交时间：10月14号) 倒排索引.

《Spark编程基础》《 Spark编程基础》课程介绍（PPT版本号：2018年2月）

大数据管理技术 --NoSQL数据库 HBase 陈辉大数据分析技术.

软件工程基础云计算概论刘驰.

資料庫管理 Homework #4 楊立偉教授台灣大學工管系 2016.

范文下载：试卷下载： Word教程： Excel教程：优秀PPT下载： PPT教程：节日PPT模板： PPT素材下载：

Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian

Apache Flink 刘驰.

Cassandra应用及高性能客户端董亚军来自Newegg-NESC.

Effect More information placed here.

资料下载： PPT课件下载：范文下载：试卷下载： Word教程：

印天电子白板软件使用讲解 -杨馥宇 QQ：

IT网络科技PPT模板 PPT宝藏模板网，

整合私有雲、公有雲打造企業「最適雲」.

范文下载：试卷下载：教案下载： Word教程： Excel教程：优秀PPT下载： PPT教程：节日PPT模板： PPT素材下载：

第8章 Spark MLlib （PPT版本号： 2019年春季学期）

Experimental Analysis of Distributed Graph Systems

《大数据导论（通识课版）》第4章大数据应用（PPT版本号：2019年秋季学期）

《大数据导论（通识课版）》第6章大数据思维（PPT版本号：2019年秋季学期）

《大数据导论（通识课版）》教材官网：第5章大数据安全（PPT版本号：2019年秋季学期）

Presentation transcript:

jiapeng.xiao@datayes; taotao.li@datayes.com 12/16/2014 Spark Fire Where there is spark, there is fire jiapeng.xiao@datayes; taotao.li@datayes.com 12/16/2014

1 2 3 4 Content The Birth and Power of Spark Spark Cluster Configure Spark Task Demo 4 Deep Into Databricks

The Birth and Power of Spark : 比你换对象的速度还快！ Just the beginning of BDAS 成为Apache顶级项目 2014 正式入驻Apache 2013 2009 : Spark诞生于伯克利大学AMPLab 2010 : 正式开源 2009~2010

The Birth and Power of Spark：想不爱，太难！ 1 Speed tooooooooo fast...compared with hadoop: 100x in memory, 10x on disk 2 Easy to use: scala, python, java people can use 3 Generality: SQL, Streaming, Mlib, GraphX -> BDAS 4 Compatible: runs on hadoop, mesos, standalone, cloud; get data from HDFS, Cassandra, HBase, S3

The Birth and Power of Spark：天下武功，唯快不破！配置：EC2 master node: *1 slave node: *3 [each 2 cpus, 15.7GB mem] 任务： 20GB wikipedia 流量数据，计算英文条目数量。本例中所有条目数量： 329,641,466 其中有英文条目数量： 122,352,588 比较： On disk: 90-150s; In mem: 2-3s;

The Birth and Power of Spark：天下武功，唯快不破！

Spark Cluster Configure

Spark Cluster Configure 1. 2. 3. 应用程序逻辑 . Driver Program 给应用分配、管理计算资源。一旦你的Driver Node连接上Cluster Manager，spark将会处理下面三件事: 1. 连接计算节点，这些节点是用来运行你的应用程序和存储应用数据的； 2. 把你在Driver Program里定义的应用逻辑发送到计算节点上； 3. 在每个节点上分配计算任务； Cluster Manager 你的所有计算资源 . Nodes

Spark Task Demo : word count RDD 1 RDD 2 RDD 3 RDD 4 RDD 5 Origin Content sc.textFile Apply split to each line flatMap(line => line.split(" ")) Combine to a tuple map(x=>(x,1)).reduceByKey(_+_) Doing swap key and value map(x=>(x._2, x._1) RDD Lineage Sortby key(that's value) sortByKey(false)

Spark Task Demo : my resource cluster resource resource assigned to me

Spark Task Demo : cluster resource 每个应用的资源可以申请，现在假设每个应用都只需要2.6GB，现在的集群规模可以容纳61.9*9/2.6 = 214个应用。按每个用户只运行一个app的话，可以供214个用户。参考：EC2免费版配置：6 CPUs，45 GB MEM；

Deep Into Databricks : components 01. Notebooks 02. Dashboards 03. Tables 04. Clusters 05. Libraries 第一PPT模板网，PPT素材下载 www.1ppt.com/sucai/

Deep Into Databricks : Feature Notebooks 选语言选集群分类解析 %md %sql default sql Dashboards 协作/分享实时更新 Tables 上传数据每一个数据文件视为一个完整的数据库/数据表，可在notebooks里面用sql来操作

Deep Into Databricks : Feature Clusters 创建/修改集群配置 S3/EC2 Libraries 上传个人代码库可在notebooks里导入

谢谢