雲端計算 參考書籍:Python+Spark 2.0+Hadoop 機器學習與大數據分析實戰

Slides:



Advertisements
Similar presentations
组长:倪运超 小组成员:徐悦、曹吕卿、孙浩、徐圣尧.  上海的历史 上海的历史  上海的历史 上海的历史  上海的文化 —— 建筑 上海的文化 —— 建筑  上海的文化 —— 美食 上海的文化 —— 美食  香港的历史 香港的历史  香港的历史 香港的历史  香港的文化 —— 建筑 香港的文化.
Advertisements

第一章 餐饮服务程序 学习目的: 掌握餐饮服务四个基本环节的内容 正确表述和运用各种餐饮形式的服务程序 熟悉并利用所学知识灵活机动地为不同需求的 客人提供服务.
一、 突出解析几何复习中的重点问题的通法通解 解析几何中的重点问题 一、 突出解析几何复习中的重点问题的通法通解 直线与圆锥曲线的位置关系 重点一.
做 荷 包 的 主 人 第 一 桶 金 督導 張宏仁 財團法人「張老師」基金會 桃園分事務所 督導 張宏仁
第十三章 中国的传统科学技术 中国古代的科技曾经长期处于世界领先地位,对人类文明的进步作出过重要贡献,并形成了富有特色的科技文化。在今天,源自中国古代科技文化的中医学仍然在现实生活中发挥着积极的作用。
第120讲:Hadoop的MapReduce和Yarn的配置实战详解
課程地圖 (104年入學-日間部) 校通識核心 專業課程 必修與選修 與管理模組 網路技術 App設計與應用模組 學院通識核心 學院專業核心
龙芯多媒体电脑教室培训 龙梦极域电子教室 江苏龙芯梦兰科技股份有限公司.
E-Mapreduce培训系列 基本介绍.
Linux并行计算平台搭建及应用 王彦棡 2010年5月.
雄伟的金字塔.
速收简历 速收简历移动APP项目 速收简历团队.
中華民國空軍34中隊進行夜間偵察任務情形與畫伏夜出的蝙蝠相同,因此以「蝙蝠中隊」命名,而所屬偵察機均漆成黑色,而又稱作「黑蝙蝠」。隊徽是一隻展翅的黑蝙蝠,在北斗七星上飛翔於深藍的夜空中,翅膀穿透外圍的紅圈,象徵潛入赤色鐵幕。
石家庄迅步网络科技有限公司 联系人:张会耀 电话:
香港普通話研習社科技創意小學 周順強老師.
唐五代兩宋詞 方舟p.69.
MHA(Master High Availability) 作者
云梯的多namenode和跨机房之路
贴近教学 服务师生 方便老师.
資訊安全與系統管理 2013/3/13 Chien wei lin.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
让快件更自由! 福州拓牛信息科技有限公司.
何娜 求职经验交流 何娜
第一部分 系统概述 第二部分 技术背景 目录 第三部分 维修流程描述 成功案例 第四部分. 第一部分 系统概述 第二部分 技术背景 目录 第三部分 维修流程描述 成功案例 第四部分.
苏州大汇信息科技有限公司 招聘简介.
Made by Feng Nie 开源机器学习库&Hadoop介绍 Made by Feng Nie
Cloud Computing for Big Data – Monitoring & Resource Management
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
Raspberry Pi Lesson 2 – Setup to Use
當企鵝龍遇上小飛象 DRBL-Hadoop Jazz Wang Yao-Tsung Wang
設置Hadoop環境 王耀聰 陳威宇 楊順發 國家高速網路與計算中心(NCHC)
Ubuntu 驱动安装准备 1. 确认ubuntu操作系统版本 2. 运行安装脚本 3.驱动Controller.
Confidential Property
資料探勘工具 - Splunk介紹 報告者:曾彥志 報告日期:2015/09/18.
第3章 分布式文件系统HDFS (PPT版本号:2017年2月版本)
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
Spark零基础入门——Spark入门基础
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
Hadoop平台使用 计算中心
Unit 06 雲端分散式Hadoop實驗 -II
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
第二天 计算机基础技能培训 (一)linux基础知识
An introduction to Subversion
从TDW-Hive到TDW-SparkSQL
曙光集群简明使用手册 技术支持中心.
《大数据技术原理与应用》 第十二讲 图计算 (2016春季学期)
Linux基本操作 程設實習課 ( 2/25 ).
Hadoop.
大数据竞赛数据及实验平台介绍 上海理想信息产业(集团)有限公司
《Spark编程基础》 《 Spark编程基础》课程介绍 (PPT版本号:2018年2月)
软件工程基础 云计算概论 刘 驰.
TinyOS开发环境安装 基于Ubuntu14.04.
编辑文本文件 软件包管理 Samba 在Linux下使用Windows共享打印机
环境配置及使用.
系统管理员培训(I期) 浙江省基层人民法院 -V8版介绍及系统管理培训 二OO八年四月二十三日 法院事业部经理:周春宏
第二章 UNIX系统安装与常用命令.
Confidential Property
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
中華大學 資訊工程學系 報告人:資訊工程學系 許慶賢 系主任.
杨振伟 清华大学 第一讲:Linux环境下编程(1)
颱風與防災 颱風知多少.
高级大数据人才培养丛书之一,大数据挖掘技术与应用
粒子物理与核物理实验中的数据分析 杨振伟 清华大学 第1讲:Linux环境下的编程.
行動寬頻介接網路與IoT實務應用-實驗課程
杨振伟 清华大学 第一讲:Linux环境下编程(1)
第六章 文件系统与文件管理 6.4 Linux文件管理 1、比较MS DOS 与 Linux的目录结构 一、Linux文件系统的树形结构
《大数据导论(通识课版)》 教材官网: 第5章 大数据安全 (PPT版本号:2019年秋季学期)
Presentation transcript:

雲端計算 參考書籍:Python+Spark 2.0+Hadoop 機器學習與大數據分析實戰 http://pythonsparkhadoop.blogspot.tw/

Python Spark 2.0 介紹與 安裝 在IPython Notebook 執 行Python Spark 程式

1. Python Spark 2.0 介紹與 安裝

1.安裝scala 2.安裝Spark 3.啟動python spark互動介面 4.建立測試文字檔 5.本機執行pyspark 程式 6.在Hadoop YARN執行pyspark 7.建置Spark standalone cluster執行環境 8.Spark Web UI介面

1.安裝scala Spark支援多種語言:Scala、Python、Java Spark本身是用Scala語言開發的,所以必須先安裝Scala Scala是一種函數是語言,也是一種純物件導向的語言,所有的東西都是物件,而所有的操 作都是方法。

1.安裝scala #下載安裝 Scala wget http://www.scala-lang.org/files/archive/scala-2.11.6.tgz tar xvf scala-2.11.6.tgz sudo mv scala-2.11.6 /usr/local/scala #Scala使用者環境變數設定 sudo gedit ~/.bashrc #輸入下列內容 export SCALA_HOME=/usr/local/scala export PATH=$PATH:$SCALA_HOME/bin #使讓~/.bashrc修改生效 source ~/.bashrc

1.安裝scala(測試)

2.安裝Spark #下載安裝 Spark wget http://apache.stu.edu.tw/spark/spark-2.0.0/spark-2.0.0-bin-hadoop2.6.tgz tar zxf spark-2.0.0-bin-hadoop2.6.tgz sudo mv spark-2.0.0-bin-hadoop2.6 /usr/local/spark/ #Spark使用者環境變數設定 sudo gedit ~/.bashrc #輸入下列內容 export SPARK_HOME=/usr/local/spark export PATH=$PATH:$SPARK_HOME/bin #使讓~/.bashrc修改生效 source ~/.bashrc

3.啟動python spark互動介面

4.建立測試文字檔 在本地端建立資料夾 $ mkdir -p ~/wordcount/input 然後複製檔案 $ cp /usr/local/hadoop/LICENSE.txt ~/wordcount/input $ ll ~/wordcount/input 進入master 虛擬機器,啟動Hadoop Multi-Node Cluster  $ start-all.sh 上傳測試檔案至HDFS 目錄  $ hadoop fs -mkdir -p /user/hadoop/wordcount/input $ cd ~/wordcount/input $ hadoop fs -copyFromLocal LICENSE.txt /user/hadoop/wordcount/input $ hadoop fs -ls /user/hadoop/wordcount/input

5.本機執行pyspark 程式

6.在Hadoop YARN執行pyspark

在Hadoop Web 介面可以查看PySparkShell App

7.建置Spark standalone cluster執行環境 #自樣板檔(template )複製spark-env.sh cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh #設定spark-env.sh sudo gedit /usr/local/spark/conf/spark-env.sh #輸入下列內容: export SPARK_MASTER_IP=master #設定master的IP名稱 export SPARK_WORKER_CORES=1 #設定每個Worker使用的CPU核心 export SPARK_WORKER_MEMORY=512m #設定每個Worker使用記憶體 export SPARK_EXECUTOR_INSTANCES=4 #設定執行個體數

將spark程式複製到data1、data2和data3 ssh data1 sudo mkdir /usr/local/spark sudo chown ubuntu:ubuntu /usr/local/spark #sudo chown hadoop:hadoop /usr/local/spark exit sudo scp -r /usr/local/spark ubuntu@data1:/usr/local #sudo scp -r /usr/local/spark hadoop@data1:/usr/local

編輯slaves 檔案 設定Spark Standalone cluster有哪些伺服器 $sudo gedit /usr/local/spark/conf/slaves 輸入下列內容: data1 data2 data3

啟動Spark standalone cluster

在Spark Standalone 執行pyspark

8.Spark Web UI介面

8.Spark Web UI介面

8.Spark Web UI介面

2.在IPython Notebook 執 行Python Spark 程式

1.安裝Anaconda 2.在IPython Notebook使用Spark 3.使用IPython Notebook在hadoop yarnclient模式執行 4.使用IPython Notebook在Spark Stand Alone模式執行

安裝Anaconda套件時,同時會安裝:Ipython Notebook、NumPy、ScoPy、Matplotlib這幾個 用於數據分析、科學計算上的常用套件。 Ipython Notebook具備互動式介面,可以在Web介面輸入Python命令後,立刻看到結果。 還可以將資料分析的過程,執行後的命令與結果,存成記事本,下次可以開啟記事本,重 新執行這些面令。

1.安裝Anaconda #下載Anaconda2-2.5.0-Linux-x86_64.sh wget https://repo.continuum.io/archive/Anaconda2-2.5.0-Linux-x86_64.sh #安裝Anaconda bash Anaconda2-2.5.0-Linux-x86_64.sh -b #編輯~/.bashrc 加入模組路徑 #修改~/.bashrc sudo gedit ~/.bashrc #輸入下列內容 export PATH=/home/hduser/anaconda2/bin:$PATH export ANACONDA_PATH=/home/hduser/anaconda2 export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python #使讓~/.bashrc修改生效 source ~/.bashrc #查看python 版本 python --version

#查看python 版本 python --version

在data1、data2、data3安裝Anaconda

2.在IPython Notebook使用Spark #建立ipynotebook 工作目錄 mkdir -p ~/pythonwork/ipynotebook cd ~/pythonwork/ipynotebook #在IPython Notebook 介面執行pyspark PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark

開啟IPython Notebook 介面

讀取檔案 執行後顯示檔案筆數

3.使用IPython Notebook 在hadoop yarn client模式執行 start-all.sh cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop MASTER=yarn-client pyspark

啟動Hadoop Multi-Node Cluster

4.使用IPython Notebook 在Spark Stand Alone模式執行 #啟動Spark Stand Alone cluster /usr/local/spark/sbin/start-all.sh #啟動IPython Notebook 在Spark Stand Alone 模式 cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=spark://master:7077 pyspark --num-executors 1 --total-executor-cores 2 --executor-memory 512m #查看Spark Standalone Web UI 介面 http://master:8080/

Run程式碼

等待

結果

到Hadoop Web介面查看