雲端計算參考書籍：Python+Spark 2.0+Hadoop 機器學習與大數據分析實戰

Slides:

Advertisements

Similar presentations

组长：倪运超小组成员：徐悦、曹吕卿、孙浩、徐圣尧.  上海的历史上海的历史  上海的历史上海的历史  上海的文化 —— 建筑上海的文化 —— 建筑  上海的文化 —— 美食上海的文化 —— 美食  香港的历史香港的历史  香港的历史香港的历史  香港的文化 —— 建筑香港的文化.

Advertisements

第一章餐饮服务程序学习目的：掌握餐饮服务四个基本环节的内容正确表述和运用各种餐饮形式的服务程序熟悉并利用所学知识灵活机动地为不同需求的客人提供服务.

一、突出解析几何复习中的重点问题的通法通解解析几何中的重点问题一、突出解析几何复习中的重点问题的通法通解直线与圆锥曲线的位置关系重点一.

做荷包的主人第一桶金督導張宏仁財團法人「張老師」基金會桃園分事務所督導張宏仁

第十三章中国的传统科学技术中国古代的科技曾经长期处于世界领先地位，对人类文明的进步作出过重要贡献，并形成了富有特色的科技文化。在今天，源自中国古代科技文化的中医学仍然在现实生活中发挥着积极的作用。

第120讲：Hadoop的MapReduce和Yarn的配置实战详解

課程地圖 (104年入學-日間部) 校通識核心專業課程必修與選修與管理模組網路技術 App設計與應用模組學院通識核心學院專業核心

龙芯多媒体电脑教室培训龙梦极域电子教室江苏龙芯梦兰科技股份有限公司.

E-Mapreduce培训系列基本介绍.

Linux并行计算平台搭建及应用王彦棡 2010年5月.

雄伟的金字塔.

速收简历速收简历移动APP项目速收简历团队.

中華民國空軍34中隊進行夜間偵察任務情形與畫伏夜出的蝙蝠相同，因此以「蝙蝠中隊」命名，而所屬偵察機均漆成黑色，而又稱作「黑蝙蝠」。隊徽是一隻展翅的黑蝙蝠，在北斗七星上飛翔於深藍的夜空中，翅膀穿透外圍的紅圈，象徵潛入赤色鐵幕。

石家庄迅步网络科技有限公司联系人：张会耀电话：

香港普通話研習社科技創意小學周順強老師.

唐五代兩宋詞方舟p.69.

MHA(Master High Availability) 作者

云梯的多namenode和跨机房之路

贴近教学服务师生方便老师.

資訊安全與系統管理 2013/3/13 Chien wei lin.

發展東華特色課程期末成果發表呂進瑞國立東華大學財金系.

让快件更自由！福州拓牛信息科技有限公司.

何娜求职经验交流何娜

第一部分系统概述第二部分技术背景目录第三部分维修流程描述成功案例第四部分. 第一部分系统概述第二部分技术背景目录第三部分维修流程描述成功案例第四部分.

苏州大汇信息科技有限公司招聘简介.

Made by Feng Nie 开源机器学习库&Hadoop介绍 Made by Feng Nie

Cloud Computing for Big Data – Monitoring & Resource Management

王耀聰陳威宇國家高速網路與計算中心(NCHC)

Raspberry Pi Lesson 2 – Setup to Use

當企鵝龍遇上小飛象 DRBL-Hadoop Jazz Wang Yao-Tsung Wang

設置Hadoop環境王耀聰陳威宇楊順發國家高速網路與計算中心(NCHC)

Ubuntu 驱动安装准备 1. 确认ubuntu操作系统版本 2. 运行安装脚本 3.驱动Controller.

Confidential Property

資料探勘工具 - Splunk介紹報告者：曾彥志報告日期：2015/09/18.

第3章分布式文件系统HDFS （PPT版本号：2017年2月版本）

分布式系统中的关键概念及Hadoop的起源、架构、搭建

第2章大数据处理架构Hadoop （PPT版本号：2017年2月版本）

快速学习环境搭建安装前预备工作（Linux相关配置）实操演示（hadoop、hbase为例) 总结&练习题（课后练练手）

Spark零基础入门——Spark入门基础

王耀聰陳威宇國家高速網路與計算中心(NCHC)

Hadoop平台使用计算中心

Unit 06 雲端分散式Hadoop實驗 -II

Spark在智慧图书馆建设中的应用探索 2017年12月22日.

第二天计算机基础技能培训（一）linux基础知识

An introduction to Subversion

从TDW-Hive到TDW-SparkSQL

曙光集群简明使用手册技术支持中心.

《大数据技术原理与应用》第十二讲图计算（2016春季学期）

Linux基本操作程設實習課 ( 2/25 ).

大数据竞赛数据及实验平台介绍上海理想信息产业（集团）有限公司

《Spark编程基础》《 Spark编程基础》课程介绍（PPT版本号：2018年2月）

软件工程基础云计算概论刘驰.

TinyOS开发环境安装基于Ubuntu14.04.

编辑文本文件软件包管理 Samba 在Linux下使用Windows共享打印机

环境配置及使用.

系统管理员培训(I期) 浙江省基层人民法院－V8版介绍及系统管理培训二ＯＯ八年四月二十三日法院事业部经理:周春宏

第二章 UNIX系统安装与常用命令.

Confidential Property

Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian

中華大學資訊工程學系報告人：資訊工程學系許慶賢系主任.

杨振伟清华大学第一讲：Linux环境下编程(1)

颱風與防災颱風知多少.

高级大数据人才培养丛书之一，大数据挖掘技术与应用

粒子物理与核物理实验中的数据分析杨振伟清华大学第1讲：Linux环境下的编程.

行動寬頻介接網路與IoT實務應用-實驗課程

杨振伟清华大学第一讲：Linux环境下编程(1)

第六章文件系统与文件管理 6.4 Linux文件管理 1、比较MS DOS 与 Linux的目录结构一、Linux文件系统的树形结构

《大数据导论（通识课版）》教材官网：第5章大数据安全（PPT版本号：2019年秋季学期）

Presentation transcript:

雲端計算參考書籍：Python+Spark 2.0+Hadoop 機器學習與大數據分析實戰 http://pythonsparkhadoop.blogspot.tw/

Python Spark 2.0 介紹與安裝在IPython Notebook 執行Python Spark 程式

1. Python Spark 2.0 介紹與安裝

1.安裝scala 2.安裝Spark 3.啟動python spark互動介面 4.建立測試文字檔 5.本機執行pyspark 程式 6.在Hadoop YARN執行pyspark 7.建置Spark standalone cluster執行環境 8.Spark Web UI介面

1.安裝scala Spark支援多種語言：Scala、Python、Java Spark本身是用Scala語言開發的，所以必須先安裝Scala Scala是一種函數是語言，也是一種純物件導向的語言，所有的東西都是物件，而所有的操作都是方法。

1.安裝scala #下載安裝 Scala wget http://www.scala-lang.org/files/archive/scala-2.11.6.tgz tar xvf scala-2.11.6.tgz sudo mv scala-2.11.6 /usr/local/scala #Scala使用者環境變數設定 sudo gedit ~/.bashrc #輸入下列內容 export SCALA_HOME=/usr/local/scala export PATH=$PATH:$SCALA_HOME/bin #使讓~/.bashrc修改生效 source ~/.bashrc

1.安裝scala(測試)

2.安裝Spark #下載安裝 Spark wget http://apache.stu.edu.tw/spark/spark-2.0.0/spark-2.0.0-bin-hadoop2.6.tgz tar zxf spark-2.0.0-bin-hadoop2.6.tgz sudo mv spark-2.0.0-bin-hadoop2.6 /usr/local/spark/ #Spark使用者環境變數設定 sudo gedit ~/.bashrc #輸入下列內容 export SPARK_HOME=/usr/local/spark export PATH=$PATH:$SPARK_HOME/bin #使讓~/.bashrc修改生效 source ~/.bashrc

3.啟動python spark互動介面

4.建立測試文字檔在本地端建立資料夾 $ mkdir -p ~/wordcount/input 然後複製檔案 $ cp /usr/local/hadoop/LICENSE.txt ~/wordcount/input $ ll ~/wordcount/input 進入master 虛擬機器，啟動Hadoop Multi-Node Cluster $ start-all.sh 上傳測試檔案至HDFS 目錄 $ hadoop fs -mkdir -p /user/hadoop/wordcount/input $ cd ~/wordcount/input $ hadoop fs -copyFromLocal LICENSE.txt /user/hadoop/wordcount/input $ hadoop fs -ls /user/hadoop/wordcount/input

5.本機執行pyspark 程式

6.在Hadoop YARN執行pyspark

在Hadoop Web 介面可以查看PySparkShell App

7.建置Spark standalone cluster執行環境 #自樣板檔（template ）複製spark-env.sh cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh #設定spark-env.sh sudo gedit /usr/local/spark/conf/spark-env.sh #輸入下列內容: export SPARK_MASTER_IP=master #設定master的IP名稱 export SPARK_WORKER_CORES=1 #設定每個Worker使用的CPU核心 export SPARK_WORKER_MEMORY=512m #設定每個Worker使用記憶體 export SPARK_EXECUTOR_INSTANCES=4 #設定執行個體數

將spark程式複製到data1、data2和data3 ssh data1 sudo mkdir /usr/local/spark sudo chown ubuntu:ubuntu /usr/local/spark #sudo chown hadoop:hadoop /usr/local/spark exit sudo scp -r /usr/local/spark ubuntu@data1:/usr/local #sudo scp -r /usr/local/spark hadoop@data1:/usr/local

編輯slaves 檔案設定Spark Standalone cluster有哪些伺服器 $sudo gedit /usr/local/spark/conf/slaves 輸入下列內容: data1 data2 data3

啟動Spark standalone cluster

在Spark Standalone 執行pyspark

8.Spark Web UI介面

8.Spark Web UI介面

8.Spark Web UI介面

2.在IPython Notebook 執行Python Spark 程式

1.安裝Anaconda 2.在IPython Notebook使用Spark 3.使用IPython Notebook在hadoop yarnclient模式執行 4.使用IPython Notebook在Spark Stand Alone模式執行

安裝Anaconda套件時，同時會安裝：Ipython Notebook、NumPy、ScoPy、Matplotlib這幾個用於數據分析、科學計算上的常用套件。 Ipython Notebook具備互動式介面，可以在Web介面輸入Python命令後，立刻看到結果。還可以將資料分析的過程，執行後的命令與結果，存成記事本，下次可以開啟記事本，重新執行這些面令。

1.安裝Anaconda #下載Anaconda2-2.5.0-Linux-x86_64.sh wget https://repo.continuum.io/archive/Anaconda2-2.5.0-Linux-x86_64.sh #安裝Anaconda bash Anaconda2-2.5.0-Linux-x86_64.sh -b #編輯~/.bashrc 加入模組路徑 #修改~/.bashrc sudo gedit ~/.bashrc #輸入下列內容 export PATH=/home/hduser/anaconda2/bin:$PATH export ANACONDA_PATH=/home/hduser/anaconda2 export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python #使讓~/.bashrc修改生效 source ~/.bashrc #查看python 版本 python --version

#查看python 版本 python --version

在data1、data2、data3安裝Anaconda

2.在IPython Notebook使用Spark #建立ipynotebook 工作目錄 mkdir -p ~/pythonwork/ipynotebook cd ~/pythonwork/ipynotebook #在IPython Notebook 介面執行pyspark PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark

開啟IPython Notebook 介面

讀取檔案執行後顯示檔案筆數

3.使用IPython Notebook 在hadoop yarn client模式執行 start-all.sh cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop MASTER=yarn-client pyspark

啟動Hadoop Multi-Node Cluster

4.使用IPython Notebook 在Spark Stand Alone模式執行 #啟動Spark Stand Alone cluster /usr/local/spark/sbin/start-all.sh #啟動IPython Notebook 在Spark Stand Alone 模式 cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=spark://master:7077 pyspark --num-executors 1 --total-executor-cores 2 --executor-memory 512m #查看Spark Standalone Web UI 介面 http://master:8080/

Run程式碼

等待

結果

到Hadoop Web介面查看