大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.

Slides:



Advertisements
Similar presentations
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Advertisements

第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
基于Hadoop的Map/Reduce框架研究报告
新北市廠商聯合抗旱會議 104年3月23日.
巨量資料平台: Hadoop的生態系.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
在PHP和MYSQL中实现完美的中文显示
J2EE与中间件技术 ——Lab.
Android快速开发入门 巫文杰、Android工程师 讲师的CSDN博客地址
基于R和pentaho的全套开源BI平台的实现
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
雲端計算 參考書籍:Python+Spark 2.0+Hadoop 機器學習與大數據分析實戰
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Computer Network Lab 資碩一 黃麒瑋
Android开发入门 -----Android 开发“Ready go!” 主讲:李晓蕾
Hadoop I/O By ShiChaojie.
基于Hadoop的数据仓库Hive.
Unit 06 雲端分散式Hadoop實驗 -II
SVN的基本概念 柳峰
AngularJS -- 使用AngularJS进行开发
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
第二讲 搭建Java Web开发环境 主讲人:孙娜
学习目标 1、Linux(这里用的是Centos)下mysql5.7的基本安装 2、课后习题.
第二天 计算机基础技能培训 (一)linux基础知识
Hadoop平台與應用規劃實作 報告者:劉育維.
大学计算机基础 典型案例之一 构建FPT服务器.
SVN服务器的搭建(Windows) 柳峰
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
DM81X 视频采集处理 ——简单采集显示例程讲解 广州创龙电子科技有限公司
PostgreSQL 8.3 安装要点 四川大学计算机学院 段 磊
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
软件工程基础 云计算概论 刘 驰.
Linux核心編譯與模組管理 2013/01/19.
YMSM D-PACK 安装手册 作成者:D-PACK维护组(YMSLx) 作成日:
三:基于Eclipse的集成开发环境搭建与使用
C语言程序设计 主讲教师:陆幼利.
Confidential Property
微机系统的组成.
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
第四章 团队音乐会序幕: 团队协作平台的快速创建
JSP实用教程 清华大学出版社 第2章 JSP运行环境和开发环境 教学目标 教学重点 教学过程 2019年5月7日.
实验一:编译运行Linux内核并使用gdb进行调试
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
软件服务导论 刘 驰 教授 博士生导师 北京理工大学计算机学院 副院长
高级大数据人才培养丛书之一,大数据挖掘技术与应用
大数据应用人才培养系列教材 Python语言 刘 鹏 张 燕 总主编 李肖俊 主编 刘 河 钟 涛 副主编.
大数据应用人才培养系列教材 大数据系统运维 刘 鹏 张 燕 总主编 姜才康 主编 陶建辉 副主编.
大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.
大数据应用人才培养系列教材 Python语言 刘 鹏 张 燕 总主编 李肖俊 主编 刘 河 钟 涛 副主编.
大数据应用人才培养系列教材 数据清洗 刘 鹏 张 燕 总主编 李法平 主编 陈潇潇 副主编.
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
大数据应用人才培养系列教材 Python语言 刘 鹏 张 燕 总主编 李肖俊 主编 刘 河 钟 涛 副主编.
大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.
第四章 UNIX文件系统.
大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
高级大数据人才培养丛书之一,大数据挖掘技术与应用
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.
使用Fragment 本讲大纲: 1、创建Fragment 2、在Activity中添加Fragment
大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
大数据应用人才培养系列教材 数据清洗 刘 鹏 张 燕 总主编 李法平 主编 陈潇潇 副主编.
Primary introduction to docker
大数据应用人才培养系列教材 大数据系统运维 刘 鹏 张 燕 总主编 姜才康 主编 陶建辉 副主编.
Presentation transcript:

大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编

大数据应用人才培养系列教材 第十三章 RHadoop 13.1 认识RHadoop 13.2 Rhdoop安装 13.3 综合练习 习题

13.1 认识RHadoop 第十三章 RHadoop (1) Hadoop家族的强大之处在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。所以,hadoop重点是海量数据分析。 (2)R语言的强大之处在于统计分析,在没有Hadoop之前,我们对于大数据的处理。 可以看出,两种技术放在一起,刚好是取长补短。

大数据应用人才培养系列教材 第十三章 RHadoop 13.1 认识RHadoop 13.2 RHadoop安装 13.3 综合练习 习题

13.2 RHadoop安装 第十三章 RHadoop (1)下载依赖包 https://github.com/RevolutionAnalytics/RHadoop/wiki/Downloads rmr-2.1.0 rhdfs-1.0.5 rhbase-1.1 复制到/root/R目录 ~/R# pwd /root/R ~/R# ls rhbase_1.1.tar.gz rhdfs_1.0.5.tar.gz rmr2_2.1.0.tar.gz

13.2 RHadoop安装 第十三章 RHadoop (2)安装rJava库,在配置好了JDK 1.6的环境后,运行R CMD javareconf命令,R的程序从系统变量中会读取Java配置。然后打开R程序,通过install.packages的方式安装rJava。

13.2 RHadoop安装 (3)安装依赖库 在命令行执行: R CMD javareconf R 启动R程序 install.packages("rJava") install.packages("reshape2") install.packages("Rcpp") install.packages("iterators") install.packages("itertools") install.packages("digest") install.packages("RJSONIO") install.packages("functional")

13.2 RHadoop安装 第十三章 RHadoop (4)安装rhdfs库,在环境变量中增加 HADOOP_CMD 和 HADOOP_STREAMING 两个变量: vi /etc/environment HADOOP_CMD=/root/hadoop/hadoop-1.0.3/bin/Hadoop HADOOP_STREAMING=/root/hadoop/hadoop-1.0.3/contrib/ streaming/ hadoop-streaming-1.0.3.jar (5)安装rmr库 R CMD INSTALL rmr2_2.1.0.tar.gz (6)安装rhbase库 安装完成HBase后,还需要安装Thrift,因为rhbase是通过Thrift调用HBase的。 Thrift是需要本地编译的,官方没有提供二进制安装包,首先下载thrift-0.8.0。 在Thrift解压目录输入./configure,会列Thrift在当前机器所支持的语言环境,如果只是为了rhbase,默认配置就可以了。

13.2 RHadoop安装 (7)安装rhbase。 下载thrift wget http://archive.apache.org/dist/thrift/0.8.0/thrift-0.8.0. tar.gz tar xvf thrift-0.8.0.tar.gz cd thrift-0.8.0/ 下载PHP支持类库(可选) sudo apt-get install php-cli 下载C++支持类库(可选) sudo apt-get install libboost-dev libboost-test-dev libboost -program-options-dev libevent-dev automake libtool flex bison pkg-config g++ libssl-dev

13.2 RHadoop安装 生成编译的配置参数 ./configure 编译和安装 make make install 查看thrift版本 thrift -version Thrift version 0.8.0 启动HBase的Thrift Server /hbase-0.94.2/bin/hbase-daemon.sh start thrift jps 安装rhbase R CMD INSTALL rhbase_1.1.1.tar.gz

13.2 RHadoop安装 (8)查看安装的类库 一般R的类库目录是 /usr/lib/R/site-library或者/usr/local/lib/R/ site-library, 用户也可以使用whereis R的命令查询,自己计算机上R类库的安装位置。 ls /disk1/system/usr/local/lib/R/site-library/ digest functional iterators itertools plyr Rcpp reshape2 rhdfs rJava RJSONIO rmr2 stringr

大数据应用人才培养系列教材 第十三章 RHadoop 13.1 认识RHadoop 13.2 RHadoop安装 13.3 综合练习 习题

13.3 综合练习 (1)查看hadoop目录 hadoop fs -ls /user (2)查看hadoop数据文件 hadoop fs -cat /user/hdfs/o_same_school/part-m-00000 (3)启动R程序 (4)启动MapReduce  > library(rmr2) > small.ints = to.dfs(1:10)   > mapreduce(input = small.ints, map = function(k, v) cbind(v, v^2)) > from.dfs("/tmp/RtmpWnzxl4/file5deb791fcbd5")  

13.3 综合练习 (5)wordcount执行rmr2任务 第十三章 RHadoop (5)wordcount执行rmr2任务 > input<- '/user/hdfs/o_same_school/part-m-00000'   > wordcount = function(input, output = NULL, pattern = " "){   wc.map = function(., lines) {   keyval(unlist( strsplit( x = lines,split = pattern)),1)   }   wc.reduce =function(word, counts ) {   keyval(word, sum(counts))   }     mapreduce(input = input ,output = output, input.format = "text",   map = wc.map, reduce = wc.reduce,combine = T)   > wordcount(input) >from.dfs("/tmp/RtmpfZUFEa/file6cac626aa4a7") 

大数据应用人才培养系列教材 第十三章 RHadoop 13.1 认识RHadoop 13.2 RHadoop安装 13.3 综合练习 习题

习题: 1.下面 程序负责HDFS数据存储。 A.NameNode B.Jobtracker C.Datanode D.secondaryNameNode 2.Hadoop作者是 。 A.Martion Fowler B.Kent Beck C.Doug cutting 3.Rhadoop是将R的强大 能力和hadoop的 相结合。 4.通过R的三个包 、 、 ,实现R对hadoop各个组件的调用。 5.Hadoop主要用来 ,R语言完成 算法。 6.R语言的强大之处? 7.Mahout是基于Hadoop的 和 的算法框架。 8.Hadoop作者是 。 9.Hadoop家族的强大之处,在于对 的处理,让原来的不可能(TB,PB数据量计算),成为了可能。 10.Mahout和R语言的区别?

习题: 11.Rhadoop的四个组成功能。 12.Hadoop特点及优势? 13.R与Hadoop结合一般步骤? 14.R的三个包rmr、rhdfs、rhbase分别是对应Hadoop系统架构中的哪个部分? 15.对应MapReduce的R包的名称。 16.对应 HDFS的R包的名称

AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台

云创公众号推荐 刘鹏看未来 云计算头条 中国大数据 深度学习世界 云创大数据订阅号 云创大数据服务号 高校大数据与人工智能 微信号:lpoutlook 云计算头条 微信号:chinacloudnj 中国大数据 微信号:cstorbigdata 深度学习世界 微信号:dl-world 云创大数据订阅号 微信号:cStor_cn 云创大数据服务号 微信号:cstorfw 高校大数据与人工智能 微信号:data_AI

手机APP推荐 我的PM2.5 随时随地准确 查看身边的 PM2.5值 同声译 支持26种语言 互译的实时翻 译软件 我的南京 云创大数据为路 况大数据应用提 供技术支持 科技头条 汇聚前沿资讯 的科技情报站

网站推荐 万物云 智能硬件大数据免费托管平台 环境云 环境大数据开放共享平台

感谢聆听