Download presentation
Presentation is loading. Please wait.
1
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编
2
大数据应用人才培养系列教材 第十三章 RHadoop 13.1 认识RHadoop 13.2 Rhdoop安装 13.3 综合练习 习题
3
13.1 认识RHadoop 第十三章 RHadoop (1) Hadoop家族的强大之处在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。所以,hadoop重点是海量数据分析。 (2)R语言的强大之处在于统计分析,在没有Hadoop之前,我们对于大数据的处理。 可以看出,两种技术放在一起,刚好是取长补短。
4
大数据应用人才培养系列教材 第十三章 RHadoop 13.1 认识RHadoop 13.2 RHadoop安装 13.3 综合练习 习题
5
13.2 RHadoop安装 第十三章 RHadoop (1)下载依赖包 rmr-2.1.0 rhdfs-1.0.5 rhbase-1.1 复制到/root/R目录 ~/R# pwd /root/R ~/R# ls rhbase_1.1.tar.gz rhdfs_1.0.5.tar.gz rmr2_2.1.0.tar.gz
6
13.2 RHadoop安装 第十三章 RHadoop (2)安装rJava库,在配置好了JDK 1.6的环境后,运行R CMD javareconf命令,R的程序从系统变量中会读取Java配置。然后打开R程序,通过install.packages的方式安装rJava。
7
13.2 RHadoop安装 (3)安装依赖库 在命令行执行: R CMD javareconf R 启动R程序
install.packages("rJava") install.packages("reshape2") install.packages("Rcpp") install.packages("iterators") install.packages("itertools") install.packages("digest") install.packages("RJSONIO") install.packages("functional")
8
13.2 RHadoop安装 第十三章 RHadoop (4)安装rhdfs库,在环境变量中增加 HADOOP_CMD 和 HADOOP_STREAMING 两个变量: vi /etc/environment HADOOP_CMD=/root/hadoop/hadoop-1.0.3/bin/Hadoop HADOOP_STREAMING=/root/hadoop/hadoop-1.0.3/contrib/ streaming/ hadoop-streaming jar (5)安装rmr库 R CMD INSTALL rmr2_2.1.0.tar.gz (6)安装rhbase库 安装完成HBase后,还需要安装Thrift,因为rhbase是通过Thrift调用HBase的。 Thrift是需要本地编译的,官方没有提供二进制安装包,首先下载thrift-0.8.0。 在Thrift解压目录输入./configure,会列Thrift在当前机器所支持的语言环境,如果只是为了rhbase,默认配置就可以了。
9
13.2 RHadoop安装 (7)安装rhbase。 下载thrift
wget tar.gz tar xvf thrift tar.gz cd thrift-0.8.0/ 下载PHP支持类库(可选) sudo apt-get install php-cli 下载C++支持类库(可选) sudo apt-get install libboost-dev libboost-test-dev libboost -program-options-dev libevent-dev automake libtool flex bison pkg-config g++ libssl-dev
10
13.2 RHadoop安装 生成编译的配置参数 ./configure 编译和安装 make make install
查看thrift版本 thrift -version Thrift version 0.8.0 启动HBase的Thrift Server /hbase /bin/hbase-daemon.sh start thrift jps 安装rhbase R CMD INSTALL rhbase_1.1.1.tar.gz
11
13.2 RHadoop安装 (8)查看安装的类库 一般R的类库目录是
/usr/lib/R/site-library或者/usr/local/lib/R/ site-library, 用户也可以使用whereis R的命令查询,自己计算机上R类库的安装位置。 ls /disk1/system/usr/local/lib/R/site-library/ digest functional iterators itertools plyr Rcpp reshape2 rhdfs rJava RJSONIO rmr2 stringr
12
大数据应用人才培养系列教材 第十三章 RHadoop 13.1 认识RHadoop 13.2 RHadoop安装 13.3 综合练习 习题
13
13.3 综合练习 (1)查看hadoop目录 hadoop fs -ls /user (2)查看hadoop数据文件
hadoop fs -cat /user/hdfs/o_same_school/part-m-00000 (3)启动R程序 (4)启动MapReduce > library(rmr2) > small.ints = to.dfs(1:10) > mapreduce(input = small.ints, map = function(k, v) cbind(v, v^2)) > from.dfs("/tmp/RtmpWnzxl4/file5deb791fcbd5")
14
13.3 综合练习 (5)wordcount执行rmr2任务
第十三章 RHadoop (5)wordcount执行rmr2任务 > input<- '/user/hdfs/o_same_school/part-m-00000' > wordcount = function(input, output = NULL, pattern = " "){ wc.map = function(., lines) { keyval(unlist( strsplit( x = lines,split = pattern)),1) } wc.reduce =function(word, counts ) { keyval(word, sum(counts)) } mapreduce(input = input ,output = output, input.format = "text", map = wc.map, reduce = wc.reduce,combine = T) > wordcount(input) >from.dfs("/tmp/RtmpfZUFEa/file6cac626aa4a7")
15
大数据应用人才培养系列教材 第十三章 RHadoop 13.1 认识RHadoop 13.2 RHadoop安装 13.3 综合练习 习题
16
习题: 1.下面 程序负责HDFS数据存储。 A.NameNode B.Jobtracker C.Datanode D.secondaryNameNode 2.Hadoop作者是 。 A.Martion Fowler B.Kent Beck C.Doug cutting 3.Rhadoop是将R的强大 能力和hadoop的 相结合。 4.通过R的三个包 、 、 ,实现R对hadoop各个组件的调用。 5.Hadoop主要用来 ,R语言完成 算法。 6.R语言的强大之处? 7.Mahout是基于Hadoop的 和 的算法框架。 8.Hadoop作者是 。 9.Hadoop家族的强大之处,在于对 的处理,让原来的不可能(TB,PB数据量计算),成为了可能。 10.Mahout和R语言的区别?
17
习题: 11.Rhadoop的四个组成功能。 12.Hadoop特点及优势? 13.R与Hadoop结合一般步骤?
14.R的三个包rmr、rhdfs、rhbase分别是对应Hadoop系统架构中的哪个部分? 15.对应MapReduce的R包的名称。 16.对应 HDFS的R包的名称
18
AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台
19
云创公众号推荐 刘鹏看未来 云计算头条 中国大数据 深度学习世界 云创大数据订阅号 云创大数据服务号 高校大数据与人工智能
微信号:lpoutlook 云计算头条 微信号:chinacloudnj 中国大数据 微信号:cstorbigdata 深度学习世界 微信号:dl-world 云创大数据订阅号 微信号:cStor_cn 云创大数据服务号 微信号:cstorfw 高校大数据与人工智能 微信号:data_AI
20
手机APP推荐 我的PM2.5 随时随地准确 查看身边的 PM2.5值 同声译 支持26种语言 互译的实时翻 译软件 我的南京
云创大数据为路 况大数据应用提 供技术支持 科技头条 汇聚前沿资讯 的科技情报站
21
网站推荐 万物云 智能硬件大数据免费托管平台 环境云 环境大数据开放共享平台
22
感谢聆听
Similar presentations