全国高校标准教材《云计算》姊妹篇，剖析大数据核心技术和实战应用

Slides:

Advertisements

Similar presentations

3.2 Java的类 Java 类库的概念语言规则——程序的书写规范 Java语言类库——已有的有特定功能的Java程序模块

Advertisements

Hadoop 2.0 大家族(二) 云计算（第三版）第 6 章 CLOUD COMPUTING Third Edition

微软云计算 Windows Azure(三)

第120讲：Hadoop的MapReduce和Yarn的配置实战详解

LSF系统介绍张焕杰中国科学技术大学网络信息中心

杨宇航百度社区技术部推荐技术在百度UGC产品中的应用杨宇航百度社区技术部

云计算核心算法(一) 云计算（第三版）第 10 章 CLOUD COMPUTING Third Edition 主编：刘鹏教授

素材资源库文字图形图像声音动画视频人力物力财力获取素材的渠道数据库.

实用操作系统概念张惠娟副教授 1.

综合布线技术与实践教程第九章：综合布线系统工程网络分析课程网站：

Oracle数据库 Oracle 子程序.

数据仓库与数据挖掘实验.

Made by Feng Nie 开源机器学习库&Hadoop介绍 Made by Feng Nie

J2EE与中间件技术 ——Lab.

Octopus（大章鱼）：基于R语言的跨平台大数据机器学习与数据分析系统

基于R和pentaho的全套开源BI平台的实现

程式設計實作.

第3章分布式文件系统HDFS （PPT版本号：2017年2月版本）

LSF系统介绍张焕杰中国科学技术大学网络信息中心

Hadoop I/O By ShiChaojie.

OpenMP简介和开发教程广州创龙电子科技有限公司

Overview of Python Visualization Tools

SVN的基本概念柳峰

Spark在智慧图书馆建设中的应用探索 2017年12月22日.

第二讲搭建Java Web开发环境主讲人：孙娜

Computer Graphics 计算机图形学基础张赐 Mail: CSDN博客地址:

R in Enterprise Environment 企业环境中的R

从现在做起彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.

SVN服务器的搭建（Windows）柳峰

辅导课程六.

Qt网络编程实战之HTTP服务器安晓辉(foruok)

第11章：一些著名开源软件介绍第12章：服务安装和配置本章教学目标：了解当前一些应用最广泛的开源软件项目搭建一个网站服务器

大数据管理技术 --NoSQL数据库 HBase 陈辉大数据分析技术.

Visual Studio Team System 简介

第五讲四则运算计算器（一）精品教程《C#程序设计与应用（第2版）清华大学出版社谭恒松主编

Introduction to AI and ML

Online job scheduling in Distributed Machine Learning Clusters

数据挖掘工具性能比较.

PaPaPa项目架构 By:Listen 我在这.

C/C++/Java 哪些值不是头等程序对象

三：基于Eclipse的集成开发环境搭建与使用

程序设计工具实习 Software Program Tool

SOA – Experiment 2: Query Classification Web Service

C++语言程序设计 C++语言程序设计第七章类与对象第十一组 C++语言程序设计.

解决变化问题的自底向上流程建模方法严志民徐玮.

内容摘要 ■ 课程概述 ■ 教学安排 ■ 什么是操作系统? ■ 为什么学习操作系统? ■ 如何学习操作系统? ■ 操作系统实例

C语言程序设计主讲教师：陆幼利.

微机系统的组成.

$9 泛型基础.

第四章团队音乐会序幕：团队协作平台的快速创建

2019/4/16 关注NE官方微信，获取更多服务.

VisComposer 2019/4/17.

Cassandra应用及高性能客户端董亚军来自Newegg-NESC.

计算机网络与网页制作 Chapter 07：Dreamweaver CS5入门

第4章 Excel电子表格制作软件 4.4 函数（一）.

JSP实用教程清华大学出版社第2章 JSP运行环境和开发环境教学目标教学重点教学过程 2019年5月7日.

iSIGHT 基本培训使用 Excel的栅栏问题

<编程达人入门课程> 本节内容计算机编程语言视频提供：昆山爱达人信息技术有限公司官网地址：联系QQ： QQ交流群： ,

魏新宇 MATLAB/Simulink 与控制系统仿真魏新宇

基于最大margin的决策树归纳李宁.

第二章 Java基本语法讲师：复凡.

计算机绘图 AutoCAD2016.

软件服务导论刘驰教授博士生导师北京理工大学计算机学院副院长

全国高校标准教材《云计算》姊妹篇，剖析大数据核心技术和实战应用

大数据应用人才培养系列教材大数据实践刘鹏张燕总主编袁晓东主编黄必栋副主编.

FVX1100介绍法视特（上海）图像科技有限公司施俊.

学习数据结构的意义（C语言版）《数据结构》在线开放课程主讲人：李刚

入侵检测技术大连理工大学软件学院毕玲.

第二章 Java基本语法讲师：复凡.

2019/9/19 互联网产业、立法与网规张钦坤腾讯法务部.

Presentation transcript:

全国高校标准教材《云计算》姊妹篇，剖析大数据核心技术和实战应用 BIG DATA 刘鹏　　主编　　　　张燕　张重生　张志立　副主编

刘鹏教授，清华大学博士。现任南京大数据研究院院长、中国信息协会大数据分会副会长、中国大数据技术与应用联盟副理事长。主持完成科研项目25项，发表论文80余篇，出版专业书籍15本。获部级科技进步二等奖4项、三等奖4项。主编的《云计算》被全国高校普遍采用，被引用量排名中国计算机图书第一名。创办了知名的中国云计算（chinacloud.cn）和中国大数据（thebigdata.cn）网站。曾率队夺得2002 PennySort国际计算机排序比赛冠军，两次夺得全国高校科技比赛最高奖，并三次夺得清华大学科技比赛最高奖。荣获“全军十大学习成才标兵”（排名第一）、南京“十大杰出青年”、江苏省中青年科学技术带头人、清华大学“学术新秀”等称号。

第四章大数据挖掘工具 4.1 Mahout 4.2 Spark MLlib 4.3 其他数据挖掘工具习题全国高校标准教材《云计算》姊妹篇，剖析大数据核心技术和实战应用第四章　大数据挖掘工具 4.1　Mahout 4.2　Spark MLlib 4.3　其他数据挖掘工具习题 3 of 44

Mahout 简介 4.1 Mahout 定义：Apache Mahout 是一个由Java语言实现的开源的可扩展的机器学习算法库发展历史《大数据》配套PPT课件 Mahout 简介定义：Apache Mahout 是一个由Java语言实现的开源的可扩展的机器学习算法库发展历史 2008年之前 Apache Lucene开源搜索引擎的子项目实现Lucene框架中的聚类以及分类算法吸纳协调过滤项目Taste成为独立子项目 2010年以后成为Apache顶级项目实现聚类、分类和协同过滤等机器学习算法既可以单机运行也可在Hadoop平台上运行驱象人目标：机器学习平台，提供类似R的DSL以支持线性代数运算（如分布式向量计算）、大数据统计等基本功能 4 of 44

4.1 Mahout Mahout在各平台支持的机器学习算法《大数据》配套PPT课件 5 of 44 算法单机 MapReduce Spark H2O 聚类算法 — Canopy deprecated k-means x 模糊k-means 流k-means 谱聚类分类算法逻辑回归朴素贝叶斯随机森林隐马尔可夫模型多层感知器协同过滤算法基于用户的协同过滤基于物品的协同过滤基于ALS的矩阵分解基于ALS的矩阵分解（隐式反馈）加权矩阵分解降维算法奇异值分解 Lanczos 随机SVD PCA QR分解 5 of 44

4.1 Mahout 1.下载Mahout安装包 2. 解压并安装Mahout 3. 启动并验证Mahout 4.1.1 Mahout 安装《大数据》配套PPT课件 4.1.1 Mahout 安装安装环境：Linux操作系统（CentOS 6.5 ）、 Hadoop平台（Hadoop 2.5.1） 1.下载Mahout安装包镜像网站http://mirror.bit.edu.cn/apache/mahout/ 2. 解压并安装Mahout 3. 启动并验证Mahout 6 of 44

4.1 Mahout 本节重点 K-means聚类算法 4.1.2 聚类算法无监督学习算法同一个簇中对象具有高相似度《大数据》配套PPT课件 4.1.2 聚类算法无监督学习算法同一个簇中对象具有高相似度 Canopy、k-means、模糊k-means、流k-means和谱聚类等都是聚类算法本节重点 K-means聚类算法基于Mahout命令运行k-means算法基于MahoutAPI运行k-means算法基于多维输入数据运行k-means算法 7 of 44

4.1 Mahout 基于Mahout命令运行k-means算法 1 10 1 11 2 10 2 11 10 1 10 2 12个二维数据《大数据》配套PPT课件基于Mahout命令运行k-means算法 1 10 1 11 2 10 2 11 10 1 10 2 … 12个二维数据聚类中心坐标 3次迭代（1.5，10.5）（10.5, 1.5 ）（10.5,10.5 ）运行聚类算法以上述3个坐标为中心，半径为（0.5,0.5），生成3个聚类，每个聚类4个成员 8 of 44

4.1 Mahout 基于Mahout API运行k-means算法给出初始聚类中心 1 10 10 1 10 10 《大数据》配套PPT课件基于Mahout API运行k-means算法给出初始聚类中心 1 10 10 1 10 10 调用Mahout API运行k-means聚类算法,指定Hadoop配置信息、输入数据、初始聚类中心，迭代2次得到聚类结果 9 of 44

4.1 Mahout 基于多维输入数据运行k-means算法 60维数据样本 600条60维趋势数据（600行60列）《大数据》配套PPT课件基于多维输入数据运行k-means算法 60维数据样本 600条60维趋势数据（600行60列）表达了正常、循环、渐增、渐减、向上偏移和向下偏移6类趋势每类100条每类取一条做初始聚类中心运行KmeansDemo类将计算出的聚类中心数据导入到Excel文件 6个聚类中心所代表的趋势曲线 10 of 44

4.1 Mahout 4.1.3 分类算法有监督学习算法考察已被分类的样本数据，学习训练分类规则进行输入数据的类别判定垃圾邮件检测《大数据》配套PPT课件 4.1.3 分类算法有监督学习算法考察已被分类的样本数据，学习训练分类规则进行输入数据的类别判定垃圾邮件广告点击金融诈骗用电异常分类预测垃圾邮件检测 11 of 44

4.1 Mahout 《大数据》配套PPT课件逻辑回归算法 Mahout下基于随机梯度下降（SGD）实现的逻辑回归（Logistic Regression）算法是一种二元分类算法，只能在单机上运行，适合分类算法的入门学习。可视化表达样本数据分类模型正确分类训练学习模型评估 12 of 44

4.1 Mahout 朴素贝叶斯算法新闻网页数据数据清洗训练分类模型新闻类别判定共53条测试数据正确分类51条未正确分类2条《大数据》配套PPT课件朴素贝叶斯算法新闻网页数据数据清洗训练分类模型新闻类别判定共53条测试数据正确分类51条未正确分类2条 13 of 44

4.1 Mahout 协同过滤算法 4.1.4 协同过滤算法通过收集大量用户（协同）的喜好信息，以自动预测（过滤）用户感兴趣的商品《大数据》配套PPT课件 4.1.4 协同过滤算法通过收集大量用户（协同）的喜好信息，以自动预测（过滤）用户感兴趣的商品基于物品的协同过滤算法计算物品相似性矩阵协同过滤算法基于ALS的矩阵分解算法通过矩阵分解进行预测 14 of 44

4.1 Mahout 空白处未评分物品相似度预测评分基于物品的协同过滤算法《大数据》配套PPT课件用户评分矩阵物品相似性矩阵物品1 物品2 物品3 物品4 用户1 5 2 — 用户2 3 用户3 用户4 空白处未评分物品相似度预测评分用户评分矩阵物品1 物品2 物品3 物品4 — 0.25 0.66 0.5 0.33 物品相似性矩阵物品1 物品2 物品3 物品4 用户1 5 2 4.25 用户2 3.3 3 用户3 3.67 4.14 用户4 4.0 3.55 用户评分矩阵（补入预测评分） 15 of 44

4.1 Mahout 基于物品的协同过滤算法实现代码《大数据》配套PPT课件 16 of 44 public class ItemCFDemo extends Configured implements Tool{ public static void main(String[] args) throws Exception{ ToolRunner.run(new Configuration(), new ItemCFDemo(), args); } @Override public int run(String[] args) throws Exception { Configuration conf = getConf(); try { FileSystem fs = FileSystem.get(conf); String dir="/itemcfdemo"; if (!fs.exists(new Path(dir))) { System.err.println("Please make director /itemcfdemo"); return 2; String input=dir+"/input"; if (!fs.exists(new Path(input))) { System.err.println("Please make director /itemcfdemo/input"); String output=dir+"/output"; Path p = new Path(output); if (fs.exists(p)) { fs.delete(p, true); String temp=dir+"/temp"; Path p2 = new Path(temp); if (fs.exists(p2)) { fs.delete(p2, true); } RecommenderJob recommenderJob = new RecommenderJob(); recommenderJob.setConf(conf); recommenderJob.run(new String[]{"--input",input, "--output",output, "--tempDir",temp, "--similarityClassname", TanimotoCoefficientSimilarity.class.getName(), "--numRecommendations", "4"}); } catch (Exception e) { e.printStackTrace(); return 0; 16 of 44

4.1 Mahout 基于ALS的矩阵分解算法 A=U×MT 用户评分矩阵A 用户评分矩阵U 用户评分矩阵M 预测评分矩阵A_k 《大数据》配套PPT课件基于ALS的矩阵分解算法特征维度1 特征维度2 特征维度3 用户1 1.12 1.49 0.48 用户2 1.31 -0.52 0.59 用户3 1.13 0.67 用户4 1.39 0.05 0.45 用户评分矩阵A A=U×MT 用户特征矩阵U 特征维度1 特征维度2 特征维度3 物品1 1.81 1.62 0.74 物品2 2.66 1.71 -1.08 物品3 1.73 -0.23 0.78 物品4 3.16 -0.24 0.90 用户评分矩阵U 用户评分矩阵M 物品特征矩阵M 物品1 物品2 物品3 物品4 用户1 4.796 5.009 1.969 3.614 用户2 1.965 1.958 2.846 4.795 用户3 2.746 4.713 1.395 2.942 用户4 2.930 3.297 2.744 4.785 预测评分矩阵A_k 预测评分矩阵A_k 17 of 44

第四章大数据挖掘工具 4.1 Mahout 4.2 Spark MLlib 4.3 其他数据挖掘工具习题全国高校标准教材《云计算》姊妹篇，剖析大数据核心技术和实战应用第四章　大数据挖掘工具 4.1　Mahout 4.2　Spark MLlib 4.3　其他数据挖掘工具习题 18 of 44

Spark 4.2 Spark MLlib 运行在Spark平台上专为在集群上并行运行而设计 MLlib 《大数据》配套PPT课件 Spark 运行在Spark平台上专为在集群上并行运行而设计 MLlib 内存中更快地实现多次迭代，适用于大规模数据集离散型连续型有监督的机器学习分类逻辑回归支持向量机(SVM) 朴素贝叶斯决策树随机森林梯度提升决策树 (GBT) 回归线性回归保序回归无监督的机器学习聚类 k-means 高斯混合快速迭代聚类(PIC) 隐含狄利克雷分布(LDA) 二分k-means 流k-means 协同过滤、降维交替最小二乘(ALS) 奇异值分解(SVD) 主成分分析(PCA) MLlib支持的机器学习算法 19 of 44

4.2 Spark MLlib 4.2.1 聚类算法实现代码输出结果《大数据》配套PPT课件 4.2.1 聚类算法实现代码输出结果 import org.apache.spark.mllib.clustering.{KMeans, KMeansModel} import org.apache.spark.mllib.linalg.Vectors // Load and parse the data val data = sc.textFile("data/mllib/points.txt") val parsedData = data.map(s => Vectors.dense(s.split("\\s+").map(_.toDouble))).cache() // Cluster the data into three classes using KMeans val k = 3 val numIterations = 20 val clusters = KMeans.train(parsedData, k, numIterations) for(c <- clusters.clusterCenters){ println(c) } clusters.predict(Vectors.dense(10,10)) // Evaluate clustering by computing Within Set Sum of Squared Errors val WSSSE = clusters.computeCost(parsedData) println("Within Set Sum of Squared Errors = " + WSSSE) [1.5,10.5] [10.5,1.5] [10.5,10.5] 2 Within Set Sum of Squared Errors = 6.000000000000057 与Mahout下的k-means聚类应用相比，无论在代码量、易用性及运行方式上，MLlib都具有明显的优势 20 of 44

4.2 Spark MLlib 《大数据》配套PPT课件 4.2.2 回归算法回归算法和分类算法都是有监督的学习，分类算法预测的结果是离散的类别，而回归算法预测的结果是连续的数值线性回归——最常用的算法之一，使用输入值的线性组合来预测输出值类LinearRegressionWithSGD——MLlib实现线性回归算法的常用类之一，基于随机梯度下降实现线性回归输出结果输入函数 y=0.5*x1+0.2*x2 weights: [0.5000000000539042,0.1999999999989402], intercept:0.0 training Mean Squared Error = 9.576567731363342E-20 输入数据 21 of 44

4.2 Spark MLlib 4.2.3 分类算法 Vector(0 0 9) 's label is 2.0 Scala代码《大数据》配套PPT课件 4.2.3 分类算法 0,1 0 0 0,2 0 0 0,3 0 0 0,4 0 0 1,0 1 0 1,0 2 0 1,0 3 0 1,0 4 0 2,0 0 1 2,0 0 2 2,0 0 3 2,0 0 4 Vector(0 0 9) 's label is 2.0 Accuracy: 1.0 输出程序 Scala代码加载训练数据文件解析每行数据训练模型预测分类 22 of 44

4.2 Spark MLlib 4.2.4 协同过滤算法 MLlib中支持的是基于模型的协同过滤，即交替最小二乘（ALS）算法《大数据》配套PPT课件 4.2.4 协同过滤算法 MLlib中支持的是基于模型的协同过滤，即交替最小二乘（ALS）算法依旧以4.1.4节中用户物品数据为例：先加载了训练数据文件，然后解析每行数据，并将其转换为Rating对象定义特征矩阵的维度rank和算法迭代次数numIterations 调用ALS的类方法train()，根据训练数据ratings学习出评分模型调用recommendProductsForUsers()向用户推荐指定个数的物品 23 of 44

第四章大数据挖掘工具 4.1 Mahout 4.2 Spark MLlib 4.3 其他数据挖掘工具习题全国高校标准教材《云计算》姊妹篇，剖析大数据核心技术和实战应用第四章　大数据挖掘工具 4.1　Mahout 4.2　Spark MLlib 4.3　其他数据挖掘工具习题 24 of 44

4.3 其他数据挖掘工具提供标准算法，无法满足个性化需求 Mahout Spark MLlib 提供的并行化机器学习算法数量有限《大数据》配套PPT课件提供标准算法，无法满足个性化需求 Mahout Spark MLlib 提供的并行化机器学习算法数量有限其他数据挖掘工具 SystemML GraphLab WEKA scikit-learn H2O Parameter Server 基于R语言的机器学习库阿里数据挖掘平台DT PAI 百度大规模机器学习框架ELF与机器学习云平台BML 腾讯大规模主题模型训练系统Peacock与深度学习平台Mariana 25 of 44

4.3 其他数据挖掘工具《大数据》配套PPT课件 SystemML IBM Waston Research Center 和 IBM Almaden Research Center联合研发的大数据机器学习系统提供大量的监督和非监督的机器学习算法所需要的线性代数原语，统计功能和ML指定结构，可更容易也更原生地表达ML算法具有较好的可编程性和易用性，用户不需要具备任何分布式系统的概念或编程经验，即可写出可扩展的机器学习算法 26 of 44

4.3 其他数据挖掘工具《大数据》配套PPT课件 GraphLab 卡内基梅隆大学的Select实验室开发的以顶点为计算单元的大规模图处理系统，是一个基于图模型抽象的可扩展的机器学习框架解决稀疏数据集迭代可收敛异步执行高效处理大数据图像算法问题或者可归结为图问题的机器学习和数据挖掘问题优点提供的接口细节比较复杂，使用难度大缺点 27 of 44

4.3 其他数据挖掘工具 Parameter Server 《大数据》配套PPT课件 Parameter Server 基于模型参数的抽象方法，即把所有机器学习算法抽象为对学习过程中一组模型参数的管理和控制，并提供对大规模场景下大量模型参数的有效管理和访问适用机器学习算法研究者、深度优化机器学习算法的数据分析程序员优点为大规模机器学习提供了非常灵活的模型参数调优和控制机制缺点缺少对大规模机器学习时的数据及编程计算模型的高层抽象 28 of 44

… 4.3 其他数据挖掘工具 scikit-learn 分类回归聚类数据降维模型选择数据预处理主要模块支持算法开发案例《大数据》配套PPT课件 scikit-learn 基于Python的机器学习库，建立在NumPy、SciPy和matplotlib基础之上，使用BSD开源许可证分类回归聚类数据降维模型选择数据预处理主要模块 … SVM K-Means SVR Lasso random forest 支持算法开发案例 29 of 44

4.3 其他数据挖掘工具分类归类聚类关联 WEKA 现今最完备的数据挖掘工具之一，数据挖掘和机器学习历史上的里程碑《大数据》配套PPT课件 WEKA 现今最完备的数据挖掘工具之一，数据挖掘和机器学习历史上的里程碑分类归类聚类关联 WEKA可视化GUI界面 30 of 44

R 语言 4.3 其他数据挖掘工具 R中处理大数据基于R语言的机器学习库 SparkR MapReduce RHadoop RHDFS 《大数据》配套PPT课件基于R语言的机器学习库 R语言目前在数据分析应用领域最广为使用的数据分析、统计计算及制图的开源软件系统，提供了大量的专业模块和实用工具 R中处理大数据 R 语言 SparkR MapReduce RHadoop RHDFS RHBase 31 of 44

4.3 其他数据挖掘工具《大数据》配套PPT课件 H2O 服务于数据科学家和开发者的开源机器学习和深度学习的平台 32 of 44

4.3 其他数据挖掘工具腾讯大规模主题模型训练系统Peacock与深度学习平台Mariana Peacock Mariana 《大数据》配套PPT课件腾讯大规模主题模型训练系统Peacock与深度学习平台Mariana Peacock：大规模LDA主题模型训练系统，用于语义理解、兴趣挖掘、用户拓展、QQ群推荐等 Mariana：大规模并行化机器学习处理，用于微信语音和图像识别的深度学习平台 Peacock 大规模样本数据处理大规模矩阵分解隐含语义学习 Peacock应用于QQ群推荐 Mariana 多GPU的深度神经网络并行计算系统Mariana DNN CPU集群的深度神经网络并行计算系统Mariana Cluster 多GPU的深度卷积神经网络并行计算系统Mariana CNN Mariana应用于微信语音识别 33 of 44

ELF BML 4.3 其他数据挖掘工具百度大规模机器学习框架ELF与机器学习云平台BML 《大数据》配套PPT课件百度大规模机器学习框架ELF与机器学习云平台BML ELF：大规模分布式机器学习框架，基于Parameter Server模型的通用化大规模机器学习系统 BML：大规模并行化机器学习处理，用于微信语音和图像识别的深度学习平台 ELF （Essential Learning Framework）吸收了Hadoop、Spark和MPI等大数据平台的优点，用类似于Spark的全内存DAG计算引擎，可基于数据流的编程模式，通过高度抽象的编程接口，让用户方便地完成各种机器学习算法的并行化设计和快速计算 BML （Baidu Machine Learning）支持数据预处理算法、分类算法、聚类算法、深度学习等20多种机器学习算法，通过分布和并行化计算实现优异的计算性能，承载百度公司如网页搜索、百度推广（凤巢、网盟CTR预估）、百度地图、百度翻译等业务应用

4.3 其他数据挖掘工具阿里数据挖掘平台DT PAI 图形化编程数据分析挖掘用户行为预测行业走势预测《大数据》配套PPT课件阿里数据挖掘平台DT PAI DT PAI基于阿里云大数据处理平台ODPS构建，集成了阿里巴巴核心智能算法库，包括特征工程、数据探查与统计、大规模机器学习、深度学习，以及阿里在文本、图像和语音处理方面的数据技术图形化编程数据分析挖掘用户行为预测行业走势预测

习题： 1.简述常用机器学习系统和大数据挖掘工具有哪些？ 2.安装好Mahout环境后，演示Mahout操作实例？ 5. Spark MLlib的适用场合与特点有哪些？ 6.简述SystemML的体系结构。 7.简述GraphLab的体系结构。 8.简述Parameter Server的工作原理。 9.简述scikit-learn的主要模块及开发案例。 10.简述WEKA的工作原理。 11.基于R语言的机器学习库有哪些？ 12.简述H2O机器学习系统的主要功能。

百度排名首位的大数据资料和交流中心

百度排名首位的云计算资料和交流中心

BDRack大数据实验一体机虚拟出百套集群，并行开展大数据实验预装各种流行云计算和大数据平台提供配套实验教程、课件、PPT和培训

知名微信公众号推荐学习大数据必须关注的公众号刘鹏看未来云计算头条中国大数据云创大数据眼光决定成败，与刘鹏教授看未来。微信号：lpoutlook 微信号： chinacloudnj 眼光决定成败，与刘鹏教授看未来。刘鹏，清华博士，《云计算》作者。资源丰富、分析深入、更新及时的云计算知识共享平台。中国大数据云创大数据微信号： cStor_cn 微信号： cstorbigdata 国内大数据龙头企业。提供领先的云存储、云数据库、云视频、云传输产品和解决方案。分享大数据技术，剖析大数据案例，讨论大数据话题。

运用大数据，精彩你生活免费大数据App推荐

感谢聆听