Presentation is loading. Please wait.

Presentation is loading. Please wait.

基于R和pentaho的全套开源BI平台的实现

Similar presentations


Presentation on theme: "基于R和pentaho的全套开源BI平台的实现"— Presentation transcript:

1 基于R和pentaho的全套开源BI平台的实现
李舰 Mango Solutions China

2 目录 BI和pentaho套件简介 R和pentaho的集成 Hadoop下的应用 系统选型的建议

3 BI系统的框架 展现层 决策支持 报表 仪表盘 统计图形 OLAP展现 动态图形 业务应用平台 功能 财务分析 数据挖掘 管理报表 预测
模拟 运算引擎 OLAP引擎 模型和算法 多维分析 数据仓库 基础架构 ETL数据获取和交换平台 Extraction Transformation Load 数据源 数据 业务系统 财务系统 HR系统 Office文件 其他格式的数据

4 Pentaho套件

5 Pentaho架构

6 Pentaho BI Server——自由而灵活的平台

7 Kettle——数据整合的利器

8 Metadata Editor——元数据管理

9 Report Designer——方便的报表设计工具

10 Mondrian——强大的开源OLAP引擎

11 Schema Workbench——数据仓库的设计

12 WEKA——优秀的数据挖掘平台

13 Pentaho套件的演示

14 目录 BI和pentaho套件简介 R和pentaho的集成 Hadoop下的应用 系统选型的建议

15 R包rpentaho的操作演示

16 目录 BI和pentaho套件简介 R和pentaho的集成 Hadoop下的应用 系统选型的建议

17 Pentaho对Hadoop的支持 http://www.pentaho.com/hadoop/
Pentaho Business Analytics Pentaho Data Integration

18 Hadoop简史 Apache Nutch MapReduce Hadoop 2002年,Lucene的子项目。
NDFS (Nutch Distributed File System) MapReduce MapReduce:大规模集群上的简单数据处理方式 (Google) MapReduce + NDFS Hadoop 2006,命名为Hadoop 2008,Apache顶级项目 HDFS (Hadoop Distributed File System)

19 Hadoop和Google Google云计算 GFS-->HDFS
MapReduce-->Hadoop BigTable-->HBase Google云计算 MapReduce BigTable GFS Chubby

20 Hadoop项目结构

21

22 MapReduce流程

23 Hadoop Streaming Hadoop的工具,使用脚本文件当mapper或reducer
$ $HADOOP_HOME/bin/hadoop jar \ > $HADOOP_HOME/contrib/streaming/hadoop-streaming-*.jar \ > -input /data/airline/test.dat -output /dept-delay-month \ > -mapper map.R -reducer reduce.R -file map.R -file reduce.R

24 hive http://cran.r-project.org/web/packages/hive/index.html
Hadoop InteractiVE (和Hive没什么关系) R和Hadoop的接口 提供了存取HDFS的函数 对Hadoop进行控制 直接在R中运行streaming jobs

25 Rhipe http://www.rhipe.org/ 基于Hadoop streaming
可以完全在R中开发MapReduce 中的Jobs 工作在R环境

26 RHadoop https://github.com/RevolutionAnalytics/RHadoop 的开源项目 rmr Rhdfs
R和Hadoop的Streaming连接器 Rhdfs 处理Hadoop Distributed File System Rhbase R和Hbase的连接器

27 展望 Hama ( 矩阵运算 R函数的分布式开发 K-Means lm ……

28 目录 BI和pentaho套件简介 R和pentaho的集成 Hadoop下的应用 系统选型的建议

29 建议和讨论


Download ppt "基于R和pentaho的全套开源BI平台的实现"

Similar presentations


Ads by Google