基于R和pentaho的全套开源BI平台的实现 李舰 Mango Solutions China
目录 BI和pentaho套件简介 R和pentaho的集成 Hadoop下的应用 系统选型的建议
BI系统的框架 展现层 决策支持 报表 仪表盘 统计图形 OLAP展现 动态图形 业务应用平台 功能 财务分析 数据挖掘 管理报表 预测 模拟 运算引擎 OLAP引擎 模型和算法 多维分析 数据仓库 基础架构 ETL数据获取和交换平台 Extraction Transformation Load 数据源 数据 业务系统 财务系统 HR系统 Office文件 其他格式的数据
Pentaho套件
Pentaho架构
Pentaho BI Server——自由而灵活的平台
Kettle——数据整合的利器
Metadata Editor——元数据管理
Report Designer——方便的报表设计工具
Mondrian——强大的开源OLAP引擎
Schema Workbench——数据仓库的设计
WEKA——优秀的数据挖掘平台
Pentaho套件的演示
目录 BI和pentaho套件简介 R和pentaho的集成 Hadoop下的应用 系统选型的建议
R包rpentaho的操作演示
目录 BI和pentaho套件简介 R和pentaho的集成 Hadoop下的应用 系统选型的建议
Pentaho对Hadoop的支持 http://www.pentaho.com/hadoop/ Pentaho Business Analytics Pentaho Data Integration
Hadoop简史 Apache Nutch MapReduce Hadoop 2002年,Lucene的子项目。 NDFS (Nutch Distributed File System) MapReduce MapReduce:大规模集群上的简单数据处理方式 (Google) MapReduce + NDFS Hadoop 2006,命名为Hadoop 2008,Apache顶级项目 HDFS (Hadoop Distributed File System)
Hadoop和Google Google云计算 GFS-->HDFS MapReduce-->Hadoop BigTable-->HBase Google云计算 MapReduce BigTable GFS Chubby
Hadoop项目结构
MapReduce流程
Hadoop Streaming Hadoop的工具,使用脚本文件当mapper或reducer $ $HADOOP_HOME/bin/hadoop jar \ > $HADOOP_HOME/contrib/streaming/hadoop-streaming-*.jar \ > -input /data/airline/test.dat -output /dept-delay-month \ > -mapper map.R -reducer reduce.R -file map.R -file reduce.R
hive http://cran.r-project.org/web/packages/hive/index.html Hadoop InteractiVE (和Hive没什么关系) R和Hadoop的接口 提供了存取HDFS的函数 对Hadoop进行控制 直接在R中运行streaming jobs
Rhipe http://www.rhipe.org/ 基于Hadoop streaming 可以完全在R中开发MapReduce 中的Jobs 工作在R环境
RHadoop https://github.com/RevolutionAnalytics/RHadoop 的开源项目 rmr Rhdfs R和Hadoop的Streaming连接器 Rhdfs 处理Hadoop Distributed File System Rhbase R和Hbase的连接器
展望 Hama ( http://wiki.apache.org/hama/) 矩阵运算 R函数的分布式开发 K-Means lm ……
目录 BI和pentaho套件简介 R和pentaho的集成 Hadoop下的应用 系统选型的建议
建议和讨论