基于R和pentaho的全套开源BI平台的实现

Slides:



Advertisements
Similar presentations
大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
Advertisements

顧客關係管理:整合雲端應用服務.陳美純著.前程文化 出版 第十三章 商業智慧在顧客關係管理 的應用 授課教師:
课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
强力打造湖北农业信息网 全面推进湖北农村信息化
黄金时代 黄金时代:老子,释迦牟尼,苏格拉底,孔子,庄子,耶稣…… 他们是人类智慧的顶峰,他们用人生展示了智慧与慈爱。
電子商務:數位時代商機‧梁定澎總編輯‧前程文化 出版
第四章 商代之舞蹈 本檔案圖片來源:google圖片.
电子工业出版社《云计算(第二版)》配套课件
云计算系统测试技术与实践 中国软件评测中心 陈渌萍 2017年3月3日.
Big Data Ecosystem – Hadoop Distribution
大數據的學習路線 目前做不到的:機率性太高的(博奕) 大數據的核心:預測 預測來自於:分析及樣本 樣本的產生及收集 樣本的儲存 樣本的處理
嗇色園主辦可立小學 故宮 製作日期:2011年3月21日.
狂犬病 保護你我,愛護動物 武漢國中 黃憶暄.
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
E-Mapreduce培训系列 基本介绍.
云计算突飞猛进.
基于Hadoop的Map/Reduce框架研究报告
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
云计算业务应用-数据挖掘.
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
巨量資料平台: Hadoop的生態系.
《大数据技术原理与应用》 课程介绍 (2016春季学期)
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
基于hadoop的数据仓库技术.
海量 数据分析架构.
Kettle 培训 BI 数据部 Jim 2011年03月27日.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
课程设计.
厦门大学数据库实验室NoSQL系列学习之
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
云计算之分布式计算.
Hadoop I/O By ShiChaojie.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
基于Hadoop的数据仓库Hive.
kCloudStorage - 基于云技术的廉价冗余天文海量数据存储
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
Hadoop平台與應用規劃實作 報告者:劉育維.
DAT 323 微软新武器 - 挑战数据的价值极限.
《大数据技术原理与应用》 第十二讲 图计算 (2016春季学期)
Hadoop.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
Visual Studio Team System 简介
软件工程基础 云计算概论 刘 驰.
数据挖掘工具性能比较.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
DevDays ’99 The aim of this mission is knowledge..
斯坦福大学调研 蒋达晟.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
Hadoop入门
程序设计工具实习 Software Program Tool
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
基于MapReduce的Join算法优化
2019/5/8 第2章 数据分析软件介绍.
Google的云计算 分布式锁服务Chubby.
上海理工大学 光电信息与计算机工程学院 数据仓库与数据挖掘 张 艳 上海理工大学 光电信息与计算机工程学院.
基于列存储的RDF数据管理 朱敏
大数据发展的问题与方向 中国信通院云大所.
Presentation transcript:

基于R和pentaho的全套开源BI平台的实现 李舰 Mango Solutions China

目录 BI和pentaho套件简介 R和pentaho的集成 Hadoop下的应用 系统选型的建议

BI系统的框架 展现层 决策支持 报表 仪表盘 统计图形 OLAP展现 动态图形 业务应用平台 功能 财务分析 数据挖掘 管理报表 预测 模拟 运算引擎 OLAP引擎 模型和算法 多维分析 数据仓库 基础架构 ETL数据获取和交换平台 Extraction Transformation Load 数据源 数据 业务系统 财务系统 HR系统 Office文件 其他格式的数据

Pentaho套件

Pentaho架构

Pentaho BI Server——自由而灵活的平台

Kettle——数据整合的利器

Metadata Editor——元数据管理

Report Designer——方便的报表设计工具

Mondrian——强大的开源OLAP引擎

Schema Workbench——数据仓库的设计

WEKA——优秀的数据挖掘平台

Pentaho套件的演示

目录 BI和pentaho套件简介 R和pentaho的集成 Hadoop下的应用 系统选型的建议

R包rpentaho的操作演示

目录 BI和pentaho套件简介 R和pentaho的集成 Hadoop下的应用 系统选型的建议

Pentaho对Hadoop的支持 http://www.pentaho.com/hadoop/ Pentaho Business Analytics Pentaho Data Integration

Hadoop简史 Apache Nutch MapReduce Hadoop 2002年,Lucene的子项目。 NDFS (Nutch Distributed File System) MapReduce MapReduce:大规模集群上的简单数据处理方式 (Google) MapReduce + NDFS Hadoop 2006,命名为Hadoop 2008,Apache顶级项目 HDFS (Hadoop Distributed File System)

Hadoop和Google Google云计算 GFS-->HDFS MapReduce-->Hadoop BigTable-->HBase Google云计算 MapReduce BigTable GFS Chubby

Hadoop项目结构

MapReduce流程

Hadoop Streaming Hadoop的工具,使用脚本文件当mapper或reducer $ $HADOOP_HOME/bin/hadoop jar \ > $HADOOP_HOME/contrib/streaming/hadoop-streaming-*.jar \ > -input /data/airline/test.dat -output /dept-delay-month \ > -mapper map.R -reducer reduce.R -file map.R -file reduce.R

hive http://cran.r-project.org/web/packages/hive/index.html Hadoop InteractiVE (和Hive没什么关系) R和Hadoop的接口 提供了存取HDFS的函数 对Hadoop进行控制 直接在R中运行streaming jobs

Rhipe http://www.rhipe.org/ 基于Hadoop streaming 可以完全在R中开发MapReduce 中的Jobs 工作在R环境

RHadoop https://github.com/RevolutionAnalytics/RHadoop 的开源项目 rmr Rhdfs R和Hadoop的Streaming连接器 Rhdfs 处理Hadoop Distributed File System Rhbase R和Hbase的连接器

展望 Hama ( http://wiki.apache.org/hama/) 矩阵运算 R函数的分布式开发 K-Means lm ……

目录 BI和pentaho套件简介 R和pentaho的集成 Hadoop下的应用 系统选型的建议

建议和讨论