Kettle 培训 BI 数据部 Jim 2011年03月27日.

Slides:



Advertisements
Similar presentations
迪士尼公主裙衫变化记. 《白雪公主和七个小孩人》 《白雪公主和七个小矮人》,是世界电影史上第一部长动 画片,也是迪士尼的第一部。《白雪公主》不仅为迪斯尼 带来了第一尊奥斯卡小人,更是拯救迪斯尼于水火的贵 人 —— 在经济大萧条的 1937 年的美国,《白雪公主》为迪 斯尼赚到了 850 万美元,这约等于现在的数亿美元!
Advertisements

惟勤電訊有限公司 FLOW Software System Co., Ltd 專案經理 : 劉振林.
教师成绩录入步骤 1. 登录教务系统 2. 进入教师成绩管理界面 3. 选择相应的教学班,点击 “ 课程成绩录 入 ” 进入成绩录入界面 4. 点击 “ 设置 ” 按钮设置 “ 成绩分项 ” 5. 录入成绩, “ 保存成绩 ” 按钮可以保存成 绩但不提交(提交后不能再修改成绩) 6. “ 提交成绩 ”
7.2 图示化记忆 记忆的概述 图示化记忆 联想记忆法 奇特联想记忆法 用手记忆.
管理科学与工程类专业 职业规划问题探讨 报告人 : 李增兵 67D103 , FTP : // 管理科学与工程学院.
协同数据管理及数据分析专家 2013 年 07 月 通达智能报表中心. 第二章 引子 第四章 领先优势 第五章 应用领域 第六章 案例分享 第三章 产品介绍 第一章 通达信科综合实力 第七章 客户名单(部分) 第八章 系统演示.
Web Maple— 云端计 算 数学学院刘海洋 胡婷婷. 需求 什么是 Web Maple ? Maple : “ 数学家的软件 ” 符号和数值计算 动态编程语言 集成编辑环境与图形输出 Web Maple :网页上的数学家 完整的 Maple 功能 云端计算 网页独特的输入输出格式.
教育技术装备统计系统 使用培训 教育部基础教育司 教育部教育管理信息中心.
《网络工程专业导论》课程 (Introduction to Network Engineering)
武汉库得克 软件有限公司 公司简介 发展机遇 特点 一家专注于质量管理平台和整体 解决方案的提供商
国家科技计划体系暨 国家重点新产品计划 申报简介
IT运维管理解决方案 -轻松管理,自在运维 产品经理 刘曜.
CSpace安装管理与系统配置管理 中科院兰州文献情报中心 信息系统部
数据库原理及应用 课程导引 成都东软学院.
应用性能管理提升客户体验 龙珠客户案例分享 肖澍 云智慧公司.
做好就业与自主创业的准备.
  中国技术交易信息服务平台 中国技术市场管理促进中心.
汇报大纲 一、报送系统总体介绍 二、自查及检查评分报送流程 三、自查及检查方法及关键点 四、建议及注意事项.
資料庫系統 曾俊雄.
班級:行流四甲 組員:497D0004何筱瑩 497D0016鄧宜欣 497D0044呂亭儀 497D0056黃 琪 497D0063賴依淩
第 11 章 網際網路與資料庫系統.
Web程序设计基础 太原理工大学 计算机科学与技术学院 林福平 求实创新
实训十四、IE浏览器的基本应用.
数据库概述 简而言之,数据库(DataBase)就是一个存储数据的仓库。为了方便数据的存储和管理,它将数据按照特定的规律存储在磁盘上。通过数据库管理系统,可以有效的组织和管理存储在数据库中的数据。如今,已经存在了Oracle、SQL Server、MySQL等诸多优秀的数据库。在这一章中将讲解的内容包括。
印度的鼻環美女 修改製作:pan0524 日期:
Apache PHP MySQL 介紹與安裝設定 NIT 戴琬諭 NIT 林佳保.
建设数字化的卫生监督体系 深 圳 市 卫 生 监 督 所 2006年4月.
公文/檔案管理作業流程 簡 報 總務處 文書組 報告人:田至琴 9 7 年3 月7 日 1 1.
网络信息资源的开发与设计 主讲教师 罗双兰 广西师范大学教育科学学院.
转正述职报告 乐恩公司 史航
第四章 社会 [本章内容与要求]     本章主要介绍社会、社会运行的条件与机制、社会结构、社会关系,社会要素中的人口因素、环境因素。要求对社会发展、社会运行有基本的认识和初步的思考。
江西省专业技术人员 继续教育信息管理系统.
珍惜时间 提高效率 初二1班
第二期实验室工作人员培训讲座(三) 加强规范化建设 提高仪器设备管理水平 设备处 黄久龙 2017年9月13日 徐州师范大学设备处 黄久龙.
学习目标: 1)理解包和包过滤 2)理解包过滤的方法 3)设置特殊的包过滤规则
主講人:黃鎮榮 東方設計學院觀光與休閒事業管理系
雲嘉區網數位學習推廣服務計畫 中正大學電算中心 黃仁竑.
基于Hadoop的数据仓库Hive.
課程名稱:資料庫系統 授課老師:李春雄 博士
組員:陳俊宇 陳典杰 趙俊閔 指導老師:張慶寶
数据仓库和数据挖掘 DATA WAREHOUSING AND DATA MINING 经济科学室验室
知识仓库建库管理系统(KDKW35) KDKW35的简介 KDKW35的系统结构 KDKW35的功能 KDKW35的技术特点
【VA虚拟应用管理平台】专题培训 资源管理及个性化 陕西益和信息技术开发有限责任公司 2011年2月.
数据保护技术(完整性、并发性、安全性和数据库恢复)
欢迎各位领导莅临胜利科技检查指导工作 安徽省公共电子阅览室 免费软件安装培训 全国公共文化发展中心安徽省级分中心 2014年09月.
网 站 设 计 与 建 设 Website design and developments
專題J組 題目: 檢定考試管理系統 指導老師: 曾修宜 老師 組員: 曾聖棋 謝宗翰
Python联合服务器的使用.
Web前端开发 第23章:网站发布 阮晓龙 / 河南中医药大学管理科学与工程学科
第十三讲 使用数据库(一) 上海财经大学信息管理与工程学院.
封面 (资产管理软件)
SiteServer CMS 系统介绍.
第一章 数 据 库 概 述 第一节 引言 第二节 数据库基本概念 第三节 数据库系统结构 第四节 数据模型 第五节 数据库管理系统
VSB9网站群管理平台 系统管理.
VSB9网站群管理平台 系统管理.
【VA虚拟应用管理平台】专题培训 资源管理及个性化 陕西益和信息技术开发有限责任公司 2011年2月.
光輪2000升級 升級SQL Server Analysis Services 2005
1 打开 SQL Server 2005 安装盘,单击 SPLASH.HTA 文件进行安装,安装界面如图所示。
TurboDX架构、应用场景、比较优势 北京数贝软件科技有限公司
目 录: 一、网络存储系统的登录 二、网络存储系统的基本使用 三、学生提交作业功能的使用 四、教师开放资源功能的使用.
課程名稱:資料庫系統 授課老師:李春雄 博士
上海理工大学 光电信息与计算机工程学院 数据仓库与数据挖掘 张 艳 上海理工大学 光电信息与计算机工程学院.
第十二章 Visual FoxPro开发Web数据库
LogBase运维安全管理系统(堡垒机)使用说明
LogBase运维安全管理系统(堡垒机)使用说明
大数据应用人才培养系列教材 数据清洗 刘 鹏 张 燕 总主编 李法平 主编 陈潇潇 副主编.
----以《西北民族音乐学术资源数据库》为例 西安音乐学院 景 月 亲
Java语言程序设计.
大数据应用人才培养系列教材 数据清洗 刘 鹏 张 燕 总主编 李法平 主编 陈潇潇 副主编.
Presentation transcript:

Kettle 培训 BI 数据部 Jim 2011年03月27日

Kettle 培训内容 Kettle 功能与产品介绍 Kettle 控件介绍 Kettle 案例演示 Kettle 调度

Kettle介绍 Kettle 是一款开源的、元数据驱动的ETL工具集,是开源 ETL 工具里功能比较强大的一个。 Kettle 是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计 用来帮助你实现你的ETTL 需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员MATT 在一个论坛里说的哪样:希望把各种数据放到一个壶里然后以一种指定的格式流出。

Kettle 四大家族 Pantaho产品线 Reporting、Data Mining、Analysis、Dashboards、Data Integration Kettle家族目前包括4个产品: Spoon、Pan、Chef、Kitchen。 Chef—工作(job)设计工具 (GUI方式) Kitchen—工作(job)执行器 (命令行方式) Spoon—转换(transform)设计工具 (GUI方式) Span—转换(transform)执行器 (命令行方式)

Kettle 四大家族 SPOON允许你通过图形界面来设计ETL转换过程(Transformation)。例如,从一个SAP系统抽取数据,并把这些数据存储到一个文件里的转换任务如下: PAN允许你批量运行由Spoon设计的ETL转换(例如使用时间调度器)。Pan是一个后台执行的程序,没有图形界面。 CHEF允许你创建任务(JOB)。任务通过允许每个转换、任务、脚本等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换、任务、脚本等。任务将会被检查,看看是否正确运行了。(下面是一个chef的任务图)。   

Kettle 四大家族 KITCHEN允许你批量使用由Chef设计的任务(例如使用一个时间调度器)。KITCHEN是一个后台运行程序。 Job和Transformation的差别:Transformation专注于数据的ETL,而Job的范围比较广,可以是Transformation,也可以是Mail、SQL、Shell、FTP等,甚至可以是另外一个Job。

Kettle 的安装 要运行此工具你必须安装Sun 公司的JAVA 运行环境1.4 或者更高版本,相关资源你可以到网络上搜索JDK 进行下载 绿色免安装,解压即可用。 在不同的平台上运行Spoon 所支持的脚本: Spoon.bat: 在windows 平台运行Spoon。 Spoon.sh: 在Linux、Apple OSX、Solaris 平台运行Spoon。

Kettle转化功能介绍 1 Kettle 中有两种脚本文件,transformation (.ktr)和 job(.kjb),transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。 所有功能支持控件化,使用简单 支持多样化数据源类型: 基本的文本文件 Access、Excel、XML、Property文件格式 MDX查询语言、 Cube文件、Streaming XML数据流 自动产生空记录或者行 从XBase类型文件(DBF)读取数据 关系型数据库 获取系统信息如文件名称、系统时间等

Kettle转化功能介绍 2 特殊目标数据源支持 支持多种查询 转换功能 把数据写入到Cube 把数据写入XML 调用数据库存储过程 基本的数据库查询 判断表以及列、操作系统文件是否存在 从URL接收查询 使用Web服务查询信息 使用数据流中的值作为参数来执行一个数据库查询 流查询:从转换中其他流里查询值 转换功能 值映射、分组、去重、拆分字段、行列转换 复制行

Kettle转化功能介绍3 支持的脚本 支持渐变维度更新 批量加载: 支持分区表和集群 JS脚本 SQL脚本 正则表达式 Greenplum Bulk Loader Oracle Bulk Loader MSSQL Bulk Loader MYSQL Bulk Loader PostgreSQL Bulk Loader 支持分区表和集群

Kettle作业功能介绍 1 可以执行操作系统命令和操作: Ping 主机 写日志 发送邮件 从POP Server获取邮件并保存在本地 比较文件夹、文件 创建、复制、移动、删除、压缩文件 从HTTP获取或者上传文件 操作延迟等待

Kettle作业功能介绍 2 判断文件是否存在 执行JavaScript、SQL、Shell脚本 支持安全FTP获取、上传文件 删除远程文件 支持SSH2上传下载

数据库连接类型和访问类型 支持的数据库连接类型,截图如下, 有些数据库类型需要完善jar包,以确保数据库能够正确连接

访问类型 数据库访问类型支持如下几种: JDBC OCI ODBC JNDI

Kettle实施步骤 双击运行 kettle 文件夹下的 Kettle 文件,出现 kettle 欢迎界面。 创建资料库(可省略) 创建数据库连接 创建转换 创建Jobs,进行流程化控制

Kettle案例 案例描述: 把文本文件中的格式化数据导入到oracle数据库的指定表中

打开Kettle 选择没有资料库

创建数据库连接 创建数据库连接

输入数据源连接名称,选择数据源类型和访问方式

输入服务器主机名和数据库名称

输入数据表空间和索引表空间名称

输入用户名和密码

测试数据库连接

数据源建立成功

创建转换 右击转换,新建出现如下界面

从左侧输入栏目中选择文本文件输入控件,拖拽到右侧工作空间中

从输出栏目拖拽表输出控件到左侧工作区

选中两个控件,在其中一个控件上右击,选择新建节点连接

选择起始步骤

双击文本文件输入控件,进行编辑

文本文件“内容”标签编辑

点击获取字段按钮,可自动获取字段名称,然后编辑相关属性,预览记录。

编辑输出表控件属性

然后点击绿色按钮,启动转换

保存转换

可以查看执行结果

可以加入执行SQL脚本

在核心对象中有很多控件可用来实现数据的ETL功能。

创建作业 从左侧通用栏目中拖拽两个控件

双击Transformation 1进行编辑

保存jobs后执行任务

Kettle 调度 利用Kitchen工具实现作业的调用 Kitchen.bat /file:D:\job_name.kjb /level:Basic

总结 Kettle的功能非常强大,数据抽取效率也比较高,开源产品,可以进行第三方修改,工具中的控件能够实现数据抽取的大部分需求。 所有功能支持控件化,使用简单 Kettle目前还不是特别稳定,并且发现的BUG也特别多