大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.

Slides:



Advertisements
Similar presentations
Java 技术与应用 数据库应用 ( 第 14 章 ) 西安交大 卫颜俊 2008 年 12 月 电子信箱: QQ: 网站 : /java.
Advertisements

第 7 章 数据库 1. Overview  数据库概述  数据库管理系统  数据库的体系结构和数据库模型  SQL 语言  数据库技术  构建数据库系统 2.
Amazon 云计算 AWS (三) 云计算 (第三版) 第 3 章 CLOUD COMPUTING Third Edition
淘宝海量数据产品技术架构 张轩丞(朋春) 淘宝网-数据平台与产品部.
SQL的简单查询.
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
OceanBase 0.4:从API到SQL 日照
資料庫 (Database) SQL Server 2008實作
数据库概述 简而言之,数据库(DataBase)就是一个存储数据的仓库。为了方便数据的存储和管理,它将数据按照特定的规律存储在磁盘上。通过数据库管理系统,可以有效的组织和管理存储在数据库中的数据。如今,已经存在了Oracle、SQL Server、MySQL等诸多优秀的数据库。在这一章中将讲解的内容包括。
第4讲 MySQL服务器的配置与应用.
11.3 国产大数据库技术 阿里巴巴OceanBase 云创存储数据立方(DataCube)
第三章 管理信息系统的技术基础 主要内容: 数据处理 数据组织 数据库技术 4. 计算机网络.
为教师开展大数据课程教学提供全方位、一站式服务
项目四 组建跨地区网络 授课教师:肖颖.
转正述职报告 乐恩公司 史航
数据库应用与程序设计.
在PHP和MYSQL中实现完美的中文显示
J2EE与中间件技术 ——Lab.
Hadoop 單機設定與啟動 step 1. 設定登入免密碼 step 2. 安裝java step 3. 下載安裝Hadoop
第十五章 常見的資料庫管理系統 目的 Oracle 微軟SQL Server 微軟Access MySQL Oracle 應用伺服器
基于R和pentaho的全套开源BI平台的实现
第3章 分布式文件系统HDFS (PPT版本号:2017年2月版本)
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
基于Hadoop的数据仓库Hive.
面向高能所信息化系统的高可用数据库服务 王丽 计算中心 中科院高能所 第十八届全国科学计算与信息化会议.
第九讲 Hadoop架构再探讨 (2016春季学期)
第二讲 搭建Java Web开发环境 主讲人:孙娜
Chinese Virtual Observatory
Qt Quick 4小时入门 安晓辉(foruok)
第3章 MySQL教學範本 主從式資料庫系統 - CH3.
Hadoop平台與應用規劃實作 報告者:劉育維.
SVN服务器的搭建(Windows) 柳峰
SQL Injection.
Spring & mongodb java实战mongodb 曹巍 2013年9月22日.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
《Spark编程基础》 《 Spark编程基础》课程介绍 (PPT版本号:2018年2月)
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
第17章 网站发布.
软件工程基础 云计算概论 刘 驰.
第20章 MySQL数据库.
Spark SQL 介绍 付士涛. Spark SQL 介绍 付士涛 大纲 Architecture(架构) 像Hive一样的User Interface(用户操作界面) DataFrame的使用(1.3以前叫做SchemaRDD)
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
3.2 Mysql 命令行 1 查看数据库 SHOW DATABASES; 2 创建一个数据库test1 CREATE DATABASE test1; 3 选择你所创建的数据库 USE test1; (按回车键出现Database changed 时说明操作成功!) 4 查看现在的数据库中存在什么表.
SQL 范引娣.
VB与Access数据库的连接.
Lesson 4 :基礎應用一(計數器) (2005/01/27).
软件服务导论 刘 驰 教授 博士生导师 北京理工大学计算机学院 副院长
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
大数据应用人才培养系列教材 大数据系统运维 刘 鹏 张 燕 总主编 姜才康 主编 陶建辉 副主编.
大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.
VB与Access数据库的连接.
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
大数据应用人才培养系列教材 Python语言 刘 鹏 张 燕 总主编 李肖俊 主编 刘 河 钟 涛 副主编.
WEB程序设计技术 数据库操作.
大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
高级大数据人才培养丛书之一,大数据挖掘技术与应用
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.
大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
Web安全基础教程
大数据应用人才培养系列教材 数据清洗 刘 鹏 张 燕 总主编 李法平 主编 陈潇潇 副主编.
大数据应用人才培养系列教材 大数据系统运维 刘 鹏 张 燕 总主编 姜才康 主编 陶建辉 副主编.
Presentation transcript:

大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编

第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 大数据应用人才培养系列教材 第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 习题

6.1 Spark SQL简介 Spark的结构化数据处理模块 提供分布式SQL查询引擎 提供处理结构化数据的编程接口DataFrame

6.1 Spark SQL简介 第六章 Spark SQL Spark支持的结构化数据源

6.1 Spark SQL简介 第六章 Spark SQL 分布式SQL引擎的使用场景 JDBC/ODBC 命令行

6.1 Spark SQL简介 第六章 Spark SQL DataFrame编程接口的使用

6.1 Spark SQL简介 Spark SQL 特性 与Spark程序无缝集成 统一的数据访问方法 兼容Hive 多数据源支持 在Spark程序中使用DataFrame API或SQL处理结构化数据 DataFrame API与SQL类似,提供了一种操作结构化数据的标准方法 Spark SQL 特性 兼容Hive 多数据源支持 兼容Hive的数据、查询、用户定义函数 HDFS、Hive、HBase、Parquet等

6.1 Spark SQL简介 第六章 Spark SQL Spark SQL架构

6.1 Spark SQL简介 第六章 Spark SQL Spark SQL原理 – Catalyst优化器

第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 大数据应用人才培养系列教材 第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 习题

6.2 分布式SQL引擎 Spark SQL环境配置 机器名 Spark角色 Hadoop角色 IP地址 cloud1 Master NameNode SecondaryNameNode ResourceManager 192.168.100.10 cloud2 Slave MySQL元数据库 DataNode NodeManager 192.168.100.11 cloud3 Thrift JDBC/ODBC Server 192.168.100.12 在第五章Spark集群中增加MySQL元数据库和Thrift JDBC/ODBC Server

6.2 分布式SQL引擎 MySQL元数据库搭建 准备MySQL数据库 创建数据库用户 sparksql 创建元数据库 hiveMetastore MySQL-connector的配置 下载mysql-connector-java-5.1.41-bin.jar 配置conf/spark-env.sh 配置hive-site.xml

6.2 分布式SQL引擎 使用Spark SQL CLI 启动Spark SQL CLI cd ~/spark-2.1.0-bin-hadoop2.7 ./bin/spark-sql

6.2 分布式SQL引擎 使用Spark SQL CLI 使用SQL操作数据 常用数据操作 SQL 创建数据库 create database mytestdb 查看数据库 show databases 指定当前数据库 use mytestdb 创建表 create table test_tbl(id int, name string, value int) 查看表定义 desc test_tbl 列出所有表 show tables 插入数据 insert into table test_tbl values(0,"blue",10) 查询数据 select * from test_tbl where value>15 删除表 drop table test_tbl 删除数据库 drop database mytestdb

6.2 分布式SQL引擎 Thrift JDBC/ODBC Server的搭建与测试 启动Thrift JDBC/ODBC Server 第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试 启动Thrift JDBC/ODBC Server ./sbin/start-thriftserver.sh 查看日志, 检查是否启动成功: 使用netstat命令查看thrift server监听的端口号:

6.2 分布式SQL引擎 Thrift JDBC/ODBC Server的搭建与测试 第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试 使用Beeline测试Thrift JDBC/ODBC Server 启动beeline ./bin/beeline 连接Thrift JDBC/ODBC Server !connect jdbc:hive2://cloud3:10000

6.2 分布式SQL引擎 Thrift JDBC/ODBC Server的搭建与测试 使用SQL操作数据 查看数据库: 指定当前数据库: 第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试 使用SQL操作数据 查看数据库: 指定当前数据库: use mytestdb

6.2 分布式SQL引擎 Thrift JDBC/ODBC Server的搭建与测试 使用SQL操作数据 查看数据库中的表: 查询数据: 第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试 使用SQL操作数据 查看数据库中的表: 查询数据:

第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 大数据应用人才培养系列教材 第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 习题

6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 准备工作 准备多行Json数据格式文件test.json 上传文件至Hadoop hdfs中 ./bin/hadoop fs -put ./test.json /testdata/

6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 使用Spark Shell编写程序 启动 Spark Shell ./bin/spark-shell 读取json文件 过滤选择数据

6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 使用Spark Shell编写程序 选择字段 输出结果

6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 使用Spark Shell编写程序 通过Spark Web查看Spark SQL的执行情况

6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 使用Spark Shell编写程序 DataFrame转换流程

6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 使用Spark Shell编写程序 分析后的逻辑计划 优化后的逻辑计划

6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 使用Spark Shell编写程序 物理计划

第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 大数据应用人才培养系列教材 第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 习题

习题: 1.Spark SQL作为分布式SQL引擎有哪几种使用方法? 2.Spark SQL中的DataFrame与RDD有何区别? 3.DataFrame API支持哪些数据源?请列举3个 。 4.Catalyst优化器对DataFrame操作优化吗? 5.Spark SQL CLI的元数据库和数据默认情况下分别存在什么地方?

AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台

云创公众号推荐 刘鹏看未来 云计算头条 中国大数据 深度学习世界 云创大数据订阅号 云创大数据服务号 高校大数据与人工智能 微信号:lpoutlook 云计算头条 微信号:chinacloudnj 中国大数据 微信号:cstorbigdata 深度学习世界 微信号:dl-world 云创大数据订阅号 微信号:cStor_cn 云创大数据服务号 微信号:cstorfw 高校大数据与人工智能 微信号:data_AI

手机APP推荐 我的PM2.5 随时随地准确 查看身边的 PM2.5值 同声译 支持26种语言 互译的实时翻 译软件 我的南京 云创大数据为路 况大数据应用提 供技术支持 科技头条 汇聚前沿资讯 的科技情报站

网站推荐 万物云 智能硬件大数据免费托管平台 环境云 环境大数据开放共享平台

感谢聆听