大数据应用人才培养系列教材大数据实践刘鹏张燕总主编袁晓东主编黄必栋副主编.

Slides:

Advertisements

Similar presentations

Java 技术与应用数据库应用 ( 第 14 章 ) 西安交大卫颜俊 2008 年 12 月电子信箱： QQ: 网站 : /java.

Advertisements

第 7 章数据库 1. Overview  数据库概述  数据库管理系统  数据库的体系结构和数据库模型  SQL 语言  数据库技术  构建数据库系统 2.

Amazon 云计算 AWS (三) 云计算（第三版）第 3 章 CLOUD COMPUTING Third Edition

淘宝海量数据产品技术架构张轩丞（朋春）淘宝网-数据平台与产品部.

SQL的简单查询.

第八讲基于Hadoop的数据仓库Hive （PPT版本号：2016年4月6日版本）

“大云”大数据平台及应用中国移动通信研究院郭磊涛 2013年11月.

OceanBase 0.4：从API到SQL 日照

資料庫 (Database) SQL Server 2008實作

数据库概述简而言之，数据库（DataBase）就是一个存储数据的仓库。为了方便数据的存储和管理，它将数据按照特定的规律存储在磁盘上。通过数据库管理系统，可以有效的组织和管理存储在数据库中的数据。如今，已经存在了Oracle、SQL Server、MySQL等诸多优秀的数据库。在这一章中将讲解的内容包括。

第4讲 MySQL服务器的配置与应用.

11.3 国产大数据库技术阿里巴巴OceanBase 云创存储数据立方（DataCube）

第三章管理信息系统的技术基础主要内容：数据处理数据组织数据库技术 4. 计算机网络.

为教师开展大数据课程教学提供全方位、一站式服务

项目四组建跨地区网络授课教师：肖颖.

转正述职报告乐恩公司史航

数据库应用与程序设计.

在PHP和MYSQL中实现完美的中文显示

J2EE与中间件技术 ——Lab.

Hadoop 單機設定與啟動 step 1. 設定登入免密碼 step 2. 安裝java step 3. 下載安裝Hadoop

第十五章常見的資料庫管理系統目的 Oracle 微軟SQL Server 微軟Access MySQL Oracle 應用伺服器

基于R和pentaho的全套开源BI平台的实现

第3章分布式文件系统HDFS （PPT版本号：2017年2月版本）

第2章大数据处理架构Hadoop （PPT版本号：2017年2月版本）

快速学习环境搭建安装前预备工作（Linux相关配置）实操演示（hadoop、hbase为例) 总结&练习题（课后练练手）

基于Hadoop的数据仓库Hive.

面向高能所信息化系统的高可用数据库服务王丽计算中心中科院高能所第十八届全国科学计算与信息化会议.

第九讲 Hadoop架构再探讨（2016春季学期）

第二讲搭建Java Web开发环境主讲人：孙娜

Chinese Virtual Observatory

Qt Quick 4小时入门安晓辉(foruok)

第3章 MySQL教學範本主從式資料庫系統 - CH3.

Hadoop平台與應用規劃實作報告者：劉育維.

SVN服务器的搭建（Windows）柳峰

Spring & mongodb java实战mongodb 曹巍 2013年9月22日.

基于大数据的物流资源整合福建师范大学协和学院沈庆琼.

第11章：一些著名开源软件介绍第12章：服务安装和配置本章教学目标：了解当前一些应用最广泛的开源软件项目搭建一个网站服务器

《Spark编程基础》《 Spark编程基础》课程介绍（PPT版本号：2018年2月）

大数据管理技术 --NoSQL数据库 HBase 陈辉大数据分析技术.

第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库数据库中数据的组织由低到高分为四级：字段、记录、表、数据库四种。

第17章网站发布.

软件工程基础云计算概论刘驰.

第20章 MySQL数据库.

Spark SQL 介绍付士涛. Spark SQL 介绍付士涛大纲 Architecture（架构）像Hive一样的User Interface（用户操作界面） DataFrame的使用(1.3以前叫做SchemaRDD)

基于大数据平台数据管理研究何家乐 2013年7月中国科学院高能物理研究所.

3.2 Mysql 命令行 1 查看数据库 SHOW DATABASES; 2 创建一个数据库test1 CREATE DATABASE test1; 3 选择你所创建的数据库 USE test1; (按回车键出现Database changed 时说明操作成功！) 4 查看现在的数据库中存在什么表.

VB与Access数据库的连接.

Lesson 4 :基礎應用一(計數器) (2005/01/27).

软件服务导论刘驰教授博士生导师北京理工大学计算机学院副院长

大数据应用人才培养系列教材 R 语言刘鹏张燕总主编程显毅主编刘颖朱倩副主编.

大数据应用人才培养系列教材大数据系统运维刘鹏张燕总主编姜才康主编陶建辉副主编.

大数据应用人才培养系列教材大数据实践刘鹏张燕总主编袁晓东主编黄必栋副主编.

VB与Access数据库的连接.

大数据应用人才培养系列教材 R 语言刘鹏张燕总主编程显毅主编刘颖朱倩副主编.

大数据应用人才培养系列教材数据挖掘基础刘鹏张燕总主编陶建辉主编姜才康副主编.

大数据应用人才培养系列教材 R 语言刘鹏张燕总主编程显毅主编刘颖朱倩副主编.

大数据应用人才培养系列教材 Python语言刘鹏张燕总主编李肖俊主编刘河钟涛副主编.

WEB程序设计技术数据库操作.

大数据应用人才培养系列教材大数据实践刘鹏张燕总主编袁晓东主编黄必栋副主编.

大数据应用人才培养系列教材 R 语言刘鹏张燕总主编程显毅主编刘颖朱倩副主编.

高级大数据人才培养丛书之一，大数据挖掘技术与应用

大数据应用人才培养系列教材数据挖掘基础刘鹏张燕总主编陶建辉主编姜才康副主编.

大数据应用人才培养系列教材大数据实践刘鹏张燕总主编袁晓东主编黄必栋副主编.

大数据应用人才培养系列教材大数据实践刘鹏张燕总主编袁晓东主编黄必栋副主编.

大数据应用人才培养系列教材数据挖掘基础刘鹏张燕总主编陶建辉主编姜才康副主编.

Web安全基础教程

大数据应用人才培养系列教材数据清洗刘鹏张燕总主编李法平主编陈潇潇副主编.

大数据应用人才培养系列教材大数据系统运维刘鹏张燕总主编姜才康主编陶建辉副主编.

Presentation transcript:

大数据应用人才培养系列教材大数据实践刘鹏张燕总主编袁晓东主编黄必栋副主编

第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据大数据应用人才培养系列教材第六章 Spark SQL 6.1　Spark SQL简介 6.2　分布式SQL引擎 6.3　使用DataFrame API处理结构化数据习题

6.1 Spark SQL简介 Spark的结构化数据处理模块提供分布式SQL查询引擎提供处理结构化数据的编程接口DataFrame

6.1 Spark SQL简介第六章 Spark SQL Spark支持的结构化数据源

6.1 Spark SQL简介第六章 Spark SQL 分布式SQL引擎的使用场景 JDBC/ODBC 命令行

6.1 Spark SQL简介第六章 Spark SQL DataFrame编程接口的使用

6.1 Spark SQL简介 Spark SQL 特性与Spark程序无缝集成统一的数据访问方法兼容Hive 多数据源支持在Spark程序中使用DataFrame API或SQL处理结构化数据 DataFrame API与SQL类似，提供了一种操作结构化数据的标准方法 Spark SQL 特性兼容Hive 多数据源支持兼容Hive的数据、查询、用户定义函数 HDFS、Hive、HBase、Parquet等

6.1 Spark SQL简介第六章 Spark SQL Spark SQL架构

6.1 Spark SQL简介第六章 Spark SQL Spark SQL原理 – Catalyst优化器

第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据大数据应用人才培养系列教材第六章 Spark SQL 6.1 Spark SQL简介 6.2　分布式SQL引擎 6.3　使用DataFrame API处理结构化数据习题

6.2 分布式SQL引擎 Spark SQL环境配置机器名 Spark角色 Hadoop角色 IP地址 cloud1 Master NameNode SecondaryNameNode ResourceManager 192.168.100.10 cloud2 Slave MySQL元数据库 DataNode NodeManager 192.168.100.11 cloud3 Thrift JDBC/ODBC Server 192.168.100.12 在第五章Spark集群中增加MySQL元数据库和Thrift JDBC/ODBC Server

6.2 分布式SQL引擎 MySQL元数据库搭建准备MySQL数据库创建数据库用户 sparksql 创建元数据库 hiveMetastore MySQL-connector的配置下载mysql-connector-java-5.1.41-bin.jar 配置conf/spark-env.sh 配置hive-site.xml

6.2 分布式SQL引擎使用Spark SQL CLI 启动Spark SQL CLI cd ~/spark-2.1.0-bin-hadoop2.7 ./bin/spark-sql

6.2 分布式SQL引擎使用Spark SQL CLI 使用SQL操作数据常用数据操作 SQL 创建数据库 create database mytestdb 查看数据库 show databases 指定当前数据库 use mytestdb 创建表 create table test_tbl(id int, name string, value int) 查看表定义 desc test_tbl 列出所有表 show tables 插入数据 insert into table test_tbl values(0,"blue",10) 查询数据 select * from test_tbl where value>15 删除表 drop table test_tbl 删除数据库 drop database mytestdb

6.2 分布式SQL引擎 Thrift JDBC/ODBC Server的搭建与测试启动Thrift JDBC/ODBC Server 第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试启动Thrift JDBC/ODBC Server ./sbin/start-thriftserver.sh 查看日志, 检查是否启动成功：使用netstat命令查看thrift server监听的端口号：

6.2 分布式SQL引擎 Thrift JDBC/ODBC Server的搭建与测试第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试使用Beeline测试Thrift JDBC/ODBC Server 启动beeline ./bin/beeline 连接Thrift JDBC/ODBC Server !connect jdbc:hive2://cloud3:10000

6.2 分布式SQL引擎 Thrift JDBC/ODBC Server的搭建与测试使用SQL操作数据查看数据库：指定当前数据库：第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试使用SQL操作数据查看数据库：指定当前数据库： use mytestdb

6.2 分布式SQL引擎 Thrift JDBC/ODBC Server的搭建与测试使用SQL操作数据查看数据库中的表：查询数据：第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试使用SQL操作数据查看数据库中的表：查询数据：

第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据大数据应用人才培养系列教材第六章 Spark SQL 6.1 Spark SQL简介 6.2　分布式SQL引擎 6.3　使用DataFrame API处理结构化数据习题

6.3 使用DataFrame API处理结构化数据第六章 Spark SQL 准备工作准备多行Json数据格式文件test.json 上传文件至Hadoop hdfs中 ./bin/hadoop fs -put ./test.json /testdata/

6.3 使用DataFrame API处理结构化数据第六章 Spark SQL 使用Spark Shell编写程序启动 Spark Shell ./bin/spark-shell 读取json文件过滤选择数据

6.3 使用DataFrame API处理结构化数据第六章 Spark SQL 使用Spark Shell编写程序选择字段输出结果

6.3 使用DataFrame API处理结构化数据第六章 Spark SQL 使用Spark Shell编写程序通过Spark Web查看Spark SQL的执行情况

6.3 使用DataFrame API处理结构化数据第六章 Spark SQL 使用Spark Shell编写程序 DataFrame转换流程

6.3 使用DataFrame API处理结构化数据第六章 Spark SQL 使用Spark Shell编写程序分析后的逻辑计划优化后的逻辑计划

6.3 使用DataFrame API处理结构化数据第六章 Spark SQL 使用Spark Shell编写程序物理计划

第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据大数据应用人才培养系列教材第六章 Spark SQL 6.1 Spark SQL简介 6.2　分布式SQL引擎 6.3 使用DataFrame API处理结构化数据习题

习题： 1.Spark SQL作为分布式SQL引擎有哪几种使用方法？ 2.Spark SQL中的DataFrame与RDD有何区别？ 3.DataFrame API支持哪些数据源？请列举3个。 4.Catalyst优化器对DataFrame操作优化吗？ 5.Spark SQL CLI的元数据库和数据默认情况下分别存在什么地方？

AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台

云创公众号推荐刘鹏看未来云计算头条中国大数据深度学习世界云创大数据订阅号云创大数据服务号高校大数据与人工智能微信号：lpoutlook 云计算头条微信号：chinacloudnj 中国大数据微信号：cstorbigdata 深度学习世界微信号：dl-world 云创大数据订阅号微信号：cStor_cn 云创大数据服务号微信号：cstorfw 高校大数据与人工智能微信号：data_AI

手机APP推荐我的PM2.5 随时随地准确查看身边的 PM2.5值同声译支持26种语言互译的实时翻译软件我的南京云创大数据为路况大数据应用提供技术支持科技头条汇聚前沿资讯的科技情报站

网站推荐万物云智能硬件大数据免费托管平台环境云环境大数据开放共享平台

感谢聆听