大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编
第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 大数据应用人才培养系列教材 第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 习题
6.1 Spark SQL简介 Spark的结构化数据处理模块 提供分布式SQL查询引擎 提供处理结构化数据的编程接口DataFrame
6.1 Spark SQL简介 第六章 Spark SQL Spark支持的结构化数据源
6.1 Spark SQL简介 第六章 Spark SQL 分布式SQL引擎的使用场景 JDBC/ODBC 命令行
6.1 Spark SQL简介 第六章 Spark SQL DataFrame编程接口的使用
6.1 Spark SQL简介 Spark SQL 特性 与Spark程序无缝集成 统一的数据访问方法 兼容Hive 多数据源支持 在Spark程序中使用DataFrame API或SQL处理结构化数据 DataFrame API与SQL类似,提供了一种操作结构化数据的标准方法 Spark SQL 特性 兼容Hive 多数据源支持 兼容Hive的数据、查询、用户定义函数 HDFS、Hive、HBase、Parquet等
6.1 Spark SQL简介 第六章 Spark SQL Spark SQL架构
6.1 Spark SQL简介 第六章 Spark SQL Spark SQL原理 – Catalyst优化器
第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 大数据应用人才培养系列教材 第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 习题
6.2 分布式SQL引擎 Spark SQL环境配置 机器名 Spark角色 Hadoop角色 IP地址 cloud1 Master NameNode SecondaryNameNode ResourceManager 192.168.100.10 cloud2 Slave MySQL元数据库 DataNode NodeManager 192.168.100.11 cloud3 Thrift JDBC/ODBC Server 192.168.100.12 在第五章Spark集群中增加MySQL元数据库和Thrift JDBC/ODBC Server
6.2 分布式SQL引擎 MySQL元数据库搭建 准备MySQL数据库 创建数据库用户 sparksql 创建元数据库 hiveMetastore MySQL-connector的配置 下载mysql-connector-java-5.1.41-bin.jar 配置conf/spark-env.sh 配置hive-site.xml
6.2 分布式SQL引擎 使用Spark SQL CLI 启动Spark SQL CLI cd ~/spark-2.1.0-bin-hadoop2.7 ./bin/spark-sql
6.2 分布式SQL引擎 使用Spark SQL CLI 使用SQL操作数据 常用数据操作 SQL 创建数据库 create database mytestdb 查看数据库 show databases 指定当前数据库 use mytestdb 创建表 create table test_tbl(id int, name string, value int) 查看表定义 desc test_tbl 列出所有表 show tables 插入数据 insert into table test_tbl values(0,"blue",10) 查询数据 select * from test_tbl where value>15 删除表 drop table test_tbl 删除数据库 drop database mytestdb
6.2 分布式SQL引擎 Thrift JDBC/ODBC Server的搭建与测试 启动Thrift JDBC/ODBC Server 第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试 启动Thrift JDBC/ODBC Server ./sbin/start-thriftserver.sh 查看日志, 检查是否启动成功: 使用netstat命令查看thrift server监听的端口号:
6.2 分布式SQL引擎 Thrift JDBC/ODBC Server的搭建与测试 第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试 使用Beeline测试Thrift JDBC/ODBC Server 启动beeline ./bin/beeline 连接Thrift JDBC/ODBC Server !connect jdbc:hive2://cloud3:10000
6.2 分布式SQL引擎 Thrift JDBC/ODBC Server的搭建与测试 使用SQL操作数据 查看数据库: 指定当前数据库: 第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试 使用SQL操作数据 查看数据库: 指定当前数据库: use mytestdb
6.2 分布式SQL引擎 Thrift JDBC/ODBC Server的搭建与测试 使用SQL操作数据 查看数据库中的表: 查询数据: 第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试 使用SQL操作数据 查看数据库中的表: 查询数据:
第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 大数据应用人才培养系列教材 第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 习题
6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 准备工作 准备多行Json数据格式文件test.json 上传文件至Hadoop hdfs中 ./bin/hadoop fs -put ./test.json /testdata/
6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 使用Spark Shell编写程序 启动 Spark Shell ./bin/spark-shell 读取json文件 过滤选择数据
6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 使用Spark Shell编写程序 选择字段 输出结果
6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 使用Spark Shell编写程序 通过Spark Web查看Spark SQL的执行情况
6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 使用Spark Shell编写程序 DataFrame转换流程
6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 使用Spark Shell编写程序 分析后的逻辑计划 优化后的逻辑计划
6.3 使用DataFrame API处理结构化数据 第六章 Spark SQL 使用Spark Shell编写程序 物理计划
第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 大数据应用人才培养系列教材 第六章 Spark SQL 6.1 Spark SQL简介 6.2 分布式SQL引擎 6.3 使用DataFrame API处理结构化数据 习题
习题: 1.Spark SQL作为分布式SQL引擎有哪几种使用方法? 2.Spark SQL中的DataFrame与RDD有何区别? 3.DataFrame API支持哪些数据源?请列举3个 。 4.Catalyst优化器对DataFrame操作优化吗? 5.Spark SQL CLI的元数据库和数据默认情况下分别存在什么地方?
AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台
云创公众号推荐 刘鹏看未来 云计算头条 中国大数据 深度学习世界 云创大数据订阅号 云创大数据服务号 高校大数据与人工智能 微信号:lpoutlook 云计算头条 微信号:chinacloudnj 中国大数据 微信号:cstorbigdata 深度学习世界 微信号:dl-world 云创大数据订阅号 微信号:cStor_cn 云创大数据服务号 微信号:cstorfw 高校大数据与人工智能 微信号:data_AI
手机APP推荐 我的PM2.5 随时随地准确 查看身边的 PM2.5值 同声译 支持26种语言 互译的实时翻 译软件 我的南京 云创大数据为路 况大数据应用提 供技术支持 科技头条 汇聚前沿资讯 的科技情报站
网站推荐 万物云 智能硬件大数据免费托管平台 环境云 环境大数据开放共享平台
感谢聆听