- 畅销套餐
- 精选套餐
- 人气套餐
- 尊享套餐
- 高薪套餐
- 课程介绍
- 课程大纲
适合人群:
大数据开发、数据仓库开发、数据分析
你将会学到:
掌握在大规模数据集中(10T规模)对常见的Spark SQL性能问题,比如数据倾斜等进行诊断和调优
课程简介:
本课程讲解Spark SQL的基本概念和性能优化的基本原理,由Spark SQL基础和性能优化两大部分组成。
Spark SQL基础:Spark SQL常用语句、常用参数、Spark SQL UI页面介绍、Spark SQL处理数据的基础模型
Spark SQL性能优化:包含Spark SQL进行TPC-DS性能测试、性能调优等。
课程大纲-Spark SQL性能优化
第1章Spark SQL简介和常用语句(10分钟1节)
1-1
Spark SQL简介和常用语句什么是Spark SQL中的表内部表和外部表视图查看表描述分区和分桶Spark SQL的分区Spark SQL的分桶如何写入数据
「仅限付费用户」点击下载“01-第01章-Spark SQL简介和常用语句.docx”
[10:36]开始学习第2章存储和压缩格式(6分钟1节)
第3章处理数据基础模型(13分钟1节)
3-1
Spark SQL UI介绍和处理数据基础模型Jobs选项卡Stages选项卡Environment选项卡SQL / DataFrame选项卡map阶段reduce阶段commit阶段
「仅限付费用户」点击下载“03-第03章-处理数据基础模型.docx”
[13:37]开始学习第4章Spark SQL常用参数(14分钟1节)
4-1
Spark SQL调优常用的参数AQE优化控制SHUFFLE分区个数控制SHUFFLE输入大小控制TASK内存参数TASK同时运行个数其它REDUCE阶段相关参数如何预估每个REDUCE任务处理的数据量
「仅限付费用户」点击下载“04-第04章-Spark SQL常用参数.docx”
[14:11]开始学习第5章自定义函数和JSON数据解析(21分钟1节)
5-1
自定义函数和JSON数据解析实现自定义UDF 实现自定义UDTF实现自定义UDAF解析JSON数据解析OBJECT数据解析ARRAY数据禁止使用get_json_object函数
「仅限付费用户」点击下载“05-第05章-自定义函数和JSON数据解析.docx”
[21:12]开始学习第6章基于TPC-DS进行性能测试(21分钟3节)
第7章性能优化(19分钟1节)
7-1
Spark SQL数据倾斜和非数据倾斜优化Spark SQL出现性能问题,一般分为数据倾斜和非数据倾斜。我们在这里分别对多种情况进行解决。数据倾斜相关优化1 MAP倾斜优化2 REDUCE倾斜优化2.1 通过广播避免shuffle2.2 过滤掉导致数据倾斜的数据2.3 将倾斜值单独处理2.4 将脏数据转为随机数2) 数据非倾斜相关优化1 TASK个数特别多1.1 减小数据量1.2 合并TASK2 所有TASK都执行缓慢2.1 类笛卡尔积优化3 单个TASK执行缓慢3.1 慢节点问题3.2 EXPAND数据膨胀问题4 SQL不结束
「仅限付费用户」点击下载“07-第07章-性能优化.docx”
[19:45]开始学习