ad
close

Spark SQL性能优化

掌握在大规模数据集中(10T规模)对常见的Spark SQL性能问题,比如数据倾斜等进行诊断和调优

275人学习

中级9课时2023/08/21更新

二维码下载学堂APP缓存视频离线看

菜菜
  • 畅销套餐
  • 精选套餐
  • 人气套餐
  • 尊享套餐
  • 高薪套餐
GoldenGate+ETL/Kettle专题(92个项目)
GoldenGate数据库容灾迁移01(OGG同构异构、数据库迁移、数据同步、容灾复制)
190546人学习
¥998.00
GoldenGate数据库容灾迁移02(OGG同构异构、数据库迁移、数据同步、容灾复制)
47185人学习
¥889.00
GoldenGate数据库容灾迁移03(OGG同构异构、数据库迁移、数据同步、容灾复制)
24683人学习
¥889.00
更 多 7 门 课 程
大数据运维架构师实战培训专题2.0
大数据运维架构师培训(1):Hadoop集群(HDFS,MR,Yarn),Zookeeper集群
85107人学习
¥499.00
大数据运维架构师培训(2):Hbase,Hive, Phoenix,Pig,Impala,Kudu
33517人学习
¥333.00
大数据运维架构师培训(3):Spark,Flink, Storm,Kafka,Solr
33010人学习
¥399.00
更 多 12 门 课 程
大数据运维工程师培训实战专题1.0(Hadoop生态圈)
大数据运维架构师培训(1):Hadoop集群(HDFS,MR,Yarn),Zookeeper集群
85107人学习
¥499.00
大数据运维架构师培训(2):Hbase,Hive, Phoenix,Pig,Impala,Kudu
33517人学习
¥333.00
大数据运维架构师培训(3):Spark,Flink, Storm,Kafka,Solr
33010人学习
¥399.00
更 多 5 门 课 程
赵强-大数据课程之从Hadoop到Spark专题
赵渝强老师:Hadoop 2.x(一) 大数据基础实战视频课程
67715人学习
¥279.00
赵渝强老师:Spark系列视频课程之一:Scala编程语言视频课程
19759人学习
¥179.00
赵渝强老师:Spark 2系列视频课程之二:Spark Core
14650人学习
¥279.00
更 多 11 门 课 程
赵强-大数据课程之从Hadoop到Spark专题
赵渝强老师:Hadoop 2.x(一) 大数据基础实战视频课程
67715人学习
¥279.00
赵渝强老师:Spark系列视频课程之一:Scala编程语言视频课程
19759人学习
¥179.00
赵渝强老师:Spark 2系列视频课程之二:Spark Core
14650人学习
¥279.00
更 多 11 门 课 程
  • 课程介绍
  • 课程大纲

适合人群:

大数据开发、数据仓库开发、数据分析

你将会学到:

掌握在大规模数据集中(10T规模)对常见的Spark SQL性能问题,比如数据倾斜等进行诊断和调优

课程简介:

本课程讲解Spark SQL的基本概念和性能优化的基本原理,由Spark SQL基础和性能优化两大部分组成。

Spark SQL基础:Spark SQL常用语句、常用参数、Spark SQL UI页面介绍、Spark SQL处理数据的基础模型

Spark SQL性能优化:包含Spark SQL进行TPC-DS性能测试、性能调优等。

思维导图.png

展开更多

课程大纲-Spark SQL性能优化

  • 第1章Spark SQL简介和常用语句(10分钟1节)

  • 1-1

    Spark SQL简介和常用语句什么是Spark SQL中的表内部表和外部表视图查看表描述分区和分桶Spark SQL的分区Spark SQL的分桶如何写入数据

    「仅限付费用户」点击下载“01-第01章-Spark SQL简介和常用语句.docx”

    [10:36]
  • 第2章存储和压缩格式(6分钟1节)

  • 2-1

    Spark SQL的存储和压缩格式存储和压缩格式对比查询效果测试查询效果测试带shuffle

    「仅限付费用户」点击下载“02-第02章-存储和压缩格式.docx”

    [06:55]
  • 第3章处理数据基础模型(13分钟1节)

  • 3-1

    Spark SQL UI介绍和处理数据基础模型Jobs选项卡Stages选项卡Environment选项卡SQL / DataFrame选项卡map阶段reduce阶段commit阶段

    「仅限付费用户」点击下载“03-第03章-处理数据基础模型.docx”

    [13:37]
  • 第4章Spark SQL常用参数(14分钟1节)

  • 4-1

    Spark SQL调优常用的参数AQE优化控制SHUFFLE分区个数控制SHUFFLE输入大小控制TASK内存参数TASK同时运行个数其它REDUCE阶段相关参数如何预估每个REDUCE任务处理的数据量

    「仅限付费用户」点击下载“04-第04章-Spark SQL常用参数.docx”

    [14:11]
  • 第5章自定义函数和JSON数据解析(21分钟1节)

  • 5-1

    自定义函数和JSON数据解析实现自定义UDF 实现自定义UDTF实现自定义UDAF解析JSON数据解析OBJECT数据解析ARRAY数据禁止使用get_json_object函数

    「仅限付费用户」点击下载“05-第05章-自定义函数和JSON数据解析.docx”

    [21:12]
  • 第6章基于TPC-DS进行性能测试(21分钟3节)

  • 6-1

    搭建TPC-DS环境如何搭建TPC-DS测试环境

    「仅限付费用户」点击下载“06-第06章-基于TPC-DS进行性能测试.docx”

    [08:50]
  • 第7章性能优化(19分钟1节)

  • 7-1

    Spark SQL数据倾斜和非数据倾斜优化Spark SQL出现性能问题,一般分为数据倾斜和非数据倾斜。我们在这里分别对多种情况进行解决。数据倾斜相关优化1 MAP倾斜优化2 REDUCE倾斜优化2.1 通过广播避免shuffle2.2 过滤掉导致数据倾斜的数据2.3 将倾斜值单独处理2.4 将脏数据转为随机数2) 数据非倾斜相关优化1 TASK个数特别多1.1 减小数据量1.2 合并TASK2 所有TASK都执行缓慢2.1 类笛卡尔积优化3 单个TASK执行缓慢3.1 慢节点问题3.2 EXPAND数据膨胀问题4 SQL不结束

    「仅限付费用户」点击下载“07-第07章-性能优化.docx”

    [19:45]
close
  • 课程介绍
  • 课程大纲
在线
客服
APP
下载

下载Android客户端

下载iphone 客户端

官方
微信

关注官方微信

返回
顶部