Spark开发核心技能进阶宝典

学会本课程的学员,可以具备企业大数据中级开发/分析岗位所要求的Spark能力。

1351人学习

中级34课时2018/05/05更新

二维码下载学堂APP缓存视频离线看

马彦平
    • 畅销套餐
    • 精选套餐
    • 人气套餐
    • 尊享套餐
    • 高薪套餐
大数据开发必知必会
Java语言核心知识筑基宝典视频课程
16894人学习
¥99.00
大数据方向Hadoop核心知识进阶宝典——HDFS、MapReduce、YARN视频课程
7698人学习
¥199.00
Spark开发核心技能进阶宝典
1351人学习
¥199.00
更 多 9 门 课 程
大数据运维必知必会
大数据方向计算机知识筑基宝典系列视频课程
3527人学习
¥99.00
Java语言核心知识筑基宝典视频课程
16894人学习
¥99.00
大数据方向Hadoop核心知识进阶宝典——HDFS、MapReduce、YARN视频课程
7698人学习
¥199.00
更 多 7 门 课 程
GoldenGate+ETL/Kettle专题(92个项目)
GoldenGate数据库容灾迁移01(OGG同构异构、数据库迁移、数据同步、容灾复制)
156763人学习
¥998.00
GoldenGate数据库容灾迁移02(OGG同构异构、数据库迁移、数据同步、容灾复制)
41211人学习
¥889.00
GoldenGate数据库容灾迁移03(OGG同构异构、数据库迁移、数据同步、容灾复制)
21552人学习
¥889.00
更 多 7 门 课 程
大数据运维架构师实战培训专题2.0
大数据运维架构师培训(1):Hadoop集群(HDFS,MR,Yarn),Zookeeper集群
72898人学习
¥499.00
大数据运维架构师培训(2):Hbase,Hive, Phoenix,Pig,Impala,Kudu
28067人学习
¥333.00
大数据运维架构师培训(3):Spark,Flink, Storm,Kafka,Solr
26826人学习
¥399.00
更 多 12 门 课 程
大数据运维架构师实战培训专题2.0
大数据运维架构师培训(1):Hadoop集群(HDFS,MR,Yarn),Zookeeper集群
72898人学习
¥499.00
大数据运维架构师培训(2):Hbase,Hive, Phoenix,Pig,Impala,Kudu
28067人学习
¥333.00
大数据运维架构师培训(3):Spark,Flink, Storm,Kafka,Solr
26826人学习
¥399.00
更 多 12 门 课 程
  • 课程介绍
  • 课程大纲

适合人群:

大数据开发、分析方向已学过引导、基础课的学员

你将会学到:

学会本课程的学员,可以具备企业大数据中级开发/分析岗位所要求的Spark能力。

课程简介:

课程附件解压密码:smjyxiaomage

本课程针对当前**的Spark 2.2/2.3版本,结合经典原版教材Spark: The Definitive Guide进行讲授,既保证了权威性,又包含丰富的案例。通过这门课的学习,学员可以多面学习**的结构化API(DataFrame、Dataset)、传统的低层API(RDD)、Spark应用的开发和部署、Spark的流、高级分析和机器学习等Spark领域核心的知识。

学会本课程的学员,可以具备企业大数据中级开发/分析岗位所要求的Spark能力。

68747470733a2f2f696d616765732d6e612e73736c2d696d616765732d616d617a6f6e2e636f6d2f696d616765732f492f35317a37547a492d59334c2e5f53583337395f424f312c3230342c3230332c3230305f2e6a7067.jpeg

课程体系图-21.png

展开更多

课程大纲-Spark开发核心技能进阶宝典

  • 第1章Spark概览(1小时51分钟3节)

  • 1-1

    什么是Spark简单介绍什么是Spark,其发展历史,怎样在自己的机器上运行Spark,以及这套课程配套的学习资料。

    「仅限付费用户」点击下载“21-1 什么是Spark.pdf”

    [25:31]
  • 1-2

    Spark入门介绍Spark的基础架构,几类不同的API,最后结合一个端到端的例子来演示Spark高层API的使用。

    「仅限付费用户」点击下载“21-2 Spark入门.pdf”

    [45:09]
  • 1-3

    Spark工具集概览首先简单地了解一下怎样在生产环境运行Spark应用,其次来概览Spark中全部可用的工具集,包括高层的DataFrame、Dataset、Structured Streaming,低层的RDD,以及高级分析和机器学习API。

    「仅限付费用户」点击下载“21-3 Spark工具集概览.pdf”

    [41:02]
  • 第2章结构化API-DataFrames,SQL,Datasets(5小时39分钟8节)

  • 2-1

    结构化API概览简单介绍结构化API的核心概念,详细介绍结构化Spark类型、结构化API的执行机制。

    「仅限付费用户」点击下载“21-4 结构化API概览.pdf”

    [30:22]
  • 2-2

    基础结构化操作介绍DataFrame以及与之相关的基础概念(模式、表等),接着介绍DataFrame上的各种变换。

    「仅限付费用户」点击下载“21-5 基础结构化操作.pdf”

    [47:08]
  • 2-3

    使用多种类型数据结合实例,来看结构化API中怎样操作各类数据(布尔型、数值、字符串、时间、复杂类型等),以及怎样编写用户定义函数来实现更复杂的操作。

    「仅限付费用户」点击下载“21-6 使用多种类型数据.pdf”

    [49:55]
  • 2-4

    聚合介绍聚合的概念,结合实例学习结构化API中怎样使用聚合函数、分组、开窗函数、分组集、用户定义聚合函数。

    「仅限付费用户」点击下载“21-7 聚合.pdf”

    [40:33]
  • 2-5

    连接介绍连接的概念,结合实例学习Spark中支持的各种连接,阐述使用连接时的挑战,最后分析Spark执行连接的底层机制。

    「仅限付费用户」点击下载“21-8 连接.pdf”

    [36:49]
  • 2-6

    数据源介绍数据源API的结构,结合实例学习Spark原生数据源的用法(CSV、JSON、Parquet等),一些高级I/O概念(分割、并行读取、分区、分桶等)。

    「仅限付费用户」点击下载“21-9 数据源.pdf”

    [48:15]
  • 2-7

    Spark SQL介绍Spark SQL的一些基础知识(如何使用、与Hive的关系等),表、视图、数据库的概念和使用,SELECT语句的使用,一些高级主题(复杂类型、复杂函数、子查询等)。

    「仅限付费用户」点击下载“21-10 Spark SQL.pdf”

    [44:49]
  • 2-8

    数据集介绍Dataset的基本概念及其使用场合,结合实例学习其创建、变换、分组和聚合的方法。

    「仅限付费用户」点击下载“21-11 数据集.pdf”

    [41:49]
  • 第3章低层API(1小时51分钟3节)

  • 3-1

    弹性分布式数据集(RDD)介绍低层API和RDD的概念、用途,结合实例学习RDD的创建和各种操作。

    「仅限付费用户」点击下载“21-12 弹性分布式数据集(RDD).pdf”

    [49:43]
  • 3-2

    高级RDD结合实例介绍一些高级RDD操作,包括键-值RDD、聚合、连接、控制分区等。

    「仅限付费用户」点击下载“21-13 高级RDD.pdf”

    [38:04]
  • 3-3

    分布式共享变量介绍另一类低层API:分布式共享变量的概念和用法,结合实例学习广播变量和累加器这两种分布式共享变量。

    「仅限付费用户」点击下载“21-14 分布式共享变量.pdf”

    [24:07]
  • 第4章生产应用程序(3小时23分钟5节)

  • 4-1

    Spark如何在集群上运行介绍Spark应用的基本架构(三大组成部分以及三种执行模式),介绍整个Spark应用生命周期发生了什么,并补充一些执行中的细节。

    「仅限付费用户」点击下载“21-15 Spark如何在集群上运行.pdf”

    [42:35]
  • 4-2

    开发Spark应用程序结合实例介绍怎样用Scala和Python语言编写Spark应用程序,介绍测试Spark的方法论,以及如何提交应用、配置应用。

    「仅限付费用户」点击下载“21-16 开发Spark应用程序.pdf”

    [43:49]
  • 4-3

    部署Spark讨论几个与部署Spark有关的话题,包括在哪里部署Spark集群,集群管理器的作用和配置,以及一些在部署中的杂项问题。

    「仅限付费用户」点击下载“21-17 部署Spark.pdf”

    [40:07]
  • 4-4

    监控和调试介绍与Spark集群和应用监控有关的话题,包括监控什么、怎么监控,并结合实际生产中会遇到的故障,介绍一些调试和急救的技巧。

    「仅限付费用户」点击下载“21-18 监控和调试.pdf”

    [39:23]
  • 4-5

    性能调优介绍Spark性能调优的方法,包括间接性能增强(设计选择、集群配置、静止数据处理等)和直接性能增强(并行性、改进过滤、重分区等)两部分。

    「仅限付费用户」点击下载“21-19 性能调优.pdf”

    [37:33]
  • 第5章(2小时33分钟4节)

  • 5-1

    流处理基础概述什么是流处理,其适用领域及其优势和挑战,接着介绍常见流处理系统的设计要点,最后简要介绍Spark中两类不同的流处理API。

    「仅限付费用户」点击下载“21-20 流处理基础.pdf”

    [36:36]
展开更多
在线
客服
APP
下载

下载Android客户端

下载iphone 客户端

官方
微信

关注官方微信

返回
顶部