【大数据 hadoop生态 Spark2.x】深入Spark2.x内核大数据【共7课时】

张敏新锐讲师讲师评分4.7学员733102课程29

就职于一线互联网大厂，负者大数据平台和数据仓库建设，在Spark内核方面有深入的研究，参与Scala基础入门，Spark内核及性能优化相关书籍部分内容的编写工作，在大数据领域有着丰富的实战经验。...

畅销套餐
精选套餐
人气套餐
尊享套餐
高薪套餐

Spark基础+SparkSql+Spark内核+流数据视频课程套餐

【大数据 Hadoop生态 Spark 2.x 多案例】Spark 2.x基础与提升

8187人学习

￥99.00

【大数据 Spark 2.x 流数据多案例】Spark Streaming流数据处理基础与提升

7152人学习

￥99.00

【大数据 Hadoop生态 Spark 2.x 多案例】Spark SQL基础与提升

2573人学习

￥99.00

更多 4 门课程

Spark基础+Spark中级数据处理+Spark内核分析视频课程套餐

【大数据 Hadoop生态 Spark 2.x 多案例】Spark 2.x基础与提升

8187人学习

￥99.00

【大数据 hadoop生态 Spark2.x】深入Spark2.x内核大数据

1971人学习

￥49.00

【大数据 Hadoop生态 Spark 2.x 多案例】Spark SQL基础与提升

Spark大数据处理及机器学习【基于Python的Spark 2.3**版】

72858人学习

￥399.00

Python3科学计算库Numpy入门视频课程

2351人学习

￥29.00

Python3数据处理Pandas入门视频课程

4093人学习

￥29.00

更多 4 门课程

GoldenGate+ETL/Kettle专题（92个项目）

GoldenGate数据库容灾迁移01（OGG同构异构、数据库迁移、数据同步、容灾复制）

180135人学习

￥998.00

GoldenGate数据库容灾迁移02（OGG同构异构、数据库迁移、数据同步、容灾复制）

44366人学习

￥889.00

GoldenGate数据库容灾迁移03（OGG同构异构、数据库迁移、数据同步、容灾复制）

22761人学习

￥889.00

更多 7 门课程

GoldenGate+ETL/Kettle专题（92个项目）

GoldenGate数据库容灾迁移01（OGG同构异构、数据库迁移、数据同步、容灾复制）

180135人学习

￥998.00

GoldenGate数据库容灾迁移02（OGG同构异构、数据库迁移、数据同步、容灾复制）

44366人学习

￥889.00

GoldenGate数据库容灾迁移03（OGG同构异构、数据库迁移、数据同步、容灾复制）

22761人学习

￥889.00

更多 7 门课程

课程介绍
课程大纲

适合人群：

学生大数据从业人员 Spark开发人员大数据开发人员

你将会学到：

带领大家多面了解Spark的内核，从整体把握Spark系统的构架方式及设计思想

课程简介：

本课程多面讲解Spark内核的各大组件及调度方式。Spark基于弹性分布式数据集构建的具有容错、位置感知、自动平很负载、水平扩展的分布式内存计算引擎，其核心思想是RDD。本课程会讲解Spark集群环境的安装、RDD抽象的概念、RDD上常见的transformation操作、action操作、作业的调度、调度模块、存储模块、执行模块、Shuffle模块、内存管理模块、RPC通信模块、Zookeeper构建HA等Spark核心的内容进行详细的结合源码的讲解。带大家走进Spark的源码世界！

展开更多

课程大纲-【大数据 hadoop生态 Spark2.x】深入Spark2.x内核大数据

1
Spark2.0环境搭建欲学习大数据，必先搭建学习的环境。本节课程从0开始：1。带大家从Centos虚拟机的安装2。Hadoop/Spark/Scala/Java软件的下载3。gz文件的解压4。系统用户的新建5。更改密码6。配置hostname/host7。配置静态IP8。添加环境变量9。配置hadoop集群10。配置Spark集群11。检验集群安装是否正确
「仅限付费用户」点击下载“课件.rar”
[01:42:44]开始学习
2
Spark2.0五大中RDD的创建及RDD的五大元素本节讲解RDD对于Spark的重要性。Spark为了解决传统计算框架遇到的痛点且要继承传统计算框架的水平扩展、自动容错、平衡负载、失败重试等优点，还要解决Shffle过程中产生大量的中间文件，中间数据保存磁盘带来的性能损失的痛点，因此提出了RDD这种抽象。其抽象出的5大要素，能完美的解决Spark设计所提出来的目标，达到内存计算提高计算的效率。1.RDD是一个只读的可分区的分布式数据集，因此partition是RDD的五大要素之一2.要实现分区，就要有分区器，因此partitioner是RDD五大要素之一3.要实现位置感知，达到“尽量移动代码而不移动数据”，因此preferedlocation是RDD五大要素之一4.要实现关系链的并且按照依赖关系来划分stage，因此RDD抽象出了dependencies，是五大要素之一5.RDD能够计算，因此要有计算的方法，compute是RDD五大要素之一
「仅限付费用户」点击下载“第二课：Spark基础概念.pdf”
[01:06:42]开始学习
3
Spark2.0之RDD上常见的转换及action操作_上这节的主要目标是熟悉RDD上的transformation算子：Spark是基于内存的计算引擎，Hadoop是基于磁盘的计算引擎，因此速度是Spark的优势之一。但不仅这些，Spark提供了比Hadoop丰富得多的算子操作，而Hadoop只有map和reduce；Spark支持使用Java/Scala/Python/R编写程序；
「仅限付费用户」点击下载“第三课：RDD的运行机制Spark作业提交调度过程解析.pdf”
[01:06:42]开始学习
4
Spark2.0之RDD上常见的转换及action操作_下这节的主要目标是熟悉RDD上的action算子：RDD上的transformation操作是惰性的，不会立即执行，必须要有action操作才能够出发作业的提交。本节就主要讲解RDD上的常见的Action操作，并跟踪源码查看SparkContext的jobSubmit方法，以及DAGScheduler、TaskScheduler的相关的方法
「仅限付费用户」点击下载“第四课：Spark中Stage的划分.pdf”
[01:34:04]开始学习
5
Spark2.0之作业的提交及调度_上本节的目的是让学员清楚的了解Spark作业的调度过程。从spark-submit脚本提交作业，到SparkSubmit->Client->Master之间的通信原理
[49:18]开始学习
6
Spark2.0之作业的提交及调度_中本节的目的是让学员清楚的了解Spark作业的调度过程。从spark-submit脚本提交作业，到SparkSubmit->Client->Master之间的通信原理
[29:19]开始学习
7
Spark2.0之作业的提交及调度_下本节的目的是让学员清楚的了解Spark作业的调度过程。从spark-submit脚本提交作业，到SparkSubmit-&gt;Client-&gt;Master之间的通信原理
[46:36]开始学习