【大数据 Hadoop生态 Spark 2.x 多案例】Spark 2.x基础与提升【共10课时】

张敏新锐讲师讲师评分4.7学员733102课程29

就职于一线互联网大厂，负者大数据平台和数据仓库建设，在Spark内核方面有深入的研究，参与Scala基础入门，Spark内核及性能优化相关书籍部分内容的编写工作，在大数据领域有着丰富的实战经验。...

畅销套餐
精选套餐
人气套餐
尊享套餐
高薪套餐

Spark基础+SparkSql+Spark内核+流数据视频课程套餐

【大数据 Hadoop生态 Spark 2.x 多案例】Spark 2.x基础与提升

8187人学习

￥99.00

【大数据 Spark 2.x 流数据多案例】Spark Streaming流数据处理基础与提升

7152人学习

￥99.00

【大数据 Hadoop生态 Spark 2.x 多案例】Spark SQL基础与提升

2573人学习

￥99.00

更多 4 门课程

Spark基础+Spark中级数据处理+Spark内核分析视频课程套餐

【大数据 Hadoop生态 Spark 2.x 多案例】Spark 2.x基础与提升

8187人学习

￥99.00

【大数据 hadoop生态 Spark2.x】深入Spark2.x内核大数据

1971人学习

￥49.00

【大数据 Hadoop生态 Spark 2.x 多案例】Spark SQL基础与提升

Spark大数据处理及机器学习【基于Python的Spark 2.3**版】

72858人学习

￥399.00

Python3科学计算库Numpy入门视频课程

2351人学习

￥29.00

Python3数据处理Pandas入门视频课程

4093人学习

￥29.00

更多 4 门课程

GoldenGate+ETL/Kettle专题（92个项目）

GoldenGate数据库容灾迁移01（OGG同构异构、数据库迁移、数据同步、容灾复制）

180135人学习

￥998.00

GoldenGate数据库容灾迁移02（OGG同构异构、数据库迁移、数据同步、容灾复制）

44366人学习

￥889.00

GoldenGate数据库容灾迁移03（OGG同构异构、数据库迁移、数据同步、容灾复制）

22761人学习

￥889.00

更多 7 门课程

GoldenGate+ETL/Kettle专题（92个项目）

GoldenGate数据库容灾迁移01（OGG同构异构、数据库迁移、数据同步、容灾复制）

180135人学习

￥998.00

GoldenGate数据库容灾迁移02（OGG同构异构、数据库迁移、数据同步、容灾复制）

44366人学习

￥889.00

GoldenGate数据库容灾迁移03（OGG同构异构、数据库迁移、数据同步、容灾复制）

22761人学习

￥889.00

更多 7 门课程

课程介绍
课程大纲

适合人群：

大数据爱好者 Spark爱好者想学大数据的0基础的人

你将会学到：

想学习Spark进入大数据领域的同学，花一个小时学习Spark大数据计算引擎在整个大数据生态圈的地位，并且跟跟着老师完成Spark学习环境的搭建，对常见的Spark运用场景进行实战操作。为学习Spark Sql、Spark Streaming、Spark图计算、Spark机器学习建立好环境基础！

课程简介：

Spark2.0入门课程的目的是让大数据初学者入门，目标是让想学大数据的人了解这个大数据生态圈，以及Spark在大数据生态圈中的霸主地位。

该课程为Spark的基础课程。

1.会讲解到Spark学习环境的搭建

2.最基础的Linux命令的使用

3.Hadoop中分布式文件系统HDFS的使用

4.Spark中的基本概念及抽象

5.Spark程序编写的注意事项

6.Spark性能优化的方向

7.以及会讲解一些Spark内核和内核使用的Scala语言的知识。

8.最后以一个成都地区20160101到20161231一年PM2.5数据的监控数据作为实战项目的数据素材，以此讲解Spark2.0初阶的项目实战并以此作为基础课程的结束。

为深入学习SparkSql、Spark流处理、Spark图计算、Spark机器学习打下基础。

展开更多

课程大纲-【大数据 Hadoop生态 Spark 2.x 多案例】Spark 2.x基础与提升

1
【实战】Spark2.0之大数据生态圈的10年1.整个大数据生态圈的发展历史2.Spark发展历史3.那些人适合学习Spark
「仅限付费用户」点击下载“谷歌三篇论文及Spark博士论文.rar”
[22:12]开始学习
2
【实战】Spark2.0环境搭建_上Spark介绍，及相关的软件安装1.配置hostname2.配置hosts3.配置固定IP4.新建Spark用户5.为各个节点的Spark用户配置无密钥登录6.安装配置Jdk/scala7.安装Hadoop8.安装spark9.配置环境变量10.使用async同步工具，同步配置到node1/node2节点
「仅限付费用户」点击下载“Spark集群环境搭建.docx”
[33:10]开始学习
3
【实战】Spark2.0集群安装_下Spark介绍，及相关的软件安装1.配置hostname2.配置hosts3.配置固定IP4.新建Spark用户5.为各个节点的Spark用户配置无密钥登录6.安装配置Jdk/scala7.安装Hadoop8.安装spark9.配置环境变量10.使用async同步工具，同步配置到node1/node2节点
[36:46]开始学习
4
【实战】Spark2.0之快速入门1.使用Spark-shell编写简单程序，认识SparkSesion及SparkContext2.使用IDEA集成环境编写Spark程序，并用Maven打包3.上传Jar包，并用Spark-submit提交作业4.使用SparkUi观察作业情况
「仅限付费用户」点击下载“10分钟完成Spark集群环境的安装.ppt.pptx”
[25:14]开始学习
5
【实战】Spark2.0中的基本抽象及术语本节课介绍了Spark2.0中的基本抽象RDD及相关的术语1.Spark产生的原因及RDD抽象概念2.RDD中的五大要素3.Application的定义4.Job的定义及生成时机5.Stage的定义及划分依据6.TaskSet的定义7.Task的定义
[21:32]开始学习
6
【实战】Spark2.0RDD常见的创建方式讲解RDD的常用的创建方式1.通过makeRDD和parallelize两种方法使用Scala本地集合创建RDD2.通过读取外部文件（系统文件，外部系统如HDFS文件）创建3.通过transformation创建RDD
[28:21]开始学习
7
【实战】Spark2.0常见的transformation操常见的transformation转换操作1.map:对RDD集合中的每一条数据做A-&gt;B的转换操作2.flatMap:功能类似于map，只是将转换的结果进行扁平化操作3.filter过滤操作4.union：两个RDD做合并操作5.intersection:求两个RDD集合的交集6.mapPartitions:RDD性能优化的关键，是一种牺牲代码可读性提升代码执行效率的补救方案
[23:28]开始学习
8
【实战】Spark2.0之常见的action操作及触发作业提本节主要讲解Spark中常见的action操作及action触发作业的原理1.count:统计RDD中元素的个数2.first:返回RDD中的第一个元素3.take(n):返回RDD前n个元素4.reduce:化简操作，rdd1.reduce(_+_)5.aggragate:聚合操作，先在每一个partition上聚合，最后聚合所有partition上的结果得到最终结果6.lookup:查找操作（spark1.6有，Spark2.0已经废弃）
[24:53]开始学习
9
【实战】Spark2.0之内部子系统详细讲解讲解Spark2.0内部的子系统构成,让大家对Spark内核模块有一个比较清晰的概念。做到成竹于胸！1.Driver2.Executor3.RPC通信系统4.存储系统5.序列化系统6.度量系统............
「仅限付费用户」点击下载“bachelor.zip”
[34:03]开始学习
10
【实战】Spark2.0实战之统计PM2.5浓度各级别天数Spark2.0基础课程的一个实战兼总结性项目1.使用Spark2.0分析成都20160101~20161231共366天的PM2.5的监控数据，分析天气指标优良的天数。2.使用Spark2.0的广播变量，分发数据到执行节点sc.broadcast[Map[Int,String]]3.使用DecimalFormat格式化数据
「仅限付费用户」点击下载“Chengdu_2016_HourlyPM25.rar”
[52:41]开始学习