基于文件方式实现Spark的HA
赵渝强老师博客地址:http://collen7788.blog.51cto.com/
《赵渝强老师:Spark系列视频课程》
===================================================
1、Spark系列视频课程之一:Scala编程语言
https://edu.51cto.com/course/6724.html
2、Spark系列视频课程之二:Spark Core
https://edu.51cto.com/course/10698.html
3、Spark系列视频课程之三:Spark SQL
https://edu.51cto.com/course/10796.html
4、Spark系列视频课程之四:Spark Streaming
https://edu.51cto.com/course/11066.html
5、Spark系列视频课程之五:Spark Structured Streaming
即将发布
====================================================
本门课程目标:
(*)学习Spark的体系结构和安装配置;以及实现Spark的HA的特性。
(*)学习并学习使用Scala和Java语言开发Spark程序,并理解其运行机制和原理。
(*)熟练学习Spark的算子:Transformation和Action算子。
===《Spark系列视频课程之二:Spark Core》课程大纲===
一、什么是Spark?
1、什么是Spark?
2、为什么学习Spark?
3、Spark的特点:快、易用、通用、兼容性
二、Spark 的体系结构与安装配置
1、Spark集群的体系结构
2、Spark的安装与部署
3、Spark的HA(high availablity)部署
(1) 基于文件的方式
(2 )基于ZooKeeper的方式
三、执行Spark Demo 程序
1、执行Spark Example程序
2、使用Spark Shell
3、在IDEA中开发WordCount程序(Scala版本,Java 版本)
四、Spark 的运行机制及原理分析
1、WordCount执行的流程分析
2、Spark提交任务的流程
五、Spark 的RDD和算子
1、RDD基础
2、Transformation算子
3、Action算子
4、RDD的缓存机制
5、RDD的checkpoint(检查点)机制:容错机制
6、RDD的依赖关系和Spark任务中的stage
7、RDD 基础练习
六、Spark RDD 的高级算子
1、mapPartitionsWithIndex
2、aggregate
3、aggregateByKey
4、coalesce和repartition
5、其他高级算子
七、Spark 基础编程案例
1、案例一:计算网站的访问量
2、案例二:创建自定义分区
3、案例三:访问数据库
公开笔记对他人可见,有机会被管理员评为“优质笔记”
{{ noteEditor.content.length }}/2000
讲师收到你的提问会尽快为你解答。若选择公开提问,可以获得更多学员的帮助。
课程大纲