基于文件方式实现Spark的HA-51CTO学堂

{{ interaction.likeNum == 0 ? (pageType === 'video' ? '抢首赞' : '点赞') : formatNumber(interaction.likeNum) }} {{ interaction.collectionNum == 0 ? '收藏' : formatNumber(interaction.collectionNum) }} {{ interaction.discussNum == 0 ? (pageType === 'video' ? '抢沙发' : '讨论') : formatNumber(interaction.discussNum) }}

提问 {{ interaction.noteNum > 0 ? interaction.noteNum + '篇笔记' : '记笔记' }} 离线观看

下载学堂APP

缓存视频离线看

报告问题离线观看

下载学堂APP

缓存视频离线看

课程介绍

讨论{{interaction.discussNum ? '(' + interaction.discussNum + ')' : ''}}

适合人群

本课程适合于对编程语言有一定了解，了解Scala编程语言以及熟悉大数据基本概念的学员

你将会学到

学习Spark的体系结构和安装配置；以及实现Spark的HA的特性。学习并学习使用Scala和Java语言开发Spark程序，并理解其运行机制和原理。熟练学习Spark的算子：Transformation和Action算子。

课程简介

赵渝强老师博客地址：http://collen7788.blog.51cto.com/

《赵渝强老师：Spark系列视频课程》

===================================================

1、Spark系列视频课程之一：Scala编程语言

https://edu.51cto.com/course/6724.html

2、Spark系列视频课程之二：Spark Core

https://edu.51cto.com/course/10698.html

3、Spark系列视频课程之三：Spark SQL

https://edu.51cto.com/course/10796.html

4、Spark系列视频课程之四：Spark Streaming

https://edu.51cto.com/course/11066.html

5、Spark系列视频课程之五：Spark Structured Streaming

即将发布

====================================================

本门课程目标：

（*）学习Spark的体系结构和安装配置；以及实现Spark的HA的特性。

（*）学习并学习使用Scala和Java语言开发Spark程序，并理解其运行机制和原理。

（*）熟练学习Spark的算子：Transformation和Action算子。

===《Spark系列视频课程之二：Spark Core》课程大纲===

一、什么是Spark？
   1、什么是Spark？
   2、为什么学习Spark？
   3、Spark的特点：快、易用、通用、兼容性

二、Spark 的体系结构与安装配置
   1、Spark集群的体系结构
   2、Spark的安装与部署
   3、Spark的HA（high availablity）部署
       (1) 基于文件的方式
       (2 )基于ZooKeeper的方式

三、执行Spark Demo 程序
   1、执行Spark Example程序
   2、使用Spark Shell
   3、在IDEA中开发WordCount程序（Scala版本，Java 版本）

四、Spark 的运行机制及原理分析
   1、WordCount执行的流程分析
   2、Spark提交任务的流程

五、Spark 的RDD和算子
   1、RDD基础
   2、Transformation算子
   3、Action算子
   4、RDD的缓存机制

5、RDD的checkpoint（检查点）机制：容错机制

6、RDD的依赖关系和Spark任务中的stage

    7、RDD 基础练习

六、Spark RDD 的高级算子
   1、mapPartitionsWithIndex
   2、aggregate
   3、aggregateByKey
   4、coalesce和repartition
   5、其他高级算子

七、Spark 基础编程案例

1、案例一：计算网站的访问量
2、案例二：创建自定义分区

3、案例三：访问数据库

展开更多

发布

置顶笔记