【大数据 Spark 2.x 流数据多案例】Spark Streaming流数据处理基础与提升【共24课时】

张敏新锐讲师讲师评分4.7学员730636课程29

就职于一线互联网大厂，负者大数据平台和数据仓库建设，在Spark内核方面有深入的研究，参与Scala基础入门，Spark内核及性能优化相关书籍部分内容的编写工作，在大数据领域有着丰富的实战经验。...

畅销套餐
精选套餐
人气套餐
尊享套餐
高薪套餐

Spark基础+SparkSql+Spark内核+流数据视频课程套餐

【大数据 Hadoop生态 Spark 2.x 多案例】Spark 2.x基础与提升

8185人学习

￥99.00

【大数据 Spark 2.x 流数据多案例】Spark Streaming流数据处理基础与提升

7152人学习

￥99.00

【大数据 Hadoop生态 Spark 2.x 多案例】Spark SQL基础与提升

Spark大数据处理及机器学习【基于Python的Spark 2.3**版】

71545人学习

￥399.00

Python3科学计算库Numpy入门视频课程

2350人学习

￥29.00

Python3数据处理Pandas入门视频课程

4089人学习

￥29.00

更多 4 门课程

Spark基础+Spark中级数据处理+Spark内核分析视频课程套餐

【大数据 Hadoop生态 Spark 2.x 多案例】Spark 2.x基础与提升

8185人学习

￥99.00

【大数据 hadoop生态 Spark2.x】深入Spark2.x内核大数据

1970人学习

￥49.00

【大数据 Hadoop生态 Spark 2.x 多案例】Spark SQL基础与提升

2573人学习

￥99.00

更多 3 门课程

GoldenGate+ETL/Kettle专题（92个项目）

GoldenGate数据库容灾迁移01（OGG同构异构、数据库迁移、数据同步、容灾复制）

161563人学习

￥998.00

GoldenGate数据库容灾迁移02（OGG同构异构、数据库迁移、数据同步、容灾复制）

42387人学习

￥889.00

GoldenGate数据库容灾迁移03（OGG同构异构、数据库迁移、数据同步、容灾复制）

22306人学习

￥889.00

更多 7 门课程

GoldenGate+ETL/Kettle专题（92个项目）

GoldenGate数据库容灾迁移01（OGG同构异构、数据库迁移、数据同步、容灾复制）

161563人学习

￥998.00

GoldenGate数据库容灾迁移02（OGG同构异构、数据库迁移、数据同步、容灾复制）

42387人学习

￥889.00

GoldenGate数据库容灾迁移03（OGG同构异构、数据库迁移、数据同步、容灾复制）

22306人学习

￥889.00

更多 7 门课程

课程介绍
课程大纲

适合人群：

1.从事大数据研发需要处理流数据的程序员。2.想从事大数据的在校学生。3.想转行大数据的开发人员。

你将会学到：

1.学习SparkStreaming三种使用场景2.监控HDFS目录3.处理Socket流式数据4.处理Kafka流式数据5.自定义Receiver接收器6.性能调优7.foreachRDD设计模式8.SparkStreaming+Kafka+SpringBoot+Mysql构建的实时微服务报表系统

课程简介：

1.学习SparkStreaming的三种使用场景

2.【实战】SparkStreaming监控HDFS目录

3.【实战】SparkStreaming处理Socket流式数据

4.【实战】SparkStreaming处理Kafka流式数据

5.【实战】自定义Receiver接收器

6.SparkStreaming性能调优

7.【实战】SparkStreaming中foreachRDD设计模式

8.【实战】SparkStreaming+Kafka+SpringBoot+Mysql构建的实时微服务报表系统

展开更多

课程大纲-【大数据 Spark 2.x 流数据多案例】Spark Streaming流数据处理基础与提升

1
spark流式处理框架介绍及对比-11.大数据生态圈常用的流式数据处理框架SparkStreaming、Storm/heron、Flink2.SparkStreaming与Storm在性能、使用场景的对比3.SparkStreaming的三种使用场景：1.有状态的操作 2.无状态的操作 3.窗口操作
[15:00]开始学习
2
Spark流式处理设计原理及编写streaming程序的三大1.最基本的抽象DStream2.基本原理：将数据以时间片进行划分，以批处理的形式处理时间片数据3.DStream和RDD的对应关系4.SparkStreaming中作业的提交5.Spark Streaming内部实现原理
[15:40]开始学习
3
【实战】Spark监控HDFS目录的两种常见应用场景及实战-1.SparkStreaming监控HDFS目录的两大应用场景2.textFileStream和fileStream的区别及应用场景3.使用fileStream对Path进行过滤
「仅限付费用户」点击下载“SparkStreaming.pptx”
[23:15]开始学习
4
【实战】SparkStreaming对Socket数据进行两1.有状态的WC统计操作2.无状态的WC统计操作3.updateStatusBykey进行有状态业务场景的实现4.自定义状态更新函数
[29:32]开始学习
5
【实战】Spark流数据处理之Zookeeper集群安装-51.安装zookerper集群2.配置zoo.cfg配置文件3.zkServer.sh start启动zk集群4.zkServer.sh status查看zk状态
[20:52]开始学习
6
【实战】Spark流数据处理之Kafka集群安装-61.配置brocker.id不唯一2.配置zookeper地址3.使用/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic 2017创建topic4.使用./kafka-console-producer.sh --broker-list localhost:9092 --topic 2017启动生产者5../kafka-console-consumer.sh --zookeeper localhost:2181 --topic 2017 --from-beginning消费topic6.查看topic列表： ./kafka-topics.sh --list --zookeeper localhost:2181
[21:54]开始学习
7
【实战】Spark流式数据处理之Kafka producer1.程序编写kafka producer生产数据2.使用./kafka-console-consumer.sh --zookeeper master:2181 --topic 2020 --from-beginning检验数据
「仅限付费用户」点击下载“code.zip”
[19:39]开始学习
8
【实战】Spark流式数据处理之Kafka consumer1.编写Kafka consumer 程序2.打通Kafka producer 和Kafka consumer
[16:02]开始学习
9
【实战】Spark流式数据处理之SparkStreaming1.在SparkStreaming中通过KafkaUtils的createDirectStream方法和Kafka建立连接2.得到InputDstream后做无状态的数据更新
[25:48]开始学习
10
【实战】Spark流式数据处理有状态的数据结果保存关系型数据1.SparkStreaming有状态的使用场景，updateStatusBykey方法的使用2.SparkStreaming程序中通过foreachRDD方法，将DStream的数据保存到关系型数据库3.SparkStreaming中使用DataFrame4.SparkStreaming和SparkSql的无缝整合
[35:56]开始学习
11
【实战】Spark流式数据处理之自定义数据接收器Receiv1.自定义Receiver数据接收器2.接收Socket数据自定义存储级别3.通过自定义接收器可以自己实现接收任意的数据源的数据
[21:13]开始学习
12
【实战】Spark流式数据处理之DStream抽象中的转换操1.DStream的常见转换2.DStream上的transform作用于每一个RDD3.常见的map/flatMap/filter等等操作
[10:30]开始学习
13
【实战】Spark流式数据处理之窗口操作-131.窗口操作简介2.窗口操作使用场景3.window方法实战4.其他窗口方法讲解
[16:14]开始学习
14
【实战】Spark流式数据处理之Socekt数据join K1.自定义Receiver数据接收器接收Socekt数据2.接收Kafka数据3.Socket数据join接收到的Kafka数据4.打印、保存数据
[20:26]开始学习
15
【实战】Spark流式数据处理之DStream的输出操作-11.DStream输出操作2.print操作3.saveAsTextFile操作
[08:53]开始学习
16
【实战】Spark流式数据处理之foreachRDD设计模式1.foreachRDD的使用场景2.foreachRDD对程序新能优化的本质原因
[06:25]开始学习
17
【实战】Spark流式数据处理之广播变量和累加器-171.broadcast广播变量的使用及使用场景2.accumulator累加器的使用及使用场景3.accumulator和广播变量实战
[16:21]开始学习
18
【实战】Spark流式数据处理之整合SparkSql-181.SparkStreaming中foreachRDD遍历DStream中的RDD2.引入SparkSql,将RDD转换为DataFrame3.使用DataFrame上的API对数据做保存操作4.注册成表使用SQL进行查询
[14:16]开始学习
19
【实战】Spark流式数据处理之Streaming程序性能调对于弹性的集群资源，最简单的方法是增加CPU核数，增加内存，增大网络带宽优化并行度资源参数调优数据序列化与压缩内存调优广播大变量/两张表做join操作广播小表持久化与checkpoint 数据本地性垃圾回收调优 Shuffle调优
[12:03]开始学习
20
Spark流式数据处理之SpringBoot微服务框架环境的1.Spring boot搭建微服务2.Spring boot的pom文件配置3.Spring boot中的注解讲解4.Spring boot的主函数Application
[26:18]开始学习