窗口操作
Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapReduce更丰富的模型,可以在快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法。Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。
赵渝强老师博客地址:http://collen7788.blog.51cto.com/
《赵渝强老师:Spark系列视频课程》
===================================================
1、Spark系列视频课程之一:Scala编程语言
https://edu.51cto.com/course/6724.html
2、Spark系列视频课程之二:Spark Core
https://edu.51cto.com/course/10698.html
3、Spark系列视频课程之三:Spark SQL
https://edu.51cto.com/course/10796.html
4、Spark系列视频课程之四:Spark Streaming
https://edu.51cto.com/course/11066.html
5、Spark系列视频课程之五:Spark Structured Streaming
即将发布
===《Spark 2 系列视频课程之四:Spark Streaming》课程大纲===
一、Spark Streaming基础
1、Spark Streaming简介
2、Spark Streaming的特点
3、Spark Streaming的内部结构
4、小小案例:wordcount程序:NetworkWordCount
5、开发自己的NetworkWordCount
二、Spark Streaming进阶
1、StreamingContext 对象详解
2、离散流: DStream
3、DStream的转换操作
4、窗口操作
5、DStream的输入:基本数据源
6、DStream的输出操作和foreachRDD的设计模式
7、DataFrame和SQL操作
8、缓存和持久化
9、检查点
三、高级数据源
1、集成Flume
2、集成Kafka
四、性能优化
1、减少批数据的执行时间
2、如何设置批的容量
3、内存调优
公开笔记对他人可见,有机会被管理员评为“优质笔记”
{{ noteEditor.content.length }}/2000
讲师收到你的提问会尽快为你解答。若选择公开提问,可以获得更多学员的帮助。
课程大纲
- 第一章 Spark Streaming基础
- 1-1试看 Spark Streaming课程概述09:00
- 1-2试看 Spark Streaming简介14:21
- 1-3Demo演示:NetworkWordCount13:48
- 1-4开发自己的NetworkWordCount程序21:09
- 第二章 Spark Streaming进阶
- 2-1StreamingContext对象详解13:53
- 2-2什么是DStream?12:17
- 2-3DStream中的转换操作28:32
- 2-4窗口操作13:00
- 2-5DStream的输入流和基本的数据源24:59
- 2-6DStream的输出操作和foreachRDD的设计模式26:14