- 畅销套餐
- 精选套餐
- 人气套餐
- 尊享套餐
- 高薪套餐
- 课程介绍
- 课程大纲
适合人群:
大数据爱好者 Spark爱好者 想学大数据的0基础的人
你将会学到:
想学习Spark进入大数据领域的同学,花一个小时学习Spark大数据计算引擎在整个大数据生态圈的地位,并且跟跟着老师完成Spark学习环境的搭建,对常见的Spark运用场景进行实战操作。为学习Spark Sql、Spark Streaming、Spark图计算、Spark机器学习建立好环境基础!
课程简介:
Spark2.0入门课程的目的是让大数据初学者入门,目标是让想学大数据的人了解这个大数据生态圈,以及Spark在大数据生态圈中的霸主地位。
该课程为Spark的基础课程。
1.会讲解到Spark学习环境的搭建
2.最基础的Linux命令的使用
3.Hadoop中分布式文件系统HDFS的使用
4.Spark中的基本概念及抽象
5.Spark程序编写的注意事项
6.Spark性能优化的方向
7.以及会讲解一些Spark内核和内核使用的Scala语言的知识。
8.最后以一个成都地区20160101到20161231一年PM2.5数据的监控数据作为实战项目的数据素材,以此讲解Spark2.0初阶的项目实战并以此作为基础课程的结束。
为深入学习SparkSql、Spark流处理、Spark图计算、Spark机器学习打下基础。
课程大纲-【大数据 Hadoop生态 Spark 2.x 多案例】Spark 2.x基础与提升
1
【实战】Spark2.0之大数据生态圈的10年1.整个大数据生态圈的发展历史2.Spark发展历史3.那些人适合学习Spark
「仅限付费用户」点击下载“谷歌三篇论文及Spark博士论文.rar”
[22:12]开始学习2
【实战】Spark2.0环境搭建_上Spark介绍,及相关的软件安装1.配置hostname2.配置hosts3.配置固定IP4.新建Spark用户5.为各个节点的Spark用户配置无密钥登录6.安装配置Jdk/scala7.安装Hadoop8.安装spark9.配置环境变量10.使用async同步工具,同步配置到node1/node2节点
「仅限付费用户」点击下载“Spark集群环境搭建.docx”
[33:10]开始学习3
【实战】Spark2.0集群安装_下Spark介绍,及相关的软件安装1.配置hostname2.配置hosts3.配置固定IP4.新建Spark用户5.为各个节点的Spark用户配置无密钥登录6.安装配置Jdk/scala7.安装Hadoop8.安装spark9.配置环境变量10.使用async同步工具,同步配置到node1/node2节点
[36:46]开始学习4
【实战】Spark2.0之快速入门1.使用Spark-shell编写简单程序,认识SparkSesion及SparkContext2.使用IDEA集成环境编写Spark程序,并用Maven打包3.上传Jar包,并用Spark-submit提交作业4.使用SparkUi观察作业情况
「仅限付费用户」点击下载“10分钟完成Spark集群环境的安装.ppt.pptx”
[25:14]开始学习5
【实战】Spark2.0中的基本抽象及术语本节课介绍了Spark2.0中的基本抽象RDD及相关的术语1.Spark产生的原因及RDD抽象概念2.RDD中的五大要素3.Application的定义4.Job的定义及生成时机5.Stage的定义及划分依据6.TaskSet的定义7.Task的定义
[21:32]开始学习6
【实战】Spark2.0RDD常见的创建方式讲解RDD的常用的创建方式1.通过makeRDD和parallelize两种方法使用Scala本地集合创建RDD2.通过读取外部文件(系统文件,外部系统如HDFS文件)创建3.通过transformation创建RDD
[28:21]开始学习7
【实战】Spark2.0常见的transformation操常见的transformation转换操作1.map:对RDD集合中的每一条数据做A->B的转换操作2.flatMap:功能类似于map,只是将转换的结果进行扁平化操作3.filter过滤操作4.union:两个RDD做合并操作5.intersection:求两个RDD集合的交集6.mapPartitions:RDD性能优化的关键,是一种牺牲代码可读性提升代码执行效率的补救方案
[23:28]开始学习8
【实战】Spark2.0之常见的action操作及触发作业提本节主要讲解Spark中常见的action操作及action触发作业的原理1.count:统计RDD中元素的个数2.first:返回RDD中的第一个元素3.take(n):返回RDD前n个元素4.reduce:化简操作,rdd1.reduce(_+_)5.aggragate:聚合操作,先在每一个partition上聚合,最后聚合所有partition上的结果得到最终结果6.lookup:查找操作(spark1.6有,Spark2.0已经废弃)
[24:53]开始学习9
【实战】Spark2.0之内部子系统详细讲解讲解Spark2.0内部的子系统构成,让大家对Spark内核模块有一个比较清晰的概念。做到成竹于胸!1.Driver2.Executor3.RPC通信系统4.存储系统5.序列化系统6.度量系统............
「仅限付费用户」点击下载“bachelor.zip”
[34:03]开始学习10
【实战】Spark2.0实战之统计PM2.5浓度各级别天数Spark2.0基础课程的一个实战兼总结性项目1.使用Spark2.0分析成都20160101~20161231共366天的PM2.5的监控数据,分析天气指标优良的天数。2.使用Spark2.0的广播变量,分发数据到执行节点sc.broadcast[Map[Int,String]]3.使用DecimalFormat格式化数据
「仅限付费用户」点击下载“Chengdu_2016_HourlyPM25.rar”
[52:41]开始学习
“张敏”老师的其他课程更多+