专题 > 大数据 > Spark > 由浅入深精讲spark2.x之spark-core专题

由浅入深精讲spark2.x之spark-core专题

分别从以下四步轻而易举的学会spark2.x的核心编程: 1、正确理解spark:分别从思想上以及技术上入门spark 2、理解RDD的每一个api的用法及其原理 3、正确提交并执行spark应用 4、深入理解spark job的提交流程(DAG,task的调度等)

4

门课程

221

人学习

 

课程总时长:25小时8分钟

授课讲师:汤卫群

打包优惠
 
大牛讲解
 
一键下载
 
讲师24h答疑
专题价 ¥181
立省34元
总价 ¥215

第一阶段:  正确理解spark

分别从思想上以及技术上入门spark、彻底掌握spark解决什么问题以及解决问题过程中的特点

1门课程 3小时26分钟
  • [老汤]Spark 2.x 实战应用系列二之正确理解Spark

    17节 3小时26分钟
    课程目标:
    本课程的中心目标就是“正确理解spark”,只有在high level的层面上正确理解了spark,才能在学习或者使用spark的过程中保持高效和灵活。在保证我们可以在思想层面上入门spark的同时,本课程还详细的讲解了RDD是什么,有什么特点。对spark的几个模块的概述可以作为技术选型时候的参考,学习资料中包含本人翻译的spark rdd论文。更多的课程可以在51CTO学院中搜索"老汤"                           spark2.x 由浅入深深到底系列课程计划安排spark2.x 实战应用系列环境篇(公开课):        spark相关集群环境的搭建:http://edu.51cto.com/course/11430.html         本课程的目的:spark相关集群环境的搭建spark2.x 实战应用系列环境篇(公开课):        spark开发环境的搭建:http://edu.51cto.com/course/11421.html         本课程的目的:spark开发环境的搭建spark2.x 实战应用系列一(公开课):        怎样学习spark:http://edu.51cto.com/course/11210.html         本课程的目的:怎么样去学习sparkspark2.x 实战应用系列二:        正确理解spark:http://edu.51cto.com/course/10932.html         本课程的目的:分别从思想上以及技术上入门spark、彻底掌握spark解决什么问题以及解决问题过程中的特点spark2.x 实战应用系列三:        spark-core RDD Api :http://edu.51cto.com/course/11058.html         本课程的目的:彻底熟练深入的掌握RDD的每一个Api的原理以及使用场景、熟练掌握SparkContext部分Api、从而达到可以实际开发spark应用spark2.x 实战应用系列四:        spark-core 正确提交spark应用:http://edu.51cto.com/course/11132.html         本课程的目的:理解spark-submit中每一个参数的含义及其用法、理解spark-submit的原理、从而达到使用spark-submit正确提交我们开发的spark应用spark2.x 实战应用系列五:        spark-core Schedulers On Driver:http://edu.51cto.com/course/11206.html         本课程的目的:深入理解DAG、Task以及资源的调度管理的原理,从而理解透spark提交job的流程原理,进而达到对spark应用调优的程度spark2.x 实战应用系列六:        spark-sql的前世今生及未来:  http://edu.51cto.com/course/11277.html         本课程的目的:掌握Spark SQL的前生今世及未来,从而达到思想上入门Spark SQLspark2.x 实战应用系列七:        有SQL的基础就可以玩转Spark SQL(scala版 & java版): http://edu.51cto.com/course/11496.html         本课程的目的:如果你有SQL基础以及java/scala任何一门语言的基础,那本门课程就可以带你玩转Spark SQLspark2.x 实战应用系列七:        有SQL的基础就可以玩转Spark SQL(scala版 & python版): http://edu.51cto.com/course/11495.html         本课程目的:如果你有SQL基础以及scala/python任何一门语言的基础,那本门课程就可以带你玩转Spark SQLspark2.x 实战应用系列八:        Spark SQL with Hive: http://edu.51cto.com/course/11537.html         本课程目标:用一个例子看懂Hive的使用方式;用一个例子看懂Spark SQL是如何兼容Hive的;用一个案例弄明白什么情况下用Spark SQL以及什么情况下使用Hive。spark2.x 实战应用系列九:        spark-streaming: 即将发布建议切换到高清模式观看视频

第二阶段:  精讲RDD Api

彻底熟练深入的掌握RDD的每一个Api的原理以及使用场景、熟练掌握SparkContext部分Api、从而达到可以实际开发spark应用

1门课程 13小时18分钟
  • [老汤]Spark 2.x 实战应用三系列之Spark-core RDD Api

    58节 13小时18分钟
    课程目标:
    掌握RDD每一个api的使用方式、实现原理以及使用时需要注意的点。掌握了本课程就可以参与真实的spark项目的开发。掌握了本课程也是为学习spark其他模块打下坚实的基础更多的课程可以在51CTO学院中搜索"老汤"本视频是scala版本的RDD api及其原理java版本的RDD api的使用请见: http://7639240.blog.51cto.com/7629240/d-1 python版本的RDD api使用请见:http://7639240.blog.51cto.com/7629240/d-2                                        建议在高清下观看,这样效果更佳课程内容如下:第一章 课程内容以及课程需要的环境的描述第二章 了解scala了解scala的基本概念,包括:1、scala之面向对象编程2、scala之函数式编程3、scala的两个特征:闭包和数据结构Option第三章    RDD概念根据RDD的特点,进而提出RDD的定义以及RDD的优势如果想对RDD彻底的正确理解,请参考: http://edu.51cto.com/course/10932.html 第四章 RDD的创建详细讲解创建RDD的api,并且详细分析了parallelize和makeRDD两个api的原理和差异第五章 RDD的依赖RDD的依赖的设计,并详细讲解了为什么RDD这么设计依赖第六章 RDD的分区1、用原理图的方式展示了RDD分区器HashPartitioner的工作原理2、讲解利用分区器是怎么样进行性能优化的3、结合原理图和源代码讲解RangePartitioner的工作原理以及使用场景4、结合实例自定义RDD的分区器Partitioner5、RDD分区数控制api - coalesce 和 repartition的使用场景以及两者的区别6、结合原理图和源代码讲解coalesce的原理第七章 单类型RDD的api详解1、单类型RDD的transformation api的使用及其需要注意的点,包括map, mapPartition, flatMap等api2、MapPartitionsRDD的原理代码详解3、RDD的采样api(sample等)介绍4、RDD分层采样api(sampleByKey等)的介绍5、RDD的pipe api的使用方式以及使用过程中需要注意的点6、RDD的pipe的原理深入讲解7、单类型RDD的基本action api的讲解,包括foreach、first、collect等8、单类型RDD基本action api讲解,包括reduce、fold以及aggregate等。同时分析了reduce和treeReduce以及aggregate和treeAggregate的原理和区别第八章 key-value类型RDD的api详解1、combineBykey的七大参数的详解2、ShuffleRDD的原理详解3、基于combineByKey的api详解,包括aggregateByKey、reduceByKey、foldByKey以及groupByKey等4、combineBykey实战以及使用过程中需要注意的点5、reduceByKey和groupByKey的对比,同时包含了reduce和fold的对比6、cogroup api的感官认识,包括基于cogroup实现的join、leftOuterJoin、rightOuterJoin、fullOuterJoin以及subtractByKey等api7、通过原理图和源代码详解cogroup原理8、join等api的原理实现9、subtractByKey的原理10、sortedByKey原理,利用RangePartitioner实现优化11、count、countByKey等计数api,包括近似估算等api第九章 二元RDD操作1、union的使用及其原理2、intersection的使用及其原理3、cartesian笛卡尔积的使用及其原理4、zip的使用及其原理第十章 persist 和 checkpoint机制1、RDD的缓存机制,即persist2、checkpoint的作用和实现流程3、checkpoint实现原理4、localCheckpoint和checkpoint的优缺点第十一章 Spark读写外部数据源1、spark支持的读写存储系统(使用JdbcRDD读取关系型数据库的完整示例见: http://7639240.blog.51cto.com/7629240/1967325  )2、HadoopRDD的原理和实现3、spark支持的通用的文件格式,重点会讲述了SequenceFile的数据结构以及需要注意的点,包括text file、CSV file、Sequence file 、 Object file以及MapFile等4、spark支持的hbase file的读写代码5、行式存储文件格式(avro)和列式存储文件格式(parquet)读写的详细讲解6、spark对二进制数据的读写的api详解第十二章 broadcast和accumulator两个api的详解第十三章 RDD项目实战以本人真实参加的项目来串联我们这个课程所将到的api                                       spark2.x 实战应用系列课程计划安排spark2.x 实战应用系列环境篇(公开课):        spark相关集群环境的搭建:http://edu.51cto.com/course/11430.html         本课程的目的:spark相关集群环境的搭建spark2.x 实战应用系列环境篇(公开课):        spark开发环境的搭建:http://edu.51cto.com/course/11421.html         本课程的目的:spark开发环境的搭建spark2.x 实战应用底系列零(公开课):        怎样学习spark:http://edu.51cto.com/course/11210.html         本课程的目的:怎么样去学习sparkspark2.x 实战应用系列一:        正确理解spark:http://edu.51cto.com/course/10932.html        本课程的目的:分别从思想上以及技术上入门spark、彻底掌握spark解决什么问题以及解决问题过程中的特点spark2.x 实战应用系列二:        spark-core RDD Api :http://edu.51cto.com/course/11058.html        本课程的目的:彻底熟练深入的掌握RDD的每一个Api的原理以及使用场景、熟练掌握SparkContext部分Api、从而达到可以实际开发spark应用spark2.x 实战应用系列三:        spark-core 正确提交spark应用:http://edu.51cto.com/course/11132.html        本课程的目的:理解spark-submit中每一个参数的含义及其用法、理解spark-submit的原理、从而达到使用spark-submit正确提交我们开发的spark应用spark2.x 实战应用系列四:        spark-core Schedulers On Driver:http://edu.51cto.com/course/11206.html         本课程的目的:深入理解DAG、Task以及资源的调度管理的原理,从而理解透spark提交job的流程原理,进而达到对spark应用调优的程度spark2.x 实战应用系列五:        spark-sql的前世今生及未来: http://edu.51cto.com/course/11277.html         本课程的目的:掌握Spark SQL的前生今世及未来,从而达到思想上入门Spark SQLspark2.x 实战应用系列六:        有SQL的基础就可以玩转Spark SQL(scala版 & java版): http://edu.51cto.com/course/11496.html         本课程的目的:如果你有SQL基础以及java/scala任何一门语言的基础,那本门课程就可以带你玩转Spark SQLspark2.x 实战应用系列六:        有SQL的基础就可以玩转Spark SQL(scala版 & python版): http://edu.51cto.com/course/11495.html         本课程目的:如果你有SQL基础以及scala/python任何一门语言的基础,那本门课程就可以带你玩转Spark SQLspark2.x 实战应用系列八:        Spark SQL with Hive: http://edu.51cto.com/course/11537.html         本课程目标:用一个例子看懂Hive的使用方式;用一个例子看懂Spark SQL是如何兼容Hive的;用一个案例弄明白什么情况下用Spark SQL以及什么情况下使用Hive。spark2.x 实战应用系列八:        spark-streaming: 即将发布

第三阶段:  正确提交spark应用

理解spark-submit中每一个参数的含义及其用法、理解spark-submit的原理、从而达到使用spark-submit正确提交我们开发的spark应用

1门课程 3小时37分钟
  • [老汤]Spark 2.x 实战应用系列四之Spark-core正确提交spark应用

    18节 3小时37分钟
    课程目标:
    本门课程实战的东西偏多,主要是理解透spark-submit中的每一个参数的用法及其原理,以达到正确提交各种业务场景下的spark应用。在了解了spark-submit的每一个参数后,我们进而对spark-submit的原理以及spark的脚本系统进行了深入的探讨,也为深入理解spark打开了大门。更多的课程可以在51CTO学院中搜索"老汤"第一章:课程内容简介第二章:java基础知识2.1 java命令启动JVM2.2 java ProcessBuilder启动JVM第三章:详解spark-submit的每一个参数3.1 spark-submit感官认识3.2 master和deploy-mode参数详解3.3 --conf参数详解3.4 driver相关参数的详解3.5 executor相关参数的详解3.6 --jars参数详解3.7 --package相关参数详解3.8 --files与--properties-file参数详解3.9 --queue相关参数的详解3.10 python spark应用的正确提交3.11 利用SparkLauncher在代码中提交spark应用第四章 spark-submit原理4.1 spark脚本系统4.2 spark-class脚本原理以及实现4.3 spark-daemon脚本原理以及实现4.4 SparkSubmit原理以及源码分析                                        spark2.x 实战应用系列课程计划安排spark2.x 实战应用系列环境篇(公开课):        spark相关集群环境的搭建:http://edu.51cto.com/course/11430.html         本课程的目的:spark相关集群环境的搭建spark2.x 实战应用系列环境篇(公开课):        spark开发环境的搭建:http://edu.51cto.com/course/11421.html         本课程的目的:spark开发环境的搭建spark2.x 实战应用系列一(公开课):        怎样学习spark:http://edu.51cto.com/course/11210.html         本课程的目的:怎么样去学习sparkspark2.x 实战应用系列二:        正确理解spark:http://edu.51cto.com/course/10932.html         本课程的目的:分别从思想上以及技术上入门spark、彻底掌握spark解决什么问题以及解决问题过程中的特点spark2.x 实战应用系列三:        spark-core RDD Api :http://edu.51cto.com/course/11058.html        本课程的目的:彻底熟练深入的掌握RDD的每一个Api的原理以及使用场景、熟练掌握SparkContext部分Api、从而达到可以实际开发spark应用spark2.x 实战应用系列四:        spark-core 正确提交spark应用:http://edu.51cto.com/course/11132.html        本课程的目的:理解spark-submit中每一个参数的含义及其用法、理解spark-submit的原理、从而达到使用spark-submit正确提交我们开发的spark应用spark2.x 实战应用系列五:        spark-core Schedulers On Driver:http://edu.51cto.com/course/11206.html         本课程的目的:深入理解DAG、Task以及资源的调度管理的原理,从而理解透spark提交job的流程原理,进而达到对spark应用调优的程度spark2.x 实战应用系列六:        spark-sql的前世今生及未来: http://edu.51cto.com/course/11277.html         本课程的目的:掌握Spark SQL的前生今世及未来,从而达到思想上入门Spark SQLspark2.x 实战应用系列七:        有SQL的基础就可以玩转Spark SQL(scala版 & java版): http://edu.51cto.com/course/11496.html         本课程的目的:如果你有SQL基础以及java/scala任何一门语言的基础,那本门课程就可以带你玩转Spark SQLspark2.x 实战应用系列七:        有SQL的基础就可以玩转Spark SQL(scala版 & python版): http://edu.51cto.com/course/11495.html         本课程目的:如果你有SQL基础以及scala/python任何一门语言的基础,那本门课程就可以带你玩转Spark SQLspark2.x 实战应用系列八:        Spark SQL with Hive: http://edu.51cto.com/course/11537.html         本课程目标:用一个例子看懂Hive的使用方式;用一个例子看懂Spark SQL是如何兼容Hive的;用一个案例弄明白什么情况下用Spark SQL以及什么情况下使用Hive。spark2.x 实战应用系列九:        spark-streaming: 即将发布

第四阶段:  Schedulers On Driver

深入理解DAG、Task以及资源的调度管理的原理,从而理解透spark提交job的流程原理,进而达到对spark应用调优的程度

1门课程 4小时45分钟
  • [老汤]Spark 2.x实战应用系列五之Schedulers On Driver

    22节 4小时45分钟
    课程目标:
    本课程主要的讲述的是spark在driver端怎么样将task调度到executor上进行执行的。分别对DAG的调度、task的调度以及driver端资源的调度作了很深入的讲述,全课程用通俗易懂的语言来描述这些原理性的东西。主要的内容如下:更多的课程可以在51CTO学院中搜索"老汤"第一章:课程内容简介第二章:DAG的调度2.1 stage的划分2.2 stage的调度第三章:任务调度3.1 taskset调度的先进先出(FIFO)机制3.2 taskset调度的公平调度(FAIR)机制3.3 taskset调度的公平调度(FAIR)机制需要注意的点3.4 task调度的本地性级别定义3.5 task调度的延迟调度讲解一3.6 task调度的延迟调度讲解二3.7 task调度的推测机制3.8 task调度的黑名单机制3.9 task调度的黑名单机制使用场景第四章 资源调度4.1 executor资源的管理4.2 task的launch流程及其需要注意的点4.3 task的statusUpdate流程第五章 Schedulers On Driver的源代码讲解5.1 schedulers on driver的总体流程5.2 源码讲解之schedulers的初始化5.3 源码讲解之job提交流程5.3 源码讲解之task结果处理第六章 多个spark应用的调度6.1 动态资源分配机制6.2 External shuffle service机制6.2 External shuffle service机制实战                                    spark2.x 实战应用系列课程计划安排spark2.x 实战应用系列环境篇(公开课):        spark相关集群环境的搭建:http://edu.51cto.com/course/11430.html         本课程的目的:spark相关集群环境的搭建spark2.x 实战应用系列环境篇(公开课):        spark开发环境的搭建:http://edu.51cto.com/course/11421.html         本课程的目的:spark开发环境的搭建spark2.x 实战应用系列零(公开课):        怎样学习spark:http://edu.51cto.com/course/11210.html         本课程的目的:怎么样去学习sparkspark2.x 实战应用系列一:        正确理解spark:http://edu.51cto.com/course/10932.html        本课程的目的:分别从思想上以及技术上入门spark、彻底掌握spark解决什么问题以及解决问题过程中的特点spark2.x 实战应用系列二:        spark-core RDD Api :http://edu.51cto.com/course/11058.html        本课程的目的:彻底熟练深入的掌握RDD的每一个Api的原理以及使用场景、熟练掌握SparkContext部分Api、从而达到可以实际开发spark应用spark2.x 实战应用系列三:        spark-core 正确提交spark应用:http://edu.51cto.com/course/11132.html        本课程的目的:理解spark-submit中每一个参数的含义及其用法、理解spark-submit的原理、从而达到使用spark-submit正确提交我们开发的spark应用spark2.x 实战应用系列四:        spark-core Schedulers On Driver:http://edu.51cto.com/course/11206.html         本课程的目的:深入理解DAG、Task以及资源的调度管理的原理,从而理解透spark提交job的流程原理,进而达到对spark应用调优的程度spark2.x 实战应用系列五:        spark-sql的前世今生及未来: http://edu.51cto.com/course/11277.html         本课程的目的:掌握Spark SQL的前生今世及未来,从而达到思想上入门Spark SQLspark2.x 实战应用系列六:        有SQL的基础就可以玩转Spark SQL(scala版 & java版): http://edu.51cto.com/course/11496.html         本课程的目的:如果你有SQL基础以及java/scala任何一门语言的基础,那本门课程就可以带你玩转Spark SQLspark2.x 实战应用系列六:        有SQL的基础就可以玩转Spark SQL(scala版 & python版): http://edu.51cto.com/course/11495.html         本课程目的:如果你有SQL基础以及scala/python任何一门语言的基础,那本门课程就可以带你玩转Spark SQLspark2.x 实战应用系列八:        Spark SQL with Hive: http://edu.51cto.com/course/11537.html         本课程目标:用一个例子看懂Hive的使用方式;用一个例子看懂Spark SQL是如何兼容Hive的;用一个案例弄明白什么情况下用Spark SQL以及什么情况下使用Hive。spark2.x 实战应用系列八:        spark-streaming: 即将发布

由浅入深精讲spark2.x之spark-core专题

¥215 ¥181

可以开发票么?

可以的,购买课程或者充值余额后都是可以开具发票的,具体详情点击:我要开发票

购买的课程可以下载么?

目前PC端暂不支持下载课程视频,请手机或者平板电脑下载“51CTO学院”APP后再下载视频哦!

优惠券如何使用?

非折扣课程(不包含1元课程/套餐)可使用,一个订单(可包含多个课程)只可使用一张;优惠券一经使用,不再返还;若被冻结请在PC端删除订单即可返还。

更多问题查询点击 帮助中心

欢迎您提供宝贵意见,对于您的意见我们都会认真、慎重的讨论,每一个意见都是我们更好为您服务的鞭策和激励,感谢您帮助学院成长,我要反馈意见