专题 > 大数据 > Spark > [老汤]Spark 2.x 之精讲Spark Core

[老汤]Spark 2.x 之精讲Spark Core

分别从以下四步轻而易举的学会spark2.x的核心编程: 1、正确理解spark:分别从思想上以及技术上入门spark 2、理解RDD的每一个api的用法及其原理 3、正确提交并执行spark应用 4、深入理解spark job的提交流程(DAG,task的调度等)

4

门课程

411

人学习

 

课程总时长:32小时24分钟

授课讲师:老汤

打包优惠
 
大牛讲解
 
一键下载
 
讲师24h答疑
专题价 ¥387
立省69元
总价 ¥456

第一阶段:  正确理解spark

分别从思想上以及技术上入门spark、彻底掌握spark解决什么问题以及解决问题过程中的特点

1门课程 3小时25分钟
  • [老汤]Spark 2.x 实战应用系列二之正确理解Spark

    17节 3小时25分钟
    课程目标:
    本课程的中心目标就是“正确理解spark”,只有在high level的层面上正确理解了spark,才能在学习或者使用spark的过程中保持高效和灵活。在保证我们可以在思想层面上入门spark的同时,本课程还详细的讲解了RDD是什么,有什么特点。对spark的几个模块的概述可以作为技术选型时候的参考,学习资料中包含本人翻译的spark rdd论文。更多的课程可以在51CTO学院中搜索"老汤"                                                                                          -------------------------------------------------------------------------------------------Scala内功修炼系列课程计划(scala专题: http://edu.51cto.com/topic/1384.html  )一、Scala内功修炼一:认识Scala (公开课,http://edu.51cto.com/course/12204.html )二、Scala内功修炼二:怎样学习Scala (公开课,http://edu.51cto.com/course/12202.html  )三、Scala内功修炼三:十二步体验Scala (公开课, http://edu.51cto.com/course/11756.html )四、Scala内功修炼四:面向对象编程基础 (http://edu.51cto.com/course/11770.html )五、Scala内功修炼五:函数式编程基础 (http://edu.51cto.com/course/11802.html )六、Scala内功修炼六:隐式转换 (http://edu.51cto.com/course/11814.html  )七、Scala内功修炼七:类型系统 (http://edu.51cto.com/course/11849.html  )八、Scala内功修炼八:模式匹配 (http://edu.51cto.com/course/11904.html  )九、Scala内功修炼九:集合框架 (http://edu.51cto.com/course/12136.html  )                  Spark2.x 应用实战系列课程计划------------------------------------Spark 2.x 入门指南-----------------------------------Spark2.x 实战应用系列环境篇:Spark相关集群环境的搭建 (公开课,http://edu.51cto.com/course/11430.html )Spark2.x 实战应用系列环境篇:Spark开发环境的搭建 (公开课,http://edu.51cto.com/course/11421.html )Spark2.x 实战应用系列一       :怎样学习Spark (公开课,http://edu.51cto.com/course/11210.html )-------------------------------------Spark-core实战应用(专题: http://edu.51cto.com/topic/1275.html  )------------------------------Spark2.x 实战应用系列二       :正确理解Spark (http://edu.51cto.com/course/10932.html )Spark2.x 实战应用系列三       :Spark-core RDD API (http://edu.51cto.com/course/11058.html )Spark2.x 实战应用系列四       :Spark-core 正确提交Spark应用 (http://edu.51cto.com/course/11132.html )Spark2.x 实战应用系列五       :Spark-core Schedulers On Driver (http://edu.51cto.com/course/11206.html )--------------------------------------Spark-SQL实战应用(专题:http://edu.51cto.com/topic/1319.html )------------------------------Spark2.x 实战应用系列六       :Spark-SQL的前生今世以及未来 (http://edu.51cto.com/course/11277.html )Spark2.x 实战应用系列七       :有SQL基础就可玩转Spark SQL(Scala版&Java版) (http://edu.51cto.com/course/11496.html )Spark2.x 实战应用系列七       :有SQL基础就可玩转Spark SQL(Scala版&Python版) (http://edu.51cto.com/course/11495.html )Spark2.x 实战应用系列八       :Spark SQL with Hive (http://edu.51cto.com/course/11537.html )---------------------------------------Spark-graphx(图计算)实战应用------------------------------------------------------------Spark2.x 实战应用系列九       :Spark Graphx实战(即将发布)---------------------------------------Spark-ml(机器学习)实战应用------------------------------------------------------------Spark2.x 实战应用系列十       :Spark 机器学习实战(即将发布)大数据实时流处理技术系列课程计划---------------------------------------Spark Streaming专题(http://edu.51cto.com/topic/1402.html  )--------------Spark2.x 实时流计算系列一:Spark Streaming编程模型 (http://edu.51cto.com/course/12327.html  )Spark2.x 实时流计算系列二:Spark Streaming性能与稳定 (http://edu.51cto.com/course/12326.html  )Spark2.x 实时流计算系列三:Spark Streaming容错与语义 (http://edu.51cto.com/course/12325.html  )Spark2.x 实时流计算系列四:Flume + Kafka + Spark Streaming (http://edu.51cto.com/course/12324.html  )---------------------------------------Structured Streaming专题------------------------------------------------------------Spark2.x 实时流计算系列五:Structured Streaming解决的问题 (http://edu.51cto.com/course/12330.html )

第二阶段:  精讲RDD Api

彻底熟练深入的掌握RDD的每一个Api的原理以及使用场景、熟练掌握SparkContext部分Api、从而达到可以实际开发spark应用

1门课程 16小时4分钟
  • [老汤]Spark 2.x 实战应用三系列之Spark-core RDD Api

    67节 16小时4分钟
    课程目标:
    掌握RDD每一个api的使用方式、实现原理以及使用时需要注意的点。掌握了本课程就可以参与真实的spark项目的开发。掌握了本课程也是为学习spark其他模块打下坚实的基础更多的课程可以在51CTO学院中搜索"老汤"本视频是scala版本的RDD api及其原理java版本的RDD api的使用请见: http://7639240.blog.51cto.com/7629240/d-1 python版本的RDD api使用请见:http://7639240.blog.51cto.com/7629240/d-2                                        建议在高清下观看,这样效果更佳-------------------------------------------------------------------------------------------Scala内功修炼系列课程计划(scala专题: http://edu.51cto.com/topic/1384.html  )一、Scala内功修炼一:认识Scala (公开课,http://edu.51cto.com/course/12204.html )二、Scala内功修炼二:怎样学习Scala (公开课,http://edu.51cto.com/course/12202.html  )三、Scala内功修炼三:十二步体验Scala (公开课, http://edu.51cto.com/course/11756.html )四、Scala内功修炼四:面向对象编程基础 (http://edu.51cto.com/course/11770.html )五、Scala内功修炼五:函数式编程基础 (http://edu.51cto.com/course/11802.html )六、Scala内功修炼六:隐式转换 (http://edu.51cto.com/course/11814.html  )七、Scala内功修炼七:类型系统 (http://edu.51cto.com/course/11849.html  )八、Scala内功修炼八:模式匹配 (http://edu.51cto.com/course/11904.html  )九、Scala内功修炼九:集合框架 (http://edu.51cto.com/course/12136.html  )                  Spark2.x 应用实战系列课程计划------------------------------------Spark 2.x 入门指南-----------------------------------Spark2.x 实战应用系列环境篇:Spark相关集群环境的搭建 (公开课,http://edu.51cto.com/course/11430.html )Spark2.x 实战应用系列环境篇:Spark开发环境的搭建 (公开课,http://edu.51cto.com/course/11421.html )Spark2.x 实战应用系列一       :怎样学习Spark (公开课,http://edu.51cto.com/course/11210.html )-------------------------------------Spark-core实战应用(专题: http://edu.51cto.com/topic/1275.html  )------------------------------Spark2.x 实战应用系列二       :正确理解Spark (http://edu.51cto.com/course/10932.html )Spark2.x 实战应用系列三       :Spark-core RDD API (http://edu.51cto.com/course/11058.html )Spark2.x 实战应用系列四       :Spark-core 正确提交Spark应用 (http://edu.51cto.com/course/11132.html )Spark2.x 实战应用系列五       :Spark-core Schedulers On Driver (http://edu.51cto.com/course/11206.html )--------------------------------------Spark-SQL实战应用(专题:http://edu.51cto.com/topic/1319.html )------------------------------Spark2.x 实战应用系列六       :Spark-SQL的前生今世以及未来 (http://edu.51cto.com/course/11277.html )Spark2.x 实战应用系列七       :有SQL基础就可玩转Spark SQL(Scala版&Java版) (http://edu.51cto.com/course/11496.html )Spark2.x 实战应用系列七       :有SQL基础就可玩转Spark SQL(Scala版&Python版) (http://edu.51cto.com/course/11495.html )Spark2.x 实战应用系列八       :Spark SQL with Hive (http://edu.51cto.com/course/11537.html )---------------------------------------Spark-graphx(图计算)实战应用------------------------------------------------------------Spark2.x 实战应用系列九       :Spark Graphx实战(即将发布)---------------------------------------Spark-ml(机器学习)实战应用------------------------------------------------------------Spark2.x 实战应用系列十       :Spark 机器学习实战(即将发布)大数据实时流处理技术系列课程计划---------------------------------------Spark Streaming专题(http://edu.51cto.com/topic/1402.html  )--------------Spark2.x 实时流计算系列一:Spark Streaming编程模型 (http://edu.51cto.com/course/12327.html  )Spark2.x 实时流计算系列二:Spark Streaming性能与稳定 (http://edu.51cto.com/course/12326.html  )Spark2.x 实时流计算系列三:Spark Streaming容错与语义 (http://edu.51cto.com/course/12325.html  )Spark2.x 实时流计算系列四:Flume + Kafka + Spark Streaming (http://edu.51cto.com/course/12324.html  )---------------------------------------Structured Streaming专题------------------------------------------------------------Spark2.x 实时流计算系列五:Structured Streaming解决的问题 (http://edu.51cto.com/course/12330.html )本课程内容如下:第一章 课程内容以及课程需要的环境的描述第二章 了解scala了解scala的基本概念,包括:1、scala之面向对象编程2、scala之函数式编程3、scala的两个特征:闭包和数据结构Option第三章    RDD概念根据RDD的特点,进而提出RDD的定义以及RDD的优势如果想对RDD彻底的正确理解,请参考: http://edu.51cto.com/course/10932.html 第四章 RDD的创建详细讲解创建RDD的api,并且详细分析了parallelize和makeRDD两个api的原理和差异第五章 RDD的依赖RDD的依赖的设计,并详细讲解了为什么RDD这么设计依赖第六章 RDD的分区1、用原理图的方式展示了RDD分区器HashPartitioner的工作原理2、讲解利用分区器是怎么样进行性能优化的3、结合原理图和源代码讲解RangePartitioner的工作原理以及使用场景4、结合实例自定义RDD的分区器Partitioner5、RDD分区数控制api - coalesce 和 repartition的使用场景以及两者的区别6、结合原理图和源代码讲解coalesce的原理第七章 单类型RDD的api详解1、单类型RDD的transformation api的使用及其需要注意的点,包括map, mapPartition, flatMap等api2、MapPartitionsRDD的原理代码详解3、RDD的采样api(sample等)介绍4、RDD分层采样api(sampleByKey等)的介绍5、RDD的pipe api的使用方式以及使用过程中需要注意的点6、RDD的pipe的原理深入讲解7、单类型RDD的基本action api的讲解,包括foreach、first、collect等8、单类型RDD基本action api讲解,包括reduce、fold以及aggregate等。同时分析了reduce和treeReduce以及aggregate和treeAggregate的原理和区别第八章 key-value类型RDD的api详解1、combineBykey的七大参数的详解2、ShuffleRDD的原理详解3、基于combineByKey的api详解,包括aggregateByKey、reduceByKey、foldByKey以及groupByKey等4、combineBykey实战以及使用过程中需要注意的点5、reduceByKey和groupByKey的对比,同时包含了reduce和fold的对比6、cogroup api的感官认识,包括基于cogroup实现的join、leftOuterJoin、rightOuterJoin、fullOuterJoin以及subtractByKey等api7、通过原理图和源代码详解cogroup原理8、join等api的原理实现9、subtractByKey的原理10、sortedByKey原理,利用RangePartitioner实现优化11、count、countByKey等计数api,包括近似估算等api第九章 二元RDD操作1、union的使用及其原理2、intersection的使用及其原理3、cartesian笛卡尔积的使用及其原理4、zip的使用及其原理第十章 persist 和 checkpoint机制1、RDD的缓存机制,即persist2、checkpoint的作用和实现流程3、checkpoint实现原理4、localCheckpoint和checkpoint的优缺点第十一章 Spark读写外部数据源1、spark支持的读写存储系统(使用JdbcRDD读取关系型数据库的完整示例见: http://7639240.blog.51cto.com/7629240/1967325  )2、HadoopRDD的原理和实现3、spark支持的通用的文件格式,重点会讲述了SequenceFile的数据结构以及需要注意的点,包括text file、CSV file、Sequence file 、 Object file以及MapFile等4、spark支持的hbase file的读写代码5、行式存储文件格式(avro)和列式存储文件格式(parquet)读写的详细讲解6、spark对二进制数据的读写的api详解第十二章 broadcast和accumulator两个api的详解第十三章 RDD项目实战以本人真实参加的项目来串联我们这个课程所将到的api

第三阶段:  正确提交spark应用

理解spark-submit中每一个参数的含义及其用法、理解spark-submit的原理、从而达到使用spark-submit正确提交我们开发的spark应用

1门课程 3小时37分钟
  • [老汤]Spark 2.x 实战应用系列四之Spark-core正确提交spark应用

    18节 3小时37分钟
    课程目标:
    本门课程实战的东西偏多,主要是理解透spark-submit中的每一个参数的用法及其原理,以达到正确提交各种业务场景下的spark应用。在了解了spark-submit的每一个参数后,我们进而对spark-submit的原理以及spark的脚本系统进行了深入的探讨,也为深入理解spark打开了大门。更多的课程可以在51CTO学院中搜索"老汤"-------------------------------------------------------------------------------------------Scala内功修炼系列课程计划(scala专题: http://edu.51cto.com/topic/1384.html  )一、Scala内功修炼一:认识Scala (公开课,http://edu.51cto.com/course/12204.html )二、Scala内功修炼二:怎样学习Scala (公开课,http://edu.51cto.com/course/12202.html  )三、Scala内功修炼三:十二步体验Scala (公开课, http://edu.51cto.com/course/11756.html )四、Scala内功修炼四:面向对象编程基础 (http://edu.51cto.com/course/11770.html )五、Scala内功修炼五:函数式编程基础 (http://edu.51cto.com/course/11802.html )六、Scala内功修炼六:隐式转换 (http://edu.51cto.com/course/11814.html  )七、Scala内功修炼七:类型系统 (http://edu.51cto.com/course/11849.html  )八、Scala内功修炼八:模式匹配 (http://edu.51cto.com/course/11904.html  )九、Scala内功修炼九:集合框架 (http://edu.51cto.com/course/12136.html  )                  Spark2.x 应用实战系列课程计划------------------------------------Spark 2.x 入门指南-----------------------------------Spark2.x 实战应用系列环境篇:Spark相关集群环境的搭建 (公开课,http://edu.51cto.com/course/11430.html )Spark2.x 实战应用系列环境篇:Spark开发环境的搭建 (公开课,http://edu.51cto.com/course/11421.html )Spark2.x 实战应用系列一       :怎样学习Spark (公开课,http://edu.51cto.com/course/11210.html )-------------------------------------Spark-core实战应用(专题: http://edu.51cto.com/topic/1275.html  )------------------------------Spark2.x 实战应用系列二       :正确理解Spark (http://edu.51cto.com/course/10932.html )Spark2.x 实战应用系列三       :Spark-core RDD API (http://edu.51cto.com/course/11058.html )Spark2.x 实战应用系列四       :Spark-core 正确提交Spark应用 (http://edu.51cto.com/course/11132.html )Spark2.x 实战应用系列五       :Spark-core Schedulers On Driver (http://edu.51cto.com/course/11206.html )--------------------------------------Spark-SQL实战应用(专题:http://edu.51cto.com/topic/1319.html )------------------------------Spark2.x 实战应用系列六       :Spark-SQL的前生今世以及未来 (http://edu.51cto.com/course/11277.html )Spark2.x 实战应用系列七       :有SQL基础就可玩转Spark SQL(Scala版&Java版) (http://edu.51cto.com/course/11496.html )Spark2.x 实战应用系列七       :有SQL基础就可玩转Spark SQL(Scala版&Python版) (http://edu.51cto.com/course/11495.html )Spark2.x 实战应用系列八       :Spark SQL with Hive (http://edu.51cto.com/course/11537.html )---------------------------------------Spark-graphx(图计算)实战应用------------------------------------------------------------Spark2.x 实战应用系列九       :Spark Graphx实战(即将发布)---------------------------------------Spark-ml(机器学习)实战应用------------------------------------------------------------Spark2.x 实战应用系列十       :Spark 机器学习实战(即将发布)大数据实时流处理技术系列课程计划---------------------------------------Spark Streaming专题(http://edu.51cto.com/topic/1402.html  )--------------Spark2.x 实时流计算系列一:Spark Streaming编程模型 (http://edu.51cto.com/course/12327.html  )Spark2.x 实时流计算系列二:Spark Streaming性能与稳定 (http://edu.51cto.com/course/12326.html  )Spark2.x 实时流计算系列三:Spark Streaming容错与语义 (http://edu.51cto.com/course/12325.html  )Spark2.x 实时流计算系列四:Flume + Kafka + Spark Streaming (http://edu.51cto.com/course/12324.html  )---------------------------------------Structured Streaming专题------------------------------------------------------------Spark2.x 实时流计算系列五:Structured Streaming解决的问题 (http://edu.51cto.com/course/12330.html )本课程内容:第一章:课程内容简介第二章:java基础知识2.1 java命令启动JVM2.2 java ProcessBuilder启动JVM第三章:详解spark-submit的每一个参数3.1 spark-submit感官认识3.2 master和deploy-mode参数详解3.3 --conf参数详解3.4 driver相关参数的详解3.5 executor相关参数的详解3.6 --jars参数详解3.7 --package相关参数详解3.8 --files与--properties-file参数详解3.9 --queue相关参数的详解3.10 python spark应用的正确提交3.11 利用SparkLauncher在代码中提交spark应用第四章 spark-submit原理4.1 spark脚本系统4.2 spark-class脚本原理以及实现4.3 spark-daemon脚本原理以及实现4.4 SparkSubmit原理以及源码分析

第四阶段:  Schedulers On Driver

深入理解DAG、Task以及资源的调度管理的原理,从而理解透spark提交job的流程原理,进而达到对spark应用调优的程度

1门课程 9小时16分钟
  • [老汤]Spark 2.x实战应用系列五之Schedulers On Driver

    37节 9小时16分钟
    课程目标:
    本课程主要的讲述的是spark在driver端怎么样将task调度到executor上进行执行的。分别对DAG的调度、task的调度以及driver端资源的调度作了很深入的讲述,全课程用通俗易懂的语言来描述这些原理性的东西。主要的内容如下:更多的课程可以在51CTO学院中搜索"老汤"-------------------------------------------------------------------------------------------Scala内功修炼系列课程计划(scala专题: http://edu.51cto.com/topic/1384.html  )一、Scala内功修炼一:认识Scala (公开课,http://edu.51cto.com/course/12204.html )二、Scala内功修炼二:怎样学习Scala (公开课,http://edu.51cto.com/course/12202.html  )三、Scala内功修炼三:十二步体验Scala (公开课, http://edu.51cto.com/course/11756.html )四、Scala内功修炼四:面向对象编程基础 (http://edu.51cto.com/course/11770.html )五、Scala内功修炼五:函数式编程基础 (http://edu.51cto.com/course/11802.html )六、Scala内功修炼六:隐式转换(http://edu.51cto.com/course/11814.html  )七、Scala内功修炼七:类型系统 (http://edu.51cto.com/course/11849.html  )八、Scala内功修炼八:模式匹配 (http://edu.51cto.com/course/11904.html  )九、Scala内功修炼九:集合框架 (http://edu.51cto.com/course/12136.html  )                  Spark2.x 应用实战系列课程计划------------------------------------Spark 2.x 入门指南-----------------------------------Spark2.x 实战应用系列环境篇:Spark相关集群环境的搭建 (公开课,http://edu.51cto.com/course/11430.html )Spark2.x 实战应用系列环境篇:Spark开发环境的搭建 (公开课,http://edu.51cto.com/course/11421.html )Spark2.x 实战应用系列一       :怎样学习Spark (公开课,http://edu.51cto.com/course/11210.html )-------------------------------------Spark-core实战应用(专题: http://edu.51cto.com/topic/1275.html  )------------------------------Spark2.x 实战应用系列二       :正确理解Spark (http://edu.51cto.com/course/10932.html )Spark2.x 实战应用系列三       :Spark-core RDD API (http://edu.51cto.com/course/11058.html )Spark2.x 实战应用系列四       :Spark-core 正确提交Spark应用 (http://edu.51cto.com/course/11132.html )Spark2.x 实战应用系列五       :Spark-core Schedulers On Driver (http://edu.51cto.com/course/11206.html )--------------------------------------Spark-SQL实战应用(专题:http://edu.51cto.com/topic/1319.html )------------------------------Spark2.x 实战应用系列六       :Spark-SQL的前生今世以及未来 (http://edu.51cto.com/course/11277.html )Spark2.x 实战应用系列七       :有SQL基础就可玩转Spark SQL(Scala版&Java版) (http://edu.51cto.com/course/11496.html )Spark2.x 实战应用系列七       :有SQL基础就可玩转Spark SQL(Scala版&Python版) (http://edu.51cto.com/course/11495.html )Spark2.x 实战应用系列八       :Spark SQL with Hive (http://edu.51cto.com/course/11537.html )---------------------------------------Spark-graphx(图计算)实战应用------------------------------------------------------------Spark2.x 实战应用系列九       :Spark Graphx实战(即将发布)---------------------------------------Spark-ml(机器学习)实战应用------------------------------------------------------------Spark2.x 实战应用系列十       :Spark 机器学习实战(即将发布)大数据实时流处理技术系列课程计划---------------------------------------Spark Streaming专题(http://edu.51cto.com/topic/1402.html  )--------------Spark2.x 实时流计算系列一:Spark Streaming编程模型 (http://edu.51cto.com/course/12327.html  )Spark2.x 实时流计算系列二:Spark Streaming性能与稳定 (http://edu.51cto.com/course/12326.html  )Spark2.x 实时流计算系列三:Spark Streaming容错与语义 (http://edu.51cto.com/course/12325.html  )Spark2.x 实时流计算系列四:Flume + Kafka + Spark Streaming (http://edu.51cto.com/course/12324.html  )---------------------------------------Structured Streaming专题------------------------------------------------------------Spark2.x 实时流计算系列五:Structured Streaming解决的问题 (http://edu.51cto.com/course/12330.html )本课程内容:第一章:课程内容简介第二章:DAG的调度2.1 stage的划分2.2 stage的调度第三章:任务调度3.1 taskset调度的先进先出(FIFO)机制3.2 taskset调度的公平调度(FAIR)机制3.3 taskset调度的公平调度(FAIR)机制需要注意的点3.4 task调度的本地性级别定义3.5 task调度的延迟调度讲解一3.6 task调度的延迟调度讲解二3.7 task调度的推测机制3.8 task调度的黑名单机制3.9 task调度的黑名单机制使用场景第四章 资源调度4.1 executor资源的管理4.2 task的launch流程及其需要注意的点4.3 task的statusUpdate流程第五章 Schedulers On Driver的源代码讲解5.1 schedulers on driver的总体流程5.2 源码讲解之schedulers的初始化5.3 源码讲解之job提交流程5.3 源码讲解之task结果处理第六章 多个spark应用的调度6.1 动态资源分配机制6.2 External shuffle service机制6.2 External shuffle service机制实战

[老汤]Spark 2.x 之精讲Spark Core

¥456 ¥387
在线
客服
APP
下载

下载Android客户端

下载iphone 客户端

返回
顶部
注册登录免费享