专题 > 大数据 > Spark > 赵强-大数据课程之从Hadoop到Spark系列专题

赵强-大数据课程之从Hadoop到Spark系列专题

大数据系列课程之:从Hadoop到Spark。全面涵盖Hadoop和Spark的相关内容。其中Hadoop包含七门课程:Hadoop基础、Hadoop进阶、数据分析引擎Hive和Pig、MapReduce编程案例、数据序列化Avor和工作流引擎Oozie;Spark则从基础的Scala语言开始。

11

门课程

527

人学习

 

课程总时长:58小时9分钟

授课讲师:赵强

打包优惠
 
大牛讲解
 
一键下载
 
讲师24h答疑
专题价 ¥1438
立省621元
总价 ¥2059

第一阶段:  大数据之Hadoop

全面介绍Hadoop生态体系结构。

7门课程 31小时38分钟
  • 赵强老师:Hadoop 2.x(一) 大数据基础实战视频课程

    43节 8小时13分钟
    课程目标:
    购买大数据Hadoop课程套餐,享八五折优惠!!套餐地址:http://edu.51cto.com/topic/1155.html  赵强老师博客地址:http://collen7788.blog.51cto.com/了解Hadoop的历史及目前发展的现状、以及Hadoop的技术特点,从而把握分布式计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。掌握Hadoop的架构原理和使用场景,并通过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍,帮助学员为企业在利用大数据方面体现自身价值。本门课程是Hadoop的基础课程,重点将介绍Hadoop的背景知识。HDFS的体系结构,MapReduce程序的原理和开发,以及Hadoop环境的搭建。为后续继续学习Hadoop的高级课程奠定基础。本系列课程共包含以下五门课程:1、Hadoop 2.x 大数据基础      http://edu.51cto.com/course/course_id-6704.html  2、Hadoop 2.x 大数据进阶       http://edu.51cto.com/course/course_id-6705.html  3、Hadoop 2.x 数据分析引擎:Hive       http://edu.51cto.com/course/course_id-6706.html  4、Hadoop 2.x 数据分析引擎:Pig       http://edu.51cto.com/course/course_id-6707.html  5、Hadoop 2.x(五)  MapReduce实战案例集锦       http://edu.51cto.com/course/course_id-8288.html  6、Hadoop 2.x(六)  使用Avro实现序列化       http://edu.51cto.com/course/course_id-8978.html 7、Hadoop 2.x (七):工作流引擎Oozie       http://edu.51cto.com/course/10353.html  建议学员从第一门课程开始,逐步学习;并完成相应的实验,这样可以更好的理解和掌握Hadoop的体系结构。《Hadoop 2.x(一) 大数据基础实战视频课程》课程大纲第一章 课程概述1、课程概述2、课时实验环境介绍    3、什么是数据仓库?4、Hadoop的起源:Google的思想概述5、Google的基本思想1:分布式文件系统GFS6、Google的基本思想2:倒排索引7、Google的基本思想3:PageRank8、Google的基本思想4:BigTable9、本讲内容总结第二章 Hadoop 2.x HDFS的体系架构10、HDFS体系结构之一:NameNode和DataNode11、HDFS体系结构之二:HDFS文件上传的过程12、HDFS体系结构之三:文件下载的过程    13、HDFS体系结构之四:示例-文件上传和下载14、HDFS体系结构之五:SecondaryNameNode15、HDFS体系结构之六:HDFS的瓶颈第三章 Yarn的体系结构和MapReduce运行的过程16、MapReduce程序在Yarn平台上的执行过程第四章 HBase的体系结构17、HBase的体系结构18、HBase的表结构第五章 Hadoop 2.x的生态圈19、Hadoop的生态圈第六章 Hadoop 2.x 的安装和配置20、Hadoop的安装之一:Linux和JDK21、Hadoop的安装之二:本地模式22、Hadoop的安装之三:伪分布模式    23、Hadoop的安装之四:SSH免密码登录原理和配置24、Hadoop的安装之五:Hadoop的WebConsole第七章 Hadoop应用案例分析25、Hadoop应用案例一:基于大数据的互联网架构26、Hadoop应用案例二:基于Hadoop的日志分析    27、Hadoop应用案例三:Hadoop在淘宝中的应用第八章 操作HDFS28、HDFS体系结构知识点回顾29、通过命令行访问HDFS    30、HDFS的Java编程案例一31、HDFS的Java编程案例二32、HDFS的Java编程案例三33、本章小结第九章 使用MapReduce程序处理数据34、本讲概述35、MapReduce的基本概念和原理    36、第一个MapReduce程序37、Hadoop序列化的基本概念38、编写Hadoop序列化的程序39、MapReduce的排序40、MapReduce的分区41、什么是Combiner42、什么是Shuffle43、本讲总结
    • 课时1:课程概述
    • 课时2:课时实验环境介绍
    • 课时3:什么是数据仓库?
    • 课时4:Hadoop的起源:Google的思想概述
    • 课时5:Google的基本思想1:分布式文件系统GFS
    • 课时6:Google的基本思想2:倒排索引
    • 课时7:Google的基本思想3:PageRank
    • 课时8:Google的基本思想4:BigTable
    • 课时9:本讲内容总结
    • 课时10:HDFS体系结构之一:NameNode和DataNode
    查看更多
  • 赵强老师:Hadoop 2.x (二) 大数据进阶实战视频课程

    31节 5小时58分钟
    课程目标:
    购买大数据Hadoop课程套餐,享八五折优惠!!套餐地址:http://edu.51cto.com/topic/1155.html  本课程将在Hadoop基础课程的内容上,详细讨论Hadoop的高级特性。同时还将讨论Yarn的任务调度机制。本课程还将讨论如何集成Hadoop和Sqoop、Flume以及Apache Kafka来实现数据的交换。赵强老师博客地址:http://collen7788.blog.51cto.com/本系列课程共包含以下五门课程:1、Hadoop 2.x 大数据基础      http://edu.51cto.com/course/course_id-6704.html  2、Hadoop 2.x 大数据进阶       http://edu.51cto.com/course/course_id-6705.html  3、Hadoop 2.x 数据分析引擎:Hive       http://edu.51cto.com/course/course_id-6706.html  4、Hadoop 2.x 数据分析引擎:Pig       http://edu.51cto.com/course/course_id-6707.html 5、Hadoop 2.x(五)  MapReduce实战案例集锦       http://edu.51cto.com/course/course_id-8288.html  6、Hadoop 2.x(六)  使用Avro实现序列化       http://edu.51cto.com/course/course_id-8978.html 7、Hadoop 2.x (七):工作流引擎Oozie       http://edu.51cto.com/course/10353.html  建议学员从第一门课程开始,逐步学习;并完成相应的实验,这样可以更好的理解和掌握Hadoop的体系结构。《Hadoop 2.x (二) 大数据进阶实战视频课程》课程大纲第一章 Hadoop 2.x 高级管理1、课程概述2、搭建Hadoop 的全分布模式    3、HUE简介4、安装和配置HUE5、知识点回顾.Hadoop集群的瓶颈6、HDFS的联盟和配置7、HDFS联盟的视图文件系统8、ZooKeeper简介和配置9、利用ZK实现Hadoop的HA第二章 Hadoop的RPC和动态代理10、知识点回顾11、什么是RPC12、什么是代理对象第三章 Hadoop的数据交换和集成13、使用Sqoop导入关系型数据库中的数据14、Apache Flume配置和使用15、集成Flume和HDFS16、Apache Kafka简介 17、开发Consumer集成Kafka和HDFS18、测试Kafka和HDFS的集成第四章 Yarn的任务调度和管理19、管理和监控MapReduce任务20、Yarn的资源管理和调度第五章 HBase进阶21、HBase知识点回顾22、配置HBase的本地模式23、配置HBase的伪分布模式24、配置HBase的集群模式25、使用HBase Shell26、HBase的Java编程接口第六章 HDFS的高级特性27、补充:Oracle的回收站28、HDFS的回收站29、HDFS的配额30、HDFS的快照31、HDFS的安全模式
    • 课时1:课程概述
    • 课时2:搭建Hadoop 的全分布模式
    • 课时3:HUE简介
    • 课时4:安装和配置HUE
    • 课时5:知识点回顾.Hadoop集群的瓶颈
    • 课时6:HDFS的联盟和配置
    • 课时7:HDFS联盟的视图文件系统
    • 课时8:ZooKeeper简介和配置
    • 课时9:利用ZK实现Hadoop的HA
    • 课时10:知识点回顾
    查看更多
  • 赵强老师:Hadoop 2.x (三) 数据分析引擎:Hive视频课程

    39节 5小时54分钟
    课程目标:
    购买大数据Hadoop课程套餐,享八五折优惠!!套餐地址:http://edu.51cto.com/topic/1155.html  赵强老师博客地址:http://collen7788.blog.51cto.com/Hive是基于Hadoop的数据分析引擎。利用Hive可以很方便的进行数据的分析和处理。对于那些不会编写Java程序的客户来说,是非常有用的。我们不再需要去编写MapReduce程序,而利用Hive所提供的SQL接口就可以操作HDFS中的数据。本系列课程共包含以下五门课程:1、Hadoop 2.x 大数据基础      http://edu.51cto.com/course/course_id-6704.html  2、Hadoop 2.x 大数据进阶       http://edu.51cto.com/course/course_id-6705.html  3、Hadoop 2.x 数据分析引擎:Hive       http://edu.51cto.com/course/course_id-6706.html  4、Hadoop 2.x 数据分析引擎:Pig       http://edu.51cto.com/course/course_id-6707.html 5、Hadoop 2.x(五)  MapReduce实战案例集锦       http://edu.51cto.com/course/course_id-8288.html  6、Hadoop 2.x(六)  使用Avro实现序列化       http://edu.51cto.com/course/course_id-8978.html 7、Hadoop 2.x (七):工作流引擎Oozie       http://edu.51cto.com/course/10353.html  建议学员从第一门课程开始,逐步学习;并完成相应的实验,这样可以更好的理解和掌握Hadoop的体系结构。《Hadoop 2.x (三) 数据分析引擎:Hive 实战视频课程》课程大纲第一章 Hive的体系结构和安装配置1、课程概述2、数据仓库简介3、什么是Hive4、Hive的体系结构之元数据5、Hive的体系结构之HQL的执行过程6、Hive的体系结构7、Hive的安装之安装模式8、Hive的安装之嵌入模式9、Hive的安装之远程模式和本地模式10、Hive的管理之CLI11、Hive的管理之hwi12、Hive的管理之远程服务第二章 Hive的数据类型和存储模型13、Hive的数据类型之基本数据类型14、Hive的数据类型之复杂数据类型15、Hive的数据类型之时间数据类型16、Hive的数据存储17、内部表18、分区表19、外部表20、桶表21、视图第三章 Hive的数据加载22、使用Load语句执行数据的导入23、使用Sqoop执行数据的迁移第四章 Hive的HQL查询24、简单查询和fetchtask25、在查询中使用过滤    26、在查询中使用排序27、Hive表的连接28、Hive的子查询第五章 Hive的函数29、hive的内置函数之数学函数30、hive的内置函数之字符函数    31、hive的内置函数之收集函数和转换函数32、hive的内置函数之日期函数33、hive的内置函数之条件函数34、hive的内置函数之聚合函数和表生成函数    第六章 Hive的自定义函数35、Hive的自定义函数概述36、Hive的自定义函数案例一37、Hive的自定义函数案例二第七章 Hive的Java客户端38、Hive的JDBC客户端39、Hive的Thrift客户端    
    • 课时1:课程概述
    • 课时2:数据仓库简介
    • 课时3:什么是Hive
    • 课时4:Hive的体系结构之元数据
    • 课时5:Hive的体系结构之HQL的执行过程
    • 课时6:Hive的体系结构
    • 课时7:Hive的安装之安装模式
    • 课时8:Hive的安装之嵌入模式
    • 课时9:Hive的安装之远程模式和本地模式
    • 课时10:Hive的管理之CLI
    查看更多
  • 赵强老师:Hadoop 2.x (四) 数据分析引擎:Pig视频课程

    10节 1小时15分钟
    课程目标:
    购买大数据Hadoop课程套餐,享八五折优惠!!套餐地址:http://edu.51cto.com/topic/1155.html    赵强老师博客地址:http://collen7788.blog.51cto.com/Pig是基于Hadoop的数据分析引擎。利用Pig可以很方便的进行数据的分析和处理。对于那些不会编写Java程序的客户来说,是非常有用的。我们不再需要去编写MapReduce程序,而利用Pig所提供的SQL接口和Pig Latin就可以操作HDFS中的数据。本系列课程共包含以下五门课程:1、Hadoop 2.x 大数据基础      http://edu.51cto.com/course/course_id-6704.html  2、Hadoop 2.x 大数据进阶       http://edu.51cto.com/course/course_id-6705.html  3、Hadoop 2.x 数据分析引擎:Hive       http://edu.51cto.com/course/course_id-6706.html  4、Hadoop 2.x 数据分析引擎:Pig       http://edu.51cto.com/course/course_id-6707.html 5、Hadoop 2.x(五)  MapReduce实战案例集锦       http://edu.51cto.com/course/course_id-8288.html  6、Hadoop 2.x(六)  使用Avro实现序列化       http://edu.51cto.com/course/course_id-8978.html 7、Hadoop 2.x (七):工作流引擎Oozie       http://edu.51cto.com/course/10353.html  建议学员从第一门课程开始,逐步学习;并完成相应的实验,这样可以更好的理解和掌握Hadoop的体系结构。《Hadoop 2.x (四) 数据分析引擎:Pig实战视频课程》课程大纲第一章 Pig的体系结构和安装配置1、课程概述2、什么是Pig和Pig的配置第二章 Pig的使用和数据模型3、Pig的常用命令4、Pig的数据模型    5、使用PigLatin语句分析数据第三章 Pig的自定义函数6、Pig的自定义函数概述7、Pig的自定义过滤函数    8、Pig的自定义运算函数9、Pig的自定义加载函数第四章 课程总结10、课程总结
    • 课时1:课程概述
    • 课时2:什么是Pig和Pig的配置
    • 课时3:Pig的常用命令
    • 课时4:Pig的数据模型
    • 课时5:使用PigLatin语句分析数据
    • 课时6:Pig的自定义函数概述
    • 课时7:Pig的自定义过滤函数
    • 课时8:Pig的自定义运算函数
    • 课时9:Pig的自定义加载函数
    • 课时10:课程总结
    查看更多
  • 赵强老师:Hadoop 2.x(五) MapReduce案例视频课程

    22节 3小时29分钟
    课程目标:
    购买大数据Hadoop课程套餐,享八五折优惠!!套餐地址:http://edu.51cto.com/topic/1155.html    赵强老师博客地址:http://collen7788.blog.51cto.com/本门课程将通过6个具体的案例加强学员的MapReduce程序的分析和开发能力,并巩固之前的MapReduce基础知识。本系列课程共包含以下五门课程:1、Hadoop 2.x (一)大数据基础      http://edu.51cto.com/course/course_id-6704.html  2、Hadoop 2.x (二)大数据进阶       http://edu.51cto.com/course/course_id-6705.html  3、Hadoop 2.x (三) 数据分析引擎:Hive       http://edu.51cto.com/course/course_id-6706.html  4、Hadoop 2.x (四)数据分析引擎:Pig       http://edu.51cto.com/course/course_id-6707.html  5、Hadoop 2.x(五)  MapReduce实战案例集锦       http://edu.51cto.com/course/course_id-8288.html   6、Hadoop 2.x(六)  使用Avro实现序列化       http://edu.51cto.com/course/course_id-8978.html 7、Hadoop 2.x (七):工作流引擎Oozie       http://edu.51cto.com/course/10353.html  建议学员从第一门课程开始,逐步学习;并完成相应的实验,这样可以更好的理解和掌握Hadoop的体系结构。《Hadoop 2.x(五)  MapReduce实战案例集锦》课程大纲第一章 课程概述(*)课程概述(*)准备实验数据(*)MapReduce基础知识回顾第二章 案例一:使用MRUnit进行单元测试(*)使用MRUnit测试Mapper(*)使用MRUnit测试Reducer(*)使用MRUnit测试MapperReducer第三章 案例二:数据去重(*)一个列的数据去重(*)多个列的数据去重第四章 案例三:数据排序(*)基本数据类型的排序(*)一个列的排序(*)多个列的排序第五章 案例四:每个部门的平均工资(*)数据的流动过程(*)开发Mapper、Reduce程序(*)测试第六章 案例五:表的自连接(*)自连接的数据的流动过程(*)开发Mapper(*)开发Reducer(*)测试程序第七章 案例六:多表查询(*)多表查询的数据的流动过程(*)开发Mapper(*)开发Reducer(*)测试程序第八章 案例七:倒排索引(*)倒排索引的数据的流动过程(*)开发Mapper(*)开发Combiner(*)开发Reducer(*)测试程序
    • 课时1:课程概述
    • 课时2:使用MRUnit测试Mapper
    • 课时3:使用MRUnit测试Reducer
    • 课时4:使用MRUnit测试MapReduce
    • 课时5:一个列的数据去重
    • 课时6:多个列的数据去重
    • 课时7:数字的排序
    • 课时8:字符串的排序
    • 课时9:一个列和多个列的排序
    • 课时10:求每个部门平均工资数据的流动分析
    查看更多
  • 赵强老师:Hadoop 2.x(六) 使用Avro实现序列化视频课程

    19节 3小时12分钟
    课程目标:
    购买大数据Hadoop课程套餐,享八五折优惠!!套餐地址:http://edu.51cto.com/topic/1155.html    赵强老师博客地址:http://collen7788.blog.51cto.com/Avro是一个通用的序列化数据结构形式,在Hadoop大数据开发之中有着重要的通用结构化作用,本课程将为读者讲解Avro数据结构的定义,并且实现AVRO程序,同时为读者讲解如何基于Avro实现Java数据的序列化与反序列化处理操作;同时,将为学员详细介绍Avro RPC的实现和在MapReduce中如何使用Avro序列化。本系列课程共包含以下六门课程:1、Hadoop 2.x (一)大数据基础      http://edu.51cto.com/course/course_id-6704.html  2、Hadoop 2.x (二)大数据进阶       http://edu.51cto.com/course/course_id-6705.html  3、Hadoop 2.x (三) 数据分析引擎:Hive       http://edu.51cto.com/course/course_id-6706.html  4、Hadoop 2.x (四)数据分析引擎:Pig       http://edu.51cto.com/course/course_id-6707.html  5、Hadoop 2.x(五)  MapReduce实战案例集锦       http://edu.51cto.com/course/course_id-8288.html   6、Hadoop 2.x(六)  使用Avro实现序列化       http://edu.51cto.com/course/course_id-8978.html  7、Hadoop 2.x (七):工作流引擎Oozie       http://edu.51cto.com/course/10353.html  建议学员从第一门课程开始,逐步学习;并完成相应的实验,这样可以更好的理解和掌握Hadoop的体系结构。《Hadoop 2.x(六)  使用Avro实现序列化》课程大纲第一章 课程概述和Avro基础(*)课程概述(*)Java的序列化(*)Hadoop的序列化(*)Avro的数据类型和Schema第二章 在Java序列化中使用Avro(*)使用Schema实现Java的序列化(*)使用Schema实现Java的反序列化(*)使用Avro Tools生成Schema生成类实现Java的序列化(*)使用Avro Tools生成Schema生成类实现Java的反序列化第三章 在RPC中使用Avro(*)知识点回顾:Hadoop中的RPC通信(*)在RPC使用Avro实现消息的通信之一:定义消息格式Schema(*)在RPC使用Avro实现消息的通信之二:开发服务器端程序(*)在RPC使用Avro实现消息的通信之三:开发客户端端程序第四章 在MapReduce中使用Avro(*)知识点回顾:Hadoop中的MapReduce(*)在MapReduce中使用Avro之一:定义数据格式Schema(*)在MapReduce中使用Avro之二:开发Mapper端程序(*)在MapReduce中使用Avro之三:开发Reducer端程序(*)在MapReduce中使用Avro之四:开发Job主程序端程序(*)在MapReduce中使用Avro之五:运行测试(*)在MapReduce任务中使用Schema的生成类
    • 课时1:课程概述
    • 课时2:Java的序列化
    • 课时3:Hadoop的序列化
    • 课时4:Avro的数据类型和Schema
    • 课时5:使用Schema实现Java的序列化
    • 课时6:使用Schema实现Java的反序列化
    • 课时7:使用Avro Tools生成Schema生成类...
    • 课时8:使用Avro Tools生成Schema生成类...
    • 课时9:知识点回顾:Hadoop中的RPC通信
    • 课时10:在RPC使用Avro实现消息的通信之一...
    查看更多
  • 赵强老师:Hadoop 2.x (七)工作流引擎Oozie

    13节 3小时35分钟
    课程目标:
    购买大数据Hadoop课程套餐,享八五折优惠!!套餐地址:http://edu.51cto.com/topic/1155.html  赵强老师博客地址:http://collen7788.blog.51cto.com/Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架(如图 1 所示)使用 Oozie 协调器促进了相互依赖的重复工作之间的协调,您可以使用预定的时间或数据可用性来触发 Apache Oozie。您可以使用 Oozie bundle 系统提交或维护一组协调应用程序。作为本练习的一部分,Oozie 运行了一个 Apache Sqoop 作业,以便在 MySQL 数据库中的数据上执行导入操作,并将数据传输到 Hadoop 分布式文件系统 (HDFS) 中。可以利用导入的数据集执行 Sqoop 合并操作,从而更新较旧的数据集。通过利用 UNIX shell 操作,可从 MySQL 数据库中提取用来执行 Sqoop 作业的元数据。同理,可执行 Java 操作来更新 Sqoop 作业所需的 MySQL 数据库中的元数据。本系列课程共包含以下课程:1、Hadoop 2.x (一)大数据基础      http://edu.51cto.com/course/course_id-6704.html  2、Hadoop 2.x (二)大数据进阶       http://edu.51cto.com/course/course_id-6705.html  3、Hadoop 2.x (三) 数据分析引擎:Hive       http://edu.51cto.com/course/course_id-6706.html  4、Hadoop 2.x (四)数据分析引擎:Pig       http://edu.51cto.com/course/course_id-6707.html  5、Hadoop 2.x(五)  MapReduce实战案例集锦       http://edu.51cto.com/course/course_id-8288.html   6、Hadoop 2.x(六)  使用Avro实现序列化       http://edu.51cto.com/course/course_id-8978.html  7、Hadoop 2.x (七):工作流引擎Oozie       http://edu.51cto.com/course/10353.html  建议学员从第一门课程开始,逐步学习;并完成相应的实验,这样可以更好的理解和掌握Hadoop的体系结构。=================课程大纲=================第一章 课程概述与Oozie的安装配置(*)课程概述与基本概念(*)安装和配置Oozie(*)演示Oozie自带的Example第二章 定义Oozie的节点(*)控制节点(*)动作节点之一:Fs(*)动作节点之二:Java-Main(*)动作节点之三:MapReduce(*)动作节点之四:Sqoop(*)动作节点之五:Hive(*)动作节点之六:Pig第三章 综合案例:处理商品订单(*)综合案例:处理商品订单第四章 Coordinator和Bundle (*)什么是OOzie的Coordinator?(*)什么是OOzie的Bundle?
    • 课时1:课程概述与基本概念
    • 课时2:安装和配置Oozie
    • 课时3:演示Oozie自带的Example
    • 课时4:控制节点
    • 课时5:动作节点之一:Fs Action
    • 课时6:动作节点之二:Java Action
    • 课时7:动作节点之三:MapReduce Action
    • 课时8:动作节点之四:Sqoop Action
    • 课时9:动作节点之五:Pig Action
    • 课时10:动作节点之六:Hive Action
    查看更多

第二阶段:  大数据之Spark

从基础的Scala编程语言开始,全面介绍Spark生态体系结构。

4门课程 26小时30分钟
  • 赵强老师:Spark系列视频课程之一:Scala编程语言视频课程

    48节 7小时31分钟
    课程目标:
    掌握大数据核心知识点,把握大数据最新趋势。一起交流讨论,掌控大数据时代。Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。它也能运行于CLDC配置的Java ME中。目前还有另一.NET平台的实现,不过该版本更新有些滞后。Scala的编译模型(独立编译,动态类加载)与Java和C#一样,所以Scala代码可以调用Java类库(对于.NET实现则可调用.NET类库)。Scala包括编译器和类库,以及BSD许可证发布。 学习Scala编程语言,为后续学习Spark奠定基础。赵强老师博客地址:http://collen7788.blog.51cto.com/《赵强老师:Spark系列视频课程》===================================================1、Spark系列视频课程之一:Scala编程语言     http://edu.51cto.com/course/6724.html  2、Spark系列视频课程之二:Spark Core      http://edu.51cto.com/course/10698.html 3、Spark系列视频课程之三:Spark SQL      http://edu.51cto.com/course/10796.html 4、Spark系列视频课程之四:Spark Streaming      http://edu.51cto.com/course/11066.html 5、Spark系列视频课程之五:Spark Structured Streaming      即将发布《大数据基础之Scala编程语言实战视频课程》课程大纲第一章 Scala基础语法1、课程概述2、安装Scala开发环境3、Scala常用类型介绍4、Scala中变量的申明5、Scala中函数的定义和使用6、Scala中的条件表达式7、Scala中的循环第二章 Scala基础语法(续)8、函数参数9、lazy值10、异常处理11、数组的基本用法12、多维数组13、Scala数组与Java的互操作    14、映射Map15、元组Tuple第三章 Scala面向对象基础语法16、类的定义17、类的构造器    18、Object对象19、Apply方法20、Scala的继承    第四章 Scala面向对象高级语法21、抽象类和抽象字段22、什么是trait    23、包的定义和使用24、包对象25、Scala中文件的访问第五章 Scala函数式编程26、函数,值函数和匿名函数27、带函数参数的函数28、闭包29、柯里化30、高阶函数示例第六章 Scala高级函数式编程31、集合32、列表    33、序列34、集35、模式匹配    36、样本类(CaseClass)第七章 Scala高级特性37、泛型类38、泛型函数    39、类型变量的上界和下界40、视图界定41、协变和逆变42、隐式转换43、隐式参数    44、隐式类第八章 Scala的Actor编程45、创建和使用Actor46、消息通道    47、同步消息和Future48、Actor使用最佳实践
    • 课时1:课程概述
    • 课时2:安装Scala开发环境
    • 课时3:Scala常用类型介绍
    • 课时4:Scala中变量的申明
    • 课时5:Scala中函数的定义和使用
    • 课时6:Scala中的条件表达式
    • 课时7:Scala中的循环
    • 课时8:函数参数
    • 课时9:lazy值
    • 课时10:异常处理
    查看更多
  • 赵强老师:Spark 2系列视频课程之二:Spark Core

    31节 9小时5分钟
    课程目标:
    赵强老师博客地址:http://collen7788.blog.51cto.com/《赵强老师:Spark系列视频课程》===================================================1、Spark系列视频课程之一:Scala编程语言     http://edu.51cto.com/course/6724.html  2、Spark系列视频课程之二:Spark Core      http://edu.51cto.com/course/10698.html 3、Spark系列视频课程之三:Spark SQL      http://edu.51cto.com/course/10796.html 4、Spark系列视频课程之四:Spark Streaming      http://edu.51cto.com/course/11066.html 5、Spark系列视频课程之五:Spark Structured Streaming      即将发布==================================================== 本门课程目标:(*)掌握Spark的体系结构和安装配置;以及实现Spark的HA的特性。(*)学习并掌握使用Scala和Java语言开发Spark程序,并理解其运行机制和原理。(*)熟练掌握Spark的算子:Transformation和Action算子。===《Spark系列视频课程之二:Spark Core》课程大纲===一、什么是Spark?    1、什么是Spark?    2、为什么学习Spark?    3、Spark的特点:快、易用、通用、兼容性二、Spark 的体系结构与安装配置    1、Spark集群的体系结构    2、Spark的安装与部署    3、Spark的HA(high availablity)部署        (1)  基于文件的方式        (2  )基于ZooKeeper的方式三、执行Spark Demo 程序    1、执行Spark Example程序    2、使用Spark Shell    3、在IDEA中开发WordCount程序(Scala版本,Java 版本)四、Spark 的运行机制及原理分析    1、WordCount执行的流程分析    2、Spark提交任务的流程五、Spark 的RDD和算子    1、RDD基础    2、Transformation算子    3、Action算子    4、RDD的缓存机制    5、RDD的checkpoint(检查点)机制:容错机制    6、RDD的依赖关系和Spark任务中的stage    7、RDD 基础练习六、Spark RDD 的高级算子    1、mapPartitionsWithIndex    2、aggregate    3、aggregateByKey    4、coalesce和repartition    5、其他高级算子七、Spark 基础编程案例    1、案例一:计算网站的访问量    2、案例二:创建自定义分区    3、案例三:访问数据库
    • 课时1:课程概述
    • 课时2:准备实验环境
    • 课时3:什么是Spark
    • 课时4:为什么要学习Spark?
    • 课时5:Spark的特点
    • 课时6:Spark的体系结构
    • 课时7:安装和配置Spark的伪分布环境
    • 课时8:配置Spark环境的免密码登录
    • 课时9:安装和配置Spark的全分布环境
    • 课时10:基于文件方式实现Spark的HA
    查看更多
  • 赵强老师:Spark 2 系列视频课程之三:Spark SQL

    18节 4小时41分钟
    课程目标:
    Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型,并且可被视为一个分布式的SQL查询引擎。赵强老师博客地址:http://collen7788.blog.51cto.com/《赵强老师:Spark系列视频课程》===================================================1、Spark系列视频课程之一:Scala编程语言     http://edu.51cto.com/course/6724.html  2、Spark系列视频课程之二:Spark Core      http://edu.51cto.com/course/10698.html 3、Spark系列视频课程之三:Spark SQL      http://edu.51cto.com/course/10796.html 4、Spark系列视频课程之四:Spark Streaming      http://edu.51cto.com/course/11066.html 5、Spark系列视频课程之五:Spark Structured Streaming      即将发布===《Spark系列视频课程之三:Spark SQL》课程大纲===一、Spark SQL基础    1、Spark SQL的简介    2、基本概念:DataSets和DataFrames    3、创建DataFrames    4、DataFrames操作    5、Global Temporary view     6、创建DataSets    7、DataSets的操作案例二、使用数据源    1、通用的load/save函数    2、Parquet文件    3、JSON文件    4、使用JDBC    5、使用Hive Table三、性能的优化    1、在内存中的缓存数据    2、性能优化相关参数四、在IDEA中开发Spark SQL程序    1、案例一:指定的Schema的格式    2、案例二:使用case class    3、案例三:将数据保存到关系型数据库中
    • 课时1:Spark SQL课程概述
    • 课时2:Spark SQL简介
    • 课时3:基本概念:DataFrame 和 DataSet
    • 课时4:创建 DataFrame
    • 课时5:DataFrame 的基本操作
    • 课时6:全局临时视图
    • 课时7:创建 DataSet
    • 课时8:DataSet 操作案例
    • 课时9:通用的Load和Save函数
    • 课时10:Parquet文件
    查看更多
  • 赵强老师:Spark 2 系列视频课程之四:Spark Streaming

    20节 5小时12分钟
    课程目标:
    Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapReduce更丰富的模型,可以在快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法。Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。赵强老师博客地址:http://collen7788.blog.51cto.com/《赵强老师:Spark系列视频课程》===================================================1、Spark系列视频课程之一:Scala编程语言     http://edu.51cto.com/course/6724.html  2、Spark系列视频课程之二:Spark Core      http://edu.51cto.com/course/10698.html 3、Spark系列视频课程之三:Spark SQL      http://edu.51cto.com/course/10796.html 4、Spark系列视频课程之四:Spark Streaming      http://edu.51cto.com/course/11066.html 5、Spark系列视频课程之五:Spark Structured Streaming      即将发布===《Spark 2 系列视频课程之四:Spark Streaming》课程大纲===一、Spark Streaming基础     1、Spark Streaming简介    2、Spark Streaming的特点    3、Spark Streaming的内部结构    4、小小案例:wordcount程序:NetworkWordCount    5、开发自己的NetworkWordCount二、Spark Streaming进阶     1、StreamingContext 对象详解    2、离散流: DStream    3、DStream的转换操作    4、窗口操作    5、DStream的输入:基本数据源    6、DStream的输出操作和foreachRDD的设计模式    7、DataFrame和SQL操作    8、缓存和持久化    9、检查点三、高级数据源     1、集成Flume    2、集成Kafka四、性能优化     1、减少批数据的执行时间    2、如何设置批的容量    3、内存调优
    • 课时1:Spark Streaming课程概述
    • 课时2:Spark Streaming简介
    • 课时3:Demo演示:NetworkWordCount
    • 课时4:开发自己的NetworkWordCount程序
    • 课时5:StreamingContext对象详解
    • 课时6:什么是DStream?
    • 课时7:DStream中的转换操作
    • 课时8:窗口操作
    • 课时9:DStream的输入流和基本的数据源
    • 课时10:DStream的输出操作和foreachRDD的设计模式
    查看更多

赵强-大数据课程之从Hadoop到Spark系列专题

¥2059 ¥1438

可以开发票么?

可以的,购买课程或者充值余额后都是可以开具发票的,具体详情点击:我要开发票

购买的课程可以下载么?

目前PC端暂不支持下载课程视频,请手机或者平板电脑下载“51CTO学院”APP后再下载视频哦!

优惠券如何使用?

非折扣课程(不包含1元课程/套餐)可使用,一个订单(可包含多个课程)只可使用一张;优惠券一经使用,不再返还;若被冻结请在PC端删除订单即可返还。

更多问题查询点击 帮助中心

欢迎您提供宝贵意见,对于您的意见我们都会认真、慎重的讨论,每一个意见都是我们更好为您服务的鞭策和激励,感谢您帮助学院成长,我要反馈意见