赵渝强老师:大数据系列视频课程(新版)(6)MapReduce

本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本多面介绍大数据的整体内容,让学员深入理解并学习运行机制和原理,从而进一步学习大数据的相关内容。

6442人学习

高级25课时2022/03/30更新

二维码下载学堂APP缓存视频离线看

赵渝强
    • 畅销套餐
    • 精选套餐
    • 人气套餐
    • 尊享套餐
    • 高薪套餐
赵强老师:大数据视频课程(新版)
赵渝强老师:大数据系列课程(新版)(2)背景知识与起源
6288人学习
¥59.00
赵渝强老师:大数据系列课程(新版)(4)Hadoop的体系结构
4343人学习
¥69.00
赵渝强老师:大数据系列视频课程(新版)(12)集群HA
1958人学习
¥109.00
更 多 23 门 课 程
赵强-大数据课程之从Hadoop到Spark专题
赵渝强老师:Hadoop 2.x(一) 大数据基础实战视频课程
67213人学习
¥279.00
赵渝强老师:Spark系列视频课程之一:Scala编程语言视频课程
19759人学习
¥179.00
赵渝强老师:Spark 2系列视频课程之二:Spark Core
14650人学习
¥279.00
更 多 11 门 课 程
赵强-Hadoop大数据高级应用课程套餐
赵渝强老师:Hadoop 2.x(一) 大数据基础实战视频课程
67213人学习
¥279.00
赵渝强老师:Hadoop 2.x (二) 大数据进阶实战视频课程
23783人学习
¥199.00
赵渝强老师:Hadoop 2.x (三) 数据分析引擎:Hive视频课程
28686人学习
¥249.00
更 多 7 门 课 程
赵强-大数据之Spark 2 课程视频专题
赵渝强老师:Spark系列视频课程之一:Scala编程语言视频课程
19759人学习
¥179.00
赵渝强老师:Spark 2系列视频课程之二:Spark Core
14650人学习
¥279.00
赵渝强老师:Spark 2 系列视频课程之三:Spark SQL
5208人学习
¥129.00
更 多 4 门 课 程
赵强-大数据之Spark 2 课程视频专题
赵渝强老师:Spark系列视频课程之一:Scala编程语言视频课程
19759人学习
¥179.00
赵渝强老师:Spark 2系列视频课程之二:Spark Core
14650人学习
¥279.00
赵渝强老师:Spark 2 系列视频课程之三:Spark SQL
5208人学习
¥129.00
更 多 4 门 课 程
  • 课程介绍
  • 课程大纲

适合人群:

具备Java基础学员,并想进一步学习大数据的学员。

你将会学到:

本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本多面介绍大数据的整体内容,让学员深入理解并学习运行机制和原理,从而进一步学习大数据的相关内容。

课程简介:



本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本多面介绍大数据的整体内容,让学员深入理解并学习运行机制和原理,从而进一步学习大数据的相关内容。


赵渝强老师博客地址:http://collen7788.blog.51cto.com/


课程说明

==========================================================================

mapreduce.jpg

MapReduce定义:

========================================================================

MapReduce是一种可用于数据处理的编程框架。MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。

在分布式计算中,MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:map和reduce,map负责把任务分解成多个任务,reduce负责把分解后多任务处理的结果汇总起来。

MapReduce适用的问题:

========================================================================

用MapReduce来处理的数据集(或任务)需要具备这样的特点:待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。

MapReduce框架中的名词解释:

========================================================================

(*)split:
分片是指MapReduce框架将数据源根据一定的规则将源数据分成若干个小数据的过程;其中,一个小数据集,也被称为一个分片。

(*)Map:
Map有两层含义:
其一、是指MapReduce框架中的Map过程,即将一个分片根据用户定义的Map逻辑处理后,经由MapReduce框架处理,形成输出结果,供后续Reduce过程使用;
其二,是指用户定义Java程序实现Mapper类的map接口的用户自定义逻辑,此时通常被称为mapper。


(*)Reduce:
Reduce也有两层含义:
其一,是指MapReduce框架中的Reduce过程,即将Map的结果作为输入,根据用户定义的Reduce逻辑,将结果处理并汇总,输出最后的结果;
其二,是指用户定义Java程序实现Reducer类的reduce接口的用户自定义逻辑,此时通常被称为reducer。


(*)Combine:
Combine是一个可由用户自定的过程,类似于Map和Reduce,MapReduce框架会在Map和Reduce过程中间调用Combine逻辑(会在下面章节中仔细讲解),通常Combine和reduce的用户代码是一样的(也可被称为本地的reduce过程),但是请注意并不是所有用MapReduce框架实现的算法都适合增加Combine过程(比如求平均值)。

(*)Partition:
在MapReduce框架中一个split对应一个map,一个partiton对应一个reduce(无partition指定时,由用户配置项指定,默认为1个)。 reduce的个数决定了输出文件的个数。比如,在需求中,数据是从对每个省汇总而成,要求计算结果按照省来存放,则需要根据源数据中的表明省的字段分区,用户自定义partition类,进行分区。



赵渝强老师:大数据系列视频课程

==========================================================================

1、Hadoop大数据学习高级应用系列套餐

      https://edu.51cto.com/topic/1155.html    


2、Spark 2系列课程视频套餐

     https://edu.51cto.com/topic/1258.html 


3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐

     https://edu.51cto.com/topic/1003.html 


4、NoSQL 数据库实战系列视频课程专题(上)

     https://edu.51cto.com/topic/955.html 


5、NoSQL 数据库实战系列视频课程专题(下)

      即将发布


本门课程课程大纲

==========================================================================

一、课程概述
       1、MapReduce课程概述

二、MapReduce编程基础
      2、案例分析:WordCount数据处理的过程
      3、开发自己的WordCount程序
      4、案例分析:求每个部门的工资总额
      5、开发MapReduce程序实现求部门的工资总额

三、MapReduce的特性一:序列化
      6、Hadoop的序列化机制
      7、在MapReduce程序中使用序列化

四、MapReduce的特性二:排序
      8、数字的排序
      9、字符串的排序
      10、对象的排序

五、MapReduce的特性三:分区和合并
      11、什么是分区
      12、分区案例:根据部门号建立分区
      13、什么是Combiner

六、MapReduce的核心:Shuffle
      14、 什么是Shuffle(洗牌)?

七、MapReduce编程案例
     15、编程案例一:数据去重
     16、知识回顾:关系型数据库中的多表查询
     17、编程案例二:分析等值连接的数据处理流程
     18、编程案例二:实现等值连接的数据处理流程
     19、编程案例三:分析自连接的数据处理流程
     20、编程案例三:实现自连接的数据处理流程
     21、案例四:分析倒排索引的数据处理过程
     22、案例四:编程实现倒排索引
     23、案例五:使用MRUnit进行单元测试

八、第一个阶段小结
     24、第一个阶段小结


展开更多

课程大纲-赵渝强老师:大数据系列视频课程(新版)(6)MapReduce

展开更多
在线
客服
APP
下载

下载Android客户端

下载iphone 客户端

官方
微信

关注官方微信

返回
顶部