学习路径 > 大数据 > Spark > 赵强老师:大数据系列视频课程(新版)

赵强老师:大数据系列视频课程(新版)

本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。

23

门课程

71422

人学习

78小时33分钟

课程总时长

赵强

金牌讲师

讲师评分:5.0

永久观看
 
系统化学习
 
24小时答疑
  资料一键下载
学习路径价 ¥1884.33
立省474.67元

支持蚂蚁花呗分期

简单5步马上享受花呗分期:

1. 点击立即购买
2. 订单确认页, 点击 ”去支付“
3. 支付中心, 使用【支付宝】付款
4. 使用【支付宝】APP扫描付款二维码
5. 付款方式选择 花呗分期~ 搞定~

查看详情>>
总价 ¥2359.00

第一阶段:  大数据的基础

2门课程 5小时20分钟

大数据的基础,包含:Linux和背景知识

  • 赵强老师:大数据系列课程(新版)(1)Linux基础

    8节 2小时4分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师:大数据系列视频课程=========================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布========本门课程大纲=========(1)安装Linux操作系统(2)大数据学习路线与课程简介(3)Linux的结构和简单配置(4)VI 编辑器(5)文件目录操作命令(6)安装JDK(7)Linux的权限管理(8)案例:分析Java死锁

    课程大纲

    免费试看

  • 赵强老师:大数据系列课程(新版)(2)背景知识与起源

    7节 3小时16分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/Hadoop的起源==========================================================================2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。 2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。 2006年2月被分离出来,成为一套完整独立的软件,起名为Hadoop Hadoop名字不是一个缩写,而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛绒玩具象命名的。 Hadoop的成长过程 Lucene–>Nutch—>Hadoop总结起来,Hadoop起源于Google的三大论文 ==========================================================================GFS:Google的分布式文件系统Google File System MapReduce:Google的MapReduce开源分布式并行计算框架 BigTable:一个大型的分布式数据库演变关系 ==========================================================================GFS—->HDFS Google MapReduce—->Hadoop MapReduce BigTable—->HBase赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布========本门课程大纲=========(1)Hadoop部分各章概述(2)实验环境简介(3)几个基本概念(4)Google的低成本思想(5)Google的思想论文之一:GFS(6)Google的思想论文之二:MapReduce(7)Google的思想论文之三:BigTable

    课程大纲

    免费试看

第二阶段:  Hadoop生态体系结构

10门课程 35小时56分钟

Hadoop生态体系结构,包含:HDFS、MapReduce、HBase、Hive等等

  • 赵强老师:大数据系列课程(新版)(3)搭建Hadoop环境

    5节 1小时52分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================搭建Hadoop的环境一直都是难点。很多学员在学习的过程中,都是由于无法搭建实验环境,而导致无法继续学习。本门课程将一步一步为大家演示如何搭建Hadoop的实验环境,包括:本地模式、伪分布模式和全分布模式的搭建。实验环境:1、Redhat  Linux 7.4 64位2、JDK 1.8 64位3、Hadoop 2.7.3赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布========本门课程大纲=========(1)Hadoop的目录结构(2)搭建Hadoop的本地模式(3)搭建Hadoop的伪分布模式(4)免密码登录的原理和配置(5)搭建Hadoop的全分布环境

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(11)HUE

    3节 58分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。(*)默认基于轻量级sqlite数据库管理会话数据,用户认证和授权,可以自定义为MySQL、Postgresql,以及Oracle(*)基于文件浏览器(File Browser)访问HDFS(*)基于Hive编辑器来开发和运行Hive查询(*)支持基于Solr进行搜索的应用,并提供可视化的数据视图,以及仪表板(Dashboard)(*)支持基于Impala的应用进行交互式查询(*)支持Spark编辑器和仪表板(Dashboard)(*)支持Pig编辑器,并能够提交脚本任务(*)支持Oozie编辑器,可以通过仪表板提交和监控Workflow、Coordinator和Bundle(*)支持HBase浏览器,能够可视化数据、查询数据、修改HBase表(*)支持Metastore浏览器,可以访问Hive的元数据,以及HCatalog(*)支持Job浏览器,能够访问MapReduce Job(MR1/MR2-YARN)(*)支持Job设计器,能够创建MapReduce/Streaming/Java Job(*)支持Sqoop 2编辑器和仪表板(Dashboard)(*)支持ZooKeeper浏览器和编辑器(*)支持MySql、PostGresql、Sqlite和Oracle数据库查询编辑器赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(10)Sqoop & Flume

    3节 1小时30分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。对于某些NoSQL数据库它也提供了连接器。Sqoop,类似于其他ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(9)Pig

    6节 2小时17分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Pig是Apache项目的一个子项目,Pig提供了一个支持大规模数据分析的平台。Pig包括用来描述数据分析程序的高级程序语言,以及对这些程序进行评估的基础结构。Pig突出的特点就是它的结构经得起大量并行任务的检验,这使得它能够处理大规模数据集。目前Pig的基础结构层包括一个产生MapReduce程序的编译器。Pig的语言层包括一个叫做PigLatin的文本语言,它具有以下几个特征:(*)易于编程:实现简单的和高度并行的数据分析任务非常容易。由相互关联的数据转换实例所组成的复杂任务被明确地编码为数据流,这是他们的编写更加容易,同时也更容易理解和维护。(*)自动优化:任务编码的方式允许系统自动去优化执行过程,从而使用户能够专注于语义,而非效率。(*)可扩展性:用户可以轻松编写自己的函数来进行特殊用途的处理。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布本门课程课程大纲==========================================================================(*)Pig简介和安装配置(*)Pig的常用命令(*)Pig的数据模型(*)Pig的自定义函数和自定义运算函数(*)使用PigLatin语句分析和处理数据(*)Pig的自定义加载函数

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(8)Hive

    11节 4小时4分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。课程说明==========================================================================Hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。    它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 HQL (类 SQL )语言对这些数据进行自动化管理和处理。我们可以把 Hive 中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在 HDFS 中的。 Hive 经过对语句进行解析和转换,最终生成一系列基于 hadoop 的 map/reduce 任务,通过执行这些任务完成数据处理。Hive 诞生于 facebook 的日志分析需求,面对海量的结构化数据, Hive 以较低的成本完成了以往需要大规模数据库才能完成的任务,并且学习门槛相对较低,应用开发灵活而高效。赵强老师博客地址:http://collen7788.blog.51cto.com/赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布本门课程课程大纲==========================================================================(*)数据分析引擎和Hive简介(*)Hive的体系结构(*)搭建Hive的嵌入模式(*)搭建Hive的远程模式(*)Hive的内部表(*)Hive的分区表(*)Hive的外部表(*)Hive的桶表和视图(*)Hive的查询(*)Hive的Java客户端(*)Hive的自定义函数

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(7)HBase

    10节 4小时16分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================HBase是Apache Hadoop的数据库,能够对大数据提供随机、实时的读写访问功能,HBase是Bigtable的开源山寨版本,是建立在HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统.HBase存储的是松散型的数据,它介于Nosql和RDBMS之间,仅通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作).主要用来存储非结构化和半结构化的松散数据,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力,但与hadoop相比,Hbase所要求的服务器性能要比hadoop的高。HBase的服务器体系结构遵从简单的主从服务器架构,它由HRegion服务器(HRegion Server)和HMaster 服务器组成。HMaster负责管理所有的HRegion服务器,而HBase中的所有的服务器都是通过zookeeper来进行协调并处理HBase服务器运行期间可能遇到的错误。HBase Master并不存储HBase中的任何数据.HBase逻辑上的表可能会被划分成多个HRegion,然后存储到HRegion服务器中,HBase Master服务器中存储的是从数据到HRegion 服务器的映射。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布本门课程课程大纲==========================================================================(*)NoSQL数据库简介(*)HBase的表结构和体系结构(*)搭建HBase的本地模式和伪分布模式(*)搭建HBase的全分布环境和HA(*)HBase在ZK中保存的数据和HA(*)通过命令行操作HBase(*)通过JAVA API操作HBase(*)HBase数据保存的过程和Region的分裂(*)HBase的过滤器(*)HBase上的MapReduce

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(6)MapReduce

    24节 9小时23分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================MapReduce定义:========================================================================MapReduce是一种可用于数据处理的编程框架。MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。在分布式计算中,MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:map和reduce,map负责把任务分解成多个任务,reduce负责把分解后多任务处理的结果汇总起来。MapReduce适用的问题:========================================================================用MapReduce来处理的数据集(或任务)必须具备这样的特点:待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。MapReduce框架中的名词解释:========================================================================(*)split:分片是指MapReduce框架将数据源根据一定的规则将源数据分成若干个小数据的过程;其中,一个小数据集,也被称为一个分片。(*)Map:Map有两层含义:其一、是指MapReduce框架中的Map过程,即将一个分片根据用户定义的Map逻辑处理后,经由MapReduce框架处理,形成输出结果,供后续Reduce过程使用;其二,是指用户定义Java程序实现Mapper类的map接口的用户自定义逻辑,此时通常被称为mapper。(*)Reduce:Reduce也有两层含义:其一,是指MapReduce框架中的Reduce过程,即将Map的结果作为输入,根据用户定义的Reduce逻辑,将结果处理并汇总,输出最后的结果;其二,是指用户定义Java程序实现Reducer类的reduce接口的用户自定义逻辑,此时通常被称为reducer。(*)Combine:Combine是一个可由用户自定的过程,类似于Map和Reduce,MapReduce框架会在Map和Reduce过程中间调用Combine逻辑(会在下面章节中仔细讲解),通常Combine和reduce的用户代码是一样的(也可被称为本地的reduce过程),但是请注意并不是所有用MapReduce框架实现的算法都适合增加Combine过程(比如求平均值)。(*)Partition:在MapReduce框架中一个split对应一个map,一个partiton对应一个reduce(无partition指定时,由用户配置项指定,默认为1个)。 reduce的个数决定了输出文件的个数。比如,在需求中,数据是从对每个省汇总而成,要求计算结果按照省来存放,则需要根据源数据中的表明省的字段分区,用户自定义partition类,进行分区。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布本门课程课程大纲==========================================================================一、课程概述       1、MapReduce课程概述二、MapReduce编程基础      2、案例分析:WordCount数据处理的过程      3、开发自己的WordCount程序      4、案例分析:求每个部门的工资总额      5、开发MapReduce程序实现求部门的工资总额三、MapReduce的特性一:序列化      6、Hadoop的序列化机制      7、在MapReduce程序中使用序列化四、MapReduce的特性二:排序      8、数字的排序      9、字符串的排序      10、对象的排序五、MapReduce的特性三:分区和合并      11、什么是分区      12、分区案例:根据部门号建立分区      13、什么是Combiner六、MapReduce的核心:Shuffle      14、 什么是Shuffle(洗牌)?七、MapReduce编程案例     15、编程案例一:数据去重     16、知识回顾:关系型数据库中的多表查询     17、编程案例二:分析等值连接的数据处理流程     18、编程案例二:实现等值连接的数据处理流程     19、编程案例三:分析自连接的数据处理流程     20、编程案例三:实现自连接的数据处理流程     21、案例四:分析倒排索引的数据处理过程     22、案例四:编程实现倒排索引     23、案例五:使用MRUnit进行单元测试八、第一个阶段小结     24、第一个阶段小结

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(5)HDFS

    16节 5小时35分钟
    课程目标:
    RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/HDFS是什么?==========================================================================HADOOP DISTRIBUTED FILE SYSTEM,简称HDFS,是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高度的容错性,而且提供了高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。 HDFS的设计思路?==========================================================================是什么提供它高吞吐量的数据访问和适合大规模数据集的应用的特性呢,这就要说一下它的设计思路。首先HDFS的设计之初就是针对超大文件的存储的,小文件不会提高访问和存储速度,反而会降低;其次它采用了**效的访问模式,也就是经常所说的流式数据访问,特点就是一次写入多次读取;再有就是它运行在普通的硬件之上的,即使硬件故障,也就通过容错来保证数据的高可用。 HDFS的一些概念==========================================================================Block:大文件的存储会被分割为多个block进行存储。默认为64MB,每一个blok会在多个datanode上存储多份副本,默认为3份。[这些设置都能够通过配置文件进行更改]Namenode:主要负责存储一些metadata信息,主要包括文件目录、block和文件对应关系,以及block和datanote的对应关系Datanode:负责存储数据,上面我们所说的高度的容错性大部分在datanode上实现的[还有一部分容错性是体现在namenode和secondname,还有jobtracker的容错等]。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布本门课程课程大纲==========================================================================一、HDFS概述1、HDFS课程概述二、操作HDFS2、通过Web Console操作HDFS3、通过命令行操作HDFS4、使用Java API创建目录和权限问题5、使用Java API上传和下载数据6、使用Java API获取文件信息三、HDFS的原理剖析7、HDFS上传数据的过程和原理8、HDFS下载数据的过程和原理四、HDFS的高级功能9、HDFS的回收站10、HDFS的快照11、HDFS的安全模式和权限12、HDFS的配额13、HDFS的集群简介五、HDFS的底层原理14、HDFS底层原理之一:代理对象15、代理对象应用案例:实现数据库连接池16、HDFS底层原理之二:什么是RPC?

    课程大纲

    免费试看

  • 赵强老师:大数据系列课程(新版)(4)Hadoop的体系结构

    8节 1小时38分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:(*)HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平扩展能力和可用性;(*)MapReduce将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为YARN(Yet Another Resource Negotiator)。具体如下:(*)HDFS的变化 - 增强了NameNode的水平扩展及可用性在2.X中,HDFS的变化,主要体现在增强了NameNode的水平扩展及可用性,可以同时部署多个NameNode,这些NameNodes之间是相互独立,也就是说他们不需要相互协调,DataNode同时在所有NameNodes注册,做为他们共有的存储节点,并向定时向所有的这些NameNodes发送心跳块使用情况的报告,并处理所有NameNodes向其发送的指令。(*)MapReduce拆分JobTracker为资源管理及任务生命周期管理两个独立的组件MapReduce在Hadoop2中称为MR2或YARN,将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的服务,用于管理全部资源的ResourceManager以及管理每个应用的ApplicationMaster,ResourceManager用于管理向应用程序分配计算资源,每个ApplicationMaster用于管理应用程序、调度以及协调。一个应用程序可以是经典的MapReduce架构中的一个单独的任务,也可以是这些任务的一个DAG(有向无环图)任务。ResourceManager及每台机上的NodeManager服务,用于管理那台机的用户进程,形成计算架构。每个应用程序的ApplicationMaster实际上是一个框架具体库,并负责从ResourceManager中协调资源及与NodeManager(s)协作执行并监控任务。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布本门课程课程大纲==========================================================================(1)Hadoop体系结构概述(2)HDFS的体系结构     1、名称节点:NameNode23:31     2、数据节点:DataNode     3、第二名称节点:SecondaryNameNode(3)Yarn的体系结构     4、Yarn的体系结构和任务的调度     5、Yarn的资源分配方式(4)HBase体系结构概述     6、HBase的体系结构简介(5)主从结构的单点故障     7、主从结构的单点故障问题及解决方案

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(12)集群HA

    10节 4小时19分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================什么是HA?在Hadoop2.0之前,namenode只有一个,存在单点问题(虽然hadoop1.0有secondarynamenode,checkpointnode,buckcupnode这些,但是单点问题依然存在),在hadoop2.0引入了HA机制。hadoop2.0的HA机制官方介绍了有2种方式,一种是NFS(Network File System)方式,另外一种是QJM(Quorum Journal Manager)方式。Hadoop2.0的HA 机制有两个namenode,一个是active namenode,状态是active;另外一个是standby namenode,状态是standby。两者的状态是可以切换的,但不能同时两个都是active状态,最多只有1个是active状态。只有active namenode提供对外的服务,standby namenode是不对外服务的。active namenode和standby namenode之间通过NFS或者JN(journalnode,QJM方式)来同步数据。什么是联盟?HDFS Federation使用了多个独立的Namenode/namespace来使得HDFS的命名服务能够水平扩展。在HDFS Federation中的Namenode之间是联盟关系,他们之间相互独立且不需要相互协调。HDFS Federation中的Namenode提供了提供了命名空间和块管理功能。HDFS Federation中的datanode被所有的Namenode用作公共存储块的地方。每一个datanode都会向所在集群中所有的Namenode注册,并且会周期性的发送心跳和块信息报告,同时处理来自Namenode的指令。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

查看更多课程

第三阶段:  Storm实时计算框架

3门课程 10小时37分钟

Storm实时计算框架,包含:MemCached、Redis和Apache Storm

  • 赵强老师:大数据系列视频课程(新版)(13)MemCached

    6节 2小时3分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Memcached是一款开源、高性能、分布式内存对象缓存系统,可应用各种需要缓存的场景,其主要目的是通过降低对Database的访问来加速web应用程序。它是一个基于内存的“键值对”存储,用于存储数据库调用、API调用或页面引用结果的直接数据,如字符串、对象等。Memcached是以LiveJournal旗下Danga Interactive 公司的Brad Fitzpatric 为首开发的一款软件。现在已成为mixi、hatena、Facebook、Vox、LiveJournal等众多服务中提高Web应用扩展性的重要因素。许多Web应用都将数据保存到RDBMS(关系型数据库管理系统)中,应用服务器从中读取数据并在浏览器中显示。 但随着数据量的增大、访问的集中,就会出现RDBMS的负担加重、数据库响应恶化、 网站显示延迟等重大影响。这时就该Memcached大显身手了。Memcached是高性能的分布式内存缓存服务器。 一般的使用目的是,通过缓存数据库查询结果,减少数据库访问次数,以提高动态Web应用的速度、 提高可扩展性。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(14)Redis

    11节 3小时40分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Redis简介Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。Redis 与其他 key - value 缓存产品有以下三个特点:(*)Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。(*)Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。(*)Redis支持数据的备份,即master-slave模式的数据备份。Redis 优势(*)性能极高 – Redis能读的速度是110000次/s,写的速度是81000次/s 。(*)丰富的数据类型 – Redis支持二进制案例的 Strings, Lists, Hashes, Sets 及 Ordered Sets 数据类型操作。(*)原子 – Redis的所有操作都是原子性的,意思就是要么成功执行要么失败完全不执行。(*)丰富的特性 – Redis还支持 publish/subscribe, 通知, key 过期等等特性。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(15)Storm

    15节 4小时53分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Apache Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt, bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有**的摄取率。虽然Storm是无状态的,它通过Apache ZooKeeper管理分布式环境和集群状态。它很简单,您可以并行地对实时数据执行各种操作。Apache Storm继续成为实时数据分析的**。Storm易于设置和操作,并且它保证每个消息将通过拓扑至少处理一次。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

第四阶段:  Spark生态体系结构

8门课程 26小时38分钟

Spark生态体系结构,包含:Scala编程语言、Spark Core、Spark SQL、Spark Streaming等等

  • 赵强老师:大数据系列视频课程(新版)(16)Scala语言基础

    10节 3小时29分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala有几项关键特性表明了它的面向对象的本质。例如,Scala中的每个值都是一个对象,包括基本数据类型(即布尔值、数字等)在内,连函数也是对象。另外,类可以被子类化,而且Scala还提供了基于mixin的组合(mixin-based composition)。与只支持单继承的语言相比,Scala具有更广泛意义上的类重用。Scala允许定义新类的时候重用“一个类中新增的成员定义(即相较于其父类的差异之处)”。Scala称之为mixin类组合。Scala还包含了若干函数式语言的关键概念,包括高阶函数(Higher-Order Function)、局部套用(Currying)、嵌套函数(Nested Function)、序列解读(Sequence Comprehensions)等等。Scala是静态类型的,这就允许它提供泛型类、内部类、甚至多态方法(Polymorphic Method)。另外值得一提的是,Scala被特意设计成能够与Java和.NET互操作。Scala当前版本还不能在.NET上运行(虽然上一版可以-_-b),但按照计划将来可以在.NET上运行。Scala可以与Java互操作。它用scalac这个编译器把源文件编译成Java的class文件(即在JVM上运行的字节码)。你可以从Scala中调用所有的Java类库,也同样可以从Java应用程序中调用Scala的代码。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(17)Scala面向对象

    11节 2小时
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala有几项关键特性表明了它的面向对象的本质。例如,Scala中的每个值都是一个对象,包括基本数据类型(即布尔值、数字等)在内,连函数也是对象。另外,类可以被子类化,而且Scala还提供了基于mixin的组合(mixin-based composition)。与只支持单继承的语言相比,Scala具有更广泛意义上的类重用。Scala允许定义新类的时候重用“一个类中新增的成员定义(即相较于其父类的差异之处)”。Scala称之为mixin类组合。Scala还包含了若干函数式语言的关键概念,包括高阶函数(Higher-Order Function)、局部套用(Currying)、嵌套函数(Nested Function)、序列解读(Sequence Comprehensions)等等。Scala是静态类型的,这就允许它提供泛型类、内部类、甚至多态方法(Polymorphic Method)。另外值得一提的是,Scala被特意设计成能够与Java和.NET互操作。Scala当前版本还不能在.NET上运行(虽然上一版可以-_-b),但按照计划将来可以在.NET上运行。Scala可以与Java互操作。它用scalac这个编译器把源文件编译成Java的class文件(即在JVM上运行的字节码)。你可以从Scala中调用所有的Java类库,也同样可以从Java应用程序中调用Scala的代码。=========================================================================赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(18)Scala函数式编程

    18节 4小时8分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala有几项关键特性表明了它的面向对象的本质。例如,Scala中的每个值都是一个对象,包括基本数据类型(即布尔值、数字等)在内,连函数也是对象。另外,类可以被子类化,而且Scala还提供了基于mixin的组合(mixin-based composition)。与只支持单继承的语言相比,Scala具有更广泛意义上的类重用。Scala允许定义新类的时候重用“一个类中新增的成员定义(即相较于其父类的差异之处)”。Scala称之为mixin类组合。Scala还包含了若干函数式语言的关键概念,包括高阶函数(Higher-Order Function)、局部套用(Currying)、嵌套函数(Nested Function)、序列解读(Sequence Comprehensions)等等。Scala是静态类型的,这就允许它提供泛型类、内部类、甚至多态方法(Polymorphic Method)。另外值得一提的是,Scala被特意设计成能够与Java和.NET互操作。Scala当前版本还不能在.NET上运行(虽然上一版可以-_-b),但按照计划将来可以在.NET上运行。Scala可以与Java互操作。它用scalac这个编译器把源文件编译成Java的class文件(即在JVM上运行的字节码)。你可以从Scala中调用所有的Java类库,也同样可以从Java应用程序中调用Scala的代码。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(19)Spark的体系结构

    12节 3小时50分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(20)Spark RDD

    15节 4小时22分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(21)Spark SQL

    18节 3小时23分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(22)Spark Streaming

    14节 4小时4分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

  • 赵强老师:大数据系列视频课程(新版)(23)配置 Hive on Spark

    7节 1小时19分钟
    课程目标:
    本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。赵强老师博客地址:http://collen7788.blog.51cto.com/课程说明==========================================================================Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。赵强老师:大数据系列视频课程==========================================================================1、Hadoop大数据迅速掌握高级应用系列套餐      https://edu.51cto.com/topic/1155.html     2、Spark 2系列课程视频套餐      https://edu.51cto.com/topic/1258.html 3、大数据消息(Kafka)与实时处理(Storm)系统系列套餐      https://edu.51cto.com/topic/1003.html 4、NoSQL 数据库实战系列视频课程专题(上)      https://edu.51cto.com/topic/955.html 5、NoSQL 数据库实战系列视频课程专题(下)      即将发布

    课程大纲

    免费试看

资料下载

课程名称 操作
赵强老师:大数据系列课程(新版)(1)Linux基础 付费用户专享
赵强老师:大数据系列课程(新版)(2)背景知识与起源 付费用户专享
赵强老师:大数据系列课程(新版)(3)搭建Hadoop环境 付费用户专享
赵强老师:大数据系列视频课程(新版)(11)HUE 付费用户专享
赵强老师:大数据系列视频课程(新版)(10)Sqoop & Flume 付费用户专享
赵强老师:大数据系列视频课程(新版)(9)Pig 付费用户专享
赵强老师:大数据系列视频课程(新版)(8)Hive 付费用户专享
赵强老师:大数据系列视频课程(新版)(7)HBase 付费用户专享
赵强老师:大数据系列视频课程(新版)(6)MapReduce 付费用户专享
赵强老师:大数据系列视频课程(新版)(5)HDFS 付费用户专享
赵强老师:大数据系列课程(新版)(4)Hadoop的体系结构 付费用户专享
赵强老师:大数据系列视频课程(新版)(12)集群HA 付费用户专享
赵强老师:大数据系列视频课程(新版)(13)MemCached 付费用户专享
赵强老师:大数据系列视频课程(新版)(14)Redis 付费用户专享
赵强老师:大数据系列视频课程(新版)(15)Storm 付费用户专享
赵强老师:大数据系列视频课程(新版)(16)Scala语言基础 付费用户专享
赵强老师:大数据系列视频课程(新版)(17)Scala面向对象 付费用户专享
赵强老师:大数据系列视频课程(新版)(18)Scala函数式编程 付费用户专享
赵强老师:大数据系列视频课程(新版)(19)Spark的体系结构 付费用户专享
赵强老师:大数据系列视频课程(新版)(20)Spark RDD 付费用户专享
赵强老师:大数据系列视频课程(新版)(21)Spark SQL 付费用户专享
赵强老师:大数据系列视频课程(新版)(22)Spark Streaming 付费用户专享
赵强老师:大数据系列视频课程(新版)(23)配置 Hive on Spark 付费用户专享

赵强老师:大数据系列视频课程(新版)

¥2359.00 ¥1884.33
在线
客服
在线
客服

下载Android客户端

下载iphone 客户端

关注官方微信

返回
顶部