Python实战大数据hadoop.spark【共38课时】_大数据系统课程-51CTO学堂

水木未名金牌讲师讲师评分5.0学员163137课程200

北京水木未名教育科技有限公司致力于IT计算机教育，2015年进入开始进入在线教育行业，为业界知名培训公司，总部位于北京，拥有学员数量300万人人，为了更好的推广计算机编程教育，云集清华北大...

畅销套餐
精选套餐
人气套餐
尊享套餐
高薪套餐

GoldenGate+ETL/Kettle专题（92个项目）

GoldenGate数据库容灾迁移01（OGG同构异构、数据库迁移、数据同步、容灾复制）

192548人学习

￥998.00

GoldenGate数据库容灾迁移02（OGG同构异构、数据库迁移、数据同步、容灾复制）

48215人学习

￥889.00

GoldenGate数据库容灾迁移03（OGG同构异构、数据库迁移、数据同步、容灾复制）

大数据运维架构师培训（1）：Hadoop集群（HDFS,MR,Yarn）,Zookeeper集群

85144人学习

￥499.00

大数据运维架构师培训（2）：Hbase,Hive, Phoenix,Pig,Impala,Kudu

33582人学习

￥333.00

大数据运维架构师培训（3）：Spark,Flink, Storm,Kafka,Solr

33507人学习

￥399.00

更多 12 门课程

大数据运维工程师培训实战专题1.0（Hadoop生态圈）

大数据运维架构师培训（1）：Hadoop集群（HDFS,MR,Yarn）,Zookeeper集群

85144人学习

￥499.00

大数据运维架构师培训（2）：Hbase,Hive, Phoenix,Pig,Impala,Kudu

33582人学习

￥333.00

大数据运维架构师培训（3）：Spark,Flink, Storm,Kafka,Solr

33507人学习

￥399.00

更多 5 门课程

赵强-大数据课程之从Hadoop到Spark专题

赵渝强老师：Hadoop 2.x（一）大数据基础实战视频课程

67716人学习

￥279.00

赵渝强老师：Spark系列视频课程之一：Scala编程语言视频课程

19759人学习

￥179.00

赵渝强老师：Spark 2系列视频课程之二：Spark Core

14650人学习

￥279.00

更多 11 门课程

赵强-大数据课程之从Hadoop到Spark专题

赵渝强老师：Hadoop 2.x（一）大数据基础实战视频课程

67716人学习

￥279.00

赵渝强老师：Spark系列视频课程之一：Scala编程语言视频课程

19759人学习

￥179.00

赵渝强老师：Spark 2系列视频课程之二：Spark Core

14650人学习

￥279.00

更多 11 门课程

课程介绍
课程大纲

适合人群：

希望掌握hadoop与spark基于python开发的人们

你将会学到：

掌握Python实战大数据hadoop.spark

课程简介：

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。

Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。

Hadoop 还是可伸缩的，能够处理 PB 级数据。

此外，Hadoop 依赖于社区服务，因此它的成本比较低，任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：

1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中 [4] 。

3.高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

4.高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

5.低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++ 。

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

更快的速度

内存计算下，Spark 比 Hadoop 快100倍。

易用性

Spark 提供了80多个高级运算符。

通用性

Spark 提供了大量的库，包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。开发者可以在同一个应用程序中无缝组合使用这些库。

支持多种资源管理器

Spark 支持 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器

Spark生态系统
Shark：Shark基本上就是在Spark的框架基础上提供和Hive一样的HiveQL命令接口，为了zui大程度的保持和Hive的兼容性，Spark使用了Hive的API来实现query Parsing和 Logic Plan generation，最后的PhysicalPlan execution阶段用Spark代替HadoopMapReduce。通过配置Shark参数，Shark可以自动在内存中缓存特定的RDD，实现数据重用，进而加快特定数据集的检索。同时，Shark通过UDF用户自定义函数实现特定的数据分析学习算法，使得SQL数据查询和运算分析能结合在一起，zui大化RDD的重复使用。
SparkR：SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构，解决了 R中的data frame只能在单机中使用的瓶颈，它和R中的data frame 一样支持许多操作，比如select,filter,aggregate等等。（类似dplyr包中的功能）这很好的解决了R的大数据级瓶颈问题。 SparkR也支持分布式的机器学习算法，比如使用MLib机器学习库。 SparkR为Spark引入了R语言社区的活力，吸引了大量的数据科学家开始在Spark平台上直接开始数据分析之旅。

展开更多

课程大纲-Python实战大数据hadoop.spark

第1章python大数据与hadoop中的mapreduce模型(2小时18分钟6节)
1-1
作业讲解与回顾
[16:56]开始学习
1-2
combiner
[26:32]开始学习
1-3
多级mapreduce的combiner
[38:48]开始学习
1-4
customer
[09:03]开始学习
1-5
marvel漫画分析
[28:55]开始学习
1-6
扩展
[18:41]开始学习
第2章python大数据hadoop实战(3小时9分钟10节)
2-1
hadoop介绍
[26:11]开始学习
2-2
hadoop HDFS
[10:56]开始学习
2-3
启动hadoop
[06:38]开始学习
2-4
mapreduce
[01:11:02]开始学习
2-5
在hadoop集群中运行
[02:05]开始学习
2-6
求zui低温度
[24:44]开始学习
2-7
friend
[12:37]开始学习
2-8
shuffle和sort补充
[05:11]开始学习
2-9
MRstep
[18:38]开始学习
2-10
MRstep求平均年薪
[11:13]开始学习
第3章python大数据智hadoop能推荐实战(2小时1分钟4节)
3-1
作业回顾
[15:51]开始学习
3-2
相似度
[38:54]开始学习
3-3
电影相似度项目
[56:35]开始学习
3-4
测试题
[09:56]开始学习

展开更多

“水木未名”老师的其他课程更多+

【线下课录制，介意勿拍！】Python数据分析与大数据
5.0水木未名
￥999.00
Python进阶
5.0水木未名
￥998.00
go语言基础实战
5.0水木未名
￥999.00
go高并发分布式与微服务
4.9水木未名
￥999.00
docker与k8s基于Golang深度实战
5.0水木未名
￥999.00
Go语言设计模式与追妹子
5.0水木未名
￥199.00
python信息安全实战
5.0水木未名
￥999.00
Go语言入门
4.8水木未名
￥999.00
docker部署实战
4.9水木未名
￥999.00
3小时熟悉Docker
5.0水木未名
￥299.00
Golang实战网站开发-beego博客实战
4.7水木未名
￥1999.00