Python实战大数据hadoop.spark

掌握Python实战大数据hadoop.spark

445人学习

初级38课时2022/04/04更新

二维码下载学堂APP缓存视频离线看

水木未名
    • 畅销套餐
    • 精选套餐
    • 人气套餐
    • 尊享套餐
    • 高薪套餐
Python全栈大数据工程师之路
Python进阶
52937人学习
¥998.00
PythonWeb开发前端实战
675人学习
¥999.00
PythonGUI图形界面编程
425人学习
¥999.00
更 多 9 门 课 程
GoldenGate+ETL/Kettle专题(92个项目)
GoldenGate数据库容灾迁移01(OGG同构异构、数据库迁移、数据同步、容灾复制)
161470人学习
¥998.00
GoldenGate数据库容灾迁移02(OGG同构异构、数据库迁移、数据同步、容灾复制)
42385人学习
¥889.00
GoldenGate数据库容灾迁移03(OGG同构异构、数据库迁移、数据同步、容灾复制)
22303人学习
¥889.00
更 多 7 门 课 程
大数据运维架构师实战培训专题2.0
大数据运维架构师培训(1):Hadoop集群(HDFS,MR,Yarn),Zookeeper集群
78029人学习
¥499.00
大数据运维架构师培训(2):Hbase,Hive, Phoenix,Pig,Impala,Kudu
30778人学习
¥333.00
大数据运维架构师培训(3):Spark,Flink, Storm,Kafka,Solr
29651人学习
¥399.00
更 多 12 门 课 程
赵强-大数据课程之从Hadoop到Spark专题
赵渝强老师:Hadoop 2.x(一) 大数据基础实战视频课程
67213人学习
¥279.00
赵渝强老师:Spark系列视频课程之一:Scala编程语言视频课程
19759人学习
¥179.00
赵渝强老师:Spark 2系列视频课程之二:Spark Core
14650人学习
¥279.00
更 多 11 门 课 程
赵强-大数据课程之从Hadoop到Spark专题
赵渝强老师:Hadoop 2.x(一) 大数据基础实战视频课程
67213人学习
¥279.00
赵渝强老师:Spark系列视频课程之一:Scala编程语言视频课程
19759人学习
¥179.00
赵渝强老师:Spark 2系列视频课程之二:Spark Core
14650人学习
¥279.00
更 多 11 门 课 程
  • 课程介绍
  • 课程大纲

适合人群:

希望掌握hadoop与spark基于python开发的人们

你将会学到:

掌握Python实战大数据hadoop.spark

课程简介:

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFSMapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。


Hadoop是一个能够对大量数据进行分布式处理软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理 

Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理  

Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度 

Hadoop 还是可伸缩的,能够处理 PB 级数据  

此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用 

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点 

1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖 

2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中 [4]  

3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快 

4.高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配 

5.低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低  

Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++ 



Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

  • 更快的速度

内存计算下,Spark 比 Hadoop 快100倍。

  • 易用性

Spark 提供了80多个高级运算符。

  • 通用性

Spark 提供了大量的库,包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。 开发者可以在同一个应用程序中无缝组合使用这些库。

  • 支持多种资源管理器

Spark 支持 Hadoop YARN,Apache Mesos,及其自带的独立集群管理器

  • Spark生态系统

  • Shark:Shark基本上就是在Spark的框架基础上提供和Hive一样的HiveQL命令接口,为了zui大程度的保持和Hive的兼容性,Spark使用了Hive的API来实现query Parsing和 Logic Plan generation,最后的PhysicalPlan execution阶段用Spark代替HadoopMapReduce。通过配置Shark参数,Shark可以自动在内存中缓存特定的RDD,实现数据重用,进而加快特定数据集的检索。同时,Shark通过UDF用户自定义函数实现特定的数据分析学习算法,使得SQL数据查询和运算分析能结合在一起,zui大化RDD的重复使用。

  • SparkR:SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构,解决了 R中的data frame只能在单机中使用的瓶颈,它和R中的data frame 一样支持许多操作,比如select,filter,aggregate等等。(类似dplyr包中的功能)这很好的解决了R的大数据级瓶颈问题。 SparkR也支持分布式的机器学习算法,比如使用MLib机器学习库。 SparkR为Spark引入了R语言社区的活力,吸引了大量的数据科学家开始在Spark平台上直接开始数据分析之旅。



展开更多

课程大纲-Python实战大数据hadoop.spark

展开更多

“水木未名”老师的其他课程更多+

在线
客服
APP
下载

下载Android客户端

下载iphone 客户端

官方
微信

关注官方微信

返回
顶部