Spark开发核心技能进阶宝典

首发

下载课程

下载学院APP

缓存视频离线看

收藏(20)

Spark开发核心技能进阶宝典

适用人群: 大数据开发、分析方向已学过引导、基础课的学员

共34课时 共20小时54分钟 更新时间:2018-05-05

价  格

¥199

优惠活动

会员95折,立省10元

2424小时内答疑

课时永久观看

退15分钟内无条件退款

  1. 仅限付费视频课程适用
  2. 购买后15分钟内可以找到客服进行沟通退款
  3. 退款将返还至51CTO学院账户,不支持提现
  4. 下载资料后不再享有退款特权
  5. 客服(Tel:400-101-1651)
  6. 最终解释权归51CTO学院所有

APP缓存听课

PC倍速播放

专属资料下载

  •  

    专题1 | 大数据开发必知必会

1/1

课程介绍

课程大纲

学习资料

学员评价

课程目标
学完本课程的学员,可以具备企业大数据中级开发/分析岗位所要求的Spark能力。
适用人群
大数据开发、分析方向已学过引导、基础课的学员
课程简介
  • 什么是Spark

    简单介绍什么是Spark,其发展历史,怎样在自己的机器上运行Spark,以及这套课程配套的学习资料。

  • Spark入门

    介绍Spark的基础架构,几类不同的API,最后结合一个端到端的例子来演示Spark高层API的使用。

  • Spark工具集概览

    首先简单地了解一下怎样在生产环境运行Spark应用,其次来概览Spark中全部可用的工具集,包括高层的DataFrame、Dataset、Structured Streaming,低层的RDD,以及高级分析和机器学习API。

  • 结构化API概览

    简单介绍结构化API的核心概念,详细介绍结构化Spark类型、结构化API的执行机制。

  • 基础结构化操作

    介绍DataFrame以及与之相关的基础概念(模式、表等),接着介绍DataFrame上的各种变换。

  • 使用多种类型数据

    结合实例,来看结构化API中怎样操作各类数据(布尔型、数值、字符串、时间、复杂类型等),以及怎样编写用户定义函数来实现更复杂的操作。

  • 聚合

    介绍聚合的概念,结合实例学习结构化API中怎样使用聚合函数、分组、开窗函数、分组集、用户定义聚合函数。

  • 连接

    介绍连接的概念,结合实例学习Spark中支持的各种连接,阐述使用连接时的挑战,最后分析Spark执行连接的底层机制。

  • 数据源

    介绍数据源API的结构,结合实例学习Spark原生数据源的用法(CSV、JSON、Parquet等),一些高级I/O概念(分割、并行读取、分区、分桶等)。

  • Spark SQL

    介绍Spark SQL的一些基础知识(如何使用、与Hive的关系等),表、视图、数据库的概念和使用,SELECT语句的使用,一些高级主题(复杂类型、复杂函数、子查询等)。

  • 数据集

    介绍Dataset的基本概念及其使用场合,结合实例学习其创建、变换、分组和聚合的方法。

  • 弹性分布式数据集(RDD)

    介绍低层API和RDD的概念、用途,结合实例学习RDD的创建和各种操作。

  • 高级RDD

    结合实例介绍一些高级RDD操作,包括键-值RDD、聚合、连接、控制分区等。

  • 分布式共享变量

    介绍另一类低层API:分布式共享变量的概念和用法,结合实例学习广播变量和累加器这两种分布式共享变量。

  • Spark如何在集群上运行

    介绍Spark应用的基本架构(三大组成部分以及三种执行模式),介绍整个Spark应用生命周期发生了什么,并补充一些执行中的细节。

  • 开发Spark应用程序

    结合实例介绍怎样用Scala和Python语言编写Spark应用程序,介绍测试Spark的方法论,以及如何提交应用、配置应用。

  • 部署Spark

    讨论几个与部署Spark有关的话题,包括在哪里部署Spark集群,集群管理器的作用和配置,以及一些在部署中的杂项问题。

  • 监控和调试

    介绍与Spark集群和应用监控有关的话题,包括监控什么、怎么监控,并结合实际生产中会遇到的故障,介绍一些调试和急救的技巧。

  • 性能调优

    介绍Spark性能调优的方法,包括间接性能增强(设计选择、集群配置、静止数据处理等)和直接性能增强(并行性、改进过滤、重分区等)两部分。

  • 流处理基础

    概述什么是流处理,其适用领域及其优势和挑战,接着介绍常见流处理系统的设计要点,最后简要介绍Spark中两类不同的流处理API。

  • 结构化流基础

    介绍结构化流的基础知识,结合实例学习结构化流的实际操作,以及各种流上可用的变换、输入输出。

  • 事件时间和有状态处理

    介绍流处理中的事件时间和有状态处理两个核心概念,结合实例介绍在Spark结构化流中怎样使用事件时间和有状态处理。

  • 生产中的结构化流

    介绍结构化流用于生产时的几种辅助工具和技术,包括容错和检查点、更新应用程序、指标和监控、使用流监听器的高级监控。

  • 高级分析和机器学习概览

    简单概览Spark中的高级分析工具以及高级分析的通用过程,介绍Spark高级分析工具箱的核心概念,接着结合一个案例来进行一次MLlib的简单实战。

  • 预处理和特征工程

    介绍对机器学习数据进行预处理的方法,包括变换器和估值器、处理连续/分类特征、处理文本数据、特征工程等。

  • 分类

    介绍机器学习中分类的概念、应用、类别,MLlib中的各种分类模型(逻辑回归、决策树、随机森林、梯度提升树)。

  • 回归

    介绍机器学习中回归的概念、应用、类别,MLlib中的各种回归模型(线性回归、广义线性回归、保序回归等)。

  • 推荐

    介绍机器学习中推荐的概念、应用、类别,结合实例重点介绍协同过滤。

  • 无监督学习

    介绍机器学习中无监督学习的概念、应用、类别,MLlib中的各种无监督学习模型(k-means、二分k-means、GMM、LDA)。

  • 图分析

    介绍图的概念,Spark中两套不同图分析API,结合实例介绍GraphFrames下的各种图操作和图算法。

  • 深度学习

    介绍什么是神经网络、深度学习,Spark中使用深度学习的三种方式,可用的几种深度学习库,最后结合Deep Learning Pipelines库演示一个案例。

  • 语言细节-Python和R

    介绍Spark中怎样使用Python和R语言,包括PySpark、SparkR、sparklyr。

  • 生态与社区

    介绍怎样获取和使用Spark包、Spark的社区。

  • 课程配套资源

    课程源码和数据集见本讲附件。如果本站下载速度慢,也可自行下载:https://github.com/databricks/Spark-The-Definitive-Guide

加载中
所属章节 资料名称 文件大小 下载
相关资料推荐

暂时还没有学习资料~

综合评分

0人评价

好于0%的课程

暂无

课程与描述相符 5 非常满意

老师的讲解表达 5 非常满意

老师的答疑服务 5 非常满意

全部

好评 0

中评 0

差评 0

加载中
没有了哦~
你可能还感兴趣的课程

讲师介绍

马彦平

马彦平

好评率:100%

浙大研究生毕业,拥有CCAH、阿里云企业级互联网架构、信息系统项目管理师、PMP等十余项专业证书,4项国际/国内专利拥有者,数萌教育创始人。

官方交流群

51CTO学院大数据交流群 (553481374)

立即加入

259人学习过

推荐图书

7日学霸榜 有259人与你一起学习

课程介绍

课程大纲

学习资料

学员评价

¥199

课程评价

综合评价在4颗星及以上最高可获得35分奖励

Spark开发核心技能进阶宝典

该课程已有 人评价

课程与描述相符

老师的讲解表达

老师的答疑服务

匿名

注册登录免费享