【大数据 Hadoop生态 Spark 2.x 多案例】Spark SQL基础与提升【共19课时】

张敏新锐讲师讲师评分4.7学员730705课程29

就职于一线互联网大厂，负者大数据平台和数据仓库建设，在Spark内核方面有深入的研究，参与Scala基础入门，Spark内核及性能优化相关书籍部分内容的编写工作，在大数据领域有着丰富的实战经验。...

畅销套餐
精选套餐
人气套餐
尊享套餐
高薪套餐

Spark基础+SparkSql+Spark内核+流数据视频课程套餐

【大数据 Hadoop生态 Spark 2.x 多案例】Spark 2.x基础与提升

8185人学习

￥99.00

【大数据 Spark 2.x 流数据多案例】Spark Streaming流数据处理基础与提升

7152人学习

￥99.00

【大数据 Hadoop生态 Spark 2.x 多案例】Spark SQL基础与提升

2573人学习

￥99.00

更多 4 门课程

Spark基础+Spark中级数据处理+Spark内核分析视频课程套餐

【大数据 Hadoop生态 Spark 2.x 多案例】Spark 2.x基础与提升

8185人学习

￥99.00

【大数据 hadoop生态 Spark2.x】深入Spark2.x内核大数据

1970人学习

￥49.00

【大数据 Hadoop生态 Spark 2.x 多案例】Spark SQL基础与提升

Spark大数据处理及机器学习【基于Python的Spark 2.3**版】

71545人学习

￥399.00

Python3科学计算库Numpy入门视频课程

2350人学习

￥29.00

Python3数据处理Pandas入门视频课程

4089人学习

￥29.00

更多 4 门课程

GoldenGate+ETL/Kettle专题（92个项目）

GoldenGate数据库容灾迁移01（OGG同构异构、数据库迁移、数据同步、容灾复制）

162101人学习

￥998.00

GoldenGate数据库容灾迁移02（OGG同构异构、数据库迁移、数据同步、容灾复制）

42391人学习

￥889.00

GoldenGate数据库容灾迁移03（OGG同构异构、数据库迁移、数据同步、容灾复制）

22376人学习

￥889.00

更多 7 门课程

GoldenGate+ETL/Kettle专题（92个项目）

GoldenGate数据库容灾迁移01（OGG同构异构、数据库迁移、数据同步、容灾复制）

162101人学习

￥998.00

GoldenGate数据库容灾迁移02（OGG同构异构、数据库迁移、数据同步、容灾复制）

42391人学习

￥889.00

GoldenGate数据库容灾迁移03（OGG同构异构、数据库迁移、数据同步、容灾复制）

22376人学习

￥889.00

更多 7 门课程

课程介绍
课程大纲

适合人群：

从事大数据研发、刚毕业的想从事大数据工作的学生及在校的学生。想转行大数据的开发人员。

你将会学到：

SparkSql提供了一种强大的类Sql操作的数据分析方式，目前SparkSql是大数据企业用得最多的Spark组件之一，熟练使用SparkSql进行大数据分析，是进入大数据公司工作的技能！

课程简介：

SparkSql中级数据处理课程，主要是教会大家使用SparkSql大数据分析引擎分析数据，它作为一个分布式的基于内存计算的类Sql分析引擎，为为数据分析人员提供了方便且透明的处理大数据的方法，因此学习了SparkSql，你可以对大数据分析勇敢的说YES!

展开更多

课程大纲-【大数据 Hadoop生态 Spark 2.x 多案例】Spark SQL基础与提升

1
SparkSql概述及发展史从第一个sql on hadoop数据分析引擎hive的出现，到后来为解决查询效率而出现的shark，到spark开发团队抛弃shark转而全力开发sparksql，以及后来独立发展的hive on spark项目。技术在发展，在不断的更新，新的技术在不断的出现。这一节课主要讲述SparkSql的发展史
「仅限付费用户」点击下载“SparkSql.pptx”
[20:37]开始学习
2
【实战】SparkSql2.0结果保存为CSV文件SparkSql可以将分析的结果保存到外部文件，这节课主要讲解使用SparkSql分析数据，将结果保存到HDFS上的csv文件中
[14:22]开始学习
3
【实战】SparkSql保存结果为json文件SparkSql将分析的结果保存到json这种标准的javascript对象中，其优势直接可以使用javascript脚本语言读取json文件内容做相应的处理
[06:27]开始学习
4
【实战】SparkSql保存结果为parquet文件SparkSql将分析的结果保存为parquet文件，parquet文件格式是一种列式存储的文件格式，并且自带压缩，默认的压缩采用snappy，因此可以极大的降低磁盘存储空间，且其列式存储方便数据的读取，提升读取数据的效率。parquet文件格式是公司生产环境中使用最广泛的存储格式。
[11:43]开始学习
5
【实战】SparkSql保存结果到hdfs的text文件用时候为了方便，我们通常将数据以文本的形式直接存储在分布式文件系统HDFS中，在SparkSql中提供了text方法，数据分析的结果直接以text文本形式写到文件中
[11:12]开始学习
6
【实战】Sparksql保存结果到关系型数据库mysql有时候数据分析计算的结果需要保存到关系型数据库如mysql中，供其他的业务部门读取使用。例如直接从mysql数据库中读取处理好的数据来制作报表等。SprakSql中通过jdbc方法这个接口将分析的结果写入mysql中
[21:06]开始学习
7
【实战】SparkSql读取CSV文件创建dataframeSparkSql可以将分析结果保存到csv文件中，自然也能够从csv文件中读取文件的内容形成dataframe，并且可以基于dataframe注册成临时的视图，在视图上做sql操作。
[12:08]开始学习
8
【实战】SparkSql读取json文件创建dataframSparkSql可以将结果保存为json文件自然也可以从json文件读取内容来生成dataframe对象，并且基于dataframe对象可以做sql操作。注意在读json文件的时候不需要指定option("header"，true),因为json自带属性信息，这些信息会被作为schema读取到dataframe中，但默认的类型是string类型
[09:25]开始学习
9
【实战】SparkSql使用RDD创建dataframe和视在数据分析的过程中，有时候会遇到这样一种处理场景：需要将RDD转换为dataframe，因为dataframe这样一种高层的API上有更丰富的算子操作，例如保存为csv，json,关系型数据库的接口，因此会涉及到RDD转换为dataframe的场景，这节课主要讲解使用RDD来创建dataframe和视图
[11:06]开始学习
10
【实战】SparkSql读取HDFS文本文件创建datafr有时候我们需要使用存储在HDFS上的纯文本文件来创建dataframe做数据分析，但是要知道,纯文本文件是没有shcema信息的，那怎样才能创建dataframe呢？答案是自己构建schema，再加上读取文件形成的RDD,就形成dataframe。我们需要使用StructFiled创建字段信息，使用StructType创建schema信息。最后使用sparkSession上的createDataFrame创建dataframe
[15:38]开始学习
11
【实战】SparkSql读取Parquet文件创建dataf在企业生产环境中，使用最多的保存格式是parquet，因为其列式存储且自带压缩。不但节约了存储空间，还提高了读取数据的速度。parquet文件中带有schema信息和类型信息，因此我们不必指定option("header",true)
[07:37]开始学习
12
【实战】SparkSql读取关系型数据库数据创建datafr在比较传统的公司，有大量的数据是存放在关系型数据库中的，我们要对存放在关系型数据库中的数据作分析，需要加载关系型数据中的数据。SparkSql通过jdbc方法可以从关系型数据库中读取记录进行数据分析。
「仅限付费用户」点击下载“pom.zip”
[05:17]开始学习
13
【实战】SparkSql读取Hive表数据_Hive环境安装从SparkSql的发展史可以看到，Shark最初从Hive发展而来，以此发展到最后SparkSql是兼容hive的，就是说在SparkSql中可以直接访问HIve的表，并且直接通过sql语句操作hive中的表，这节课我们先讲解hive的安装配置
[20:14]开始学习
14
【实战】SparkSql共享Hive元数据配置SparkSql要共享Hive的元数据，那得让SparkSql知道Hive的元数据存放在哪个地方，因此需要配置。配置需要在Spark根目录下的conf目录中加入hvie-site.xml文件。
[29:58]开始学习
15
【实战】SparkSql读取Hive表数据创建datafraSparkSql共享了Hive的表之后，那我们尝试在SparkSql中读取Hive表来进行数据分析，创建视图。。。
[07:20]开始学习
16
【实战】SparkSql中的UDF用户自定义函数写过sql语句的人都知道，sql中要对字符串，日期进行处理，有专门的函数，这些函数是内置的函数，那可不可以自定义函数进行处理呢？答案是,YES!,我们通过实现UDF就可以做到，前提是需要在sparksession的Udf的register方法进行注册.......
[08:43]开始学习
17
【实战】SparkSql常见的API使用SparkSql是基于dataframe实现的类sql处理引擎，它上面的接口比rdd可要多得多，那我么如何探索并且使用这些接口来处理业务呢？一个简单的方法是打开spark-shell，在交互式命令窗口中通过双击TAB键会智能的提示。。。。。
[23:01]开始学习
18
【实战】SparkSql实战之分析PM2.5数据_上学了这么多，是该给自己一个交代了，那这一节我们通过一个开源的数据。chengdu2016年的pm2.5数据来做分析。统计分析2016年成都pm2.5的分布情况及平均值情况......故事刚刚开始
[39:34]开始学习
19
【实战】SparkSql实战之pm25数据分析_下pm2.5分析就要完成了，新鲜空气即将到来，下期我们将讲解sparkstreaming流式处理.........
「仅限付费用户」点击下载“Project.zip”
[09:32]开始学习