【大数据 Hadoop生态 Spark 2.x 多案例】Spark SQL基础与提升

SparkSql提供了一种强大的类Sql操作的数据分析方式,目前SparkSql是大数据企业用得最多的Spark组件之一,熟练使用SparkSql进行大数据分析,是进入大数据公司工作的技能!

2573人学习

中级19课时2017/03/06更新

二维码下载学堂APP缓存视频离线看

张敏
    • 畅销套餐
    • 精选套餐
    • 人气套餐
    • 尊享套餐
    • 高薪套餐
  • 课程介绍
  • 课程大纲

适合人群:

从事大数据研发、刚毕业的想从事大数据工作的学生及在校的学生。想转行大数据的开发人员。

你将会学到:

SparkSql提供了一种强大的类Sql操作的数据分析方式,目前SparkSql是大数据企业用得最多的Spark组件之一,熟练使用SparkSql进行大数据分析,是进入大数据公司工作的技能!

课程简介:

SparkSql中级数据处理课程,主要是教会大家使用SparkSql大数据分析引擎分析数据,它作为一个分布式的基于内存计算的类Sql分析引擎,为为数据分析人员提供了方便且透明的处理大数据的方法,因此学习了SparkSql,你可以对大数据分析勇敢的说YES!

展开更多

课程大纲-【大数据 Hadoop生态 Spark 2.x 多案例】Spark SQL基础与提升

  • 1

    SparkSql概述及发展史从第一个sql on hadoop数据分析引擎hive的出现,到后来为解决查询效率而出现的shark,到spark开发团队抛弃shark转而全力开发sparksql,以及后来独立发展的hive on spark项目。技术在发展,在不断的更新,新的技术在不断的出现。这一节课主要讲述SparkSql的发展史

    「仅限付费用户」点击下载“SparkSql.pptx”

    [20:37]
  • 2

    【实战】SparkSql2.0结果保存为CSV文件SparkSql可以将分析的结果保存到外部文件,这节课主要讲解使用SparkSql分析数据,将结果保存到HDFS上的csv文件中

    [14:22]
  • 3

    【实战】SparkSql保存结果为json文件SparkSql将分析的结果保存到json这种标准的javascript对象中,其优势直接可以使用javascript脚本语言读取json文件内容做相应的处理

    [06:27]
  • 4

    【实战】SparkSql保存结果为parquet文件SparkSql将分析的结果保存为parquet文件,parquet文件格式是一种列式存储的文件格式,并且自带压缩,默认的压缩采用snappy,因此可以极大的降低磁盘存储空间,且其列式存储方便数据的读取,提升读取数据的效率。parquet文件格式是公司生产环境中使用最广泛的存储格式。

    [11:43]
  • 5

    【实战】SparkSql保存结果到hdfs的text文件用时候为了方便,我们通常将数据以文本的形式直接存储在分布式文件系统HDFS中,在SparkSql中提供了text方法,数据分析的结果直接以text文本形式写到文件中

    [11:12]
  • 6

    【实战】Sparksql保存结果到关系型数据库mysql有时候数据分析计算的结果需要保存到关系型数据库如mysql中,供其他的业务部门读取使用。例如直接从mysql数据库中读取处理好的数据来制作报表等。SprakSql中通过jdbc方法这个接口将分析的结果写入mysql中

    [21:06]
  • 7

    【实战】SparkSql读取CSV文件创建dataframeSparkSql可以将分析结果保存到csv文件中,自然也能够从csv文件中读取文件的内容形成dataframe,并且可以基于dataframe注册成临时的视图,在视图上做sql操作。

    [12:08]
  • 8

    【实战】SparkSql读取json文件创建dataframSparkSql可以将结果保存为json文件自然也可以从json文件读取内容来生成dataframe对象,并且基于dataframe对象可以做sql操作。注意在读json文件的时候不需要指定option("header",true),因为json自带属性信息,这些信息会被作为schema读取到dataframe中,但默认的类型是string类型

    [09:25]
  • 9

    【实战】SparkSql使用RDD创建dataframe和视在数据分析的过程中,有时候会遇到这样一种处理场景:需要将RDD转换为dataframe,因为dataframe这样一种高层的API上有更丰富的算子操作,例如保存为csv,json,关系型数据库的接口,因此会涉及到RDD转换为dataframe的场景,这节课主要讲解使用RDD来创建dataframe和视图

    [11:06]
  • 10

    【实战】SparkSql读取HDFS文本文件创建datafr有时候我们需要使用存储在HDFS上的纯文本文件来创建dataframe做数据分析,但是要知道,纯文本文件是没有shcema信息的,那怎样才能创建dataframe呢?答案是自己构建schema,再加上读取文件形成的RDD,就形成dataframe。我们需要使用StructFiled创建字段信息,使用StructType创建schema信息。最后使用sparkSession上的createDataFrame创建dataframe

    [15:38]
  • 11

    【实战】SparkSql读取Parquet文件创建dataf在企业生产环境中,使用最多的保存格式是parquet,因为其列式存储且自带压缩。不但节约了存储空间,还提高了读取数据的速度。parquet文件中带有schema信息和类型信息,因此我们不必指定option("header",true)

    [07:37]
  • 12

    【实战】SparkSql读取关系型数据库数据创建datafr在比较传统的公司,有大量的数据是存放在关系型数据库中的,我们要对存放在关系型数据库中的数据作分析,需要加载关系型数据中的数据。SparkSql通过jdbc方法可以从关系型数据库中读取记录进行数据分析。

    「仅限付费用户」点击下载“pom.zip”

    [05:17]
  • 13

    【实战】SparkSql读取Hive表数据_Hive环境安装从SparkSql的发展史可以看到,Shark最初从Hive发展而来,以此发展到最后SparkSql是兼容hive的,就是说在SparkSql中可以直接访问HIve的表,并且直接通过sql语句操作hive中的表,这节课我们先讲解hive的安装配置

    [20:14]
  • 14

    【实战】SparkSql共享Hive元数据配置SparkSql要共享Hive的元数据,那得让SparkSql知道Hive的元数据存放在哪个地方,因此需要配置。配置需要在Spark根目录下的conf目录中加入hvie-site.xml文件。

    [29:58]
  • 15

    【实战】SparkSql读取Hive表数据创建datafraSparkSql共享了Hive的表之后,那我们尝试在SparkSql中读取Hive表来进行数据分析,创建视图。。。

    [07:20]
  • 16

    【实战】SparkSql中的UDF用户自定义函数写过sql语句的人都知道,sql中要对字符串,日期进行处理,有专门的函数,这些函数是内置的函数,那可不可以自定义函数进行处理呢?答案是,YES!,我们通过实现UDF就可以做到,前提是需要在sparksession的Udf的register方法进行注册.......

    [08:43]
  • 17

    【实战】SparkSql常见的API使用SparkSql是基于dataframe实现的类sql处理引擎,它上面的接口比rdd可要多得多,那我么如何探索并且使用这些接口来处理业务呢?一个简单的方法是打开spark-shell,在交互式命令窗口中通过双击TAB键会智能的提示。。。。。

    [23:01]
  • 18

    【实战】SparkSql实战之分析PM2.5数据_上学了这么多,是该给自己一个交代了,那这一节我们通过一个开源的数据。chengdu2016年的pm2.5数据来做分析。统计分析2016年成都pm2.5的分布情况及平均值情况......故事刚刚开始

    [39:34]
  • 19

    【实战】SparkSql实战之pm25数据分析_下pm2.5分析就要完成了,新鲜空气即将到来,下期我们将讲解sparkstreaming流式处理.........

    「仅限付费用户」点击下载“Project.zip”

    [09:32]
在线
客服
APP
下载

下载Android客户端

下载iphone 客户端

官方
微信

关注官方微信

返回
顶部