- 畅销套餐
- 精选套餐
- 人气套餐
- 尊享套餐
- 高薪套餐
- 课程介绍
- 课程大纲
适合人群:
从事大数据研发、刚毕业的想从事大数据工作的学生及在校的学生。想转行大数据的开发人员。
你将会学到:
SparkSql提供了一种强大的类Sql操作的数据分析方式,目前SparkSql是大数据企业用得最多的Spark组件之一,熟练使用SparkSql进行大数据分析,是进入大数据公司工作的技能!
课程简介:
SparkSql中级数据处理课程,主要是教会大家使用SparkSql大数据分析引擎分析数据,它作为一个分布式的基于内存计算的类Sql分析引擎,为为数据分析人员提供了方便且透明的处理大数据的方法,因此学习了SparkSql,你可以对大数据分析勇敢的说YES!
课程大纲-【大数据 Hadoop生态 Spark 2.x 多案例】Spark SQL基础与提升
1
SparkSql概述及发展史从第一个sql on hadoop数据分析引擎hive的出现,到后来为解决查询效率而出现的shark,到spark开发团队抛弃shark转而全力开发sparksql,以及后来独立发展的hive on spark项目。技术在发展,在不断的更新,新的技术在不断的出现。这一节课主要讲述SparkSql的发展史
「仅限付费用户」点击下载“SparkSql.pptx”
[20:37]开始学习2
【实战】SparkSql2.0结果保存为CSV文件SparkSql可以将分析的结果保存到外部文件,这节课主要讲解使用SparkSql分析数据,将结果保存到HDFS上的csv文件中
[14:22]开始学习3
【实战】SparkSql保存结果为json文件SparkSql将分析的结果保存到json这种标准的javascript对象中,其优势直接可以使用javascript脚本语言读取json文件内容做相应的处理
[06:27]开始学习4
【实战】SparkSql保存结果为parquet文件SparkSql将分析的结果保存为parquet文件,parquet文件格式是一种列式存储的文件格式,并且自带压缩,默认的压缩采用snappy,因此可以极大的降低磁盘存储空间,且其列式存储方便数据的读取,提升读取数据的效率。parquet文件格式是公司生产环境中使用最广泛的存储格式。
[11:43]开始学习5
【实战】SparkSql保存结果到hdfs的text文件用时候为了方便,我们通常将数据以文本的形式直接存储在分布式文件系统HDFS中,在SparkSql中提供了text方法,数据分析的结果直接以text文本形式写到文件中
[11:12]开始学习6
【实战】Sparksql保存结果到关系型数据库mysql有时候数据分析计算的结果需要保存到关系型数据库如mysql中,供其他的业务部门读取使用。例如直接从mysql数据库中读取处理好的数据来制作报表等。SprakSql中通过jdbc方法这个接口将分析的结果写入mysql中
[21:06]开始学习7
【实战】SparkSql读取CSV文件创建dataframeSparkSql可以将分析结果保存到csv文件中,自然也能够从csv文件中读取文件的内容形成dataframe,并且可以基于dataframe注册成临时的视图,在视图上做sql操作。
[12:08]开始学习8
【实战】SparkSql读取json文件创建dataframSparkSql可以将结果保存为json文件自然也可以从json文件读取内容来生成dataframe对象,并且基于dataframe对象可以做sql操作。注意在读json文件的时候不需要指定option("header",true),因为json自带属性信息,这些信息会被作为schema读取到dataframe中,但默认的类型是string类型
[09:25]开始学习9
【实战】SparkSql使用RDD创建dataframe和视在数据分析的过程中,有时候会遇到这样一种处理场景:需要将RDD转换为dataframe,因为dataframe这样一种高层的API上有更丰富的算子操作,例如保存为csv,json,关系型数据库的接口,因此会涉及到RDD转换为dataframe的场景,这节课主要讲解使用RDD来创建dataframe和视图
[11:06]开始学习10
【实战】SparkSql读取HDFS文本文件创建datafr有时候我们需要使用存储在HDFS上的纯文本文件来创建dataframe做数据分析,但是要知道,纯文本文件是没有shcema信息的,那怎样才能创建dataframe呢?答案是自己构建schema,再加上读取文件形成的RDD,就形成dataframe。我们需要使用StructFiled创建字段信息,使用StructType创建schema信息。最后使用sparkSession上的createDataFrame创建dataframe
[15:38]开始学习11
【实战】SparkSql读取Parquet文件创建dataf在企业生产环境中,使用最多的保存格式是parquet,因为其列式存储且自带压缩。不但节约了存储空间,还提高了读取数据的速度。parquet文件中带有schema信息和类型信息,因此我们不必指定option("header",true)
[07:37]开始学习12
【实战】SparkSql读取关系型数据库数据创建datafr在比较传统的公司,有大量的数据是存放在关系型数据库中的,我们要对存放在关系型数据库中的数据作分析,需要加载关系型数据中的数据。SparkSql通过jdbc方法可以从关系型数据库中读取记录进行数据分析。
「仅限付费用户」点击下载“pom.zip”
[05:17]开始学习13
【实战】SparkSql读取Hive表数据_Hive环境安装从SparkSql的发展史可以看到,Shark最初从Hive发展而来,以此发展到最后SparkSql是兼容hive的,就是说在SparkSql中可以直接访问HIve的表,并且直接通过sql语句操作hive中的表,这节课我们先讲解hive的安装配置
[20:14]开始学习14
【实战】SparkSql共享Hive元数据配置SparkSql要共享Hive的元数据,那得让SparkSql知道Hive的元数据存放在哪个地方,因此需要配置。配置需要在Spark根目录下的conf目录中加入hvie-site.xml文件。
[29:58]开始学习15
【实战】SparkSql读取Hive表数据创建datafraSparkSql共享了Hive的表之后,那我们尝试在SparkSql中读取Hive表来进行数据分析,创建视图。。。
[07:20]开始学习16
【实战】SparkSql中的UDF用户自定义函数写过sql语句的人都知道,sql中要对字符串,日期进行处理,有专门的函数,这些函数是内置的函数,那可不可以自定义函数进行处理呢?答案是,YES!,我们通过实现UDF就可以做到,前提是需要在sparksession的Udf的register方法进行注册.......
[08:43]开始学习17
【实战】SparkSql常见的API使用SparkSql是基于dataframe实现的类sql处理引擎,它上面的接口比rdd可要多得多,那我么如何探索并且使用这些接口来处理业务呢?一个简单的方法是打开spark-shell,在交互式命令窗口中通过双击TAB键会智能的提示。。。。。
[23:01]开始学习18
【实战】SparkSql实战之分析PM2.5数据_上学了这么多,是该给自己一个交代了,那这一节我们通过一个开源的数据。chengdu2016年的pm2.5数据来做分析。统计分析2016年成都pm2.5的分布情况及平均值情况......故事刚刚开始
[39:34]开始学习19
【实战】SparkSql实战之pm25数据分析_下pm2.5分析就要完成了,新鲜空气即将到来,下期我们将讲解sparkstreaming流式处理.........
「仅限付费用户」点击下载“Project.zip”
[09:32]开始学习
“张敏”老师的其他课程更多+