浅尝Spark SQL的API(python版)
本门课程多面且深入的讲述了spark SQL的知识点及其使用方式。采用传统数据库的SQL和Spark SQL做对比的手段使的我们理解Spark SQL。并且详细讲解了scala和python两门语言怎么使用Spark SQL,其中用scala讲述原理
更多的课程可以在51CTO学堂中搜索"老汤"
Spark2.x 应用实战系列课程计划
------------------------------------Spark 2.x 入门指南-----------------------------------
Spark2.x 实战应用系列环境篇:Spark相关集群环境的搭建 (公开课,https://edu.51cto.com/course/11430.html )
Spark2.x 实战应用系列环境篇:Spark开发环境的搭建 (公开课,https://edu.51cto.com/course/11421.html )
Spark2.x 实战应用系列一 :怎样学习Spark (公开课,https://edu.51cto.com/course/11210.html )
-------------------------------------Spark-core实战应用(专题: https://edu.51cto.com/topic/1275.html )------------------------------
Spark2.x 实战应用系列二 :正确理解Spark (https://edu.51cto.com/course/10932.html )
Spark2.x 实战应用系列三 :Spark-core RDD API (https://edu.51cto.com/course/11058.html )
Spark2.x 实战应用系列四 :Spark-core 正确提交Spark应用 (https://edu.51cto.com/course/11132.html )
Spark2.x 实战应用系列五 :Spark-core Schedulers On Driver (https://edu.51cto.com/course/11206.html )
--------------------------------------Spark-SQL实战应用(专题:https://edu.51cto.com/topic/1319.html )------------------------------
Spark2.x 实战应用系列六 :Spark-SQL的前生今世以及未来 (https://edu.51cto.com/course/11277.html )
Spark2.x 实战应用系列七 :有SQL基础就可玩转Spark SQL(Scala版&Java版) (https://edu.51cto.com/course/11496.html )
Spark2.x 实战应用系列七 :有SQL基础就可玩转Spark SQL(Scala版&Python版) (https://edu.51cto.com/course/11495.html )
Spark2.x 实战应用系列八 :Spark SQL with Hive (https://edu.51cto.com/course/11537.html )
---------------------------------------Spark-graphx(图计算)实战应用------------------------------------------------------------
Spark2.x 实战应用系列九 :Spark Graphx实战(即将发布)
---------------------------------------Spark-ml(机器学习)实战应用------------------------------------------------------------
Spark2.x 实战应用系列十 :Spark 机器学习实战(即将发布)
大数据实时流处理技术系列课程计划
---------------------------------------Spark Streaming专题(https://edu.51cto.com/topic/1402.html )--------------
Spark2.x 实时流计算系列一:Spark Streaming编程模型 (https://edu.51cto.com/course/12327.html )
Spark2.x 实时流计算系列二:Spark Streaming性能与稳定 (https://edu.51cto.com/course/12326.html )
Spark2.x 实时流计算系列三:Spark Streaming容错与语义 (https://edu.51cto.com/course/12325.html )
Spark2.x 实时流计算系列四:Flume + Kafka + Spark Streaming (https://edu.51cto.com/course/12324.html )
---------------------------------------Structured Streaming专题------------------------------------------------------------
Spark2.x 实时流计算系列五:Structured Streaming解决的问题 (https://edu.51cto.com/course/12330.html )
本课程内容:
第一章:
1、课程内容
2、课程需要的环境
第二章:spark SQL相关的基本概念
1、spark SQL基本概念
2、浅尝spark SQL的API
3、浅尝spark SQL的API(python版)
4、SparkSession的讲解
5、SparkSession的讲解(python版)
第三章Dataset/DataFrame的创建
1、DataFrame的创建
2、DataFrame的创建(python版)
3、schema的定义以及复杂数据类型的用法
4、schema api的用处
5、schema相关API的讲解(python版)
第四章spark SQL读写外部数据源
1、基本操作load和save
2、基本操作load和save(python版)
3、parquet和orc文件的读写
4、parquet和orc文件的读写(python版)
5、json文件的读写一
6、json文件的读写二
7、json文件的读写(python版)
8、csv文件的读写一
9、csv文件的读写二
10、csv文件的读写(python版)
11、通过jdbc读写mysql数据库
12、通过jdbc写mysql数据库需要注意的点
13、通过jdbc读mysql数据库需要注意的点
14、通过jdbc读写mysql数据库(python版)
15、text文件和table数据源的读写
16.、text文件和table数据源的读写(python版)
17、数据源实战之数据分区
18、数据源实战之数据分区(python版)
第五章: SQL操作spark SQL
1、catalog元数据管理讲解
2、catalog元数据管理讲解(python版)
3、DDL-表的类型种类及其创建方式
4、DDL-表的类型种类及其创建方式(python版)
5、DQL-sql查询及其sql函数讲解
6、DQL-sql查询及其sql函数讲解(python版)
7、SQL内置函数(很全)
第六章:Dataset/DataFrame的API的使用
1、Column的表达
2、Column的表达(python版)
3、DataFrame中Untyped API讲解
4、DataFrame中Untyped API讲解(python版)
5、DataFrame Untyped API与SQL对比
6、group分组聚合相关API
7、group分组聚合相关API(python版)
8、join关联相关API
9、join关联相关API(python版)
10、sort排序相关API
11、sort排序相关API(python版)
12、Action API和其他API
第六章:spark SQL实战
1、RDDs\DataFrames\Datasets各自使用场景
2、json格式数据处理
3、json格式数据处理(python版)
4、物联网设备信息的ETL
5、物联网设备信息的ETL(python版)
公开笔记对他人可见,有机会被管理员评为“优质笔记”
{{ noteEditor.content.length }}/2000
讲师收到你的提问会尽快为你解答。若选择公开提问,可以获得更多学员的帮助。
课程大纲
- 第一章 课程内容以及环境
- 1-1试看 课程内容10:01
- 1-2试看 课程需要的环境04:31
- 第二章 Spark SQL相关的基本概念
- 2-1Spark SQL基本概念17:07
- 2-2浅尝Spark SQL的API16:20
- 2-3浅尝Spark SQL的API(python版)09:22
- 2-4SparkSession的讲解14:03
- 2-5SparkSession的讲解(python版)05:45
- 第三章 Dataset/DataFrame的创建
- 3-1DataFrame的创建16:01
- 3-2DataFrame的创建(python版)10:13
- 3-3Dataset的创建15:59