aggregate和aggregateByKey的异同及注意-51CTO学堂

{{ interaction.likeNum == 0 ? (pageType === 'video' ? '抢首赞' : '点赞') : formatNumber(interaction.likeNum) }} {{ interaction.collectionNum == 0 ? '收藏' : formatNumber(interaction.collectionNum) }} {{ interaction.discussNum == 0 ? (pageType === 'video' ? '抢沙发' : '讨论') : formatNumber(interaction.discussNum) }}

提问 {{ interaction.noteNum > 0 ? interaction.noteNum + '篇笔记' : '记笔记' }} 离线观看

下载学堂APP

缓存视频离线看

报告问题离线观看

下载学堂APP

缓存视频离线看

课程介绍

讨论{{interaction.discussNum ? '(' + interaction.discussNum + ')' : ''}}

适合人群

Python开发者大数据从业者 Spark爱好者数据挖掘

你将会学到

Python版本的pyspark是学习Python的人的福音，为广大的Python开发人员提供了一个使用Python调用Spark接口处理大数据的有力工具。本课程提供细致详尽的Spark API的讲解，以实战的方式帮助广大Python开发人员，使用Spark这一强有力的工具进行数据分析。

课程简介

【注意：本课程只包含pyspark系列课程的基础入门部分】

本课程会提供基于Docker的Hadoop及Spark的环境搭建，使用Docker制作Hadoop,Spark镜像一键启动Spark集群。镜像制作简单，并且一次制作，随时随地都能使用镜像一键启动集群。

通过本课程的学习，能够对Spark的部署及运行原理有非常深刻的了解，并且学习Docker中基本的命令及使用技巧。这门课程是pyspark大数据系列课程中的基础课程，SparkSQL,SparkStreaming，Spark机器学习的内容在单独课程中发布，后续会陆续的发布新的课程。由浅到深的带大家深入学习大数据领域火的项目Spark。帮助大家进入大数据领域，抓住大数据浪潮的尾巴。

软件版本：