04.SortShuffleWriter源代码分析

2 未经授权,禁止转载了解课程
课程介绍
讨论{{interaction.discussNum ? '(' + interaction.discussNum + ')' : ''}}
适合人群
对大数据有所了解,有一定编程基础
你将会学到
快速学习IDEA下Spark2.4新特性,能熟练使用和操作,胜任企业级的开发。
课程简介

本课程授课老师

徐培成老师先后在软件公司人软件工程师、系统分析师、项目经理、软件架构师,主持开发了大产权交易系统,异构数据库协同系统、电信资源管理系统、互联网综合性调查等系统,对java技术、大数据(hadoop、storm、spark)、Python、机器学习、数据库技术、互联网应用、远程通信、网络编程、分布式应用、高可用性计算机网络集群等技术有着丰富的实战经验和深厚的技术功底。 

1课程背景.png

本套大数据热门技术Spark+机器学习+贝叶斯算法系列课程,历经5年沉淀,调研企业上百家,通过上万学员汇总,保留较为完整的知识体系的同时,让每个模块看起来小而精,碎而不散。在本课程中基于大量案例实战,深度剖析和讲解Spark2.4原理和新特性,且会包含完全从企业真实业务需求中抽取出的案例实战。内容涵盖Spark核心编程、Spark SQL和Spark Streaming、Spark内核以及源码剖析、推荐系统、Kafka消费机制、Spark机器学习、朴素贝叶斯算法、企业级实战案例等。


通过理论和实际的紧密结合,可以使学员对大数据Spark技术栈有充分的认识和理解,在项目实战中对Spark和流式处理应用的场景、以及大数据开发有更深刻的认识;并且通过对流处理原理的学习和与批处理架构的对比,可以对大数据处理架构有更多面的了解,为日后成长为架构师打下基础。



Spark应用场景

Yahoo将Spark用在Audience Expansion中的应用,进行点击预测和即席查询等。

淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等。应用于内容推荐、社区发现等。

腾讯大数据精准推荐借助Spark快速迭代的优势,实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法,最终成功应用于广点通pCTR投放系统上。

优酷土豆将Spark应用于视频推荐(图计算)、广告业务,主要实现机器学习、图计算等迭代计算。


本套大数据热门技术Spark+机器学习+贝叶斯算法共计13季,本套为第6季。

2课程大纲.png

076.shuffle机制回顾
077.UnfaseShuffleWriter溢出过程源代码分析
078.UnfaseShuffleWriter溢出过程Rose分析
079.SortShuffleWriter源代码分析
080.Spark Shuffle总结
081.spark textFile默认最小分区源代码分析
082.spark内存管理-结构划分
083.spark-shell测试-内存分配-保留内存控制
084.spark内存的管理的源代码考察
085.spark rdd缓存机制源代码分析
086.spark与hive集成
087.spark与hive集成-关闭schema版本检查
088.spark sql调用hive函数-查看hive函数帮助
089.spark sql在idea下的编程开发
090.spark sql在idea下的java编程-DataFrame cache


课程亮点

1.代码和原理驱动讲解Spark2.4的个技术点(全部手敲代码),图文解读

2.能够对常见的Spark2.4性能问题,使用技术进行性能调优

3.学习Spark2.4体系的知识和操作

4.理解Spark2.4新特性和原理,对Spark企业级案例,进行调优和故障排查

5.学习Spark机器学习和推荐系统

6.学习朴素贝叶斯算法


展开更多
发布
头像

{{ item.user.nick_name }} {{ EROLE_NAME[item.user.identity] }}

置顶笔记
讨论图
{{ item.create_time }}回复
  • 删除

    是否确认删除?

    确认
    取消
  • {{ item.is_top == 1 ? '取消置顶' : '置顶'}}

    已有置顶的讨论,是否替换已有的置顶?

    确认
    取消
{{ tag.text}}
头像
{{ subitem.user.nick_name }}{{ EROLE_NAME[subitem.user.identity] }}
{{ subitem.create_time }}回复
删除

是否确认删除?

确认
取消
发布
{{pageType === 'video' ? '讨论区抢占沙发,可获得双倍学分' :'讨论区空空如也,你来讲两句~'}}
发布
{{tips.text}}
{{ noteHeaderTitle }} 笔记{{ hasMyNote ? '我的笔记' : '记笔记' }}
{{ hasMyNote ? '我的笔记' : '记笔记' }}
优质笔记
更新于:{{ $dayjs.formate('YYYY-MM-DD HH:mm:ss', item.last_uptime*1000) }}
头像
{{ detail.username }}

公开笔记对他人可见,有机会被管理员评为“优质笔记”

{{ noteEditor.content.length }}/2000

公开笔记
保存
提问

讲师收到你的提问会尽快为你解答。若选择公开提问,可以获得更多学员的帮助。

记录时间点
记录提问时视频播放的时间点,便于后续查看
公开提问
提交