ambari安装源构建以及系统基础优化自动化配置-51CTO学堂

{{ interaction.likeNum == 0 ? (pageType === 'video' ? '抢首赞' : '点赞') : formatNumber(interaction.likeNum) }} {{ interaction.collectionNum == 0 ? '收藏' : formatNumber(interaction.collectionNum) }} {{ interaction.discussNum == 0 ? (pageType === 'video' ? '抢沙发' : '讨论') : formatNumber(interaction.discussNum) }}

提问 {{ interaction.noteNum > 0 ? interaction.noteNum + '篇笔记' : '记笔记' }} 离线观看

下载学堂APP

缓存视频离线看

报告问题离线观看

下载学堂APP

缓存视频离线看

课程介绍

讨论{{interaction.discussNum ? '(' + interaction.discussNum + ')' : ''}}

适合人群

具备Linux基础，要熟悉Linux常用命令的使用。本课程适合系统运维工程师、想转行大数据运维的同学进行学习。

你将会学到

学完本课程，学员能快速掌握hadoop大数据运维所需的各种机能，胜任大数据运维岗位工作

可熟练掌握HDFS、mapreduce、spark、hive、hbase、ELK等大数据运维各项技能

课程简介

本课程通过5天的时间，完整的讲述了hadoop运维所需的各项技能。

第一天，介绍了大数据生态圈知识，主要介绍了HDFS、mapreduce、hbase、zookeeper、hive、pig、sqoop、flume、oozie、yarn、spark、kafka的基本概念，然后介绍了hadoop常见的发行版本。

接着重点介绍了hadoop完全分布式集群的构建，主要讲解了HDFS高可用模式的实现、yarn资源管理的配置，以及hadoop完全分布式集群的服务管理和功能测试。

第二天，介绍了通过ambari自动化构建hadoop集群的过程，同时还详细阐述了hadoop集群种分布式计算、分布式存储的内部实现原理和应用架构。

第三天，讲述了以hadoop为核心，详细介绍了hbase、hive、spark与hadoop进行整合的过程和应用案例。

第四天，讲述了大数据平台下日志收集的方案，也就是经典的ELK日志收集架构，并给出了ELK平台如何使用，以及扩展平台EFLK的构建过程和应用细节。

第五天，讲解了hadoop的资源调度策略、HDFS的ACL安全规则策略如何应用，以及hadoop平台常见故障的处理方法以及基础调优策略，还介绍了如何从网络架构、服务器选型等方面如何规划、设计大数据平台。

课程大纲如下：

第一天：hadoop大数据平台基础以及高可用企业大数据平台构建过程

1、hadoop生态圈知识

2、hadoop发行版介绍

3、HADOOP的伪分布式部署

4、启动HADOOP伪分布式服务

5、测试hadoop的HDFS和mapreduce功能

6、双Namenode高可用Hadoop集群架构

7、Namenode与Yarn基础配置文件讲解

8、启动高可用Namenode+Yarn服务

9、测试双NameNode高可用功能

第二天：使用ambari构建统一的大数据运维平台

1、Ambari的工作原理与架构

2、安装与部署Ambari

3、通过Ambari部署一个Hadoop3.x集群

4、HDFS的基本架构

5、Namenode工作机制剖析

6、SecondaryNameNode工作机制剖析

7、Namenode下的元数据存储

8、StandbyNameNode下JournalNode的元数据管理

9、HDFS读取、写入数据流程解析

10、HDFS中的shell操作

11、YARN的整体架构

12、YARN组件解读

13、YARN应用提交过程分析

14、YARN中Shell的使用

第三天、hadoop与hive、hbase以及spark的整合应用

1、hive的架构与应用场景

2、Hive Metastore三种运行模式

3、hive安装以及与hadoop整合

4、hive常用SQL操作

5、beeline的使用

6、HBase和Hadoop版本的选择

7、 hbase集群的安装与部署

8、启动与维护hbase集群

9、spark的整体架构分析

10、独立模式下spark集群的部署过程

11、spark-shell与Spark-Submit的使用

12、在yarn中配置spark集成过程

13、yarn client模式提交到集群

14、yarn cluster模式提交到集群

15、企业流行大数据平台架构解析

第四天：经典大数据日志收集套件ELK/EFLK应用实践

1、企业流行大数据平台架构介绍与分析

2、简单的、典型的ELK应用架构分析

3、企业流行EFLK应用架构介绍与分析

4、filebeat架构与运行原理

5、配置filebeat收集系统日志发送到kafka过程

6、filebeat收集日志输入与输出格式分析

7、logstash的安装以及事件配置文件的编写

8、logstash输入插件功能介绍与演示

9、logstash编码插件功能介绍与演示

10、logstash过滤器插件grok功能分析

11、logstash数据修改插件mutate使用介绍

12、logstash输出插件功能介绍与演示

13、kafka拓扑架构以及生产者与消费者机制

14、kafka集群的安装配置部署过程

15、通过kafka指令生产或消费数据

16、Elasticsearch的架构以及配置部署流程

17、实战演示Elasticsearch集群的安装配置过程

18、安装Elasticsearch-head插件与使用

19、配置logstash从kafka读取数据发送给Elastic

20、EFLK架构梳理以及kibana可视化部署

21、kibana可视化检索工具的使用

第五天：Yarn资源调度策略以及HDFS的ACL权限控制策略

1、Capacity Scheduler与Fair Scheduler调度策略分析

2、Fair Scheduler资料调度策略的配置过程

3、HDFS 中的 POSIX 权限模型

4、HDFS ACL 基础介绍

5、访问控制列表（ACL）使用介绍

6、Hadoop平台常见故障汇总

7、Hadoop调优之操作系统调优

8、大数据平台网络规划、硬件存储选型

注意事项：

本课程不提供课件资料下载，有课程问题，请扫描本页右上角粉丝群，讨论交流技术。

展开更多

发布

置顶笔记

{{ item.create_time }}{{ Number(item.like_count) || '' }}回复

删除
是否确认删除?
确认
取消
{{ item.is_top == 1 ? '取消置顶' : '置顶'}}
已有置顶的讨论，是否替换已有的置顶？
确认
取消

{{ subitem.create_time }}{{ Number(subitem.like_count) || '' }}回复

删除

点击查看更多收起

发布

{{ noteHeaderTitle }} 笔记{{ hasMyNote ? '我的笔记' : '记笔记' }}

优质笔记

更新于：{{ $dayjs.formate('YYYY-MM-DD HH:mm:ss', item.last_uptime*1000) }}

公开笔记对他人可见，有机会被管理员评为“优质笔记”

{{ noteEditor.content.length }}/2000

公开笔记

保存

提问

讲师收到你的提问会尽快为你解答。若选择公开提问，可以获得更多学员的帮助。

记录时间点

记录提问时视频播放的时间点，便于后续查看

公开提问

提交