ansible的主机清单以及命令行模式使用
- 可熟练掌握HDFS、mapreduce、spark、hive、hbase、ELK等大数据运维各项技能
本课程通过5天的时间,完整的讲述了hadoop运维所需的各项技能。
第一天,介绍了大数据生态圈知识,主要介绍了HDFS、mapreduce、hbase、zookeeper、hive、pig、sqoop、flume、oozie、yarn、spark、kafka的基本概念,然后介绍了hadoop常见的发行版本。
接着重点介绍了hadoop完全分布式集群的构建,主要讲解了HDFS高可用模式的实现、yarn资源管理的配置,以及hadoop完全分布式集群的服务管理和功能测试。
第二天,介绍了通过ambari自动化构建hadoop集群的过程,同时还详细阐述了hadoop集群种分布式计算、分布式存储的内部实现原理和应用架构。
第三天,讲述了以hadoop为核心,详细介绍了hbase、hive、spark与hadoop进行整合的过程和应用案例。
第四天,讲述了大数据平台下日志收集的方案,也就是经典的ELK日志收集架构,并给出了ELK平台如何使用,以及扩展平台EFLK的构建过程和应用细节。
第五天,讲解了hadoop的资源调度策略、HDFS的ACL安全规则策略如何应用,以及hadoop平台常见故障的处理方法以及基础调优策略,还介绍了如何从网络架构、服务器选型等方面如何规划、设计大数据平台。
课程大纲如下:
第一天:hadoop大数据平台基础以及高可用企业大数据平台构建过程
1、hadoop生态圈知识
2、hadoop发行版介绍
3、HADOOP的伪分布式部署
4、启动HADOOP伪分布式服务
5、测试hadoop的HDFS和mapreduce功能
6、双Namenode高可用Hadoop集群架构
7、Namenode与Yarn基础配置文件讲解
8、启动高可用Namenode+Yarn服务
9、测试双NameNode高可用功能
第二天:使用ambari构建统一的大数据运维平台
1、Ambari的工作原理与架构
2、安装与部署Ambari
3、通过Ambari部署一个Hadoop3.x集群
4、HDFS的基本架构
5、Namenode工作机制剖析
6、SecondaryNameNode工作机制剖析
7、Namenode下的元数据存储
8、StandbyNameNode下JournalNode的元数据管理
9、HDFS读取、写入数据流程解析
10、HDFS中的shell操作
11、YARN的整体架构
12、YARN组件解读
13、YARN应用提交过程分析
14、YARN中Shell的使用
第三天、hadoop与hive、hbase以及spark的整合应用
1、hive的架构与应用场景
2、Hive Metastore三种运行模式
3、hive安装以及与hadoop整合
4、hive常用SQL操作
5、beeline的使用
6、HBase和Hadoop版本的选择
7、 hbase集群的安装与部署
8、启动与维护hbase集群
9、spark的整体架构分析
10、独立模式下spark集群的部署过程
11、spark-shell与Spark-Submit的使用
12、在yarn中配置spark集成过程
13、yarn client模式提交到集群
14、yarn cluster模式提交到集群
15、企业流行大数据平台架构解析
第四天:经典大数据日志收集套件ELK/EFLK应用实践
1、企业流行大数据平台架构介绍与分析
2、简单的、典型的ELK应用架构分析
3、企业流行EFLK应用架构介绍与分析
4、filebeat架构与运行原理
5、配置filebeat收集系统日志发送到kafka过程
6、filebeat收集日志输入与输出格式分析
7、logstash的安装以及事件配置文件的编写
8、logstash输入插件功能介绍与演示
9、logstash编码插件功能介绍与演示
10、logstash过滤器插件grok功能分析
11、logstash数据修改插件mutate使用介绍
12、logstash输出插件功能介绍与演示
13、kafka拓扑架构以及生产者与消费者机制
14、kafka集群的安装配置部署过程
15、通过kafka指令生产或消费数据
16、Elasticsearch的架构以及配置部署流程
17、实战演示Elasticsearch集群的安装配置过程
18、安装Elasticsearch-head插件与使用
19、配置logstash从kafka读取数据发送给Elastic
20、EFLK架构梳理以及kibana可视化部署
21、kibana可视化检索工具的使用
第五天:Yarn资源调度策略以及HDFS的ACL权限控制策略
1、Capacity Scheduler与Fair Scheduler调度策略分析
2、Fair Scheduler资料调度策略的配置过程
3、HDFS 中的 POSIX 权限模型
4、HDFS ACL 基础介绍
5、访问控制列表(ACL)使用介绍
6、Hadoop平台常见故障汇总
7、Hadoop调优之操作系统调优
8、大数据平台网络规划、硬件存储选型
注意事项:
本课程不提供课件资料下载,有课程问题,请扫描本页右上角粉丝群,讨论交流技术。
公开笔记对他人可见,有机会被管理员评为“优质笔记”
{{ noteEditor.content.length }}/2000
讲师收到你的提问会尽快为你解答。若选择公开提问,可以获得更多学员的帮助。
课程大纲
- 第一章 第一天:hadoop大数据平台基础以及高可用大数据平台构建
- 1-1试看 hadoop大数据生态圈知识体系介绍(1)20:10
- 1-2试看 hadoop大数据生态圈知识体系介绍(2)21:44
- 1-3试看 hadoop常见发行版本介绍与选型19:33
- 1-4试看 hadoop伪分布式构建过程实录20:55
- 1-5试看 伪分布式hadoop集群的服务管理与应用17:58
- 1-6试看 实战演示hadoop的分布式存储与计算功能22:09
- 1-7自动化运维工具ansible的架构与基础介绍15:32
- 1-8ansible的主机清单以及命令行模式使用23:17
- 1-9ansible-playbook的编写语法与使用18:31
- 1-10试看 使用ansible的shell、file模块编写脚本23:07