面向故障处理的可观测性体系建设

82 未经授权,禁止转载了解课程
课程介绍
讨论{{interaction.discussNum ? '(' + interaction.discussNum + ')' : ''}}
适合人群
技术团队负责人、架构师、总监、开发人员,以及对技术感兴趣的企业家、创业者和相关人士。
你将会学到
我们将重点介绍一种面向故障处理的可观测性体系建设的最佳实践
课程简介

演讲主题:面向故障处理的可观测性体系建设

服务稳定性保障是一个系统性的工程,建设一个完善的可观测系,是稳定性保障的基础,而稳定性保障也是可观测性体系服务的最重要的场景。然而目前企业内部普遍面临着一个痛点,虽然各种观测数据都有了,但在故障发现、故障定位上仍然存在发现慢,定位难,协同难等问题,在稳定性保障上技术团队经常处于被动。很多企业可能已经不缺少数据,但缺少的是将数据价值在稳定性保障领域发挥出来的产品、方法和最佳实践。

星云团队,过往在一线互联网公司长期负责稳定性保障工作,同时也是国内领先的开源观测平台“夜莺”的创始团队。我们总结了解决企业可观测系统落地问题的三大要素:数据、平台、场景。假如把建设一套面向稳定性保障的可观测系统比喻为做一道好菜,那数据就是食材,平台就是炊具,场景就是厨艺。

数据:巧妇难为无米之炊,需要做好稳定性保障,备齐各维度的数据在所难免。
平台:一套趁手的炊具是好厨师的必备,监控和可观测所需的通用功能和接口需要友好而高效,便于支持上层场景的实现。
场景:不是有了食材和炊具就一定能烧好一道菜,稳定性保障的经验、方法、和最佳实践是整个系统最后输出效果的关键。

本次分享,我们将重点介绍一种面向故障处理的可观测性体系建设的最佳实践,希望能给各位听众带来一些思考和启发。

主题大纲:
可观测性三大支柱是手段而非目标
第1步:定义并发现业务故障,圈定影响范围
第2步:依托SLO构建技术视角的稳定性视图,圈定故障模块
第3步:依托可观测性数据的串联,找到止损依据

34238.png

image.png

展开更多
发布
头像

{{ item.user.nick_name }} {{ EROLE_NAME[item.user.identity] }}

置顶笔记
讨论图
{{ item.create_time }}回复
  • 删除

    是否确认删除?

    确认
    取消
  • {{ item.is_top == 1 ? '取消置顶' : '置顶'}}

    已有置顶的讨论,是否替换已有的置顶?

    确认
    取消
{{ tag.text}}
头像
{{ subitem.user.nick_name }}{{ EROLE_NAME[subitem.user.identity] }}
{{ subitem.create_time }}回复
删除

是否确认删除?

确认
取消
发布
{{pageType === 'video' ? '讨论区抢占沙发,可获得双倍学分' :'讨论区空空如也,你来讲两句~'}}
发布
{{tips.text}}
{{ noteHeaderTitle }} 笔记{{ hasMyNote ? '我的笔记' : '记笔记' }}
{{ hasMyNote ? '我的笔记' : '记笔记' }}
优质笔记
更新于:{{ $dayjs.formate('YYYY-MM-DD HH:mm:ss', item.last_uptime*1000) }}
头像
{{ detail.username }}

公开笔记对他人可见,有机会被管理员评为“优质笔记”

{{ noteEditor.content.length }}/2000

公开笔记
保存
提问

讲师收到你的提问会尽快为你解答。若选择公开提问,可以获得更多学员的帮助。

记录时间点
记录提问时视频播放的时间点,便于后续查看
公开提问
提交