SRE是一个体系化工程,包括Pre-MTBF,MTTR(MTTI,MTTK,MTTF,MTTV),Post-MTBF;衡量标准包括:故障时间维度,请求维度,SLI 监控的指标、SLO 指标对应的目标;包括系统层面、应用服务器层面、应用运行层面、PaaS层面、数据层面、业务层面;SLI指标方法 VALET volume、Availablity、Latency、Errors、Tickets;错误预算,燃尽图,故障定级;衡量SLO有效性三组指标:达成情况、人肉投入程度、用户满意度。落地SLO 包括确认核心交易链路、确认强弱依赖关系,核心链路要求更严格、弱依赖需要降级,核心依赖共享Error Budget,验证 核心链路 SLO包括:容量压测、混沌工程。 实践,on-call机制,也就是确认 MTTI部分;故障处理,角色分工,故障排查中定期汇报,问题扩大需要运营侧公开反馈。故障复盘:故障原因?怎样保证不出现类似问题?怎样短时间恢复业务?互联网的SRE组织架构,根据分布式架构慢慢推动演化了组织架构。以赛带练

阅读全文