SRE实践指南

SLI / SLO / SLA 定义

术语定义示例
SLI(服务水平指标)衡量服务健康状况的可测量指标请求成功率、p99 延迟、错误率
SLO(服务水平目标)时间窗口内 SLI 的目标值30 天内 99.9% 可用性
SLA(服务水平协议)合同承诺——未达 SLO 的后果99.9% 在线时间;低于则退还 10% 费用
错误预算1 - SLO = 允许的宕机/错误量99.9% SLO = 每月 43.8 分钟预算

常见 SLI

服务类型关键 SLI
请求/响应(API)可用性(2xx/总计)、p99 延迟、错误率
数据管道新鲜度(上次成功运行以来的时间)、准确性
存储持久性(数据丢失率)、读写可用性、延迟
批处理吞吐量、完成率、成功率

可用性数字参考

可用性年宕机时间月宕机时间周宕机时间
99%(两个9)3.65 天7.31 小时1.68 小时
99.9%(三个9)8.77 小时43.8 分钟10.1 分钟
99.99%(四个9)52.6 分钟4.38 分钟1.01 分钟
99.999%(五个9)5.26 分钟26.3 秒6.05 秒