定义服务水平指标(SLI)的标准或常见方法

183次阅读
没有评论

问题描述

正在学习并应用Site Reliability Engineering(SRE)原则来运营云原生应用程序。根据他的阅读,他了解到SRE方法中的一个核心实践是监控。SRE通过定义服务水平指标(SLI)来进行监控,这些指标衡量了终端用户体验的某个方面,并确定了一个称为服务水平目标(SLO)的阈值。用户想知道是否有一种标准或常见的方法来定义服务水平指标。

解决方案

请注意以下操作注意版本差异及修改前做好备份。

方案1

虽然没有严格的标准方法,但Google已经发布了一个SLI菜单和一个用于开发用户旅程的SLI的过程。以下是该过程的步骤:

  1. 对于每个用户旅程/数据流,从SLI菜单中选择适合的SLI类型。
    定义服务水平指标(SLI)的标准或常见方法
  2. 决定如何衡量“好”的和“有效”的事件。
  3. 决定从以下位置衡量SLI:终端用户、客户端仪表板、合成客户端、前端指标、应用程序指标或服务器端日志。
  4. 收集所有用户旅程的SLI,并检查是否存在覆盖范围的空白。
  5. 根据SLI设置SLO,可以基于业务需求或过去的性能。

请注意,SLI和SLO并不是监控工具本身,它们是主动和持续的网站可靠性工程的基础。只有具有一组SLI和SLO,您才能在较长时间内评估服务的可靠性并进行规划。

方案2

另一个方法是以跨职能的方式定义对客户(或用户)最重要的事项,例如开发人员、产品经理、支持人员、高管和SRE。需要定义跨职能的指标(SLI)和边界(SLO),以代表客户的痛点和不满意。缺乏这样的共同指标往往会导致以下效果:开发人员/SRE认为“内存使用率很低”,产品经理认为“功能已经发布”,高管认为“我没有接到电话”,支持人员认为“用户不满意”。

Google还发布了他们的研讨会(根据CC-BY 4.0许可)关于如何定义SLI和SLO,以及如何随时间调整SLI(和SLO)的博客文章。

请注意,我在Google工作。

方案3

Keptn提供了一种SLI和SLO的规范,而OpenSLO则提供了略有不同的方法。

以上是关于定义服务水平指标(SLI)的标准或常见方法的解决方案。希望对您有所帮助!

正文完