如何测量服务升级期间的不可用性

186次阅读

问题描述

在使用一个基于微服务的应用程序时，使用了一个编排工具（具体是Rancher）。在服务升级期间（当新的镜像被拉取并且服务重新发现彼此时），会出现短暂的服务中断。用户想知道测量这段时间的最佳/推荐方法是什么。

解决方案

请注意以下操作注意版本差异及修改前做好备份。

方案1

你提出的方法可能是收集数据最简单的方式，但是你需要做很多工作来提取特定时间段的可用性数据。
如果你想要可用性数据，你需要一个监控系统。这意味着在你的目录中有一个额外的服务，用于持续探测你的微服务的可用性。将它们存储在时间序列数据库中，可以让你查询不同时间段的可用性。
有很多工具可以帮助你实现这一点。一个很好的起点是CNCF监控景观。

方案2

哇，有很多服务！任何前5个消费者网站监控服务都可以以每月低于5美元的价格监控到这个粒度。Pingdom、Statuscake、Uptimerobot等。
另一种方法是使用第三方监控服务来测量服务的可用性。有很多消费者网站监控服务可以以较低的价格提供这种粒度的监控。例如，Pingdom、Statuscake、Uptimerobot等都是很好的选择。
请注意，这些监控服务通常会提供更多的功能和灵活性，例如报警、性能指标等。你可以根据自己的需求选择合适的监控服务。

正文完