如何监控和警报容器的抖动

232次阅读

问题描述

想知道有没有关于如何监控容器抖动的最佳实践。他们的情况是，有些容器可能会尝试启动并在没有任何人注意的情况下崩溃->重新启动几十次。然而，容器的短暂性是”正常”的，所以追踪这种异常似乎很困难（如果你的工作负载确实只有30秒怎么办？）他想知道是否有任何”足够好”的警报实践，用于跟踪不健康的重启和健康的重启。

解决方案

请注意以下操作注意版本差异及修改前做好备份。

原则

无论容器是否短暂，以下两个指标都可以考虑为”不正常”：
– 非零退出代码
– 编排层的重启计数 > 0
如何在这些指标上进行警报将因编排层、提供商和监控工具而异。下面是关于这些原则的讨论：

非零退出代码

这个原则似乎很明显。如果你有一个短暂的工作负载，请确保它能够正常退出，这样你就可以监控容器的健康状况。即使你的短暂工作负载只持续30秒，并且你启动了成千上万个这样的工作负载（类似小型短暂的工作进程），只要一切正常退出，就没有什么可担心的。

编排层的重启计数

大多数编排层都会公开一个重启计数。对于Kubernetes来说，这就是描述一个Pod时的’Restart Count’指标。这些重启是编排层重新启动容器的结果，因为它不应该处于”停止”状态，但实际上却是。短暂的工作负载不会有重启计数，因为它们的本质如此（或者如果有，当工作负载完成时，”最终”关闭容器不会导致重启）。
无论你是想在重启计数超过某个阈值时立即发出警报，还是想更聪明地计算一个速率（大致为：重启计数/ Pod/服务持续时间），都取决于你自己。