如何为集群中的应用程序生成可观察性指标以供Prometheus使用

186次阅读

问题描述

在阅读《Cloud Native DevOps with Kubernetes》一书时，了解到了RED和USE指标，这是获得更好的系统可观察性的良好起点。然而，用户在网上很难找到有关如何生成这些指标的信息，除非为每个服务重新发明轮子。
用户想知道是否有一组库可以在应用程序内部生成RED和USE指标？还是每种语言和每个服务都需要单独创建一组工具？
此外，是否有已知的解决方案可以将CrashLoopBack或Pending pod指标发送到Prometheus，还是这些指标也需要在内部重新发明？

解决方案

请注意以下操作注意版本差异及修改前做好备份。

方案1

对于特定应用程序的调用，您需要使用Prometheus客户端并自己创建指标。Prometheus客户端将允许您创建一个/metrics端点，您可以在其中输出当前的指标值，Prometheus将对其进行抓取。
对于不仅适用于您的应用程序的指标，您可以使用Prometheus出口器（exporters），这些出口器可以在节点、容器或运行时环境上运行，或者使用第三方软件。这些出口器将创建目标，您可以告诉Prometheus抓取以收集指标数据。
一旦收集到指标数据，您将需要在Grafana中编写自己的RED和USE查询来显示这些指标。

方案2

使用脚本或工具来管理容器的启动顺序可能会增加复杂性，并且需要确保容器A和容器B之间的依赖关系正确设置。
另一种方法是编写脚本或使用工具来控制容器的运行顺序。您可以使用docker run命令来手动控制容器的启动顺序，或者使用一些第三方工具来管理容器的依赖关系。

示例：

以下是一个简单的bash脚本示例，可以在容器A启动后启动容器B：

#!/bin/bash
# 启动容器A
docker run -d --name container_a your_image_a
# 等待容器A完全启动
while ! docker exec container_a echo "Container A is ready"; do
  sleep 1
done
# 启动容器B
docker run -d --name container_b your_image_b

在这个示例中，我们首先使用docker run命令启动容器A，并将其命名为container_a。然后，使用一个循环来等待容器A完全启动（这里是通过在容器内运行echo命令来测试）。一旦容器A就绪，我们再使用docker run命令启动容器B，并将其命名为container_b。

正文完