配置 Prometheus 实现不同频率抓取不同指标

1,241次阅读

问题描述

在一个 Tendermint 网络中，用户使用 Prometheus 来跟踪各种指标以及节点健康状况。对于性能指标（如 tendermint_consensus_total_txs），用户希望每秒更新一次。而对于健康指标（如 go_gc_duration_seconds_sum），用户只希望每分钟更新一次。用户希望知道如何配置 Prometheus，使得指标 A 每秒抓取一次，指标 B 每分钟抓取一次。或者，用户想知道如何配置 Prometheus 以仅保留指标 B 的每 60 个样本中的一个样本，以避免在不需要频繁更新的指标上导致存储成本过高。

解决方案

请注意以下操作可能在不同版本的 Prometheus 中有所差异。在开始配置之前，请确保备份您的配置文件。

配置不同的抓取间隔

您可以在 Prometheus 的抓取配置中定义不同的 scrape_interval，以适应不同的抓取频率需求。对于性能较慢的指标，您可以使用一个较大的抓取间隔；对于性能要求较高的指标，可以使用较小的抓取间隔。

以下是如何配置的步骤：
1. 打开 Prometheus 的配置文件，通常命名为 prometheus.yml。
2. 在配置文件中，定义不同的 job，每个 job 对应一个抓取间隔。
3. 在每个 job 的 scrape_interval 中设置合适的抓取间隔，例如设置为 1s 和 1m 分别表示每秒和每分钟抓取一次。

示例配置文件：

global:
  scrape_interval: 15s

scrape_configs:
  - job_name: fast_polling
    scrape_interval: 1s
    static_configs:
      - targets: ['target_with_fast_metrics:port']

  - job_name: slow_polling
    scrape_interval: 1m
    static_configs:
      - targets: ['target_with_slow_metrics:port']

在上面的示例配置中，我们定义了两个不同的 job：fast_polling 和 slow_polling。每个 job 都有不同的 scrape_interval，分别为 1s 和 1m。您可以根据实际情况修改 targets 以匹配相应的指标源。

适应性地筛选指标

如果您需要在同一指标源上适应性地筛选不同的指标，您可以使用 metric_relabel_configs。这将允许您根据需要过滤、保留或重命名指标。

以下是如何配置的步骤：
1. 打开 Prometheus 的配置文件 prometheus.yml。
2. 在适当的 job 下，添加 metric_relabel_configs 部分。
3. 在 metric_relabel_configs 下，使用正则表达式和操作来定义筛选规则。

示例配置文件：

scrape_configs:
  - job_name: custom_metrics
    scrape_interval: 1s
    static_configs:
      - targets: ['target_with_metrics:port']
    metric_relabel_configs:
      - source_labels: [__name__]
        regex: go_gc_duration_seconds_sum
        action: keep

在上面的示例配置中，我们定义了一个 job custom_metrics，并在其下使用了 metric_relabel_configs。在这个例子中，我们使用 source_labels 来匹配指标名称，使用正则表达式 regex 来匹配需要的指标，然后使用 action: keep 来保留这些指标。