在PagerDuty集成中触发一定数量的事件后触发警报

174次阅读

问题描述

想知道是否可以在集成中的一定数量事件发生后，触发警报。例如，如果用户的应用程序报告了一次非关键性的故障，这值得进行故障排查，但可能不足以在半夜叫醒某人。然而，如果应用程序一遍又一遍地报告相同的故障，这就是一个更大问题的症状，需要尽快解决。

解决方案

在以下解决方案中，我们将介绍如何使用不同的度量系统来实现此目标。

方案1：使用Metrics-Based Alerting System

最简单的方法是使用像Prometheus、Datadog等基于度量的警报系统。这些系统允许你创建一个计数器，记录发生的事件数量，并且你可以在漂亮的图表上查看在给定时间段内发生的事件数量。大多数度量系统都能与PagerDuty良好地集成，用于触发警报。使用这些度量系统，还可以获得系统的历史基线数据，这在查找问题发生原因和时间时非常有用。

阈值应该是一段时间内的事件数量。如果只是随意选择一个数字，比如100，你最终总会达到那个限制。如果在一小时内看到了10次事件，那可能对你来说就很糟糕了。

这个方案的难点在于，PagerDuty似乎不容易让你访问有关事件数量的度量数据。你可以在他们的用户界面上查看漂亮的图表，但没有简单的方法将其馈送到你的度量系统。你需要在创建事件的其他地方添加一些代码，使其递增这个计数器。