解决 CloudWatch 异常检测因夏令时变更引起的误报问题

196次阅读

问题描述

在使用 CloudWatch 异常检测时遇到了一个问题。在监控过程中，他设置了基于 CloudWatch 异常检测的警报。总体而言，这些警报工作得相当不错，但在时钟发生变更（从夏令时到冬令时）时，它们会变得混乱。

用户的问题是，尽管美国和欧洲的最近时区变更已经发生数周，但他们仍然定期收到错误的正报警。用户推测 CloudWatch 最终会理解这种情况，但时钟的定期变更会导致一些噪音。

用户在文档中没有找到很多相关内容，只发现 CloudWatch 提供了设置 Time Zone Format 的选项。之前用户将其保留为空白，但现在已将其设置为 UTC。

问题：
1. 设置时区的确切影响是什么？它是否对异常检测模型的预测产生影响，还是仅用于可视化和其他配置（例如排除指定的时间段）？
2. 用户群体分布在全球各地，但主要集中在美国和欧洲。在这种情况下，请求只使用一个时区是否实际可行？应该选择 UTC 还是选择具有大多数用户的时区？

用户理解，尤其是在时钟变更后的前一两周内，难以完全避免误报。尽管如此，用户仍然想知道如何正确设置异常检测模型，以使其预测更准确。

解决方案

请注意以下操作注意版本差异及修改前做好备份。

设置时区对异常检测的影响

设置时区对于 CloudWatch 异常检测模型的预测影响是有限的。时区设置主要用于可视化和其他配置，对于模型的预测并不直接产生影响。时区设置不会减少误报的可能性。

选择适当的时区

在用户分布在全球多个时区的情况下，选择适当的时区可能是一个复杂的问题。在 CloudWatch 异常检测中，AWS 使用 UTC 时间进行操作，但这并不意味着选择 UTC 就能解决问题。因为异常检测模型无法考虑特定的时区变更和事件，所以单纯地选择时区可能无法根本解决问题。

考虑到这一点，建议选择与主要用户群体最相关的时区，以便在某种程度上减少误报。然而，这并不能完全消除误报，特别是在时钟变更后的最初几周内。

改善异常检测预测的方法

要改善 CloudWatch 异常检测模型的预测准确性，可以考虑以下几点：
1. 领域知识： 如果您了解特定时区变更或事件对应用程序的影响，可以尝试将这些信息纳入预测模型中。然而，这可能需要额外的数据和领域知识，不一定适用于所有情况。
2. 使用比率而非绝对值： 如果可能，使用错误率而不是绝对错误数量作为指标进行监控。这可以使系统对外部事件更加稳定。CloudWatch 允许设置基于数学表达式（如 errors / requests）的警报。标准化的比率通常能够更好地抵御外部事件的影响。