Ansible Tower / AWX – 在实例失败/不可用时执行作业

63次阅读
没有评论

问题描述

在使用 Ansible Tower 或 AWX 进行作业执行时,用户对作业执行过程中的两种情景有疑问。假设正在执行一个包含大量任务的 playbook,以下是两种情景描述(注意,这是关于行为理解的问题,没有代码示例或截图)。

情景1:在 playbook 执行过程中,实例失败。
总服务器数:100
实例数:1
任务3已在8台服务器上执行,但实例失败。
任务3已在8台服务器上执行,但 CPU / 内存达到峰值。

情景2:在 playbook 执行过程中,实例失败。
总服务器数:100
实例数:3(多节点集群)
任务3已在8台服务器上执行,但实例失败。
任务3已在8台服务器上执行,但 CPU / 内存达到峰值。
在情景2中,如果分叉(forks)设置为任务3以不超过3个为限,会发生什么?如果任务3被分割执行,跨足分叉所限制的实例,作业负载会自动转移到另一个实例吗?

解决方案

根据用户的描述,让我们探讨一下 Ansible Tower / AWX 在上述情景下的行为。请注意,由于这是行为问题,答案可能会受到版本差异的影响,以下是一些可能的解决方案。

根据情景描述和用户的猜测,似乎在 Ansible Tower / AWX 中,并没有自动将作业负载从一个实例转移到另一个实例的机制。因此,如果在作业执行过程中实例失败,作业负载可能不会自动转移到其他实例。这意味着作业的执行状态可能会丢失,需要重新运行 playbook。

在多节点集群(情景2)中,如果分叉设置为限制任务3在不超过3个实例上执行,Ansible Tower / AWX 可能会在失败的实例上重新启动任务3,但不会自动将未完成的任务3转移到其他实例上。这种情况下,作业的执行状态可能会受到影响,需要根据具体情况进行处理。

请注意,以上只是根据问题描述和一般理解提供的解决方案。由于 Ansible Tower / AWX 的版本和配置可能会影响实际行为,建议用户查阅相关文档或尝试进行实验以获得更准确的信息。

注意:本解决方案是基于问题描述和一般情况提供的,实际情况可能会因版本差异或特定配置而有所不同。建议在尝试任何操作之前,先备份重要数据,并查阅官方文档或进行实验以获取最准确的信息和操作步骤。

如果您有更多关于 Ansible Tower / AWX 的问题或需要更详细的解决方案,请随时提问或查阅相关文档。

正文完