如何避免在k8s上使用azcopy时出现OOMKilled

269次阅读

问题描述

在使用azcopy（v10）时，遇到了一个问题。当使用azcopy复制大型存储库或运行azcopy bench时，Pod会被终止，并显示”OOMKilled”错误。用户的Pod有以下资源限制：

limits:
  cpu: 1
  memory: 2Gi

解决方案

请注意以下操作注意版本差异及修改前做好备份。

方案1

azcopy（v10）尝试使用所有可用的内存来缓冲传输中的blob。似乎计算出的内存大小不正确，超过了Pod的内存限制。
可以使用AZCOPY_BUFFER_GB选项来控制缓冲区的大小，如下所示：

azcopy env

输出中会显示以下信息：

INFO: Name: AZCOPY_BUFFER_GB
Description: Max number of GB that AzCopy should use for buffering data between network and disk. May include decimal point, e.g. 0.5.  The default is based on machine size.

因此，对于2GiB的Pod限制，可以将缓冲区设置得稍低一些：

export AZCOPY_BUFFER_GB=1.5
azcopy bench ...

方案2

使用脚本或工具来管理容器的启动顺序可能会增加复杂性，并且需要确保容器A和容器B之间的依赖关系正确设置。
另一种方法是编写脚本或使用工具来控制容器的运行顺序。你可以使用docker run命令来手动控制容器的启动顺序，或者使用一些第三方工具来管理容器的依赖关系。

示例：

以下是一个简单的bash脚本示例，可以在容器A启动后启动容器B：

#!/bin/bash
# 启动容器A
docker run -d --name container_a your_image_a
# 等待容器A完全启动
while ! docker exec container_a echo "Container A is ready"; do
  sleep 1
done
# 启动容器B
docker run -d --name container_b your_image_b

在这个示例中，我们首先使用docker run命令启动容器A，并将其命名为container_a。然后，使用一个循环来等待容器A完全启动（这里是通过在容器内运行echo命令来测试）。一旦容器A就绪，我们再使用docker run命令启动容器B，并将其命名为container_b。

正文完