在EKS节点上安装NVIDIA驱动

256次阅读

问题描述

在EKS集群中有两个节点池，一个是通用的CPU计算节点，另一个是支持GPU的节点池（g4dn）。用户想要在GPU节点组上安装NVIDIA驱动程序。目前，用户只能手动ssh到每个节点上进行安装。是否有更好的方法来实现这一目标？

解决方案

请注意以下操作注意版本差异及修改前做好备份。

方案1

使用GPU Operator可以简化在Kubernetes集群中管理NVIDIA驱动程序，您可以使用Helm部署它。
以下是使用GPU Operator安装NVIDIA驱动程序的步骤：
1. 安装Helm：如果您还没有安装Helm，请根据官方文档的说明进行安装。
2. 添加NVIDIA GPU Operator的Helm存储库：

helm repo add nvidia https://nvidia.github.io/gpu-operator
helm repo update

创建一个Helm值文件（例如values.yaml），并配置您的GPU节点组的相关参数。以下是一个示例值文件的内容：

# values.yaml
operator:
  enabled: true
  image:
    repository: nvidia/gpu-operator
    tag: v1.10.0
  driver:
    enabled: true
    version: 460.39
    image:
      repository: nvidia/driver
      tag: v460.39
  devices:
    - name: NVIDIA
      vendor: 10de
      device: 1db6

在上面的示例中，我们启用了GPU Operator，并配置了NVIDIA驱动程序的版本和显卡设备的相关信息。
4. 使用Helm安装GPU Operator：

helm install gpu-operator nvidia/gpu-operator -f values.yaml

等待安装完成并验证NVIDIA驱动程序是否成功安装：

kubectl get pods -n gpu-operator-system

如果一切顺利，您应该能够看到GPU Operator的相关Pod正在运行。
请注意，以上步骤仅适用于使用Helm管理Kubernetes集群的情况。如果您使用其他工具或方法管理集群，请参考相应的文档进行安装。

方案2

如果您不想使用GPU Operator，您仍然可以手动在每个节点上安装NVIDIA驱动程序。以下是手动安装NVIDIA驱动程序的一般步骤：
1. SSH到每个GPU节点。
2. 下载适用于您的GPU型号和操作系统的NVIDIA驱动程序。您可以从NVIDIA官方网站下载适合您的驱动程序。
3. 安装NVIDIA驱动程序。具体的安装步骤可能因操作系统和驱动程序版本而异，请参考NVIDIA驱动程序的官方文档进行安装。
4. 验证驱动程序是否成功安装。您可以运行以下命令来检查驱动程序的安装情况：