受资源不可用性影响的 GPU 节点

描述

在 Automation Suite 2023.4.0 或 2023.4.1 中配置 GPU 节点时，您可能会面临资源可用性问题。

要检查 GPU 节点是否受此问题影响，请运行以下命令：

kubectl describe node <GPU>kubectl describe node <GPU>

如果 Allocatable 资源不包含 nvidia.com/gpu（如以下示例所示），则 GPU 问题会影响您。

Allocatable:
  cpu:                5400m
  ephemeral-storage:  51938908890
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             113173836Ki
  pods:               500Allocatable:
  cpu:                5400m
  ephemeral-storage:  51938908890
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             113173836Ki
  pods:               500

解决方案

要解决此问题，请在 GPU 节点上运行以下命令：

awk '1;/plugins."io.containerd.grpc.v1.cri".containerd]/{print " default_runtime_name = \"nvidia\""}' /var/lib/rancher/rke2/agent/etc/containerd/config.toml > /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
systemctl stop rke2-agent
rke2-killall.sh
systemctl start rke2-agentawk '1;/plugins."io.containerd.grpc.v1.cri".containerd]/{print " default_runtime_name = \"nvidia\""}' /var/lib/rancher/rke2/agent/etc/containerd/config.toml > /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
systemctl stop rke2-agent
rke2-killall.sh
systemctl start rke2-agent

要验证 GPU 资源是否显示，请运行以下命令：

kubectl describe node <GPU>kubectl describe node <GPU>

在以下示例中，您可以看到存在 nvidia.com/gpu，因此不再发生 GPU 问题。

Allocatable:
  cpu:                5400m
  ephemeral-storage:  51938908890
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             113173836Ki
  nvidia.com/gpu:     1
  pods:               500Allocatable:
  cpu:                5400m
  ephemeral-storage:  51938908890
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             113173836Ki
  nvidia.com/gpu:     1
  pods:               500