automation-suite
2023.4
false
- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
受资源不可用性影响的 GPU 节点
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
Linux 版 Automation Suite 安装指南
Last updated 2024年11月4日
受资源不可用性影响的 GPU 节点
在 Automation Suite 2023.4.0 或 2023.4.1 中配置 GPU 节点时,您可能会面临资源可用性问题。
要检查 GPU 节点是否受此问题影响,请运行以下命令:
kubectl describe node <GPU>
kubectl describe node <GPU>
如果
Allocatable
资源不包含 nvidia.com/gpu
(如以下示例所示),则 GPU 问题会影响您。
Allocatable:
cpu: 5400m
ephemeral-storage: 51938908890
hugepages-1Gi: 0
hugepages-2Mi: 0
memory: 113173836Ki
pods: 500
Allocatable:
cpu: 5400m
ephemeral-storage: 51938908890
hugepages-1Gi: 0
hugepages-2Mi: 0
memory: 113173836Ki
pods: 500
要解决此问题,请在 GPU 节点上运行以下命令:
awk '1;/plugins."io.containerd.grpc.v1.cri".containerd]/{print " default_runtime_name = \"nvidia\""}' /var/lib/rancher/rke2/agent/etc/containerd/config.toml > /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
systemctl stop rke2-agent
rke2-killall.sh
systemctl start rke2-agent
awk '1;/plugins."io.containerd.grpc.v1.cri".containerd]/{print " default_runtime_name = \"nvidia\""}' /var/lib/rancher/rke2/agent/etc/containerd/config.toml > /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
systemctl stop rke2-agent
rke2-killall.sh
systemctl start rke2-agent
要验证 GPU 资源是否显示,请运行以下命令:
kubectl describe node <GPU>
kubectl describe node <GPU>
在以下示例中,您可以看到存在
nvidia.com/gpu
,因此不再发生 GPU 问题。
Allocatable:
cpu: 5400m
ephemeral-storage: 51938908890
hugepages-1Gi: 0
hugepages-2Mi: 0
memory: 113173836Ki
nvidia.com/gpu: 1
pods: 500
Allocatable:
cpu: 5400m
ephemeral-storage: 51938908890
hugepages-1Gi: 0
hugepages-2Mi: 0
memory: 113173836Ki
nvidia.com/gpu: 1
pods: 500