Automation Suite
2021.10
False
- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
添加具有 GPU 支持的专用代理节点
Automation Suite 安装指南
上次更新日期 2024年4月19日
添加具有 GPU 支持的专用代理节点
备注:
Automation Suite 当前仅支持 NVIDIA GPU 驱动程序。请参阅支持 GPU 的操作系统列表。
有关特定于云的实例类型的更多信息,请参阅以下内容:
在添加具有 GPU 支持的专用代理节点之前,请确保检查硬件要求。
注意: GPU 驱动程序存储在
/opt/nvidia
和 /usr
文件夹下。 强烈建议这些文件夹在 GPU 代理计算机上至少分别为 5 GiB 和 15 GiB 。
验证驱动程序是否已正确安装
在节点上运行
sudo nvidia-smi
命令以验证驱动程序是否已正确安装。
注意:配置集群后,需要执行其他步骤来配置已配置的 GPU。
此时,GPU 驱动程序已安装,并且 GPU 节点已添加到集群中。
请按照以下步骤配置计算机,以确保磁盘分区正确且满足所有网络要求。
DOCKER_REGISTRY_URL=$(cat defaults.json | jq -er ".registries.docker.url")
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset
DOCKER_REGISTRY_URL=$(cat defaults.json | jq -er ".registries.docker.url")
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset
DOCKER_REGISTRY_URL=localhost:30071
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset
DOCKER_REGISTRY_URL=localhost:30071
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset