Automation Suite
2021.10
偽
- 概要
- 要件
- インストール
- インストール後
- クラスターの管理
- 監視とアラート機能
- 移行とアップグレード
- 製品固有の設定
- ベストプラクティスとメンテナンス
- トラブルシューティング
- 移行後にログインできない
- 管理ポータルのタイムアウト期間を設定する
- 基になるディレクトリ接続を更新する
- Kinit: Cannot Find KDC for Realm <AD Domain> While Getting Initial Credentials
- kinit: Keytab contains no suitable keys for *** while getting initial credentials
- GSSAPI operation failed with error: An invalid status code was supplied (Client's credentials have been revoked).
- Login Failed for User <ADDOMAIN><aduser>.Reason: The Account Is Disabled.
- Alarm received for failed kerberos-tgt-update job
- SSPI Provider: Server not found in Kerberos database
- Automation Suite 診断ツールを使用する
- Automation Suite サポート バンドル ツールを使用する
- ログを確認する
GPU がサポートされた専用のエージェント ノードを追加する
Automation Suite インストール ガイド
最終更新日 2024年4月19日
GPU がサポートされた専用のエージェント ノードを追加する
注:
現在、Automation Suite でサポートされているのは、Nvidia GPU ドライバーのみです。GPU がサポートされているオペレーティング システムのリストをご覧ください。
クラウド固有のインスタンスの種類について詳しくは、以下をご覧ください。
GPU がサポートされている専用エージェントを追加する前に、ハードウェア要件を確認してください。
注: GPU ドライバーは、
/opt/nvidia
フォルダーと /usr
フォルダーに保存されています。GPU エージェント マシンでは、それぞれ 5 GiB 以上と 15 GiB 以上のフォルダーを使用することを強くお勧めします。
ドライバーが正常にインストールされているかどうかを確認します。
ノード上で
sudo nvidia-smi
コマンドを実行し、ドライバーが適切にインストールされたかどうかを確認します。
注: クラスターがプロビジョニングされた後、プロビジョニングされた GPU を構成するには追加の手順が必要です。
この時点で、GPU ドライバーがインストールされ、GPU ノードがクラスターに追加されています。
ディスクが正しくパーティション分割され、すべてのネットワーク要件が満たされるよう、マシンを構成する手順を実行します。
DOCKER_REGISTRY_URL=$(cat defaults.json | jq -er ".registries.docker.url")
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset
DOCKER_REGISTRY_URL=$(cat defaults.json | jq -er ".registries.docker.url")
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset
DOCKER_REGISTRY_URL=localhost:30071
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset
DOCKER_REGISTRY_URL=localhost:30071
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset