automation-suite
2021.10
false
- 概要
- 要件
- インストール
- インストール後
- クラスターの管理
- 監視とアラート機能
- 移行とアップグレード
- 製品固有の設定
- ベスト プラクティスとメンテナンス
- トラブルシューティング
- 移行後にログインできない
- 管理ポータルのタイムアウト期間を設定する
- 基になるディレクトリ接続を更新する
- Kinit: Cannot Find KDC for Realm <AD Domain> While Getting Initial Credentials
- kinit: Keytab contains no suitable keys for *** while getting initial credentials
- GSSAPI operation failed with error: An invalid status code was supplied (Client's credentials have been revoked).
- Login Failed for User <ADDOMAIN><aduser>. Reason: The Account Is Disabled.
- Alarm received for failed kerberos-tgt-update job
- SSPI Provider: Server not found in Kerberos database
- Automation Suite 診断ツールを使用する
- Automation Suite サポート バンドルを使用する
- ログを確認する
GPU がサポートされた専用のエージェント ノードを追加する
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
サポート対象外
Automation Suite インストール ガイド
Last updated 2024年11月21日
GPU がサポートされた専用のエージェント ノードを追加する
注:
現在、Automation Suite でサポートされているのは、Nvidia GPU ドライバーのみです。GPU がサポートされているオペレーティング システムのリストをご覧ください。
クラウド固有のインスタンスの種類について詳しくは、以下をご覧ください。
GPU がサポートされている専用エージェントを追加する前に、ハードウェア要件を確認してください。
注:
-
以下の手順は、Automation Suite のオンライン インストールとオフライン インストールの両方に適用されます。オフライン インストールの場合は、必要な GPU ドライバーの依存関係を取得するために、一時的なインターネット アクセスを確保する必要があります。GPU ドライバーのインストール中に問題が発生した場合は、NVIDIA のサポートにお問い合わせください。
-
GPU ドライバーは、
/opt/nvidia
フォルダーと/usr
フォルダーに保存されています。GPU エージェント マシンでは、それぞれ 5 GiB 以上と 15 GiB 以上のフォルダーを使用することを強くお勧めします。
ドライバーが正常にインストールされているかどうかを確認します。
ノード上で
sudo nvidia-smi
コマンドを実行し、ドライバーが適切にインストールされたかどうかを確認します。
注: クラスターがプロビジョニングされた後、プロビジョニングされた GPU を構成するには追加の手順が必要です。
この時点で、GPU ドライバーがインストールされ、GPU ノードがクラスターに追加されています。
ディスクが正しくパーティション分割され、すべてのネットワーク要件が満たされるよう、マシンを構成する手順を実行します。
DOCKER_REGISTRY_URL=$(cat defaults.json | jq -er ".registries.docker.url")
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset
DOCKER_REGISTRY_URL=$(cat defaults.json | jq -er ".registries.docker.url")
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset
DOCKER_REGISTRY_URL=localhost:30071
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset
DOCKER_REGISTRY_URL=localhost:30071
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset