ai-center

2021.10

false

基本情報
- このガイドについて
- インストールについて
  - シングルノードおよびマルチノードのインストールでサポートされるユースケース
  - インストールパッケージをダウンロードする
ネットワーク要件
- 要件
シングルノードの要件とインストール
マルチノードの要件とインストール
インストール後
- 概要
GPU をプロビジョニングする
- GPU をプロビジョニングする
構成ファイルを使用する
- 構成ファイルについて
ノードのスケジュール設定
- ノードのスケジュール設定を管理する
移行とアップグレード
- スタンドアロンまたは Automation Suite 環境に移行する
- AI Center をアップグレードする
基本的なトラブルシューティングガイド
- AI Center の一般的なトラブルシューティングとよくある質問
- スタンドアロンの AI Center のトラブルシューティング

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

サポート対象外

AI Center インストールガイド

デリバリー:

Automation Cloud Automation Suite Standalone

最終更新日時 2024年11月11日

GPU をプロビジョニングする

注: GPU は、サーバーノードではなく、エージェントノードでのみインストールできます。cluster_config.json の gpu_support フラグを使用または変更しないでください。代わりに、以下の手順に従って、GPU がサポートされた専用のエージェントノードをクラスターに追加します。

現在、Automation Suite では、Nvidia GPU ドライバーのみをサポートしています。GPU がサポートされているオペレーティングシステムのリストをご覧ください。

ノードのクラウド固有インスタンスタイプは以下のとおりです。

「クラスターに新しいノードを追加する」の手順を実行して、エージェントノードが正しく追加されていることを確認します。

GPU に NVIDIA CUDA をデプロイする方法の他の例については、こちらのページをご覧ください。

GPU ドライバーをインストールする

次のコマンドを実行し、エージェントノードに GPU ドライバーをインストールします。
```
sudo yum install kernel kernel-tools kernel-headers kernel-devel 
sudo reboot
sudo yum install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
sudo sed 's/$releasever/8/g' -i /etc/yum.repos.d/epel.repo
sudo sed 's/$releasever/8/g' -i /etc/yum.repos.d/epel-modular.repo
sudo yum config-manager --add-repo http://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
sudo yum install cudasudo yum install kernel kernel-tools kernel-headers kernel-devel 
sudo reboot
sudo yum install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
sudo sed 's/$releasever/8/g' -i /etc/yum.repos.d/epel.repo
sudo sed 's/$releasever/8/g' -i /etc/yum.repos.d/epel-modular.repo
sudo yum config-manager --add-repo http://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
sudo yum install cuda
```

次のコマンドを実行してコンテナーツールキットをインストールします。

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \\
          && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo
sudo dnf clean expire-cache
sudo yum install -y nvidia-container-runtime.x86_64distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \\
          && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo
sudo dnf clean expire-cache
sudo yum install -y nvidia-container-runtime.x86_64

ドライバーが適切にインストールされているかどうかを確認します。

ノード上で sudo nvidia-smi コマンドを実行し、ドライバーが適切にインストールされたかどうかを確認します。

注: クラスターがプロビジョニングされた後、プロビジョニングされた GPU を構成するには追加の手順が必要です。

この時点で、GPU ドライバーがインストールされ、GPU ノードがクラスターに追加されています。

GPU をエージェントノードに追加する

次の 2 つのコマンドを実行して、エージェントノードの contianerd 構成を更新します。

cat <<EOF > gpu_containerd.sh
if ! nvidia-smi &>/dev/null;
then
  echo "GPU Drivers are not installed on the VM. Please refer the documentation."
  exit 0
fi
if ! which nvidia-container-runtime &>/dev/null;
then
  echo "Nvidia container runtime is not installed on the VM. Please refer the documentation."
  exit 0 
fi
grep "nvidia-container-runtime" /var/lib/rancher/rke2/agent/etc/containerd/config.toml &>/dev/null && info "GPU containerd changes already applied" && exit 0
awk '1;/plugins.cri.containerd]/{print "  default_runtime_name = \\"nvidia-container-runtime\\""}' /var/lib/rancher/rke2/agent/etc/containerd/config.toml > /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
echo -e '\
[plugins.linux]\
  runtime = "nvidia-container-runtime"' >> /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
echo -e '\
[plugins.cri.containerd.runtimes.nvidia-container-runtime]\
  runtime_type = "io.containerd.runc.v2"\
  [plugins.cri.containerd.runtimes.nvidia-container-runtime.options]\
    BinaryName = "nvidia-container-runtime"' >> /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
EOFsudo bash gpu_containerd.shcat <<EOF > gpu_containerd.sh
if ! nvidia-smi &>/dev/null;
then
  echo "GPU Drivers are not installed on the VM. Please refer the documentation."
  exit 0
fi
if ! which nvidia-container-runtime &>/dev/null;
then
  echo "Nvidia container runtime is not installed on the VM. Please refer the documentation."
  exit 0 
fi
grep "nvidia-container-runtime" /var/lib/rancher/rke2/agent/etc/containerd/config.toml &>/dev/null && info "GPU containerd changes already applied" && exit 0
awk '1;/plugins.cri.containerd]/{print "  default_runtime_name = \\"nvidia-container-runtime\\""}' /var/lib/rancher/rke2/agent/etc/containerd/config.toml > /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
echo -e '\
[plugins.linux]\
  runtime = "nvidia-container-runtime"' >> /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
echo -e '\
[plugins.cri.containerd.runtimes.nvidia-container-runtime]\
  runtime_type = "io.containerd.runc.v2"\
  [plugins.cri.containerd.runtimes.nvidia-container-runtime.options]\
    BinaryName = "nvidia-container-runtime"' >> /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
EOFsudo bash gpu_containerd.sh

以下のコマンドを実行し、rke2-agent を再起動します。

[[ "$(sudo systemctl is-enabled rke2-server 2>/dev/null)" == "enabled" ]] && systemctl restart rke2-server
[[ "$(sudo systemctl is-enabled rke2-agent 2>/dev/null)" == "enabled" ]] && systemctl restart rke2-agent[[ "$(sudo systemctl is-enabled rke2-server 2>/dev/null)" == "enabled" ]] && systemctl restart rke2-server
[[ "$(sudo systemctl is-enabled rke2-agent 2>/dev/null)" == "enabled" ]] && systemctl restart rke2-agent

インストール後に GPU ドライバーを有効化する

任意のプライマリサーバーノードから、次のコマンドを実行します。

UiPathAutomationSuite フォルダーに移動します。

cd /opt/UiPathAutomationSuitecd /opt/UiPathAutomationSuite

オンラインインストールで有効化する

DOCKER_REGISTRY_URL=$(cat defaults.json | jq -er ".registries.docker.url")
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonsetDOCKER_REGISTRY_URL=$(cat defaults.json | jq -er ".registries.docker.url")
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset

オフラインインストールで有効化する

DOCKER_REGISTRY_URL=localhost:30071
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonsetDOCKER_REGISTRY_URL=localhost:30071
sed -i "s/REGISTRY_PLACEHOLDER/${DOCKER_REGISTRY_URL}/g" ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl apply -f ./Infra_Installer/gpu_plugin/nvidia-device-plugin.yaml
kubectl -n kube-system rollout restart daemonset nvidia-device-plugin-daemonset

GPU taint

GPU ワークロードは、要求すると自動的に GPU ノード上でスケジュールされます。ただし、通常の CPU ワークロードも、キャパシティを確保して、これらのノード上でスケジュールされる可能性があります。これらのノード上で GPU ワークロードのみをスケジュールする場合、最初のノードから次のコマンドを使用して、これらのノードに taint を追加できます。

nvidia.com/gpu=present:NoSchedule - GPU 以外のワークロードは、明示的に指定されない限り、このノードでスケジュールされません。
nvidia.com/gpu=present:PreferNoSchedule - このコマンドでは、最初のオプションのように厳しい条件ではなく、望ましい条件になります。

次のコマンドで、<node-name> をクラスター内の対応する GPU ノード名に、<taint-name> を上記 2 つのオプションのいずれかに置き換えます。

kubectl taint node <node-name> <taint-name>kubectl taint node <node-name> <taint-name>

GPU ノードのプロビジョニングを検証する

GPU ノードが正常に追加されたことを確認するには、ターミナルで次のコマンドを実行します。出力には、CPU および RAM リソースとともに nvidia.com/gpu が表示されます。

kubectl describe node <node-name>kubectl describe node <node-name>

GPU ドライバーをインストールする
GPU をエージェントノードに追加する
インストール後に GPU ドライバーを有効化する
オンラインインストールで有効化する
オフラインインストールで有効化する
GPU taint
GPU ノードのプロビジョニングを検証する

このページは役に立ちましたか?

前へKerberos 認証を設定する

次へ構成ファイルについて

サポートとサービス

サポートを受ける

UiPath アカデミー

RPA について学ぶ - オートメーションコース

UiPath コミュニティフォーラム

AI Center インストール ガイド