- 概要
- 要件
- デプロイ テンプレート
- 手動: インストールを準備する
- 手動: インストールを準備する
- 手順 2: オフライン インストール用に OCI 準拠レジストリを設定する
- 手順 3: 外部 ObjectStore を構成する
- 手順 4: High Availability Add-on を構成する
- 手順 5: SQL データベースを構成する
- 手順 7: DNS を構成する
- 手順 8: ディスクを構成する
- 手順 9: カーネルと OS レベルの設定を構成する
- 手順 10: ノード ポートを構成する
- 手順 11: その他の設定を適用する
- 手順 12: 必要な RPM パッケージを検証してインストールする
- Cluster_config.json のサンプル
- 全般的な構成
- プロファイル構成
- 証明書の設定
- データベースの構成
- 外部 ObjectStore の構成
- 署名済み URL の構成
- ArgoCD の構成
- Kerberos 認証の構成
- 外部の OCI 準拠レジストリの設定
- Disaster Recovery - アクティブ/パッシブおよびアクティブ/アクティブの構成
- High Availability Add-on の構成
- Orchestrator 固有の設定
- Insights 固有の構成
- Process Mining 固有の構成
- Document Understanding 固有の構成
- Automation Suite ロボット固有の構成
- AI Center 固有の構成
- 監視の構成
- 任意: プロキシ サーバーを構成する
- 任意: マルチノードの HA 対応の運用クラスターにおけるゾーン障害に対する復元設定を有効化する
- 任意: カスタムの Resolv.con を渡す
- 任意: フォールト トレランスを向上させる
- GPU がサポートされた専用のエージェント ノードを追加する
- Automation Suite ロボット専用のエージェント ノードを追加する
- 手順 15: オフライン インストール用に一時的な Docker レジストリを設定する
- 手順 16: インストールの前提条件を検証する
- 手動: インストールを実行する
- インストール後
- クラスターの管理
- 監視とアラート機能
- 移行とアップグレード
- 製品固有の設定
- ベスト プラクティスとメンテナンス
- トラブルシューティング
- インストール時にサービスをトラブルシューティングする方法
- クラスターをアンインストールする方法
- オフライン成果物をクリーンアップしてディスク領域を改善する方法
- Redis データをクリアする方法
- Istio ログを有効化する方法
- ログを手動でクリーンアップする方法
- sf-logs バケットに保存されている古いログをクリーンアップする方法
- AI Center のストリーミング ログを無効化する方法
- 失敗した Automation Suite インストールをデバッグする方法
- アップグレード後に古いインストーラーからイメージを削除する方法
- TX チェックサム オフロードを無効化する方法
- ArgoCD のログ レベルを手動で Info に設定する方法
- AI Center のストレージを拡張する方法
- 外部レジストリーのエンコードされたpull_secret_valueを生成する方法
- TLS 1.2 で弱い暗号に対処する方法
- TLSのバージョンを確認する方法
- 証明書の操作方法
- Ceph のバックアップとデータの復元をスケジュールする方法
- クラスター内の ObjectStore (Ceph) を使用して DU の使用状況データを収集する方法
- エアギャップ環境に RKE2 SELinux をインストールする方法
- How to clean up old differential backups on an NFS server
- バンドルのダウンロード中のエラー
- バイナリがないため、オフライン インストールが失敗する
- オフライン インストールでの証明書の問題
- SQL 接続文字列の検証エラー
- Azure ディスクが SSD としてマークされない
- 証明書の更新後のエラー
- ウイルス対策が原因でインストールの問題が発生する
- OS のアップグレード後に Automation Suite が動作しない
- Automation Suite で backlog_wait_time を 0 に設定する必要がある
- RHEL 8.9 でレジストリの一時インストールが失敗する
- オフライン インストール中に uipath 名前空間のデプロイで頻繁に発生する再起動の問題
- DNS 設定が CoreDNS によって受け入れられない
- Ceph の異常によりアップグレードが失敗する
- 領域の問題のために rke2 が開始しない
- Orchestrator データベース内のクラシック オブジェクトが原因でアップグレードが失敗する
- Ceph クラスターがサイドバイサイド アップグレード後に機能低下ステートで検出される
- Apps のサービス アップグレードの失敗
- インプレース アップグレードのタイムアウト
- オフライン環境でアップグレードが失敗する
- アップグレード後に snapshot-controller-crds ポッドが CrashLoopBackOff ステートになる
- Insights の PVC サイズが上書きされたためにアップグレードが失敗する
- 管理ポータルのタイムアウト期間を設定する
- 移行後に認証が機能しない
- Kinit: Cannot find KDC for realm <AD Domain> while getting initial credentials
- kinit: Keytab contains no suitable keys for *** while getting initial credentials
- 無効なステータス コードが原因で GSSAPI 操作が失敗した
- Alarm received for failed kerberos-tgt-update job
- SSPI Provider: Server not found in Kerberos database
- アカウントが無効なため AD ユーザーのログインに失敗した
- ArgoCD へのログインに失敗した
- 基になるディレクトリ接続を更新する
- Process Mining で高可用性を実行する
- Kerberos を使用してログインすると、Process Mining を取り込むことができなかった
- pyodbc 形式の接続文字列を使用して AutomationSuite_ProcessMining_Warehouse データベースに接続できない
- Airflow のインストールが「sqlalchemy.exc.ArgumentError: Could not parse rfc1738 URL from string ''」で失敗する
- SQL Server ポート 1433 を使用する IP テーブル ルールを追加する方法
- CData Sync を実行しているサーバーの Automation Suite の証明書が信頼されない
- 診断ツールを実行する
- Automation Suite サポート バンドルを使用する
- ログを確認する
- 要約されたテレメトリを確認する

Linux の Automation Suite のインストール ガイド
After installing Automation Suite, you can remove any node from the cluster for machine maintenance purposes or to release unused resources. You can remove server, agent, and GPU nodes from the cluster.
クラスターからノードを削除できるのは、マルチノードの高可用性対応の運用設定のみです。
クラスターからノードを削除しても、ダウンタイムは発生しません。ただし、HAA が設定されていない場合、内部キャッシュ コンポーネントに影響する可能性があります。
The removal of the GPU node will not wait for already scheduled jobs, such as training pipeline or analysis. If these jobs are deleted in the process of node removal, you need to start afresh. Make sure that no processes are running on the nodes you plan to remove.
以下の手順を実行すると、単にノードがクラスターから削除されます。マシンは完全に消去されるわけではなく、残余ファイルがいくつか残るため、そのマシンは以降のインストールに使用できなくなる可能性があります。
「ディスクを構成する」の手順に従って、マシンをフォーマットし、インストールの準備、または既存クラスターへの追加の準備を行ってください。
クラスターからノードを正常に削除するには、次の要件を満たす必要があります。
- 結果のクラスターの容量は、ノードの削除前にスケジュールされたワークロードを実行するために必要な合計容量と一致する必要があります。 たとえば、ワークロード全体で 32 個の vCPU と 64 GB のメモリが必要な場合、ノードの削除後、クラスター内の残りのノードにも少なくとも同じ量のリソースが必要です。 そうしないと、ノードを削除できません。
- 作成されるクラスターにはサーバー ノードが 3 つ以上必要です。また、サーバー ノードの数が奇数である必要もあります。
- マルチゾーン設定の場合、作成されるクラスターの 3 つのゾーンそれぞれにサーバー ノードが必要です。
- クラスターは正常なステートである必要があります。つまり、すべてのノードまたはポッドが正常である必要があります。ポッドが異常になるのは、そのステートが
Pending、Error、Init、Crashloopbackoff、Terminatingのいずれかである場合です。 - You cannot remove GPU nodes unless additional corresponding GPU nodes are available.
クラスターからノードを削除するには、次の手順を実行します。
スクリプトによって、ノードをシャットダウンまたは終了するよう警告が表示されます。ノードがシャットダウンされるまで、このスクリプトはノードをクラスターから削除しません。スクリプトは、ノードがシャットダウンされるまで 5 分待ってからタイムアウトします。スクリプトにより、どのノードをどの順序でシャットダウンするかについて指示が示されます。要求された時間内にノードをシャットダウンしなかった場合は、スクリプトを再実行することもできます。
ノード削除プロセス全体を自動化するには、次の手順を実行します。
- 手順 3 で、スクリプトの最後に
--skip-node-deletionフラグを追加します。 - スクリプトが成功したら、最初のターゲット ノードをシャットダウンしてから、今度は
--skip-node-deletionを指定せずにスクリプトを再実行します。スクリプトに指定された順序でノードをシャットダウンしていない場合、スクリプトは失敗します。予定のノードがシャットダウンされたら、いつでもスクリプトを再実行できます。 - すべてのノードが正常に削除されるまで、前の手順を繰り返します。
削除するノードの名前を取得するには、「ノード名を取得する方法」をご覧ください。
ノード名を取得する方法
ノードの名前を取得するには、次の手順を実行します。
agent3、server0、server1、server2 である場合のサンプル出力を示しています。