Automation Suite
2022.4
偽
- 概要
- 要件
- インストール
- インストール後
- クラスターの管理
- 監視とアラート機能
- 移行とアップグレード
- 製品固有の設定
- ベストプラクティスとメンテナンス
- トラブルシューティング
- インストール時にサービスをトラブルシューティングする方法
- クラスターをアンインストールする方法
- オフライン成果物をクリーンアップしてディスク領域を改善する方法
- Redis データをクリアする方法
- Istio ログを有効化する方法
- ログを手動でクリーンアップする方法
- sf-logs バンドルに保存されている古いログをクリーンアップする方法
- AI Center のストリーミング ログを無効化する方法
- 失敗した Automation Suite インストールをデバッグする方法
- アップグレード後に古いインストーラーからイメージを削除する方法
- Longhorn スナップショットを自動的にクリーンアップする方法
- NIC チェックサムオフロードを無効にする方法
- RHEL 8.4 OS でオフライン インストールを実行できない
- バンドルのダウンロード中のエラー
- バイナリがないため、オフライン インストールが失敗する
- オフライン インストールでの証明書の問題
- Longhorn のセットアップ中に最初のインストールが失敗する
- SQL 接続文字列の検証エラー
- selinux iscsid モジュールの前提条件の確認が失敗する
- Azure ディスクが SSD としてマークされない
- 証明書の更新後のエラー
- OS のアップグレード後に Automation Suite が動作しない
- Automation Suite で Backlog_wait_time を 1 に設定する必要がある
- ワークロードの準備ができていないためボリュームをマウントできない
- インストールおよびアップグレード中に RKE2 が失敗する
- 管理ポータルのタイムアウト期間を設定する
- 基になるディレクトリ接続を更新する
- 移行後にログインできない
- Kinit: Cannot Find KDC for Realm <AD Domain> While Getting Initial Credentials
- kinit: Keytab contains no suitable keys for *** while getting initial credentials
- GSSAPI operation failed with error: An invalid status code was supplied (Client's credentials have been revoked).
- Alarm received for failed kerberos-tgt-update job
- SSPI Provider: Server not found in Kerberos database
- Login Failed for User <ADDOMAIN><aduser>.Reason: The Account Is Disabled.
- ArgoCD へのログインに失敗した
- サンドボックス イメージを取得できない
- ポッドが ArgoCD UI に表示されない
- Redis プローブの障害
- RKE2 サーバーの起動に失敗する
- UiPath 名前空間でシークレットが見つからない
- 初期インストール後、ArgoCD アプリが Progressing ステートになる
- MongoDB ポッドが CrashLoopBackOff になるか、削除後に PVC プロビジョニングの保留中になる
- Unexpected inconsistency; run fsck manually
- クラスターの復元後に MongoDB またはビジネス アプリケーションの機能が低下する
- self-heal-operator および sf-k8-utils リポジトリが見つからない
- クラスターの復元またはロールバック後にサービスが異常になる
- RabbitMQ ポッドが CrashLoopBackOff でスタックする
- Prometheus が CrashloopBackoff ステートでメモリ不足 (OOM) エラーを伴う
- 監視ダッシュボードに Ceph-rook メトリックが表示されない
- Automation Suite 診断ツールを使用する
- Automation Suite サポート バンドル ツールを使用する
- ログを確認する
GCP のデプロイ アーキテクチャ
Automation Suite インストール ガイド
最終更新日 2024年4月24日
GCP のデプロイ アーキテクチャ
重要: 現在、GCP のデプロイ テンプレートは Automation Suite 2023.10 でのみ使用できます。したがって、Automation Suite 2023.10 のドキュメントを参照することをお勧めします。
このページでは、GCP でのデプロイ アーキテクチャ、必要なコンポーネント、および既知のすべての制限事項についての洞察を提供します。
-
仮想ネットワーク
- すべてのノードが存在するサブネット。
- 送信接続用の NAT ゲートウェイ (Cloud Router に接続される Cloud Nat リソース)。
- サブネット トラフィックを保護するためのファイアウォール ルール。
- インストールに必要な DNS プライベート ゾーン。詳細については、「既知の制限事項」のセクションをご覧ください。
-
3 つの Managed Instance Group。サーバー ノード、エージェント ノード、GPU エージェント ノードのインスタンスの種類を選択できます。マルチノードの高可用性対応の運用環境のマシン要件とシングルノードの評価のマシン要件を確認し、ハードウェア要件を満たすようにしてください。各 VM は、128 GiB の OS、256 GiB のクラスター バイナリ、およびステート ディスクを持ちます。サーバー ノードは、AI 製品がインストールされているかどうかに応じて、追加で 512GiB/2048GiB のデータ ディスクを持ちます。
- サーバー ノード (クラスター制御プレーン)。サーバー ノードはワークロードも実行します。
- エージェント ノード。ワークロードの実行専用に設計されています (制御プレーン サービスはありません)。必要なエージェント ノード数が 0 の場合、空の Managed Instance Group が作成されます。
- GPU ノード。ビデオ カードを備えた ML モデル専用のノードです。必要な GPU ノード数が 0 の場合、Managed Instance Group は作成されません。
- ポート
443
からノードへの HTTPS トラフィックのバランスを取るために使用されるパブリック ロード バランサー。 - ノード登録要求を転送するために必要な 2 つの内部ロード バランサーと 1 つの Managed Instance Group。VM のインスタンス サイズは可能な限り小さいサイズとなります。
- 別個の VM としてデプロイされる Task Mining ノード。このインスタンス タイプは n2-standard-32 です。
- 他のノードへのアクセスに使用される踏み台インスタンス。パブリック IP を持ち、SSH が有効化されています。
-
SQL データベース インスタンス:
- 8 コア、32 GiB RAM
- ディスク サイズ 1000 GiB (手動で拡張可能)
- データベースはインストーラーによって作成されます。
- SQL Server、Automation Suite プラットフォーム、および ArgoCD コンソール用に自動生成された資格情報を保存するために使用される Secret Manager。
DNS
- DNS を自動的に LB に接続することはできないため、以下のとおりとなります。
- DNS の構成手順を実行できるのはインストールが終わった後のみですが、このような構成はインストール中に必要となります。プライベート DNS ゾーンはこの問題を解決し、インストールの完了後に安全に削除することができます。テスト目的の場合は、「手順 4: DNS を構成する」を確認してください。
- コア DNS アップストリーム サーバーは、ノードのネームサーバーと一致するようにする必要があります。これにより、VM の再起動時に rke 構成ファイル (
/etc/rancher/rke2/config.yaml
) が破損する場合があり、インストール後のアップグレード プロセスに影響を与える可能性があります。
RHEL
- Google が予告なしに RHEL のバージョンを更新し、これにより Automation Suite のデプロイがサポート対象外となる場合があります。現在のところ、カスタム RHEL イメージを使用した手動デプロイが、サポート対象であり続ける唯一の方法です。