- 概要
- 要件
- デプロイ テンプレート
- 手動: インストールを準備する
- 手動: インストールを準備する
- 手順 2: オフライン インストール用に OCI 準拠レジストリを設定する
- 手順 3: 外部 ObjectStore を構成する
- 手順 4: High Availability Add-on を構成する
- 手順 5: SQL データベースを構成する
- 手順 7: DNS を構成する
- 手順 8: ディスクを構成する
- 手順 9: カーネルと OS レベルの設定を構成する
- 手順 10: ノード ポートを構成する
- 手順 11: その他の設定を適用する
- 手順 12: 必要な RPM パッケージを検証してインストールする
- Cluster_config.json のサンプル
- 全般的な構成
- プロファイル構成
- 証明書の設定
- データベースの構成
- 外部 ObjectStore の構成
- 署名済み URL の構成
- ArgoCD の構成
- Kerberos 認証の構成
- 外部の OCI 準拠レジストリの設定
- Disaster Recovery - アクティブ/パッシブおよびアクティブ/アクティブの構成
- High Availability Add-on の構成
- Orchestrator 固有の設定
- Insights 固有の構成
- Process Mining 固有の構成
- Document Understanding 固有の構成
- Automation Suite ロボット固有の構成
- AI Center 固有の構成
- 監視の構成
- 任意: プロキシ サーバーを構成する
- 任意: マルチノードの HA 対応の運用クラスターにおけるゾーン障害に対する復元設定を有効化する
- 任意: カスタムの Resolv.con を渡す
- 任意: フォールト トレランスを向上させる
- GPU がサポートされた専用のエージェント ノードを追加する
- Automation Suite ロボット専用のエージェント ノードを追加する
- 手順 15: オフライン インストール用に一時的な Docker レジストリを設定する
- 手順 16: インストールの前提条件を検証する
- 手動: インストールを実行する
- インストール後
- クラスターの管理
- 監視とアラート機能
- 移行とアップグレード
- 製品固有の設定
- ベスト プラクティスとメンテナンス
- トラブルシューティング
- インストール時にサービスをトラブルシューティングする方法
- クラスターをアンインストールする方法
- オフライン成果物をクリーンアップしてディスク領域を改善する方法
- Redis データをクリアする方法
- Istio ログを有効化する方法
- ログを手動でクリーンアップする方法
- sf-logs バケットに保存されている古いログをクリーンアップする方法
- AI Center のストリーミング ログを無効化する方法
- 失敗した Automation Suite インストールをデバッグする方法
- アップグレード後に古いインストーラーからイメージを削除する方法
- TX チェックサム オフロードを無効化する方法
- ArgoCD のログ レベルを手動で Info に設定する方法
- AI Center のストレージを拡張する方法
- 外部レジストリーのエンコードされたpull_secret_valueを生成する方法
- TLS 1.2 で弱い暗号に対処する方法
- TLSのバージョンを確認する方法
- 証明書の操作方法
- Ceph のバックアップとデータの復元をスケジュールする方法
- クラスター内の ObjectStore (Ceph) を使用して DU の使用状況データを収集する方法
- エアギャップ環境に RKE2 SELinux をインストールする方法
- How to clean up old differential backups on an NFS server
- バンドルのダウンロード中のエラー
- バイナリがないため、オフライン インストールが失敗する
- オフライン インストールでの証明書の問題
- SQL 接続文字列の検証エラー
- Azure ディスクが SSD としてマークされない
- 証明書の更新後のエラー
- ウイルス対策が原因でインストールの問題が発生する
- OS のアップグレード後に Automation Suite が動作しない
- Automation Suite で backlog_wait_time を 0 に設定する必要がある
- RHEL 8.9 でレジストリの一時インストールが失敗する
- オフライン インストール中に uipath 名前空間のデプロイで頻繁に発生する再起動の問題
- DNS 設定が CoreDNS によって受け入れられない
- Ceph の異常によりアップグレードが失敗する
- 領域の問題のために rke2 が開始しない
- Orchestrator データベース内のクラシック オブジェクトが原因でアップグレードが失敗する
- Ceph クラスターがサイドバイサイド アップグレード後に機能低下ステートで検出される
- Apps のサービス アップグレードの失敗
- インプレース アップグレードのタイムアウト
- オフライン環境でアップグレードが失敗する
- アップグレード後に snapshot-controller-crds ポッドが CrashLoopBackOff ステートになる
- Insights の PVC サイズが上書きされたためにアップグレードが失敗する
- 管理ポータルのタイムアウト期間を設定する
- 移行後に認証が機能しない
- Kinit: Cannot find KDC for realm <AD Domain> while getting initial credentials
- kinit: Keytab contains no suitable keys for *** while getting initial credentials
- 無効なステータス コードが原因で GSSAPI 操作が失敗した
- Alarm received for failed kerberos-tgt-update job
- SSPI Provider: Server not found in Kerberos database
- アカウントが無効なため AD ユーザーのログインに失敗した
- ArgoCD へのログインに失敗した
- 基になるディレクトリ接続を更新する
- Process Mining で高可用性を実行する
- Kerberos を使用してログインすると、Process Mining を取り込むことができなかった
- pyodbc 形式の接続文字列を使用して AutomationSuite_ProcessMining_Warehouse データベースに接続できない
- Airflow のインストールが「sqlalchemy.exc.ArgumentError: Could not parse rfc1738 URL from string ''」で失敗する
- SQL Server ポート 1433 を使用する IP テーブル ルールを追加する方法
- CData Sync を実行しているサーバーの Automation Suite の証明書が信頼されない
- 診断ツールを実行する
- Automation Suite サポート バンドルを使用する
- ログを確認する
- 要約されたテレメトリを確認する

Linux の Automation Suite のインストール ガイド
AlertmanagerConfigInconsistent
Alertmanager インスタンスの構成が異なる場合に発生します。 これは、設定のロールアウトに問題があり、 Alertmanagerのすべてのインスタンスで一貫性がないことを示している可能性があります。
この問題を修正するには、次の手順に従います。
-
デプロイされているすべての
alertmanager.ymlの間でdiffツールを実行して問題を特定します。 -
間違ったシークレットを削除し、正しいシークレットをデプロイします。
問題が解決しない場合は UiPath® サポートにお問い合わせください。
AlertmanagerFailedReload
AlertManager による構成の読み込みまたは再読み込みが失敗しました。AlertManager のカスタム構成に入力エラーがないかチェックし、入力エラーでない場合は、UiPath® サポートに連絡してサポート バンドルを提供してください。詳しくは、「 Automation Suite サポート バンドルを使用する」をご覧ください。
AlertmanagerMembersInconsistent
これらは、複数の AlertManager レプリカを持つ HA クラスターを対象とする、内部の AlertManager エラーです。アラートが断続的に表示されたり消えたりする場合があります。一時的に AlertManager レプリカを縮小して拡大すると、問題が解決する可能性があります。
この問題を修正するには、次の手順に従います。
-
ゼロで表示。ポッドがシャットダウンするまで少し時間がかかることに注意してください。
statefulset.apps/alertmanager-monitoring-kube-prometheus-alertmanager scaledstatefulset.apps/alertmanager-monitoring-kube-prometheus-alertmanager scaled -
2 に縮小:
kubectl scale statefulset -n monitoring alertmanager-monitoring-kube-prometheus-alertmanager --replicas=2kubectl scale statefulset -n monitoring alertmanager-monitoring-kube-prometheus-alertmanager --replicas=2 -
Alertmanager ポッドが起動し、実行ステートになっているかどうかを確認します。
kubectl get po -n monitoringkubectl get po -n monitoring
問題が解決しない場合は UiPath® サポートにお問い合わせください。
TargetDown
このアラート時には、Prometheus がターゲットからメトリックを収集できません。つまり、Grafana ダッシュボード、およびターゲットからのメトリックに基づくその他のアラートが利用できません。ターゲットに関係のあるその他のアラートを確認してください。
Watchdog
警告しているパイプライン全体が機能していることを確認するためのアラートです。このアラートは常に発生しています。したがって、このアラートは常に AlertManager で受信者に対して通知されます。このアラートが発生していないときに通知する各種通知メカニズムと連携しています(例: PagerDuty の DeadMansSnitch との連携)。
PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
Prometheus リソースを制御する Prometheus 演算子の内部エラーです。このエラーが発生している間はまだ Prometheus 自体は正常ですが、このエラーは、監視の構成可能性が低下していることを示しています。UiPath® サポートにお問い合わせください。
PrometheusBadConfig
Prometheus による構成の読み込みまたは再読み込みが失敗しました。Prometheus のカスタム構成に入力エラーがないかチェックし、それ以外の場合は、UiPath® サポートにお問い合わせください。
PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
Prometheus から AlertManager への接続が正常ではありません。メトリックは依然としてクエリ可能で、Grafana ダッシュボードに引き続き表示される可能性がありますが、アラートは発生しません。AlertManager のカスタム構成に入力エラーがないかチェックし、入力エラーでない場合は、UiPath® サポートにお問い合わせください。
PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
メトリックが期待どおりに収集されない可能性があることを示す、内部 Prometheus エラーです。UiPath® サポートにお問い合わせください。
PrometheusRuleFailures
これは、存在しないメトリックまたは誤った PromQL 構文に基づく、正しくないアラートがある場合に発生する可能性があります。カスタム アラートが追加されていない場合は、UiPath® サポートにお問い合わせください。
PrometheusMissingRuleEvaluations
Prometheus がアラートを発生させるべきかどうかを評価できません。これは、アラートが多すぎる場合に発生することがあります。コストのかかるカスタム アラートの評価を削除したり、Prometheus の CPU 制限値の引き上げに関するドキュメントを参照してください。カスタム アラートが追加されていない場合は、UiPath® サポートにお問い合わせください。
PrometheusTargetLimitHit
Prometheus が収集先とするターゲットが多すぎます。ServiceMonitor が追加されている (監視コンソールを確認) 場合は、これらを削除できます。
PrometheusMemoryUsage, PrometheusStorageUsage
これらのアラートは、クラスターがメモリとストレージに対して構成された制限に近づくと警告を発します。 これは、最近使用量が大幅に増加したクラスター (通常はユーザーではなくロボットによる使用) や、Prometheus リソースを調整せずにノードをクラスターに追加した場合に発生する可能性があります。 これは、収集されるメトリックの量が増えたことによるものです。 また、多数のアラートが発生していることが原因である可能性もあります。大量のアラートが発せられている理由を確認することが重要です。
この問題が解決しない場合は、生成された サポート バンドルを添えて UiPath® サポートにお問い合わせください。
UiPathAvailabilityHighTrafficUserFacing
UiPath® サービスからの http 500 応答の数が、指定されたしきい値を超えています。
|
トラフィック レベル |
20 分以内のリクエスト数 |
エラーしきい値 (http 500番台のエラー) |
|---|---|---|
|
高 (High) |
>100,000 |
0.1% |
|
中 |
10,000 ~ 100,000 |
1% |
|
低 (Low) |
< 10,000 |
5% |
ユーザー向けのサービスでエラーが発生すると、Automation Suite UI で直接確認可能な機能低下が生じる可能性があります。これに対し、バックエンド サービスのエラーによる影響はあまり明白ではない可能性があります。
このアラートによって、どのサービスのエラー率が高いのかがわかります。レポートしているサービスが依存している他のサービスからどのような連鎖的な問題が生じ得るのかを理解するには、サービス間のエラーを表示する Istio Workload ダッシュボードを使用できます。
最近になって再構成された Automation Suite 製品すべてを再確認してください。kubectl logs コマンドで詳細なログを使用することもできます。エラーが解決しない場合は UiPath® サポートにご連絡ください。
NFSServerDisconnected
このアラートは、NFS サーバーの接続が失われたことを示します。
NFS サーバーの接続とマウント パスを確認する必要があります。
VolumeBackupFailed
このアラートは、PVC のバックアップが失敗したことを示します。
この問題に対処するには、次の手順を実行します。
-
PVC のステータスをチェックして、永続ボリューム (PV) に
Boundていることを確認します。kubectl get pvc --namespace <namespace>kubectl get pvc --namespace <namespace>このコマンドは、すべての PVC とその現在のステータスを一覧表示します。 PVC のステータスは、PV の要求に成功したことを示すBoundである必要があります。ステータスがPendingの場合は、PVC がまだ適切な PV を待機しており、さらに調査が必要であることを意味します。 -
PVC が
Boundステートでない場合、またはより詳細な情報が必要な場合は、describeコマンドを使用します。kubectl describe pvc <pvc-name> --namespace <namespace>kubectl describe pvc <pvc-name> --namespace <namespace>ステータス、イベント、およびエラーメッセージに関する情報を探します。 たとえば、ストレージ クラスの設定ミスやクォータの制限などが問題である可能性があります。
-
PVC にバインドされている永続ボリューム (PV) の正常性を確認します。
kubectl get pv <pv-name>kubectl get pv <pv-name>ステータスは「」Boundはずです。 PV がReleased状態またはFailed状態の場合は、基になるストレージに問題があることを示している可能性があります。 -
PVC がポッドによって使用されている場合は、ポッドがボリュームを正常にマウントしたかどうかを確認します。
kubectl get pod <pod-name> --namespace <namespace>kubectl get pod <pod-name> --namespace <namespace>ポッドがRunningステートの場合は、PVC が正常にマウントされたことを示します。 ポッドがエラー ステート (InitBackOffなど) の場合は、ボリュームのマウントに問題があることを示している可能性があります。 -
PVC のマウントに問題がある場合は、ポッドに記述してマウント エラーがないか確認します。
kubectl describe pod <pod-name> --namespace <namespace>kubectl describe pod <pod-name> --namespace <namespace>
BackupDisabled
このアラートは、バックアップが無効化されていることを示します。
バックアップを有効にする必要があります。
BackupPartiallyFailed (バックアップの一部が失敗しました)
このアラートは、Velero のバックアップが失敗したことを示します。
UiPath® サポートにお問い合わせください。
CronJobSuspended
uipath-infra/istio-configure-script-cronjob cronjob が中断ステートにあります。
この問題を修正するには、次の手順に従って cronjob を有効化します。
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the previous command are part of output of the following command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the previous command are part of output of the following command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'IdentityKerberosTgtUpdateFailed
このジョブは、すべての UiPath® サービスに対して最新の Kerberos チケットを更新します。このジョブが失敗すると、SQL Server の認証が失敗します。UiPath® サポートにお問い合わせください。
- alertmanager.rules
- AlertmanagerConfigInconsistent
- AlertmanagerFailedReload
- AlertmanagerMembersInconsistent
- general.rules
- TargetDown
- Watchdog
- prometheus-operator
- PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
- Prometheus
- PrometheusBadConfig
- PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
- PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
- PrometheusRuleFailures
- PrometheusMissingRuleEvaluations
- PrometheusTargetLimitHit
- uipath.prometheus.resource.provisioning.alerts
- PrometheusMemoryUsage, PrometheusStorageUsage
- uipath.availability.alerts
- UiPathAvailabilityHighTrafficUserFacing
- バックアップ
- NFSServerDisconnected
- VolumeBackupFailed
- BackupDisabled
- BackupPartiallyFailed (バックアップの一部が失敗しました)
- cronjob-alerts
- CronJobSuspended
- IdentityKerberosTgtUpdateFailed