- 概要
- 要件
- インストール前
- インストール
- インストール後
- 移行とアップグレード
- 監視とアラート機能
- クラスターの管理
- 製品固有の設定
- トラブルシューティング
EKS/AKS の Automation Suite のインストール ガイド
アラートの Runbook
- アラート、メトリック、可視化に利用可能なツールの使用に関する一般的な説明については、「監視スタックを使用する」をご覧ください。
- 問題の解決方法、および UiPath® サポート エンジニア向けのサポート バンドルの作成方法の詳細については、「トラブルシューティング」をご覧ください。
- UiPath® サポートへのご連絡の際は、現在発生しているアラートを含めてください。
アラートの重要度 |
説明 |
---|---|
Info | 予期しない状況が発生しましたが、害はありません。このアラートは抑制できますが、診断時に役立つ可能性があります。 |
Warning | ターゲットとなる機能低下や、近い将来に機能低下が発生する可能性があることを示します。この機能低下はクラスター全体に影響する可能性があります。クラスターを正常に維持するため、迅速な措置 (通常は数日以内) が推奨されます。 |
Critical | 多くの場合、クラスター内の広範囲に及ぶ深刻な機能低下を引き起こすことが知られています。即座に措置 (当日) を講じてクラスターを修復する必要があります。 |
このアラート時には、Prometheus がターゲットからメトリックを収集できません。つまり、Grafana ダッシュボード、およびターゲットからのメトリックに基づくその他のアラートが利用できません。ターゲットに関係のあるその他のアラートを確認してください。
kubectl describe
でポッド イベントをチェックし、kubectl logs
でログを記録して考えられるクラッシュの詳細を確認します。問題が解決しない場合は UiPath® サポートにお問い合わせください。
kubectl logs
でポッド ログをチェックして、進展がないか確認できます。問題が解決しない場合は UiPath® サポートにお問い合わせください。
デプロイまたはステートフルセットの更新が試行されていますが、失敗しており、ロールバックがまだ発生していません。UiPath® サポートにお問い合わせください。
複数のレプリカを持つ高可用性クラスターでは、レプリカの数が最適でない場合に、このアラートが発生します。クラスター内にスケジュールするためのリソースが十分にない場合に発生する可能性があります。リソースの使用状況をチェックし、必要に応じて容量を追加します。それ以外の場合は、UiPath® サポートにお問い合わせください。
ステートフルセットの更新に失敗しました。UiPath® サポートにお問い合わせください。
「StatefulSets」もご覧ください。
デーモンセットのロールアウトに失敗しました。UiPath® サポートにお問い合わせください。
「DaemonSet」もご覧ください。
kubectl describe
をチェックしてください。コンテナーが待機中になる最も一般的な原因は、イメージのプルの失敗です。エアギャップ クラスターの場合は、ローカル レジストリが利用できないことを意味している可能性があります。問題が解決しない場合は UiPath® サポートにお問い合わせください。
いずれかのノードの問題を示している可能性があります。各ノードの正常性をチェックし、既知の問題を修正してください。それ以外の場合は、UiPath® サポートにお問い合わせください。
オートスケーラーがターゲットのリソースを構成どおりにスケーリングできません。実際の値よりも要求値のほうが大きい場合は、リソース不足の可能性があります。実際の値よりも要求値のほうが小さい場合は、シャットダウン中にポッドがスタックしている可能性があります。問題が解決しない場合は UiPath® サポートにお問い合わせください。
「Horizontal Pod Autoscaling」もご覧ください。
指定されたサービスのレプリカの数が最大数に達しています。これは、クラスターに対する要求の数が非常に多い場合に発生します。高いトラフィックが予想される場合、一時的には、このアラートを抑制できます。ただし、このアラートは、クラスターがフル稼働で、それ以上のトラフィックを処理できないということを示しています。さらに多くのリソース容量がクラスターで利用できる場合は、以下の操作を実行してサービスの最大レプリカ数を増やすことができます。
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
「Horizontal Pod Autoscaling」もご覧ください。
これらの警告は、クラスターがノードの障害に耐えられないことを示しています。シングルノードの評価クラスターの場合、これは既知であり、これらのアラートは抑制できます。マルチノードの HA 対応の運用環境の設定の場合、あまりにも多くのノードが異常になって高可用性をサポートできないときにこれらのアラートが発生し、ノードを正常に戻すか交換する必要があることを示します。
KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
これらのアラートは、カスタマイズを通じて追加された場合にのみクラスターに存在する、名前空間のリソース クォータに関連します。名前空間のリソース クォータは、Automation Suite のインストールの一環として追加されません。
「リソース クォータ」もご覧ください。
Warning の場合: 利用可能な領域が 30% を下回っており、4 日以内に満杯になる可能性があります。
Critical の場合: 利用可能な領域が 10% を下回っています。
サービスで領域を使い果たした場合、データの復元が困難になる可能性があります。したがって、利用可能な領域が 0% に達する前にボリュームのサイズを変更する必要があります。
Prometheus 固有のアラートに関する詳細および手順については「PrometheusStorageUsage」をご覧ください。
kube-state-metrics コレクターがクラスターからメトリックを収集しようとすると必ずエラーが発生します。これは、重要なアラートが発生しない可能性があることを意味します。UiPath® サポートにお問い合わせください。
公開中の kube-state-metrics もご覧ください。
Warning の場合: Kubernetes API サーバーへの認証に使用されるクライアント証明書の有効期限が残り 7 日を切りました。
Critical の場合: Kubernetes API サーバーへの認証に使用されるクライアント証明書の有効期限が残り 1 日を切りました。
証明書を更新する必要があります。
Kubernetes コントロール プレーンに問題があることを示しています。マスター ノードの正常性をチェックし、未解決の問題を解決します。問題が解決しない場合は、UiPath® サポートにお問い合わせください。
以下の記事もご覧ください。
KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
これらのアラートは、ノードに問題があることを示しています。マルチ モードの HA 対応の運用クラスターにおいて、ポッドが他のノードにスケジュール変更される可能性があります。問題が解決しない場合は、ノードの削除およびドレインを行い、クラスターの正常性を維持する必要があります。容量が追加されていないクラスターでは、まず別のノードをクラスターに参加させる必要があります。
問題が解決しない場合は UiPath® サポートにお問い合わせください。
Warning の場合: Kubelet のクライアント証明書またはサーバー証明書の有効期限が残り 7 日を切りました。
Critical の場合: Kubelet のクライアント証明書またはサーバー証明書の有効期限が残り 1 日を切りました。
証明書を更新する必要があります。
異なるセマンティック バージョンの Kubernetes コンポーネントが実行中です。これは、Kubernetes のアップグレードに失敗した結果として生じることがあります。
Kubernetes API サーバー クライアントでのエラー発生率が 1% を超えています。このクライアントが実行されているノード、またはKubernetes API サーバー自体に問題がある可能性があります。
このアラートは、Kubernetes ノードでのメモリ使用量が非常に高いことを示しています。
MemoryPressure
Kubernetes ノードは、Kubernetes クラスター ノードのメモリが不足している場合に発生し、アプリケーションのメモリ リークが原因である可能性があります。 この種類のインシデントでは、ダウンタイムを防ぎ、Kubernetes クラスターが適切に機能するように、早急な対応が必要です。
このアラートが発生した場合は、以下の手順を実行して、より多くのメモリを消費しているノード上のポッドを特定してみてください。
-
ノードの CPU とメモリの統計情報を取得します。
kubectl top node
kubectl top node -
ノードで実行されているポッドを取得します。
kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME}
kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME} -
名前空間内のポッドのメモリ使用量を確認するには、以下を使用します。
kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>
kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>
メモリ使用量が多いポッドを特定できる場合は、そのポッドのログをチェックして、メモリ リーク エラーを探します。
この問題を解決するには、可能であればノードのメモリ仕様を増やします。
問題が解決しない場合は、サポート バンドル を生成して UiPath® サポートにお問い合わせください。
このアラートは、Kubernetes ノードでのディスクの使用量が非常に高いことを示しています。
このアラートが発生した場合は、どのポッドがより多くのディスクを消費しているかを確認してみてください。
-
次のコマンドを使用して、ノードが
DiskPressure
状態にあるかどうかを確認します。kubectl describe node <node-name>
kubectl describe node <node-name>出力のDiskPressure
条件を特定します。 -
影響を受けるノードのディスク領域の使用状況を確認します。
df -h
df -hこれは、マウントされているすべてのファイルシステムのディスク使用量を示します。 使用率が高い場所を特定します。
-
ディスクがいっぱいでクリーンアップが不十分な場合は、ノードのディスクのサイズを変更することを検討してください (特に AWS や GCP などのクラウド環境の場合)。 このプロセスでは、インフラストラクチャによってはボリュームの拡張が必要になる場合があります。
特定のノードのファイルシステムが満杯になりつつあります。
このアラートが発生した場合は、以下の手順を検討してください。
-
次のコマンドを使用して、ノードが
DiskPressure
状態にあるかどうかを確認します。kubectl describe node <node-name>
kubectl describe node <node-name>出力のDiskPressure
条件を特定します。
-
ログと一時ファイルをクリアします。
/var/log/
内の大きなログ ファイルを確認し、可能であればクリーンアップします。
-
影響を受けるノードのディスク領域の使用状況を確認します。
df -h
df -hこれは、マウントされているすべてのファイルシステムのディスク使用量を示します。 使用率が高い場所を特定します。
-
ディスクがいっぱいでクリーンアップが不十分な場合は、ノードのディスクのサイズを変更することを検討してください (特に AWS や GCP などのクラウド環境の場合)。 このプロセスでは、インフラストラクチャによってはボリュームの拡張が必要になる場合があります。
これらのエラーは、ネットワーク ドライバーが多数のエラーを報告していることを示しています。 これは、物理的なハードウェア障害、または物理ネットワークの設定ミスが原因である可能性があります。 この問題は OS に関連し、UiPath® アプリケーションでは制御できません。
/proc/net/dev
カウンターを監視することによってトリガーされます。
ネットワーク管理者および物理インフラストラクチャを管理するチームに連絡してください。
クラスター内のノード間の通信を切断させてしまう問題が原因で、ノードが応答しなくなっています。
問題が解決しない場合は、生成された サポート バンドルを添えて UiPath® サポートにお問い合わせください。
これらのアラートは、クラスターがメモリとストレージに対して構成された制限に近づくと警告を発します。 これは、最近使用量が大幅に増加したクラスター (通常はユーザーではなくロボットによる使用) や、Prometheus リソースを調整せずにノードをクラスターに追加した場合に発生する可能性があります。 これは、収集されるメトリックの量が増えたことによるものです。 また、多数のアラートが発生していることが原因である可能性もあります。大量のアラートが発せられている理由を確認することが重要です。
この問題が解決しない場合は、生成されたサポート バンドルを添えて UiPath® サポートにお問い合わせください。
Alertmanager
インスタンスの構成が異なる場合に発生します。 これは、設定のロールアウトに問題があり、 Alertmanager
のすべてのインスタンスで一貫性がないことを示している可能性があります。
この問題を修正するには、次の手順に従います。
-
デプロイされているすべての
alertmanager.yml
の間でdiff
ツールを実行して問題を特定します。 -
間違ったシークレットを削除し、正しいシークレットをデプロイします。
問題が解決しない場合は UiPath® サポートにお問い合わせください。
AlertManager が設定の読み込みまたは再読み込みに失敗しました。 AlertManager のカスタム構成に入力エラーがないか確認してください。それ以外の場合は、UiPath® サポートに連絡してサポート バンドルを提供してください。 詳しくは、「 Automation Suite サポート バンドルを使用する」をご覧ください。
PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
Prometheus リソースを制御する Prometheus 演算子の内部エラーです。このエラーが発生している間はまだ Prometheus 自体は正常ですが、このエラーは、監視の構成可能性が低下していることを示しています。UiPath® サポートにお問い合わせください。
Prometheus による構成の読み込みまたは再読み込みが失敗しました。Prometheus のカスタム構成に入力エラーがないかチェックし、それ以外の場合は、UiPath® サポートにお問い合わせください。
PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
Prometheus から AlertManager への接続が正常ではありません。メトリックは依然としてクエリ可能で、Grafana ダッシュボードに引き続き表示される可能性がありますが、アラートは発生しません。AlertManager のカスタム構成に入力エラーがないかチェックし、入力エラーでない場合は、UiPath® サポートにお問い合わせください。
PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
メトリックが期待どおりに収集されない可能性があることを示す、内部 Prometheus エラーです。UiPath® サポートにお問い合わせください。
これは、存在しないメトリックまたは誤った PromQL 構文に基づく、正しくないアラートがある場合に発生する可能性があります。カスタム アラートが追加されていない場合は、UiPath® サポートにお問い合わせください。
Prometheus がアラートを発生させるべきかどうかを評価できません。これは、アラートが多すぎる場合に発生することがあります。コストのかかるカスタム アラートの評価を削除したり、Prometheus の CPU 制限値の引き上げに関するドキュメントを参照してください。カスタム アラートが追加されていない場合は、UiPath® サポートにお問い合わせください。
UiPathAvailabilityHighTrafficBackend、UiPathAvailabilityMediumTrafficUserFaceing、UiPathAvailabilityMediumTrafficBackend、UiPathAvailabilityLowTrafficUserFaceing、UiPathAvailabilityLowTrafficBackend
UiPath® サービスからの http 500 応答の数が、指定されたしきい値を超えています。
トラフィック レベル |
20 分以内のリクエスト数 |
エラーしきい値 (http 500番台のエラー) |
---|---|---|
高 (High) |
>100,000 |
0.1% |
中 |
10,000 ~ 100,000 |
1% |
低 (Low) |
< 10,000 |
5% |
ユーザー向けのサービスでエラーが発生すると、Automation Suite UI で直接確認可能な機能低下が生じる可能性があります。これに対し、バックエンド サービスのエラーによる影響はあまり明白ではない可能性があります。
このアラートによって、どのサービスのエラー率が高いのかがわかります。レポートしているサービスが依存している他のサービスからどのような連鎖的な問題が生じ得るのかを理解するには、サービス間のエラーを表示する Istio Workload ダッシュボードを使用できます。
最近になって再構成された Automation Suite 製品すべてを再確認してください。kubectl logs コマンドで詳細なログを使用することもできます。エラーが解決しない場合は UiPath® サポートにご連絡ください。
uipath-infra/istio-configure-script-cronjob
cronjob が中断ステートにあります。
この問題を修正するには、次の手順に従って cronjob を有効化します。
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n <istio-system> get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n <istio-system> get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
このジョブによって、SQL 統合認証用に Active Directory サーバーから最新の Kerberos チケットを取得します。このジョブが失敗すると、SQL Server の認証が失敗します。UiPath® サポートにお問い合わせください。
要求ルーティング レイヤーのエラーは、Automation Suite の UI で直接確認可能なほどの機能の低下につながります。要求はバックエンド サービスにルーティングされません。
istio-system
名前空間の istio-ingressgateway
ポッドで確認できます。次のコマンドを実行してポッド名を取得します。
kubectl get pods -n istio-system
kubectl logs <istio-ingressgateway-pod-name> -n istio-system
kubectl get pods -n istio-system
kubectl logs <istio-ingressgateway-pod-name> -n istio-system
このアラートは、サーバー TLS 証明書の有効期限が次の 30 日で切れることを示します。
この問題を修正するには、サーバー TLS 証明書を更新します。手順については、「サーバー証明書を管理する」をご覧ください。
このアラートは、サーバー TLS 証明書の有効期限が次の 7 日で切れることを示します。
この問題を修正するには、TLS 証明書を更新します。手順については、「サーバー証明書を管理する」をご覧ください。
このアラートは、ID トークン署名証明書の有効期限が次の 30 日で切れることを示します。
この問題を修正するには、ID トークン署名証明書を更新します。手順については、「サーバー証明書を管理する」をご覧ください。
このアラートは、ID トークン署名証明書の有効期限が次の 7 日で切れることを示します。
この問題を修正するには、ID トークン署名証明書を更新します。手順については、「サーバー証明書を管理する」をご覧ください。
このアラートは、etcd クラスターのメンバー数が不十分であることを示します。クラスターのメンバー数は奇数である必要があります。このアラートの重要度は「Critical」です。
クラスター内のサーバー ノード数が奇数で、すべてのノードが正常に動作していることを確認してください。
このアラートは、etcd の GRPC 要求が低速であることを示します。このアラートの重要度は「Warning」です。
このアラートが解決しない場合は UiPath® サポートにお問い合わせください。
このアラートは、etcd サーバーが過去 1 時間に 5 件以上の提案に失敗したことを示します。このアラートの重要度は「Warning」です。
/var/lib/rancher
パーティションの空き領域が次の割合より少ないことを示します。
- 35% – アラートの重要度は「Warning」です。
- 25% – アラートの重要度は「Critical」です。
このアラートが発生した場合は、ディスクの容量を増やしてください。
/var/lib/kubelet
パーティションの空き領域が次の割合より少ないことを示します。
- 35% – アラートの重要度は「Warning」です。
-
25% – アラートの重要度は「Critical」です。
このアラートが発生した場合は、ディスクの容量を増やしてください。
このアラートは、PVC のバックアップが失敗したことを示します。
この問題に対処するには、次の手順を実行します。
-
PVC のステータスをチェックして、永続ボリューム (PV) に
Bound
ていることを確認します。kubectl get pvc --namespace <namespace>
kubectl get pvc --namespace <namespace>このコマンドは、すべての PVC とその現在のステータスを一覧表示します。 PVC のステータスは、PV の要求に成功したことを示すBound
である必要があります。ステータスがPending
の場合は、PVC がまだ適切な PV を待機しており、さらに調査が必要であることを意味します。 -
PVC が
Bound
ステートでない場合、またはより詳細な情報が必要な場合は、describe
コマンドを使用します。kubectl describe pvc <pvc-name> --namespace <namespace>
kubectl describe pvc <pvc-name> --namespace <namespace>ステータス、イベント、およびエラーメッセージに関する情報を探します。 たとえば、ストレージ クラスの設定ミスやクォータの制限などが問題である可能性があります。
-
PVC にバインドされている永続ボリューム (PV) の正常性を確認します。
kubectl get pv <pv-name>
kubectl get pv <pv-name>ステータスは「」Bound
はずです。 PV がReleased
状態またはFailed
状態の場合は、基になるストレージに問題があることを示している可能性があります。 -
PVC がポッドによって使用されている場合は、ポッドがボリュームを正常にマウントしたかどうかを確認します。
kubectl get pod <pod-name> --namespace <namespace>
kubectl get pod <pod-name> --namespace <namespace>ポッドがRunning
ステートの場合は、PVC が正常にマウントされたことを示します。 ポッドがエラー ステート (InitBackOff
など) の場合は、ボリュームのマウントに問題があることを示している可能性があります。 -
PVC のマウントに問題がある場合は、ポッドに記述してマウント エラーがないか確認します。
kubectl describe pod <pod-name> --namespace <namespace>
kubectl describe pod <pod-name> --namespace <namespace>
- アラートの重要度キー
- general.rules
- TargetDown
- Watchdog
- kubernetes-apps
- KubePodCrashLooping
- KubePodNotReady
- KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
- KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
- KubeStatefulSetUpdateNotRolledOut
- KubeDaemonSetRolloutStuck
- KubeContainerWaiting
- KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
- KubeJobCompletion
- KubeJobFailed
- KubeHpaReplicasMismatch
- KubeHpaMaxedOut
- kubernetes-resources
- KubeCPUOvercommit, KubeMemoryOvercommit
- KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
- CPUThrottlingHigh
- Kubernetes-storage
- KubePersistentVolumeFillingUp
- kube-state-metrics
- KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
- kubernetes-system-apiserver
- KubeClientCertificateExpiration
- AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
- KubernetesApiServerErrors
- kubernetes-system-kubelet
- KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
- KubeletTooManyPods
- KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
- KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
- kubernetes-system
- KubeVersionMismatch
- KubeClientErrors
- KubernetesMemoryPressure
- KubernetesDiskPressure
- Kube-apiserver-slos
- KubeAPIErrorBudgetBurn
- node-exporter
- NodeFilesystemSpaceFillingUp
- NodeRAIDDegraded
- NodeRAIDDiskFailure
- NodeNetworkReceiveErrs
- NodeClockSkewDetected, NodeClockNotSynchronising
- node-network
- NodeNetworkInterfaceFlapping
- InternodeCommunicationBroken
- uipath.prometheus.resource.provisioning.alerts
- PrometheusMemoryUsage, PrometheusStorageUsage
- alertmanager.rules
- AlertmanagerConfigInconsistent
- AlertmanagerFailedReload
- prometheus-operator
- PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
- Prometheus
- PrometheusBadConfig
- PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
- PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
- PrometheusRuleFailures
- PrometheusMissingRuleEvaluations
- PrometheusTargetLimitHit
- UiPathAvailabilityHighTrafficBackend、UiPathAvailabilityMediumTrafficUserFaceing、UiPathAvailabilityMediumTrafficBackend、UiPathAvailabilityLowTrafficUserFaceing、UiPathAvailabilityLowTrafficBackend
- uipath.cronjob.alerts.rules
- CronJobSuspended
- UiPath CronJob 「kerberos-tgt-refresh」が失敗している
- IdentityKerberosTgtUpdateFailed
- uipath.requestrouting.alerts
- UiPathRequestRouting
- サーバー TLS 証明書のアラート
- SecretCertificateExpiry30Days
- SecretCertificateExpiry7Days
- ID トークン署名証明書のアラート
- IdentityCertificateExpiry30Days
- IdentityCertificateExpiry7Days
- etdc のアラート
- EtcdInsufficientMembers
- EtcdNoLeader
- EtcdHighNumberOfLeaderChanges
- EtcdHighNumberOfFailedGrpcRequests
- EtcdGrpcRequestsSlow
- EtcdHighNumberOfFailedHttpRequests
- EtcdHttpRequestsSlow
- EtcdMemberCommunicationSlow
- EtcdHighNumberOfFailedProposals
- EtcdHighFsyncDurations
- EtcdHighCommitDurations
- ディスク サイズのアラート
- LowDiskForRancherPartition
- LowDiskForKubeletPartition
- LowDiskForVarPartition
- バックアップのアラート
- NFSServerDisconnected
- VolumeBackupFailed
- BackupDisabled