通知を受け取る

UiPath Automation Suite

UiPath Automation Suite ガイド

アラートの Runbook

このページでは、一連のアラートについて説明し、その内容と修正策を提示します。

📘

注:

アラート、メトリック、可視化に利用可能なツールの使用に関する一般的な説明については、「監視スタックの使用」をご覧ください。
問題の解決方法、および UiPath サポート エンジニア向けのサポート バンドルの作成方法の詳細については、「トラブルシューティング」をご覧ください。
UiPath サポートへのご連絡の際は、現在発生しているアラートを含めてください。

アラートの重要度キー


Info

予期しない状況が発生しましたが、害はありません。このアラートは抑制できますが、診断時に役立つ可能性があります。

Warning

ターゲットとなる機能低下や、近い将来に機能低下が発生する可能性があることを示します。この機能低下はクラスター全体に影響する可能性があります。クラスターを正常に維持するため、迅速な措置 (通常は数日以内) が推奨されます。

Critical

多くの場合、クラスター内の広範囲に及ぶ深刻な機能低下を引き起こすことが知られています。即座に措置 (当日) を講じてクラスターを修復する必要があります。

 

general.rules


TargetDown

このアラート時には、Prometheus がターゲットからメトリックを収集できません。つまり、Grafana ダッシュボード、およびターゲットからのメトリックに基づくその他のアラートが利用できません。ターゲットに関係のあるその他のアラートを確認してください。

Watchdog

警告しているパイプライン全体が機能していることを確認するためのアラートです。このアラートは常に発生しています。したがって、このアラートは常に AlertManager で受信者に対して通知されます。このアラートが発生していないときに通知する各種通知メカニズムと連携しています(例: PagerDuty の DeadMansSnitch との連携)。

 

kubernetes-apps


KubePodCrashLooping

A pod that keeps restarting unexpectedly. This can happen due to an out-of-memory (OOM) error, in which case the limits can be adjusted. Check the pod events with kubectl describe, and logs with kubectl logs to see details on possible crashes. If the issue persists, contact UiPath Support.

KubePodNotReady

A pod has started, but it is not responding to the health probe with success. This may mean that it is stuck and is not able to serve traffic. You can check pod logs with kubectl logs to see if there is any indication of progress. If the issue persists, contact UiPath Support.

KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch

デプロイまたはステートフルセットの更新が試行されていますが、失敗しており、ロールバックがまだ発生していません。UiPath サポートにお問い合わせください。

KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch

複数のレプリカを持つ高可用性クラスターでは、レプリカの数が最適でない場合に、このアラートが発生します。クラスター内にスケジュールするためのリソースが十分にない場合に発生する可能性があります。リソースの使用状況をチェックし、必要に応じて容量を追加します。それ以外の場合は、UiPath サポートにお問い合わせください。

KubeStatefulSetUpdateNotRolledOut

ステートフルセットの更新に失敗しました。UiPath サポートにお問い合わせください。
See also: StatefulSets.

KubeDaemonSetRolloutStuck

デーモンセットのロールアウトに失敗しました。UiPath サポートにお問い合わせください。
See also: DaemonSet.

KubeContainerWaiting

A container is stuck in the waiting state. It has been scheduled to a worker node, but it cannot run on that machine. Check kubectl describe of the pod for more information. The most common cause of waiting containers is a failure to pull the image. For air-gapped clusters, this could mean that the local registry is not available. If the issue persists, contact UiPath Support.

KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled

いずれかのノードの問題を示している可能性があります。各ノードの正常性をチェックし、既知の問題を修正してください。それ以外の場合は、UiPath サポートにお問い合わせください。

KubeJobCompletion

ジョブの完了までの時間が 12 時間を超えています。これは想定外です。UiPath サポートにお問い合わせください。

KubeJobFailed

ジョブが失敗しましたが、ほとんどのジョブは自動的にリトライされます。問題が解決しない場合は UiPath サポートにお問い合わせください。

KubeHpaReplicasMismatch

オートスケーラーがターゲットのリソースを構成どおりにスケーリングできません。実際の値よりも要求値のほうが大きい場合は、リソース不足の可能性があります。実際の値よりも要求値のほうが小さい場合は、シャットダウン中にポッドがスタックしている可能性があります。問題が解決しない場合は UiPath サポートにお問い合わせください。
See also: Horizontal Pod Autoscaling

KubeHpaMaxedOut

指定されたサービスのレプリカの数が最大数に達しています。これは、クラスターに対する要求の数が非常に多い場合に発生します。高いトラフィックが予想される場合、一時的には、このアラートを抑制できます。ただし、このアラートは、クラスターがフル稼働で、それ以上のトラフィックを処理できないということを示しています。さらに多くのリソース容量がクラスターで利用できる場合は、以下の操作を実行してサービスの最大レプリカ数を増やすことができます。

# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'

See also: Horizontal Pod Autoscaling.

 

kubernetes-resources


KubeCPUOvercommit, KubeMemoryOvercommit

これらの警告は、クラスターがノードの障害に耐えられないことを示しています。シングルノードの評価クラスターの場合、これは既知であり、これらのアラートは抑制できます。マルチノードの HA 対応の運用環境の設定の場合、あまりにも多くのノードが異常になって高可用性をサポートできないときにこれらのアラートが発生し、ノードを正常に戻すか交換する必要があることを示します。

KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded

これらのアラートは、カスタマイズを通じて追加された場合にのみクラスターに存在する、名前空間のリソース クォータに関連します。名前空間のリソース クォータは、Automation Suite のインストールの一環として追加されません。
See also: Resource Quotas.

CPUThrottlingHigh

設定された制限に従って、コンテナーの CPU 使用率がスロットリングされています。これは通常の Kubernetes 動作の一部であり、他のアラートの発生時に役立つ情報を提供できます。このアラートは抑制できます。

 

kubernetes-storage


KubePersistentVolumeFillingUp

Warning の場合: 利用可能な領域が 30% を下回っており、4 日以内に満杯になる可能性があります。
Critical の場合: 利用可能な領域が 10% を下回っています。

For any services that run out of space, data may be difficult to recover, so volumes should be resized before hitting 0% available space. See the following instructions: Configuring the cluster.

For Prometheus-specific alerts, see PrometheusStorageUsage for more details and instructions.

KubePersistentVolumeErrors

PersistentVolume をプロビジョニングできません。これは、ボリュームを必要とするサービスが開始されないことを意味します。Longhorn や Ceph のストレージでその他のエラーが発生していないかご確認のうえ、UiPath サポートにお問い合わせください。

 

kube-state-metrics


KubeStateMetricsListErrors, KubeStateMetricsWatchErrors

kube-state-metrics コレクターがクラスターからメトリックを収集しようとすると必ずエラーが発生します。これは、重要なアラートが発生しない可能性があることを意味します。UiPath サポートにお問い合わせください。
See also: Kube state metrics at release.

 

kubernetes-system-apiserver


KubeClientCertificateExpiration

Warning の場合: Kubernetes API サーバーへの認証に使用されるクライアント証明書の有効期限が残り 7 日を切りました。
Critical の場合: Kubernetes API サーバーへの認証に使用されるクライアント証明書の有効期限が残り 1 日を切りました。
証明書を更新する必要があります。

AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests

Kubernetes コントロール プレーンに問題があることを示しています。マスター ノードの正常性をチェックし、未解決の問題を解決します。問題が解決しない場合は、UiPath サポートにお問い合わせください。

以下の記事もご覧ください。
The Kubernetes API
Kubernetes API Aggregation Layer.

KubernetesApiServerErrors

このアラートは、Kubernetes API サーバーのエラー率が高いことを示しています。この問題は他の障害につながる可能性があるため、問題を事前に調査することをお勧めします。
Check logs for the api-server pod to find out the root cause of the issue using the kubectl logs <pod-name> -n kube-system command.

 

kubernetes-system-kubelet


KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown

These alerts indicate a problem with a node. In multi-node HA-ready production clusters, pods would likely be rescheduled onto other nodes. If the issue persists, you should remove and drain the node to maintain the health of the cluster. In clusters without extra capacity, another node should be joined to the cluster first.

KubeletTooManyPods

There are too many pods running on the specified node. Join another node to the cluster.

KubeletClientCertificateExpiration, KubeletServerCertificateExpiration

Warning の場合: Kubelet のクライアント証明書またはサーバー証明書の有効期限が残り 7 日を切りました。
Critical の場合: Kubelet のクライアント証明書またはサーバー証明書の有効期限が残り 1 日を切りました。
証明書を更新する必要があります。

KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors

Kubelet のクライアント証明書またはサーバー証明書を更新できませんでした。UiPath サポートにお問い合わせください。

 

kubernetes-system


KubeVersionMismatch

異なるセマンティック バージョンの Kubernetes コンポーネントが実行中です。これは、Kubernetes のアップグレードに失敗した結果として生じることがあります。

KubeClientErrors

Kubernetes API サーバー クライアントでのエラー発生率が 1% を超えています。このクライアントが実行されているノード、またはKubernetes API サーバー自体に問題がある可能性があります。

KubernetesMemoryPressure

このアラートは、Kubernetes ノードでのメモリ使用量が非常に高いことを示しています。
このアラートが発生した場合は、メモリを多く消費しているポッドの特定を試みてください。

KubernetesDiskPressure

このアラートは、Kubernetes ノードでのディスクの使用量が非常に高いことを示しています。
このアラートが発生した場合は、ディスクを消費しているポッドの特定を試みてください。

 

kube-apiserver-slos


KubeAPIErrorBudgetBurn

Kubernetes API サーバーの消費しているエラー バジェットが多すぎます。

 

node-exporter


NodeFilesystemSpaceFillingUp, NodeFilesystemSpaceFillingUp, NodeFilesystemAlmostOutOfSpace, NodeFilesystemFilesFillingUp, NodeFilesystemAlmostOutOfFiles

特定のノードのファイルシステムが満杯になりつつあります。ディスクを追加するか未使用のディスクをマウントすることによって、さらに多くの領域をプロビジョニングします。

NodeRAIDDegraded

1 件以上のディスク障害が原因で RAID アレイが機能低下しています。スペア ドライブの数
が不十分なので、問題を自動的に修正できません。

NodeRAIDDiskFailure

RAID アレイに注意を払う必要があります。ディスク交換が必要になることもあります。

NodeNetworkReceiveErrs, NodeNetworkTransmitErrs, NodeHighNumberConntrackEntriesUsed

ノードの物理的ネットワーク インターフェイスに問題があります。問題が解決しない場合は、交換が必要になることがあります。

NodeClockSkewDetected, NodeClockNotSynchronising

ノードのクロックに問題があります。NTP が正しく構成されていることを確認してください。

 

node-network


NodeNetworkInterfaceFlapping

ノードの物理的ネットワーク インターフェイスに問題があります。問題が解決しない場合は、交換が必要になることがあります。

 

InternodeCommunicationBroken


クラスター内のノード間の通信を切断させてしまう問題が原因で、ノードが応答しなくなっています。
この問題を修正するには、影響を受けているノードを再起動してください。問題が解決しない場合は、サポート バンドル ツールを使用して UiPath サポートにお問い合わせください。

 

uipath.prometheus.resource.provisioning.alerts


PrometheusMemoryUsage, PrometheusStorageUsage

これらのアラートは、クラスターのメモリとストレージの使用量が設定された上限に近づいていることを警告します。クラスターで使用量が最近大幅に増加した (通常はユーザーではなくロボットによる使用) 場合、または Prometheus のリソースを調整せずにノードがクラスターに追加されたときに発生する可能性が高くなります。この問題は、収集されるメトリック数の増加が原因で発生します。

ストレージ使用量の増加率は、[Kubernetes / Persistent Volumes] ダッシュボードで確認できます。

12451245

You can adjust it by resizing the PVC as instructed here: Configuring the cluster.

The rate of increased memory utilization can be seen on the Kubernetes / Compute Resources / Pod dashboard.

12521252

You can adjust it by editing the Prometheus memory resource limits in the rancher-monitoring app from ArgoCD. The rancher-monitoring app automatically re-syncs after clicking Save.

14761476

Prometheus を再起動し、Grafana でのメトリックの表示が再開するには時間がかかります。大規模なクラスタであっても、通常 10 分未満かかります。

 

alertmanager.rules


AlertmanagerConfigInconsistent, AlertmanagerMembersInconsistent

これらは、複数の AlertManager レプリカを持つ HA クラスターを対象とする、内部の AlertManager エラーです。アラートが断続的に表示されたり消えたりする場合があります。一時的に AlertManager レプリカを縮小して拡大すると、問題が解決する可能性があります。

# First, scale to zero. This will take a moment for the pods to shut down.
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
# Then scale back to two.
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
# Check to see alertmanager pods have started and are now in the running state.
kubectl get po -n cattle-monitoring-system

問題が解決しない場合は UiPath サポートにお問い合わせください。

AlertmanagerFailedReload

AlertManager による構成の読み込みまたは再読み込みが失敗しました。AlertManager のカスタム構成に入力エラーがないかチェックし、入力エラーでない場合は、UiPath サポートにお問い合わせください。

 

prometheus-operator


PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources

Prometheus リソースを制御する Prometheus 演算子の内部エラーです。このエラーが発生している間はまだ Prometheus 自体は正常ですが、このエラーは、監視の構成可能性が低下していることを示しています。UiPath サポートにお問い合わせください。

 

prometheus


PrometheusBadConfig

Prometheus による構成の読み込みまたは再読み込みが失敗しました。Prometheus のカスタム構成に入力エラーがないかチェックし、入力エラーでない場合は、UiPath サポートにお問い合わせください。

PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers

Prometheus から AlertManager への接続が正常ではありません。メトリックは依然としてクエリ可能で、Grafana ダッシュボードに引き続き表示される可能性がありますが、アラートは発生しません。AlertManager のカスタム構成に入力エラーがないかチェックし、入力エラーでない場合は、UiPath サポートにお問い合わせください。

PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards

メトリックが期待どおりに収集されない可能性があることを示す、内部 Prometheus エラーです。UiPath サポートにお問い合わせください。

PrometheusRuleFailures

これは、存在しないメトリックまたは誤った PromQL 構文に基づく、正しくないアラートがある場合に発生する可能性があります。カスタム アラートが追加されていない場合は、UiPath サポートにお問い合わせください。

PrometheusMissingRuleEvaluations

Prometheus がアラートを発生させるべきかどうかを評価できません。これは、アラートが多すぎる場合に発生することがあります。コストのかかるカスタム アラートの評価を削除したり、Prometheus の CPU 制限値の引き上げに関するドキュメントを参照してください。カスタム アラートが追加されていない場合は、UiPath サポートにお問い合わせください。

PrometheusTargetLimitHit

Prometheus が収集先とするターゲットが多すぎます。ServiceMonitor が追加されている (監視コンソールを確認) 場合は、これらを削除できます。

 

uipath.availability.alerts


UiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend

UiPath サービスからの http 500 応答の数が、指定されたしきい値を超えています。

Traffic level

Number of requests in 20 minutes

Error threshold (for http 500s)

High

100,000

0.1%

Medium

Between 10,000 and 100,000

1%

Low

< 10,000

5%

ユーザー向けのサービスでエラーが発生すると、Automation Suite UI で直接確認可能な機能低下が生じる可能性があります。これに対し、バックエンド サービスのエラーによる影響はあまり明白ではない可能性があります。

このアラートによって、どのサービスのエラー率が高いのかがわかります。レポートしているサービスが依存している他のサービスからどのような連鎖的な問題が生じ得るのかを理解するには、サービス間のエラーを表示する Istio Workload ダッシュボードを使用できます。

Please double check any recently reconfigured Automation Suite products. Detailed logs are also available with the kubectl logs command. If the error persists, please contact UiPath Support.

 

uipath.cronjob.alerts.rules


CronJobSuspended

★削除★ uipath-infra/istio-configure-script-cronjob cronjob is in suspended state.
この問題を修正するには、次の手順に従って cronjob を有効化します。

export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'

UiPath CronJob "kerberos-tgt-refresh" Failed

このジョブによって、SQL 統合認証用に Active Directory サーバーから最新の Kerberos チケットを取得します。このジョブが失敗すると、SQL Server の認証が失敗します。UiPath サポートにお問い合わせください。

IdentityKerberosTgtUpdateFailed

このジョブは、すべての UiPath サービスに対して最新の Kerberos チケットを更新します。このジョブが失敗すると、SQL Server の認証が失敗します。UiPath サポートにお問い合わせください。

 

Ceph のアラート


CephClusterNearFull, CephOSDNearFull, PersistentVolumeUsageNearFull

このアラートは、Ceph ストレージ クラスターの使用状況が 75% を超えたこと、ならびに 85% に到達すると読み取り専用になることを示します。
If this alert fires, free up some space in Ceph by deleting some unused datasets in AI Center or Task Mining or expand the storage available for Ceph PVC by following the instructions in Resizing PVC.
Before resizing PVC, make sure you meet the storage requirements. For details, see Evaluating your storage needs.

CephClusterCriticallyFull

このアラートは、Ceph ストレージ クラスターの使用状況が 80% を超えたこと、ならびに 85% に到達すると読み取り専用になることを示します。
If this alert fires, free up some space in Ceph by deleting some unused datasets in AI Center or Task Mining or expand the storage available for Ceph PVC by following the instructions in Resizing PVC.
Before resizing PVC, make sure you meet the storage requirements. For details, see Evaluating your storage needs.

CephClusterReadOnly

このアラートは、Ceph ストレージ クラスターの使用状況が 85% を超えたため、これより読み取り専用になることを示します。いくつかの領域を解放するか、ストレージ クラスターを直ちに拡張してください。
If this alert fires, free up some space in Ceph by deleting some unused datasets in AI Center or Task Mining or expand the storage available for Ceph PVC by following the instructions in Resizing PVC.
Before resizing PVC, make sure you meet the storage requirements. For details, see Evaluating your storage needs.

CephPoolQuotaBytesCriticallyExhausted

このアラートは、Ceph のストレージ プールの使用量が 90% を超えたことを示します。
If this alert fires, free up some space in CEPH by deleting some unused datasets in AI Center or Task Mining or expand the storage available for Ceph PVC by following the instructions in Resizing PVC.
Before resizing PVC, make sure you meet the storage requirements. For details, see Evaluating your storage needs.

CephClusterErrorState

このアラートは、Ceph ストレージ クラスターが 10 分を超えてエラー ステートにあることを示します。
This alert reflects that the rook-ceph-mgr job has been in error state for an unacceptable amount of time. Check for other alerts that might have triggered prior to this one and troubleshoot those first.

CephMonQuorumAtRisk

このアラートは、ストレージ クラスターのクォーラムが少ないことを示します。
複数の Monitor が連携して動作し冗長性を確保します。これが可能なのは、各 Monitor がメタデータのコピーを保持しているためです。クラスターは 3 つの Monitor でデプロイされ、クォーラムのとストレージ操作を実行するには、2 つ以上の Monitor が実行されている必要があります。クォーラムが失われた場合、データへのアクセスが失われる可能性があります。
このアラートが発生した場合は、終了ステートにある OSD があるかどうかを確認し、そうである場合は、そのポッドを強制的に削除し、演算子が調整を行うまでしばらく待ちます。問題が解決しない場合は UiPath サポートにお問い合わせください。

CephOSDCriticallyFull

アラートの重要度が Critical の場合、利用可能な領域は 20% を下回っています。

For any services that run out of space, data may be difficult to recover, so you should resize volumes before hitting 10% available space. See the following instructions: Configuring the cluster.

 

uipath.requestrouting.alerts

UiPathRequestRouting

要求ルーティング レイヤーのエラーは、Automation Suite の UI で直接確認可能なほどの機能の低下につながります。要求はバックエンド サービスにルーティングされません。

You can find detailed error log of request routing by running the kubectl logs command in the Istio ingress gateway pod. If the error persists, contact UiPath Support.

 

RabbitmqNodeDown

このアラートは、RabbitMQ クラスターで実行されているノードが 3 つ未満であることを示します。
Check which RabbitMQ pod is down using the kubectl logs <pod-name> -n <namespace> command
To fix the issue, delete the pod using the kubectl delete pod <pod-name> -n <namespace> command, and check again once the new pod comes up.

 

MongoDB のアラート


MongodbCertExpiration

このアラートは、19 日の時間枠で MongoDB TLS 証明書が自動的にローテーションされない場合に発生します。このアラートの重要度は「Critical」です。

To rotate the certificate, follow the instructions in MongoDB certificate renewal.

MongodbDown

このアラートは、MongoDB がダウンしたときにトリガーされます。このアラートの重要度は「Critical」です。

このアラートが発生した場合は、次の手順を実行します。

  • Check the logs using the following command: kubectl logs <pod-name> -n mongodb;
  • Use the Diagnostics Tool;
  • UiPath サポートにお問い合わせください。

MongodbReplicationStatusUnreachable

MongoDB のレプリカ セット メンバーに、 (そのセットの別のメンバーから見た場合) 到達できません。このアラートが発生した場合は、ほとんどの場合ノードはダウンしています。このアラートの重要度は「Critical」です。

このアラートが発生した場合は、次の手順を実行します。

  • ノードがダウンしているかどうかを確認します。
  • ノードがダウンしている場合は、再起動して根本原因を特定します。
  • 問題が解決しない場合は UiPath サポートにお問い合わせください。

MongodbReplicationStatusNotKnown

MongoDB のレプリカ セット メンバーのステータスが、 (そのセットの別のメンバーから見た場合) 不明です。このアラートが発生した場合は、1 つ以上のレプリカが実行中のステートにありません。このアラートの重要度は「Critical」です。

このアラートが発生した場合は、次の手順を実行します。

  • Check the logs by running the following command: kubectl logs <pod-name> -n mongodb;
  • To see the details on the replica status, run the following command for describing the pod: kubectl describe <pod-name> -n mongodb;
  • 問題が解決しない場合は UiPath サポートにお問い合わせください。

MongodbReplicationLag

このアラートは、MongoDB のレプリケーションのラグが 10 秒を超えていることを示します。このアラートの重要度は「Critical」です。

このアラートが発生した場合は、次の手順を実行します。

  • Check the logs by running the following command: kubectl logs <pod-name> -n mongodb;
  • To see details on the replica status, run the following command for describing the pod: kubectl describe <pod-name> -n mongodb
  • 問題が解決しない場合は UiPath サポートにお問い合わせください。

MongodbTooManyConnections

このアラートは、接続数が最大数に達したことを示します。これが予想済みのものでありかつ一時的なものである場合は、このアラートの通知を切ることができます。ただし、このアラートは Mongo 接続が上限に達しており、これ以上処理できないことを意味する警告であることにご留意ください。

このアラートが発生した場合は、次の手順を実行します。

  • To query the number of connections on the node, run the following command: db.serverStatus().connections
    • current は、既存の接続を示します。
    • available は、利用可能な接続の数を示します。
  • 問題が解決しない場合は UiPath サポートにお問い合わせください。

MongodbHighLatency

このアラートは、インスタンスにおける待機時間が長いことを示します。つまりこれは、ノード上のトラフィックが増加していることを意味する可能性があります。レプリカが正常ではないか、レプリカ上のトラフィックが過剰になっていることが原因である可能性があります。これが予想済みのものでありかつ一時的なものである場合は、このアラートの通知を切ることができます。ただし、このアラートは、インスタンスが上限に達しており、これ以上処理できないことを示すものです。このアラートの重要度は「Critical」です。

このアラートが発生した場合は、次の手順を実行します。

  • インスタンスのログと正常性を確認します。
  • 問題が解決しない場合は UiPath サポートにお問い合わせください。

MongodbReplicationStatusSelfCheck

MongoDB のレプリカ セット メンバーは、起動時に自己チェックを実行するか、ロールバックまたは再同期の完了から移行します。このアラートの重要度は「Critical」です。

このアラートが発生した場合は、次の手順を実行します。

  • Check the status of replica by running the following command: rs.status() です。
  • Check the logs using kubectl logs <pod-name> -n mongodb
  • 問題が解決しない場合は UiPath サポートにお問い合わせください。

MongodbReplicationStatusRollback

MongoDB レプリカ セット メンバーがロールバックを実行しています。データを読み取ることはできません。このアラートの重要度は「Critical」です。

このアラートが発生した場合は、次の手順を実行します。

  • Check the status of the replica by running the following command: rs.status();
  • Check the logs by running the following command: kubectl logs <pod-name> -n mongodb;
  • 問題が解決しない場合は UiPath サポートにお問い合わせください。

MongodbReplicationStatusRemoved

MongoDB レプリカ セット メンバーが一度はレプリカ セットに含まれていたものの、その後削除されました。このアラートの重要度は「Critical」です。

このアラートが発生した場合は、次の手順を実行します。

  • Check the status of the replica by running the following command: rs.status();
  • Check the logs by running the following command: kubectl logs <pod-name> -n mongodb;
  • 問題が解決しない場合は UiPath サポートにお問い合わせください。

 

サーバー TLS 証明書のアラート


SecretCertificateExpiry30Days

このアラートは、サーバー TLS 証明書の有効期限が次の 30 日で切れることを示します。
To fix this issue, update the server TLS certificate. For instructions, see Managing server certificates.

SecretCertificateExpiry7Days

このアラートは、サーバー TLS 証明書の有効期限が次の 7 日で切れることを示します。
To fix this issue, update the TLS certificate. For instructions, see Managing server certificates.

 

ID トークン署名証明書のアラート


IdentityCertificateExpiry30Days

このアラートは、ID トークン署名証明書の有効期限が次の 30 日で切れることを示します。
To fix this issue, update the Identity token signing certificate. For instructions, see Managing server certificates.

IdentityCertificateExpiry7Days

このアラートは、ID トークン署名証明書の有効期限が次の 7 日で切れることを示します。
To fix this issue, update the Identity token signing certificate. For instructions, see Managing server certificates.

 

etdc のアラート


EtcdInsufficientMembers

このアラートは、etcd クラスターのメンバー数が不十分であることを示します。クラスターのメンバー数は奇数である必要があります。このアラートの重要度は「Critical」です。
クラスター内のサーバー ノード数が奇数で、すべてのノードが正常に動作していることを確認してください。

EtcdNoLeader

このアラートは、etcd クラスターにリーダーがないことを示しています。このアラートの重要度は「Critical」です。

EtcdHighNumberOfLeaderChanges

このアラートは、etcd リーダーが 10 分間で 2 回以上変わることを示します。このアラートの重要度は「Warning」です。

EtcdHighNumberOfFailedGrpcRequests

このアラートは、etcd で一定の割合の GRPC 要求の失敗が検出されたことを示します。

EtcdGrpcRequestsSlow

このアラートは、etcd の GRPC 要求が低速であることを示します。このアラートの重要度は「Warning」です。

EtcdHighNumberOfFailedHttpRequests

このアラートは、etcd で一定の割合の HTTP エラーが検出されたことを示します。

EtcdHttpRequestsSlow

このアラートは、HTTP 要求の速度が低下していることを示します。このアラートの重要度は「Warning」です。

EtcdMemberCommunicationSlow

このアラートは etcd メンバーの通信が遅くなっていることを示します。このアラートの重要度は「Warning」です。

EtcdHighNumberOfFailedProposals

このアラートは、etcd サーバーが過去 1 時間に 5 件以上の提案に失敗したことを示します。このアラートの重要度は「Warning」です。

EtcdHighFsyncDurations

このアラートは、etcd の WAL fysnc 期間が増加していることを示します。このアラートの重要度は「Warning」です。

EtcdHighCommitDurations

このアラートは、etcd のコミット期間が増加していることを示します。このアラートの重要度は「Warning」です。

 

ディスク サイズのアラート


LowDiskForRancherPartition

This alert indicates that the free space for the /var/lib/rancher partition is less than:

  • 35% – アラートの重要度は「Warning」です。
  • 25% – アラートの重要度は「Critical」です。

このアラートが発生した場合は、ディスクの容量を増やしてください。

LowDiskForKubeletPartition

This alert indicates that the free space for the /var/lib/kubelet partition is less than:

  • 35% – アラートの重要度は「Warning」です。
  • 25% – アラートの重要度は「Critical」です。
    このアラートが発生した場合は、ディスクの容量を増やしてください。

LowDiskForLonghornPartition

このアラートは、Longhorn ディスクの空き領域が次の割合より少ないことを示します。

  • 35% – アラートの重要度は「Warning」です。
  • 25% – アラートの重要度は「Critical」です。

このアラートが発生した場合は、ディスクの容量を増やしてください。

LowDiskForVarPartition

This alert indicates that the free space for the /var partition is less than:

  • 35% – アラートの重要度は「Warning」です。
  • 25% – アラートの重要度は「Critical」です。

このアラートが発生した場合は、ディスクの容量を増やしてください。

 

バックアップのアラート


NFSServerDisconnected

このアラートは、NFS サーバーの接続が失われたことを示します。
NFS サーバーの接続とマウント パスを確認する必要があります。

VolumeBackupFailed

このアラートは、PVC のバックアップが失敗したことを示します。

BackupDisabled

このアラートは、バックアップが無効化されていることを示します。
クラスターに異常がないか確認する必要があります。

4 か月前に更新


アラートの Runbook


このページでは、一連のアラートについて説明し、その内容と修正策を提示します。

改善の提案は、API リファレンスのページでは制限されています

改善を提案できるのは Markdown の本文コンテンツのみであり、API 仕様に行うことはできません。