Automation Suite

2021.10

False

Automation Suite-Installationsanleitung

Letzte Aktualisierung 19. April 2024

Warnungs-Runbooks

Hinweis:

Allgemeine Anweisungen zur Verwendung der verfügbaren Tools für Warnungen, Metriken und Visualisierungen finden Sie unter Verwenden des Überwachungs-Stacks
Weitere Informationen zum Beheben von Problemen und zum Erstellen eines Supportpakets für UiPath Support-Ingenieure finden Sie unter Fehlerbehebung.
Wenn Sie sich an den UiPath-Support wenden, geben Sie bitte alle Warnungen an, die derzeit ausgelöst werden.

Schlüssel zum Schweregrad der Warnung

Warnungsschweregrad	Beschreibung
Information (Info)	Unerwartet, aber harmlos. Kann stummgeschaltet werden, kann aber bei der Diagnose nützlich sein.
Warnung	Hinweis auf eine gezielte Beeinträchtigung der Funktionalität oder die Wahrscheinlichkeit einer Beeinträchtigung in naher Zukunft, die den gesamten Cluster betreffen kann. Schlägt sofortige Maßnahmen (in der Regel innerhalb weniger Tage) vor, um den Cluster in Ordnung zu halten.
Kritisch	Es kommt zu schwerwiegenden Beeinträchtigungen der Funktionalität, die oft im gesamten Cluster verbreitet sind. Erfordert sofortiges Handeln (am selben Tag), um den Cluster zu reparieren.

allgemeine.regeln

TargetDown

Prometheus ist nicht in der Lage, Metriken von dem Ziel in der Warnung zu sammeln, was bedeutet, dass die Grafana-Dashboards und weitere Warnungen, die auf Metriken von diesem Ziel basieren, nicht verfügbar sind. Überprüfen Sie andere Warnungen, die dieses Ziel betreffen.

Watchdog

Diese Warnung soll sicherstellen, dass die gesamte Warnungspipeline funktionsfähig ist. Diese Warnung wird immer ausgelöst. Daher sollte sie immer in AlertManager und gegen einen Receiver ausgelöst werden. Es gibt Integrationen mit verschiedenen Benachrichtigungsmechanismen, die Sie benachrichtigen, wenn diese Warnung nicht ausgelöst wird. Zum Beispiel die DeadMansSnitch-Integration in PagerDuty.

kubernetes-apps

KubePodCrashLooping

A pod that keeps restarting unexpectedly. This can happen due to an out-of-memory (OOM) error, in which case the limits can be adjusted. Check the pod events with kubectl describe, and logs with kubectl logs to see details on possible crashes. If the issue persists, contact UiPath® Support.

KubePodNotReady

A pod has started, but it is not responding to the health probe with success. This may mean that it is stuck and is not able to serve traffic. You can check pod logs with kubectl logs to see if there is any indication of progress. If the issue persists, contact UiPath® Support.

KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch

There has been an attempted update to a deployment or statefulset, but it has failed, and a rollback has not yet occurred. Contact UiPath® Support.

KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch

In high availability clusters with multiple replicas, this alert fires when the number of replicas is not optimal. This may occur when there are not enough resources in the cluster to schedule. Check resource utilization, and add capacity as necessary. Otherwise contact UiPath® Support.

KubeStatefulSetUpdateNotRolledOut

An update to a statefulset has failed. Contact UiPath® Support.

Siehe auch: StatefulSets.

KubeDaemonSetRolloutStuck

Daemonset rollout has failed. Contact UiPath® Support.

Siehe auch: DaemonSet.

KubeContainerWaiting

A container is stuck in the waiting state. It has been scheduled to a worker node, but it cannot run on that machine. Check kubectl describe of the pod for more information. The most common cause of waiting containers is a failure to pull the image. For air-gapped clusters, this could mean that the local registry is not available. If the issue persists, contact UiPath® Support.

KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled

This may indicate an issue with one of the nodes Check the health of each node, and remediate any known issues. Otherwise contact UiPath® Support.

KubeJobCompletion

A job takes more than 12 hours to complete. This is not expected. Contact UiPath® Support.

KubeJobFailed

A job has failed; however, most jobs are retried automatically. If the issue persists, contact UiPath® Support.

KubeHpaReplicasMismatch

The autoscaler cannot scale the targeted resource as configured. If desired is higher than actual, then there may be a lack of resources. If desired is lower than actual, pods may be stuck while shutting down. If the issue persists, contact UiPath® Support.

Siehe auch: Horizontales Pod-Autoscaling

KubeHpaMaxedOut

Die Anzahl der Replikate für einen bestimmten Dienst hat das Maximum erreicht. Dies ist der Fall, wenn die Anzahl der Anforderungen an den Cluster sehr hoch ist. Wenn ein hoher Datenverkehr zu erwarten ist und nur vorübergehend auftritt, können Sie diese Warnung stummschalten. Diese Warnung ist jedoch ein Zeichen dafür, dass der Cluster an seiner Kapazitätsgrenze angelangt ist und keinen weiteren Datenverkehr mehr bewältigen kann. Wenn im Cluster mehr Ressourcenkapazität verfügbar ist, können Sie die Anzahl der maximalen Replikate für den Dienst erhöhen, indem Sie diese Anweisungen befolgen:

# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'

Siehe auch: Horizontales Pod-Autoscaling.

kubernetes-resources

KubeCPUOvercommit, KubeMemoryOvercommit

Diese Warnungen weisen darauf hin, dass der Cluster keinen Knotenfehler tolerieren kann. Bei Auswertungsclustern mit einem einzelnen Knoten ist dies bekannt und diese Warnungen können stummgeschaltet werden. Bei HA-fähigen Produktionseinrichtungen mit mehreren Knoten werden diese Warnungen ausgelöst, wenn zu viele Knoten nicht mehr funktionsfähig sind, um die hohe Verfügbarkeit zu unterstützen. Sie zeigen an, dass die Knoten wiederhergestellt oder ersetzt werden sollten.

KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded

Diese Warnungen beziehen sich auf Namespace-Ressourcenkontingente, die nur im Cluster vorhanden sind, wenn sie durch Anpassung hinzugefügt wurden. Namespace-Ressourcenkontingente werden nicht im Rahmen der Automation Suite-Installation hinzugefügt.

Siehe auch: Ressourcenkontingente.

CPUThrottlingHigh

Die CPU-Auslastung eines Containers wurde gemäß den konfigurierten Grenzwerten gedrosselt. Dies ist Teil des normalen Kubernetes-Vorgangs und kann nützliche Informationen enthalten, wenn andere Warnungen ausgelöst werden. Diese Warnung können Sie stummschalten.

Kubernetes-storage

KubePersistentVolumeFillingUp

Bei Warnend: Der verfügbare Speicherplatz beträgt weniger als 15 % und wird wahrscheinlich innerhalb von vier Tagen ausgefüllt.

Bei Kritisch: Der verfügbare Speicherplatz ist weniger als 3 %.

Bei allen Diensten, bei denen der Speicherplatz knapp wird, kann es schwierig werden, die Daten wiederherzustellen. Daher sollten die Volumes verkleinert werden, bevor der verfügbare Speicherplatz 0 % erreicht. Siehe folgende Anweisungen: Konfigurieren des Clusters.

Weitere Informationen und Anweisungen zu Prometheus-spezifischen Warnungen finden Sie unter PrometheusStorageUsage .

KubePersistentVolumeErrors

PersistentVolume is not able to be provisioned. This means any service requiring the volume would not start. Check for other errors with Longhorn and/or Ceph storage and contact UiPath® Support.

kube-state-metrics

KubeStateMetricsListErrors, KubeStateMetricsWatchErrors

The Kube State Metrics collector is not able to collect metrics from the cluster without errors. This means important alerts may not fire. Contact UiPath® Support.

Siehe auch: Kube-State-Metrics beim Release.

kubernetes-system-apiserver

KubeClientCertificateExpiration

Bei Warnend: Ein Clientzertifikat, das zur Authentifizierung beim Kubernetes API-Server verwendet wird, läuft in weniger als sieben Tagen ab.

Bei Kritisch: Ein Clientzertifikat, das zur Authentifizierung beim Kubernetes API-Server verwendet wird, läuft in weniger als einem Tag ab.

Sie müssen das Zertifikat erneuern.

AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests

Zeigt Probleme mit der Kubernetes-Kontrollebene an. Überprüfen Sie den Zustand der Master-Knoten, beheben Sie alle offenen Probleme und wenden Sie sich an den UiPath-Support, wenn die Probleme weiterhin bestehen.

Siehe auch:

Die Kubernetes API

Kubernetes API-Aggregationsebene

kubernetes-system-kubelet

KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown

Diese Warnungen weisen auf ein Problem mit einem Knoten hin. In HA-fähigen Produktionsclustern mit mehreren Knoten würden Pods wahrscheinlich auf andere Knoten umgeleitet. Wenn das Problem weiterhin besteht, sollten Sie den Knoten entfernen und entleeren, um die Integrität des Clusters aufrechtzuerhalten. In Clustern ohne zusätzliche Kapazität sollte zuerst ein anderer Knoten mit dem Cluster verbunden werden.

KubeletTooManyPods

Auf dem angegebenen Knoten werden zu viele Pods ausgeführt.

Verbinden Sie einen anderen Knoten mit dem Cluster.

KubeletClientCertificateExpiration, KubeletServerCertificateExpiration

Bei Warnend: Ein Client- oder Serverzertifikat für Kubelet läuft in weniger als sieben Tagen ab.

Bei Kritisch: Ein Client- oder Serverzertifikat für Kubelet läuft in weniger als einem Tag ab.

Sie müssen das Zertifikat erneuern.

KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors

Kubelet has failed to renew its client or server certificate. Contact UiPath® support.

kubernetes-system

KubeVersionMismatch

Es gibt verschiedene semantische Versionen von Kubernetes-Komponenten. Dies kann als Folge eines fehlgeschlagenen Kubernetes-Upgrades auftreten.

KubeClientErrors

Der Kubernetes API Server-Client weist mehr als 1 % an Fehlern auf. Möglicherweise gibt es ein Problem mit dem Knoten, auf dem dieser Client läuft, oder mit dem Kubernetes API-Server selbst.

Kube-apiserver-slos

KubeAPIErrorBudgetBurn

Der Kubernetes API-Server verbraucht zu viel Budget für Fehler.

node-exporter

NodeFilesystemSpaceFillingUp, NodeFilesystemAlmostOutOfSpace, NodeFilesystemFilesFillingUp

Das Dateisystem auf einem bestimmten Knoten füllt sich. Stellen Sie mehr Speicherplatz zur Verfügung, indem Sie eine Festplatte hinzufügen oder nicht verwendete Datenträger einhängen.

NodeRAIDDegraded

Das RAID-Array ist aufgrund eines oder mehrerer Festplattenausfälle in einem schlechten Zustand. Die Anzahl der Ersatzlaufwerke

reicht nicht aus, um das Problem automatisch zu beheben.

NodeRAIDDiskFailure

Beachten Sie das RAID-Array und wechseln Sie möglicherweise die Festplatte.

NodeNetworkReceiveErrs, NodeNetworkTransmitErrs, NodeHighNumberConntrackEntriesUsed

Es liegt ein Problem mit der physischen Netzwerkschnittstelle auf dem Knoten vor. Wenn das Problem weiterhin besteht, muss sie möglicherweise ersetzt werden.

NodeClockSkewDetected, NodeClockNotSynchronising

Es gibt ein Problem mit der Uhr des Knotens. Stellen Sie sicher, dass das NTP (Network Time Protocol) korrekt konfiguriert ist.

node-network

NodeNetworkInterfaceFlapping

Es liegt ein Problem mit der physischen Netzwerkschnittstelle auf dem Knoten vor. Wenn das Problem weiterhin besteht, muss sie möglicherweise ersetzt werden.

uipath.prometheus.resource.provisioning.alerts

PrometheusMemoryUsage, PrometheusStorageUsage

Diese Warnungen warnen, wenn sich der Cluster den konfigurierten Grenzwerten für Arbeitsspeicher und Speicher nähert. Dies ist wahrscheinlich bei Clustern der Fall, bei denen die Nutzung in letzter Zeit erheblich zugenommen hat (normalerweise von Robotern und nicht von Benutzern) oder wenn Knoten zum Cluster hinzugefügt werden, ohne Prometheus-Ressourcen anzupassen. Dies ist auf eine Zunahme der Menge der gesammelten Metriken zurückzuführen.

Die höhere Speichernutzungsrate ist im Dashboard Kubernetes/Persistent Volumes zu sehen:

Sie können es anpassen, indem Sie die Größe des PVC wie hier beschrieben ändern: Konfigurieren des Clusters.

Die Rate der erhöhten Speichernutzung ist im „Kubernetes/Computeressourcen/Pod“-Dashboard zu sehen.

Sie können sie anpassen, indem Sie die Prometheus-Speicherressourcenlimits in der Rancher-Monitoring-App über ArgoCD bearbeiten. Die Rancher-Monitoring-App wird nach dem Klicken auf Speichernautomatisch erneut synchronisiert.

Beachten Sie, dass Prometheus einige Zeit benötigt, um neu zu starten und wieder Metriken in Grafana anzuzeigen. Selbst bei großen Clustern dauert es in der Regel weniger als 10 Minuten.

alertmanager.rules

AlertmanagerConfigInconsistent

Dies sind interne Alertmanager-Fehler für HA-Cluster mit mehreren Alertmanager-Replikaten. Warnungen können in unregelmäßigen Abständen erscheinen und wieder verschwinden. Eine vorübergehende Verkleinerung und dann eine Vergrößerung der Alertmanager-Replikate kann das Problem beheben.

Führen Sie die folgenden Schritte aus, um das Problem zu beheben:

Skalieren Sie auf Null. Beachten Sie, dass es einen Moment dauert, bis die Pods heruntergefahren werden:

kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0

Skalieren Sie zurück auf zwei:

kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2

Überprüfen Sie, ob die Alertmanager-Pods gestartet wurden und ob sie ausgeführt werden:
```
kubectl get po -n cattle-monitoring-systemkubectl get po -n cattle-monitoring-system
```

If the issue persists, contact UiPath® Support.

AlertmanagerFailedReload

AlertManager has failed to load or reload configuration. Please check any custom AlertManager configurations for input errors and otherwise contact UiPath® Support.

prometheus-operator

PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources

Internal errors of the Prometheus operator, which controls Prometheus resources. Prometheus itself may still be healthy while these errors are present; however, this error indicates there is degraded monitoring configurability. Contact UiPath® Support.

Prometheus

PrometheusBadConfig

Prometheus has failed to load or reload configuration. Please check any custom Prometheus configurations for input errors. Otherwise contact UiPath® Support.

PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers

The connection from Prometheus to AlertManager is not healthy. Metrics may still be queryable, and Grafana dashboards may still show them, but alerts will not fire. Check any custom configuration of AlertManager for input errors and and otherwise contact UiPath® Support.

PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards

Internal Prometheus errors indicating metrics may not be collected as expected. Please contact UiPath® Support.

PrometheusRuleFailures

This may happen if there are malformed alerts based on non-existent metrics or incorrect PromQL syntax. Contact UiPath® Support if no custom alerts have been added.

PrometheusMissingRuleEvaluations

Prometheus is not able to evaluate whether alerts should be firing. This may happen if there are too many alerts. Please remove expensive custom alert evaluations and/or see documentation on increasing CPU limit for Prometheus. Contact UiPath® Support if no custom alerts have been added.

PrometheusTargetLimitHit

Es gibt zu viele Ziele, von denen Prometheus sammeln kann. Wenn zusätzlich ServiceMonitors hinzugefügt wurden (siehe Überwachungskonsole), können Sie diese entfernen.

uipath.availability.alerts

UiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend

The number of http 500 responses from UiPath® services exceeds a given threshold.

Verkehrsaufkommen	Anzahl der Anfragen in 20 Minuten	Fehlerschwellenwert (für HTTP 500)
Hoch	>100.000	0,1 %
Mittel	Zwischen 10.000 und 100.000	1 %
Niedrig	< 10.000	5 %

Fehler in benutzerorientierten Diensten würden wahrscheinlich zu einer Beeinträchtigung der Funktionalität führen, die in der Benutzeroberfläche der Automation Suite direkt sichtbar ist, während Fehler in Backend-Diensten weniger offensichtliche Folgen hätten.

Die Warnung gibt an, welcher Dienst eine hohe Fehlerquote aufweist. Um zu verstehen, welche Kaskadenprobleme von anderen Diensten aus auftreten können, von denen der Berichtdienst abhängt, können Sie das Istio Workload-Dashboard verwenden, das Fehler zwischen Diensten anzeigt.

Please double check any recently reconfigured Automation Suite products. Detailed logs are also available with the kubectl logs command. If the error persists, please contact UiPath® Support.

uipath.cronjob.alerts.rules

UiPath CronJob „kerberos-tgt-refresh“ fehlgeschlagen

This job obtains the latest Kerberos ticket from the AD server for SQL-integrated authentication. Failures in this job would cause SQL server authentication to fail. Please contact UiPath® Support.

UiPath CronJob Kerberos-tgt-secret-update fehlgeschlagen

Dieser Auftrag aktualisiert das neueste Kerberos-Ticket für alle UiPath-Dienste. Fehler in diesem Auftrag würden dazu führen, dass die SQL Server-Authentifizierung fehlschlägt. Wenden Sie sich bitte an den UiPath-Support.

Osd-alert.rules

CephOSDNearFull

Wenn der Warnungsschweregrad Warnend lautet, beträgt der verfügbare Speicherplatz weniger als 25 % und wird sich wahrscheinlich bald füllen.

Bei allen Diensten, bei denen der Speicherplatz knapp wird, kann es schwierig werden, die Daten wiederherzustellen. Daher sollten die Volumes verkleinert werden, bevor der verfügbare Speicherplatz 10 % erreicht. Siehe folgende Anweisungen: Konfigurieren des Clusters.

CephOSDCriticallyFull

Wenn der Schweregrad der Warnung Kritisch ist, ist der verfügbare Speicherplatz kleiner als 20 %.

Bei allen Diensten, bei denen der Speicherplatz knapp wird, kann es schwierig werden, die Daten wiederherzustellen. Daher sollten die Volumes verkleinert werden, bevor der verfügbare Speicherplatz 10 % erreicht. Siehe folgende Anweisungen: Konfigurieren des Clusters.

Auf dieser Seite