Abonnieren

UiPath Automation Suite

Die Anleitung für die UiPath Automation Suite

Warnungs-Runbooks

Diese Seite führt Sie durch eine Reihe von Warnungen und bietet Kontext und Abhilfemaßnahmen.

📘

Hinweis:

Allgemeine Anweisungen zur Verwendung der verfügbaren Tools für Warnungen, Metriken und Visualisierungen finden Sie unter Verwenden des Überwachungs-Stacks
Weitere Informationen zum Beheben von Problemen und zum Erstellen eines Supportpakets für UiPath Support-Ingenieure finden Sie unter Fehlerbehebung.
Wenn Sie sich an den UiPath-Support wenden, geben Sie bitte alle Warnungen an, die derzeit ausgelöst werden.

Schlüssel zum Schweregrad der Warnung


Information (Info)

Unerwartet, aber harmlos. Kann stummgeschaltet werden, kann aber bei der Diagnose nützlich sein.

Warning

Hinweis auf eine gezielte Beeinträchtigung der Funktionalität oder die Wahrscheinlichkeit einer Beeinträchtigung in naher Zukunft, die den gesamten Cluster betreffen kann. Schlägt sofortige Maßnahmen (in der Regel innerhalb weniger Tage) vor, um den Cluster in Ordnung zu halten.

Critical

Es kommt zu schwerwiegenden Beeinträchtigungen der Funktionalität, die oft im gesamten Cluster verbreitet sind. Erfordert sofortiges Handeln (am selben Tag), um den Cluster zu reparieren.

 

general.rules


TargetDown

Prometheus ist nicht in der Lage, Metriken von dem Ziel in der Warnung zu sammeln, was bedeutet, dass die Grafana-Dashboards und weitere Warnungen, die auf Metriken von diesem Ziel basieren, nicht verfügbar sind. Überprüfen Sie andere Warnungen, die dieses Ziel betreffen.

Watchdog

Diese Warnung soll sicherstellen, dass die gesamte Warnungspipeline funktionsfähig ist. Diese Warnung wird immer ausgelöst. Daher sollte sie immer in AlertManager und gegen einen Receiver ausgelöst werden. Es gibt Integrationen mit verschiedenen Benachrichtigungsmechanismen, die Sie benachrichtigen, wenn diese Warnung nicht ausgelöst wird. Zum Beispiel die DeadMansSnitch-Integration in PagerDuty.

 

kubernetes-apps


KubePodCrashLooping

Ein Pod, der unerwartet neu gestartet wird. Dies kann durch einen Out-of-Memory-Fehler (OOM) auftreten. In diesem Fall können die Grenzwerte angepasst werden. Überprüfen Sie die Pod-Ereignisse mit kubectl describe und die Protokolle mit kubectl logs, um Details zu möglichen Abstürzen zu sehen. Wenn das Problem weiterhin besteht, wenden Sie sich an den UiPath-Support.

KubePodNotReady

Ein Pod wurde gestartet, reagiert aber nicht erfolgreich auf den Integritätstest. Dies kann bedeuten, dass er feststeckt und nicht in der Lage ist, den Verkehr zu bedienen. Sie können die Pod-Protokolle mit kubectl logs überprüfen, um festzustellen, ob es irgendwelche Anzeichen für Fortschritte gibt. Wenn das Problem weiterhin besteht, wenden Sie sich an den UiPath-Support.

KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch

Es wurde versucht, eine Bereitstellung oder ein StatefulSet zu aktualisieren, was jedoch fehlgeschlagen ist und noch nicht rückgängig gemacht werden konnte. Wenden Sie sich an den UiPath-Support.

KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch

In Hochverfügbarkeitsclustern mit mehreren Replikaten wird diese Warnung ausgelöst, wenn die Anzahl der Replikate nicht optimal ist. Dies kann auftreten, wenn im Cluster nicht genügend Ressourcen für die Planung vorhanden sind. Überprüfen Sie die Ressourcennutzung und fügen Sie bei Bedarf Kapazitäten hinzu. Wenden Sie sich andernfalls an den UiPath-Support.

KubeStatefulSetUpdateNotRolledOut

Eine Aktualisierung eines StatefulSets ist fehlgeschlagen. Wenden Sie sich an den UiPath-Support.
See also: StatefulSets.

KubeDaemonSetRolloutStuck

Die Veröffentlichung von Daemonset ist fehlgeschlagen. Wenden Sie sich an den UiPath-Support.
See also: DaemonSet.

KubeContainerWaiting

Ein Container befindet sich im Wartestatus. Er wurde für einen Arbeiterknoten geplant, kann aber nicht auf dieser Maschine ausgeführt werden. Weitere Informationen finden Sie unter kubectl describe des Pods. Die häufigste Ursache für wartende Container ist, dass das Abrufen des Bilds fehlschlägt. Für Clusters mit Air Gap könnte dies bedeuten, dass die lokale Registrierung nicht verfügbar ist. Wenn das Problem weiterhin besteht, wenden Sie sich an den UiPath-Support.

KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled

Dies kann auf ein Problem mit einem der Knoten hinweisen. Überprüfen Sie den Zustand jedes Knotens und beheben Sie alle bekannten Probleme. Wenden Sie sich andernfalls an den UiPath-Support.

KubeJobCompletion

Die Ausführung eines Auftrags dauert mehr als 12 Stunden. Das ist nicht zu erwarten. Wenden Sie sich an den UiPath-Support.

KubeJobFailed

Ein Auftrag ist fehlgeschlagen; die meisten Aufträge werden jedoch automatisch wiederholt. Wenn das Problem weiterhin besteht, wenden Sie sich an den UiPath-Support.

KubeHpaReplicasMismatch

Der Autoscaler kann die Zielressource nicht wie konfiguriert skalieren. Wenn der Sollwert höher als der Istwert ist, kann ein Ressourcenmangel vorliegen. Wenn der Sollwert niedriger als der Istwert ist, können Pods beim Herunterfahren stecken bleiben. Wenn das Problem weiterhin besteht, wenden Sie sich an den UiPath-Support.
See also: Horizontal Pod Autoscaling

KubeHpaMaxedOut

Die Anzahl der Replikate für einen bestimmten Dienst hat das Maximum erreicht. Dies ist der Fall, wenn die Anzahl der Anforderungen an den Cluster sehr hoch ist. Wenn ein hoher Datenverkehr zu erwarten ist und nur vorübergehend auftritt, können Sie diese Warnung stummschalten. Diese Warnung ist jedoch ein Zeichen dafür, dass der Cluster an seiner Kapazitätsgrenze angelangt ist und keinen weiteren Datenverkehr mehr bewältigen kann. Wenn im Cluster mehr Ressourcenkapazität verfügbar ist, können Sie die Anzahl der maximalen Replikate für den Dienst erhöhen, indem Sie diese Anweisungen befolgen:

# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'

See also: Horizontal Pod Autoscaling.

 

kubernetes-resources


KubeCPUOvercommit, KubeMemoryOvercommit

Diese Warnungen weisen darauf hin, dass der Cluster keinen Knotenfehler tolerieren kann. Bei Auswertungsclustern mit einem einzelnen Knoten ist dies bekannt und diese Warnungen können stummgeschaltet werden. Bei HA-fähigen Produktionseinrichtungen mit mehreren Knoten werden diese Warnungen ausgelöst, wenn zu viele Knoten nicht mehr funktionsfähig sind, um die hohe Verfügbarkeit zu unterstützen. Sie zeigen an, dass die Knoten wiederhergestellt oder ersetzt werden sollten.

KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded

Diese Warnungen beziehen sich auf Namespace-Ressourcenkontingente, die nur im Cluster vorhanden sind, wenn sie durch Anpassung hinzugefügt wurden. Namespace-Ressourcenkontingente werden nicht im Rahmen der Automation Suite-Installation hinzugefügt.
See also: Resource Quotas.

CPUThrottlingHigh

Die CPU-Auslastung eines Containers wurde gemäß den konfigurierten Grenzwerten gedrosselt. Dies ist Teil des normalen Kubernetes-Vorgangs und kann nützliche Informationen enthalten, wenn andere Warnungen ausgelöst werden. Diese Warnung können Sie stummschalten.

 

kubernetes-storage


KubePersistentVolumeFillingUp

Bei Warnend: Der verfügbare Speicherplatz beträgt weniger als 15 % und wird wahrscheinlich innerhalb von vier Tagen ausgefüllt.
Bei Kritisch: Der verfügbare Speicherplatz ist weniger als 3 %.

For any services that run out of space, data may be difficult to recover, so volumes should be resized before hitting 0% available space. See the following instructions: Configuring the cluster.

For Prometheus-specific alerts, see PrometheusStorageUsage for more details and instructions.

KubePersistentVolumeErrors

PersistentVolume kann nicht bereitgestellt werden. Das bedeutet, dass ein Dienst, der das Volume benötigt, nicht gestartet werden kann. Prüfen Sie auf andere Fehler mit Longhorn und/oder Ceph-Speicher und kontaktieren Sie den UiPath-Support.

 

kube-state-metrics


KubeStateMetricsListErrors, KubeStateMetricsWatchErrors

Der Sammler der Kube-State-Metrics kann keine Metriken aus dem Cluster ohne Fehler sammeln. Dies bedeutet, dass wichtige Warnungen möglicherweise nicht ausgelöst werden. Wenden Sie sich an den UiPath-Support.
See also: Kube state metrics at release.

 

kubernetes-system-apiserver


KubeClientCertificateExpiration

Bei Warnend: Ein Clientzertifikat, das zur Authentifizierung beim Kubernetes API-Server verwendet wird, läuft in weniger als sieben Tagen ab.
Bei Kritisch: Ein Clientzertifikat, das zur Authentifizierung beim Kubernetes API-Server verwendet wird, läuft in weniger als einem Tag ab.
Sie müssen das Zertifikat erneuern.

AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests

Zeigt Probleme mit der Kubernetes-Kontrollebene an. Überprüfen Sie den Zustand der Master-Knoten, beheben Sie alle offenen Probleme und wenden Sie sich an den UiPath-Support, wenn die Probleme weiterhin bestehen.

Siehe auch:
The Kubernetes API
Kubernetes API Aggregation Layer

 

kubernetes-system-kubelet


KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown

These alerts indicate a problem with a node. In multi-node HA-ready production clusters, pods would likely be rescheduled onto other nodes. If the issue persists, you should remove and drain the node to maintain the health of the cluster. In clusters without extra capacity, another node should be joined to the cluster first.

KubeletTooManyPods

There are too many pods running on the specified node. Join another node to the cluster.

KubeletClientCertificateExpiration, KubeletServerCertificateExpiration

Bei Warnend: Ein Client- oder Serverzertifikat für Kubelet läuft in weniger als sieben Tagen ab.
Bei Kritisch: Ein Client- oder Serverzertifikat für Kubelet läuft in weniger als einem Tag ab.
Sie müssen das Zertifikat erneuern.

KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors

Kubelet hat sein Client- oder Serverzertifikat nicht erneuert. Wenden Sie sich an den UiPath-Support.

 

kubernetes-system


KubeVersionMismatch

Es gibt verschiedene semantische Versionen von Kubernetes-Komponenten. Dies kann als Folge eines fehlgeschlagenen Kubernetes-Upgrades auftreten.

KubeClientErrors

Der Kubernetes API Server-Client weist mehr als 1 % an Fehlern auf. Möglicherweise gibt es ein Problem mit dem Knoten, auf dem dieser Client läuft, oder mit dem Kubernetes API-Server selbst.

 

kube-apiserver-slos


KubeAPIErrorBudgetBurn

Der Kubernetes API-Server verbraucht zu viel Budget für Fehler.

 

node-exporter


NodeFilesystemSpaceFillingUp, NodeFilesystemSpaceFillingUp, NodeFilesystemAlmostOutOfSpace, NodeFilesystemFilesFillingUp, NodeFilesystemAlmostOutOfFiles

Das Dateisystem auf einem bestimmten Knoten füllt sich. Stellen Sie mehr Speicherplatz zur Verfügung, indem Sie eine Festplatte hinzufügen oder nicht verwendete Datenträger einhängen.

NodeRAIDDegraded

Das RAID-Array ist aufgrund eines oder mehrerer Festplattenausfälle in einem schlechten Zustand. Die Anzahl der Ersatzlaufwerke
reicht nicht aus, um das Problem automatisch zu beheben.

NodeRAIDDiskFailure

Beachten Sie das RAID-Array und wechseln Sie möglicherweise die Festplatte.

NodeNetworkReceiveErrs, NodeNetworkTransmitErrs, NodeHighNumberConntrackEntriesUsed

Es liegt ein Problem mit der physischen Netzwerkschnittstelle auf dem Knoten vor. Wenn das Problem weiterhin besteht, muss sie möglicherweise ersetzt werden.

NodeClockSkewDetected, NodeClockNotSynchronising

Es gibt ein Problem mit der Uhr des Knotens. Stellen Sie sicher, dass das NTP (Network Time Protocol) korrekt konfiguriert ist.

 

node-network


NodeNetworkInterfaceFlapping

Es liegt ein Problem mit der physischen Netzwerkschnittstelle auf dem Knoten vor. Wenn das Problem weiterhin besteht, muss sie möglicherweise ersetzt werden.

 

uipath.prometheus.resource.provisioning.alerts


PrometheusMemoryUsage, PrometheusStorageUsage

Diese Warnungen werden ausgelöst, wenn sich Prometheus den konfigurierten Grenzen für Arbeitsspeicher und Speicherplatz nähert. Dies ist wahrscheinlich bei Clustern der Fall, bei denen die Nutzung in letzter Zeit stark zugenommen hat (in der Regel von Robotern, nicht von Benutzern) oder wenn dem Cluster Knoten hinzugefügt werden, ohne dass die Prometheus-Ressourcen angepasst werden. Dies ist darauf zurückzuführen, dass die Anzahl der erfassten Metriken gestiegen ist.

Die höhere Speichernutzungsrate ist im Dashboard Kubernetes/Persistent Volumes zu sehen:

You can adjust it by resizing the PVC as instructed here: Configuring the cluster.

The rate of increased memory utilization can be seen on the Kubernetes / Compute Resources / Pod dashboard.

You can adjust it by editing the Prometheus memory resource limits in the rancher-monitoring app from ArgoCD. The rancher-monitoring app automatically re-syncs after clicking Save.

Beachten Sie, dass Prometheus einige Zeit benötigt, um neu zu starten und wieder Metriken in Grafana anzuzeigen. Selbst bei großen Clustern dauert es in der Regel weniger als 10 Minuten.

 

alertmanager.rules


AlertmanagerConfigInconsistent, AlertmanagerMembersInconsistent

Dies sind interne AlertManager-Fehler für HA-Cluster mit mehreren AlertManager-Replikaten. Warnungen können in unregelmäßigen Abständen erscheinen und wieder verschwinden. Eine vorübergehende Verkleinerung und anschließende Vergrößerung der AlertManager-Replikate kann das Problem beheben:

# First, scale to zero. This will take a moment for the pods to shut down.
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
# Then scale back to two.
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
# Check to see alertmanager pods have started and are now in the running state.
kubectl get po -n cattle-monitoring-system

Wenn das Problem weiterhin besteht, wenden Sie sich an den UiPath-Support.

AlertmanagerFailedReload

AlertManager konnte die Konfiguration nicht laden oder neu laden. Bitte überprüfen Sie alle benutzerdefinierten AlertManager-Konfigurationen auf Eingabefehler; andernfalls wenden Sie sich an den UiPath-Support.

 

prometheus-operator


PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources

Interne Fehler des Prometheus-Betreibers, der die Prometheus-Ressourcen kontrolliert. Prometheus selbst kann noch funktionsfähig sein, während diese Fehler vorhanden sind; dieser Fehler zeigt jedoch an, dass die Konfigurierbarkeit der Überwachung beeinträchtigt ist. Wenden Sie sich an den UiPath-Support.

 

prometheus


PrometheusBadConfig

Prometheus konnte die Konfiguration nicht laden oder neu laden. Bitte überprüfen Sie alle benutzerdefinierten Prometheus-Konfigurationen auf Eingabefehler. Wenden Sie sich andernfalls an den UiPath-Support.

PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers

Die Verbindung von Prometheus zu AlertManager ist nicht fehlerfrei. Metriken können immer noch abgefragt werden und Grafana-Dashboards können sie immer noch anzeigen, aber es werden keine Warnungen ausgelöst. Überprüfen Sie jede benutzerdefinierte Konfiguration von AlertManager auf Eingabefehler und wenden Sie sich andernfalls an den UiPath-Support.

PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards

Interne Prometheus-Fehler, die Metriken angeben, werden möglicherweise nicht wie erwartet gesammelt. Wenden Sie sich bitte an den UiPath-Support.

PrometheusRuleFailures

Dies kann passieren, wenn es fehlerhafte Warnmeldungen gibt, die auf nicht vorhandenen Metriken oder einer falschen PromQL-Syntax basieren. Wenden Sie sich an den UiPath-Support, wenn keine benutzerdefinierten Warnungen hinzugefügt wurden.

PrometheusMissingRuleEvaluations

Prometheus ist nicht in der Lage zu beurteilen, ob Warnungen ausgelöst werden sollten. Dies kann passieren, wenn zu viele Warnungen vorhanden sind. Bitte entfernen Sie teure benutzerdefinierte Warnungsevaluierungen und/oder lesen Sie die Dokumentation zur Erhöhung des CPU-Limits für Prometheus. Wenden Sie sich an den UiPath-Support, wenn keine benutzerdefinierten Warnungen hinzugefügt wurden.

PrometheusTargetLimitHit

Es gibt zu viele Ziele, von denen Prometheus sammeln kann. Wenn zusätzlich ServiceMonitors hinzugefügt wurden (siehe Überwachungskonsole), können Sie diese entfernen.

 

uipath.availability.alerts


UiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend

Die Anzahl von http 500-Antworten von UiPath-Diensten überschreitet einen bestimmten Schwellenwert.

Traffic level

Number of requests in 20 minutes

Error threshold (for http 500s)

High

100,000

0.1%

Medium

Between 10,000 and 100,000

1%

Low

< 10,000

5%

Fehler in benutzerorientierten Diensten würden wahrscheinlich zu einer Beeinträchtigung der Funktionalität führen, die in der Benutzeroberfläche der Automation Suite direkt sichtbar ist, während Fehler in Backend-Diensten weniger offensichtliche Folgen hätten.

Die Warnung gibt an, welcher Dienst eine hohe Fehlerquote aufweist. Um zu verstehen, welche Kaskadenprobleme von anderen Diensten aus auftreten können, von denen der Berichtdienst abhängt, können Sie das Istio Workload-Dashboard verwenden, das Fehler zwischen Diensten anzeigt.

Bitte überprüfen Sie alle kürzlich neu konfigurierten Automation Suite-Produkte. Detaillierte Protokolle sind auch mit dem Befehl kubectl logs verfügbar. Wenn der Fehler weiterhin auftritt, wenden Sie sich bitte an den UiPath-Support.

 

uipath.cronjob.alerts.rules


UiPath CronJob "kerberos-tgt-refresh" Failed

Dieser Auftrag erhält das neueste Kerberos-Ticket vom AD-Server für die SQL-integrierte Authentifizierung. Fehler in diesem Auftrag würden dazu führen, dass die SQL Server-Authentifizierung fehlschlägt. Wenden Sie sich bitte an den UiPath-Support.

UiPath CronJob kerberos-tgt-secret-update Failed

Dieser Auftrag aktualisiert das neueste Kerberos-Ticket für alle UiPath-Dienste. Fehler in diesem Auftrag würden dazu führen, dass die SQL Server-Authentifizierung fehlschlägt. Wenden Sie sich bitte an den UiPath-Support.

 

osd-alert.rules


CephOSDNearFull

Wenn der Warnungsschweregrad Warnend lautet, beträgt der verfügbare Speicherplatz weniger als 25 % und wird sich wahrscheinlich bald füllen.

For any services that run out of space, data may be difficult to recover, so you should resize volumes before hitting 10% available space. See the following instructions: Configuring the cluster.

CephOSDCriticallyFull

Wenn der Schweregrad der Warnung Kritisch ist, ist der verfügbare Speicherplatz kleiner als 20 %.

For any services that run out of space, data may be difficult to recover, so you should resize volumes before hitting 10% available space. See the following instructions: Configuring the cluster.

Aktualisiert vor 2 Monaten


Warnungs-Runbooks


Diese Seite führt Sie durch eine Reihe von Warnungen und bietet Kontext und Abhilfemaßnahmen.

Auf API-Referenzseiten sind Änderungsvorschläge beschränkt

Sie können nur Änderungen an dem Textkörperinhalt von Markdown, aber nicht an der API-Spezifikation vorschlagen.