automation-suite
2022.4
false
Important :
Veuillez noter que ce contenu a été localisé en partie à l’aide de la traduction automatique. La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.
UiPath logo, featuring letters U and I in white

Guide d'installation d'Automation Suite

Dernière mise à jour 19 déc. 2024

Runbooks d'alerte

Remarque :
  • Pour obtenir des instructions générales sur l'utilisation des outils disponibles pour les alertes, les métriques et les visualisations, consultez l'article Utiliser la pile de surveillance
  • Pour en savoir plus sur la résolution des problèmes et la création d'un bundle d'assistance destiné aux ingénieurs du support UiPath, consultez l'article Résolution des problèmes.
  • Lorsque vous contactez le support UiPath, veuillez inclure toutes les alertes qui se déclenchent actuellement.

Clé de gravité de l'alerte

Gravité de l’alerte

Description

Info

Peu courant mais inoffensif. Peut être désactivé mais peut être utile lors des diagnostics.

Avertissement

Indique une dégradation ciblée des fonctionnalités ou d'une dégradation probable dans un futur proche, pouvant affecter l'ensemble du cluster. Une action rapide est recommandée (généralement dans les prochains jours) pour maintenir le cluster en bonne santé.

Critique (Critical)

Connu pour provoquer une grave dégradation des fonctionnalités, souvent généralisée au sein du cluster. Nécessite une action immédiate (le jour même) pour réparer le cluster.

Règles.générales

TargetDown

Prometheus n'est pas en mesure de collecter les métriques de la cible dans l'alerte, ce qui signifie que les tableaux de bord Grafana et d'autres alertes basées sur les métriques de cette cible ne sont pas disponibles. Vérifiez les autres alertes relatives à cette cible.

Watchdog

Il s'agit d'une alerte destinée à garantir que l'ensemble du pipeline d'alerte est fonctionnel. Cette alerte est toujours déclenchée. Par conséquent, elle doit toujours se déclencher dans AlertManager et à l'encontre d'un récepteur. Il existe des intégrations avec divers mécanismes de notification qui vous avertissent lorsque cette alerte ne se déclenche pas. Par exemple, l'intégration de DeadMansSnitch dans PagerDuty.

kubernetes-apps

KubePodCrashLooping

Un pod qui redémarre sans cesse de manière inattendue. Cela peut se produire en raison d’une erreur de mémoire insuffisante (OOM), auquel cas les limites peuvent être ajustées. Vérifiez les événements du pod avec kubectl describe et les journaux avec kubectl logs pour voir les détails sur les pannes possibles. Si le problème persiste, contactez le support UiPath®.

KubePodNotReady

Un pod a démarré, mais il ne répond pas avec succès à la sonde de santé. Cela peut signifier qu’il est bloqué et qu’il n’est pas en mesure de desservir le trafic. Vous pouvez vérifier les journaux de pod avec kubectl logs pour voir s’il y a une indication de progression. Si le problème persiste, contactez le support UiPath®.

KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch

Une tentative de mise à jour d’un déploiement ou d’un ensemble d’états a eu lieu, mais elle a échoué et aucune restauration n’a encore eu lieu. Contactez l’assistance UiPath®.

KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch

Dans les clusters à haute disponibilité avec plusieurs répliques, cette alerte se déclenche lorsque le nombre de répliques n’est pas optimal. Cela peut se produire lorsqu’il n’y a pas suffisamment de ressources dans le cluster à planifier. Vérifiez l’utilisation des ressources et ajoutez de la capacité si nécessaire. Sinon, contactez le support UiPath®.

KubeStatefulSetUpdateNotRolledOut

La mise à jour d’un ensemble d’états a échoué. Contactez l’assistance UiPath®.

Voir aussi : Ensembles d'états.

KubeDaemonSetRolloutStuck

Le déploiement de Daemonset a échoué. Contactez l’assistance UiPath®.

Voir aussi : DaemonSet.

KubeContainerWaiting

Un conteneur est bloqué dans l’état d’attente. Il a été planifié sur un nœud de travail, mais il ne peut pas s’exécuter sur cette machine. Vérifiez le kubectl describe du pod pour plus d’informations. La cause la plus fréquente des conteneurs en attente est l’échec de l’extraction de l’image. Pour les clusters isolés, cela peut signifier que le registre local n’est pas disponible. Si le problème persiste, contactez le support UiPath®.

KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled

Cela peut indiquer un problème avec l’un des nœuds. Vérifiez l’intégrité de chaque nœud et corrigez tout problème connu. Sinon, contactez le support UiPath®.

KubeJobCompletion

Une tâche prend plus de 12 heures à s’exécuter. Ceci n’est pas normal. Contactez l’assistance UiPath®.

KubeJobFailed

Une tâche a échoué ; cependant, la plupart des tâches font automatiquement l’objet de nouvelles tentatives. Si le problème persiste, contactez le support UiPath®.

KubeHpaReplicasMismatch

L’autoscaler ne peut pas mettre à l’échelle la ressource ciblée telle qu’elle est configurée. Si la valeur souhaitée est supérieure à la valeur réelle, il y a peut-être un manque de ressources. Si la valeur souhaitée est inférieure à la valeur réelle, les pods peuvent être bloqués lors de l’arrêt. Si le problème persiste, contactez le support UiPath®.

KubeHpaMaxedOut

Le nombre de répliques d'un service donné a atteint son maximum. Cela se produit lorsque le nombre de requêtes adressées au cluster est très élevé. Si un trafic élevé est prévu et temporaire, vous pouvez désactiver cette alerte. Cependant, cette alerte est un signe que le cluster est à pleine capacité et ne peut pas gérer beaucoup plus de trafic. Si une plus grande capacité de ressources est disponible sur le cluster, vous pouvez augmenter le nombre maximal de répliques du service en suivant ces instructions :

# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'

kubernetes-resources

KubeCPUOvercommit, KubeMemoryOvercommit

Ces avertissements indiquent que le cluster ne peut pas tolérer une panne de nœud. Pour les clusters en mode d'évaluation à nœud unique, cela est courant et ces alertes peuvent être désactivées. Pour les configurations en mode de production multi-nœuds compatible haute disponibilité, ces alertes se déclenchent lorsqu'un trop grand nombre de nœuds deviennent défectueux pour prendre en charge la haute disponibilité, et elles indiquent que les nœuds doivent être rétablis ou remplacés.

KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded

Ces alertes concernent les quotas de ressources d'espace de noms qui n'existent dans le cluster que s'ils sont ajoutés via la personnalisation. Les quotas de ressources d'espace de noms ne sont pas ajoutés dans le cadre de l'installation d'Automation Suite.

Voir aussi : Quotas de ressources.

CPUThrottlingHigh

L'utilisation du processeur d'un conteneur a été limitée en fonction des limites configurées. Cela fait partie du fonctionnement normal de Kubernetes et peut fournir des informations utiles lorsque d'autres alertes se déclenchent. Vous pouvez désactiver cette alerte.

Kubernetes-storage

KubePersistentVolumeFillingUp

Quand Avertissement (Warning) s'affiche : L'espace disponible est inférieur à 30 % et est susceptible de se remplir dans les quatre jours.

Lorsque Critique (Critical) s'affiche : l'espace disponible est inférieur à 10 %.

Pour tous les services qui manquent d'espace, les données peuvent être difficiles à récupérer, les volumes doivent donc être redimensionnés avant d'atteindre 0 % d'espace disponible.

Pour obtenir des instructions, consultez Configuration du cluster.

Pour les alertes spécifiques à Prometheus, consultez UtilisationStorage Prometheus pour plus de détails et d'instructions.

KubePersistentVolumeErrors

PersistentVolume ne peut pas être enregistré. Cela signifie que tout service nécessitant le volume ne démarrerait pas. Recherchez d’autres erreurs avec le stockage Longhorn et/ou Ceph et contactez le support UiPath®.

kube-state-metrics

KubeStateMetricsListErrors, KubeStateMetricsWatchErrors

Le collecteur Kube State Metrics n’est pas en mesure de collecter les métriques du cluster sans erreur. Cela signifie que les alertes importantes peuvent ne pas se déclencher. Contactez l’assistance UiPath®.

kubernetes-system-apiserver

KubeClientCertificateExpiration

Lorsque Avertissement (Warning) s'affiche : un certificat client utilisé pour s'authentifier auprès du serveur d'API Kubernetes expire dans moins de sept jours.

Lorsque Critique (Critical)s'affiche : un certificat client utilisé pour s'authentifier auprès du serveur d'API Kubernetes expire en moins d'un jour.

Vous devez renouveler le certificat.

AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests

Indique des problèmes avec le plan de contrôle Kubernetes. Vérifiez l’état des nœuds maîtres, résolvez les problèmes en cours et contactez le support UiPath® si les problèmes persistent.

Voir également :

KubernetesApiServerErrors

Cette alerte indique que le serveur d'API Kubernetes rencontre un taux d'erreur élevé. Ce problème peut entraîner d'autres échecs. Il est donc recommandé d'étudier le problème de manière proactive.

Consultez les journaux du pod api-server pour trouver la cause première du problème à l'aide de la commande kubectl logs <pod-name> -n kube-system .

kubernetes-system-kubelet

KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown

Ces alertes indiquent un problème avec un nœud. Dans les clusters en mode de production multi-nœuds compatible haute disponibilité, les pods seraient probablement replanifiés sur d'autres nœuds. Si le problème persiste, vous devez supprimer et vider le nœud pour maintenir l'intégrité du cluster. Dans les clusters sans capacité supplémentaire, un autre nœud doit d'abord être joint au cluster.

KubeletTooManyPods

Il y a trop de pods en cours d'exécution sur le nœud spécifié.

KubeletClientCertificateExpiration, KubeletServerCertificateExpiration

Quand Avertissement (Warning) s'affiche : Un certificat client ou serveur pour Kubelet expire dans moins de sept jours.

Lorsque Critique (Critical) s'affiche : un certificat client ou serveur pour Kubelet expire dans moins d'un jour.

Vous devez renouveler le certificat.

KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors

Kubelet n’a pas réussi à renouveler son certificat client ou serveur. Contactez l’assistance UiPath®.

kubernetes-system

KubeVersionMismatch

Il existe différentes versions sémantiques des composants Kubernetes en cours d'exécution. Cela peut se produire à la suite d'une mise à niveau infructueuse de Kubernetes.

KubeClientErrors

Le client du serveur d'API Kubernetes rencontre plus de 1 % d'erreurs. Il peut y avoir un problème avec le nœud sur lequel ce client s'exécute ou avec le serveur d'API Kubernetes lui-même.

KubernetesMemoryPressure

Cette alerte indique que l'utilisation de la mémoire est très élevée sur le nœud Kubernetes.

Si cette alerte se déclenche, essayez de voir quel pod consomme le plus de mémoire.

KubernetesDiskPressure

Cette alerte indique que l'utilisation du disque est très élevée sur le nœud Kubernetes.

Si cette alerte se déclenche, essayez de voir quel pod consomme le plus de disque.

Kube-apiserver-slos

KubeAPIErrorBudgetBurn

Le serveur d'API Kubernetes consomme trop de budget d'erreur.

node-exporter

NodeFilesystemSpaceFillingUp, NodeFilesystemAlmostOutOfSpace, NodeFilesystemFilesFillingUp

Le système de fichiers sur un nœud particulier se remplit. Enregistrez plus d'espace en ajoutant un disque ou en montant des disques inutilisés.

NodeRAIDDegraded

La matrice RAID est dans un état dégradé en raison d'une ou plusieurs pannes de disque. Le nombre de disques libres

est insuffisant pour résoudre le problème automatiquement.

NodeRAIDDiskFailure

La matrice RAID a besoin d'attention et éventuellement d'un changement de disque.

NodeNetworkReceiveErrs, NodeNetworkTransmitErrs, NodeHighNumberConntrackEntriesUsed

Il y a un problème avec l'interface réseau physique sur le nœud. Si les problèmes persistent, il peut être nécessaire de le remplacer.

NodeClockSkewDetected, NodeClockNotSynchronising

Il y a un problème avec l'horloge sur le nœud. Assurez-vous que NTP est configuré correctement.

node-network

NodeNetworkInterfaceFlapping

Il y a un problème avec l'interface réseau physique sur le nœud. Si les problèmes persistent, il peut être nécessaire de le remplacer.

InternodeCommunicationBroken

Le nœud ne répond plus en raison d’un problème provoquant une rupture de la communication entre les nœuds du cluster.

Pour résoudre ce problème, redémarrez le nœud affecté. Si le problème persiste, contactez le support UiPath® avec l’outil de pack d’assistance.

uipath.prometheus.resource.provisioning.alerts

PrometheusMemoryUsage, PrometheusStorageUsage

Ces alertes vous avertissent lorsque le cluster approche des limites configurées pour la mémoire et le stockage. Cela est susceptible de se produire sur les clusters avec une augmentation substantielle récente de l'utilisation (généralement de la part des Robots plutôt que des utilisateurs), ou lorsque des nœuds sont ajoutés au cluster sans ajuster les ressources Prometheus. Cela est dû à une augmentation de la quantité de mesures collectées.

Le taux d'utilisation accrue du stockage peut être consulté sur le tableau de bord Kubernetes/Persistent Volumes :



Vous pouvez l'ajuster en redimensionnant le PVC comme indiqué ici : Configuration du cluster.

Le taux d'utilisation accrue de la mémoire peut être consulté sur le tableau de bord Kubernetes/Ressources de calcul (Compute Resources)/Pod.



Vous pouvez l'ajuster en modifiant les limites des ressources mémoire Prometheus dans l'application rancher-monitoring d'ArgoCD. L'application de surveillance Rancher se resynchronise automatiquement après avoir cliqué sur Enregistrer ( Save) .



Notez que Prometheus met un certain temps à redémarrer et à recommencer à afficher les métriques dans Grafana. Cela prend généralement moins de 10 minutes, même avec de grands clusters.

alertmanager.rules

AlertmanagerConfigInconsistent

Il s'agit d'erreurs internes du gestionnaire d'alertes pour les clusters haute disponibilité avec plusieurs répliques du gestionnaire d'alertes. Les alertes peuvent apparaître et disparaître par intermittence. La réduction temporaire, puis la mise à l'échelle des répliques du gestionnaire d'alertes peuvent résoudre le problème.

Pour résoudre le problème, procédez comme suit :

  1. Définissez la mise à l'échelle sur zéro. Notez qu'il faut un moment pour que les pods s'arrêtent :

    kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
  2. Redéfinissez la mise à l'échelle sur deux :

    kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
  3. Vérifiez si les pods du gestionnaire d'alertes ont démarré et sont en cours d'exécution :

    kubectl get po -n cattle-monitoring-systemkubectl get po -n cattle-monitoring-system

Si le problème persiste, contactez le support UiPath®.

AlertmanagerFailedReload

AlertManager n’a pas pu charger ou recharger la configuration. Veuillez vérifier toutes les configurations AlertManager personnalisées pour les erreurs de saisie ; sinon, contactez l’assistance UiPath®.

prometheus-operator

PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources

Erreurs internes de l’opérateur Prometheus, qui contrôle les ressources Prometheus. Prometheus peut lui-même conserver une bonne intégrité alors que ces erreurs sont présentes ; cependant, cette erreur indique que la configurabilité de la surveillance est dégradée. Contactez l’assistance UiPath®.

Prometheus

PrometheusBadConfig

Prometheus n’a pas pu charger ou recharger la configuration. Veuillez vérifier toutes les configurations Prometheus personnalisées pour les erreurs de saisie. Sinon, contactez le support UiPath®.

PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers

La connexion de Prometheus à AlertManager n’est pas saine. Les métriques peuvent toujours faire l’objet de requêtes et les tableaux de bord Grafana peuvent toujours les afficher, mais les alertes ne se déclencheront pas. Vérifiez toute configuration personnalisée d’AlertManager pour les erreurs de saisie. Sinon, contactez le support UiPath®.

PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards

Les erreurs internes Prometheus indiquant que les métriques peuvent ne pas être collectées comme prévu. Veuillez contacter l’assistance UiPath®.

PrometheusRuleFailures

Cela peut se produire s’il existe des alertes malformées basées sur des métriques inexistantes ou une syntaxe PromQL incorrecte. Contactez l’assistance UiPath® si aucune alerte personnalisée n’a été ajoutée.

PrometheusMissingRuleEvaluations

Prometheus n’est pas en mesure d’évaluer si les alertes doivent être déclenchées. Cela peut se produire s’il y a trop d’alertes. Veuillez supprimer les évaluations d’alertes personnalisées coûteuses et/ou consulter la documentation sur l’augmentation de la limite du processeur pour Prometheus. Contactez l’assistance UiPath® si aucune alerte personnalisée n’a été ajoutée.

PrometheusTargetLimitHit

Il y a trop de cibles depuis lesquelles Prometheus peut collecter. Si des ServiceMonitors supplémentaires ont été ajoutés (voir Console de surveillance), vous pouvez les supprimer.

uipath.availability.alerts

UiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend

Le nombre de réponses http 500 des services UiPath® dépasse la limite donnée.

Niveau de trafic

Nombre de requêtes en 20 minutes

Seuil d'erreur (pour http 500s)

Haute

>100 000

0,1 %

Moyenne

Entre 10 000 et 100 000

1 %

Basse

< 10 000

5 %

Les erreurs dans les services destinés aux utilisateurs entraîneraient probablement une dégradation des fonctionnalités directement observable dans l'interface utilisateur d'Automation Suite, tandis que les erreurs dans les services principaux auraient des conséquences moins visibles.

L'alerte indique quel service connaît actuellement un taux d'erreur élevé. Pour comprendre les problèmes pouvant découler d'autres services dont dépend le service de création de rapports, vous pouvez utiliser le tableau de bord Istio Workload, qui affiche les erreurs entre les services.

Veuillez revérifier tous les produits Automation Suite récemment reconfigurés. Des journaux détaillés sont également disponibles avec la commande kubectl logs. Si l’erreur persiste, veuillez contacter l’assistance UiPath®.

uipath.cronjob.alerts.rules

CronJobSuspended

La tâche cron uipath-infra/istio-configure-script-cronjob est à l’état suspendu.

Pour résoudre ce problème, activez la tâche cron en procédant comme suit :

export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'

Échec de la tâche UiPath CronJob « kerberos-tgt-refresh »

Cette tâche obtient le dernier ticket Kerberos du serveur AD pour l’authentification intégrée SQL. Les échecs de cette tâche entraîneraient l’échec de l’authentification du serveur SQL. Veuillez contacter l’assistance UiPath®.

IdentityKerberosTgtUpdateFailed

Cette tâche met à jour le dernier ticket Kerberos pour tous les services UiPath®. Les échecs de cette tâche entraîneraient l’échec de l’authentification du serveur SQL. Veuillez contacter l’assistance UiPath®.

Alertes Ceph

CephClusterNearFull

Cette alerte indique que l'utilisation du cluster de stockage Ceph a franchi 75 % et passera en lecture seule à 85 %.

Si cette alerte se déclenche, libérez de l'espace dans CEPH en supprimant certains ensembles de données inutilisés dans AI Center ou Task Mining, ou augmentez le stockage disponible pour Ceph PVC en suivant les instructions de Redimensionnement de PVC.

Avant de redimensionner le PVC, assurez-vous de répondre aux exigences de stockage. Pour plus de détails, consultez Évaluation de vos besoins de stockage.

CephClusterCriticallyFull

Cette alerte indique que l'utilisation du cluster de stockage Ceph a franchi 80 % et passera en lecture seule à 85 %.

Si cette alerte se déclenche, libérez de l'espace dans CEPH en supprimant certains ensembles de données inutilisés dans AI Center ou Task Mining, ou augmentez le stockage disponible pour Ceph PVC en suivant les instructions de Redimensionnement de PVC.

Avant de redimensionner le PVC, assurez-vous de répondre aux exigences de stockage. Pour plus de détails, consultez Évaluation de vos besoins de stockage.

CephClusterReadOnly

Cette alerte indique que l'utilisation du cluster de stockage Ceph a franchi 85 % et passera désormais en lecture seule. Libérez de l'espace ou développez immédiatement le cluster de stockage.

Si cette alerte se déclenche, libérez de l'espace dans CEPH en supprimant certains ensembles de données inutilisés dans AI Center ou Task Mining, ou augmentez le stockage disponible pour Ceph PVC en suivant les instructions de Redimensionnement de PVC.

Avant de redimensionner le PVC, assurez-vous de répondre aux exigences de stockage. Pour plus de détails, consultez Évaluation de vos besoins de stockage.

CephPoolQuotaBytesCriticallyExhausted

Cette alerte indique que l'utilisation du pool de stockage Ceph a dépassé 90 %.

Si cette alerte se déclenche, libérez de l'espace dans CEPH en supprimant certains ensembles de données inutilisés dans AI Center ou Task Mining, ou augmentez le stockage disponible pour Ceph PVC en suivant les instructions de Redimensionnement de PVC.

Avant de redimensionner le PVC, assurez-vous de répondre aux exigences de stockage. Pour plus de détails, consultez Évaluation de vos besoins de stockage.

CephClusterErrorState

Cette alerte indique que le cluster de stockage Ceph est en état d'erreur depuis plus de 10 minutes.

Cette alerte indique que la tâche rook-ceph-mgr est en état d'erreur depuis une durée inacceptable. Recherchez d’autres alertes qui auraient pu être déclenchées avant celle-ci et résolvez-les en premier.

CephMonQuorumAtRisk

Cette alerte indique que le quorum du cluster de stockage est faible.

Plusieurs mons fonctionnent ensemble pour assurer la redondance ; cela est possible car chacun conserve une copie des métadonnées. Le cluster est déployé avec 3 mons et nécessite 2 mons ou plus pour être opérationnel pour le quorum et pour que les opérations de stockage s'exécutent. Si le quorum est perdu, l'accès aux données est menacé.

Si cette alerte se déclenche, vérifiez si des OSD sont en fin d’exécution ; le cas échéant, supprimez ces pods et laissez un certain temps s’écouler afin que l’opérateur puisse procéder au rapprochement. Si le problème persiste, contactez le support UiPath®.

CephOSDCriticallyFull

Lorsque la gravité de l'alerte est Critique (Critical), l'espace disponible est inférieur à 20 %.

Pour tous les services qui manquent d'espace, les données peuvent être difficiles à récupérer, nous vous recommandons donc de redimensionner les volumes avant d'atteindre 10 % d'espace disponible. Consultez les instructions suivantes : Configuration du cluster.

uipath.requestrouting.alerts

UiPathRequestRouting

Des erreurs dans la couche de routage des requêtes entraîneraient une dégradation des fonctionnalités directement observable dans l'interface utilisateur d'Automation Suite. Les requêtes ne seront pas routées vers les services principaux.

Vous pouvez trouver un journal d’erreurs détaillé du routage des demandes en exécutant la commande kubectl logs dans le pod de passerelle de l’entrée Istio. Si l’erreur persiste, veuillez contacter l’assistance UiPath®.

RabbitmqNodeDown

Cette alerte indique que moins de 3 nœuds sont en cours d'exécution dans le cluster RabbitMQ.

Vérifiez quel pod RabbitMQ est en panne à l'aide de la commande kubectl logs <pod-name> -n <namespace> Pour résoudre le problème, supprimez le pod à l'aide de la commande kubectl delete pod <pod-name> -n <namespace> et vérifiez à nouveau une fois que le nouveau pod apparaît.

Alertes MongoDB

MongodbCertExpiration

Cette alerte est déclenchée si le certificat MongoDB TLS n'effectue pas automatiquement une rotation dans le délai de 19 jours. La gravité de cette alerte est critique.

Pour effectuer une rotation du certificat, suivez les instructions dans Renouvellement du certificat MongoDB.

MongodbDown

Cette alerte se déclenche lorsque MongoDB est en panne. La gravité de cette alerte est critique.

Si cette alerte est déclenchée, procédez comme suit :

  • Vérifiez les journaux à l'aide de la commande suivante : kubectl logs <pod-name> -n mongodb ;
  • Utilisation de l'outil de diagnostic ;
  • Contactez l'assistance UiPath.

MongodbReplicationStatusUnreachable

Le membre de l'ensemble de réplication MongoDB, vu depuis un autre membre de l'ensemble, est inaccessible. Si l'alerte est déclenchée, le nœud est très probablement en panne. La gravité de cette alerte est critique.

Si cette alerte est déclenchée, procédez comme suit :

  • Vérifiez si le nœud est en panne ;
  • Si le nœud est en panne, redémarrez-le et trouvez la cause première ;
  • Si le problème persiste, contactez l'assistance UiPath.

MongodbReplicationStatusNotKnown

L'état du membre de l'ensemble de réplication MongoDB, tel qu'il est vu depuis un autre membre de l'ensemble, n'est pas encore connu. Si cette alerte est déclenchée, une ou plusieurs réplicas ne sont pas en cours d'exécution. La gravité de cette alerte est critique.

Si cette alerte est déclenchée, procédez comme suit :

  • Vérifiez les journaux en exécutant la commande suivante : kubectl logs <pod-name> -n mongodb ;
  • Pour voir les détails sur l'état du réplica, exécutez la commande suivante pour décrire le pod : kubectl describe <pod-name> -n mongodb ;
  • Si le problème persiste, contactez l'assistance UiPath.

MongodbReplicationLag

Cette alerte indique que le délai de réplication MongoDB est supérieur à 10 secondes. La gravité de cette alerte est critique.

Si cette alerte est déclenchée, procédez comme suit :

  • Vérifiez les journaux en exécutant la commande suivante : kubectl logs <pod-name> -n mongodb ;
  • Pour voir les détails sur l'état du réplica, exécutez la commande suivante pour décrire le pod : kubectl describe <pod-name> -n mongodb
  • Si le problème persiste, contactez l'assistance UiPath.

MongodbTooManyConnections

Cette alerte indique que le nombre de connexions a atteint son maximum. Si cela est attendu et temporaire, vous pouvez désactiver l'alerte. Cependant, l'alerte est un signe que la connexion Mongo est à la limite et ne peut pas gérer plus. Cette alerte est un avertissement.

Si cette alerte est déclenchée, procédez comme suit :

  • Pour interroger le nombre de connexions sur le nœud, exécutez la commande suivante : db.serverStatus().connections
    • current indique les connexions existantes
    • available indique le nombre de connexions disponibles ;
  • Si le problème persiste, contactez l'assistance UiPath.

MongodbHighLatency

Cette alerte indique une latence élevée dans l'instance. Cela peut signifier que le trafic a augmenté sur un nœud. Cela peut être dû au fait qu’un réplica n’est pas sain ou que le trafic sur un réplica est surchargé. Si cela est attendu et temporaire, vous pouvez désactiver cette alerte. Cependant, cette alerte est un signe que l'instance a atteint sa limite et ne peut pas en gérer davantage. La gravité de cette alerte est critique.

Si cette alerte est déclenchée, procédez comme suit :

  • Vérifier les journaux et l'intégrité des instances ;
  • Si le problème persiste, contactez l'assistance UiPath.

MongodbReplicationStatusSelfCheck

Le membre du jeu de réplication MongoDB effectue soit des auto-contrôles au démarrage, soit des transitions depuis la fin d’une annulation ou d’une resynchronisation. La gravité de cette alerte est critique.

Si cette alerte est déclenchée, procédez comme suit :

  • Vérifiez l'état du réplica en exécutant la commande suivante : rs.status() .
  • Vérifiez les journaux à l'aide de kubectl logs <pod-name> -n mongodb
  • Si le problème persiste, contactez l'assistance UiPath.

MongodbReplicationStatusRollback

Le membre du jeu de réplication MongoDB effectue activement une annulation. Les données ne sont pas disponibles pour les lectures. La gravité de cette alerte est critique.

Si cette alerte est déclenchée, procédez comme suit :

  • Vérifiez l'état du réplica en exécutant la commande suivante : rs.status() ;
  • Vérifiez les journaux en exécutant la commande suivante : kubectl logs <pod-name> -n mongodb ;
  • Si le problème persiste, contactez l'assistance UiPath.

MongodbReplicationStatusRemoved

Le membre du jeu de réplication MongoDB se trouvait autrefois dans un jeu de réplicas, mais a ensuite été supprimé. La gravité de cette alerte est critique.

Si cette alerte est déclenchée, procédez comme suit :

  • Vérifiez l'état du réplica en exécutant la commande suivante : rs.status() ;
  • Vérifiez les journaux en exécutant la commande suivante : kubectl logs <pod-name> -n mongodb ;
  • Si le problème persiste, contactez l'assistance UiPath.

Alertes de certificat TLS de serveur

SecretCertificateExpiry30Days

Cette alerte indique que le certificat TLS du serveur expirera dans les 30 jours suivants.

Pour résoudre ce problème, mettez à jour le certificat TLS du serveur. Pour obtenir des instructions, consultez Gestion des certificats de serveur.

SecretCertificateExpiry7Days

Cette alerte indique que le certificat TLS du serveur expirera dans les 7 jours suivants.

Pour résoudre ce problème, mettez à jour le certificat TLS. Pour obtenir des instructions, consultez Gestion des certificats de serveur.

Alertes de certificat de signature de jeton d'identité

IdentityCertificateExpiry30Days

Cette alerte indique que le certificat de signature de jeton d'identité expirera dans les 30 jours suivants.

Pour résoudre ce problème, mettez à jour le certificat de signature de jeton d'identité. Pour obtenir des instructions, consultez Gestion des certificats de serveur.

IdentityCertificateExpiry7Days

Cette alerte indique que le certificat de signature de jeton d'identité expirera dans les 7 jours suivants.

Pour résoudre ce problème, mettez à jour le certificat de signature de jeton d'identité. Pour obtenir des instructions, consultez Gestion des certificats de serveur.

Alertes etdc

EtcdInsufficientMembers

Cette alerte indique que le cluster etcd a un nombre insuffisant de membres. Notez que le cluster doit avoir un nombre impair de membres. La gravité de cette alerte est critique.

Assurez-vous qu'il y a un nombre impair de nœuds de serveur dans le cluster, et qu'ils sont tous actifs et sains.

EtcdNoLeader

Cette alerte indique que le cluster etcd n'a pas de leader. La gravité de cette alerte est critique.

EtcdHighNumberOfLeaderChanges

Cette alerte indique que le leader etcd change plus de deux fois en 10 minutes. Ceci est un avertissement.

EtcdHighNumberOfFailedGrpcRequests

Cette alerte indique qu'un certain pourcentage d'échecs de requêtes GRPC a été détecté dans etcd.

EtcdGrpcRequestsSlow

Cette alerte indique que les requêtes etcd GRPC sont lentes. Ceci est un avertissement.

EtcdHighNumberOfFailedHttpRequests

Cette alerte indique qu'un certain pourcentage d'échecs HTTP a été détecté dans etcd.

EtcdHttpRequestsSlow

Cette alerte indique que les requêtes HTTP ralentissent. Ceci est un avertissement.

EtcdMemberCommunicationSlow

Cette alerte indique que la communication avec les membres etcd ralentit. Ceci est un avertissement.

EtcdHighNumberOfFailedProposals

Cette alerte indique que le serveur etcd a reçu plus de 5 propositions ayant échoué au cours de la dernière heure. Ceci est un avertissement.

EtcdHighFsyncDurations

Cette alerte indique que la durée fsync des WAL etcd augmente. Ceci est un avertissement.

EtcdHighCommitDurations

Cette alerte indique que la durée de validation etcd augmente. Ceci est un avertissement.

Alertes de taille de disque

LowDiskForRancherPartition

Cette alerte indique que l'espace libre de la partition /var/lib/rancher est inférieur à :
  • 35 % – la gravité de l’alerte est un avertissement
  • 25 % – la gravité de l’alerte est critique

Si cette alerte se déclenche, augmentez la taille du disque.

LowDiskForKubeletPartition

Cette alerte indique que l'espace libre de la partition /var/lib/kubelet est inférieur à :
  • 35 % – la gravité de l’alerte est un avertissement
  • 25 % – la gravité de l’alerte est critique

    Si cette alerte se déclenche, augmentez la taille du disque.

LowDiskForLonghornPartition

Cette alerte indique que l'espace libre du disque Longhorn est inférieur à :

  • 35 % – la gravité de l’alerte est un avertissement
  • 25 % – la gravité de l’alerte est critique

Si cette alerte se déclenche, augmentez la taille du disque.

LowDiskForVarPartition

Cette alerte indique que l'espace libre de la partition /var est inférieur à :
  • 35 % – la gravité de l’alerte est un avertissement
  • 25 % – la gravité de l’alerte est critique
Remarque :

Les exigences de stockage pour les compétences ML peuvent faire considérablement augmenter l’utilisation du disque.

Si cette alerte se déclenche, augmentez la taille du disque.

Alertes de sauvegarde

NFSServerDisconnected

Cette alerte indique que la connexion au serveur NFS est perdue.

Vous devez vérifier la connexion au serveur NFS et le chemin de montage.

VolumeBackupFailed

Cette alerte indique que la sauvegarde a échoué pour une PVC.

BackupDisabled

Cette alerte indique que la sauvegarde est désactivée.

Vous devez vérifier si le cluster n’est pas sain.

longhorn-snapshot-alert

Si le nombre cumulé d'objets de sauvegarde ou d'instantané créés par Longhorn est trop élevé, vous pouvez obtenir l'une des alertes suivantes :

Pour résoudre le problème à l'origine du déclenchement de ces alertes, exécutez le script suivant :

#!/bin/bash
set -e

# longhorn backend URL
url=
# By default, snapshot older than 10 days will be deleted
days=-1

function display_usage() {
	echo "usage: $(basename "$0") [-h] -u longhorn-url -d days"
	echo "  -u	Longhorn URL"
	echo "  -d 	Number of days(should be >0). By default, script will delete snapshot older than 10 days."
	echo "  -h	Print help"
}

while getopts 'hd:u:' flag "$@"; do
	case "${flag}" in
		u)
			url=${OPTARG}
			;;
		d)
			days=${OPTARG}
			[ "$days" ] && [ -z "${days//[0-9]}" ] || { echo "Invalid number of days=$days"; exit 1; }
			;;
		h)
			display_usage
			exit 0
			;;
		:)
			echo "Invalid option: ${OPTARG} requires an argument."
			exit 1
			;;
		*)
			echo "Unexpected option ${flag}"
			exit 1
			;;
	esac
done

[[ -z "$url" ]] && echo "Missing longhorn URL" && exit 1

# check if URL is valid
curl -s --connect-timeout 30 ${url}/v1 >> /dev/null || { echo "Unable to connect to longhorn backend"; exit 1; }

echo "Deleting snapshots older than $days days"

# Fetch list of longhorn volumes
vols=$( (curl -s -X GET ${url}/v1/volumes |jq -r '.data[].name') )

#delete given snapshot for given volume
function delete_snapshot() {
	local vol=$1
	local snap=$2

	[[ -z "$vol" || -z "$snap" ]] && echo "Error: delete_snapshot: Empty argument" && return 1
	curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotDelete -d '{"name": "'$snap'"}' >> /dev/null
	echo "Snapshot=$snap deleted for volume=$vol"
}

#perform cleanup for given volume
function cleanup_volume() {
	local vol=$1
	local deleted_snap=0

	[[ -z "$vol" ]] && echo "Error: cleanup_volume: Empty argument" && return 1

	# fetch list of snapshot
	snaps=$( (curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotList | jq  -r '.data[] | select(.usercreated==true) | .name' ) )
	for i in ${snaps[@]}; do
		echo $i
		if [[ $i == "volume-head" ]]; then
			continue
		fi

		# calculate date difference for snapshot
		snapTime=$(curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotGet -d '{"name":"'$i'"}' |jq -r '.created')
		currentTime=$(date "+%s")
		timeDiff=$((($(date -d $snapTime "+%s") - $currentTime) / 86400))
		if [[ $timeDiff -lt $days ]]; then
			echo "Ignoring snapshot $i, since it is older than $timeDiff days"
			continue
		fi

		#trigger deletion for snapshot
		delete_snapshot $vol $i
		deleted_snap=$((deleted_snap+1))
	done

	if [[ "$deleted_snap" -gt 0 ]]; then
		#trigger purge for volume
		curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotPurge >> /dev/null
	fi

}

for i in ${vols[@]}; do
	cleanup_volume $i
done#!/bin/bash
set -e

# longhorn backend URL
url=
# By default, snapshot older than 10 days will be deleted
days=-1

function display_usage() {
	echo "usage: $(basename "$0") [-h] -u longhorn-url -d days"
	echo "  -u	Longhorn URL"
	echo "  -d 	Number of days(should be >0). By default, script will delete snapshot older than 10 days."
	echo "  -h	Print help"
}

while getopts 'hd:u:' flag "$@"; do
	case "${flag}" in
		u)
			url=${OPTARG}
			;;
		d)
			days=${OPTARG}
			[ "$days" ] && [ -z "${days//[0-9]}" ] || { echo "Invalid number of days=$days"; exit 1; }
			;;
		h)
			display_usage
			exit 0
			;;
		:)
			echo "Invalid option: ${OPTARG} requires an argument."
			exit 1
			;;
		*)
			echo "Unexpected option ${flag}"
			exit 1
			;;
	esac
done

[[ -z "$url" ]] && echo "Missing longhorn URL" && exit 1

# check if URL is valid
curl -s --connect-timeout 30 ${url}/v1 >> /dev/null || { echo "Unable to connect to longhorn backend"; exit 1; }

echo "Deleting snapshots older than $days days"

# Fetch list of longhorn volumes
vols=$( (curl -s -X GET ${url}/v1/volumes |jq -r '.data[].name') )

#delete given snapshot for given volume
function delete_snapshot() {
	local vol=$1
	local snap=$2

	[[ -z "$vol" || -z "$snap" ]] && echo "Error: delete_snapshot: Empty argument" && return 1
	curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotDelete -d '{"name": "'$snap'"}' >> /dev/null
	echo "Snapshot=$snap deleted for volume=$vol"
}

#perform cleanup for given volume
function cleanup_volume() {
	local vol=$1
	local deleted_snap=0

	[[ -z "$vol" ]] && echo "Error: cleanup_volume: Empty argument" && return 1

	# fetch list of snapshot
	snaps=$( (curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotList | jq  -r '.data[] | select(.usercreated==true) | .name' ) )
	for i in ${snaps[@]}; do
		echo $i
		if [[ $i == "volume-head" ]]; then
			continue
		fi

		# calculate date difference for snapshot
		snapTime=$(curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotGet -d '{"name":"'$i'"}' |jq -r '.created')
		currentTime=$(date "+%s")
		timeDiff=$((($(date -d $snapTime "+%s") - $currentTime) / 86400))
		if [[ $timeDiff -lt $days ]]; then
			echo "Ignoring snapshot $i, since it is older than $timeDiff days"
			continue
		fi

		#trigger deletion for snapshot
		delete_snapshot $vol $i
		deleted_snap=$((deleted_snap+1))
	done

	if [[ "$deleted_snap" -gt 0 ]]; then
		#trigger purge for volume
		curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotPurge >> /dev/null
	fi

}

for i in ${vols[@]}; do
	cleanup_volume $i
done

LonghornBackupObjectThresholdExceededWarn

Cette alerte indique que le nombre cumulé d'objets de sauvegarde créés dans le système par Longhorn augmente, ce qui peut entraîner de potentiels temps d'arrêt. Il s'agit d'un avertissement.

Cette alerte est déclenchée lorsque le nombre de sauvegardes de Longhorn est supérieur ou égal à 150 et inférieur à 200.

LonghornBackupObjectThresholdExceededCritical

Cette alerte indique que le nombre cumulé d'objets de sauvegarde créés dans le système par Longhorn augmente, ce qui peut entraîner de potentiels temps d'arrêt. Il s'agit d'une alerte critique.

Cette alerte est déclenchée lorsque le nombre de sauvegardes de Longhorn est supérieur ou égal à 200 et inférieur à 240.

LonghornSnapshotObjectThresholdExceededWarn

Cette alerte indique que le nombre cumulé d'objets d'instantané créés dans le système par Longhorn augmente, ce qui peut entraîner des temps d'arrêt potentiels. Il s'agit d'un avertissement.

Cette alerte est déclenchée si le nombre d'instantanés est supérieur ou égal à 150 et inférieur à 200.

LonghornSnapshotObjectThresholdExceededCritical

Cette alerte indique que le nombre cumulé d'objets d'instantané créés dans le système par Longhorn augmente, ce qui peut entraîner des temps d'arrêt potentiels. Cette alerte est critique.

Cette alerte est déclenchée si le nombre d'instantanés est supérieur ou égal à 200 et inférieur à 240.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2025 UiPath Tous droits réservés.