automation-suite

2023.10

false

Guide d'installation d'Automation Suite sur Linux

Dernière mise à jour 16 déc. 2024

Alertes de gestion

alertmanager.rules

AlertmanagerConfigInconsistent

Il s'agit d'erreurs internes du gestionnaire d'alertes pour les clusters haute disponibilité avec plusieurs répliques du gestionnaire d'alertes. Les alertes peuvent apparaître et disparaître par intermittence. La réduction temporaire, puis la mise à l'échelle des répliques du gestionnaire d'alertes peuvent résoudre le problème.

Pour résoudre le problème, procédez comme suit :

Définissez la mise à l'échelle sur zéro. Notez qu'il faut un moment pour que les pods s'arrêtent :
```
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
```

Redéfinissez la mise à l'échelle sur deux :

kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2

Vérifiez si les pods du gestionnaire d'alertes ont démarré et sont en cours d'exécution :
```
kubectl get po -n cattle-monitoring-systemkubectl get po -n cattle-monitoring-system
```

Si le problème persiste, contactez le support UiPath®.

AlertmanagerFailedReload

AlertManager n’a pas pu charger ou recharger la configuration. Veuillez vérifier toutes les configurations AlertManager personnalisées pour les erreurs de saisie ; sinon, contactez l’assistance UiPath®.

AlertmanagerMembersInconsistent

Pour résoudre le problème, procédez comme suit :

Définissez la mise à l'échelle sur zéro. Notez qu'il faut un moment pour que les pods s'arrêtent :

kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0

Redéfinissez la mise à l'échelle sur deux :

kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2

Vérifiez si les pods du gestionnaire d'alertes ont démarré et sont en cours d'exécution :
```
kubectl get po -n cattle-monitoring-systemkubectl get po -n cattle-monitoring-system
```

Si le problème persiste, contactez le support UiPath®.

Règles.générales

TargetDown

Prometheus n'est pas en mesure de collecter les métriques de la cible dans l'alerte, ce qui signifie que les tableaux de bord Grafana et d'autres alertes basées sur les métriques de cette cible ne sont pas disponibles. Vérifiez les autres alertes relatives à cette cible.

Watchdog

Il s'agit d'une alerte destinée à garantir que l'ensemble du pipeline d'alerte est fonctionnel. Cette alerte est toujours déclenchée. Par conséquent, elle doit toujours se déclencher dans AlertManager et à l'encontre d'un récepteur. Il existe des intégrations avec divers mécanismes de notification qui vous avertissent lorsque cette alerte ne se déclenche pas. Par exemple, l'intégration de DeadMansSnitch dans PagerDuty.

prometheus-operator

PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources

Erreurs internes de l’opérateur Prometheus, qui contrôle les ressources Prometheus. Prometheus peut lui-même conserver une bonne intégrité alors que ces erreurs sont présentes ; cependant, cette erreur indique que la configurabilité de la surveillance est dégradée. Contactez l’assistance UiPath®.

Prometheus

PrometheusBadConfig

Prometheus n’a pas pu charger ou recharger la configuration. Veuillez vérifier toutes les configurations Prometheus personnalisées pour les erreurs de saisie. Sinon, contactez le support UiPath®.

PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers

La connexion de Prometheus à AlertManager n’est pas saine. Les métriques peuvent toujours faire l’objet de requêtes et les tableaux de bord Grafana peuvent toujours les afficher, mais les alertes ne se déclencheront pas. Vérifiez toute configuration personnalisée d’AlertManager pour les erreurs de saisie. Sinon, contactez le support UiPath®.

PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards

Les erreurs internes Prometheus indiquant que les métriques peuvent ne pas être collectées comme prévu. Veuillez contacter l’assistance UiPath®.

PrometheusRuleFailures

Cela peut se produire s’il existe des alertes malformées basées sur des métriques inexistantes ou une syntaxe PromQL incorrecte. Contactez l’assistance UiPath® si aucune alerte personnalisée n’a été ajoutée.

PrometheusMissingRuleEvaluations

Prometheus n’est pas en mesure d’évaluer si les alertes doivent être déclenchées. Cela peut se produire s’il y a trop d’alertes. Veuillez supprimer les évaluations d’alertes personnalisées coûteuses et/ou consulter la documentation sur l’augmentation de la limite du processeur pour Prometheus. Contactez l’assistance UiPath® si aucune alerte personnalisée n’a été ajoutée.

PrometheusTargetLimitHit

Il y a trop de cibles depuis lesquelles Prometheus peut collecter. Si des ServiceMonitors supplémentaires ont été ajoutés (voir Console de surveillance), vous pouvez les supprimer.

uipath.prometheus.resource.provisioning.alerts

PrometheusMemoryUsage, PrometheusStorageUsage

Ces alertes vous avertissent lorsque le cluster approche des limites configurées pour la mémoire et le stockage. Cela est susceptible de se produire sur les clusters avec une augmentation substantielle récente de l'utilisation (généralement de la part des Robots plutôt que des utilisateurs), ou lorsque des nœuds sont ajoutés au cluster sans ajuster les ressources Prometheus. Cela est dû à une augmentation de la quantité de mesures collectées.

Le taux d'utilisation accrue du stockage peut être consulté sur le tableau de bord Kubernetes/Persistent Volumes :

Vous pouvez l'ajuster en redimensionnant le PVC comme indiqué ici : Configuration du cluster.

Le taux d'utilisation accrue de la mémoire peut être consulté sur le tableau de bord Kubernetes/Ressources de calcul (Compute Resources)/Pod.

Vous pouvez l'ajuster en modifiant les limites des ressources mémoire Prometheus dans l'application rancher-monitoring d'ArgoCD. L'application de surveillance Rancher se resynchronise automatiquement après avoir cliqué sur Enregistrer ( Save) .

Notez que Prometheus met un certain temps à redémarrer et à recommencer à afficher les métriques dans Grafana. Cela prend généralement moins de 10 minutes, même avec de grands clusters.

uipath.availability.alerts

UiPathAvailabilityHighTrafficUserFacing

Le nombre de réponses http 500 des services UiPath® dépasse la limite donnée.

Niveau de trafic	Nombre de requêtes en 20 minutes	Seuil d'erreur (pour http 500s)
Haute	>100 000	0,1 %
Moyenne	Entre 10 000 et 100 000	1 %
Basse	< 10 000	5 %

Les erreurs dans les services destinés aux utilisateurs entraîneraient probablement une dégradation des fonctionnalités directement observable dans l'interface utilisateur d'Automation Suite, tandis que les erreurs dans les services principaux auraient des conséquences moins visibles.

L'alerte indique quel service connaît actuellement un taux d'erreur élevé. Pour comprendre les problèmes pouvant découler d'autres services dont dépend le service de création de rapports, vous pouvez utiliser le tableau de bord Istio Workload, qui affiche les erreurs entre les services.

Veuillez revérifier tous les produits Automation Suite récemment reconfigurés. Des journaux détaillés sont également disponibles avec la commande kubectl logs. Si l’erreur persiste, veuillez contacter l’assistance UiPath®.

Sauvegarde

NFSServerDisconnected

Cette alerte indique que la connexion au serveur NFS est perdue.

Vous devez vérifier la connexion au serveur NFS et le chemin de montage.

VolumeBackupFailed

Cette alerte indique que la sauvegarde a échoué pour une PVC.

BackupDisabled

Cette alerte indique que la sauvegarde est désactivée.

Vous devez vérifier si le cluster n’est pas sain.

cronjob-alerts

CronJobSuspended

La tâche cron uipath-infra/istio-configure-script-cronjob est à l’état suspendu.

Pour résoudre ce problème, activez la tâche cron en procédant comme suit :

export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'

IdentityKerberosTgtUpdateFailed

Cette tâche met à jour le dernier ticket Kerberos pour tous les services UiPath®. Les échecs de cette tâche entraîneraient l’échec de l’authentification du serveur SQL. Veuillez contacter l’assistance UiPath®.

Sommaire de la page