- Vue d'ensemble (Overview)
- Prérequis
- Installation
- Questions et réponses : modèles de déploiement
- Configuration des machines
- Configuration du magasin d'objets externe
- Configurer l'équilibreur de charge
- Configuration du DNS
- Configuration de Microsoft SQL Server
- Configuration des certificats
- Installation de production en ligne multi-nœuds compatible haute disponibilité
- Installation de production hors ligne multi-nœuds compatible haute disponibilité
- Téléchargement des packages d'installation
- install-uipath.sh parameters
- Activation du module complémentaire Redis High Availability Add-on pour le cluster
- Fichier de configuration de Document Understanding
- Ajout d'un nœud d'agent dédié avec prise en charge GPU
- Connexion de l'application Task Mining
- Ajout d'un nœud d'agent dédié pour Task Mining
- Ajout d'un nœud d'agent dédié pour les Automation Suite Robots
- Post-installation
- Administration du cluster
- Surveillance et alerte
- Utilisation de la pile de surveillance
- Runbooks d'alerte
- Migration et mise à niveau
- Chemins de mise à niveau Automation Suite
- Automatisée : mise à niveau en ligne
- Automatisée : mise à niveau hors ligne
- Manuel : mise à niveau en ligne
- Manuel : mise à niveau hors ligne
- Annulation en cas d'erreur
- Migration d'un disque physique Longhorn vers LVM
- Migration de Canal vers Cilium CNI
- Rétrogradation de Ceph de la version 16.2.6 à la version 15.2.9
- Options de migration :
- Étape 1 : Déplacement des données d'organisation Identity d'installation autonome vers Automation Suite
- Étape 2 : Restauration de la base de données de produits autonome
- Étape 3 : Sauvegarder la base de données de la plate-forme dans Automation Suite
- Étape 4 : Fusion des organisations dans Automation Suite
- Étape 5 : Mise à jour des chaînes de connexion du produit migré
- Step 6: Migrating standalone Insights
- Étape 7 : suppression du locataire par défaut
- B) Migration à locataire unique
- Configuration spécifique au produit
- Bonnes pratiques et maintenance
- Résolution des problèmes
- Comment résoudre les problèmes des services lors de l'installation
- Comment désinstaller le cluster
- Comment nettoyer les artefacts hors ligne pour améliorer l'espace disque
- Comment effacer les données Redis
- Comment activer la journalisation Istio
- Comment nettoyer manuellement les journaux
- Comment nettoyer les anciens journaux stockés dans le bundle sf-logs
- Comment désactiver les journaux de diffusion pour AI Center
- Comment déboguer les installations d'Automation Suite ayant échoué
- Comment supprimer des images de l’ancien programme d’installation après la mise à niveau
- Comment nettoyer automatiquement les instantanés Longhorn
- Comment désactiver le déchargement de la somme de contrôle de la carte réseau
- Impossible d'exécuter une installation hors ligne sur le système d'exploitation RHEL 8.4
- Erreur lors du téléchargement du bundle
- L'installation hors ligne échoue en raison d'un fichier binaire manquant
- Problème de certificat dans l'installation hors ligne
- La première installation échoue lors de la configuration de Longhorn
- Erreur de validation de la chaîne de connexion SQL
- Échec de la vérification des prérequis pour le module selinux iscsid
- Disque Azure non marqué comme SSD
- Échec après la mise à jour du certificat
- L'antivirus provoque des problèmes d'installation
- Automation Suite ne fonctionne pas après la mise à niveau du système d'exploitation
- Automation Suite requiert que backlog_wait_time soit défini sur 0
- Volume impossible à monter car il n'est pas prêt pour les charges de travail
- Impossible de lancer Automation Hub et Apps avec la configuration proxy
- Échec du chargement ou du téléchargement des données dans l'objectstore
- Le redimensionnement de la PVC ne répare pas Ceph
- Échec du redimensionnement du PVC
- Échec du redimensionnement du PVC objectstore
- Rook Ceph ou pod Looker bloqué dans l'état Init
- Erreur de pièce jointe du volume Ensembles d'états.
- Échec de la création de volumes persistants
- Correctif de récupération du stockage
- La sauvegarde a échoué en raison de l’erreur TropInstantanés (TooManySnapshots)
- Toutes les répliques Longhorn sont défaillantes
- Définition d'un délai d'expiration pour les portails de gestion
- Mettre à jour les connexions du répertoire sous-jacent
- L'authentification ne fonctionne pas après la migration
- Kinit : Impossible de trouver le KDC pour le domaine <AD Domain> lors de l'obtention des informations d'identification initiales
- Kinit : Keytab ne contient aucune clé appropriée pour *** lors de l'obtention des informations d'identification initiales
- L'opération GSSAPI a échoué en raison d'un code de statut non valide
- Alarme reçue pour l'échec de la tâche Kerberos-tgt-update
- Fournisseur SSPI : serveur introuvable dans la base de données Kerberos
- La connexion a échoué pour l'utilisateur AD en raison d'un compte désactivé
- Échec de connexion à ArgoCD
- Impossible d'obtenir l'image du bac à sable
- Les pods ne s'affichent pas dans l'interface utilisateur ArgoCD
- Échec de la sonde Redis
- Le serveur RKE2 ne démarre pas
- Secret introuvable dans l'espace de noms UiPath
- ArgoCD passe à l'état Progression (Progressing) après la première installation
- Incohérence inattendue ; exécuter fsck manuellement
- Pods MongoDB en mode CrashLoopBackOff ou enregistrement PVC en attente après suppression
- Le pod MongoDB ne parvient pas à mettre à niveau la version 4.4.4-ent vers la version 5.0.7-ent
- Services défectueux après la restauration ou l'annulation du cluster
- Pods bloqués dans Init:0/X
- Prometheus dans l'état CrashloopBackoff avec erreur de mémoire insuffisante (OOM)
- Métriques Ceph-rook manquants dans les tableaux de bord de surveillance
- Document Understanding n'est pas affiché sur la barre de gauche d'Automation Suite
- État Échec (Failed) lors de la création d'une session de labellisation des données
- État Échec (Failed) lors de la tentative de déploiement d'une compétence ML
- La tâche de migration échoue dans ArgoCD
- La reconnaissance de l'écriture manuscrite avec l'Extracteur de formulaires intelligents (Intelligent Form Extractor) ne fonctionne pas
- Utilisation de l'outil de diagnostic d'Automation Suite
- Utilisation de l'outil Automation Suite Support Bundle
- Explorer les journaux
Runbooks d'alerte
- Pour obtenir des instructions générales sur l'utilisation des outils disponibles pour les alertes, les métriques et les visualisations, consultez Utilisation de la pile de surveillance.
- For more on how to fix issues and how to create a support bundle for UiPath® Support engineers, see Troubleshooting.
- When contacting UiPath® Support, please include any alerts that are currently firing.
Gravité de l’alerte |
Description |
---|---|
Info | Peu courant mais inoffensif. Peut être désactivé mais peut être utile lors des diagnostics. |
Avertissement | Indique une dégradation ciblée des fonctionnalités ou d'une dégradation probable dans un futur proche, pouvant affecter l'ensemble du cluster. Une action rapide est recommandée (généralement dans les prochains jours) pour maintenir le cluster en bonne santé. |
Critique (Critical) | Connu pour provoquer une grave dégradation des fonctionnalités, souvent généralisée au sein du cluster. Nécessite une action immédiate (le jour même) pour réparer le cluster. |
Prometheus n'est pas en mesure de collecter les métriques de la cible dans l'alerte, ce qui signifie que les tableaux de bord Grafana et d'autres alertes basées sur les métriques de cette cible ne sont pas disponibles. Vérifiez les autres alertes relatives à cette cible.
Il s'agit d'une alerte destinée à garantir que l'ensemble du pipeline d'alerte est fonctionnel. Cette alerte est toujours déclenchée. Par conséquent, elle doit toujours se déclencher dans AlertManager et à l'encontre d'un récepteur. Il existe des intégrations avec divers mécanismes de notification qui vous avertissent lorsque cette alerte ne se déclenche pas. Par exemple, l'intégration de DeadMansSnitch dans PagerDuty.
kubectl describe
, and logs with kubectl logs
to see details on possible crashes. If the issue persists, contact UiPath® Support.
kubectl logs
to see if there is any indication of progress. If the issue persists, contact UiPath® Support.
There has been an attempted update to a deployment or statefulset, but it has failed, and a rollback has not yet occurred. Contact UiPath® Support.
In high availability clusters with multiple replicas, this alert fires when the number of replicas is not optimal. This may occur when there are not enough resources in the cluster to schedule. Check resource utilization, and add capacity as necessary. Otherwise contact UiPath® Support.
An update to a statefulset has failed. Contact UiPath® Support.
Voir aussi : Ensembles d'états.
Daemonset rollout has failed. Contact UiPath® Support.
Voir aussi : DaemonSet.
kubectl describe
of the pod for more information. The most common cause of waiting containers is a failure to pull the image. For air-gapped clusters, this could mean that the local registry is not available. If the issue persists, contact UiPath® Support.
This may indicate an issue with one of the nodes Check the health of each node, and remediate any known issues. Otherwise contact UiPath® Support.
A job takes more than 12 hours to complete. This is not expected. Contact UiPath® Support.
A job has failed; however, most jobs are retried automatically. If the issue persists, contact UiPath® Support.
The autoscaler cannot scale the targeted resource as configured. If desired is higher than actual, then there may be a lack of resources. If desired is lower than actual, pods may be stuck while shutting down. If the issue persists, contact UiPath® Support.
Voir aussi : Horizontal Pod Autoscaling
Le nombre de répliques d'un service donné a atteint son maximum. Cela se produit lorsque le nombre de requêtes adressées au cluster est très élevé. Si un trafic élevé est prévu et temporaire, vous pouvez désactiver cette alerte. Cependant, cette alerte est un signe que le cluster est à pleine capacité et ne peut pas gérer beaucoup plus de trafic. Si une plus grande capacité de ressources est disponible sur le cluster, vous pouvez augmenter le nombre maximal de répliques du service en suivant ces instructions :
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
Voir aussi : Horizontal Pod Autoscaling.
Ces avertissements indiquent que le cluster ne peut pas tolérer une panne de nœud. Pour les clusters en mode d'évaluation à nœud unique, cela est courant et ces alertes peuvent être désactivées. Pour les configurations en mode de production multi-nœuds compatible haute disponibilité, ces alertes se déclenchent lorsqu'un trop grand nombre de nœuds deviennent défectueux pour prendre en charge la haute disponibilité, et elles indiquent que les nœuds doivent être rétablis ou remplacés.
KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
Ces alertes concernent les quotas de ressources d'espace de noms qui n'existent dans le cluster que s'ils sont ajoutés via la personnalisation. Les quotas de ressources d'espace de noms ne sont pas ajoutés dans le cadre de l'installation d'Automation Suite.
Voir aussi : Quotas de ressources.
Quand Avertissement (Warning) s'affiche : L'espace disponible est inférieur à 30 % et est susceptible de se remplir dans les quatre jours.
Lorsque Critique (Critical) s'affiche : l'espace disponible est inférieur à 10 %.
Pour tous les services qui manquent d'espace, les données peuvent être difficiles à récupérer, les volumes doivent donc être redimensionnés avant d'atteindre 0 % d'espace disponible.
Pour obtenir des instructions, consultez Configuration du cluster.
Pour les alertes spécifiques à Prometheus, consultez UtilisationStorage Prometheus pour plus de détails et d'instructions.
The Kube State Metrics collector is not able to collect metrics from the cluster without errors. This means important alerts may not fire. Contact UiPath® Support.
Voir aussi : Kube State Metrics à la publication.
Lorsque Avertissement (Warning) s'affiche : un certificat client utilisé pour s'authentifier auprès du serveur d'API Kubernetes expire dans moins de sept jours.
Lorsque Critique (Critical)s'affiche : un certificat client utilisé pour s'authentifier auprès du serveur d'API Kubernetes expire en moins d'un jour.
Vous devez renouveler le certificat.
Indicates problems with the Kubernetes control plane. Check the health of master nodes, resolve any outstanding issues, and contact UiPath® Support if the issues persist.
Voir également :
Cette alerte indique que le serveur d'API Kubernetes rencontre un taux d'erreur élevé. Ce problème peut entraîner d'autres échecs. Il est donc recommandé d'étudier le problème de manière proactive.
api-server
pour trouver la cause première du problème à l'aide de la commande kubectl logs <pod-name> -n kube-system
.
KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
Ces alertes indiquent un problème avec un nœud. Dans les clusters en mode de production multi-nœuds compatible haute disponibilité, les pods seraient probablement replanifiés sur d'autres nœuds. Si le problème persiste, vous devez supprimer et vider le nœud pour maintenir l'intégrité du cluster. Dans les clusters sans capacité supplémentaire, un autre nœud doit d'abord être joint au cluster.
Il y a trop de pods en cours d'exécution sur le nœud spécifié.
Joignez un autre nœud au cluster.
Quand Avertissement (Warning) s'affiche : Un certificat client ou serveur pour Kubelet expire dans moins de sept jours.
Lorsque Critique (Critical) s'affiche : un certificat client ou serveur pour Kubelet expire dans moins d'un jour.
Vous devez renouveler le certificat.
Il existe différentes versions sémantiques des composants Kubernetes en cours d'exécution. Cela peut se produire à la suite d'une mise à niveau infructueuse de Kubernetes.
Le client du serveur d'API Kubernetes rencontre plus de 1 % d'erreurs. Il peut y avoir un problème avec le nœud sur lequel ce client s'exécute ou avec le serveur d'API Kubernetes lui-même.
Cette alerte indique que l'utilisation de la mémoire est très élevée sur le nœud Kubernetes.
Si cette alerte se déclenche, essayez de voir quel pod consomme le plus de mémoire.
Le système de fichiers sur un nœud particulier se remplit. Enregistrez plus d'espace en ajoutant un disque ou en montant des disques inutilisés.
La matrice RAID est dans un état dégradé en raison d'une ou plusieurs pannes de disque. Le nombre de disques libres
est insuffisant pour résoudre le problème automatiquement.
La matrice RAID a besoin d'attention et éventuellement d'un changement de disque.
Il y a un problème avec l'interface réseau physique sur le nœud. Si les problèmes persistent, il peut être nécessaire de le remplacer.
Le nœud ne répond plus en raison d’un problème provoquant une rupture de la communication entre les nœuds du cluster.
To fix this problem, restart the affected node. If the issue persists, reach out to UiPath® Support with the Support Bundle Tool.
Ces alertes vous avertissent lorsque le cluster approche des limites configurées pour la mémoire et le stockage. Cela est susceptible de se produire sur les clusters avec une augmentation substantielle récente de l'utilisation (généralement de la part des Robots plutôt que des utilisateurs), ou lorsque des nœuds sont ajoutés au cluster sans ajuster les ressources Prometheus. Cela est dû à une augmentation de la quantité de mesures collectées.
Le taux d'utilisation accrue du stockage peut être consulté sur le tableau de bord Kubernetes/Persistent Volumes :
Vous pouvez l'ajuster en redimensionnant le PVC comme indiqué ici : Configuration du cluster.
Le taux d'utilisation accrue de la mémoire peut être consulté sur le tableau de bord Kubernetes/Ressources de calcul (Compute Resources)/Pod.
Vous pouvez l'ajuster en modifiant les limites des ressources mémoire Prometheus dans l'application rancher-monitoring d'ArgoCD. L'application de surveillance Rancher se resynchronise automatiquement après avoir cliqué sur Enregistrer ( Save) .
Notez que Prometheus met un certain temps à redémarrer et à recommencer à afficher les métriques dans Grafana. Cela prend généralement moins de 10 minutes, même avec de grands clusters.
Il s'agit d'erreurs internes du gestionnaire d'alertes pour les clusters haute disponibilité avec plusieurs répliques du gestionnaire d'alertes. Les alertes peuvent apparaître et disparaître par intermittence. La réduction temporaire, puis la mise à l'échelle des répliques du gestionnaire d'alertes peuvent résoudre le problème.
Pour résoudre le problème, procédez comme suit :
-
Définissez la mise à l'échelle sur zéro. Notez qu'il faut un moment pour que les pods s'arrêtent :
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0 -
Redéfinissez la mise à l'échelle sur deux :
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2 -
Vérifiez si les pods du gestionnaire d'alertes ont démarré et sont en cours d'exécution :
kubectl get po -n cattle-monitoring-system
kubectl get po -n cattle-monitoring-system
If the issue persists, contact UiPath® Support.
PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
Internal errors of the Prometheus operator, which controls Prometheus resources. Prometheus itself may still be healthy while these errors are present; however, this error indicates there is degraded monitoring configurability. Contact UiPath® Support.
Prometheus has failed to load or reload configuration. Please check any custom Prometheus configurations for input errors. Otherwise contact UiPath® Support.
PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
The connection from Prometheus to AlertManager is not healthy. Metrics may still be queryable, and Grafana dashboards may still show them, but alerts will not fire. Check any custom configuration of AlertManager for input errors and and otherwise contact UiPath® Support.
PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
Internal Prometheus errors indicating metrics may not be collected as expected. Please contact UiPath® Support.
This may happen if there are malformed alerts based on non-existent metrics or incorrect PromQL syntax. Contact UiPath® Support if no custom alerts have been added.
Prometheus is not able to evaluate whether alerts should be firing. This may happen if there are too many alerts. Please remove expensive custom alert evaluations and/or see documentation on increasing CPU limit for Prometheus. Contact UiPath® Support if no custom alerts have been added.
UiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
The number of http 500 responses from UiPath® services exceeds a given threshold.
Niveau de trafic |
Nombre de requêtes en 20 minutes |
Seuil d'erreur (pour http 500s) |
---|---|---|
Haute |
>100 000 |
0,1 % |
Moyenne |
Entre 10 000 et 100 000 |
1 % |
Basse |
< 10 000 |
5 % |
Les erreurs dans les services destinés aux utilisateurs entraîneraient probablement une dégradation des fonctionnalités directement observable dans l'interface utilisateur d'Automation Suite, tandis que les erreurs dans les services principaux auraient des conséquences moins visibles.
L'alerte indique quel service connaît actuellement un taux d'erreur élevé. Pour comprendre les problèmes pouvant découler d'autres services dont dépend le service de création de rapports, vous pouvez utiliser le tableau de bord Istio Workload, qui affiche les erreurs entre les services.
Please double check any recently reconfigured Automation Suite products. Detailed logs are also available with the kubectl logs command. If the error persists, please contact UiPath® Support.
uipath-infra/istio-configure-script-cronjob
est à l’état suspendu.
Pour résoudre ce problème, activez la tâche cron en procédant comme suit :
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
This job obtains the latest Kerberos ticket from the AD server for SQL-integrated authentication. Failures in this job would cause SQL server authentication to fail. Please contact UiPath® Support.
Cette alerte indique que l'utilisation du cluster de stockage Ceph a franchi 75 % et passera en lecture seule à 85 %.
Si cette alerte se déclenche, libérez de l'espace dans CEPH en supprimant certains ensembles de données inutilisés dans AI Center ou Task Mining, ou augmentez le stockage disponible pour Ceph PVC en suivant les instructions de Redimensionnement de PVC.
Avant de redimensionner le PVC, assurez-vous de répondre aux exigences de stockage. Pour plus de détails, consultez Évaluation de vos besoins de stockage.
Cette alerte indique que l'utilisation du cluster de stockage Ceph a franchi 80 % et passera en lecture seule à 85 %.
Si cette alerte se déclenche, libérez de l'espace dans CEPH en supprimant certains ensembles de données inutilisés dans AI Center ou Task Mining, ou augmentez le stockage disponible pour Ceph PVC en suivant les instructions de Redimensionnement de PVC.
Avant de redimensionner le PVC, assurez-vous de répondre aux exigences de stockage. Pour plus de détails, consultez Évaluation de vos besoins de stockage.
Cette alerte indique que l'utilisation du cluster de stockage Ceph a franchi 85 % et passera désormais en lecture seule. Libérez de l'espace ou développez immédiatement le cluster de stockage.
Si cette alerte se déclenche, libérez de l'espace dans CEPH en supprimant certains ensembles de données inutilisés dans AI Center ou Task Mining, ou augmentez le stockage disponible pour Ceph PVC en suivant les instructions de Redimensionnement de PVC.
Avant de redimensionner le PVC, assurez-vous de répondre aux exigences de stockage. Pour plus de détails, consultez Évaluation de vos besoins de stockage.
Cette alerte indique que l'utilisation du pool de stockage Ceph a dépassé 90 %.
Si cette alerte se déclenche, libérez de l'espace dans CEPH en supprimant certains ensembles de données inutilisés dans AI Center ou Task Mining, ou augmentez le stockage disponible pour Ceph PVC en suivant les instructions de Redimensionnement de PVC.
Avant de redimensionner le PVC, assurez-vous de répondre aux exigences de stockage. Pour plus de détails, consultez Évaluation de vos besoins de stockage.
Cette alerte indique que le cluster de stockage Ceph est en état d'erreur depuis plus de 10 minutes.
rook-ceph-mgr
est en état d'erreur depuis une durée inacceptable. Recherchez d’autres alertes qui auraient pu être déclenchées avant celle-ci et résolvez-les en premier.
Cette alerte indique que le quorum du cluster de stockage est faible.
Plusieurs mons fonctionnent ensemble pour assurer la redondance ; cela est possible car chacun conserve une copie des métadonnées. Le cluster est déployé avec 3 mons et nécessite 2 mons ou plus pour être opérationnel pour le quorum et pour que les opérations de stockage s'exécutent. Si le quorum est perdu, l'accès aux données est menacé.
If this alert fires, check if any OSDs are in terminating state, if there are any, force delete those pods, and wait for some time for the operator to reconcile. If the issue persists, contact UiPath® support.
Lorsque la gravité de l'alerte est Critique (Critical), l'espace disponible est inférieur à 20 %.
Pour tous les services qui manquent d'espace, les données peuvent être difficiles à récupérer, nous vous recommandons donc de redimensionner les volumes avant d'atteindre 10 % d'espace disponible. Consultez les instructions suivantes : Configuration du cluster.
Des erreurs dans la couche de routage des requêtes entraîneraient une dégradation des fonctionnalités directement observable dans l'interface utilisateur d'Automation Suite. Les requêtes ne seront pas routées vers les services principaux.
kubectl logs
command in the Istio ingress gateway pod. If the error persists, contact UiPath® Support.
Cette alerte indique que moins de 3 nœuds sont en cours d'exécution dans le cluster RabbitMQ.
kubectl logs <pod-name> -n <namespace>
Pour résoudre le problème, supprimez le pod à l'aide de la commande kubectl delete pod <pod-name> -n <namespace>
et vérifiez à nouveau une fois que le nouveau pod apparaît.
Cette alerte est déclenchée si le certificat MongoDB TLS n'effectue pas automatiquement une rotation dans le délai de 19 jours. La gravité de cette alerte est critique.
Pour effectuer une rotation du certificat, suivez les instructions dans Renouvellement du certificat MongoDB.
Cette alerte se déclenche lorsque MongoDB est en panne. La gravité de cette alerte est critique.
Si cette alerte est déclenchée, procédez comme suit :
- Vérifiez les journaux à l'aide de la commande suivante :
kubectl logs <pod-name> -n mongodb
; - Utilisation de l'outil de diagnostic ;
- Contactez l'assistance UiPath.
Le membre de l'ensemble de réplication MongoDB, vu depuis un autre membre de l'ensemble, est inaccessible. Si l'alerte est déclenchée, le nœud est très probablement en panne. La gravité de cette alerte est critique.
Si cette alerte est déclenchée, procédez comme suit :
- Vérifiez si le nœud est en panne ;
- Si le nœud est en panne, redémarrez-le et trouvez la cause première ;
- Si le problème persiste, contactez l'assistance UiPath.
L'état du membre de l'ensemble de réplication MongoDB, tel qu'il est vu depuis un autre membre de l'ensemble, n'est pas encore connu. Si cette alerte est déclenchée, une ou plusieurs réplicas ne sont pas en cours d'exécution. La gravité de cette alerte est critique.
Si cette alerte est déclenchée, procédez comme suit :
- Vérifiez les journaux en exécutant la commande suivante :
kubectl logs <pod-name> -n mongodb
; - Pour voir les détails sur l'état du réplica, exécutez la commande suivante pour décrire le pod :
kubectl describe <pod-name> -n mongodb
; - Si le problème persiste, contactez l'assistance UiPath.
Cette alerte indique que le délai de réplication MongoDB est supérieur à 10 secondes. La gravité de cette alerte est critique.
Si cette alerte est déclenchée, procédez comme suit :
- Vérifiez les journaux en exécutant la commande suivante :
kubectl logs <pod-name> -n mongodb
; - Pour voir les détails sur l'état du réplica, exécutez la commande suivante pour décrire le pod :
kubectl describe <pod-name> -n mongodb
- Si le problème persiste, contactez l'assistance UiPath.
Cette alerte indique que le nombre de connexions a atteint son maximum. Si cela est attendu et temporaire, vous pouvez désactiver l'alerte. Cependant, l'alerte est un signe que la connexion Mongo est à la limite et ne peut pas gérer plus. Cette alerte est un avertissement.
Si cette alerte est déclenchée, procédez comme suit :
-
Pour interroger le nombre de connexions sur le nœud, exécutez la commande suivante :
db.serverStatus().connections
current
indique les connexions existantesavailable
indique le nombre de connexions disponibles ;
- Si le problème persiste, contactez l'assistance UiPath.
Cette alerte indique une latence élevée dans l'instance. Cela peut signifier que le trafic a augmenté sur un nœud. Cela peut être dû au fait qu’un réplica n’est pas sain ou que le trafic sur un réplica est surchargé. Si cela est attendu et temporaire, vous pouvez désactiver cette alerte. Cependant, cette alerte est un signe que l'instance a atteint sa limite et ne peut pas en gérer davantage. La gravité de cette alerte est critique.
Si cette alerte est déclenchée, procédez comme suit :
- Vérifier les journaux et l'intégrité des instances ;
- Si le problème persiste, contactez l'assistance UiPath.
Le membre du jeu de réplication MongoDB effectue soit des auto-contrôles au démarrage, soit des transitions depuis la fin d’une annulation ou d’une resynchronisation. La gravité de cette alerte est critique.
Si cette alerte est déclenchée, procédez comme suit :
- Vérifiez l'état du réplica en exécutant la commande suivante :
rs.status()
. - Vérifiez les journaux à l'aide de
kubectl logs <pod-name> -n mongodb
- Si le problème persiste, contactez l'assistance UiPath.
Le membre du jeu de réplication MongoDB effectue activement une annulation. Les données ne sont pas disponibles pour les lectures. La gravité de cette alerte est critique.
Si cette alerte est déclenchée, procédez comme suit :
- Vérifiez l'état du réplica en exécutant la commande suivante :
rs.status()
; - Vérifiez les journaux en exécutant la commande suivante :
kubectl logs <pod-name> -n mongodb
; - Si le problème persiste, contactez l'assistance UiPath.
Le membre du jeu de réplication MongoDB se trouvait autrefois dans un jeu de réplicas, mais a ensuite été supprimé. La gravité de cette alerte est critique.
Si cette alerte est déclenchée, procédez comme suit :
- Vérifiez l'état du réplica en exécutant la commande suivante :
rs.status()
; - Vérifiez les journaux en exécutant la commande suivante :
kubectl logs <pod-name> -n mongodb
; - Si le problème persiste, contactez l'assistance UiPath.
Cette alerte indique que le certificat TLS du serveur expirera dans les 30 jours suivants.
Pour résoudre ce problème, mettez à jour le certificat TLS du serveur. Pour obtenir des instructions, consultez Gestion des certificats de serveur.
Cette alerte indique que le certificat TLS du serveur expirera dans les 7 jours suivants.
Pour résoudre ce problème, mettez à jour le certificat TLS. Pour obtenir des instructions, consultez Gestion des certificats de serveur.
Cette alerte indique que le certificat de signature de jeton d'identité expirera dans les 30 jours suivants.
Pour résoudre ce problème, mettez à jour le certificat de signature de jeton d'identité. Pour obtenir des instructions, consultez Gestion des certificats de serveur.
Cette alerte indique que le certificat de signature de jeton d'identité expirera dans les 7 jours suivants.
Pour résoudre ce problème, mettez à jour le certificat de signature de jeton d'identité. Pour obtenir des instructions, consultez Gestion des certificats de serveur.
Cette alerte indique que le cluster etcd a un nombre insuffisant de membres. Notez que le cluster doit avoir un nombre impair de membres. La gravité de cette alerte est critique.
Assurez-vous qu'il y a un nombre impair de nœuds de serveur dans le cluster, et qu'ils sont tous actifs et sains.
Cette alerte indique que le cluster etcd n'a pas de leader. La gravité de cette alerte est critique.
Cette alerte indique que le leader etcd change plus de deux fois en 10 minutes. Ceci est un avertissement.
Cette alerte indique qu'un certain pourcentage d'échecs de requêtes GRPC a été détecté dans etcd.
Cette alerte indique que les requêtes etcd GRPC sont lentes. Ceci est un avertissement.
Cette alerte indique qu'un certain pourcentage d'échecs HTTP a été détecté dans etcd.
Cette alerte indique que les requêtes HTTP ralentissent. Ceci est un avertissement.
Cette alerte indique que la communication avec les membres etcd ralentit. Ceci est un avertissement.
Cette alerte indique que le serveur etcd a reçu plus de 5 propositions ayant échoué au cours de la dernière heure. Ceci est un avertissement.
Cette alerte indique que la durée fsync des WAL etcd augmente. Ceci est un avertissement.
/var/lib/rancher
est inférieur à :
- 35 % – la gravité de l’alerte est un avertissement
- 25 % – la gravité de l’alerte est critique
Si cette alerte se déclenche, augmentez la taille du disque.
/var/lib/kubelet
est inférieur à :
- 35 % – la gravité de l’alerte est un avertissement
-
25 % – la gravité de l’alerte est critique
Si cette alerte se déclenche, augmentez la taille du disque.
Cette alerte indique que l'espace libre du disque Longhorn est inférieur à :
- 35 % – la gravité de l’alerte est un avertissement
- 25 % – la gravité de l’alerte est critique
Si cette alerte se déclenche, augmentez la taille du disque.
Cette alerte indique que la connexion au serveur NFS est perdue.
Vous devez vérifier la connexion au serveur NFS et le chemin de montage.
Si le nombre cumulé d'objets de sauvegarde ou d'instantané créés par Longhorn est trop élevé, vous pouvez obtenir l'une des alertes suivantes :
Pour résoudre le problème à l'origine du déclenchement de ces alertes, exécutez le script suivant :
#!/bin/bash
set -e
# longhorn backend URL
url=
# By default, snapshot older than 10 days will be deleted
days=-1
function display_usage() {
echo "usage: $(basename "$0") [-h] -u longhorn-url -d days"
echo " -u Longhorn URL"
echo " -d Number of days(should be >0). By default, script will delete snapshot older than 10 days."
echo " -h Print help"
}
while getopts 'hd:u:' flag "$@"; do
case "${flag}" in
u)
url=${OPTARG}
;;
d)
days=${OPTARG}
[ "$days" ] && [ -z "${days//[0-9]}" ] || { echo "Invalid number of days=$days"; exit 1; }
;;
h)
display_usage
exit 0
;;
:)
echo "Invalid option: ${OPTARG} requires an argument."
exit 1
;;
*)
echo "Unexpected option ${flag}"
exit 1
;;
esac
done
[[ -z "$url" ]] && echo "Missing longhorn URL" && exit 1
# check if URL is valid
curl -s --connect-timeout 30 ${url}/v1 >> /dev/null || { echo "Unable to connect to longhorn backend"; exit 1; }
echo "Deleting snapshots older than $days days"
# Fetch list of longhorn volumes
vols=$( (curl -s -X GET ${url}/v1/volumes |jq -r '.data[].name') )
#delete given snapshot for given volume
function delete_snapshot() {
local vol=$1
local snap=$2
[[ -z "$vol" || -z "$snap" ]] && echo "Error: delete_snapshot: Empty argument" && return 1
curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotDelete -d '{"name": "'$snap'"}' >> /dev/null
echo "Snapshot=$snap deleted for volume=$vol"
}
#perform cleanup for given volume
function cleanup_volume() {
local vol=$1
local deleted_snap=0
[[ -z "$vol" ]] && echo "Error: cleanup_volume: Empty argument" && return 1
# fetch list of snapshot
snaps=$( (curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotList | jq -r '.data[] | select(.usercreated==true) | .name' ) )
for i in ${snaps[@]}; do
echo $i
if [[ $i == "volume-head" ]]; then
continue
fi
# calculate date difference for snapshot
snapTime=$(curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotGet -d '{"name":"'$i'"}' |jq -r '.created')
currentTime=$(date "+%s")
timeDiff=$((($(date -d $snapTime "+%s") - $currentTime) / 86400))
if [[ $timeDiff -lt $days ]]; then
echo "Ignoring snapshot $i, since it is older than $timeDiff days"
continue
fi
#trigger deletion for snapshot
delete_snapshot $vol $i
deleted_snap=$((deleted_snap+1))
done
if [[ "$deleted_snap" -gt 0 ]]; then
#trigger purge for volume
curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotPurge >> /dev/null
fi
}
for i in ${vols[@]}; do
cleanup_volume $i
done
#!/bin/bash
set -e
# longhorn backend URL
url=
# By default, snapshot older than 10 days will be deleted
days=-1
function display_usage() {
echo "usage: $(basename "$0") [-h] -u longhorn-url -d days"
echo " -u Longhorn URL"
echo " -d Number of days(should be >0). By default, script will delete snapshot older than 10 days."
echo " -h Print help"
}
while getopts 'hd:u:' flag "$@"; do
case "${flag}" in
u)
url=${OPTARG}
;;
d)
days=${OPTARG}
[ "$days" ] && [ -z "${days//[0-9]}" ] || { echo "Invalid number of days=$days"; exit 1; }
;;
h)
display_usage
exit 0
;;
:)
echo "Invalid option: ${OPTARG} requires an argument."
exit 1
;;
*)
echo "Unexpected option ${flag}"
exit 1
;;
esac
done
[[ -z "$url" ]] && echo "Missing longhorn URL" && exit 1
# check if URL is valid
curl -s --connect-timeout 30 ${url}/v1 >> /dev/null || { echo "Unable to connect to longhorn backend"; exit 1; }
echo "Deleting snapshots older than $days days"
# Fetch list of longhorn volumes
vols=$( (curl -s -X GET ${url}/v1/volumes |jq -r '.data[].name') )
#delete given snapshot for given volume
function delete_snapshot() {
local vol=$1
local snap=$2
[[ -z "$vol" || -z "$snap" ]] && echo "Error: delete_snapshot: Empty argument" && return 1
curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotDelete -d '{"name": "'$snap'"}' >> /dev/null
echo "Snapshot=$snap deleted for volume=$vol"
}
#perform cleanup for given volume
function cleanup_volume() {
local vol=$1
local deleted_snap=0
[[ -z "$vol" ]] && echo "Error: cleanup_volume: Empty argument" && return 1
# fetch list of snapshot
snaps=$( (curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotList | jq -r '.data[] | select(.usercreated==true) | .name' ) )
for i in ${snaps[@]}; do
echo $i
if [[ $i == "volume-head" ]]; then
continue
fi
# calculate date difference for snapshot
snapTime=$(curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotGet -d '{"name":"'$i'"}' |jq -r '.created')
currentTime=$(date "+%s")
timeDiff=$((($(date -d $snapTime "+%s") - $currentTime) / 86400))
if [[ $timeDiff -lt $days ]]; then
echo "Ignoring snapshot $i, since it is older than $timeDiff days"
continue
fi
#trigger deletion for snapshot
delete_snapshot $vol $i
deleted_snap=$((deleted_snap+1))
done
if [[ "$deleted_snap" -gt 0 ]]; then
#trigger purge for volume
curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotPurge >> /dev/null
fi
}
for i in ${vols[@]}; do
cleanup_volume $i
done
Cette alerte indique que le nombre cumulé d'objets de sauvegarde créés dans le système par Longhorn augmente, ce qui peut entraîner de potentiels temps d'arrêt. Il s'agit d'un avertissement.
Cette alerte est déclenchée lorsque le nombre de sauvegardes de Longhorn est supérieur ou égal à 150 et inférieur à 200.
Cette alerte indique que le nombre cumulé d'objets de sauvegarde créés dans le système par Longhorn augmente, ce qui peut entraîner de potentiels temps d'arrêt. Il s'agit d'une alerte critique.
Cette alerte est déclenchée lorsque le nombre de sauvegardes de Longhorn est supérieur ou égal à 200 et inférieur à 240.
Cette alerte indique que le nombre cumulé d'objets d'instantané créés dans le système par Longhorn augmente, ce qui peut entraîner des temps d'arrêt potentiels. Il s'agit d'un avertissement.
Cette alerte est déclenchée si le nombre d'instantanés est supérieur ou égal à 150 et inférieur à 200.
Cette alerte indique que le nombre cumulé d'objets d'instantané créés dans le système par Longhorn augmente, ce qui peut entraîner des temps d'arrêt potentiels. Cette alerte est critique.
Cette alerte est déclenchée si le nombre d'instantanés est supérieur ou égal à 200 et inférieur à 240.
- Clé de gravité de l'alerte
- Règles.générales
- TargetDown
- Watchdog
- kubernetes-apps
- KubePodCrashLooping
- KubePodNotReady
- KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
- KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
- KubeStatefulSetUpdateNotRolledOut
- KubeDaemonSetRolloutStuck
- KubeContainerWaiting
- KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
- KubeJobCompletion
- KubeJobFailed
- KubeHpaReplicasMismatch
- KubeHpaMaxedOut
- kubernetes-resources
- KubeCPUOvercommit, KubeMemoryOvercommit
- KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
- CPUThrottlingHigh
- Kubernetes-storage
- KubePersistentVolumeFillingUp
- KubePersistentVolumeErrors
- kube-state-metrics
- KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
- kubernetes-system-apiserver
- KubeClientCertificateExpiration
- AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
- KubernetesApiServerErrors
- kubernetes-system-kubelet
- KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
- KubeletTooManyPods
- KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
- KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
- kubernetes-system
- KubeVersionMismatch
- KubeClientErrors
- KubernetesMemoryPressure
- KubernetesDiskPressure
- Kube-apiserver-slos
- KubeAPIErrorBudgetBurn
- node-exporter
- NodeFilesystemSpaceFillingUp, NodeFilesystemAlmostOutOfSpace, NodeFilesystemFilesFillingUp
- NodeRAIDDegraded
- NodeRAIDDiskFailure
- NodeNetworkReceiveErrs, NodeNetworkTransmitErrs, NodeHighNumberConntrackEntriesUsed
- NodeClockSkewDetected, NodeClockNotSynchronising
- node-network
- NodeNetworkInterfaceFlapping
- InternodeCommunicationBroken
- uipath.prometheus.resource.provisioning.alerts
- PrometheusMemoryUsage, PrometheusStorageUsage
- alertmanager.rules
- AlertmanagerConfigInconsistent
- AlertmanagerFailedReload
- prometheus-operator
- PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
- Prometheus
- PrometheusBadConfig
- PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
- PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
- PrometheusRuleFailures
- PrometheusMissingRuleEvaluations
- PrometheusTargetLimitHit
- uipath.availability.alerts
- UiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
- uipath.cronjob.alerts.rules
- CronJobSuspended
- Échec de la tâche UiPath CronJob « kerberos-tgt-refresh »
- IdentityKerberosTgtUpdateFailed
- Alertes Ceph
- CephClusterNearFull
- CephClusterCriticallyFull
- CephClusterReadOnly
- CephPoolQuotaBytesCriticallyExhausted
- CephClusterErrorState
- CephMonQuorumAtRisk
- CephOSDCriticallyFull
- uipath.requestrouting.alerts
- UiPathRequestRouting
- RabbitmqNodeDown
- Alertes MongoDB
- MongodbCertExpiration
- MongodbDown
- MongodbReplicationStatusUnreachable
- MongodbReplicationStatusNotKnown
- MongodbReplicationLag
- MongodbTooManyConnections
- MongodbHighLatency
- MongodbReplicationStatusSelfCheck
- MongodbReplicationStatusRollback
- MongodbReplicationStatusRemoved
- Alertes de certificat TLS de serveur
- SecretCertificateExpiry30Days
- SecretCertificateExpiry7Days
- Alertes de certificat de signature de jeton d'identité
- IdentityCertificateExpiry30Days
- IdentityCertificateExpiry7Days
- Alertes etdc
- EtcdInsufficientMembers
- EtcdNoLeader
- EtcdHighNumberOfLeaderChanges
- EtcdHighNumberOfFailedGrpcRequests
- EtcdGrpcRequestsSlow
- EtcdHighNumberOfFailedHttpRequests
- EtcdHttpRequestsSlow
- EtcdMemberCommunicationSlow
- EtcdHighNumberOfFailedProposals
- EtcdHighFsyncDurations
- EtcdHighCommitDurations
- Alertes de taille de disque
- LowDiskForRancherPartition
- LowDiskForKubeletPartition
- LowDiskForLonghornPartition
- LowDiskForVarPartition
- Alertes de sauvegarde
- NFSServerDisconnected
- VolumeBackupFailed
- BackupDisabled
- longhorn-snapshot-alert
- LonghornBackupObjectThresholdExceededWarn
- LonghornBackupObjectThresholdExceededCritical
- LonghornSnapshotObjectThresholdExceededWarn
- LonghornSnapshotObjectThresholdExceededCritical