- Vue d'ensemble (Overview)
- Prérequis
- Pré-installation
- Installation
- Post-installation
- Migration et mise à niveau
- Mettre à niveau Automation Suite
- Migration de produits autonomes vers Automation Suite
- Étape 1 : Restauration de la base de données du produit autonome
- Étape 2 : Mise à jour du schéma de la base de données de produits restaurée
- Étape 3 : Déplacement des données d’organisation depuis une version autonome d’Identity vers Automation Suite
- Étape 4 : Sauvegarder la base de données de la plate-forme dans Automation Suite
- Étape 5 : Fusion des organisations dans Automation Suite
- Étape 6 : Mise à jour des chaînes de connexion du produit migré
- Étape 7 : migration de la version autonome d'Orchestrator
- Étape 8 : migration de la version autonome d’Insights
- Étape 9 : suppression du locataire par défaut
- Exécution d'une seule migration de locataire
- Migration entre les clusters Automation Suite
- Migration d' Automation Suite sur EKS/AKS vers Automation Suite sur OpenShift
- Surveillance et alerte
- Administration du cluster
- Configuration spécifique au produit
- Configuration des paramètres d'Orchestrator
- Configuration des paramètres d'application
- Configuration de la taille maximale de la requête
- Remplacement de la configuration du stockage au niveau du cluster
- Configuration de NLog
- Enregistrement des journaux du robot dans Elasticsearch
- Configuration des magasins d'informations d'identification
- Configuration de la clé de chiffrement par locataire
- Nettoyer la base de données Orchestrator
- Rotation des informations d’identification de stockage d’objets blob
- Désactivation de l'utilisation d'URL pré-signées lors du téléchargement de données vers le stockage Amazon S3
- Configuration de la sécurité de l'application de processus
- Configurer une authentification Kerberos avec l’authentification MSSQL de base pour Process Mining
- Résolution des problèmes
- Impossible d’accéder à Automation Hub après la mise à niveau vers Automation Suite 2024.10.0
- Échec de l’enregistrement d’AI Center après la mise à niveau vers la version 2023.10 ou une version ultérieure
- Volumes Insights créés dans deux zones différentes après la migration
- La mise à niveau échoue en raison du remplacement des tailles de PVC Insights
- La configuration de sauvegarde ne fonctionne pas en raison d’un échec de connexion à Azure Government
- Pods dans l'espace de noms uipath bloqués lors de l'activation des rejets de nœuds personnalisés
- Impossible de lancer Automation Hub et Apps avec la configuration proxy
- Le Robot ne peut pas se connecter à une instance Automation Suite Orchestrator
- La diffusion des journaux ne fonctionne pas dans les configurations proxy

Guide d'installation d'Automation Suite sur EKS/AKS
- For general instructions on using the available tools for alerts, metrics, and visualizations, see Using the monitoring stack.
- For more on how to fix issues and how to create a support bundle for UiPath® Support engineers, see Troubleshooting.
- Lorsque vous contactez le support UiPath®, veuillez inclure toutes les alertes qui se déclenchent actuellement.
Gravité de l’alerte |
Description |
---|---|
Info | Peu courant mais inoffensif. Peut être désactivé mais peut être utile lors des diagnostics. |
Avertissement | Indique une dégradation ciblée des fonctionnalités ou d'une dégradation probable dans un futur proche, pouvant affecter l'ensemble du cluster. Une action rapide est recommandée (généralement dans les prochains jours) pour maintenir le cluster en bonne santé. |
Critique (Critical) | Connu pour provoquer une grave dégradation des fonctionnalités, souvent généralisée au sein du cluster. Nécessite une action immédiate (le jour même) pour réparer le cluster. |
TargetDown
Prometheus n'est pas en mesure de collecter les métriques de la cible dans l'alerte, ce qui signifie que les tableaux de bord Grafana et d'autres alertes basées sur les métriques de cette cible ne sont pas disponibles. Vérifiez les autres alertes relatives à cette cible.
Watchdog
Il s'agit d'une alerte destinée à garantir que l'ensemble du pipeline d'alerte est fonctionnel. Cette alerte est toujours déclenchée. Par conséquent, elle doit toujours se déclencher dans AlertManager et à l'encontre d'un récepteur. Il existe des intégrations avec divers mécanismes de notification qui vous avertissent lorsque cette alerte ne se déclenche pas. Par exemple, l'intégration de DeadMansSnitch dans PagerDuty.
KubePodCrashLooping
kubectl describe
et les journaux avec kubectl logs
pour voir les détails sur les pannes possibles. Si le problème persiste, contactez le support UiPath®.
KubePodNotReady
kubectl logs
pour voir s’il y a une indication de progression. Si le problème persiste, contactez le support UiPath®.
KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
Une tentative de mise à jour d’un déploiement ou d’un ensemble d’états a eu lieu, mais elle a échoué et aucune restauration n’a encore eu lieu. Contactez l’assistance UiPath®.
KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
Dans les clusters à haute disponibilité avec plusieurs répliques, cette alerte se déclenche lorsque le nombre de répliques n’est pas optimal. Cela peut se produire lorsqu’il n’y a pas suffisamment de ressources dans le cluster à planifier. Vérifiez l’utilisation des ressources et ajoutez de la capacité si nécessaire. Sinon, contactez le support UiPath®.
KubeStatefulSetUpdateNotRolledOut
La mise à jour d’un ensemble d’états a échoué. Contactez l’assistance UiPath®.
Voir aussi : Ensembles d'états.
KubeDaemonSetRolloutStuck
Le déploiement de Daemonset a échoué. Contactez l’assistance UiPath®.
Voir aussi : DaemonSet.
KubeContainerWaiting
kubectl describe
du pod pour plus d’informations. La cause la plus fréquente des conteneurs en attente est l’échec de l’extraction de l’image. Pour les clusters isolés, cela peut signifier que le registre local n’est pas disponible. Si le problème persiste, contactez le support UiPath®.
KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
Cela peut indiquer un problème avec l’un des nœuds. Vérifiez l’intégrité de chaque nœud et corrigez tout problème connu. Sinon, contactez le support UiPath®.
KubeJobCompletion
Une tâche prend plus de 12 heures à s’exécuter. Ceci n’est pas normal. Contactez l’assistance UiPath®.
KubeJobFailed
Une tâche a échoué ; cependant, la plupart des tâches font automatiquement l’objet de nouvelles tentatives. Si le problème persiste, contactez le support UiPath®.
KubeHpaReplicasMismatch
L’autoscaler ne peut pas mettre à l’échelle la ressource ciblée telle qu’elle est configurée. Si la valeur souhaitée est supérieure à la valeur réelle, il y a peut-être un manque de ressources. Si la valeur souhaitée est inférieure à la valeur réelle, les pods peuvent être bloqués lors de l’arrêt. Si le problème persiste, contactez le support UiPath®.
Voir aussi : Horizontal Pod Autoscaling
KubeHpaMaxedOut
Le nombre de répliques d'un service donné a atteint son maximum. Cela se produit lorsque le nombre de requêtes adressées au cluster est très élevé. Si un trafic élevé est prévu et temporaire, vous pouvez désactiver cette alerte. Cependant, cette alerte est un signe que le cluster est à pleine capacité et ne peut pas gérer beaucoup plus de trafic. Si une plus grande capacité de ressources est disponible sur le cluster, vous pouvez augmenter le nombre maximal de répliques du service en suivant ces instructions :
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
Voir aussi : Horizontal Pod Autoscaling.
KubeCPUOvercommit, KubeMemoryOvercommit
Ces avertissements indiquent que le cluster ne peut pas tolérer une panne de nœud. Pour les clusters en mode d'évaluation à nœud unique, cela est courant et ces alertes peuvent être désactivées. Pour les configurations en mode de production multi-nœuds compatible haute disponibilité, ces alertes se déclenchent lorsqu'un trop grand nombre de nœuds deviennent défectueux pour prendre en charge la haute disponibilité, et elles indiquent que les nœuds doivent être rétablis ou remplacés.
KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
Ces alertes concernent les quotas de ressources d'espace de noms qui n'existent dans le cluster que s'ils sont ajoutés via la personnalisation. Les quotas de ressources d'espace de noms ne sont pas ajoutés dans le cadre de l'installation d'Automation Suite.
Voir aussi : Quotas de ressources.
CPUThrottlingHigh
L'utilisation du processeur d'un conteneur a été limitée en fonction des limites configurées. Cela fait partie du fonctionnement normal de Kubernetes et peut fournir des informations utiles lorsque d'autres alertes se déclenchent. Vous pouvez désactiver cette alerte.
KubePersistentVolumeFillingUp
Quand Avertissement (Warning) s'affiche : L'espace disponible est inférieur à 30 % et est susceptible de se remplir dans les quatre jours.
Lorsque Critique (Critical) s'affiche : l'espace disponible est inférieur à 10 %.
Pour tous les services qui manquent d'espace, les données peuvent être difficiles à récupérer, les volumes doivent donc être redimensionnés avant d'atteindre 0 % d'espace disponible.
Pour les alertes spécifiques à Prometheus, consultez PrometheusStorageUsage pour plus de détails et d’instructions.
KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
Le collecteur Kube State Metrics n’est pas en mesure de collecter les métriques du cluster sans erreur. Cela signifie que les alertes importantes peuvent ne pas se déclencher. Contactez l’assistance UiPath®.
Voir aussi : Kube State Metrics à la publication.
KubeClientCertificateExpiration
Lorsque Avertissement (Warning) s'affiche : un certificat client utilisé pour s'authentifier auprès du serveur d'API Kubernetes expire dans moins de sept jours.
Lorsque Critique (Critical)s'affiche : un certificat client utilisé pour s'authentifier auprès du serveur d'API Kubernetes expire en moins d'un jour.
Vous devez renouveler le certificat.
AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
Indique des problèmes avec le plan de contrôle Kubernetes. Vérifiez l’état des nœuds maîtres, résolvez les problèmes en cours et contactez le support UiPath® si les problèmes persistent.
Voir également :
KubernetesApiServerErrors
Cette alerte indique que le serveur d'API Kubernetes rencontre un taux d'erreur élevé. Ce problème peut entraîner d'autres échecs. Il est donc recommandé d'étudier le problème de manière proactive.
api-server
pour trouver la cause première du problème à l'aide de la commande kubectl logs <pod-name> -n kube-system
.
KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
Ces alertes indiquent un problème avec un nœud. Dans les clusters en mode de production multi-nœuds compatible haute disponibilité, les pods seraient probablement replanifiés sur d'autres nœuds. Si le problème persiste, vous devez supprimer et vider le nœud pour maintenir l'intégrité du cluster. Dans les clusters sans capacité supplémentaire, un autre nœud doit d'abord être joint au cluster.
Si les problèmes persistent, contactez le support UiPath®.
KubeletTooManyPods
Il y a trop de pods en cours d'exécution sur le nœud spécifié.
KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
Quand Avertissement (Warning) s'affiche : Un certificat client ou serveur pour Kubelet expire dans moins de sept jours.
Lorsque Critique (Critical) s'affiche : un certificat client ou serveur pour Kubelet expire dans moins d'un jour.
Vous devez renouveler le certificat.
KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
Kubelet n’a pas réussi à renouveler son certificat client ou serveur. Contactez l’assistance UiPath®.
KubeVersionMismatch
Il existe différentes versions sémantiques des composants Kubernetes en cours d'exécution. Cela peut se produire à la suite d'une mise à niveau infructueuse de Kubernetes.
KubeClientErrors
Le client du serveur d'API Kubernetes rencontre plus de 1 % d'erreurs. Il peut y avoir un problème avec le nœud sur lequel ce client s'exécute ou avec le serveur d'API Kubernetes lui-même.
KubernetesMemoryPressure
Cette alerte indique que l'utilisation de la mémoire est très élevée sur le nœud Kubernetes.
MemoryPressure
se produisent lorsqu'un nœud de cluster Kubernetes dispose d'une mémoire insuffisante, ce qui peut être dû à une fuite de mémoire dans une application. Ce type d'incident nécessite une attention immédiate pour éviter tout temps d'arrêt et assurer le bon fonctionnement du cluster Kubernetes.
Si cette alerte se déclenche, essayez d'identifier le pod sur le nœud qui consomme plus de mémoire, en procédant comme suit :
-
Récupérez les statistiques du processeur et de la mémoire des nœuds :
kubectl top node
kubectl top node -
Récupérez les pods exécutés sur le nœud :
kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME}
kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME} -
Vérifiez l'utilisation de la mémoire pour les pods dans un espace de noms en utilisant :
kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>
kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>
Si vous êtes en mesure d'identifier n'importe quel pod avec une utilisation élevée de la mémoire, consultez les journaux du pod et recherchez les erreurs de fuite de mémoire.
Pour résoudre ce problème, augmentez si possible les spécifications de mémoire des nœuds.
If the issue persists, generate thesupport bundle and contact UiPath® Support.
KubernetesDiskPressure
Cette alerte indique que l'utilisation du disque est très élevée sur le nœud Kubernetes.
Si cette alerte se déclenche, essayez de voir quel pod consomme davantage de disque :
-
Confirmez si le nœud se trouve sous
DiskPressure
à l'aide de la commande suivante :kubectl describe node <node-name>
kubectl describe node <node-name>Identifiez la conditionDiskPressure
dans la sortie. -
Vérifiez l'utilisation de l'espace disque sur le nœud concerné :
df -h
df -hCela indique l'utilisation du disque sur tous les systèmes de fichiers montés. Identifier où l’utilisation élevée.
-
Si le disque est plein et que le nettoyage est insuffisant, envisagez de redimensionner le disque pour le nœud (en particulier dans les environnements cloud tels qu’AWS ou GCP). Ce processus peut impliquer une augmentation des volumes, en fonction de votre infrastructure.
KubeAPIErrorBudgetBurn
Le serveur d'API Kubernetes consomme trop de budget d'erreur.
NodeFilesystemSpaceFillingUp
Le système de fichiers sur un nœud particulier se remplit.
Si cette alerte se déclenche, tenez compte des étapes suivantes :
-
Confirmez si le nœud se trouve sous
DiskPressure
à l'aide de la commande suivante :kubectl describe node <node-name>
kubectl describe node <node-name>Identifiez la conditionDiskPressure
dans la sortie.
-
Effacez les journaux et les fichiers temporaires. Vérifiez les fichiers journaux volumineux dans
/var/log/
et supprimez-les, si possible.
-
Vérifiez l'utilisation de l'espace disque sur le nœud concerné :
df -h
df -hCela indique l'utilisation du disque sur tous les systèmes de fichiers montés. Identifier où l’utilisation élevée.
-
Si le disque est plein et que le nettoyage est insuffisant, envisagez de redimensionner le disque pour le nœud (en particulier dans les environnements cloud tels qu’AWS ou GCP). Ce processus peut impliquer une augmentation des volumes, en fonction de votre infrastructure.
NodeRAIDDegraded
La matrice RAID est dans un état dégradé en raison d'une ou plusieurs pannes de disque. Le nombre de disques libres
est insuffisant pour résoudre le problème automatiquement.
NodeRAIDDiskFailure
La matrice RAID a besoin d'attention et éventuellement d'un changement de disque.
NodeNetworkReceiveErrs
Ces erreurs indiquent que le pilote réseau signale un nombre élevé d'échecs. Cela peut être dû à des défaillances matérielles ou à une mauvaise configuration du réseau physique. Ce problème concerne le système d’exploitation et n’est pas contrôlé par l’application UiPath®.
/proc/net/dev
fourni par le noyau Linux.
Contactez votre administrateur réseau et l'équipe qui gère l'infrastructure physique.
NodeClockSkewDetected, NodeClockNotSynchronising
Il y a un problème avec l'horloge sur le nœud. Assurez-vous que NTP est configuré correctement.
NodeNetworkInterfaceFlapping
Il y a un problème avec l'interface réseau physique sur le nœud. Si les problèmes persistent, il peut être nécessaire de le remplacer.
Le nœud ne répond plus en raison d’un problème provoquant une rupture de la communication entre les nœuds du cluster.
If the issue persists, reach out to UiPath® Support with the generated support bundle.
PrometheusMemoryUsage, PrometheusStorageUsage
Ces alertes avertissent lorsque le cluster est sur le point d'atteindre les limites configurées pour la mémoire et le stockage. Cela est susceptible de se produire sur les clusters avec une augmentation substantielle récente de l'utilisation (généralement des robots plutôt que des utilisateurs), ou lorsque des nœuds sont ajoutés au cluster sans ajuster les ressources Prometheus. Cela est dû à une augmentation du nombre de métriques collectées. Cela peut également être dû au grand nombre d'alertes déclenchées, il est important de vérifier pourquoi un grand nombre d'alertes sont déclenchées.
If this issue persists, contact UiPath® Support with the generated support bundle.
AlertmanagerConfigInconsistent
Alertmanager
instances d'un même cluster ont des configurations différentes. Cela peut indiquer un problème avec le déploiement de la configuration qui n'est pas cohérent pour toutes les instances de Alertmanager
.
Pour résoudre le problème, procédez comme suit :
-
Exécutez un outil
diff
entre tous lesalertmanager.yml
déployés pour identifier le problème. -
Supprimez la clé secrète incorrecte et déployez la bonne clé secrète.
Si le problème persiste, contactez le support UiPath®.
AlertmanagerFailedReload
AlertManager has failed to load or reload configuration. Please check any custom AlertManager configurations for input errors and otherwise contact UiPath® Support and provide the support bundle. For details, see Using the Automation Suite support bundle.
PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
Erreurs internes de l’opérateur Prometheus, qui contrôle les ressources Prometheus. Prometheus peut lui-même conserver une bonne intégrité alors que ces erreurs sont présentes ; cependant, cette erreur indique que la configurabilité de la surveillance est dégradée. Contactez l’assistance UiPath®.
PrometheusBadConfig
Prometheus n’a pas pu charger ou recharger la configuration. Veuillez vérifier toutes les configurations Prometheus personnalisées pour les erreurs de saisie. Sinon, contactez le support UiPath®.
PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
La connexion de Prometheus à AlertManager n’est pas saine. Les métriques peuvent toujours faire l’objet de requêtes et les tableaux de bord Grafana peuvent toujours les afficher, mais les alertes ne se déclencheront pas. Vérifiez toute configuration personnalisée d’AlertManager pour les erreurs de saisie. Sinon, contactez le support UiPath®.
PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
Les erreurs internes Prometheus indiquant que les métriques peuvent ne pas être collectées comme prévu. Veuillez contacter l’assistance UiPath®.
PrometheusRuleFailures
Cela peut se produire s’il existe des alertes malformées basées sur des métriques inexistantes ou une syntaxe PromQL incorrecte. Contactez l’assistance UiPath® si aucune alerte personnalisée n’a été ajoutée.
PrometheusMissingRuleEvaluations
Prometheus n’est pas en mesure d’évaluer si les alertes doivent être déclenchées. Cela peut se produire s’il y a trop d’alertes. Veuillez supprimer les évaluations d’alertes personnalisées coûteuses et/ou consulter la documentation sur l’augmentation de la limite du processeur pour Prometheus. Contactez l’assistance UiPath® si aucune alerte personnalisée n’a été ajoutée.
PrometheusTargetLimitHit
Il y a trop de cibles depuis lesquelles Prometheus peut collecter. Si des ServiceMonitors supplémentaires ont été ajoutés (voir Console de surveillance), vous pouvez les supprimer.
UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
Le nombre de réponses http 500 des services UiPath® dépasse la limite donnée.
Niveau de trafic |
Nombre de requêtes en 20 minutes |
Seuil d'erreur (pour http 500s) |
---|---|---|
Haute |
>100 000 |
0,1 % |
Moyenne |
Entre 10 000 et 100 000 |
1 % |
Basse |
< 10 000 |
5 % |
Les erreurs dans les services destinés aux utilisateurs entraîneraient probablement une dégradation des fonctionnalités directement observable dans l'interface utilisateur d'Automation Suite, tandis que les erreurs dans les services principaux auraient des conséquences moins visibles.
L'alerte indique quel service connaît actuellement un taux d'erreur élevé. Pour comprendre les problèmes pouvant découler d'autres services dont dépend le service de création de rapports, vous pouvez utiliser le tableau de bord Istio Workload, qui affiche les erreurs entre les services.
Veuillez revérifier tous les produits Automation Suite récemment reconfigurés. Des journaux détaillés sont également disponibles avec la commande kubectl logs. Si l’erreur persiste, veuillez contacter l’assistance UiPath®.
CronJobSuspended
uipath-infra/istio-configure-script-cronjob
est à l’état suspendu.
Pour résoudre ce problème, activez la tâche cron en procédant comme suit :
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the previous command are part of output of following command
kubectl -n <istio-system> get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the previous command are part of output of following command
kubectl -n <istio-system> get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
Échec de la tâche UiPath CronJob « kerberos-tgt-refresh »
Cette tâche obtient le dernier ticket Kerberos du serveur AD pour l’authentification intégrée SQL. Les échecs de cette tâche entraîneraient l’échec de l’authentification du serveur SQL. Veuillez contacter l’assistance UiPath®.
IdentityKerberosTgtUpdateFailed
Cette tâche met à jour le dernier ticket Kerberos pour tous les services UiPath®. Les échecs de cette tâche entraîneraient l’échec de l’authentification du serveur SQL. Veuillez contacter l’assistance UiPath®.
UiPathRequestRouting
Des erreurs dans la couche de routage des requêtes entraîneraient une dégradation des fonctionnalités directement observable dans l'interface utilisateur d'Automation Suite. Les requêtes ne seront pas routées vers les services principaux.
istio-ingressgateway
de l'espace de noms istio-system
. Récupérez le nom du pod en exécutant les commandes suivantes :
kubectl get pods -n istio-system
kubectl logs <istio-ingressgateway-pod-name> -n istio-system
kubectl get pods -n istio-system
kubectl logs <istio-ingressgateway-pod-name> -n istio-system
SecretCertificateExpiry30Days
Cette alerte indique que le certificat TLS du serveur expirera dans les 30 jours suivants.
Pour résoudre ce problème, mettez à jour le certificat TLS du serveur. Pour obtenir des instructions, consultez Gestion des certificats de serveur.
SecretCertificateExpiry7Days
Cette alerte indique que le certificat TLS du serveur expirera dans les 7 jours suivants.
To fix this issue, update the TLS certificate. For instructions, see Managing server certificates.
IdentityCertificateExpiry30Days
Cette alerte indique que le certificat de signature de jeton d'identité expirera dans les 30 jours suivants.
Pour résoudre ce problème, mettez à jour le certificat de signature de jeton d'identité. Pour obtenir des instructions, consultez Gestion des certificats de serveur.
IdentityCertificateExpiry7Days
Cette alerte indique que le certificat de signature de jeton d'identité expirera dans les 7 jours suivants.
Pour résoudre ce problème, mettez à jour le certificat de signature de jeton d'identité. Pour obtenir des instructions, consultez Gestion des certificats de serveur.
EtcdInsufficientMembers
Cette alerte indique que le cluster etcd a un nombre insuffisant de membres. Notez que le cluster doit avoir un nombre impair de membres. La gravité de cette alerte est critique.
Assurez-vous qu'il y a un nombre impair de nœuds de serveur dans le cluster, et qu'ils sont tous actifs et sains.
EtcdNoLeader
Cette alerte indique que le cluster etcd n'a pas de leader. La gravité de cette alerte est critique.
EtcdHighNumberOfLeaderChanges
Cette alerte indique que le leader etcd change plus de deux fois en 10 minutes. Ceci est un avertissement.
EtcdHighNumberOfFailedGrpcRequests
Cette alerte indique qu'un certain pourcentage d'échecs de requêtes GRPC a été détecté dans etcd.
EtcdGrpcRequestsSlow
Cette alerte indique que les requêtes etcd GRPC sont lentes. Ceci est un avertissement.
Si cette alerte persiste, contactez le support UiPath®.
EtcdHighNumberOfFailedHttpRequests
Cette alerte indique qu'un certain pourcentage d'échecs HTTP a été détecté dans etcd.
EtcdHttpRequestsSlow
Cette alerte indique que les requêtes HTTP ralentissent. Ceci est un avertissement.
EtcdMemberCommunicationSlow
Cette alerte indique que la communication avec les membres etcd ralentit. Ceci est un avertissement.
EtcdHighNumberOfFailedProposals
Cette alerte indique que le serveur etcd a reçu plus de 5 propositions ayant échoué au cours de la dernière heure. Ceci est un avertissement.
EtcdHighFsyncDurations
Cette alerte indique que la durée fsync des WAL etcd augmente. Ceci est un avertissement.
EtcdHighCommitDurations
Cette alerte indique que la durée de validation etcd augmente. Ceci est un avertissement.
LowDiskForRancherPartition
/var/lib/rancher
est inférieur à :
- 35 % – la gravité de l’alerte est un avertissement
- 25 % – la gravité de l’alerte est critique
Si cette alerte se déclenche, augmentez la taille du disque.
LowDiskForKubeletPartition
/var/lib/kubelet
est inférieur à :
- 35 % – la gravité de l’alerte est un avertissement
-
25 % – la gravité de l’alerte est critique
Si cette alerte se déclenche, augmentez la taille du disque.
LowDiskForVarPartition
/var
est inférieur à :
- 35 % – la gravité de l’alerte est un avertissement
- 25 % – la gravité de l’alerte est critique
Les exigences de stockage pour les compétences ML peuvent faire considérablement augmenter l’utilisation du disque.
Si cette alerte se déclenche, augmentez la taille du disque.
NFSServerDisconnected
Cette alerte indique que la connexion au serveur NFS est perdue.
Vous devez vérifier la connexion au serveur NFS et le chemin de montage.
VolumeBackupFailed
Cette alerte indique que la sauvegarde a échoué pour une PVC.
Pour résoudre ce problème, procédez comme suit :
-
Vérifiez le statut du PVC pour vous assurer qu'il est
Bound
vers un volume persistant (PV).kubectl get pvc --namespace <namespace>
kubectl get pvc --namespace <namespace>La commande répertorie toutes les PVC et leur statut actuel. La PVC doit avoir un statutBound
pour indiquer qu'elle a revendiqué avec succès un PV.Si le statut estPending
, cela signifie que le PVC attend toujours un PV approprié et qu'une enquête plus approfondie est nécessaire. -
Si le PVC n'est pas dans un état
Bound
ou si vous avez besoin d'informations plus détaillées, utilisez la commandedescribe
:kubectl describe pvc <pvc-name> --namespace <namespace>
kubectl describe pvc <pvc-name> --namespace <namespace>Recherchez des informations sur le statut, les événements et les messages d'erreur. Par exemple, un problème peut être lié à des erreurs de configuration de classe de stockage ou à des limitations de quota.
-
Vérifiez l'intégrité du volume persistant (PV) lié à la PVC :
kubectl get pv <pv-name>
kubectl get pv <pv-name>Le statut doit êtreBound
Si le PV est dans un étatReleased
ouFailed
, cela peut indiquer des problèmes avec le stockage sous-jacent. -
Si la PVC est utilisée par un pod, vérifiez si le pod a monté avec succès le volume :
kubectl get pod <pod-name> --namespace <namespace>
kubectl get pod <pod-name> --namespace <namespace>Si le pod est dans un étatRunning
, cela indique que le PVC est monté avec succès. Si le pod présente un état d'erreur (tel queInitBackOff
), cela peut indiquer des problèmes de montage de volume. -
S'il y a des problèmes avec le montage du PVC, décrivez le pod pour vérifier les erreurs de montage :
kubectl describe pod <pod-name> --namespace <namespace>
kubectl describe pod <pod-name> --namespace <namespace>
BackupDisabled
Cette alerte indique que la sauvegarde est désactivée.
Vous devez activer la sauvegarde.
- Clé de gravité de l'alerte
- Règles.générales
- TargetDown
- Watchdog
- kubernetes-apps
- KubePodCrashLooping
- KubePodNotReady
- KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
- KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
- KubeStatefulSetUpdateNotRolledOut
- KubeDaemonSetRolloutStuck
- KubeContainerWaiting
- KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
- KubeJobCompletion
- KubeJobFailed
- KubeHpaReplicasMismatch
- KubeHpaMaxedOut
- kubernetes-resources
- KubeCPUOvercommit, KubeMemoryOvercommit
- KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
- CPUThrottlingHigh
- Kubernetes-storage
- KubePersistentVolumeFillingUp
- kube-state-metrics
- KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
- kubernetes-system-apiserver
- KubeClientCertificateExpiration
- AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
- KubernetesApiServerErrors
- kubernetes-system-kubelet
- KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
- KubeletTooManyPods
- KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
- KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
- kubernetes-system
- KubeVersionMismatch
- KubeClientErrors
- KubernetesMemoryPressure
- KubernetesDiskPressure
- Kube-apiserver-slos
- KubeAPIErrorBudgetBurn
- node-exporter
- NodeFilesystemSpaceFillingUp
- NodeRAIDDegraded
- NodeRAIDDiskFailure
- NodeNetworkReceiveErrs
- NodeClockSkewDetected, NodeClockNotSynchronising
- node-network
- NodeNetworkInterfaceFlapping
- InternodeCommunicationBroken
- uipath.prometheus.resource.provisioning.alerts
- PrometheusMemoryUsage, PrometheusStorageUsage
- alertmanager.rules
- AlertmanagerConfigInconsistent
- AlertmanagerFailedReload
- prometheus-operator
- PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
- Prometheus
- PrometheusBadConfig
- PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
- PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
- PrometheusRuleFailures
- PrometheusMissingRuleEvaluations
- PrometheusTargetLimitHit
- UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
- uipath.cronjob.alerts.rules
- CronJobSuspended
- Échec de la tâche UiPath CronJob « kerberos-tgt-refresh »
- IdentityKerberosTgtUpdateFailed
- uipath.requestrouting.alerts
- UiPathRequestRouting
- Alertes de certificat TLS de serveur
- SecretCertificateExpiry30Days
- SecretCertificateExpiry7Days
- Alertes de certificat de signature de jeton d'identité
- IdentityCertificateExpiry30Days
- IdentityCertificateExpiry7Days
- Alertes etdc
- EtcdInsufficientMembers
- EtcdNoLeader
- EtcdHighNumberOfLeaderChanges
- EtcdHighNumberOfFailedGrpcRequests
- EtcdGrpcRequestsSlow
- EtcdHighNumberOfFailedHttpRequests
- EtcdHttpRequestsSlow
- EtcdMemberCommunicationSlow
- EtcdHighNumberOfFailedProposals
- EtcdHighFsyncDurations
- EtcdHighCommitDurations
- Alertes de taille de disque
- LowDiskForRancherPartition
- LowDiskForKubeletPartition
- LowDiskForVarPartition
- Alertes de sauvegarde
- NFSServerDisconnected
- VolumeBackupFailed
- BackupDisabled