- Vue d'ensemble (Overview)
- Prérequis
- Modèles de déploiement
- Manuel : Préparation de l'installation
- Manuel : Préparation de l'installation
- Étape 2 : configurer le registre compatible OCI pour les installations hors ligne
- Étape 3 : configurer le magasin d’objets externe
- Étape 4 : Configuration de High Availability Add-on
- Étape 5 : configurer les bases de données SQL
- Étape 6 : configurer l’équilibreur de charge
- Étape 7 : configurer le DNS
- Étape 8 : configuration des disques
- Étape 9 : configurer les paramètres au niveau du noyau et du système d’exploitation
- Étape 10 : configuration des ports de nœud
- Étape 11 : appliquer divers paramètres
- Étape 12 : Valider et installer les packages RPM requis
- Étape 13 : génération du fichier cluster_config.json
- Exemple Cluster_config.json
- Configuration générale
- Configuration du profil
- Configuration du certificat
- Configuration de la base de données
- Configuration du magasin d'objets externe
- Configuration d'URL pré-signée
- Configuration d'ArgoCD
- Configuration de l'authentification Kerberos
- Configuration du registre externe compatible OCI
- Disaster Recovery : configurations actif/passif et actif/actif
- Configuration de High Availability Add-on
- Configuration spécifique à Orchestrator
- Configuration spécifique à Insights
- Configuration spécifique à Process Mining
- Configuration spécifique à Document Understanding
- Configuration spécifique à Automation Suite Robots
- Configuration spécifique à AI Center
- Configuration de la surveillance
- Facultatif : configuration du serveur proxy
- Facultatif : Activation de la résilience aux échecs locaux dans un cluster en mode production multi-nœuds compatible haute disponibilité
- Facultatif : Transmettre le fichier personnalisé resolv.conf
- Facultatif : augmentation de la tolérance aux pannes
- Ajout d'un nœud d'agent dédié avec prise en charge GPU
- Ajout d'un nœud d'agent dédié pour Task Mining
- Connexion de l'application Task Mining
- Ajout d'un nœud d'agent dédié pour les Automation Suite Robots
- Étape 15 : configuration du registre Docker temporaire pour les installations hors ligne
- Étape 16 : validation des prérequis de l’installation
- Exécution de uipathctl
- Manuel : Exécution de l'installation
- Post-installation
- Administration du cluster
- Gestion des produits
- Premiers pas avec le portail d'administration du cluster
- Migration de Redis de High Availability Add-on externe vers un une version externe de High Availability Add-on
- Migration des données entre les librairies
- Migration d'un magasin d'objets intégré au cluster vers un magasin d'objets externe
- Migration du registre intégré au cluster vers un registre externe compatible OCI
- Basculer manuellement vers le cluster secondaire dans une configuration actif/passif
- Disaster Recovery : exécution d'opérations post-installation
- Conversion d'une installation existante en configuration multi-sites
- Recommandations pour mettre à niveau un déploiement actif/passif ou actif/actif
- Recommandations pour sauvegarder et restaurer un déploiement actif/passif ou actif/actif
- Mise à l'échelle d'un déploiement à nœud unique (évaluation) vers un déploiement multi-nœuds (HA)
- Surveillance et alerte
- Migration et mise à niveau
- Migration de produits autonomes vers Automation Suite
- Étape 1 : Restauration de la base de données du produit autonome
- Étape 2 : Mise à jour du schéma de la base de données de produits restaurée
- Étape 3 : Déplacement des données d’organisation depuis une version autonome d’Identity vers Automation Suite
- Étape 4 : Sauvegarder la base de données de la plate-forme dans Automation Suite
- Étape 5 : Fusion des organisations dans Automation Suite
- Étape 6 : Mise à jour des chaînes de connexion du produit migré
- Étape 7 : migration de la version autonome d'Orchestrator
- Étape 8 : migration de la version autonome d’Insights
- Étape 9 : Migration de Test Manager en version autonome
- Étape 10 : suppression du locataire par défaut
- Exécution d'une seule migration de locataire
- Migration entre les clusters Automation Suite
- Mettre à niveau Automation Suite
- Téléchargement des packages d'installation et obtention de l'ensemble des fichiers sur le premier nœud de serveur
- Récupération de la dernière configuration appliquée à partir du cluster
- Mise à jour de la configuration du cluster
- Configuration du registre compatible OCI pour les installations hors ligne
- Exécution de la mise à niveau
- Exécution d'opérations post-mise à niveau
- Configuration spécifique au produit
- Configuration avancée d'Orchestrator
- Configuration des paramètres d'Orchestrator
- Configuration des paramètres d'application
- Configuration de la taille maximale de la requête
- Remplacement de la configuration du stockage au niveau du cluster
- Configuration de NLog
- Enregistrement des journaux du robot dans Elasticsearch
- Configuration des magasins d'informations d'identification
- Configuration de la clé de chiffrement par locataire
- Nettoyer la base de données Orchestrator
- Ignorer la création de la bibliothèque hôte
- Rotation des informations d’identification de stockage d’objets blob
- Désactivation de l'utilisation d'URL pré-signées lors du téléchargement de données vers le stockage Amazon S3
- Configuration de la sécurité de l'application de processus
- Configurer une authentification Kerberos avec l’authentification MSSQL de base pour Process Mining
- Bonnes pratiques et maintenance
- Résolution des problèmes
- Comment résoudre les problèmes des services lors de l'installation
- Comment désinstaller le cluster
- Comment nettoyer les artefacts hors ligne pour améliorer l'espace disque
- Comment effacer les données Redis
- Comment activer la journalisation Istio
- Comment nettoyer manuellement les journaux
- Comment nettoyer les anciens journaux stockés dans le compartiment sf-logs
- Comment désactiver les journaux de diffusion pour AI Center
- Comment déboguer les installations d'Automation Suite ayant échoué
- Comment supprimer des images de l’ancien programme d’installation après la mise à niveau
- Comment désactiver le déchargement de la somme de contrôle txt
- Comment définir manuellement le niveau de journalisation d’ArgoCD sur Info
- Comment augmenter le stockage d’AI Center
- Comment générer la valeur pull_secret_value encodée pour les registres externes
- Comment résoudre les chiffrements faibles dans TLS 1.2
- Comment vérifier la version TLS
- Comment réduire les autorisations d’un répertoire de sauvegarde NFS
- Comment travailler avec les certificats
- Comment planifier la sauvegarde et la restauration des données Ceph
- Comment nettoyer les images Docker inutilisées à partir des pods de registre
- Comment collecter les données d'utilisation de DU avec le magasin d'objets intégré au cluster (Ceph)
- Comment installer RKE2 SELinux dans des environnements isolés
- Comment nettoyer les anciennes sauvegardes différentielles sur un serveur NFS
- Comment déployer Insights dans un cluster compatible FIPS
- Comment migrer vers cgroup v2
- Impossible d'exécuter une installation hors ligne sur le système d'exploitation RHEL 8.4
- Erreur lors du téléchargement du bundle
- L'installation hors ligne échoue en raison d'un fichier binaire manquant
- Problème de certificat dans l'installation hors ligne
- Erreur de validation de la chaîne de connexion SQL
- Disque Azure non marqué comme SSD
- Échec après la mise à jour du certificat
- L'antivirus provoque des problèmes d'installation
- Automation Suite ne fonctionne pas après la mise à niveau du système d'exploitation
- Automation Suite requiert que backlog_wait_time soit défini sur 0
- Volume impossible à monter car il n'est pas prêt pour les charges de travail
- Échec de la collecte du journal du pack d'assistance
- L'installation du registre temporaire échoue sur RHEL 8.9
- Problème de redémarrage fréquent dans les déploiements d'espace de noms uipath lors des installations hors ligne
- Paramètres DNS non respectés par CoreDNS
- Impossible d’installer le registre temporaire
- Perte de données lors de la réinstallation ou de la mise à niveau d'Insights après la mise à niveau d'Automation Suite
- Impossible d’accéder à Automation Hub après la mise à niveau vers Automation Suite 2024.10.0
- Échec de la mise à niveau lors de l’importation du Posthook
- Échec de la mise à niveau du nœud unique à l’étape Fabric
- Échec de la mise à niveau en raison d’un Ceph défectueux
- RKE2 ne démarre pas en raison d'un problème d'espace
- Le volume ne peut pas être monté et reste à l'état de boucle d'attachement/détachement
- La mise à niveau échoue en raison d’objets classiques dans la base de données Orchestrator
- Cluster Ceph trouvé dans un état dégradé après une mise à niveau côte à côte
- Un composant Insights défectueux entraîne l’échec de la migration
- La mise à niveau du service échoue pour Apps
- Délais d'attente de mise à niveau sur place
- Migration du registre Docker bloquée lors de la suppression du PVC
- Échec de l’enregistrement d’AI Center après la mise à niveau vers la version 2023.10 ou une version ultérieure
- La mise à niveau échoue dans les environnements hors ligne
- Échec de la validation SQL lors de la mise à niveau
- Le pod d'instantané-contrôleur-crds dans l'état CrashLoopBackOff après la mise à niveau
- La mise à niveau échoue en raison du remplacement des tailles de PVC Insights
- Échec de la mise à niveau vers Automation Suite 2024.10.1
- Échec de la mise à niveau en raison d’un problème de migration de Velero
- Mise à niveau bloquée lors de la suppression de l'application rook-ceph
- Échec du chargement ou du téléchargement des données dans l'objectstore
- Le redimensionnement de la PVC ne répare pas Ceph
- Échec du redimensionnement du PVC objectstore
- Rook Ceph ou pod Looker bloqué dans l'état Init
- Erreur de pièce jointe du volume Ensembles d'états.
- Échec de la création de volumes persistants
- Échec de la compression des métriques en raison de blocs corrompus dans Thanos
- Définition d'un délai d'expiration pour les portails de gestion
- L'authentification ne fonctionne pas après la migration
- kinit : Impossible de trouver le KDC pour le domaine <AD Domain> lors de l'obtention des informations d'identification initiales
- Kinit : Keytab ne contient aucune clé appropriée pour *** lors de l'obtention des informations d'identification initiales
- L'opération GSSAPI a échoué en raison d'un code de statut non valide
- Alarme reçue pour l'échec de la tâche Kerberos-tgt-update
- Fournisseur SSPI : serveur introuvable dans la base de données Kerberos
- La connexion a échoué pour l'utilisateur AD en raison d'un compte désactivé
- Échec de connexion à ArgoCD
- Mettre à jour les connexions du répertoire sous-jacent
- Le Robot ne peut pas se connecter à une instance Automation Suite Orchestrator
- Le drainage de nœud ne se produit pas pour les nœuds arrêtés
- Pod rke2-coredns-rke2-coredns-autoscaler dans CrashLoopBackOff
- Échec de la suppression du nœud en raison d’une affectation de nom incorrecte de l’opération de mise à l’échelle
- Ajout de problèmes de nœuds d'agent dans les environnements hors ligne
- Problème de jonction de nœud de serveur dans les environnements hors ligne avec registre intégré au cluster
- Échec partiel de la restauration de la sauvegarde dans Automation Suite 2024.10.0
- Impossible d'obtenir l'image du bac à sable
- Les pods ne s'affichent pas dans l'interface utilisateur ArgoCD
- L'accès au nom de domaine complet renvoie une erreur d'accès refusé RBAC
- Échec de la sonde Redis
- Le serveur RKE2 ne démarre pas
- Secret introuvable dans l'espace de noms UiPath
- ArgoCD passe à l'état Progression (Progressing) après la première installation
- Pods bloqués dans Init:0/X
- Métriques Ceph-rook manquantes dans les tableaux de bord de surveillance
- Discordance dans les erreurs signalées lors des vérifications de l'intégrité des diagnostics
- Aucun problème sain en amont
- La diffusion des journaux ne fonctionne pas dans les configurations proxy
- Échec de l'ajout de nœuds d'agent dans les environnements hors ligne
- Le nœud ne répond pas (OOM) lors du téléchargement d'un bundle Document Understanding volumineux
- Les opérations de sauvegarde échouent avec le statut PartiellementÉchec
- Document Understanding n'est pas affiché sur la barre de gauche d'Automation Suite
- État Échec (Failed) lors de la création d'une session de labellisation des données
- État Échec (Failed) lors de la tentative de déploiement d'une compétence ML
- La tâche de migration échoue dans ArgoCD
- La reconnaissance de l'écriture manuscrite avec l'Extracteur de formulaires intelligents (Intelligent Form Extractor) ne fonctionne pas
- Exécution de la haute disponibilité avec Process Mining
- Échec de l’ingestion de Process Mining lors de la connexion à l’aide de Kerberos
- Après Disaster Recovery, Dapr ne fonctionne pas correctement pour Process Mining
- Impossible de se connecter à la base de données AutomationSuite_ProcessMining_Authentication à l'aide d'une chaîne de connexion au format pyodbc
- L'installation d'airflow échoue avec sqlalchemy.exc.ArgumentError: impossible d'analyser l'URL rfc1738 de la chaîne ''
- Comment ajouter une règle de table d'adresse IP pour utiliser le port SQL Server 1433
- Le certificat Automation Suite n'est pas approuvé depuis le serveur sur lequel CData Sync est en cours d'exécution
- Exécution de l'outil de diagnostic
- Utilisation du pack d'assistance Automation Suite
- Explorer les journaux
- Explorer la télémétrie résumée

Guide d'installation d'Automation Suite sur Linux
Alertes relatives aux ressources Kubernetes
k8s.rules, kube-apiserver-availability.rules, kube-apiserver-slos
KubeAPIErrorBudgetBurn
Le serveur d'API Kubernetes consomme trop de budget d'erreur.
kube-state-metrics
KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
Le collecteur Kube State Metrics n’est pas en mesure de collecter les métriques du cluster sans erreur. Cela signifie que les alertes importantes peuvent ne pas se déclencher. Contactez l’assistance UiPath®.
Voir aussi : Kube State Metrics à la publication.
KubernetesMemoryPressure
Cette alerte indique que l'utilisation de la mémoire est très élevée sur le nœud Kubernetes.
Les nœuds Kubernetes avec le type d'incident MemoryPressure se produisent lorsqu'un nœud de cluster Kubernetes dispose d'une mémoire insuffisante, ce qui peut être dû à une fuite de mémoire dans une application. Ce type d'incident nécessite une attention immédiate pour éviter tout temps d'arrêt et assurer le bon fonctionnement du cluster Kubernetes.
Si cette alerte se déclenche, essayez d'identifier le pod sur le nœud qui consomme plus de mémoire, en procédant comme suit :
-
Récupérez les statistiques du processeur et de la mémoire des nœuds :
kubectl top nodekubectl top node -
Récupérez les pods exécutés sur le nœud :
kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME}kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME} -
Vérifiez l'utilisation de la mémoire pour les pods dans un espace de noms en utilisant :
kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>
Si vous êtes en mesure d'identifier n'importe quel pod avec une utilisation élevée de la mémoire, consultez les journaux du pod et recherchez les erreurs de fuite de mémoire.
Pour résoudre ce problème, augmentez si possible les spécifications de mémoire des nœuds.
Si le problème persiste, générez le pack d’assistance et contactez le support UiPath®.
kubernetes-apps
KubePodCrashLooping
Un pod qui redémarre sans cesse de manière inattendue. Cela peut se produire en raison d’une erreur de mémoire insuffisante (OOM), auquel cas les limites peuvent être ajustées. Vérifiez les événements du pod avec kubectl describe et les journaux avec kubectl logs pour voir les détails sur les pannes possibles. Si le problème persiste, contactez le support UiPath®.
KubePodNotReady
Un pod a démarré, mais il ne répond pas avec succès à la sonde de santé. Cela peut signifier qu’il est bloqué et qu’il n’est pas en mesure de desservir le trafic. Vous pouvez vérifier les journaux de pod avec kubectl logs pour voir s’il y a une indication de progression. Si le problème persiste, contactez le support UiPath®.
KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
Une tentative de mise à jour d’un déploiement ou d’un ensemble d’états a eu lieu, mais elle a échoué et aucune restauration n’a encore eu lieu. Contactez l’assistance UiPath®.
KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
Dans les clusters à haute disponibilité avec plusieurs répliques, cette alerte se déclenche lorsque le nombre de répliques n’est pas optimal. Cela peut se produire lorsqu’il n’y a pas suffisamment de ressources dans le cluster à planifier. Vérifiez l’utilisation des ressources et ajoutez de la capacité si nécessaire. Sinon, contactez le support UiPath®.
KubeStatefulSetUpdateNotRolledOut
La mise à jour d’un ensemble d’états a échoué. Contactez l’assistance UiPath®.
Voir aussi : Ensembles d'états.
KubeDaemonSetRolloutStuck
Le déploiement de Daemonset a échoué. Contactez l’assistance UiPath®.
Voir aussi : DaemonSet.
KubeContainerWaiting
Un conteneur est bloqué dans l’état d’attente. Il a été planifié sur un nœud de travail, mais il ne peut pas s’exécuter sur cette machine. Vérifiez le kubectl describe du pod pour plus d’informations. La cause la plus fréquente des conteneurs en attente est l’échec de l’extraction de l’image. Pour les clusters isolés, cela peut signifier que le registre local n’est pas disponible. Si le problème persiste, contactez le support UiPath®.
KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
Cela peut indiquer un problème avec l’un des nœuds. Vérifiez l’intégrité de chaque nœud et corrigez tout problème connu. Sinon, contactez le support UiPath®.
KubeJobCompletion
Une tâche prend plus de 12 heures à s’exécuter. Ceci n’est pas normal. Contactez l’assistance UiPath®.
KubeJobFailed
Une tâche a échoué ; cependant, la plupart des tâches font automatiquement l’objet de nouvelles tentatives. Si le problème persiste, contactez le support UiPath®.
KubeHpaReplicasMismatch
L’autoscaler ne peut pas mettre à l’échelle la ressource ciblée telle qu’elle est configurée. Si la valeur souhaitée est supérieure à la valeur réelle, il y a peut-être un manque de ressources. Si la valeur souhaitée est inférieure à la valeur réelle, les pods peuvent être bloqués lors de l’arrêt. Si le problème persiste, contactez le support UiPath®.
Voir aussi : Horizontal Pod Autoscaling
KubeHpaMaxedOut
Le nombre de répliques d'un service donné a atteint son maximum. Cela se produit lorsque le nombre de requêtes adressées au cluster est très élevé. Si un trafic élevé est prévu et temporaire, vous pouvez désactiver cette alerte. Cependant, cette alerte est un signe que le cluster est à pleine capacité et ne peut pas gérer beaucoup plus de trafic. Si une plus grande capacité de ressources est disponible sur le cluster, vous pouvez augmenter le nombre maximal de répliques du service en suivant ces instructions :
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
Voir aussi : Horizontal Pod Autoscaling.
kubernetes-resources
KubeCPUOvercommit, KubeMemoryOvercommit
Ces avertissements indiquent que le cluster ne peut pas tolérer une panne de nœud. Pour les clusters en mode d'évaluation à nœud unique, cela est courant et ces alertes peuvent être désactivées. Pour les configurations en mode de production multi-nœuds compatible haute disponibilité, ces alertes se déclenchent lorsqu'un trop grand nombre de nœuds deviennent défectueux pour prendre en charge la haute disponibilité, et elles indiquent que les nœuds doivent être rétablis ou remplacés.
KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
Ces alertes concernent les quotas de ressources d'espace de noms qui n'existent dans le cluster que s'ils sont ajoutés via la personnalisation. Les quotas de ressources d'espace de noms ne sont pas ajoutés dans le cadre de l'installation d'Automation Suite.
Voir aussi : Quotas de ressources.
AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
Indique des problèmes avec le plan de contrôle Kubernetes. Vérifiez l’état des nœuds maîtres, résolvez les problèmes en cours et contactez le support UiPath® si les problèmes persistent.
Voir également :
kubernetes-system-kubelet
KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
Ces alertes indiquent un problème avec un nœud. Dans les clusters en mode de production multi-nœuds compatible haute disponibilité, les pods seraient probablement replanifiés sur d'autres nœuds. Si le problème persiste, vous devez supprimer et vider le nœud pour maintenir l'intégrité du cluster. Dans les clusters sans capacité supplémentaire, un autre nœud doit d'abord être joint au cluster.
Si les problèmes persistent, contactez le support UiPath®.
KubeletTooManyPods
Il y a trop de pods en cours d'exécution sur le nœud spécifié.
Joignez un autre nœud au cluster.
kubernetes-system
KubeVersionMismatch
Il existe différentes versions sémantiques des composants Kubernetes en cours d'exécution. Cela peut se produire à la suite d'une mise à niveau infructueuse de Kubernetes.
KubeClientErrors
Le client du serveur d'API Kubernetes rencontre plus de 1 % d'erreurs. Il peut y avoir un problème avec le nœud sur lequel ce client s'exécute ou avec le serveur d'API Kubernetes lui-même.
Alertes etdc
EtcdInsufficientMembers
Cette alerte indique que le cluster etcd a un nombre insuffisant de membres. Notez que le cluster doit avoir un nombre impair de membres. La gravité de cette alerte est critique.
Assurez-vous qu'il y a un nombre impair de nœuds de serveur dans le cluster, et qu'ils sont tous actifs et sains.
EtcdNoLeader
Cette alerte indique que le cluster etcd n'a pas de leader. La gravité de cette alerte est critique.
EtcdHighNumberOfLeaderChanges
Cette alerte indique que le leader etcd change plus de deux fois en 10 minutes. Ceci est un avertissement.
EtcdHighNumberOfFailedGrpcRequests
Cette alerte indique qu'un certain pourcentage d'échecs de requêtes GRPC a été détecté dans etcd.
EtcdGrpcRequestsSlow
Cette alerte indique que les requêtes etcd GRPC sont lentes. Ceci est un avertissement.
Si cette alerte persiste, contactez le support UiPath®.
EtcdHighNumberOfFailedHttpRequests
Cette alerte indique qu'un certain pourcentage d'échecs HTTP a été détecté dans etcd.
EtcdHttpRequestsSlow
Cette alerte indique que les requêtes HTTP ralentissent. Ceci est un avertissement.
EtcdMemberCommunicationSlow
Cette alerte indique que la communication avec les membres etcd ralentit. Ceci est un avertissement.
EtcdHighNumberOfFailedProposals
Cette alerte indique que le serveur etcd a reçu plus de 5 propositions ayant échoué au cours de la dernière heure. Ceci est un avertissement.
EtcdHighFsyncDurations
Cette alerte indique que la durée fsync des WAL etcd augmente. Ceci est un avertissement.
EtcdHighCommitDurations
Cette alerte indique que la durée de validation etcd augmente. Ceci est un avertissement.
kube-api
KubernetesApiServerErrors
Cette alerte indique que le serveur d'API Kubernetes rencontre un taux d'erreur élevé. Ce problème peut entraîner d'autres échecs. Il est donc recommandé d'étudier le problème de manière proactive.
Consultez les journaux du pod api-server pour trouver la cause première du problème à l'aide de la commande kubectl logs <pod-name> -n kube-system .
- k8s.rules, kube-apiserver-availability.rules, kube-apiserver-slos
- KubeAPIErrorBudgetBurn
- kube-state-metrics
- KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
- KubernetesMemoryPressure
- kubernetes-apps
- KubePodCrashLooping
- KubePodNotReady
- KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
- KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
- KubeStatefulSetUpdateNotRolledOut
- KubeDaemonSetRolloutStuck
- KubeContainerWaiting
- KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
- KubeJobCompletion
- KubeJobFailed
- KubeHpaReplicasMismatch
- KubeHpaMaxedOut
- kubernetes-resources
- KubeCPUOvercommit, KubeMemoryOvercommit
- KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
- AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
- kubernetes-system-kubelet
- KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
- KubeletTooManyPods
- kubernetes-system
- KubeVersionMismatch
- KubeClientErrors
- Alertes etdc
- EtcdInsufficientMembers
- EtcdNoLeader
- EtcdHighNumberOfLeaderChanges
- EtcdHighNumberOfFailedGrpcRequests
- EtcdGrpcRequestsSlow
- EtcdHighNumberOfFailedHttpRequests
- EtcdHttpRequestsSlow
- EtcdMemberCommunicationSlow
- EtcdHighNumberOfFailedProposals
- EtcdHighFsyncDurations
- EtcdHighCommitDurations
- kube-api
- KubernetesApiServerErrors