- Vue d'ensemble (Overview)
- Prérequis
- Installation
- Questions et réponses : modèles de déploiement
- Téléchargement des packages d’installation
- install-uipath.sh parameters
- Activation du module complémentaire Redis High Availability Add-on pour le cluster
- Fichier de configuration de Document Understanding
- Ajout d'un nœud d'agent dédié avec prise en charge GPU
- Connexion de l'application Task Mining
- Ajout d'un nœud d'agent dédié pour Task Mining
- Post-installation
- Administration du cluster
- Surveillance et alerte
- Utilisation de la pile de surveillance
- Runbooks d'alerte
- Migration et mise à niveau
- Mode d'évaluation à nœud unique en ligne
- Mode d'évaluation à nœud unique hors ligne
- Mode de production en ligne multi-nœuds compatible haute disponibilité
- Mode de production hors ligne multi-nœuds compatible haute disponibilité
- Migration d'un disque physique Longhorn vers LVM
- Rétrogradation de Ceph de la version 16.2.6 à la version 15.2.9
- Options de migration :
- B) Migration à locataire unique
- Configuration spécifique au produit
- Bonnes pratiques et maintenance
- Résolution des problèmes
- Comment résoudre les problèmes des services lors de l'installation
- Comment désinstaller le cluster
- Comment nettoyer les artefacts hors ligne pour améliorer l'espace disque
- Comment désactiver TLS 1.0 et 1.1
- Comment activer la journalisation Istio
- Comment nettoyer manuellement les journaux
- Comment nettoyer les anciens journaux stockés dans le compartiment sf-logs
- Comment déboguer les installations d'Automation Suite ayant échoué
- Comment désactiver le déchargement de la somme de contrôle txt
- Impossible d'exécuter une installation hors ligne sur le système d'exploitation RHEL 8.4
- Erreur lors du téléchargement du bundle
- L'installation hors ligne échoue en raison d'un fichier binaire manquant
- Problème de certificat dans l'installation hors ligne
- Erreur de validation de la chaîne de connexion SQL
- Échec après la mise à jour du certificat
- Automation Suite requiert que Backlog_wait_time soit défini sur 1
- Impossible de se connecter après la migration
- Définition d'un délai d'expiration pour les portails de gestion
- Mettre à jour les connexions du répertoire sous-jacent
- kinit : Impossible de trouver le KDC pour le domaine <AD Domain> lors de l'obtention des informations d'identification initiales
- Kinit : Keytab ne contient aucune clé appropriée pour *** lors de l'obtention des informations d'identification initiales
- L'opération GSSAPI a échoué en raison de l'erreur suivante : un code d'état non valide a été fourni (les informations d'identification du client ont été révoquées).
- La connexion a échoué pour l'utilisateur <ADDOMAIN><aduser>.Raison : Le compte est désactivé.
- Alarme reçue pour l'échec de la tâche Kerberos-tgt-update
- Fournisseur SSPI : serveur introuvable dans la base de données Kerberos
- Impossible d'obtenir l'image du bac à sable
- Les pods ne s'affichent pas dans l'interface utilisateur ArgoCD
- Échec de la sonde Redis
- Le serveur RKE2 ne démarre pas
- Secret introuvable dans l'espace de noms UiPath
- ArgoCD passe à l'état Progression (Progressing) après la première installation
- INCOHÉRENCE INATTENDUE ; EXÉCUTER fsck MANUELLEMENT
- L’opérateur d’auto-guérison et le référentiel Sf-k8-utils manquants
- MongoDB ou applications métier dégradées après la restauration du cluster
- Services défectueux après la restauration ou la restauration du cluster
- Document Understanding n'est pas affiché sur la barre de gauche d'Automation Suite
- État Échec (Failed) lors de la création d'une session de labellisation des données
- État Échec (Failed) lors de la tentative de déploiement d'une compétence ML
- La tâche de migration échoue dans ArgoCD
- La reconnaissance de l'écriture manuscrite avec l'Extracteur de formulaires intelligents (Intelligent Form Extractor) ne fonctionne pas
- Utilisation de l'outil de diagnostic d'Automation Suite
- Utilisation du pack d'assistance Automation Suite
- Explorer les journaux
Utilisation de la pile de surveillance
La pile de surveillance pour les clusters Automation Suite comprend Prometheus, Grafana et Alertmanager, qui sont intégrés dans l'interface utilisateur de Rancher Cluster Explorer.
Les défaillances de nœud peuvent provoquer un arrêt de Kubernetes, ce qui aura pour effet de perturber les alertes Prometheus. Pour éviter cela, nous vous recommandons de configurer une alerte distincte sur le serveur RKE2.
Cette page décrit une série de scénarios de surveillance. Pour plus de détails, consultez la documentation officielle de Rancher sur l'utilisation de Rancher Monitoring.
Lors de l'utilisation de collecteurs pour exporter des métriques vers des outils tiers, l'activation de la surveillance des applications peut perturber les fonctionnalités d'Automation Suite.
Dans le tableau de bord Surveillance (Monitoring), vérifiez le volet inférieur pour les alertes en cours de déclenchement. Les captures d'écran suivantes montrent plusieurs alertes en cours de déclenchement.
Si les alertes sont trop bruyantes, vous pouvez les désactiver. Pour ce faire, procédez comme suit :
Il est fortement recommandé de configurer un récepteur externe pour les alertes. De cette façon, les alertes seront transmises au fur et à mesure, au lieu de nécessiter une actualisation du tableau de bord de surveillance pour voir les dernières alertes.
Pour plus de détails sur l'envoi d'alertes à un récepteur externe, consultez la documentation Rancher sur la Configuration du récepteur Alertmanager.
En plus d'un récepteur, vous devez configurer au moins une route qui utilisera ce récepteur. Une route définit comment les alertes sont regroupées et quelles alertes sont envoyées au récepteur. Consultez la documentation de Rancher sur la Configuration de route pour Alertmanager.
Voir ci-dessous un exemple de la façon dont les alertes seront affichées lors de l'utilisation du récepteur Slack. En cliquant sur le lien vers AlertManager, vous accédez à la console AlertManager où les alertes peuvent être désactivées et à d'autres liens vers l'expression Prometheus qui a déclenché l'alerte. En cliquant sur l'URL du Runbook, vous serez redirigé vers cette page contenant des instructions de correction spécifiques. Ces liens sont également présents lorsque des alertes sont envoyées à d'autres récepteurs externes.
Dans le tableau de bord Surveillance (Monitoring), cliquez sur la vignette Grafana. Le tableau de bord Grafana est maintenant affiché.
Vous pouvez surveiller Istio Service Mesh via les tableaux de bord Grafana suivants : Istio Mesh et Istio Workload.
Ce tableau de bord affiche le volume global de demandes, ainsi que les taux d'erreur 400 et 500 sur l'ensemble du service mesh, pour la période sélectionnée. Les données sont affichées dans le coin supérieur droit de la fenêtre. Voir les 4 tableaux en haut pour cette information.
Il montre également le taux de réussite (Success Rate) immédiat au cours de la dernière minute pour chaque service individuel. Notez qu'un taux de réussite affichant NaN indique que le service ne dessert pas actuellement le trafic.
Ce tableau de bord affiche les métriques de trafic sur la plage horaire sélectionnée dans le coin supérieur droit de la fenêtre.
Utilisez les sélecteurs en haut du tableau de bord pour explorer des charges de travail spécifiques. L'espace de noms uipath est particulièrement intéressant.
La section supérieure affiche les métriques globales, la section Charges de travail entrantes (Inbound Workloads) sépare le trafic en fonction de l'origine et la section Services sortants (Outbound Services) sépare le trafic en fonction de la destination.
Vous pouvez surveiller les volumes persistants via le tableau de bord Kubernetes / Persistent Volumes. Vous pouvez suivre l'espace libre et utilisé pour chaque volume.
Vous pouvez également vérifier l'état de chaque volume en cliquant sur l'élément PersistentVolumes dans le menu Stockage (Storage) de Cluster Explorer.
Pour vérifier l'utilisation du matériel par nœud, vous pouvez utiliser le tableau de bord des nœuds (Nodes). Les données sur le processeur, la mémoire, le disque et le réseau sont disponibles.
Vous pouvez surveiller l'utilisation du matériel pour des charges de travail spécifiques à l'aide du tableau de bord Kubernetes / Ressources de calcul (Compute Resources) / Espace de noms (charges de travail) (Namespace (Workloads)). Sélectionnez l'espace de noms uipath pour obtenir les données nécessaires.
- Cliquez sur la flèche pointant vers le bas à côté du titre du graphique, puis sélectionnez Partager (Share).
- Cliquez sur l'onglet Instantané (Snapshot) et définissez le Nom de l'instantané (Snapshot name), Expiration (Expire) et Délai d'expiration (Timeout).
- Cliquez sur Publier (Publish) sur snapshot.raintank.io.
Pour plus de détails, consultez la documentation Grafana sur le partage des tableaux de bord.
Pour plus de détails sur la création de tableaux de bord Grafana persistants personnalisés, consultez la documentation Rancher.
L'accès administrateur à Grafana n'est généralement pas nécessaire dans les clusters Automation Suite car les tableaux de bord sont disponibles pour un accès en lecture par défaut aux utilisateurs anonymes, et la création de tableaux de bord persistants personnalisés doit être effectuée à l'aide des instructions exécutables de Kubernetes détaillées ci-dessus dans ce document.
Néanmoins, l'accès administrateur à Grafana est possible avec les instructions ci-dessous.
Le nom d'utilisateur et le mot de passe par défaut pour l'accès administrateur Grafana peuvent être récupérés comme suit :
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
Notez que dans les clusters haute disponibilité Automation Suite, il existe plusieurs pods Grafana afin de permettre un accès en lecture ininterrompu en cas de défaillance du nœud, ainsi qu'un volume plus élevé de requêtes en lecture. Ceci est incompatible avec l'accès administrateur car les pods ne partagent pas l'état de la session et la connexion, elle, l'exige. Afin de contourner ce problème, le nombre de répliques Grafana doit être temporairement réduit à 1. L'accès administrateur est quant à lui préféré. Voir ci-dessous pour obtenir des instructions sur la façon de mettre à l'échelle le nombre de répliques Grafana :
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
La documentation sur les métriques disponibles est ici :
Vous pouvez créer des alertes personnalisées à l'aide d'une requête Prometheus en utilisant une expression booléenne.
Pour voir l'état des pods, des déploiements, des ensembles d'états, etc., vous pouvez utiliser l'interface utilisateur de Cluster Explorer. Il s'agit de la même page d'accueil que celle à laquelle vous pouvez accéder après la connexion au point de terminaison rancher-server. La page d'accueil affiche un résumé, avec des détails spécifiques pour chaque type de ressource sur la gauche. Notez le sélecteur d'espace de noms en haut de la page. Ce tableau de bord peut également être remplacé par l'outil Lentille (Lens).
Prometheus utilise la fonction d'écriture à distance Prometheus pour collecter et exporter les métriques Prometheus vers un système externe.
remote_write
sur un cluster Automation Suite :
- Accéder au tableau de bord de surveillance Rancher
- Vérification des alertes en cours de déclenchement
- Mettre les alertes en silencieux
- Envoi d'alertes à un récepteur externe
- Accéder au tableau de bord Grafana
- Surveillance du service Mesh
- Tableau de bord Istio Mesh
- Tableau de bord Istio Workload
- Surveillance des volumes persistants
- Surveillance de l'utilisation du matériel
- Création d'un instantané visuel partageable d'un graphique Grafana
- Création de tableaux de bord Grafana persistants personnalisés
- Accès administrateur à Grafana
- Envoyer une requête à Prometheus
- Création d'alertes personnalisées
- Surveillance du statut des ressources Kubernetes
- Exportation des métriques Prometheus vers un système externe