- Vue d'ensemble (Overview)
- Prérequis
- Installation
- Questions et réponses : modèles de déploiement
- Configuration des machines
- Configuration du magasin d'objets externe
- Configuration d'un registre Docker externe
- Configurer l'équilibreur de charge
- Configuration du DNS
- Configuration de Microsoft SQL Server
- Configuration des certificats
- Installation de production en ligne multi-nœuds compatible haute disponibilité
- Installation de production hors ligne multi-nœuds compatible haute disponibilité
- Disaster Recovery - Installation du cluster secondaire
- Téléchargement des packages d'installation
- install-uipath.sh parameters
- Activation du module complémentaire Redis High Availability Add-on pour le cluster
- Fichier de configuration de Document Understanding
- Ajout d'un nœud d'agent dédié avec prise en charge GPU
- Ajout d'un nœud d'agent dédié pour Task Mining
- Connexion de l'application Task Mining
- Ajout d'un nœud d'agent dédié pour les Automation Suite Robots
- Post-installation
- Administration du cluster
- Gestion des produits
- Premiers pas avec le portail d'administration du cluster
- Migration d'un magasin d'objets d'un volume persistant vers des disques bruts
- Migration des données entre les librairies
- Migration d'un magasin d'objets intégré au cluster vers un magasin d'objets externe
- Basculer vers le cluster secondaire
- Disaster Recovery : exécution d'opérations post-installation
- Conversion d'une installation existante en configuration multi-sites
- Directives sur la mise à niveau d'un déploiement actif/passif
- Directives pour la sauvegarde et la restauration d'un déploiement actif/passif
- Surveillance et alerte
- Utilisation de la pile de surveillance
- Runbooks d'alerte
- Migration et mise à niveau
- Chemins de mise à niveau Automation Suite
- Automatisée : mise à niveau en ligne
- Automatisée : mise à niveau hors ligne
- Manuel : mise à niveau en ligne
- Manuel : mise à niveau hors ligne
- Annulation en cas d'erreur
- Migration d'un disque physique Longhorn vers LVM
- Migration de Canal vers Cilium CNI
- Rétrogradation de Ceph de la version 16.2.6 à la version 15.2.9
- Options de migration :
- Étape 1 : Déplacement des données d'organisation Identity d'installation autonome vers Automation Suite
- Étape 2 : Restauration de la base de données du produit autonome
- Étape 3 : Sauvegarder la base de données de la plate-forme dans Automation Suite
- Étape 4 : Fusion des organisations dans Automation Suite
- Étape 5 : Mise à jour des chaînes de connexion du produit migré
- Étape 6 : migration de la version autonome d’Insights
- Étape 7 : suppression du locataire par défaut
- B) Migration à locataire unique
- Configuration spécifique au produit
- Rotation des informations d’identification de stockage d’objets blob
- Désactivation de l'utilisation d'URL pré-signées lors du téléchargement de données vers le stockage Amazon S3
- Configuration de la sécurité de l'application de processus
- Configurer une authentification Kerberos avec l’authentification MSSQL de base pour Process Mining
- Bonnes pratiques et maintenance
- Résolution des problèmes
- Comment résoudre les problèmes des services lors de l'installation
- Comment désinstaller le cluster
- Comment nettoyer les artefacts hors ligne pour améliorer l'espace disque
- Comment effacer les données Redis
- Comment activer la journalisation Istio
- Comment nettoyer manuellement les journaux
- Comment nettoyer les anciens journaux stockés dans le bundle sf-logs
- Comment désactiver les journaux de diffusion pour AI Center
- Comment déboguer les installations d'Automation Suite ayant échoué
- Comment supprimer des images de l’ancien programme d’installation après la mise à niveau
- Comment nettoyer automatiquement les instantanés Longhorn
- Comment désactiver le déchargement de la somme de contrôle txt
- Comment définir manuellement le niveau de journalisation d’ArgoCD sur Info
- Comment générer la valeur pull_secret_value encodée pour les registres externes
- Comment résoudre les chiffrements faibles dans TLS 1.2
- Impossible d'exécuter une installation hors ligne sur le système d'exploitation RHEL 8.4
- Erreur lors du téléchargement du bundle
- L'installation hors ligne échoue en raison d'un fichier binaire manquant
- Problème de certificat dans l'installation hors ligne
- La première installation échoue lors de la configuration de Longhorn
- Erreur de validation de la chaîne de connexion SQL
- Échec de la vérification des prérequis pour le module selinux iscsid
- Disque Azure non marqué comme SSD
- Échec après la mise à jour du certificat
- L'antivirus provoque des problèmes d'installation
- Automation Suite ne fonctionne pas après la mise à niveau du système d'exploitation
- Automation Suite requiert que backlog_wait_time soit défini sur 0
- Nœud GPU affecté par l'indisponibilité des ressources
- Volume impossible à monter car il n'est pas prêt pour les charges de travail
- Échec de la mise à niveau du nœud unique à l’étape Fabric
- Cluster défectueux après la mise à niveau automatisée à partir de la version 2021.10
- Échec de la mise à niveau en raison d’un Ceph défectueux
- RKE2 ne démarre pas en raison d'un problème d'espace
- Échec de la validation SQL lors de la mise à niveau
- Échec du chargement ou du téléchargement des données dans l'objectstore
- Le redimensionnement de la PVC ne répare pas Ceph
- Échec du redimensionnement du PVC
- Échec du redimensionnement du PVC objectstore
- Rook Ceph ou pod Looker bloqué dans l'état Init
- Erreur de pièce jointe du volume Ensembles d'états.
- Échec de la création de volumes persistants
- Correctif de récupération du stockage
- La sauvegarde a échoué en raison de l’erreur TropInstantanés (TooManySnapshots)
- Toutes les répliques Longhorn sont défaillantes
- Définition d'un délai d'expiration pour les portails de gestion
- Mettre à jour les connexions du répertoire sous-jacent
- L'authentification ne fonctionne pas après la migration
- kinit : Impossible de trouver le KDC pour le domaine <AD Domain> lors de l'obtention des informations d'identification initiales
- Kinit : Keytab ne contient aucune clé appropriée pour *** lors de l'obtention des informations d'identification initiales
- L'opération GSSAPI a échoué en raison d'un code de statut non valide
- Alarme reçue pour l'échec de la tâche Kerberos-tgt-update
- Fournisseur SSPI : serveur introuvable dans la base de données Kerberos
- La connexion a échoué pour l'utilisateur AD en raison d'un compte désactivé
- Échec de connexion à ArgoCD
- Impossible d'obtenir l'image du bac à sable
- Les pods ne s'affichent pas dans l'interface utilisateur ArgoCD
- Échec de la sonde Redis
- Le serveur RKE2 ne démarre pas
- Secret introuvable dans l'espace de noms UiPath
- ArgoCD passe à l'état Progression (Progressing) après la première installation
- Problèmes d'accès au compte ArgoCD en lecture seule
- Pods MongoDB en mode CrashLoopBackOff ou enregistrement PVC en attente après suppression
- Services défectueux après la restauration ou l'annulation du cluster
- Pods bloqués dans Init:0/X
- Prometheus en état CrashloopBackoff avec erreur de mémoire insuffisante (OOM)
- Métriques Ceph-rook manquantes dans les tableaux de bord de surveillance
- Document Understanding n'est pas affiché sur la barre de gauche d'Automation Suite
- État Échec (Failed) lors de la création d'une session de labellisation des données
- État Échec (Failed) lors de la tentative de déploiement d'une compétence ML
- La tâche de migration échoue dans ArgoCD
- La reconnaissance de l'écriture manuscrite avec l'Extracteur de formulaires intelligents (Intelligent Form Extractor) ne fonctionne pas
- Exécution de la haute disponibilité avec Process Mining
- Échec de l’ingestion de Process Mining lors de la connexion à l’aide de Kerberos
- Impossible de se connecter à la base de données AutomationSuite_ProcessMining_Authentication à l'aide d'une chaîne de connexion au format pyodbc
- L'installation d'airflow échoue avec sqlalchemy.exc.ArgumentError: impossible d'analyser l'URL rfc1738 de la chaîne ''
- Comment ajouter une règle de table d'adresse IP pour utiliser le port SQL Server 1433
- Utilisation de l'outil de diagnostic d'Automation Suite
- Utilisation de l'outil Automation Suite Support Bundle
- Explorer les journaux
Utilisation de la pile de surveillance
La pile de surveillance pour les clusters Automation Suite comprend Prometheus, Grafana et Alertmanager, qui sont intégrés dans l'interface utilisateur de Rancher Cluster Explorer.
Les défaillances de nœud peuvent provoquer un arrêt de Kubernetes, ce qui aura pour effet de perturber les alertes Prometheus. Pour éviter cela, nous vous recommandons de configurer une alerte distincte sur le serveur RKE2.
Cette page décrit une série de scénarios de surveillance. Pour plus de détails, consultez la documentation officielle de Rancher sur l'utilisation de Rancher Monitoring.
Lors de l'utilisation de collecteurs pour exporter des métriques vers des outils tiers, l'activation de la surveillance des applications peut perturber les fonctionnalités d'Automation Suite.
La pile de surveillance pour les clusters Automation Suite comprend Prometheus, Grafana, Alert Manager et Longhorn Dashboard.
Cette page décrit une série de scénarios de surveillance.
Pour plus de détails, consultez la documentation officielle de Rancher sur l'utilisation de Rancher Monitoring .
Vous pouvez accéder aux outils de surveillance Automation Suite individuellement à l'aide des URL suivantes :
Application |
Outil |
URL |
Exemple |
---|---|---|---|
Métriques |
Prometheus |
|
|
Tableau de bord |
Grafana |
|
|
Gestion des alertes |
Alertmanager |
|
|
Stockage de blocs persistant |
Tableau de bord Longhorn |
|
|
Pour accéder aux outils de surveillance pour la première fois, connectez-vous en tant qu'administrateur avec les informations d'identification par défaut suivantes :
- Nom d’utilisateur : admin
- Mot de passe : pour récupérer le mot de passe, exécutez la commande suivante :
kubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -d
kubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -d
Pour mettre à jour le mot de passe par défaut utilisé pour accéder aux outils de surveillance, procédez comme suit :
-
Exécutez la commande suivante en remplaçant
newpassword
par votre nouveau mot de passe :password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]"
password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]" -
Exécutez la commande suivante en remplaçant
<cluster_config.json>
par le chemin d'accès à votre fichier de configuration :/opt/UiPathAutomationSuite/UiPath_Installer/install-uipath.sh -i <cluster_config.json> -f -o output.json --accept-license-agreement
/opt/UiPathAutomationSuite/UiPath_Installer/install-uipath.sh -i <cluster_config.json> -f -o output.json --accept-license-agreement
https://monitoring.fqdn/metrics
et cliquez sur l'onglet Alertes (Alerts). Ici, vous pouvez voir toutes les alertes configurées dans Automation Suite.
Pour afficher les alertes actives, filtrez le statut de l'alerte en cochant la case Déclenchement (Firing) et la case Afficher les annotations (Show annotations) en haut. Ici, vous pouvez voir toutes les alertes qui se déclenchent actuellement et leurs messages correspondants.
Si les alertes sont trop bruyantes, vous pouvez les désactiver. Pour ce faire, procédez comme suit :
uipathctl
dans le dossier d’installation d’Automation Suite : .../UiPathAutomationSuite/UiPath_Installer/bin
.
Pour ajouter une nouvelle configuration de messagerie après une installation, exécutez la commande suivante :
./uipathctl config alerts add-email \
--name test \
--to "admin@example.com" \
--from "admin@example.com" \
--smtp server.mycompany.com \
--username admin \
--password somesecret \
--require-tls \
--ca-file <path_to_ca_file> \
--cert-file <path_to_cert_file> \
--key-file <path_to_key_file> \
--send-resolved
./uipathctl config alerts add-email \
--name test \
--to "admin@example.com" \
--from "admin@example.com" \
--smtp server.mycompany.com \
--username admin \
--password somesecret \
--require-tls \
--ca-file <path_to_ca_file> \
--cert-file <path_to_cert_file> \
--key-file <path_to_key_file> \
--send-resolved
Drapeau |
Description |
Exemple |
---|---|---|
|
Le nom de la configuration de l'e-mail |
|
|
L'adresse e-mail du destinataire |
|
|
L'adresse e-mail de l'expéditeur |
|
|
URL du serveur SMTP ou adresse IP et numéro de port |
|
|
Nom d'utilisateur d'authentification |
|
|
Mot de passe d'authentification |
|
|
Indicateur booléen indiquant que TLS est activé au niveau du serveur SMTP. |
S/O |
|
Chemin du fichier contenant le certificat CA du serveur SMTP. Ceci est facultatif si l'autorité de certification est privée. |
|
|
Chemin du fichier contenant le certificat du serveur SMTP. Ceci est facultatif si le certificat est privé. |
|
|
Chemin du fichier contenant la clé privée du certificat du serveur SMTP. Ceci est requis si le certificat est privé. |
|
|
Indicateur booléen permettant d'envoyer un e-mail une fois l'alerte résolue. |
S/O |
Pour supprimer une configuration d'e-mail, vous devez exécuter la commande suivante. Assurez-vous de saisir le nom de la configuration de l'e-mail que vous souhaitez supprimer.
./uipathctl config alerts remove-email --name test
./uipathctl config alerts remove-email --name test
Pour mettre à jour une configuration d'e-mail, vous devez exécuter la commande suivante. Assurez-vous de transmettre le nom de la configuration d'e-mail que vous souhaitez mettre à jour et les paramètres facultatifs supplémentaires que vous souhaitez modifier. Ces paramètres sont les mêmes que ceux permettant d'ajouter une nouvelle configuration d'e-mail. Vous pouvez transmettre un ou plusieurs indicateurs en même temps.
./uipathctl config alerts update-email --name test [additional_flags]
./uipathctl config alerts update-email --name test [additional_flags]
Pour accéder aux tableaux de bord Grafana, vous devez récupérer vos identifiants et les utiliser pour vous connecter :
-
Nom d’utilisateur :
kubectl -n cattle-monitoring-system get secrets/rancher-monitoring-grafana -o "jsonpath={.data.admin-user}" | base64 -d; echo
kubectl -n cattle-monitoring-system get secrets/rancher-monitoring-grafana -o "jsonpath={.data.admin-user}" | base64 -d; echo -
Mot de passe :
kubectl -n cattle-monitoring-system get secrets/rancher-monitoring-grafana -o "jsonpath={.data.admin-password}" | base64 -d; echo
kubectl -n cattle-monitoring-system get secrets/rancher-monitoring-grafana -o "jsonpath={.data.admin-password}" | base64 -d; echo
Vous pouvez surveiller Istio Service Mesh via les tableaux de bord Grafana suivants : Istio Mesh et Istio Workload.
Ce tableau de bord affiche le volume global de demandes, ainsi que les taux d'erreur 400 et 500 sur l'ensemble du service mesh, pour la période sélectionnée. Les données sont affichées dans le coin supérieur droit de la fenêtre. Voir les 4 tableaux en haut pour cette information.
Il montre également le taux de réussite (Success Rate) immédiat au cours de la dernière minute pour chaque service individuel. Notez qu'un taux de réussite affichant NaN indique que le service ne dessert pas actuellement le trafic.
Ce tableau de bord affiche les métriques de trafic sur la plage horaire sélectionnée dans le coin supérieur droit de la fenêtre.
Utilisez les sélecteurs en haut du tableau de bord pour explorer des charges de travail spécifiques. L'espace de noms uipath est particulièrement intéressant.
La section supérieure affiche les métriques globales, la section Charges de travail entrantes (Inbound Workloads) sépare le trafic en fonction de l'origine et la section Services sortants (Outbound Services) sépare le trafic en fonction de la destination.
Vous pouvez surveiller les volumes persistants via le tableau de bord Kubernetes / Persistent Volumes. Vous pouvez suivre l'espace libre et utilisé pour chaque volume.
Vous pouvez également vérifier l'état de chaque volume en cliquant sur l'élément PersistentVolumes dans le menu Stockage (Storage) de Cluster Explorer.
Pour vérifier l'utilisation du matériel par nœud, vous pouvez utiliser le tableau de bord des nœuds (Nodes). Les données sur le processeur, la mémoire, le disque et le réseau sont disponibles.
Vous pouvez surveiller l'utilisation du matériel pour des charges de travail spécifiques à l'aide du tableau de bord Kubernetes / Ressources de calcul (Compute Resources) / Espace de noms (charges de travail) (Namespace (Workloads)). Sélectionnez l'espace de noms uipath pour obtenir les données nécessaires.
- Cliquez sur la flèche pointant vers le bas à côté du titre du graphique, puis sélectionnez Partager (Share).
- Cliquez sur l'onglet Instantané (Snapshot) et définissez le Nom de l'instantané (Snapshot name), Expiration (Expire) et Délai d'expiration (Timeout).
- Cliquez sur Publier (Publish) sur snapshot.raintank.io.
Pour plus de détails, consultez la documentation Grafana sur le partage des tableaux de bord.
Pour plus de détails sur la création de tableaux de bord Grafana persistants personnalisés, consultez la documentation Rancher.
L'accès administrateur à Grafana n'est généralement pas nécessaire dans les clusters Automation Suite car les tableaux de bord sont disponibles pour un accès en lecture par défaut aux utilisateurs anonymes, et la création de tableaux de bord persistants personnalisés doit être effectuée à l'aide des instructions exécutables de Kubernetes détaillées ci-dessus dans ce document.
Néanmoins, l'accès administrateur à Grafana est possible avec les instructions ci-dessous.
Le nom d'utilisateur et le mot de passe par défaut pour l'accès administrateur Grafana peuvent être récupérés comme suit :
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
Notez que dans les clusters haute disponibilité Automation Suite, il existe plusieurs pods Grafana afin de permettre un accès en lecture ininterrompu en cas de défaillance du nœud, ainsi qu'un volume plus élevé de requêtes en lecture. Ceci est incompatible avec l'accès administrateur car les pods ne partagent pas l'état de la session et la connexion, elle, l'exige. Afin de contourner ce problème, le nombre de répliques Grafana doit être temporairement réduit à 1. L'accès administrateur est quant à lui préféré. Voir ci-dessous pour obtenir des instructions sur la façon de mettre à l'échelle le nombre de répliques Grafana :
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
La documentation sur les métriques disponibles est ici :
Vous pouvez créer des alertes personnalisées à l'aide d'une requête Prometheus en utilisant une expression booléenne.
- Pour ce faire, cliquez sur Règles Prometheus (Prometheus Rules) dans le menu Avancé (Advanced) du Tableau de bord de surveillance (Monitoring Dashboard).
- Cliquez sur Créer (Create) dans le coin supérieur droit de la fenêtre pour créer une nouvelle alerte et suivez la documentation Rancher : PrometheusRules
- Lorsque l'alerte se déclenchera, elle devrait s'afficher sur le tableau de bord de surveillance. Elle sera également acheminée vers l'un des récepteurs configurés.
Pour voir l'état des pods, des déploiements, des ensembles d'états, etc., vous pouvez utiliser l'interface utilisateur de Cluster Explorer. Il s'agit de la même page d'accueil que celle à laquelle vous pouvez accéder après la connexion au point de terminaison rancher-server. La page d'accueil affiche un résumé, avec des détails spécifiques pour chaque type de ressource sur la gauche. Notez le sélecteur d'espace de noms en haut de la page. Ce tableau de bord peut également être remplacé par l'outil Lentille (Lens).
Prometheus utilise la fonction d'écriture à distance Prometheus pour collecter et exporter les métriques Prometheus vers un système externe.
remote_write
sur un cluster Automation Suite :
- Accès aux outils de surveillance
- Vue d'ensemble (Overview)
- Authentification
- Vérification des alertes en cours de déclenchement
- Mettre les alertes en silencieux
- Configuration des alertes
- Ajout d'une nouvelle configuration d'e-mail
- Suppression d'une configuration d'e-mail
- Mise à jour d'une configuration d'e-mail
- Accéder au tableau de bord Grafana
- Surveillance du service Mesh
- Tableau de bord Istio Mesh
- Tableau de bord Istio Workload
- Surveillance des volumes persistants
- Surveillance de l'utilisation du matériel
- Création d'un instantané visuel partageable d'un graphique Grafana
- Création de tableaux de bord Grafana persistants personnalisés
- Accès administrateur à Grafana
- Envoyer une requête à Prometheus
- Création d'alertes personnalisées
- Surveillance du statut des ressources Kubernetes
- Exportation des métriques Prometheus vers un système externe