- Vue d'ensemble (Overview)
- Prérequis
- Installation
- Questions et réponses : modèles de déploiement
- Configuration des machines
- Configuration du magasin d'objets externe
- Configurer l'équilibreur de charge
- Configuration du DNS
- Configuration de Microsoft SQL Server
- Configuration des certificats
- Installation de production en ligne multi-nœuds compatible haute disponibilité
- Installation de production hors ligne multi-nœuds compatible haute disponibilité
- Téléchargement des packages d'installation
- install-uipath.sh parameters
- Activation du module complémentaire Redis High Availability Add-on pour le cluster
- Fichier de configuration de Document Understanding
- Ajout d'un nœud d'agent dédié avec prise en charge GPU
- Connexion de l'application Task Mining
- Ajout d'un nœud d'agent dédié pour Task Mining
- Ajout d'un nœud d'agent dédié pour les Automation Suite Robots
- Post-installation
- Administration du cluster
- Surveillance et alerte
- Migration et mise à niveau
- Chemins de mise à niveau Automation Suite
- Automatisée : mise à niveau en ligne
- Automatisée : mise à niveau hors ligne
- Manuel : mise à niveau en ligne
- Manuel : mise à niveau hors ligne
- Annulation en cas d'erreur
- Migration d'un disque physique Longhorn vers LVM
- Migration de Canal vers Cilium CNI
- Rétrogradation de Ceph de la version 16.2.6 à la version 15.2.9
- Options de migration :
- Étape 1 : Déplacement des données d'organisation Identity d'installation autonome vers Automation Suite
- Étape 2 : Restauration de la base de données du produit autonome
- Étape 3 : Sauvegarder la base de données de la plate-forme dans Automation Suite
- Étape 4 : Fusion des organisations dans Automation Suite
- Étape 5 : Mise à jour des chaînes de connexion du produit migré
- Étape 6 : migration de la version autonome d’Insights
- Étape 7 : suppression du locataire par défaut
- B) Migration à locataire unique
- Configuration spécifique au produit
- Bonnes pratiques et maintenance
- Résolution des problèmes
- Comment résoudre les problèmes des services lors de l'installation
- Comment désinstaller le cluster
- Comment nettoyer les artefacts hors ligne pour améliorer l'espace disque
- Comment effacer les données Redis
- Comment activer la journalisation Istio
- Comment nettoyer manuellement les journaux
- Comment nettoyer les anciens journaux stockés dans le compartiment sf-logs
- Comment désactiver les journaux de diffusion pour AI Center
- Comment déboguer les installations d'Automation Suite ayant échoué
- Comment supprimer des images de l’ancien programme d’installation après la mise à niveau
- Comment nettoyer automatiquement les instantanés Longhorn
- Comment désactiver le déchargement de la somme de contrôle txt
- Comment résoudre les chiffrements faibles dans TLS 1.2
- Impossible d'exécuter une installation hors ligne sur le système d'exploitation RHEL 8.4
- Erreur lors du téléchargement du bundle
- L'installation hors ligne échoue en raison d'un fichier binaire manquant
- Problème de certificat dans l'installation hors ligne
- La première installation échoue lors de la configuration de Longhorn
- Erreur de validation de la chaîne de connexion SQL
- Échec de la vérification des prérequis pour le module selinux iscsid
- Disque Azure non marqué comme SSD
- Échec après la mise à jour du certificat
- L'antivirus provoque des problèmes d'installation
- Automation Suite ne fonctionne pas après la mise à niveau du système d'exploitation
- Automation Suite requiert que backlog_wait_time soit défini sur 0
- Volume impossible à monter car il n'est pas prêt pour les charges de travail
- Impossible de lancer Automation Hub et Apps avec la configuration proxy
- Échec du chargement ou du téléchargement des données dans l'objectstore
- Le redimensionnement de la PVC ne répare pas Ceph
- Échec du redimensionnement du PVC
- Échec du redimensionnement du PVC objectstore
- Rook Ceph ou pod Looker bloqué dans l'état Init
- Erreur de pièce jointe du volume Ensembles d'états.
- Échec de la création de volumes persistants
- Correctif de récupération du stockage
- La sauvegarde a échoué en raison de l’erreur TropInstantanés (TooManySnapshots)
- Toutes les répliques Longhorn sont défaillantes
- Définition d'un délai d'expiration pour les portails de gestion
- Mettre à jour les connexions du répertoire sous-jacent
- L'authentification ne fonctionne pas après la migration
- kinit : Impossible de trouver le KDC pour le domaine <AD Domain> lors de l'obtention des informations d'identification initiales
- Kinit : Keytab ne contient aucune clé appropriée pour *** lors de l'obtention des informations d'identification initiales
- L'opération GSSAPI a échoué en raison d'un code de statut non valide
- Alarme reçue pour l'échec de la tâche Kerberos-tgt-update
- Fournisseur SSPI : serveur introuvable dans la base de données Kerberos
- La connexion a échoué pour l'utilisateur AD en raison d'un compte désactivé
- Échec de connexion à ArgoCD
- Impossible d'obtenir l'image du bac à sable
- Les pods ne s'affichent pas dans l'interface utilisateur ArgoCD
- Échec de la sonde Redis
- Le serveur RKE2 ne démarre pas
- Secret introuvable dans l'espace de noms UiPath
- ArgoCD passe à l'état Progression (Progressing) après la première installation
- Incohérence inattendue ; exécuter fsck manuellement
- Pods MongoDB en mode CrashLoopBackOff ou enregistrement PVC en attente après suppression
- Le pod MongoDB ne parvient pas à mettre à niveau la version 4.4.4-ent vers la version 5.0.7-ent
- Services défectueux après la restauration ou l'annulation du cluster
- Pods bloqués dans Init:0/X
- Prometheus en état CrashloopBackoff avec erreur de mémoire insuffisante (OOM)
- Métriques Ceph-rook manquantes dans les tableaux de bord de surveillance
- Les pods ne peuvent pas communiquer avec le nom de domaine complet dans un environnement proxy
- Document Understanding n'est pas affiché sur la barre de gauche d'Automation Suite
- État Échec (Failed) lors de la création d'une session de labellisation des données
- État Échec (Failed) lors de la tentative de déploiement d'une compétence ML
- La tâche de migration échoue dans ArgoCD
- La reconnaissance de l'écriture manuscrite avec l'Extracteur de formulaires intelligents (Intelligent Form Extractor) ne fonctionne pas
- Utilisation de l'outil de diagnostic d'Automation Suite
- Utilisation du pack d'assistance Automation Suite
- Explorer les journaux
Guide d'installation d'Automation Suite
Utilisation de l'outil de diagnostic d'Automation Suite
L'outil de diagnostic Automation Suite est la première chose à utiliser lorsque vous rencontrez des problèmes avec Automation Suite. Il vérifie la santé des différents composants requis et fournit un rapport consolidé.
Vous pouvez obtenir l'outil de diagnostic Automation Suite des manières suivantes :
- En décompressant le package d'installation sf-installer.zip.
- En téléchargeant le package supportability-tools.zip
Avant d'exécuter l'outil de diagnostic Automation Suite, accédez au dossier du programme d'installation. Le programme d'installation se trouve à l'emplacement suivant ou là où vous l'avez téléchargé :
cd /opt/UiPathAutomationSuite/{version}/installer
cd /opt/UiPathAutomationSuite/{version}/installer
Pour commencer à utiliser Automation Suite Diagnostics Tool, exécutez la commande suivante :
./Support-Tools/diagnostics-tool/diagnostics-report.sh
./Support-Tools/diagnostics-tool/diagnostics-report.sh
La table suivante répertorie les vérifications effectuées par l'outil de diagnostic Automation Suite. Notez que vous pouvez exécuter le script sur n'importe quel nœud du cluster ainsi qu'en externe.
Nœud |
Vérifications |
---|---|
Nœud maître |
|
Nœud d'agent |
|
Machine externe |
Remarque : Pour exécuter le script à partir d'une machine externe, définissez d'abord le contexte
kubeconfig approprié sur le cluster, puis transmettez l'indicateur -e au script bash diagnostics-report.sh -e .
|
Exemple de rapport généré par l'outil de diagnostic Automation Suite.
Les journaux INFO affichés en vert indiquent que les vérifications requises ont réussi. Cependant, vous devez toujours vérifier correctement l'utilisation du disque/de la mémoire pour éviter les erreurs cachées.
Même si ces messages ne signalent pas un risque élevé, vous devrez peut-être les rectifier, car ils peuvent affecter certains services dans certains scénarios.
Vous devez résoudre les problèmes décrits par ces messages car ils affectent certains services du cluster.
Si ces services sont en panne, cela signifie que le nœud est en panne. Essayez de redémarrer le service à l'aide de systemctl restart <service-name> car cela devrait résoudre le problème.
/var/lib
car Kubernetes l'utilise pour stocker ses données. Si le répertoire est plein, divers problèmes peuvent survenir. Pour éviter ces problèmes, assurez-vous d'augmenter sa taille.
Pour tous les nœuds, nous spécifions s'ils sont sous pression du disque ou sous pression de la mémoire. Si cela se produit, les charges de travail sur ces nœuds peuvent commencer à présenter des problèmes. Vérifiez s'il existe d'autres processus en cours d'exécution sur ces nœuds qui consomment des ressources et supprimez-les si tel est le cas.
Nous utilisons Ceph comme stockage d'objets S3 pour stocker les journaux et les fichiers de différentes applications. Vous pouvez voir l'état de ses services. S'ils sont en panne, vous devrez peut-être les redémarrer. Assurez-vous également de vérifier si l'utilisation du disque par Ceph est pleine.
443
et 31443
doivent être ouverts avec le nom d'hôte fourni. Le rapport indique s'ils ne sont pas accessibles. Assurez-vous d'ouvrir les ports appropriés si cela se produit.
L'outil vérifie si le certificat téléchargé est valide pour le nom d'hôte donné et s'il n'a pas expiré. Si le certificat ne répond pas à ces critères, des erreurs se produisent. Pour éviter cela, assurez-vous de vérifier votre certificat téléchargé et modifiez-le si nécessaire.
Étant donné que certains services nécessitent la présence d'un GPU sur certains nœuds du cluster, l'outil de diagnostic vérifie s'il existe des nœuds GPU et imprime le nombre de ces nœuds. Si vous vous attendez à ce que des nœuds GPU soient présents et qu'ils ne s'affichent pas ici, cela signifie que quelque chose s'est mal passé durant la configuration du GPU.
MongoDB est un composant important utilisé par le service UiPath Apps. Si MongoDB ou son instance principale est en panne, vous devez enquêter sur le problème à l'aide du bundle de support.
RabbitMQ et DockerRegistry sont deux composants importants utilisés par certains services. Si l'un d'entre eux est en panne, vous devez enquêter sur le problème et redémarrer.
ArgoCD est notre outil de gestion du cycle de vie des applications (ALM). Si l'un de ses services est en panne, d'autres applications peuvent devenir obsolètes ou rencontrer d'autres problèmes. La récupération de ces services est importante et peut nécessiter un débogage supplémentaire.
L'outil de diagnostic d'Automation Suite indique si des applications ArgoCD sont manquantes ou dégradées.
- Si des applications sont manquantes, accédez à l'interface utilisateur ArgoCD et synchronisez-les.
- Si les applications sont dégradées, un débogage supplémentaire est nécessaire pour enquêter sur les erreurs générées par ArgoCD
- Vue d'ensemble (Overview)
- Lecture des rapports de diagnostic
- Journaux INFO
- Messages d'AVERTISSEMENT
- Messages d'erreur
- Rke2-server ou Rke2-agent Service arrêté
- Taille du répertoire monté sur /var/lib
- Version Rke2
- Pression du disque ou pression de la mémoire
- État des services Ceph
- Ports 443 et 31443
- Validité du certificat
- GPU
- MongoDB
- RabbitMQ et DockerRegistry
- Les services ArgoCD ne fonctionnent plus
- Applications ArgoCD manquantes ou dégradées