Utilisation de l'outil de diagnostic d'Automation Suite

Vue d'ensemble (Overview)

L'outil de diagnostic Automation Suite est la première chose à utiliser lorsque vous rencontrez des problèmes avec Automation Suite. Il vérifie la santé des différents composants requis et fournit un rapport consolidé.

Remarque :

Vous pouvez obtenir l'outil de diagnostic Automation Suite des manières suivantes :

En décompressant le package d'installation sf-installer.zip.
En téléchargeant le package supportability-tools.zip

Avant d'exécuter l'outil de diagnostic Automation Suite, accédez au dossier du programme d'installation. Le programme d'installation se trouve à l'emplacement suivant ou là où vous l'avez téléchargé :

cd /opt/UiPathAutomationSuite/{version}/installercd /opt/UiPathAutomationSuite/{version}/installer

Pour commencer à utiliser Automation Suite Diagnostics Tool, exécutez la commande suivante :

./Support-Tools/diagnostics-tool/diagnostics-report.sh./Support-Tools/diagnostics-tool/diagnostics-report.sh

La table suivante répertorie les vérifications effectuées par l'outil de diagnostic Automation Suite. Notez que vous pouvez exécuter le script sur n'importe quel nœud du cluster ainsi qu'en externe.

Nœud	Vérifications
Nœud maître	Vérifie si les services requis sont en cours d'exécution ; Teste si les tailles de disque sont correctement configurées ; Exécute une tâche Kubernetes qui collecte des données sur la santé d'autres services ;
Nœud d'agent	Vérifie si les services requis sont en cours d'exécution sur le nœud Teste si les tailles de disque sont correctement configurées ;
Machine externe	Exécute une tâche Kubernetes pour collecter des données sur la santé des services. Remarque : Pour exécuter le script à partir d'une machine externe, définissez d'abord le contexte `kubeconfig` approprié sur le cluster, puis transmettez l'indicateur `-e` au script `bash diagnostics-report.sh -e`.

Exemple de rapport généré par l'outil de diagnostic Automation Suite.

Lecture des rapports de diagnostic

Journaux INFO

Les journaux INFO affichés en vert indiquent que les vérifications requises ont réussi. Cependant, vous devez toujours vérifier correctement l'utilisation du disque/de la mémoire pour éviter les erreurs cachées.

Messages d'AVERTISSEMENT

Même si ces messages ne signalent pas un risque élevé, vous devrez peut-être les rectifier, car ils peuvent affecter certains services dans certains scénarios.

Messages d'erreur

Vous devez résoudre les problèmes décrits par ces messages car ils affectent certains services du cluster.

Rke2-server ou Rke2-agent Service arrêté

Si ces services sont en panne, cela signifie que le nœud est en panne. Essayez de redémarrer le service à l'aide de systemctl restart <service-name> car cela devrait résoudre le problème.

Taille du répertoire monté sur /var/lib

Le rapport affiche la taille du répertoire monté sur /var/lib car Kubernetes l'utilise pour stocker ses données. Si le répertoire est plein, divers problèmes peuvent survenir. Pour éviter ces problèmes, assurez-vous d'augmenter sa taille.

Version Rke2

Le rapport affiche la version rke2 comme référence.

Pression du disque ou pression de la mémoire

Pour tous les nœuds, nous spécifions s'ils sont sous pression du disque ou sous pression de la mémoire. Si cela se produit, les charges de travail sur ces nœuds peuvent commencer à présenter des problèmes. Vérifiez s'il existe d'autres processus en cours d'exécution sur ces nœuds qui consomment des ressources et supprimez-les si tel est le cas.

État des services Ceph

Nous utilisons Ceph comme stockage d'objets S3 pour stocker les journaux et les fichiers de différentes applications. Vous pouvez voir l'état de ses services. S'ils sont en panne, vous devrez peut-être les redémarrer. Assurez-vous également de vérifier si l'utilisation du disque par Ceph est pleine.

Ports 443 et 31443

Les ports 443 et 31443 doivent être ouverts avec le nom d'hôte fourni. Le rapport indique s'ils ne sont pas accessibles. Assurez-vous d'ouvrir les ports appropriés si cela se produit.

Validité du certificat

L'outil vérifie si le certificat téléchargé est valide pour le nom d'hôte donné et s'il n'a pas expiré. Si le certificat ne répond pas à ces critères, des erreurs se produisent. Pour éviter cela, assurez-vous de vérifier votre certificat téléchargé et modifiez-le si nécessaire.

GPU

Étant donné que certains services nécessitent la présence d'un GPU sur certains nœuds du cluster, l'outil de diagnostic vérifie s'il existe des nœuds GPU et imprime le nombre de ces nœuds. Si vous vous attendez à ce que des nœuds GPU soient présents et qu'ils ne s'affichent pas ici, cela signifie que quelque chose s'est mal passé durant la configuration du GPU.

MongoDB

MongoDB est un composant important utilisé par le service UiPath Apps. Si MongoDB ou son instance principale est en panne, vous devez enquêter sur le problème à l'aide du bundle de support.

RabbitMQ et DockerRegistry

RabbitMQ et DockerRegistry sont deux composants importants utilisés par certains services. Si l'un d'entre eux est en panne, vous devez enquêter sur le problème et redémarrer.

Les services ArgoCD ne fonctionnent plus

ArgoCD est notre outil de gestion du cycle de vie des applications (ALM). Si l'un de ses services est en panne, d'autres applications peuvent devenir obsolètes ou rencontrer d'autres problèmes. La récupération de ces services est importante et peut nécessiter un débogage supplémentaire.

Applications ArgoCD manquantes ou dégradées

L'outil de diagnostic d'Automation Suite indique si des applications ArgoCD sont manquantes ou dégradées.

Si des applications sont manquantes, accédez à l'interface utilisateur ArgoCD et synchronisez-les.
Si les applications sont dégradées, un débogage supplémentaire est nécessaire pour enquêter sur les erreurs générées par ArgoCD

À cette page