- Vue d'ensemble (Overview)
- Prérequis
- Installation
- Questions et réponses : modèles de déploiement
- Configuration des machines
- Configuration du magasin d'objets externe
- Configuration d'un registre Docker externe
- Configurer l'équilibreur de charge
- Configuration du DNS
- Configuration de Microsoft SQL Server
- Configuration des certificats
- Installation de production en ligne multi-nœuds compatible haute disponibilité
- Installation de production hors ligne multi-nœuds compatible haute disponibilité
- Disaster Recovery - Installation du cluster secondaire
- Téléchargement des packages d'installation
- install-uipath.sh parameters
- Activation du module complémentaire Redis High Availability Add-on pour le cluster
- Fichier de configuration de Document Understanding
- Ajout d'un nœud d'agent dédié avec prise en charge GPU
- Ajout d'un nœud d'agent dédié pour Task Mining
- Connexion de l'application Task Mining
- Ajout d'un nœud d'agent dédié pour les Automation Suite Robots
- Post-installation
- Administration du cluster
- Gestion des produits
- Premiers pas avec le portail d'administration du cluster
- Migration d'un magasin d'objets d'un volume persistant vers des disques bruts
- Migration des données entre les librairies
- Migration d'un magasin d'objets intégré au cluster vers un magasin d'objets externe
- Basculer vers le cluster secondaire
- Disaster Recovery : exécution d'opérations post-installation
- Conversion d'une installation existante en configuration multi-sites
- Directives sur la mise à niveau d'un déploiement actif/passif
- Directives pour la sauvegarde et la restauration d'un déploiement actif/passif
- Surveillance et alerte
- Migration et mise à niveau
- Chemins de mise à niveau Automation Suite
- Automatisée : mise à niveau en ligne
- Automatisée : mise à niveau hors ligne
- Manuel : mise à niveau en ligne
- Manuel : mise à niveau hors ligne
- Annulation en cas d'erreur
- Migration d'un disque physique Longhorn vers LVM
- Migration de Canal vers Cilium CNI
- Rétrogradation de Ceph de la version 16.2.6 à la version 15.2.9
- Options de migration :
- Étape 1 : Déplacement des données d'organisation Identity d'installation autonome vers Automation Suite
- Étape 2 : Restauration de la base de données du produit autonome
- Étape 3 : Sauvegarder la base de données de la plate-forme dans Automation Suite
- Étape 4 : Fusion des organisations dans Automation Suite
- Étape 5 : Mise à jour des chaînes de connexion du produit migré
- Étape 6 : migration de la version autonome d’Insights
- Étape 7 : suppression du locataire par défaut
- B) Migration à locataire unique
- Configuration spécifique au produit
- Rotation des informations d’identification de stockage d’objets blob
- Désactivation de l'utilisation d'URL pré-signées lors du téléchargement de données vers le stockage Amazon S3
- Configuration de la sécurité de l'application de processus
- Configurer une authentification Kerberos avec l’authentification MSSQL de base pour Process Mining
- Bonnes pratiques et maintenance
- Résolution des problèmes
- Comment résoudre les problèmes des services lors de l'installation
- Comment désinstaller le cluster
- Comment nettoyer les artefacts hors ligne pour améliorer l'espace disque
- Comment effacer les données Redis
- Comment activer la journalisation Istio
- Comment nettoyer manuellement les journaux
- Comment nettoyer les anciens journaux stockés dans le bundle sf-logs
- Comment désactiver les journaux de diffusion pour AI Center
- Comment déboguer les installations d'Automation Suite ayant échoué
- Comment supprimer des images de l’ancien programme d’installation après la mise à niveau
- Comment nettoyer automatiquement les instantanés Longhorn
- Comment désactiver le déchargement de la somme de contrôle txt
- Comment définir manuellement le niveau de journalisation d’ArgoCD sur Info
- Comment générer la valeur pull_secret_value encodée pour les registres externes
- Comment résoudre les chiffrements faibles dans TLS 1.2
- Impossible d'exécuter une installation hors ligne sur le système d'exploitation RHEL 8.4
- Erreur lors du téléchargement du bundle
- L'installation hors ligne échoue en raison d'un fichier binaire manquant
- Problème de certificat dans l'installation hors ligne
- La première installation échoue lors de la configuration de Longhorn
- Erreur de validation de la chaîne de connexion SQL
- Échec de la vérification des prérequis pour le module selinux iscsid
- Disque Azure non marqué comme SSD
- Échec après la mise à jour du certificat
- L'antivirus provoque des problèmes d'installation
- Automation Suite ne fonctionne pas après la mise à niveau du système d'exploitation
- Automation Suite requiert que backlog_wait_time soit défini sur 0
- Nœud GPU affecté par l'indisponibilité des ressources
- Volume impossible à monter car il n'est pas prêt pour les charges de travail
- Échec de la mise à niveau du nœud unique à l’étape Fabric
- Cluster défectueux après la mise à niveau automatisée à partir de la version 2021.10
- Échec de la mise à niveau en raison d’un Ceph défectueux
- RKE2 ne démarre pas en raison d'un problème d'espace
- Échec de la validation SQL lors de la mise à niveau
- Échec du chargement ou du téléchargement des données dans l'objectstore
- Le redimensionnement de la PVC ne répare pas Ceph
- Échec du redimensionnement du PVC
- Échec du redimensionnement du PVC objectstore
- Rook Ceph ou pod Looker bloqué dans l'état Init
- Erreur de pièce jointe du volume Ensembles d'états.
- Échec de la création de volumes persistants
- Correctif de récupération du stockage
- La sauvegarde a échoué en raison de l’erreur TropInstantanés (TooManySnapshots)
- Toutes les répliques Longhorn sont défaillantes
- Définition d'un délai d'expiration pour les portails de gestion
- Mettre à jour les connexions du répertoire sous-jacent
- L'authentification ne fonctionne pas après la migration
- kinit : Impossible de trouver le KDC pour le domaine <AD Domain> lors de l'obtention des informations d'identification initiales
- Kinit : Keytab ne contient aucune clé appropriée pour *** lors de l'obtention des informations d'identification initiales
- L'opération GSSAPI a échoué en raison d'un code de statut non valide
- Alarme reçue pour l'échec de la tâche Kerberos-tgt-update
- Fournisseur SSPI : serveur introuvable dans la base de données Kerberos
- La connexion a échoué pour l'utilisateur AD en raison d'un compte désactivé
- Échec de connexion à ArgoCD
- Impossible d'obtenir l'image du bac à sable
- Les pods ne s'affichent pas dans l'interface utilisateur ArgoCD
- Échec de la sonde Redis
- Le serveur RKE2 ne démarre pas
- Secret introuvable dans l'espace de noms UiPath
- ArgoCD passe à l'état Progression (Progressing) après la première installation
- Problèmes d'accès au compte ArgoCD en lecture seule
- Pods MongoDB en mode CrashLoopBackOff ou enregistrement PVC en attente après suppression
- Services défectueux après la restauration ou l'annulation du cluster
- Pods bloqués dans Init:0/X
- Prometheus en état CrashloopBackoff avec erreur de mémoire insuffisante (OOM)
- Métriques Ceph-rook manquantes dans les tableaux de bord de surveillance
- Document Understanding n'est pas affiché sur la barre de gauche d'Automation Suite
- État Échec (Failed) lors de la création d'une session de labellisation des données
- État Échec (Failed) lors de la tentative de déploiement d'une compétence ML
- La tâche de migration échoue dans ArgoCD
- La reconnaissance de l'écriture manuscrite avec l'Extracteur de formulaires intelligents (Intelligent Form Extractor) ne fonctionne pas
- Exécution de la haute disponibilité avec Process Mining
- Échec de l’ingestion de Process Mining lors de la connexion à l’aide de Kerberos
- Impossible de se connecter à la base de données AutomationSuite_ProcessMining_Authentication à l'aide d'une chaîne de connexion au format pyodbc
- L'installation d'airflow échoue avec sqlalchemy.exc.ArgumentError: impossible d'analyser l'URL rfc1738 de la chaîne ''
- Comment ajouter une règle de table d'adresse IP pour utiliser le port SQL Server 1433
- Utilisation de l'outil de diagnostic d'Automation Suite
- Utilisation de l'outil Automation Suite Support Bundle
- Explorer les journaux
Étape 3 : étapes post-déploiement
\
) peuvent ne pas fonctionner comme prévu. Pour vous assurer que les nouvelles lignes soient interprétées correctement, utilisez le widget Presse-papiers de la console.
installResult
(dans le conteneur) est successful
. Le contenu sera failed
si l'installation a échoué.
Le processus d'installation génère des certificats auto-signés en votre nom. Ces certificats sont conformes à la norme FIPS 140-2. Le modèle de déploiement Azure vous donne également la possibilité de fournir un certificat de serveur émis par une autorité de certification au moment de l'installation au lieu d'utiliser un certificat auto-signé généré automatiquement.
Ces certificats expireront sous 90 jours et vous devrez les remplacer par des certificats signés par une autorité de certification (CA) approuvée dès que l'installation sera terminée. Si vous ne mettez pas à jour les certificats, l'installation cessera d'être opérationnelle après 90 jours.
Si vous avez installé Automation Suite sur un hôte compatible FIPS 140-2 et que vous souhaitez mettre à jour les certificats, assurez-vous qu'ils sont compatibles avec FIPS 140-2.
Pour obtenir des instructions, consultez la Gestion des certificats.
Après avoir terminé une installation d'Automation Suite à l'aide du modèle de déploiement Azure, vous pouvez activer FIPS 140-2 sur vos machines. Pour obtenir des instructions, consultez Sécurité et conformité.
Si vous avez besoin de plus amples informations sur le processus d'installation d'Automation Suite ou d'autres opérations, le compte de stockage utilisé pour stocker divers indicateurs et journaux lors du déploiement et de la maintenance du cluster est un bon point de départ.
Pour localiser le compte de stockage, procédez comme suit :
Le conteneur d' indicateurs stocke divers indicateurs ou fichiers nécessaires à l'orchestration ou simplement pour signaler l'état de diverses opérations. Sur un nouveau cluster, le contenu du conteneur d' indicateurs ressemble généralement à l'exemple suivant :
Les fichiers des conteneurs d' indicateurs sont utilisés pour orchestrer diverses opérations, telles que le processus d'installation d'Automation Suite sur le cluster, ou des opérations de cluster spécifiques, telles que l'actualisation de l'instance. Par exemple :
uipath-server-000000.success
indique que l'installation de l'infrastructure s'est terminée avec succès sur ce nœud spécifique du cluster ;installResult
litsuccess
si l'installation globale est réussie.
Lors de l'exécution d'une opération, il génère généralement un fichier journal dans le conteneur de journaux . Sur un nouveau cluster, le contenu du conteneur de journaux ressemble généralement à l'exemple suivant :
Chaque fichier du conteneur de journaux représente les journaux d'une étape spécifique du processus d'installation. Par exemple :
infra-uipath-server-000000.log
stocke les journaux d'installation de l'infrastructure ;fabric.log
stocke les journaux pour l'installation de Fabric ;services.log
stocke les journaux d'installation de l'application et des services.
Une fois l'installation terminée, vous devez accéder aux sorties de déploiement (Deployment Outputs) dans l'onglet Sorties (Outputs).
DateTime
) → Sorties (Outputs).
Sortie |
Description |
---|---|
Documentation |
Un lien vers la documentation. |
URL |
L'URL de l'équilibreur de charge. Peut être utilisé pour un accès direct. Si les domaines personnalisés étaient activés, il s'agirait du domaine que vous utiliseriez pour la liaison CNAME. |
KeyVaultURL |
L'URL du portail Azure pour le Key Vault créé par le déploiement. Il contient toutes les clés secrètes (informations d'identification) utilisées dans le déploiement. |
ArgoCDURL |
L'URL pour accéder à ArgoCD. Ceci est disponible dans le réseau virtuel. L'accès externe à cette URL doit être configuré comme décrit dans : Étape 4 : Configuration du DNS. |
ArgoCDPassword |
Le mot de passe utilisé pour se connecter au portail ArgoCD. |
Nom de l'hôte administrateur et l'hôte administrateur mot de passe |
Les informations d'identification utilisées pour l'administration de l'hôte. |
ClusterAdministrationURL |
L' URL du portail d'administration du cluster. |
LonghornMonitoringURL | L' URL vers les outils de surveillance Longhorn. |
GrafanaMonitoringURL | L'URL vers les outils de surveillance Grafana. |
PrometheusMonitoringURL | L'URL vers les outils de surveillance Prometheus. |
AlertmanagerMonitoringURL | L'URL vers les outils de surveillance Alertmanager. |
Toutes les informations d'identification utilisées dans le déploiement sont stockées en tant que clés secrètes dans un Key Vault enregistré pendant le déploiement. Pour accéder aux clés secrètes, filtrez les ressources dans le groupe de ressources, recherchez Coffre (Vault), puis cliquez sur Clés Secrètes (Secrets).
The operation “List” is not enabled in the key vault’s access policy
s'affiche sous l'onglet Clés secrètes (Secrets), procédez comme suit :
- Accédez à Politiques d'accès (Access policies) → Ajouter une politique d'accès (Add access policy) → Configurer le modèle (Configure the template) → Gestion des clés secrètes (Secret Management) → Sélectionner principal (Select Principal).
- Sélectionnez votre utilisateur, puis cliquez sur Enregistrer (Save).
- Revenez à Clés secrètes (Secrets). L'avertissement devrait disparaître et les clés secrètes devraient être visibles.
Les machines virtuelles sont enregistrées dans un réseau virtuel privé. Vous pouvez y accéder via Azure Bastion en suivant ces étapes :
Comme mentionné dans Étape 1 : Préparation de votre déploiement Azure, le déploiement d'Automation Suite sur Azure crée un équilibreur de charge avec une adresse IP publique et une étiquette DNS associée. Cette étiquette DNS appartient à Microsoft.
Le déploiement enregistre également une zone DNS privée à l'intérieur du réseau virtuel du cluster et ajoute plusieurs enregistrements qui sont utilisés pendant le processus d'installation et de configuration.
Si vous choisissez de vous connecter à partir d'une machine externe, vous ne pourrez pas utiliser la zone DNS privée pour résoudre le DNS pour divers services, vous devez donc ajouter ces enregistrements à votre fichier hôte.
Voir Étape 4 : Configuration du DNS pour plus de détails.
Vous devriez maintenant pouvoir vous connecter à divers services exécutés sur votre cluster.
Le portail d'administration du cluster est un emplacement centralisé où vous pouvez trouver toutes les ressources nécessaires pour terminer une installation d'Automation Suite et effectuer les opérations post-installation courantes. Pour plus de détails, consultez la section Premiers pas avec le portail d'administration du cluster.
Pour accéder au portail d'administration du cluster, procédez comme suit :
https://${CONFIG_CLUSTER_FQDN}/uipath-management
.L'interface utilisateur à usage général d'Automation Suite sert de portail pour les administrateurs et les utilisateurs de l'organisation. Il s'agit d'une ressource commune au niveau de l'organisation à partir de laquelle chacun peut accéder à toutes les zones d'Automation Suite : pages d'administration, pages au niveau de la plate-forme, pages spécifiques au service et pages spécifiques à l'utilisateur.
Pour accéder à Automation Suite, procédez comme suit :
- Accédez à l'URL suivante :
https://${Loadbalancer_dns}
, où<loadbalancer_dns>
est le libellé DNS de l'équilibreur de charge et se trouve sous les sorties. - Passez à l'organisation par défaut (Default).
- Le nom d'utilisateur est orgadmin.
- Récupérez le mot de passe en allant dans Keyvault, puis Clés secrètes (Secrets) ; il se trouve sous hostAdminPassword.
Le portail hôte est l'endroit où les administrateurs système configurent l'instance Automation Suite. Les paramètres configurés à partir de ce portail sont hérités par toutes vos organisations, et certains peuvent être remplacés au niveau de l'organisation.
Pour accéder à l'administration de l'hôte, procédez comme suit :
- Accédez à l'URL suivante :
https://${Loadbalancer_dns}
, où<loadbalancer_dns>
est le libellé DNS de l'équilibreur de charge et se trouve sous sorties (Outputs). - Passez à l'organisation Hôte (Host).
- Entrez le nom d'utilisateur que vous avez précédemment spécifié comme valeur pour le paramètre Nom d'utilisateur de l' administrateur UiPath .
- Entrez le mot de passe que vous avez précédemment spécifié comme valeur pour le paramètre UiPath Admin Password . Récupérez le mot de passe en allant dans Keyvault, puis Clés secrètes (Secrets) ; il se trouve sous hostAdminPassword.
Vous pouvez utiliser la console ArgoCD pour gérer les produits installés.
Pour accéder à ArgoCD, procédez comme suit :
- Accédez à l'URL suivante :
https://alm.${Loadbalancer_dns}
, où<loadbalancer_dns>
est le libellé DNS de l'équilibreur de charge et se trouve sous Sorties (Outputs). Notez que vous devez configurer l'accès externe à cette URL tel que décrit à l'Étape 4 : Configuration du DNS. - Le nom d'utilisateur est admin.
- Pour accéder au mot de passe, accédez à l'onglet Sorties (Outputs) ou à l'identifiant Keyvault.
Pour accéder aux outils de surveillance pour la première fois, connectez-vous en tant qu'administrateur avec les informations d'identification par défaut suivantes :
- Nom d’utilisateur : admin
- Mot de passe : pour récupérer le mot de passe, exécutez la commande suivante :
kubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -d
kubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -d
Pour mettre à jour le mot de passe par défaut utilisé pour accéder aux outils de surveillance, procédez comme suit :
-
Exécutez la commande suivante en remplaçant
newpassword
par votre nouveau mot de passe :password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]"
password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]" -
Exécutez la commande suivante en remplaçant
<cluster_config.json>
par le chemin d'accès à votre fichier de configuration :/opt/UiPathAutomationSuite/UiPath_Installer/install-uipath.sh -i <cluster_config.json> -f -o output.json --accept-license-agreement
/opt/UiPathAutomationSuite/UiPath_Installer/install-uipath.sh -i <cluster_config.json> -f -o output.json --accept-license-agreement
Les ressources de calcul enregistrées à partir du déploiement sont constituées de groupes identiques Azure, qui permettent une mise à l'échelle facile.
Vous pouvez ajouter manuellement des ressources supplémentaires à un groupe identique spécifique, y compris l'ajout de nœuds de serveur, de nœuds d'agent ou de nœuds d'agent spécialisés (tels que des nœuds GPU).
Vous pouvez effectuer une mise à l'échelle manuelle en identifiant le groupe identique spécifique et ajouter directement des ressources.
Pour ce faire, procédez comme suit :
Après avoir effectué une mise à niveau du cluster Automation Suite, les déploiements de modèles Azure nécessitent quelques modifications pour garantir qu'un nouveau nœud rejoint correctement le cluster. Pour automatiser les modifications, nous vous recommandons d'utiliser le script dédié. Pour obtenir des instructions, consultez la documentation relatives au modèle de déploiement Azure.
Azure accorde une fenêtre de 15 minutes au maximum pour préparer l'arrêt, tandis que l'arrêt normal d'un nœud Automation Suite varie de 20 minutes (pour les nœuds d'agent et d'agent GPU) à quelques heures (dans le cas des nœuds de serveur).
Pour éviter toute perte de données, la stratégie de mise à niveau VMSS du serveur est définie sur manuelle et la protection des actions des groupes identiques est activée sur les machines virtuelles du serveur. Par conséquent, nous vous recommandons de gérer le cycle de vie des serveurs via les runbooks fournis.
Les runbooks InstanceRefresh, SupprimerNœuds (RemoveNodes), RemoveServers et CheckServerZoneResilience sont pris en charge uniquement pour les déploiements de production multi-nœuds compatibles haute disponibilité.
Le nombre de serveurs après l'exécution d'un runbook doit être impair et supérieur à trois (par exemple, vous ne pouvez pas exécuter une actualisation d'instance si vous avez 4 serveurs ; vous ne pouvez pas supprimer un serveur si vous en avez un total de cinq).
Running
.
Un seul runbook doit être exécuté à la fois.
Tous nos comptes de stockage et serveurs SQL ont des points de terminaison privés. Un groupe de travailleurs hybrides exécute les opérations automatisées existantes afin qu'elles fonctionnent sans problème.
Un travailleur hybride est une machine virtuelle qui se trouve à l'intérieur du VNET et sur laquelle les différentes automatisations seront exécutées.
La machine virtuelle est généralement un Standard_D2s_v3 ou un Standard_F2s_v2, selon ce que vous choisissez pour vos machines virtuelles de serveur et si le quota le permet. La machine virtuelle est arrêtée lorsque le déploiement est terminé pour minimiser les coûts.
Les runbooks sont divisés en deux catégories : les runbooks réguliers et les runbooks hybrides. Vous utilisez les runbooks réguliers pour démarrer une opération et rassembler toutes les données. Le runbook normal démarre ensuite la machine virtuelle Worker hybride et le runbook hybride, ce dernier terminant l'opération.
Une fois l'opération terminée, vous pouvez désactiver la machine virtuelle Hybrid Worker pour limiter les coûts.
Le tableau suivant décrit la répartition du runbook :
Runbooks réguliers |
Runbooks hybrides |
---|---|
AddGpuNode | HybridAddGpuNode |
BackupCluster | HybridBackupCluster |
GetAllBackups | HybridGetAllBackups |
InstanceRefresh | HybridInstanceRefresh (+HybridCheckServerZoneRezilience) |
RegisterAiCenterExternalOrchestrator | HybridRegisterAiCenterExternalOrchestrator |
RemoveNodes | HybridRemoveNodes |
RemoveServers | HybridRemoveServers |
RestoreClusterInitialize | HybridRestoreClusterInitialize + HybridRestoreClusterSnapshot |
ValidateFullInstall | Exécution à la fin du déploiement pour valider l’installation complète. |
Description
Le runbook InstanceRefresh présente les cas d'utilisation suivants :
- Mettez à jour la référence SKU du système d'exploitation VMSS sur les ensembles identiques de serveur, d'agent et de GPU.
- Effectuez une opération de rotation des nœuds pour un ou plusieurs VMSS.
- Autres modifications de configuration VMSS qui ont été appliquées au préalable au VMSS.
Utilisation
Détails de l'implémentation
Le runbook InstanceRefresh est un wrapper pour le runbook RemoveNodes. Par conséquent, le statut est suivi lors de l'exécution de RemoveNodes. Il met à jour toutes les versions du système d'exploitation VMSS (si nécessaire) et extrait, en fonction des paramètres reçus, le nom d'hôte de l'opération de rotation des nœuds et les transmet à RemoveNodes. Si le cluster comporte exactement trois serveurs, le runbook InstanceRefresh crée trois nouveaux serveurs ; sinon, RemoveNodes gère la mise à l'échelle pour maintenir au moins un serveur dans chaque zone de disponibilité à tout moment.
Description
Le runbook RemoveNodes présente les cas d’utilisation suivants :
- Supprime les nœuds spécifiés du cluster Automation Suite.
- Effectuez une opération de rotation des nœuds pour une/deux machines virtuelles.
Utilisation
NODESTOBEREMOVEDCOMPUTERNAME
est une liste de noms d'ordinateurs séparés par des virgules des machines virtuelles que vous souhaitez supprimer (par exemple,pxlqw-agent-000009,pxlqw-agent-00000A
), et c'est le seul paramètre obligatoire. Nous vous recommandons de supprimer les nœuds d’un seul VMSS à la fois.-
ISINSTANCEREFRESH
etTHREESERVERSSCENARIO
sont des indicateurs renseignés par le wrapper ActualisationInstance (InstanceRefresh).Cliquez sur le bouton OK pour démarrer le runbook.
Détails de l'implémentation
Le runbook RemoveNodes a une approche récursive pour surmonter le délai d’expiration de 3 heures. Il supprime ou rétablit le premier ou les deux premiers nœuds (le numéro est choisi de façon à satisfaire la contrainte de nombre impair de serveurs) de la liste reçue et réexécute une autre instance du runbook avec la liste restante.
L'opération de repavage du nœud d'un nœud nécessite de suivre les étapes suivantes :
- Faites évoluer le VMSS avec une ou deux machines virtuelles en fonction du nombre de nœuds qui seront supprimés.
- Effectuez la suppression des nœuds des anciennes instances.
L'opération de suppression de nœud pour un nœud nécessite de suivre les étapes suivantes :
- Cordonnez et drainez les instances. L'opération expire après 20 minutes pour un agent et
number_of_instances * 60
minutes pour les serveurs. - Arrêtez le service rke sur les instances. L’opération expire après 5 minutes.
- Supprimez les nœuds du cluster Automation Suite et supprimez les machines virtuelles. L'opération expire après 20 minutes pour les agents et
number_of_instances * 60
minutes pour les serveurs.
Description
Le runbook RemoveServers présente le cas d’utilisation suivant :
- supprimer des serveurs du cluster Automation Suite.
Utilisation
- Accédez au portail Azure et recherchez la ressource appelée RemoveServers.
- Cliquez sur le bouton Démarrer pour ouvrir la liste des paramètres. Complétez les paramètres en tenant compte des éléments suivants :
-
REMOVEDSERVERSCOUNT
est le nombre de serveurs qui seront supprimés. Nous vous recommandons de ne pas supprimer plus de 2 serveurs à la fois afin de ne pas dépasser le délai d’expiration du partage équitable .
Détails de l'implémentation
Le runbook RemoveServers supprime le nombre de serveurs reçus en tant que paramètre des zones de disponibilité contenant le plus de machines virtuelles.
Description
Le runbook CheckServerZoneResilience met à l'échelle le VMSS du serveur et utilise le runbook RemoveServers pour équilibrer les serveurs entre les zones de disponibilité. Cela fait partie du flux ActualisationInstance (InstanceRefresh) et ne doit pas être exécuté manuellement.
Description
Dans le scénario où le déploiement initial a été créé sans nœud GPU, nous créons le VM Scale Set, mais avons un SKU différent pour éviter les problèmes de disponibilité de zone/SKU. Ce runbook remplace la SKU par une SKU GPU et ajoute un nœud.
Utilisation
Pour utiliser ce runbook, procédez comme suit :
- Accédez au groupe de ressources dans lequel vous avez déployé Automation Suite, puis identifiez-le et cliquez sur Compte d'automatisation (Automation Account).
- Cliquez sur Runbooks, puis sur le runbook AddGPUNode.
- Fournissez un nom à l'UGS souhaitée et cliquez sur Démarrer (Start).
Paramètres :
skuName
– la SKU des nœuds GPU VMSS.
Valeurs autorisées :
Standard_NC8as_T4_v3
Standard_NC12s_v3
Standard_NC24s_v3
Description
Le runbook enregistre AI Center auprès de l'instance externe d'Orchestrator fournie au moment du déploiement.
Utilisation
IdentityToken
, qui est un jeton d'accès à l'installation généré par le service Identity externe. Étant donné que le jeton a une courte disponibilité (environ 1 à 2 heures), nous vous recommandons de le générer juste avant d’exécuter le runbook. Pour obtenir des instructions, consultez la section Clé d'installation.
Description
Le runbook BackupCluster vous aide à sauvegarder votre cluster.
Utilisation
Description
Le runbook GetAllBackups vous permet d'afficher une liste de toutes les sauvegardes disponibles, planifiées et manuelles.
Description
Ces runbooks vous aident à effectuer une restauration du cluster.
Utilisation
Pour effectuer une opération de restauration, procédez comme suit :
- Si une machine virtuelle ne parvient pas à rejoindre le cluster Automation Suite, une annulation sera tentée. Les machines virtuelles nouvellement créées suivront les mêmes étapes qu'une suppression de nœud habituelle (cordon, drain, arrêt du service rke, suppression du nœud du cluster et suppression des machines virtuelles). Vous pouvez trouver les journaux de la procédure de jointure du nœud dans le compte de stockage, à l'intérieur du conteneur de journaux , dans des objets blob comme
infra-<hostname>.log
. -
En cas d’échec lors de la suppression de nœuds, tout runbook s’arrêtera et affichera les journaux de l’étape qui a échoué. Résolvez le problème, terminez le processus manuellement ou à l'aide du runbook RemoveNodes. Vous pouvez trouver tous les journaux du compte de stockage, à l'intérieur du conteneur de journaux , comme suit :
- Cordon et vidange –
<timestamp>-<runbook_abreviation>-drain_nodes.log
- Arrêter le service rke –
<timestamp>-<runbook_abreviation>-stop_rke.log
- Supprimer le nœud du cluster –
<timestamp>-<runbook_abreviation>-remove_nodes.log
- Cordon et vidange –
- En cas d’expiration du délai, vous devez attendre que l'exécution de l'étape soit terminée, vérifier les journaux et terminer le processus manuellement ou à l’aide du runbook RemoveNodes. Tous les runbooks utilisent la fonctionnalité Azure Run Command pour exécuter du code dans le contexte des machines virtuelles. L'une des limitations de cette méthode est qu'elle ne renvoie pas le statut de l'exécution. Par conséquent, les étapes de bouclage, de drainage et d'arrêt du service rke s'exécutent de manière asynchrone et le statut est conservé avec des objets blob au format suivant :
<timestamp>-<runbook_abreviation>-<step_name>.<success/fail>
.
- Validation de l'installation
- Mise à jour des certificats
- Activation de FIPS 140-2
- Exploration des indicateurs et des journaux
- Conteneur d'indicateurs
- Conteneur de journaux
- Accéder aux sorties du déploiement
- Sorties du déploiement
- Accéder aux machines virtuelles du cluster
- Exigences DNS
- Accéder au portail d'administration du cluster
- Accéder à l'interface générale d'Automation Suite
- Accéder à l'administration de l'hôte
- Accéder à ArgoCD
- Accès aux outils de surveillance
- Mise à l'échelle de votre cluster
- Finalisation d'une mise à niveau
- Opérations du cycle de vie des machines virtuelles Azure
- Travailleurs hybrides
- InstanceRefresh
- RemoveNodes
- RemoveServers
- CheckServerZoneResilience
- AddGpuNode
- RegisterAiCenterExternalOrchestrator
- BackupCluster
- GetAllBackups
- RestoreClusterInitialize, RestoreSnapshot
- Résolution des problèmes