- Vue d'ensemble (Overview)
- Prérequis
- Recommandé : modèles de déploiement
- Manuel : Préparation de l'installation
- Manuel : Préparation de l'installation
- Étape 1 : Configuration du registre compatible OCI pour les installations hors ligne
- Étape 2 : configuration du magasin d'objets externe
- Étape 3 : Configuration de High Availability Add-on
- Étape 4 : configurer Microsoft SQL Server
- Étape 5 : configurer l’équilibreur de charge
- Étape 6 : configurer le DNS
- Étape 7 : configuration des disques
- Étape 8 : configurer les paramètres au niveau du noyau et du système d’exploitation
- Étape 9 : configuration des ports de nœud
- Étape 10 : appliquer divers paramètres
- Étape 12 : Valider et installer les packages RPM requis
- Étape 13 : génération du fichier cluster_config.json
- Configuration du certificat
- Configuration de la base de données
- Configuration du magasin d'objets externe
- Configuration d'URL pré-signée
- Configuration du registre externe compatible OCI
- Disaster Recovery : configurations actif/passif et actif/actif
- Configuration de High Availability Add-on
- Configuration spécifique à Orchestrator
- Configuration spécifique à Insights
- Configuration spécifique à Process Mining
- Configuration spécifique à Document Understanding
- Configuration spécifique à Automation Suite Robots
- Configuration de la surveillance
- Facultatif : configuration du serveur proxy
- Facultatif : Activation de la résilience aux échecs locaux dans un cluster en mode production multi-nœuds compatible haute disponibilité
- Facultatif : Transmettre le fichier personnalisé resolv.conf
- Facultatif : augmentation de la tolérance aux pannes
- install-uipath.sh parameters
- Ajout d'un nœud d'agent dédié avec prise en charge GPU
- Ajout d'un nœud d'agent dédié pour Task Mining
- Connexion de l'application Task Mining
- Ajout d'un nœud d'agent dédié pour les Automation Suite Robots
- Étape 15 : configuration du registre Docker temporaire pour les installations hors ligne
- Étape 16 : validation des prérequis de l’installation
- Manuel : Exécution de l'installation
- Post-installation
- Administration du cluster
- Gestion des produits
- Premiers pas avec le portail d'administration du cluster
- Migration d'un magasin d'objets d'un volume persistant vers des disques bruts
- Migration de High Availability Add-on du cluster vers une version externe
- Migration des données entre les librairies
- Migration d'un magasin d'objets intégré au cluster vers un magasin d'objets externe
- Migration vers un registre externe compatible OCI
- Basculer manuellement vers le cluster secondaire dans une configuration actif/passif
- Disaster Recovery : exécution d'opérations post-installation
- Conversion d'une installation existante en configuration multi-sites
- Recommandations pour mettre à niveau un déploiement actif/passif ou actif/actif
- Recommandations pour sauvegarder et restaurer un déploiement actif/passif ou actif/actif
- Rediriger vers le cluster principal le trafic pour les services non pris en charge
- Surveillance et alerte
- Migration et mise à niveau
- Étape 1 : Déplacement des données d'organisation Identity d'installation autonome vers Automation Suite
- Étape 2 : Restauration de la base de données du produit autonome
- Étape 3 : Sauvegarder la base de données de la plate-forme dans Automation Suite
- Étape 4 : Fusion des organisations dans Automation Suite
- Étape 5 : Mise à jour des chaînes de connexion du produit migré
- Étape 6 : migration de la version autonome d'Orchestrator
- Étape 7 : Migration d’Insights en version autonome
- Étape 8 : suppression du locataire par défaut
- B) Migration à locataire unique
- Migration d'Automation Suite sur Linux vers Automation Suite sur EKS/AKS
- Mettre à niveau Automation Suite
- Téléchargement des packages d'installation et obtention de l'ensemble des fichiers sur le premier nœud de serveur
- Récupération de la dernière configuration appliquée à partir du cluster
- Mise à jour de la configuration du cluster
- Configuration du registre compatible OCI pour les installations hors ligne
- Exécution de la mise à niveau
- Exécution d'opérations post-mise à niveau
- Configuration spécifique au produit
- Utilisation de l'outil Orchestrator Configurator
- Configuration des paramètres d'Orchestrator
- Paramètres de l'application Orchestrator
- Configuration des paramètres d'application
- Configuration de la taille maximale de la requête
- Remplacement de la configuration du stockage au niveau du cluster
- Configuration des magasins d'informations d'identification
- Configuration de la clé de chiffrement par locataire
- Nettoyer la base de données Orchestrator
- Rotation des informations d’identification de stockage d’objets blob
- Désactivation de l'utilisation d'URL pré-signées lors du téléchargement de données vers le stockage Amazon S3
- Configuration de la sécurité de l'application de processus
- Configurer une authentification Kerberos avec l’authentification MSSQL de base pour Process Mining
- Bonnes pratiques et maintenance
- Résolution des problèmes
- Comment résoudre les problèmes des services lors de l'installation
- Comment désinstaller le cluster
- Comment nettoyer les artefacts hors ligne pour améliorer l'espace disque
- Comment effacer les données Redis
- Comment activer la journalisation Istio
- Comment nettoyer manuellement les journaux
- Comment nettoyer les anciens journaux stockés dans le compartiment sf-logs
- Comment désactiver les journaux de diffusion pour AI Center
- Comment déboguer les installations d'Automation Suite ayant échoué
- Comment supprimer des images de l’ancien programme d’installation après la mise à niveau
- Comment désactiver le déchargement de la somme de contrôle txt
- Comment mettre à niveau Automation Suite 2022.10.10 et 2022.4.11 vers 2023.10.2
- Comment définir manuellement le niveau de journalisation d’ArgoCD sur Info
- Comment augmenter le stockage d’AI Center
- Comment générer la valeur pull_secret_value encodée pour les registres externes
- Comment résoudre les chiffrements faibles dans TLS 1.2
- Impossible d'exécuter une installation hors ligne sur le système d'exploitation RHEL 8.4
- Erreur lors du téléchargement du bundle
- L'installation hors ligne échoue en raison d'un fichier binaire manquant
- Problème de certificat dans l'installation hors ligne
- La première installation échoue lors de la configuration de Longhorn
- Erreur de validation de la chaîne de connexion SQL
- Échec de la vérification des prérequis pour le module selinux iscsid
- Disque Azure non marqué comme SSD
- Échec après la mise à jour du certificat
- L'antivirus provoque des problèmes d'installation
- Automation Suite ne fonctionne pas après la mise à niveau du système d'exploitation
- Automation Suite requiert que backlog_wait_time soit défini sur 0
- Volume impossible à monter car il n'est pas prêt pour les charges de travail
- Échec de la collecte du journal du pack d'assistance
- La chaîne de connexion SQL de l’automatisation de test est ignorée
- Échec de la mise à niveau du nœud unique à l’étape Fabric
- Cluster défectueux après la mise à niveau automatisée à partir de la version 2021.10
- Échec de la mise à niveau en raison d’un Ceph défectueux
- RKE2 ne démarre pas en raison d'un problème d'espace
- Le volume ne peut pas être monté et reste à l'état de boucle d'attachement/détachement
- La mise à niveau échoue en raison d’objets classiques dans la base de données Orchestrator
- Cluster Ceph trouvé dans un état dégradé après une mise à niveau côte à côte
- Un composant Insights défectueux entraîne l’échec de la migration
- La mise à niveau du service échoue pour Apps
- Délais d'attente de mise à niveau sur place
- Migration du registre Docker bloquée lors de la suppression du PVC
- AI Center provisioning failure after upgrading to 2023.10 or later
- La mise à niveau échoue dans les environnements hors ligne
- Échec de la validation SQL lors de la mise à niveau
- Le pod d'instantané-contrôleur-crds dans l'état CrashLoopBackOff après la mise à niveau
- Erreur de mise à niveau/réinstallation du point de terminaison de l'API REST Longhorn
- Échec du chargement ou du téléchargement des données dans l'objectstore
- Le redimensionnement de la PVC ne répare pas Ceph
- Échec du redimensionnement du PVC objectstore
- Rook Ceph ou pod Looker bloqué dans l'état Init
- Erreur de pièce jointe du volume Ensembles d'états.
- Échec de la création de volumes persistants
- Définition d'un délai d'expiration pour les portails de gestion
- L'authentification ne fonctionne pas après la migration
- kinit : Impossible de trouver le KDC pour le domaine <AD Domain> lors de l'obtention des informations d'identification initiales
- Kinit : Keytab ne contient aucune clé appropriée pour *** lors de l'obtention des informations d'identification initiales
- L'opération GSSAPI a échoué en raison d'un code de statut non valide
- Alarme reçue pour l'échec de la tâche Kerberos-tgt-update
- Fournisseur SSPI : serveur introuvable dans la base de données Kerberos
- La connexion a échoué pour l'utilisateur AD en raison d'un compte désactivé
- Échec de connexion à ArgoCD
- Mettre à jour les connexions du répertoire sous-jacent
- Impossible d'obtenir l'image du bac à sable
- Les pods ne s'affichent pas dans l'interface utilisateur ArgoCD
- Échec de la sonde Redis
- Le serveur RKE2 ne démarre pas
- Secret introuvable dans l'espace de noms UiPath
- ArgoCD passe à l'état Progression (Progressing) après la première installation
- Pods MongoDB en mode CrashLoopBackOff ou enregistrement PVC en attente après suppression
- Services défectueux après la restauration ou l'annulation du cluster
- Pods bloqués dans Init:0/X
- Métriques Ceph-rook manquantes dans les tableaux de bord de surveillance
- Les pods ne peuvent pas communiquer avec le nom de domaine complet dans un environnement proxy
- Document Understanding n'est pas affiché sur la barre de gauche d'Automation Suite
- État Échec (Failed) lors de la création d'une session de labellisation des données
- État Échec (Failed) lors de la tentative de déploiement d'une compétence ML
- La tâche de migration échoue dans ArgoCD
- La reconnaissance de l'écriture manuscrite avec l'Extracteur de formulaires intelligents (Intelligent Form Extractor) ne fonctionne pas
- Exécution de la haute disponibilité avec Process Mining
- Échec de l’ingestion de Process Mining lors de la connexion à l’aide de Kerberos
- Après Disaster Recovery, Dapr ne fonctionne pas correctement pour Process Mining et Task Mining
- Impossible de se connecter à la base de données AutomationSuite_ProcessMining_Authentication à l'aide d'une chaîne de connexion au format pyodbc
- L'installation d'airflow échoue avec sqlalchemy.exc.ArgumentError: impossible d'analyser l'URL rfc1738 de la chaîne ''
- Comment ajouter une règle de table d'adresse IP pour utiliser le port SQL Server 1433
- Exécution de l'outil de diagnostic
- Using the Automation Suite support bundle
- Explorer les journaux
Alertes de gestion
Il s'agit d'erreurs internes du gestionnaire d'alertes pour les clusters haute disponibilité avec plusieurs répliques du gestionnaire d'alertes. Les alertes peuvent apparaître et disparaître par intermittence. La réduction temporaire, puis la mise à l'échelle des répliques du gestionnaire d'alertes peuvent résoudre le problème.
Pour résoudre le problème, procédez comme suit :
-
Définissez la mise à l'échelle sur zéro. Notez qu'il faut un moment pour que les pods s'arrêtent :
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0 -
Redéfinissez la mise à l'échelle sur deux :
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2 -
Vérifiez si les pods du gestionnaire d'alertes ont démarré et sont en cours d'exécution :
kubectl get po -n cattle-monitoring-system
kubectl get po -n cattle-monitoring-system
Si le problème persiste, contactez le support UiPath®.
AlertManager n’a pas pu charger ou recharger la configuration. Veuillez vérifier toutes les configurations AlertManager personnalisées pour les erreurs de saisie ; sinon, contactez l’assistance UiPath®.
Il s'agit d'erreurs internes du gestionnaire d'alertes pour les clusters haute disponibilité avec plusieurs répliques du gestionnaire d'alertes. Les alertes peuvent apparaître et disparaître par intermittence. La réduction temporaire, puis la mise à l'échelle des répliques du gestionnaire d'alertes peuvent résoudre le problème.
Pour résoudre le problème, procédez comme suit :
-
Définissez la mise à l'échelle sur zéro. Notez qu'il faut un moment pour que les pods s'arrêtent :
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0 -
Redéfinissez la mise à l'échelle sur deux :
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2 -
Vérifiez si les pods du gestionnaire d'alertes ont démarré et sont en cours d'exécution :
kubectl get po -n cattle-monitoring-system
kubectl get po -n cattle-monitoring-system
Si le problème persiste, contactez le support UiPath®.
Prometheus n'est pas en mesure de collecter les métriques de la cible dans l'alerte, ce qui signifie que les tableaux de bord Grafana et d'autres alertes basées sur les métriques de cette cible ne sont pas disponibles. Vérifiez les autres alertes relatives à cette cible.
Il s'agit d'une alerte destinée à garantir que l'ensemble du pipeline d'alerte est fonctionnel. Cette alerte est toujours déclenchée. Par conséquent, elle doit toujours se déclencher dans AlertManager et à l'encontre d'un récepteur. Il existe des intégrations avec divers mécanismes de notification qui vous avertissent lorsque cette alerte ne se déclenche pas. Par exemple, l'intégration de DeadMansSnitch dans PagerDuty.
PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
Erreurs internes de l’opérateur Prometheus, qui contrôle les ressources Prometheus. Prometheus peut lui-même conserver une bonne intégrité alors que ces erreurs sont présentes ; cependant, cette erreur indique que la configurabilité de la surveillance est dégradée. Contactez l’assistance UiPath®.
Prometheus n’a pas pu charger ou recharger la configuration. Veuillez vérifier toutes les configurations Prometheus personnalisées pour les erreurs de saisie. Sinon, contactez le support UiPath®.
PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
La connexion de Prometheus à AlertManager n’est pas saine. Les métriques peuvent toujours faire l’objet de requêtes et les tableaux de bord Grafana peuvent toujours les afficher, mais les alertes ne se déclencheront pas. Vérifiez toute configuration personnalisée d’AlertManager pour les erreurs de saisie. Sinon, contactez le support UiPath®.
PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
Les erreurs internes Prometheus indiquant que les métriques peuvent ne pas être collectées comme prévu. Veuillez contacter l’assistance UiPath®.
Cela peut se produire s’il existe des alertes malformées basées sur des métriques inexistantes ou une syntaxe PromQL incorrecte. Contactez l’assistance UiPath® si aucune alerte personnalisée n’a été ajoutée.
Prometheus n’est pas en mesure d’évaluer si les alertes doivent être déclenchées. Cela peut se produire s’il y a trop d’alertes. Veuillez supprimer les évaluations d’alertes personnalisées coûteuses et/ou consulter la documentation sur l’augmentation de la limite du processeur pour Prometheus. Contactez l’assistance UiPath® si aucune alerte personnalisée n’a été ajoutée.
Ces alertes vous avertissent lorsque le cluster approche des limites configurées pour la mémoire et le stockage. Cela est susceptible de se produire sur les clusters avec une augmentation substantielle récente de l'utilisation (généralement de la part des Robots plutôt que des utilisateurs), ou lorsque des nœuds sont ajoutés au cluster sans ajuster les ressources Prometheus. Cela est dû à une augmentation de la quantité de mesures collectées.
Le taux d'utilisation accrue du stockage peut être consulté sur le tableau de bord Kubernetes/Persistent Volumes :
Vous pouvez l'ajuster en redimensionnant le PVC comme indiqué ici : Configuration du cluster.
Le taux d'utilisation accrue de la mémoire peut être consulté sur le tableau de bord Kubernetes/Ressources de calcul (Compute Resources)/Pod.
Vous pouvez l'ajuster en modifiant les limites des ressources mémoire Prometheus dans l'application rancher-monitoring d'ArgoCD. L'application de surveillance Rancher se resynchronise automatiquement après avoir cliqué sur Enregistrer ( Save) .
Notez que Prometheus met un certain temps à redémarrer et à recommencer à afficher les métriques dans Grafana. Cela prend généralement moins de 10 minutes, même avec de grands clusters.
Le nombre de réponses http 500 des services UiPath® dépasse la limite donnée.
Niveau de trafic |
Nombre de requêtes en 20 minutes |
Seuil d'erreur (pour http 500s) |
---|---|---|
Haute |
>100 000 |
0,1 % |
Moyenne |
Entre 10 000 et 100 000 |
1 % |
Basse |
< 10 000 |
5 % |
Les erreurs dans les services destinés aux utilisateurs entraîneraient probablement une dégradation des fonctionnalités directement observable dans l'interface utilisateur d'Automation Suite, tandis que les erreurs dans les services principaux auraient des conséquences moins visibles.
L'alerte indique quel service connaît actuellement un taux d'erreur élevé. Pour comprendre les problèmes pouvant découler d'autres services dont dépend le service de création de rapports, vous pouvez utiliser le tableau de bord Istio Workload, qui affiche les erreurs entre les services.
Veuillez revérifier tous les produits Automation Suite récemment reconfigurés. Des journaux détaillés sont également disponibles avec la commande kubectl logs. Si l’erreur persiste, veuillez contacter l’assistance UiPath®.
Cette alerte indique que la connexion au serveur NFS est perdue.
Vous devez vérifier la connexion au serveur NFS et le chemin de montage.
uipath-infra/istio-configure-script-cronjob
est à l’état suspendu.
Pour résoudre ce problème, activez la tâche cron en procédant comme suit :
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
- alertmanager.rules
- AlertmanagerConfigInconsistent
- AlertmanagerFailedReload
- AlertmanagerMembersInconsistent
- Règles.générales
- TargetDown
- Watchdog
- prometheus-operator
- PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
- Prometheus
- PrometheusBadConfig
- PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
- PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
- PrometheusRuleFailures
- PrometheusMissingRuleEvaluations
- PrometheusTargetLimitHit
- uipath.prometheus.resource.provisioning.alerts
- PrometheusMemoryUsage, PrometheusStorageUsage
- uipath.availability.alerts
- UiPathAvailabilityHighTrafficUserFacing
- Sauvegarde
- NFSServerDisconnected
- VolumeBackupFailed
- BackupDisabled
- cronjob-alerts
- CronJobSuspended
- IdentityKerberosTgtUpdateFailed