- Überblick
- Anforderungen
- Empfohlen: Bereitstellungsvorlagen
- Anleitung: Vorbereiten der Installation
- Anleitung: Vorbereiten der Installation
- Schritt 1: Konfigurieren der OCI-konformen Registrierung für Offline-Installationen
- Schritt 2: Konfigurieren des externen Objektspeichers
- Schritt 3: Konfigurieren eines High Availability Add-ons
- Schritt 4: Konfigurieren von Microsoft SQL Server
- Schritt 5: Konfigurieren des Lastausgleichs
- Schritt 6: Konfigurieren des DNS
- Step 7: Configuring kernel and OS level settings
- Step 8: Configuring the disks
- Schritt 9: Konfigurieren der Knotenports
- Step 10: Applying miscellaneous settings
- Schritt 12: Validieren und Installieren der erforderlichen RPM-Pakete
- Schritt 13: Generieren von cluster_config.json
- Zertifikatkonfiguration
- Datenbankkonfiguration
- Konfiguration des externen Objektspeichers
- Vorsignierte URL-Konfiguration
- Externe OCI-konforme Registrierungskonfiguration
- Disaster Recovery: Aktiv/Passiv- und Aktiv/Aktiv-Konfigurationen
- Konfiguration des High Availability Add-ons
- Spezifische Orchestrator-Konfiguration
- Insights-spezifische Konfiguration
- Process Mining-spezifische Konfiguration
- Spezifische Konfiguration für Document Understanding
- Spezifische Konfiguration für Automation Suite Robots
- Konfiguration der Überwachung
- Optional: Konfigurieren des Proxyservers
- Optional: Aktivieren der Widerstandsfähigkeit gegen zonale Ausfälle in einem HA-fähigen Produktionscluster mit mehreren Knoten
- Optional: Übergeben einer benutzerdefinierten resolv.conf-Datei
- Optional: Erhöhen der Fehlertoleranz
- install-uipath.sh-Parameter
- Hinzufügen eines dedizierten Agent-Knotens mit GPU-Unterstützung
- Hinzufügen eines dedizierten Agent-Knotens für Task Mining
- Verbinden einer Task Mining-Anwendung
- Hinzufügen eines dedizierten Agentenknotens für Automation Suite-Roboter
- Step 15: Configuring the temporary Docker registry for offline installations
- Step 16: Validating the prerequisites for the installation
- Manuell: Durchführen der Installation
- Nach der Installation
- Clusterverwaltung
- Verwalten von Produkten
- Erste Schritte mit dem Clusterverwaltungsportal
- Migrieren von Objectstore von persistentem Volume zu Raw-Festplatten
- Migrieren von einem HA-Add-on zum externen High Availability Add-on
- Migrieren von Daten zwischen Objectstores
- Clusterinterner Objectstore zu einem externen Objectstore migrieren
- Manueller Wechsel zum sekundären Cluster in einer Aktiv-/Passiv-Einrichtung
- Disaster Recovery: Durchführen von Vorgängen nach der Installation
- Umwandlung einer bestehenden Installation in eine Multi-Site-Einrichtung
- Guidelines on upgrading an Active/Passive or Active/Active deployment
- Guidelines on backing up and restoring an Active/Passive or Active/Active deployment
- Redirecting traffic for the unsupported services to the primary cluster
- Überwachung und Warnungen
- Migration und Upgrade
- Schritt 1: Verschieben der Identitätsorganisationsdaten von einer eigenständigen in die Automation Suite
- Schritt 2: Wiederherstellen der eigenständigen Produktdatenbank
- Schritt 3: Sichern der Plattformdatenbank in der Automation Suite
- Schritt 4: Zusammenführen von Organisationen in der Automation Suite
- Schritt 5: Aktualisieren der migrierten Produktverbindungszeichenfolgen
- Schritt 6: Migrieren des eigenständigen Orchestrators
- Schritt 7: Migrieren von eigenständigen Insights
- Schritt 8: Löschen des Standardmandanten
- B) Migration von einzelnen Mandanten
- Migrieren von der Automation Suite unter Linux zur Automation Suite unter EKS/AKS
- Aktualisieren der Automation Suite
- Herunterladen der Installationspakete und Übertragen aller Dateien auf den ersten Serverknoten
- Abrufen der zuletzt angewendeten Konfiguration aus dem Cluster
- Aktualisieren der Clusterkonfiguration
- Konfigurieren der OCI-konformen Registrierung für Offline-Installationen
- Migrieren zu einer externen OCI-konformen Registrierung
- Ausführen des Upgrades
- Durchführen von Vorgängen nach dem Upgrade
- Produktspezifische Konfiguration
- Verwenden des Orchestrator-Konfiguratortools
- Konfigurieren von Orchestrator-Parametern
- Orchestrator-appSettings
- Konfigurieren von AppSettings
- Konfigurieren der maximalen Anforderungsgröße
- Überschreiben der Speicherkonfiguration auf Clusterebene
- Konfigurieren von Anmeldeinformationsspeichern
- Konfigurieren der Verwendung von einem Verschlüsselungsschlüssel pro Mandant
- Best Practices und Wartung
- Fehlersuche und ‑behebung
- Fehlerbehebung bei Diensten während der Installation
- Deinstallieren des Clusters
- Löschen von Offline-Artefakten für mehr Speicherplatz
- So löschen Sie Redis-Daten
- So können Sie die Istio-Protokollierung aktivieren
- So werden Protokolle manuell bereinigt
- So löschen Sie alte Protokolle, die im sf-logs-Paket gespeichert sind
- So deaktivieren Sie Streaming-Protokolle für das AI Center
- Fehlerbehebung bei fehlgeschlagenen Automation Suite-Installationen
- So löschen Sie Bilder aus dem alten Installationsprogramm nach dem Upgrade
- Deaktivieren von NIC-Prüfsummen-Offloading
- Upgrade von Automation Suite 2022.10.10 und 2022.4.11 auf 2023.10.2
- So legen Sie die ArgoCD-Protokollebene manuell auf Info fest
- Es kann keine Offlineinstallation auf RHEL 8.4 OS ausgeführt werden.
- Fehler beim Herunterladen des Pakets
- Die Offlineinstallation schlägt aufgrund fehlender binärer Dateien fehl
- Zertifikatproblem bei der Offlineinstallation
- Die erste Installation schlägt während des Longhorn-Setups fehl
- Validierungsfehler bei der SQL-Verbindungszeichenfolge
- Voraussetzungsprüfung für das Selinux-iscsid-Modul schlägt fehl
- Azure-Datenträger nicht als SSD markiert
- Fehler nach der Zertifikatsaktualisierung
- Virenschutz verursacht Probleme bei der Installation
- Automation Suite funktioniert nach Betriebssystem-Upgrade nicht
- Bei der Automation Suite muss „backlog_wait_time“ auf 0 gesetzt werden.
- Volume nicht bereitstellbar, da es nicht für Workloads bereit ist
- Fehler im Cluster nach automatisiertem Upgrade von 2021.10
- Upgrade schlägt aufgrund eines fehlerhaften Ceph . fehl
- Rke2 wird aufgrund von Platzproblemen nicht gestartet
- Datenträger kann nicht verbunden werden und verbleibt im Status der „Attach/Detach“-Schleife
- Upgrade schlägt aufgrund von klassischen Objekten in der Orchestrator-Datenbank fehl
- Ceph-Cluster in beeinträchtigtem Status nach parallelem Upgrade
- Fehlerhafte Insights-Komponente verursacht Fehlschlag der Migration
- Dienst-Upgrade schlägt für Apps fehl
- Timeouts beim direkten Upgrade
- Docker-Registrierungsmigration bleibt in PVC-Löschphase hängen
- AI Center-Bereitstellungsfehler nach Upgrade auf 2023.10
- Upgrade schlägt in Offline-Umgebungen fehl
- Fehler beim Hoch- oder Herunterladen von Daten im Objektspeicher
- Die Größenänderung eines PVC bewirkt keine Korrektur von Ceph
- Fehler beim Ändern der Größe von objectstore PVC
- Rook Ceph oder Looker-Pod hängen im Init-Status fest
- Fehler beim Anhängen eines StatefulSet-Volumes
- Fehler beim Erstellen persistenter Volumes
- Festlegen eines Timeout-Intervalls für die Verwaltungsportale
- Die Authentifizierung funktioniert nach der Migration nicht
- Kinit: KDC kann für Realm <AD Domain> beim Abrufen der ersten Anmeldeinformationen nicht gefunden werden.
- Kinit: Keytab enthält keine geeigneten Schlüssel für *** beim Abrufen der ersten Anmeldeinformationen
- GSSAPI-Vorgang aufgrund eines ungültigen Statuscodes fehlgeschlagen
- Alarm für fehlgeschlagenen Kerberos-tgt-update-Auftrag erhalten
- SSPI-Anbieter: Server in Kerberos-Datenbank nicht gefunden
- Anmeldung eines AD-Benutzers aufgrund eines deaktivierten Kontos fehlgeschlagen
- ArgoCD-Anmeldung fehlgeschlagen
- Aktualisieren Sie die zugrunde liegenden Verzeichnisverbindungen
- Fehler beim Abrufen des Sandbox-Abbilds
- Pods werden nicht in der ArgoCD-Benutzeroberfläche angezeigt
- Redis-Testfehler
- RKE2-Server kann nicht gestartet werden
- Secret nicht im UiPath-Namespace gefunden
- ArgoCD wechselt nach der ersten Installation in den Status „In Bearbeitung“.
- MongoDB-Pods in „CrashLoopBackOff“ oder ausstehende PVC-Bereitstellung nach Löschung
- Fehlerhafte Dienste nach Clusterwiederherstellung oder Rollback
- Pods stecken in Init:0/X
- Fehlende Ceph-rook-Metriken in Überwachungs-Dashboards
- Document Understanding erscheint nicht auf der linken Leiste der Automation Suite
- Fehlerstatus beim Erstellen einer Datenbeschriftungssitzung
- Fehlerstatus beim Versuch, eine ML-Fähigkeit bereitzustellen
- Migrationsauftrag schlägt in ArgoCD fehl
- Die Handschrifterkennung mit dem Intelligent Form Extractor funktioniert nicht oder arbeitet zu langsam
- Ausführen des Diagnosetools
- Verwenden des Automation Suite Support Bundle-Tools
- Erkunden von Protokollen
Verwaltungswarnungen
Dies sind interne Alertmanager-Fehler für HA-Cluster mit mehreren Alertmanager-Replikaten. Warnungen können in unregelmäßigen Abständen erscheinen und wieder verschwinden. Eine vorübergehende Verkleinerung und dann eine Vergrößerung der Alertmanager-Replikate kann das Problem beheben.
Führen Sie die folgenden Schritte aus, um das Problem zu beheben:
-
Skalieren Sie auf Null. Beachten Sie, dass es einen Moment dauert, bis die Pods heruntergefahren werden:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0 -
Skalieren Sie zurück auf zwei:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2 -
Überprüfen Sie, ob die Alertmanager-Pods gestartet wurden und ob sie ausgeführt werden:
kubectl get po -n cattle-monitoring-system
kubectl get po -n cattle-monitoring-system
If the issue persists, contact UiPath® Support.
AlertManager has failed to load or reload configuration. Please check any custom AlertManager configurations for input errors and otherwise contact UiPath® Support.
Dies sind interne Alertmanager-Fehler für HA-Cluster mit mehreren Alertmanager-Replikaten. Warnungen können in unregelmäßigen Abständen erscheinen und wieder verschwinden. Eine vorübergehende Verkleinerung und dann eine Vergrößerung der Alertmanager-Replikate kann das Problem beheben.
Führen Sie die folgenden Schritte aus, um das Problem zu beheben:
-
Skalieren Sie auf Null. Beachten Sie, dass es einen Moment dauert, bis die Pods heruntergefahren werden:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0 -
Skalieren Sie zurück auf zwei:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2 -
Überprüfen Sie, ob die Alertmanager-Pods gestartet wurden und ob sie ausgeführt werden:
kubectl get po -n cattle-monitoring-system
kubectl get po -n cattle-monitoring-system
If the issue persists, contact UiPath® Support.
Prometheus ist nicht in der Lage, Metriken von dem Ziel in der Warnung zu sammeln, was bedeutet, dass die Grafana-Dashboards und weitere Warnungen, die auf Metriken von diesem Ziel basieren, nicht verfügbar sind. Überprüfen Sie andere Warnungen, die dieses Ziel betreffen.
Diese Warnung soll sicherstellen, dass die gesamte Warnungspipeline funktionsfähig ist. Diese Warnung wird immer ausgelöst. Daher sollte sie immer in AlertManager und gegen einen Receiver ausgelöst werden. Es gibt Integrationen mit verschiedenen Benachrichtigungsmechanismen, die Sie benachrichtigen, wenn diese Warnung nicht ausgelöst wird. Zum Beispiel die DeadMansSnitch-Integration in PagerDuty.
PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
Internal errors of the Prometheus operator, which controls Prometheus resources. Prometheus itself may still be healthy while these errors are present; however, this error indicates there is degraded monitoring configurability. Contact UiPath® Support.
Prometheus has failed to load or reload configuration. Please check any custom Prometheus configurations for input errors. Otherwise contact UiPath® Support.
PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
The connection from Prometheus to AlertManager is not healthy. Metrics may still be queryable, and Grafana dashboards may still show them, but alerts will not fire. Check any custom configuration of AlertManager for input errors and and otherwise contact UiPath® Support.
PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
Internal Prometheus errors indicating metrics may not be collected as expected. Please contact UiPath® Support.
This may happen if there are malformed alerts based on non-existent metrics or incorrect PromQL syntax. Contact UiPath® Support if no custom alerts have been added.
Prometheus is not able to evaluate whether alerts should be firing. This may happen if there are too many alerts. Please remove expensive custom alert evaluations and/or see documentation on increasing CPU limit for Prometheus. Contact UiPath® Support if no custom alerts have been added.
Diese Warnungen warnen, wenn sich der Cluster den konfigurierten Grenzwerten für Arbeitsspeicher und Speicher nähert. Dies ist wahrscheinlich bei Clustern der Fall, bei denen die Nutzung in letzter Zeit erheblich zugenommen hat (normalerweise von Robotern und nicht von Benutzern) oder wenn Knoten zum Cluster hinzugefügt werden, ohne Prometheus-Ressourcen anzupassen. Dies ist auf eine Zunahme der Menge der gesammelten Metriken zurückzuführen.
Die höhere Speichernutzungsrate ist im Dashboard Kubernetes/Persistent Volumes zu sehen:
Sie können es anpassen, indem Sie die Größe des PVC wie hier beschrieben ändern: Konfigurieren des Clusters.
Die Rate der erhöhten Speichernutzung ist im „Kubernetes/Computeressourcen/Pod“-Dashboard zu sehen.
Sie können sie anpassen, indem Sie die Prometheus-Speicherressourcenlimits in der Rancher-Monitoring-App über ArgoCD bearbeiten. Die Rancher-Monitoring-App wird nach dem Klicken auf Speichernautomatisch erneut synchronisiert.
Beachten Sie, dass Prometheus einige Zeit benötigt, um neu zu starten und wieder Metriken in Grafana anzuzeigen. Selbst bei großen Clustern dauert es in der Regel weniger als 10 Minuten.
The number of http 500 responses from UiPath® services exceeds a given threshold.
Verkehrsaufkommen |
Anzahl der Anfragen in 20 Minuten |
Fehlerschwellenwert (für HTTP 500) |
---|---|---|
Hoch |
>100.000 |
0,1 % |
Mittel |
Zwischen 10.000 und 100.000 |
1 % |
Niedrig |
< 10.000 |
5 % |
Fehler in benutzerorientierten Diensten würden wahrscheinlich zu einer Beeinträchtigung der Funktionalität führen, die in der Benutzeroberfläche der Automation Suite direkt sichtbar ist, während Fehler in Backend-Diensten weniger offensichtliche Folgen hätten.
Die Warnung gibt an, welcher Dienst eine hohe Fehlerquote aufweist. Um zu verstehen, welche Kaskadenprobleme von anderen Diensten aus auftreten können, von denen der Berichtdienst abhängt, können Sie das Istio Workload-Dashboard verwenden, das Fehler zwischen Diensten anzeigt.
Please double check any recently reconfigured Automation Suite products. Detailed logs are also available with the kubectl logs command. If the error persists, please contact UiPath® Support.
Diese Warnung weist darauf hin, dass die NFS-Serververbindung unterbrochen wurde.
Sie müssen die NFS-Serververbindung und den Mount-Pfad überprüfen.
uipath-infra/istio-configure-script-cronjob
befindet sich im Status „Angehalten“.
Um dieses Problem zu beheben, aktivieren Sie den Cronjob, indem Sie die folgenden Schritte ausführen:
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
- alertmanager.rules
- AlertmanagerConfigInconsistent
- AlertmanagerFailedReload
- AlertmanagerMembersInconsistent
- allgemeine.regeln
- TargetDown
- Watchdog
- prometheus-operator
- PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
- Prometheus
- PrometheusBadConfig
- PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
- PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
- PrometheusRuleFailures
- PrometheusMissingRuleEvaluations
- PrometheusTargetLimitHit
- uipath.prometheus.resource.provisioning.alerts
- PrometheusMemoryUsage, PrometheusStorageUsage
- uipath.availability.alerts
- UiPathAvailabilityHighTrafficUserFacing
- Sicherung
- NFSServerDisconnected
- VolumeBackupFailed
- BackupDisabled
- cronjob-alerts
- CronJobSuspended
- IdentityKerberosTgtUpdateFailed