- Überblick
- Anforderungen
- Empfohlen: Bereitstellungsvorlagen
- Anleitung: Vorbereiten der Installation
- Anleitung: Vorbereiten der Installation
- Schritt 1: Konfigurieren der OCI-konformen Registrierung für Offline-Installationen
- Schritt 2: Konfigurieren des externen Objektspeichers
- Schritt 3: Konfigurieren eines High Availability Add-ons
- Schritt 4: Konfigurieren von Microsoft SQL Server
- Schritt 5: Konfigurieren des Lastausgleichs
- Schritt 6: Konfigurieren des DNS
- Schritt 7: Konfigurieren der Datenträger
- Schritt 8: Konfigurieren der Einstellungen auf Kernel- und Betriebssystemebene
- Schritt 9: Konfigurieren der Knotenports
- Schritt 10: Anwenden verschiedener Einstellungen
- Schritt 12: Validieren und Installieren der erforderlichen RPM-Pakete
- Schritt 13: Generieren von cluster_config.json
- Zertifikatkonfiguration
- Datenbankkonfiguration
- Konfiguration des externen Objektspeichers
- Vorsignierte URL-Konfiguration
- Externe OCI-konforme Registrierungskonfiguration
- Disaster Recovery: Aktiv/Passiv- und Aktiv/Aktiv-Konfigurationen
- Konfiguration des High Availability Add-ons
- Spezifische Orchestrator-Konfiguration
- Insights-spezifische Konfiguration
- Process Mining-spezifische Konfiguration
- Spezifische Konfiguration für Document Understanding
- Spezifische Konfiguration für Automation Suite Robots
- Konfiguration der Überwachung
- Optional: Konfigurieren des Proxyservers
- Optional: Aktivieren der Widerstandsfähigkeit gegen zonale Ausfälle in einem HA-fähigen Produktionscluster mit mehreren Knoten
- Optional: Übergeben einer benutzerdefinierten resolv.conf-Datei
- Optional: Erhöhen der Fehlertoleranz
- install-uipath.sh-Parameter
- Hinzufügen eines dedizierten Agent-Knotens mit GPU-Unterstützung
- Hinzufügen eines dedizierten Agent-Knotens für Task Mining
- Verbinden einer Task Mining-Anwendung
- Hinzufügen eines dedizierten Agentenknotens für Automation Suite-Roboter
- Schritt 15: Konfigurieren der temporären Docker-Registrierung für Offline-Installationen
- Schritt 16: Validieren der Voraussetzungen für die Installation
- Manuell: Durchführen der Installation
- Nach der Installation
- Clusterverwaltung
- Verwalten von Produkten
- Erste Schritte mit dem Clusterverwaltungsportal
- Migrieren von Objectstore von persistentem Volume zu Raw-Festplatten
- Migrieren vom clusterinternen zum externen High Availability Add-on
- Migrieren von Daten zwischen Objectstores
- Clusterinterner Objectstore zu einem externen Objectstore migrieren
- Migrieren zu einer externen OCI-konformen Registrierung
- Manueller Wechsel zum sekundären Cluster in einem Aktiv-/Passiv-Setup
- Disaster Recovery: Durchführen von Vorgängen nach der Installation
- Umwandlung einer bestehenden Installation in eine Multi-Site-Einrichtung
- Richtlinien zum Upgrade einer Aktiv/Passiv- oder Aktiv/Aktiv-Bereitstellung
- Leitlinien zum Sichern und Wiederherstellen einer Aktiv-/Passiv- oder Aktiv/Aktiv-Bereitstellung
- Umleitung des Datenverkehrs für die nicht unterstützten Dienste auf den primären Cluster
- Überwachung und Warnungen
- Migration und Upgrade
- Schritt 1: Verschieben der Identitätsorganisationsdaten von einer eigenständigen in die Automation Suite
- Schritt 2: Wiederherstellen der eigenständigen Produktdatenbank
- Schritt 3: Sichern der Plattformdatenbank in der Automation Suite
- Schritt 4: Zusammenführen von Organisationen in der Automation Suite
- Schritt 5: Aktualisieren der migrierten Produktverbindungszeichenfolgen
- Schritt 6: Migrieren des eigenständigen Orchestrators
- Schritt 7: Migrieren von eigenständigen Insights
- Schritt 8: Löschen des Standardmandanten
- B) Migration von einzelnen Mandanten
- Migrieren von der Automation Suite unter Linux zur Automation Suite unter EKS/AKS
- Aktualisieren der Automation Suite
- Herunterladen der Installationspakete und Übertragen aller Dateien auf den ersten Serverknoten
- Abrufen der zuletzt angewendeten Konfiguration aus dem Cluster
- Aktualisieren der Clusterkonfiguration
- Konfigurieren der OCI-konformen Registrierung für Offline-Installationen
- Ausführen des Upgrades
- Durchführen von Vorgängen nach dem Upgrade
- Produktspezifische Konfiguration
- Verwenden des Orchestrator-Konfiguratortools
- Konfigurieren von Orchestrator-Parametern
- Orchestrator-appSettings
- Konfigurieren von AppSettings
- Konfigurieren der maximalen Anforderungsgröße
- Überschreiben der Speicherkonfiguration auf Clusterebene
- Konfigurieren von Anmeldeinformationsspeichern
- Konfigurieren der Verwendung von einem Verschlüsselungsschlüssel pro Mandant
- Bereinigen der Orchestrator-Datenbank
- Best Practices und Wartung
- Fehlersuche und ‑behebung
- Fehlerbehebung bei Diensten während der Installation
- Deinstallieren des Clusters
- Löschen von Offline-Artefakten für mehr Speicherplatz
- So löschen Sie Redis-Daten
- So können Sie die Istio-Protokollierung aktivieren
- So werden Protokolle manuell bereinigt
- So löschen Sie alte Protokolle, die im sf-logs-Paket gespeichert sind
- So deaktivieren Sie Streaming-Protokolle für das AI Center
- Fehlerbehebung bei fehlgeschlagenen Automation Suite-Installationen
- So löschen Sie Bilder aus dem alten Installationsprogramm nach dem Upgrade
- Deaktivieren von TX-Prüfsummen-Offloading
- Upgrade von Automation Suite 2022.10.10 und 2022.4.11 auf 2023.10.2
- So legen Sie die ArgoCD-Protokollebene manuell auf Info fest
- So erweitern Sie den AI Center-Speicher
- So wird der codierte pull_secret_value für externe Registrierungen generiert
- Umgang mit schwachen Verschlüsselungen in TLS 1.2
- Es kann keine Offlineinstallation auf RHEL 8.4 OS ausgeführt werden.
- Fehler beim Herunterladen des Pakets
- Die Offlineinstallation schlägt aufgrund fehlender binärer Dateien fehl
- Zertifikatproblem bei der Offlineinstallation
- Die erste Installation schlägt während des Longhorn-Setups fehl
- Validierungsfehler bei der SQL-Verbindungszeichenfolge
- Voraussetzungsprüfung für das Selinux-iscsid-Modul schlägt fehl
- Azure-Datenträger nicht als SSD markiert
- Fehler nach der Zertifikatsaktualisierung
- Virenschutz verursacht Probleme bei der Installation
- Automation Suite funktioniert nach Betriebssystem-Upgrade nicht
- Bei der Automation Suite muss „backlog_wait_time“ auf 0 gesetzt werden.
- Volume nicht bereitstellbar, da es nicht für Workloads bereit ist
- Fehler bei der Protokollsammlung des Supportpakets
- Das Upgrade eines einzelnen Knotens schlägt in der Fabric-Phase fehl
- Fehler im Cluster nach automatisiertem Upgrade von 2021.10
- Upgrade schlägt aufgrund eines fehlerhaften Ceph . fehl
- Rke2 wird aufgrund von Platzproblemen nicht gestartet
- Datenträger kann nicht verbunden werden und verbleibt im Status der „Attach/Detach“-Schleife
- Upgrade schlägt aufgrund von klassischen Objekten in der Orchestrator-Datenbank fehl
- Ceph-Cluster in beeinträchtigtem Status nach parallelem Upgrade
- Fehlerhafte Insights-Komponente verursacht Fehlschlag der Migration
- Dienst-Upgrade schlägt für Apps fehl
- Timeouts beim direkten Upgrade
- Docker-Registrierungsmigration bleibt in PVC-Löschphase hängen
- AI Center-Bereitstellungsfehler nach Upgrade auf 2023.10
- Upgrade schlägt in Offline-Umgebungen fehl
- SQL-Validierung schlägt während des Upgrades fehl
- Snapshot-controller-crds Pod im Status CrashLoopBackOff nach dem Upgrade
- Fehler beim Hoch- oder Herunterladen von Daten im Objektspeicher
- Die Größenänderung eines PVC bewirkt keine Korrektur von Ceph
- Fehler beim Ändern der Größe von objectstore PVC
- Rook Ceph oder Looker-Pod hängen im Init-Status fest
- Fehler beim Anhängen eines StatefulSet-Volumes
- Fehler beim Erstellen persistenter Volumes
- Festlegen eines Timeout-Intervalls für die Verwaltungsportale
- Die Authentifizierung funktioniert nach der Migration nicht
- kinit: KDC kann für Realm <AD Domain> beim Abrufen der ersten Anmeldeinformationen nicht gefunden werden
- Kinit: Keytab enthält keine geeigneten Schlüssel für *** beim Abrufen der ersten Anmeldeinformationen
- GSSAPI-Vorgang aufgrund eines ungültigen Statuscodes fehlgeschlagen
- Alarm für fehlgeschlagenen Kerberos-tgt-update-Auftrag erhalten
- SSPI-Anbieter: Server in Kerberos-Datenbank nicht gefunden
- Anmeldung eines AD-Benutzers aufgrund eines deaktivierten Kontos fehlgeschlagen
- ArgoCD-Anmeldung fehlgeschlagen
- Aktualisieren Sie die zugrunde liegenden Verzeichnisverbindungen
- Fehler beim Abrufen des Sandbox-Abbilds
- Pods werden nicht in der ArgoCD-Benutzeroberfläche angezeigt
- Redis-Testfehler
- RKE2-Server kann nicht gestartet werden
- Secret nicht im UiPath-Namespace gefunden
- ArgoCD wechselt nach der ersten Installation in den Status „In Bearbeitung“.
- MongoDB-Pods in „CrashLoopBackOff“ oder ausstehende PVC-Bereitstellung nach Löschung
- Fehlerhafte Dienste nach Clusterwiederherstellung oder Rollback
- Pods stecken in Init:0/X
- Fehlende Ceph-rook-Metriken in Überwachungs-Dashboards
- Document Understanding erscheint nicht auf der linken Leiste der Automation Suite
- Fehlerstatus beim Erstellen einer Datenbeschriftungssitzung
- Fehlerstatus beim Versuch, eine ML-Fähigkeit bereitzustellen
- Migrationsauftrag schlägt in ArgoCD fehl
- Die Handschrifterkennung mit dem Intelligent Form Extractor funktioniert nicht oder arbeitet zu langsam
- Ausführen von Hochverfügbarkeit mit Process Mining
- Die Process Mining-Datenaufnahme ist bei der Anmeldung über Kerberos fehlgeschlagen
- Nach Disaster Recovery funktioniert Dapr für Process Mining und Task Mining nicht mehr ordnungsgemäß.
- Verbindung mit der Datenbank „AutomationSuite_ProcessMining_Lager“ über eine Verbindungszeichenfolge im pyodbc-Format nicht möglich
- Die Airflow-Installation schlägt mit „sqlaldemy.exc.ArgumentError“ fehl: URL konnte nicht analysiert werden rfc1738 aus Zeichenfolge „
- So fügen Sie eine IP-Tabellenregel hinzu, um den SQL Server-Port 1433 zu verwenden
- Ausführen des Diagnosetools
- Verwenden des Automation Suite Support Bundle-Tools
- Erkunden von Protokollen
Ausführen des Diagnosetools
Das Automation Suite-Diagnosetool führt eine Reihe von Überprüfungen durch, um einen Bericht über den Zustand des Clusters zu erstellen, den Sie analysieren können, um Probleme und deren potenzielle Ursachen zu identifizieren. Das Tool hilft Ihnen bei der Suche nach häufigen Problemen, wie z. B. verlorene Datenbankkonnektivität oder ungültige bzw. abgelaufene Anmeldeinformationen.
uipathctl
als auch in uipathtools
verfügbar, die sie auf Ihre Verwaltungsmaschine herunterladen können.
uipathtools
ist ein CLI-Tool, das eine Teilmenge von uipathctl
-Funktionen enthält, die für Integritätsbefehle spezifisch sind. Das Tool ist abwärtskompatibel und funktioniert mit allen unterstützten Versionen der Automation Suite. Wir empfehlen, uipathtools
als ersten Schritt zu verwenden, wenn ein Problem auftritt.
check
und test
bieten schnelle Einblicke in den Status des Clusters, ohne eine eingehende Analyse durchzuführen.
-
check
ist vom Integritäts- und Synchronisierungsstatus von ArgoCD abhängig und ändert keinen Status im Cluster -
test
sieht sich die Anwendungen, Bereitstellungen oder Pods an und ändert vorübergehend den Status des Clusters, um Ihnen diese Erkenntnisse zu liefern.
Um eine Zustandsprüfung durchzuführen, verwenden Sie einen der folgenden Befehle, je nachdem, welches CLI-Tool Sie verwenden:
- Wenn Sie
uipathctl
verwenden, führen Sie Folgendes aus:./uipathctl health check
./uipathctl health check - Wenn Sie
uipathtools
verwenden, führen Sie Folgendes aus:./uipathtools health check
./uipathtools health check
uipathctl health check
Zustandsprüfungen für alle Komponenten aus. Er ermöglicht Ihnen jedoch auch, genau die Komponenten zu überprüfen, an denen Sie interessiert sind:
- Wenn Sie Komponenten von der Ausführung ausschließen möchten, verwenden Sie das Flag
--excluded
. Wenn Sie beispielsweise den Zustand von SQL nicht überprüfen möchten, führen Sieuipathctl health check --excluded SQL
aus. Der Befehl überprüft den Zustand aller Komponenten mit Ausnahme von SQL. - Wenn Sie nur bestimme Komponenten in die Ausführung einschließen möchten, verwenden Sie das Flag
--included
. Wenn Sie beispielsweise nur das DNS und den Objektspeicher überprüfen möchten, führen Sieuipathctl health check --included DNS,OBJECTSTORAGE
aus.
Analysieren der Protokolle
- Nach dem Ausführen einer Zustandsüberprüfung zeigen die Protokolle, dass die Zustandsprüfung für die Data Service-Anwendung fehlgeschlagen ist.
❌ [DATASERVICE] ❌ [DATASERVICE_HEALTH] Application health check failed: health status is Progressing and sync status is Synced
❌ [DATASERVICE] ❌ [DATASERVICE_HEALTH] Application health check failed: health status is Progressing and sync status is Synced - Nach weiteren Untersuchungen wird klar, dass die Data Service-Anwendung fehlgeschlagen ist, da sich die Pods
dataservice-runtime-8f5bb7d56-v5krg
unddataservice-taskrunner-787df76c74-98h5l
in einem fehlerhaften Zustand befinden. Bei einer weiteren Analyse stellen Sie fest, dass das fehlendedataservice-external-storage-secret
fehlt.❌ [POD] ✔ [LIST_NAMESPACES] Retrieved 25 namespaces to check pod health ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-v5krg cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-xs9t5 cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-taskrunner-787df76c74-98h5l cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found
❌ [POD] ✔ [LIST_NAMESPACES] Retrieved 25 namespaces to check pod health ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-v5krg cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-xs9t5 cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-taskrunner-787df76c74-98h5l cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found - Um dieses Problem zu beheben, stellen Sie sicher, dass Sie die richtigen Anmeldeinformationen für den Objektspeicher in der
cluster_config.json
angegeben haben.
Um einen Integritätstest auszuführen, verwenden Sie je nach CLI-Tool einen der folgenden Befehle:
- Wenn Sie
uipathctl
verwenden, führen Sie Folgendes aus:./uipathctl health test
./uipathctl health test - Wenn Sie
uipathtools
verwenden, führen Sie Folgendes aus:./uipathtools health test
./uipathtools health test
uipathctl health test
Zustandsprüfungen für alle Komponenten aus. Er ermöglicht Ihnen jedoch auch, genau die Komponenten zu überprüfen, an denen Sie interessiert sind:
- Wenn Sie Komponenten von der Ausführung ausschließen möchten, verwenden Sie das Flag
--excluded
. Wenn Sie beispielsweise den Zustand von SQL nicht überprüfen möchten, führen Sieuipathctl health test --excluded SQL
aus. Der Befehl überprüft den Zustand aller Komponenten mit Ausnahme von SQL. - Wenn Sie nur bestimme Komponenten in die Ausführung einschließen möchten, verwenden Sie das Flag
--included
. Wenn Sie beispielsweise nur das DNS und den Objektspeicher überprüfen möchten, führen Sieuipathctl health test --included DNS,OBJECTSTORAGE
aus.
check
und test
für die Data Service-Anwendung vergleichen, können Sie sehen, dass erstere den Zustand der Anwendung validiert, während letztere das Routing überprüft.
Bekanntes Problem
Möglicherweise erhalten Sie eine Fehlermeldung ähnlich dem folgenden Beispiel. Sie können dies ignorieren, da keine Actions erforderlich sind.
E0621 23:32:56.426321 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.426392 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.444420 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.446150 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.513357 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.426321 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.426392 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.444420 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.446150 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.513357 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
diagnose
-Befehl bietet tiefe Einblicke in den Status des Clusters. Es hilft Ihnen, Probleme auf allen Ebenen zu identifizieren, z. B. SQL, Objektspeicher, Knoten, Geheimnis, Istio, Metworking usw.
- Sie deckt sowohl die Befehle
check
als auchtest
ab. - Es führt die Voraussetzungsprüfungen durch, die vor der Installation der Automation Suite durchgeführt wurden, um Änderungen an der Umgebungskonfiguration zu validieren, die nach der Installation vorgenommen wurden und die eine potenzielle Ursache für das Problem sein können.
-
Es wird auf allen Knoten ausgeführt, um alle knotenspezifischen Probleme zu sammeln, z. B. die Nichtverfügbarkeit von Ressourcen, Netzwerkinterferenzen usw.
Um eine Diagnoseprüfung auszuführen, verwenden Sie je nach CLI-Tool einen der folgenden Befehle:
- Wenn Sie
uipathctl
verwenden, führen Sie Folgendes aus:./uipathctl health diagnose cluster_config.json --versions version.json
./uipathctl health diagnose cluster_config.json --versions version.json - Wenn Sie
uipathtools
verwenden, führen Sie Folgendes aus:./uipathtools health diagnose cluster_config.json --versions version.json
./uipathtools health diagnose cluster_config.json --versions version.json
--namespace
flag (optional) if you do not provide input.json
. Yot need to use the flag only if the installation is not in the <uipath> namespace. Without the flag, diagnostics data will be fetched from all namespaces.
diagnose
auf mehreren Ebenen ausgeführt, z. B. Infrastruktur, Netzwerk, Speicher, Pods, DNS usw.
Analysieren der Protokolle
Es gibt zwei potenzielle Probleme, die in den vorherigen Protokollen zu erkennen sind:
- Istio hat eine falsche Konfiguration, die Probleme beim Zugriff auf die Document Understanding-Plattform verursachen kann:
❌ [ISTIO] ✔ [ISTIO_SYNC_STATUS] Istio sync is up-to-date ❌ [ISTIO_ENVOY_CONFIG_STATUS] Istio Envoy configs are not healthy: Error [IST0101] (VirtualService uipath/du-platform-vs) Referenced host:port not found: "aistorage:5000"
❌ [ISTIO] ✔ [ISTIO_SYNC_STATUS] Istio sync is up-to-date ❌ [ISTIO_ENVOY_CONFIG_STATUS] Istio Envoy configs are not healthy: Error [IST0101] (VirtualService uipath/du-platform-vs) Referenced host:port not found: "aistorage:5000" - Data Service ist nicht verfügbar. Siehe Ceph im Codebeispiel.
❌ [DATASERVICE] ❌ [DATASERVICE_HEALTH] Application health check failed: health status is Progressing and sync status is Synced ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-v5krg cannot mount volume: (combined from similar events): Unable to attach or mount volumes: unmounted volumes=[external-storage-creds], unattached volumes=[workload-socket is-secrets openssl istio-podinfo temp-location cert-location istio-data external-storage-creds workload-certs istio-envoy java domain-cert-config edk2 credential-socket tmp additional-ca-cert-config pem istiod-ca-cert istio-token app-secrets ceph-storage-creds]: timed out waiting for the condition ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-xs9t5 cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-taskrunner-787df76c74-98h5l cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found
❌ [DATASERVICE] ❌ [DATASERVICE_HEALTH] Application health check failed: health status is Progressing and sync status is Synced ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-v5krg cannot mount volume: (combined from similar events): Unable to attach or mount volumes: unmounted volumes=[external-storage-creds], unattached volumes=[workload-socket is-secrets openssl istio-podinfo temp-location cert-location istio-data external-storage-creds workload-certs istio-envoy java domain-cert-config edk2 credential-socket tmp additional-ca-cert-config pem istiod-ca-cert istio-token app-secrets ceph-storage-creds]: timed out waiting for the condition ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-xs9t5 cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-taskrunner-787df76c74-98h5l cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found
Bekannte Probleme (Known Issues)
Möglicherweise erhalten Sie eine Fehlermeldung ähnlich dem folgenden Beispiel. Sie können dies ignorieren, da keine Actions erforderlich sind.
check
, test
und diagnose
) unterstützen zusätzliche Filter- und Ausgabeformate.
Filtern
Filter |
Beschreibung |
Verwendungen |
---|---|---|
|
Kommagetrennte Liste der Dienste, die in die Validierung einbezogen werden sollen |
Dieser Befehl führt die Diagnose nur für Istio und Insights aus. |
|
Kommagetrennte Liste der Dienste, die von der Validierung ausgeschlossen werden sollen |
Dieser Befehl führt den Test im gesamten Cluster mit Ausnahme von Istio und Insights aus. |
Ausgabeformat
json
, yaml
, text
und junit
. Sie können diese Werte über das Flag --output
an einen beliebigen Befehl übergeben. Diese Ausgabeformate sind praktisch, wenn Sie diese Tools nutzen möchten, um darauf aufbauend Ihr eigenes Framework zur Fehlerbehebung zu erstellen.
Verwendungsbeispiele
Nutzung |
Beispielausgabe |
---|---|
|
|
|
|
|
|
|
|
INFO-Protokolle in Grün zeigen, dass die erforderlichen Prüfungen bestanden wurden. Sie sollten jedoch die Festplatten-/Speichernutzung weiterhin gründlich kontrollieren, um verborgene Fehler zu vermeiden.
Obwohl diese Meldungen kein hohes Risiko bedeuten, müssen Sie die Fehler möglicherweise korrigieren, da sie sich in bestimmten Fällen auf einige Dienste auswirken könnten.
Sie müssen die von diesen Nachrichten beschriebenen Probleme beheben, da sie sich auf einen Dienst im Cluster auswirken.
Wenn diese Dienste ausgefallen sind, bedeutet dies, dass der Knoten ausgefallen ist. Versuchen Sie, den Dienst mithilfe des systemctl-Neustarts <service-name> neu zu starten. Dadurch sollte das Problem behoben werden.
/var/lib
bereitgestellt wird, da Kubernetes es zum Speichern ihrer Daten verwendet. Wenn das Verzeichnis voll ist, können verschiedene Probleme auftreten. Um diese Probleme zu vermeiden, vergrößern Sie es entsprechend.
Bei allen Knoten geben wir an, ob Festplattendruck oder Speicherdruck vorliegt. Ist das der Fall, können bei Workloads auf diesen Knoten Probleme auftreten. Überprüfen Sie, ob auf diesen Knoten andere Prozesse ausgeführt werden, die Ressourcen verbrauchen, und entfernen Sie sie gegebenenfalls.
Wir verwenden Ceph als S3-Objektspeicher zum Speichern von Protokollen und Dateien aus verschiedenen Anwendungen. Sie können den Status der Dienste sehen. Falls sie ausgefallen sind, müssen Sie sie möglicherweise neu starten. Überprüfen Sie auch, ob die Festplattennutzung durch Ceph ausgereizt ist.
443
und 31443
mit dem angegebenen Hostnamen offen sind. Der Bericht zeigt an, wenn sie nicht zugänglich sind. Stellen Sie sicher, dass Sie die entsprechenden Ports öffnen, falls dieser Hinweis kommt.
Das Tool prüft, ob das hochgeladene Zertifikat für den angegebenen Hostnamen gültig ist und ob es noch nicht abgelaufen ist. Wenn das Zertifikat diese Kriterien nicht erfüllt, treten Fehler auf. Um dies zu verhindern, überprüfen Sie Ihr hochgeladenes Zertifikat und ändern Sie es bei Bedarf.
Da für einige Dienste erforderlich ist, dass auf einigen Knoten im Cluster eine GPU vorhanden ist, prüft das Automation Suite-Diagnosetool, ob GPU-Knoten vorhanden sind, und gibt die Anzahl dieser Knoten aus. Wenn Sie wissen, dass GPU-Knoten vorhanden sind, diese aber hier nicht angezeigt werden, bedeutet das, dass bei der GPU-Einrichtung ein Fehler aufgetreten ist.
RabbitMQ und DockerRegistry sind zwei wichtige Komponenten, die von einigen Diensten genutzt werden. Ist einer von ihnen ausgefallen, müssen Sie das Problem untersuchen und einen Neustart durchführen.
Die ArgoCD ist unser Tool für das Application Lifecycle Management (ALM). Wenn einer seiner Dienste ausgefallen ist, kann das daran liegen, dass andere Anwendungen veraltet sind oder andere Probleme haben. Die Wiederherstellung dieser Dienste ist wichtig und erfordert möglicherweise weitere Fehlerbehebungen.
Das Automation Suite-Diagnosetool zeigt an, ob ArgoCD-Anwendungen fehlen und beeinträchtigt sind.
- Wenn Anwendungen fehlen, wechseln Sie zur ArgoCD-Benutzeroberfläche und synchronisieren Sie sie.
- Wenn Anwendungen mangelhaft laufen, sind zusätzliche Fehlerbehebungen erforderlich, um die von der ArgoCD ausgelösten Fehler zu untersuchen.
- Schnelle Validierung
- Schnelle Validierung
- Zustandsprüfung
- Integritätstest
- Umfassende Validierung
- Umfassende Validierung
- Zusätzliche Dienstprogramme
- Zusätzliche Dienstprogramme
- Lesen von Diagnoseberichten
- INFO-Protokolle
- WARN-Meldungen
- Fehlermeldungen
- Rke2-Server oder Rke2-Agent-Dienst ausgefallen
- Bereitgestellte Verzeichnisgröße unter /var/lib
- Rke2-Version
- Festplattendruck oder Speicherdruck
- Status der Ceph-Dienste
- Ports 443 und 31443
- Gültigkeit des Zertifikats
- GPU
- RabbitMQ und DockerRegistry
- ArgoCD ausgefallen
- Fehlende oder mangelhafte ArgoCD-Anwendungen