- Überblick
- Anforderungen
- Bereitstellungsvorlagen
- Anleitung: Vorbereiten der Installation
- Anleitung: Vorbereiten der Installation
- Schritt 2: Konfigurieren der OCI-konformen Registrierung für Offline-Installationen
- Schritt 3: Konfigurieren des externen Objektspeichers
- Schritt 4: Konfigurieren des High Availability Add-on
- Schritt 5: Konfigurieren von SQL-Datenbanken
- Schritt 6: Konfigurieren des Lastausgleichs
- Schritt 7: Konfigurieren des DNS
- Schritt 8: Konfigurieren der Datenträger
- Schritt 9: Konfigurieren der Einstellungen auf Kernel- und Betriebssystemebene
- Schritt 10: Konfigurieren der Knotenports
- Schritt 11: Anwenden verschiedener Einstellungen
- Schritt 12: Validieren und Installieren der erforderlichen RPM-Pakete
- Schritt 13: Generieren von cluster_config.json
- Zertifikatkonfiguration
- Datenbankkonfiguration
- Konfiguration des externen Objektspeichers
- Vorsignierte URL-Konfiguration
- Konfiguration der Kerberos-Authentifizierung
- Externe OCI-konforme Registrierungskonfiguration
- Disaster Recovery: Aktiv/Passiv- und Aktiv/Aktiv-Konfigurationen
- Konfiguration des High Availability Add-ons
- Spezifische Orchestrator-Konfiguration
- Insights-spezifische Konfiguration
- Process Mining-spezifische Konfiguration
- Spezifische Konfiguration für Document Understanding
- Spezifische Konfiguration für Automation Suite Robots
- Konfiguration der Überwachung
- Optional: Konfigurieren des Proxyservers
- Optional: Aktivieren der Widerstandsfähigkeit gegen zonale Ausfälle in einem HA-fähigen Produktionscluster mit mehreren Knoten
- Optional: Übergeben einer benutzerdefinierten resolv.conf-Datei
- Optional: Erhöhen der Fehlertoleranz
- install-uipath.sh-Parameter
- Hinzufügen eines dedizierten Agent-Knotens mit GPU-Unterstützung
- Hinzufügen eines dedizierten Agent-Knotens für Task Mining
- Verbinden einer Task Mining-Anwendung
- Hinzufügen eines dedizierten Agentenknotens für Automation Suite-Roboter
- Schritt 15: Konfigurieren der temporären Docker-Registrierung für Offline-Installationen
- Schritt 16: Validieren der Voraussetzungen für die Installation
- Manuell: Durchführen der Installation
- Nach der Installation
- Clusterverwaltung
- Verwalten von Produkten
- Erste Schritte mit dem Clusterverwaltungsportal
- Hinzufügen eines neuen Knotens zum Cluster
- Entfernen eines Knotens aus dem Cluster
- Wiederherstellen eines Clusterknotens
- Starten und Herunterfahren eines Knotens
- Umbenennen eines Knotens
- Migrieren von Objectstore von persistentem Volume zu Raw-Festplatten
- Migrieren vom clusterinternen zum externen High Availability Add-on
- Migrieren von Daten zwischen Objectstores
- Clusterinterner Objectstore zu einem externen Objectstore migrieren
- Migrating from in-cluster registry to an external OCI-compliant registry
- Manueller Wechsel zum sekundären Cluster in einem Aktiv-/Passiv-Setup
- Disaster Recovery: Durchführen von Vorgängen nach der Installation
- Umwandlung einer bestehenden Installation in eine Multi-Site-Einrichtung
- Richtlinien zum Upgrade einer Aktiv/Passiv- oder Aktiv/Aktiv-Bereitstellung
- Leitlinien zum Sichern und Wiederherstellen einer Aktiv-/Passiv- oder Aktiv/Aktiv-Bereitstellung
- Umleitung des Datenverkehrs für die nicht unterstützten Dienste auf den primären Cluster
- Skalieren einer Bereitstellung mit einem einzelnen Knoten (Auswertung) zu einer Bereitstellung mit mehreren Knoten (HA).
- Überwachung und Warnungen
- Migration und Upgrade
- Schritt 1: Verschieben der Identitätsorganisationsdaten von einer eigenständigen in die Automation Suite
- Schritt 2: Wiederherstellen der eigenständigen Produktdatenbank
- Schritt 3: Sichern der Plattformdatenbank in der Automation Suite
- Schritt 4: Zusammenführen von Organisationen in der Automation Suite
- Schritt 5: Aktualisieren der migrierten Produktverbindungszeichenfolgen
- Schritt 6: Migrieren des eigenständigen Orchestrators
- Schritt 7: Migrieren von eigenständigen Insights
- Schritt 8: Löschen des Standardmandanten
- Durchführen der Migration eines einzelnen Mandanten
- Migrieren von der Automation Suite unter Linux zur Automation Suite unter EKS/AKS
- Aktualisieren der Automation Suite
- Herunterladen der Installationspakete und Übertragen aller Dateien auf den ersten Serverknoten
- Abrufen der zuletzt angewendeten Konfiguration aus dem Cluster
- Aktualisieren der Clusterkonfiguration
- Konfigurieren der OCI-konformen Registrierung für Offline-Installationen
- Ausführen des Upgrades
- Durchführen von Vorgängen nach dem Upgrade
- Produktspezifische Konfiguration
- Verwenden des Orchestrator-Konfiguratortools
- Konfigurieren von Orchestrator-Parametern
- Orchestrator-appSettings
- Konfigurieren von AppSettings
- Konfigurieren der maximalen Anforderungsgröße
- Überschreiben der Speicherkonfiguration auf Clusterebene
- Konfigurieren von Anmeldeinformationsspeichern
- Konfigurieren der Verwendung von einem Verschlüsselungsschlüssel pro Mandant
- Bereinigen der Orchestrator-Datenbank
- Best Practices und Wartung
- Fehlersuche und ‑behebung
- Fehlerbehebung bei Diensten während der Installation
- Deinstallieren des Clusters
- Löschen von Offline-Artefakten für mehr Speicherplatz
- So löschen Sie Redis-Daten
- So können Sie die Istio-Protokollierung aktivieren
- So werden Protokolle manuell bereinigt
- So löschen Sie alte Protokolle, die im sf-logs-Bucket gespeichert sind
- So deaktivieren Sie Streaming-Protokolle für das AI Center
- Fehlerbehebung bei fehlgeschlagenen Automation Suite-Installationen
- So löschen Sie Bilder aus dem alten Installationsprogramm nach dem Upgrade
- Deaktivieren von TX-Prüfsummen-Offloading
- Upgrade von Automation Suite 2022.10.10 und 2022.4.11 auf 2023.10.2
- So legen Sie die ArgoCD-Protokollebene manuell auf Info fest
- So erweitern Sie den AI Center-Speicher
- So wird der codierte pull_secret_value für externe Registrierungen generiert
- Umgang mit schwachen Verschlüsselungen in TLS 1.2
- So arbeiten Sie mit Zertifikaten
- Weiterleiten von Anwendungsprotokollen an Splunk
- So löschen Sie ungenutzte Docker-Images aus Registrierungs-Pods
- Sammeln von DU-Nutzungsdaten mit dem clusterinternen Objektspeicher (Ceph)
- So installieren Sie RKE2 SELinux in Air-Gap-Umgebungen
- Es kann keine Offlineinstallation auf RHEL 8.4 OS ausgeführt werden.
- Fehler beim Herunterladen des Pakets
- Die Offlineinstallation schlägt aufgrund fehlender binärer Dateien fehl
- Zertifikatproblem bei der Offlineinstallation
- Die erste Installation schlägt während des Longhorn-Setups fehl
- Validierungsfehler bei der SQL-Verbindungszeichenfolge
- Voraussetzungsprüfung für das Selinux-iscsid-Modul schlägt fehl
- Azure-Datenträger nicht als SSD markiert
- Fehler nach der Zertifikatsaktualisierung
- Virenschutz verursacht Probleme bei der Installation
- Automation Suite funktioniert nach Betriebssystem-Upgrade nicht
- Bei der Automation Suite muss „backlog_wait_time“ auf 0 gesetzt werden.
- Volume nicht bereitstellbar, da es nicht für Workloads bereit ist
- Fehler bei der Protokollsammlung des Supportpakets
- SQL-Verbindungszeichenfolge der Testautomatisierung wird ignoriert
- Datenverlust bei der Neuinstallation oder Aktualisierung von Insights nach dem Automation Suite-Upgrade
- Das Upgrade eines einzelnen Knotens schlägt in der Fabric-Phase fehl
- Fehler im Cluster nach automatisiertem Upgrade von 2021.10
- Upgrade schlägt aufgrund eines fehlerhaften Ceph . fehl
- Rke2 wird aufgrund von Platzproblemen nicht gestartet
- Datenträger kann nicht verbunden werden und verbleibt im Status der „Attach/Detach“-Schleife
- Upgrade schlägt aufgrund von klassischen Objekten in der Orchestrator-Datenbank fehl
- Ceph-Cluster in beeinträchtigtem Status nach parallelem Upgrade
- Fehlerhafte Insights-Komponente verursacht Fehlschlag der Migration
- Dienst-Upgrade schlägt für Apps fehl
- Timeouts beim direkten Upgrade
- Docker-Registrierungsmigration bleibt in PVC-Löschphase hängen
- AI Center-Bereitstellungsfehler nach Upgrade auf 2023.10 oder höher
- Upgrade schlägt in Offline-Umgebungen fehl
- SQL-Validierung schlägt während des Upgrades fehl
- Snapshot-controller-crds Pod im Status CrashLoopBackOff nach dem Upgrade
- Fehler beim Upgrade/Neuinstallationsfehler des Longhorn REST API-Endpunkts
- Upgrade schlägt aufgrund überschriebener Insights-PVC-Größen fehl
- Fehler beim Hoch- oder Herunterladen von Daten im Objektspeicher
- Die Größenänderung eines PVC bewirkt keine Korrektur von Ceph
- Fehler beim Ändern der Größe von objectstore PVC
- Rook Ceph oder Looker-Pod hängen im Init-Status fest
- Fehler beim Anhängen eines StatefulSet-Volumes
- Fehler beim Erstellen persistenter Volumes
- Festlegen eines Timeout-Intervalls für die Verwaltungsportale
- Die Authentifizierung funktioniert nach der Migration nicht
- kinit: KDC kann für Realm <AD Domain> beim Abrufen der ersten Anmeldeinformationen nicht gefunden werden
- Kinit: Keytab enthält keine geeigneten Schlüssel für *** beim Abrufen der ersten Anmeldeinformationen
- GSSAPI-Vorgang aufgrund eines ungültigen Statuscodes fehlgeschlagen
- Alarm für fehlgeschlagenen Kerberos-tgt-update-Auftrag erhalten
- SSPI-Anbieter: Server in Kerberos-Datenbank nicht gefunden
- Anmeldung eines AD-Benutzers aufgrund eines deaktivierten Kontos fehlgeschlagen
- ArgoCD-Anmeldung fehlgeschlagen
- Aktualisieren Sie die zugrunde liegenden Verzeichnisverbindungen
- Fehler beim Abrufen des Sandbox-Abbilds
- Pods werden nicht in der ArgoCD-Benutzeroberfläche angezeigt
- Redis-Testfehler
- RKE2-Server kann nicht gestartet werden
- Secret nicht im UiPath-Namespace gefunden
- ArgoCD wechselt nach der ersten Installation in den Status „In Bearbeitung“.
- MongoDB-Pods in „CrashLoopBackOff“ oder ausstehende PVC-Bereitstellung nach Löschung
- Fehlerhafte Dienste nach Clusterwiederherstellung oder Rollback
- Pods stecken in Init:0/X
- Fehlende Ceph-rook-Metriken in Überwachungs-Dashboards
- Pods können nicht mit FQDN in einer Proxy-Umgebung kommunizieren
- Fehler beim Konfigurieren von E-Mail-Warnungen nach dem Upgrade
- Kein normales Upstream-Problem
- Document Understanding erscheint nicht auf der linken Leiste der Automation Suite
- Fehlerstatus beim Erstellen einer Datenbeschriftungssitzung
- Fehlerstatus beim Versuch, eine ML-Fähigkeit bereitzustellen
- Migrationsauftrag schlägt in ArgoCD fehl
- Die Handschrifterkennung mit dem Intelligent Form Extractor funktioniert nicht oder arbeitet zu langsam
- Fehler bei der Bereitstellung von ML-Fähigkeiten aufgrund des Ablaufs des Tokens
- Ausführen von Hochverfügbarkeit mit Process Mining
- Die Process Mining-Datenaufnahme ist bei der Anmeldung über Kerberos fehlgeschlagen
- Nach Disaster Recovery funktioniert Dapr für Process Mining nicht mehr ordnungsgemäß
- Konfigurieren von Dapr mit Redis im Clustermodus
- Verbindung mit der Datenbank „AutomationSuite_ProcessMining_Lager“ über eine Verbindungszeichenfolge im pyodbc-Format nicht möglich
- Die Airflow-Installation schlägt mit „sqlaldemy.exc.ArgumentError“ fehl: URL konnte nicht analysiert werden rfc1738 aus Zeichenfolge „
- So fügen Sie eine IP-Tabellenregel hinzu, um den SQL Server-Port 1433 zu verwenden
- Dem Automation Suite-Zertifikat des Servers, auf dem CData Sync ausgeführt wird, wird nicht vertraut
- Ausführen des Diagnosetools
- Verwenden des Automation Suite-Supportpakets
- Erkunden von Protokollen
- Untersuchen der zusammengefassten Telemetrie

Automation Suite unter Linux – Installationsanleitung
Auf dieser Seite wird das Verhalten beim manuellen und automatischen Starten und Herunterfahren der Automation Suite erklärt.
Sie müssen immer fortfahren, indem Sie einen Knoten herunterfahren, den erforderlichen Vorgang ausführen, warten, bis der Knoten intakt ist, und dann den anderen Knoten herunterfahren, um den gleichen Vorgang auszuführen.
In der folgenden Tabelle werden verschiedene Szenarien beschrieben, die beim Herunterfahren von Clusterdiensten oder Knoten auftreten können. Die Tabelle enthält detaillierte Aktionen, die Sie für jede Situation ausführen müssen, sowie eine Anleitung, wie Sie das erwartete Verhalten als Reaktion auf diese Aktionen verstehen können.
|
Szenario |
Aktion |
Erwartetes Verhalten |
|---|---|---|
|
Herunterfahren von Clusterdiensten auf einem Knoten, ohne den Knoten aus Wartungsgründen oder aus anderen Gründen auszuschalten. |
|
In einem HA-Szenario bleiben die meisten Dienste aktiv. Der Knoten sollte problemlos gestartet werden und alle ausgefallenen Dienste sollten neu gestartet werden. |
|
Herunterfahren aller Clusterdienste, ohne Knoten auszuschalten, zu Wartungszwecken oder aus anderen Gründen. |
|
Die Dienste sind dann nicht mehr verfügbar. Knoten sollten problemlos gestartet werden. |
|
Herunterfahren aller Knoten. |
Wenn Ihr Hypervisor-Verwaltungsportal (z. B. VMware, AWS) das ordnungsgemäße Herunterfahren von Diensten zulässt, ohne die Maschine zwangsweise zu beenden, fahren Sie ein normales Herunterfahren durch. Standardmäßig lässt das Systemd-Subsystem einen Übergangszeitraum für das Herunterfahren von Diensten zu, bevor sie zwangsweise beendet werden. Wenn Ihr System jedoch die konfigurierten Herunterfahrenzeiten überschreibt, kann dies ein ordnungsgemäßes Herunterfahren beeinträchtigen. Auf AWS kann die Plattform beispielsweise die Beendigung einer VM nach zwei Minuten erzwingen. Daher müssen die Dienste manuell heruntergefahren werden, da ein Knotenentleerung bis zu 5 Minuten dauern kann (dies ist eine Voraussetzung für ein ordnungsgemäßes Herunterfahren). |
Wenn das Herunterfahren ordnungsgemäß ist, sollten die Knoten problemlos starten. |
|
Herunterfahren eines einzelnen Knotens. |
Wenn Ihr Hypervisor-Verwaltungsportal (z. B. VMware, AWS) das ordnungsgemäße Herunterfahren von Diensten zulässt, ohne die Maschine zwangsweise zu beenden, fahren Sie ein normales Herunterfahren durch. Standardmäßig lässt das Systemd-Subsystem einen Übergangszeitraum für das Herunterfahren von Diensten zu, bevor sie zwangsweise beendet werden. Wenn Ihr System jedoch konfigurierte Herunterfahrenzeiten überschreibt, kann dies ein ordnungsgemäßes Herunterfahren beeinträchtigen. Bei AWS kann die Plattform beispielsweise die Beendigung einer VM nach zwei Minuten erzwingen. Daher müssen die Dienste manuell heruntergefahren werden, da ein Knotenentleerung bis zu 5 Minuten dauern kann (dies ist eine Voraussetzung für ein ordnungsgemäßes Herunterfahren). |
Wenn das Herunterfahren nicht erzwungen wird, sollte der Knoten problemlos neu gestartet werden. |
|
Erzwingen Sie die Beendigung eines Serverknotens. |
Nicht anwendbar. |
In den meisten Fällen wird der Knoten gestartet, aber bei einigen Diensten, die persistente Daten verwenden, kann es zu Problemen kommen. Obwohl diese Probleme in der Regel behebbar sind, wird die Einrichtung von Sicherungen dringend empfohlen. Der Insights-Pod wird erst neu gestartet, wenn der ursprüngliche Knoten wieder online ist, um potenzielle Datenverluste zu vermeiden. Wenn der Knoten nicht wiederherstellbar ist, wenden Sie sich an das Supportteam. |
rke2-service wird gestartet, gefolgt von node-drainer und node-uncordon. node-drainer führt beim Start keine Aktion aus, sondern gibt nur die Bestätigung zurück, dass der Dienst aktiv ist.
node-uncordon wird nur einmal ausgeführt und startet /opt/node-drain.sh nodestart, wodurch der Knoten per Uncordon entsperrt wird. Als Teil des Drain-Vorgangs, der beim Herunterfahren ausgeführt wird, wird der Knoten per Cordon gesperrt, sodass er nicht eingeplant werden kann. Dieser Status bleibt bestehen, wenn der rke2-Dienst gestartet wird. Daher muss der Knoten nach rke2-service-Neustarts per Uncordon entsperrt werden.
Manueller Start
rke2-service jedoch manuell gestoppt wurde, müssen Sie den Dienst erneut starten, indem Sie die folgenden Befehle ausführen:
- Starten Sie den Kubernetes-Prozess, der auf dem Serverknoten ausgeführt wird:
systemctl start rke2-serversystemctl start rke2-server - Starten Sie den Kubernetes-Prozess, der auf dem Serverknoten ausgeführt wird:
systemctl start rke2-agentsystemctl start rke2-agent - Nachdem der
rke2-Dienst gestartet wurde, entsperren Sie den Knoten per Uncordon, um sicherzustellen, dass Kubernetes jetzt Workloads auf diesem Knoten planen kann:systemctl restart node-uncordonsystemctl restart node-uncordon - Sobald der Knoten gestartet wurde, müssen Sie den Knoten per Drain entfernen:
systemctl start node-drain.servicesystemctl start node-drain.serviceWichtig:Wenn Sie Schritt 4 überspringen, kann das dazu führen, dass der Kubelet-Dienst nicht ordnungsgemäß heruntergefahren wird, wenn das System neu gestartet wird.
systemd die Dienste in der Reihenfolge, in der sie gestartet wurden. Da der node-drain-Dienst die Anweisung After=rke2-server.service oder After=rke2-agent.service hat, führt er seine Herunterfahren-Sequence aus, bevor rke2-service heruntergefahren wird. Das bedeutet, dass in einem korrekt konfigurierten System das einfache ordnungsgemäße Herunterfahren des Knotens ein sicherer Vorgang ist.
Manueller Neustart
Wenn Sie den rke2-Dienst stoppen und die Maschine neu starten möchten, führen Sie die folgenden Schritte aus:
-
Um sicherzustellen, dass der Cluster fehlerfrei ist, während Sie eine Knotenwartungsaktivität ausführen, müssen Sie die Workloads, die auf diesem Knoten ausgeführt werden, per Drain auf andere Knoten umleiten. Um den Knoten per Drain zu entfernen, führen Sie den folgenden Befehl aus:
systemctl stop node-drain.servicesystemctl stop node-drain.service - Halten Sie den Kubernetes-Prozess an, der auf dem Serverknoten ausgeführt wird:
systemctl stop rke2-serversystemctl stop rke2-server - Halten Sie den Kubernetes-Prozess an, der auf dem Agent-Knoten ausgeführt wird:
systemctl stop rke2-agentsystemctl stop rke2-agent - Beenden Sie die rke2-Dienste, containerd und alle untergeordneten Prozesse:Informationen zum Herunterladen des
rke2-killall.shrke2-killall.shrke2-killall.sh-Skripts finden Sie unter Downloadlinks für Installationspakete.
- Die folgenden Einheitendateien werden während der Installation erstellt:
rke2-server.service(nur Server). Startetrke2-server, wodurch der Serverknoten gestartet wird.rke2-agent.service(nur Agent). Startetrke2-agent, wodurch der Agent-Knoten gestartet wird.node-drain.service. Wird beim Herunterfahren verwendet. Wird vor dem Herunterfahren vonrke2-agentoderrke2-serverausgeführt und führt einen Drain durch. Hat ein Timeout von 300 Sekunden.node-uncordon.service. Wird beim Starten verwendet, um einen Knoten per Uncordon zu entsperren.var-lib-kubelet.mount. Automatisch von „fstab generator“ generiert.var-lib-rancher-rke2-server-db.mount. Automatisch von „fstab generator“ generiert.var-lib-rancher.mount. Automatisch von „fstab generator“ generiert.
node-drain und node-uncordon haben jedoch die Anweisung After=rke2-server.service oder After=rke2-agent.service. Diese Dienste werden deshalb nach rke2-service gestartet.