- Überblick
- Anforderungen
- Empfohlen: Bereitstellungsvorlagen
- Anleitung: Vorbereiten der Installation
- Anleitung: Vorbereiten der Installation
- Schritt 1: Konfigurieren der OCI-konformen Registrierung für Offline-Installationen
- Schritt 2: Konfigurieren des externen Objektspeichers
- Schritt 3: Konfigurieren eines High Availability Add-ons
- Schritt 4: Konfigurieren von Microsoft SQL Server
- Schritt 5: Konfigurieren des Lastausgleichs
- Schritt 6: Konfigurieren des DNS
- Step 7: Configuring kernel and OS level settings
- Step 8: Configuring the disks
- Schritt 9: Konfigurieren der Knotenports
- Step 10: Applying miscellaneous settings
- Schritt 12: Validieren und Installieren der erforderlichen RPM-Pakete
- Schritt 13: Generieren von cluster_config.json
- Zertifikatkonfiguration
- Datenbankkonfiguration
- Konfiguration des externen Objektspeichers
- Vorsignierte URL-Konfiguration
- Externe OCI-konforme Registrierungskonfiguration
- Disaster Recovery: Aktiv/Passiv- und Aktiv/Aktiv-Konfigurationen
- Konfiguration des High Availability Add-ons
- Spezifische Orchestrator-Konfiguration
- Insights-spezifische Konfiguration
- Process Mining-spezifische Konfiguration
- Spezifische Konfiguration für Document Understanding
- Spezifische Konfiguration für Automation Suite Robots
- Konfiguration der Überwachung
- Optional: Konfigurieren des Proxyservers
- Optional: Aktivieren der Widerstandsfähigkeit gegen zonale Ausfälle in einem HA-fähigen Produktionscluster mit mehreren Knoten
- Optional: Übergeben einer benutzerdefinierten resolv.conf-Datei
- Optional: Erhöhen der Fehlertoleranz
- install-uipath.sh-Parameter
- Hinzufügen eines dedizierten Agent-Knotens mit GPU-Unterstützung
- Hinzufügen eines dedizierten Agent-Knotens für Task Mining
- Verbinden einer Task Mining-Anwendung
- Hinzufügen eines dedizierten Agentenknotens für Automation Suite-Roboter
- Step 15: Configuring the temporary Docker registry for offline installations
- Step 16: Validating the prerequisites for the installation
- Manuell: Durchführen der Installation
- Nach der Installation
- Clusterverwaltung
- Verwalten von Produkten
- Erste Schritte mit dem Clusterverwaltungsportal
- Migrieren von Objectstore von persistentem Volume zu Raw-Festplatten
- Migrieren von einem HA-Add-on zum externen High Availability Add-on
- Migrieren von Daten zwischen Objectstores
- Clusterinterner Objectstore zu einem externen Objectstore migrieren
- Manueller Wechsel zum sekundären Cluster in einer Aktiv-/Passiv-Einrichtung
- Disaster Recovery: Durchführen von Vorgängen nach der Installation
- Umwandlung einer bestehenden Installation in eine Multi-Site-Einrichtung
- Guidelines on upgrading an Active/Passive or Active/Active deployment
- Guidelines on backing up and restoring an Active/Passive or Active/Active deployment
- Redirecting traffic for the unsupported services to the primary cluster
- Überwachung und Warnungen
- Migration und Upgrade
- Schritt 1: Verschieben der Identitätsorganisationsdaten von einer eigenständigen in die Automation Suite
- Schritt 2: Wiederherstellen der eigenständigen Produktdatenbank
- Schritt 3: Sichern der Plattformdatenbank in der Automation Suite
- Schritt 4: Zusammenführen von Organisationen in der Automation Suite
- Schritt 5: Aktualisieren der migrierten Produktverbindungszeichenfolgen
- Schritt 6: Migrieren des eigenständigen Orchestrators
- Schritt 7: Migrieren von eigenständigen Insights
- Schritt 8: Löschen des Standardmandanten
- B) Migration von einzelnen Mandanten
- Migrieren von der Automation Suite unter Linux zur Automation Suite unter EKS/AKS
- Aktualisieren der Automation Suite
- Herunterladen der Installationspakete und Übertragen aller Dateien auf den ersten Serverknoten
- Abrufen der zuletzt angewendeten Konfiguration aus dem Cluster
- Aktualisieren der Clusterkonfiguration
- Konfigurieren der OCI-konformen Registrierung für Offline-Installationen
- Migrieren zu einer externen OCI-konformen Registrierung
- Ausführen des Upgrades
- Durchführen von Vorgängen nach dem Upgrade
- Produktspezifische Konfiguration
- Verwenden des Orchestrator-Konfiguratortools
- Konfigurieren von Orchestrator-Parametern
- Orchestrator-appSettings
- Konfigurieren von AppSettings
- Konfigurieren der maximalen Anforderungsgröße
- Überschreiben der Speicherkonfiguration auf Clusterebene
- Konfigurieren von Anmeldeinformationsspeichern
- Konfigurieren der Verwendung von einem Verschlüsselungsschlüssel pro Mandant
- Best Practices und Wartung
- Fehlersuche und ‑behebung
- Fehlerbehebung bei Diensten während der Installation
- Deinstallieren des Clusters
- Löschen von Offline-Artefakten für mehr Speicherplatz
- So löschen Sie Redis-Daten
- So können Sie die Istio-Protokollierung aktivieren
- So werden Protokolle manuell bereinigt
- So löschen Sie alte Protokolle, die im sf-logs-Paket gespeichert sind
- So deaktivieren Sie Streaming-Protokolle für das AI Center
- Fehlerbehebung bei fehlgeschlagenen Automation Suite-Installationen
- So löschen Sie Bilder aus dem alten Installationsprogramm nach dem Upgrade
- Deaktivieren von NIC-Prüfsummen-Offloading
- Upgrade von Automation Suite 2022.10.10 und 2022.4.11 auf 2023.10.2
- So legen Sie die ArgoCD-Protokollebene manuell auf Info fest
- Es kann keine Offlineinstallation auf RHEL 8.4 OS ausgeführt werden.
- Fehler beim Herunterladen des Pakets
- Die Offlineinstallation schlägt aufgrund fehlender binärer Dateien fehl
- Zertifikatproblem bei der Offlineinstallation
- Die erste Installation schlägt während des Longhorn-Setups fehl
- Validierungsfehler bei der SQL-Verbindungszeichenfolge
- Voraussetzungsprüfung für das Selinux-iscsid-Modul schlägt fehl
- Azure-Datenträger nicht als SSD markiert
- Fehler nach der Zertifikatsaktualisierung
- Virenschutz verursacht Probleme bei der Installation
- Automation Suite funktioniert nach Betriebssystem-Upgrade nicht
- Bei der Automation Suite muss „backlog_wait_time“ auf 0 gesetzt werden.
- Volume nicht bereitstellbar, da es nicht für Workloads bereit ist
- Fehler im Cluster nach automatisiertem Upgrade von 2021.10
- Upgrade schlägt aufgrund eines fehlerhaften Ceph . fehl
- Rke2 wird aufgrund von Platzproblemen nicht gestartet
- Datenträger kann nicht verbunden werden und verbleibt im Status der „Attach/Detach“-Schleife
- Upgrade schlägt aufgrund von klassischen Objekten in der Orchestrator-Datenbank fehl
- Ceph-Cluster in beeinträchtigtem Status nach parallelem Upgrade
- Fehlerhafte Insights-Komponente verursacht Fehlschlag der Migration
- Dienst-Upgrade schlägt für Apps fehl
- Timeouts beim direkten Upgrade
- Docker-Registrierungsmigration bleibt in PVC-Löschphase hängen
- AI Center-Bereitstellungsfehler nach Upgrade auf 2023.10
- Upgrade schlägt in Offline-Umgebungen fehl
- Fehler beim Hoch- oder Herunterladen von Daten im Objektspeicher
- Die Größenänderung eines PVC bewirkt keine Korrektur von Ceph
- Fehler beim Ändern der Größe von objectstore PVC
- Rook Ceph oder Looker-Pod hängen im Init-Status fest
- Fehler beim Anhängen eines StatefulSet-Volumes
- Fehler beim Erstellen persistenter Volumes
- Festlegen eines Timeout-Intervalls für die Verwaltungsportale
- Die Authentifizierung funktioniert nach der Migration nicht
- Kinit: KDC kann für Realm <AD Domain> beim Abrufen der ersten Anmeldeinformationen nicht gefunden werden.
- Kinit: Keytab enthält keine geeigneten Schlüssel für *** beim Abrufen der ersten Anmeldeinformationen
- GSSAPI-Vorgang aufgrund eines ungültigen Statuscodes fehlgeschlagen
- Alarm für fehlgeschlagenen Kerberos-tgt-update-Auftrag erhalten
- SSPI-Anbieter: Server in Kerberos-Datenbank nicht gefunden
- Anmeldung eines AD-Benutzers aufgrund eines deaktivierten Kontos fehlgeschlagen
- ArgoCD-Anmeldung fehlgeschlagen
- Aktualisieren Sie die zugrunde liegenden Verzeichnisverbindungen
- Fehler beim Abrufen des Sandbox-Abbilds
- Pods werden nicht in der ArgoCD-Benutzeroberfläche angezeigt
- Redis-Testfehler
- RKE2-Server kann nicht gestartet werden
- Secret nicht im UiPath-Namespace gefunden
- ArgoCD wechselt nach der ersten Installation in den Status „In Bearbeitung“.
- MongoDB-Pods in „CrashLoopBackOff“ oder ausstehende PVC-Bereitstellung nach Löschung
- Fehlerhafte Dienste nach Clusterwiederherstellung oder Rollback
- Pods stecken in Init:0/X
- Fehlende Ceph-rook-Metriken in Überwachungs-Dashboards
- Document Understanding erscheint nicht auf der linken Leiste der Automation Suite
- Fehlerstatus beim Erstellen einer Datenbeschriftungssitzung
- Fehlerstatus beim Versuch, eine ML-Fähigkeit bereitzustellen
- Migrationsauftrag schlägt in ArgoCD fehl
- Die Handschrifterkennung mit dem Intelligent Form Extractor funktioniert nicht oder arbeitet zu langsam
- Ausführen des Diagnosetools
- Verwenden des Automation Suite Support Bundle-Tools
- Erkunden von Protokollen
Grundlegende Architekturüberlegungen
As with any multi-site deployment, the primary architecture considerations for Automation Suite account for infrastructure, latency, data source, management, Recovery Time Objective, Recovery Point Objective, etc.
Es wird empfohlen, für beide Cluster dieselbe Hardware zu verwenden. Der Automation Suite-Cluster funktioniert jedoch wahrscheinlich mit ähnlichen Hardwarekonfigurationen mit geringen Unterschieden. Heterogene Hardware kann die Komplexität erhöhen und die Fehlerbehebung verlangsamen.
Die Latenz ist beim Entwerfen eines Aktiv/Aktiv-Modells von entscheidender Bedeutung. Sie gibt die Round Trip Time (RTT) zwischen den beiden Automation Suite-Clustern an. Eine minimale Latenz zwischen den beiden Standorten ist optimal, da sie das Risiko von Datenverlusten während eines Ausfalls erheblich reduziert. Das RTT muss unter einen Schwellenwert von 10 ms fallen.
Sie sollten das RTT streng testen, bevor Sie in die Produktionsphase übergehen, da es eine direkte Auswirkung auf die Leistungsmetriken hat. Wenn die Latenz den Richtwert von 10 ms zwischen den Site-Paaren überschreitet, empfehlen wir, ein Aktiv/Passiv-Setup anstelle einer Aktiv/Aktiv-Konfiguration in Betracht zu ziehen.
Jede Komponente, die eine Synchronisierung erfordert, sollte eine RTT von weniger als 10 ms haben. Dazu gehören SQL-Server, HAA, Objektspeicher usw.
The two Automation Suite clusters are independent and do not share any configuration. Therefore, any management or maintenance activity must be done individually on these clusters. For instance, you must update the SQL connection strings on both clusters, configure certificates separately, etc. In addition, you must monitor the two clusters independently, upgrade them individually, etc.
Der Objektspeicher bildet in Kombination mit der SQL-Datenbank den Status eines installierten Produkts in der Automation Suite.
SQL Server configuration plays a vital role in a multi-site deployment. Though SQL Server is a component external to Automation Suite, a few additional steps are required to ensure true HA when working with Automation Suite.
MultiSubnetFailover=True
in der Verbindungszeichenfolge festzulegen, wenn der SQL-Server/die Datenbanken über mehrere Subnetze verteilt sind.
Weitere Informationen finden Sie unter Always On-Verfügbarkeitsgruppen und Voraussetzungen, Einschränkungen und Empfehlungen für Always On-Verfügbarkeitsgruppen.
The external objectstore is immune to possible corruption due to node failure. Data replication and disaster recovery can be carried out independently of Automation Suite. Like SQL Server, the external objectstore must be configured in a highly available Disaster Recovery setup. The primary objectstore instance is physically located in the primary data center, and at least one secondary instance is located in the secondary data center with data sync enabled. You can configure a load balancer on the objectstore to ensure both Automation Suite clusters refer to the same endpoints. This makes the deployment independent of how the objectstore is configured internally.
Bei AWS S3 unterstützt der Zugriffspunkt mit mehreren Regionen nicht alle s3-APIs, die von allen Produkten benötigt werden, die in der Automation Suite ausgeführt werden. Weitere Informationen zur Liste der unterstützten APIs finden Sie unter Verwenden von Zugriffspunkten für mehrere Regionen mit unterstützten API-Vorgängen.
Sie können zwei Buckets pro Produkt/Suite in beiden Regionen erstellen und die Synchronisierung aktivieren. Der Automation Suite-Cluster, der in derselben Region ausgeführt wird, verweist auf die Buckets in derselben Region.
Die RTO-Richtlinie Ihres Unternehmens ist für die Konzeption Ihres Automation Suite-Clusters mit mehreren Sites entscheidend. Berücksichtigen Sie die folgenden Aspekte, um das gewünschte RTO zu erreichen:
- Design des Traffic Managers;
- Verfügbarkeit der Knoten im sekundären/passiven Cluster;
- Dynamische Workload-Verfügbarkeit auf dem sekundären Cluster; Beispiel: MLFähigkeit;
- Konfigurationsverwaltung.
Um das volle Potenzial beider Cluster auszuschöpfen, ist es wichtig, den Traffic Manager entsprechend zu konfigurieren. Die Einrichtung sollte idealerweise die Verteilung des Datenverkehrs auf beide Cluster erleichtern. Diese Strategie gewährleistet nicht nur eine ausgewogene Lastverteilung, sondern gewährleistet auch die Geschäftskontinuität, indem potenzielle Unterbrechungen verhindert werden, wenn einer der Standorte vollständig heruntergefahren wird.
Im Falle einer Katastrophe, die dazu führt, dass ein Standort vollständig nicht mehr betriebsbereit ist, muss der andere Standort über genügend Kapazität verfügen, um sicherzustellen, dass die Geschäftsautomatisierung nicht beeinträchtigt wird. Unzureichende Kapazität an dem Standort kann sich negativ auf den Geschäftsbetrieb auswirken und möglicherweise zu erheblichen betrieblichen Problemen führen.
Einige Produkte, z. B. das AI Center, stellen die ML-Fähigkeiten dynamisch zur Laufzeit bereit. Die Bereitstellung der Fähigkeiten in einem anderen Cluster ist immer asynchron. Dadurch kann ihre Verfügbarkeit nicht garantiert werden. Um sicherzustellen, dass Ihre Automatisierungslösung innerhalb der gewünschten Zeit wieder online ist, können Sie die Fähigkeiten in einem anderen Cluster regelmäßig synchronisieren.
Since multi-site Automation Suite deployments consist of two distinct clusters, any operation performed on any cluster must be performed on the other cluster in time to reduce the drift. This ensures that both clusters possess similar configurations and that no additional effort is required during recovery.
Die Richtlinie Ihrer Organisation rund um das Ziel des Wiederherstellungspunkts (Recovery Point Objective, RPO) ist von entscheidender Bedeutung für den Entwurf eines Automation Suite-Clusters mit mehreren Sites. Um das gewünschte RPO zu erreichen, müssen Sie die folgenden Aspekte berücksichtigen:
- Datensynchronisierung;
- Geplante Sicherung.
When written to the primary data source, data must also be synced to the secondary cluster. However, there is a risk of data loss when the data center is down, and data is not synced. Exemplary network configurations, such as high bandwidth and low latency between the two data centers, can speed up synchronization.
Nicht jede Disaster Recovery bietet vollständige Immunität gegen Datenverlust. Sie können jedoch eine regelmäßige und periodische Sicherungsstrategie anwenden, um die negativen Auswirkungen auf die Datenwiederherstellung zu minimieren. Weitere Informationen finden Sie unter Sichern und Wiederherstellen des Clusters.