- Überblick
- Anforderungen
- Empfohlen: Bereitstellungsvorlagen
- Anleitung: Vorbereiten der Installation
- Anleitung: Vorbereiten der Installation
- Schritt 1: Konfigurieren der OCI-konformen Registrierung für Offline-Installationen
- Schritt 2: Konfigurieren des externen Objektspeichers
- Schritt 3: Konfigurieren eines High Availability Add-ons
- Schritt 4: Konfigurieren von Microsoft SQL Server
- Schritt 5: Konfigurieren des Lastausgleichs
- Schritt 6: Konfigurieren des DNS
- Schritt 7: Konfigurieren der Datenträger
- Schritt 8: Konfigurieren der Einstellungen auf Kernel- und Betriebssystemebene
- Schritt 9: Konfigurieren der Knotenports
- Schritt 10: Anwenden verschiedener Einstellungen
- Schritt 12: Validieren und Installieren der erforderlichen RPM-Pakete
- Schritt 13: Generieren von cluster_config.json
- Zertifikatkonfiguration
- Datenbankkonfiguration
- Konfiguration des externen Objektspeichers
- Vorsignierte URL-Konfiguration
- Externe OCI-konforme Registrierungskonfiguration
- Disaster Recovery: Aktiv/Passiv- und Aktiv/Aktiv-Konfigurationen
- Konfiguration des High Availability Add-ons
- Spezifische Orchestrator-Konfiguration
- Insights-spezifische Konfiguration
- Process Mining-spezifische Konfiguration
- Spezifische Konfiguration für Document Understanding
- Spezifische Konfiguration für Automation Suite Robots
- Konfiguration der Überwachung
- Optional: Konfigurieren des Proxyservers
- Optional: Aktivieren der Widerstandsfähigkeit gegen zonale Ausfälle in einem HA-fähigen Produktionscluster mit mehreren Knoten
- Optional: Übergeben einer benutzerdefinierten resolv.conf-Datei
- Optional: Erhöhen der Fehlertoleranz
- install-uipath.sh-Parameter
- Hinzufügen eines dedizierten Agent-Knotens mit GPU-Unterstützung
- Hinzufügen eines dedizierten Agent-Knotens für Task Mining
- Verbinden einer Task Mining-Anwendung
- Hinzufügen eines dedizierten Agentenknotens für Automation Suite-Roboter
- Schritt 15: Konfigurieren der temporären Docker-Registrierung für Offline-Installationen
- Schritt 16: Validieren der Voraussetzungen für die Installation
- Manuell: Durchführen der Installation
- Nach der Installation
- Clusterverwaltung
- Verwalten von Produkten
- Erste Schritte mit dem Clusterverwaltungsportal
- Migrieren von Objectstore von persistentem Volume zu Raw-Festplatten
- Migrieren vom clusterinternen zum externen High Availability Add-on
- Migrieren von Daten zwischen Objectstores
- Clusterinterner Objectstore zu einem externen Objectstore migrieren
- Migrieren zu einer externen OCI-konformen Registrierung
- Manueller Wechsel zum sekundären Cluster in einem Aktiv-/Passiv-Setup
- Disaster Recovery: Durchführen von Vorgängen nach der Installation
- Umwandlung einer bestehenden Installation in eine Multi-Site-Einrichtung
- Richtlinien zum Upgrade einer Aktiv/Passiv- oder Aktiv/Aktiv-Bereitstellung
- Leitlinien zum Sichern und Wiederherstellen einer Aktiv-/Passiv- oder Aktiv/Aktiv-Bereitstellung
- Umleitung des Datenverkehrs für die nicht unterstützten Dienste auf den primären Cluster
- Überwachung und Warnungen
- Migration und Upgrade
- Schritt 1: Verschieben der Identitätsorganisationsdaten von einer eigenständigen in die Automation Suite
- Schritt 2: Wiederherstellen der eigenständigen Produktdatenbank
- Schritt 3: Sichern der Plattformdatenbank in der Automation Suite
- Schritt 4: Zusammenführen von Organisationen in der Automation Suite
- Schritt 5: Aktualisieren der migrierten Produktverbindungszeichenfolgen
- Schritt 6: Migrieren des eigenständigen Orchestrators
- Schritt 7: Migrieren von eigenständigen Insights
- Schritt 8: Löschen des Standardmandanten
- B) Migration von einzelnen Mandanten
- Migrieren von der Automation Suite unter Linux zur Automation Suite unter EKS/AKS
- Aktualisieren der Automation Suite
- Herunterladen der Installationspakete und Übertragen aller Dateien auf den ersten Serverknoten
- Abrufen der zuletzt angewendeten Konfiguration aus dem Cluster
- Aktualisieren der Clusterkonfiguration
- Konfigurieren der OCI-konformen Registrierung für Offline-Installationen
- Ausführen des Upgrades
- Durchführen von Vorgängen nach dem Upgrade
- Produktspezifische Konfiguration
- Verwenden des Orchestrator-Konfiguratortools
- Konfigurieren von Orchestrator-Parametern
- Orchestrator-appSettings
- Konfigurieren von AppSettings
- Konfigurieren der maximalen Anforderungsgröße
- Überschreiben der Speicherkonfiguration auf Clusterebene
- Konfigurieren von Anmeldeinformationsspeichern
- Konfigurieren der Verwendung von einem Verschlüsselungsschlüssel pro Mandant
- Bereinigen der Orchestrator-Datenbank
- Best Practices und Wartung
- Fehlersuche und ‑behebung
- Fehlerbehebung bei Diensten während der Installation
- Deinstallieren des Clusters
- Löschen von Offline-Artefakten für mehr Speicherplatz
- So löschen Sie Redis-Daten
- So können Sie die Istio-Protokollierung aktivieren
- So werden Protokolle manuell bereinigt
- So löschen Sie alte Protokolle, die im sf-logs-Paket gespeichert sind
- So deaktivieren Sie Streaming-Protokolle für das AI Center
- Fehlerbehebung bei fehlgeschlagenen Automation Suite-Installationen
- So löschen Sie Bilder aus dem alten Installationsprogramm nach dem Upgrade
- Deaktivieren von TX-Prüfsummen-Offloading
- Upgrade von Automation Suite 2022.10.10 und 2022.4.11 auf 2023.10.2
- So legen Sie die ArgoCD-Protokollebene manuell auf Info fest
- So erweitern Sie den AI Center-Speicher
- So wird der codierte pull_secret_value für externe Registrierungen generiert
- Umgang mit schwachen Verschlüsselungen in TLS 1.2
- Es kann keine Offlineinstallation auf RHEL 8.4 OS ausgeführt werden.
- Fehler beim Herunterladen des Pakets
- Die Offlineinstallation schlägt aufgrund fehlender binärer Dateien fehl
- Zertifikatproblem bei der Offlineinstallation
- Die erste Installation schlägt während des Longhorn-Setups fehl
- Validierungsfehler bei der SQL-Verbindungszeichenfolge
- Voraussetzungsprüfung für das Selinux-iscsid-Modul schlägt fehl
- Azure-Datenträger nicht als SSD markiert
- Fehler nach der Zertifikatsaktualisierung
- Virenschutz verursacht Probleme bei der Installation
- Automation Suite funktioniert nach Betriebssystem-Upgrade nicht
- Bei der Automation Suite muss „backlog_wait_time“ auf 0 gesetzt werden.
- Volume nicht bereitstellbar, da es nicht für Workloads bereit ist
- Fehler bei der Protokollsammlung des Supportpakets
- Das Upgrade eines einzelnen Knotens schlägt in der Fabric-Phase fehl
- Fehler im Cluster nach automatisiertem Upgrade von 2021.10
- Upgrade schlägt aufgrund eines fehlerhaften Ceph . fehl
- Rke2 wird aufgrund von Platzproblemen nicht gestartet
- Datenträger kann nicht verbunden werden und verbleibt im Status der „Attach/Detach“-Schleife
- Upgrade schlägt aufgrund von klassischen Objekten in der Orchestrator-Datenbank fehl
- Ceph-Cluster in beeinträchtigtem Status nach parallelem Upgrade
- Fehlerhafte Insights-Komponente verursacht Fehlschlag der Migration
- Dienst-Upgrade schlägt für Apps fehl
- Timeouts beim direkten Upgrade
- Docker-Registrierungsmigration bleibt in PVC-Löschphase hängen
- AI Center-Bereitstellungsfehler nach Upgrade auf 2023.10
- Upgrade schlägt in Offline-Umgebungen fehl
- SQL-Validierung schlägt während des Upgrades fehl
- Snapshot-controller-crds Pod im Status CrashLoopBackOff nach dem Upgrade
- Fehler beim Hoch- oder Herunterladen von Daten im Objektspeicher
- Die Größenänderung eines PVC bewirkt keine Korrektur von Ceph
- Fehler beim Ändern der Größe von objectstore PVC
- Rook Ceph oder Looker-Pod hängen im Init-Status fest
- Fehler beim Anhängen eines StatefulSet-Volumes
- Fehler beim Erstellen persistenter Volumes
- Festlegen eines Timeout-Intervalls für die Verwaltungsportale
- Die Authentifizierung funktioniert nach der Migration nicht
- kinit: KDC kann für Realm <AD Domain> beim Abrufen der ersten Anmeldeinformationen nicht gefunden werden
- Kinit: Keytab enthält keine geeigneten Schlüssel für *** beim Abrufen der ersten Anmeldeinformationen
- GSSAPI-Vorgang aufgrund eines ungültigen Statuscodes fehlgeschlagen
- Alarm für fehlgeschlagenen Kerberos-tgt-update-Auftrag erhalten
- SSPI-Anbieter: Server in Kerberos-Datenbank nicht gefunden
- Anmeldung eines AD-Benutzers aufgrund eines deaktivierten Kontos fehlgeschlagen
- ArgoCD-Anmeldung fehlgeschlagen
- Aktualisieren Sie die zugrunde liegenden Verzeichnisverbindungen
- Fehler beim Abrufen des Sandbox-Abbilds
- Pods werden nicht in der ArgoCD-Benutzeroberfläche angezeigt
- Redis-Testfehler
- RKE2-Server kann nicht gestartet werden
- Secret nicht im UiPath-Namespace gefunden
- ArgoCD wechselt nach der ersten Installation in den Status „In Bearbeitung“.
- MongoDB-Pods in „CrashLoopBackOff“ oder ausstehende PVC-Bereitstellung nach Löschung
- Fehlerhafte Dienste nach Clusterwiederherstellung oder Rollback
- Pods stecken in Init:0/X
- Fehlende Ceph-rook-Metriken in Überwachungs-Dashboards
- Document Understanding erscheint nicht auf der linken Leiste der Automation Suite
- Fehlerstatus beim Erstellen einer Datenbeschriftungssitzung
- Fehlerstatus beim Versuch, eine ML-Fähigkeit bereitzustellen
- Migrationsauftrag schlägt in ArgoCD fehl
- Die Handschrifterkennung mit dem Intelligent Form Extractor funktioniert nicht oder arbeitet zu langsam
- Ausführen von Hochverfügbarkeit mit Process Mining
- Die Process Mining-Datenaufnahme ist bei der Anmeldung über Kerberos fehlgeschlagen
- Nach Disaster Recovery funktioniert Dapr für Process Mining und Task Mining nicht mehr ordnungsgemäß.
- Verbindung mit der Datenbank „AutomationSuite_ProcessMining_Lager“ über eine Verbindungszeichenfolge im pyodbc-Format nicht möglich
- Die Airflow-Installation schlägt mit „sqlaldemy.exc.ArgumentError“ fehl: URL konnte nicht analysiert werden rfc1738 aus Zeichenfolge „
- So fügen Sie eine IP-Tabellenregel hinzu, um den SQL Server-Port 1433 zu verwenden
- Ausführen des Diagnosetools
- Verwenden des Automation Suite Support Bundle-Tools
- Erkunden von Protokollen
Schritt 3: Schritte nach der Bereitstellung
\
), möglicherweise nicht wie erwartet funktionieren. Um sicherzustellen, dass neue Zeilen korrekt interpretiert werden, verwenden Sie das Zwischenablage-Widget der Konsole.
installResult
(im Container) successful
ist. Der Inhalt ist failed
, wenn die Installation fehlgeschlagen ist.
Der Installationsprozess generiert selbstsignierte Zertifikate in Ihrem Namen. Diese Zertifikate sind mit FIPS 140-2 konform. Die Azure-Bereitstellungsvorlage bietet Ihnen auch die Möglichkeit, zum Zeitpunkt der Installation ein von der Zertifizierungsstelle ausgestelltes Serverzertifikat bereitzustellen, anstatt ein automatisch generiertes, selbstsigniertes Zertifikat zu verwenden.
Selbstsignierte Zertifikate laufen in 90 Tagen ab und Sie müssen sie durch Zertifikate ersetzen, die von einer vertrauenswürdigen Zertifizierungsstelle signiert wurden, sobald die Installation abgeschlossen ist. Wenn Sie die Zertifikate nicht aktualisieren, funktioniert die Installation nach 90 Tagen nicht mehr.
Wenn Sie die Automation Suite auf einem FIPS 140-2-fähigen Host installiert haben und die Zertifikate aktualisieren möchten, stellen Sie sicher, dass sie mit FIPS 140-2 kompatibel sind.
Anweisungen finden Sie unter Verwalten von Zertifikaten.
Nach Abschluss einer Automation Suite-Installation mit der Azure-Bereitstellungsvorlage können Sie FIPS 140-2 auf Ihren Maschinen aktivieren. Anweisungen finden Sie unter Sicherheit und Compliance.
Wenn Sie weitere Informationen zum Installationsprozess der Automation Suite oder zu anderen Vorgängen benötigen, ist ein guter Ausgangspunkt das Speicherkonto, das zum Speichern verschiedener Flags und Protokolle während der Clusterbereitstellung und -wartung verwendet wird.
Führen Sie die folgenden Schritte aus, um das Speicherkonto zu finden:
Der Flags- Container speichert verschiedene Flags oder Dateien, die für die Orchestrierung oder nur zum Melden des Status verschiedener Vorgänge erforderlich sind. In einem neuen Cluster sieht der Inhalt des Flags -Containers normalerweise wie im folgenden Beispiel aus:
Dateien in den Flags -Containern werden verwendet, um verschiedene Vorgänge zu orchestrieren, z. B. den Installationsprozess der Automation Suite im Cluster oder bestimmte Clustervorgänge, z. B. die Instanzaktualisierung. Zum Beispiel:
uipath-server-000000.success
gibt an, dass die Infrastrukturinstallation auf diesem bestimmten Knoten des Clusters erfolgreich abgeschlossen wurde;installResult
liestsuccess
, wenn die Gesamtinstallation erfolgreich ist.
Beim Ausführen eines Vorgangs wird normalerweise eine Protokolldatei im Protokollcontainer erstellt. In einem neuen Cluster sieht der Inhalt des Protokollcontainers normalerweise wie im folgenden Beispiel gezeigt aus:
Jede Datei im Protokollcontainer stellt die Protokolle für einen bestimmten Schritt des Installationsprozesses dar. Zum Beispiel:
infra-uipath-server-000000.log
speichert die Infrastrukturinstallationsprotokolle;fabric.log
speichert die Protokolle für die Fabric-Installation;services.log
speichert die Protokolle für die Installation der Anwendung und Dienste.
Sobald die Installation abgeschlossen ist, müssen Sie auf der Registerkarte Ausgaben auf die Bereitstellungsausgaben zugreifen.
DateTime
) → Ausgaben.
Ausgabe |
Beschreibung |
---|---|
Dokumentation |
Ein Link zur Dokumentation. |
URL |
Die URL des Lastausgleichs. Kann für den direkten Zugriff verwendet werden. Wenn benutzerdefinierte Domänen aktiviert wären, ist dies die Domäne, die Sie für die CNAME-Bindung verwenden würden. |
KeyVaultURL |
Die Azure Portal-URL für den Key Vault, der durch die Bereitstellung erstellt wurde. Er enthält alle in der Bereitstellung verwendeten Geheimnisse (Anmeldeinformationen). |
ArgoCDURL |
Die URL für den Zugriff auf ArgoCD. Diese ist im VNet verfügbar. Der externe Zugriff auf diese URL muss wie hier beschrieben eingerichtet werden: Schritt 4: Konfigurieren des DNS. |
ArgoCDPassword |
Das Kennwort, mit dem Sie sich beim ArgoCD-Portal anmelden. |
HostAdminUsername und HostAdminPassword |
Die für die Hostverwaltung verwendeten Anmeldeinformationen. |
ClusterAdministrationURL |
Die URL für das Clusterverwaltungsportal. |
DashboardMonitoringURL |
Die URL zu den Dashboard-Überwachungstools (Grafana):
https://monitoring.<fqdn>/dashboard .
Stellen Sie sicher, dass Sie
<fqdn> durch Ihren FQDN ersetzen.
|
MetricsMonitoringURL |
Die URL zu den Metrik-Überwachungstools (Prometheus):
https://monitoring.<fqdn>/metrics .
Stellen Sie sicher, dass Sie
<fqdn> durch Ihren FQDN ersetzen.
|
AlertmanagerMonitoringURL |
Die URL zu den Alertmanager-Überwachungstools:
https://monitoring.<fqdn>/alertmanager .
Stellen Sie sicher, dass Sie
<fqdn> durch Ihren FQDN ersetzen.
|
Alle in der Bereitstellung verwendeten Anmeldeinformationen werden als Geheimnisse in einem Key Vault gespeichert, der während der Bereitstellung zur Verfügung gestellt wurde. Um auf die Geheimnisse zuzugreifen, filtern Sie die Ressourcen innerhalb der Ressourcengruppe, suchen Sie nach Vault und klicken Sie dann auf Geheimnisse.
The operation “List” is not enabled in the key vault’s access policy
auf der Registerkarte Geheimnisse angezeigt wird, führen Sie die folgenden Schritte aus:
- Gehen Sie zu Zugriffsrichtlinien → Zugriffsrichtlinie hinzufügen → Vorlage konfigurieren → Verwaltung von Geheimnissen → Prinzipal auswählen.
- Wählen Sie Ihren Benutzer aus und klicken Sie dann auf Speichern.
- Navigieren Sie zurück zu Geheimnisse. Die Warnung sollte weg und die Geheimnisse sichtbar sein.
Die VMs werden innerhalb eines privaten VNet bereitgestellt. Sie können über Azure Bastion auf sie zugreifen, indem Sie die folgenden Schritte ausführen:
Wie in Schritt 1: Vorbereiten Ihrer Azure-Bereitstellung erwähnt, erstellt die Automation Suite Azure-Bereitstellung einen Lastausgleich mit einer öffentlichen IP und einer zugehörigen DNS-Bezeichnung. Diese DNS-Bezeichnung befindet sich im Besitz von Microsoft.
Die Bereitstellung stellt auch eine private DNS-Zone innerhalb des VNet-Clusters bereit und fügt mehrere Datensätze hinzu, die während der Installation und Konfiguration verwendet werden.
Wenn Sie eine Verbindung von einer externen Maschine aus herstellen möchten, können Sie die private DNS-Zone nicht für die Auflösung des DNS für verschiedene Dienste verwenden. Daher müssen Sie diese Datensätze zu Ihrer Hostdatei hinzufügen.
Weitere Informationen finden Sie unter Schritt 4: Konfigurieren des DNS.
Sie sollten nun in der Lage sein, eine Verbindung zu verschiedenen Diensten herzustellen, die in Ihrem Cluster ausgeführt werden.
Das Clusterverwaltungsportal ist ein zentraler Ort, an dem Sie alle Ressourcen finden, die für den Abschluss einer Automation Suite-Installation und die Durchführung allgemeiner Vorgänge nach der Installation erforderlich sind. Weitere Informationen finden Sie unter Erste Schritte mit dem Clusterverwaltungsportal.
Um auf das Clusterverwaltungsportal zuzugreifen, führen Sie den folgenden Schritt aus:
https://${CONFIG_CLUSTER_FQDN}/uipath-management
.Die allgemeine Benutzeroberfläche der Automation Suite dient als Portal für sowohl Organisationsadministratoren als auch für Organisationsbenutzer. Dies ist eine allgemeine Ressource auf Organisationsebene, von der aus jeder auf alle Bereiche der Automation Suite zugreifen kann: Verwaltungsseiten, Seiten auf Plattformebene, dienstspezifische Seiten und benutzerspezifische Seiten.
Führen Sie die folgenden Schritte aus, um auf die Automation Suite zuzugreifen:
- Gehen Sie zur folgenden URL:
https://${Loadbalancer_dns}
, wobei<loadbalancer_dns>
die DNS-Bezeichnung für den Lastausgleich ist und unter den Ausgaben zu finden ist. - Wechseln Sie zur Standardorganisation.
- Der Benutzername ist orgadmin.
- Rufen Sie das Kennwort ab, indem Sie zu Keyvault und dann zu Geheimnisse wechseln; es befindet sich unter Hostadministratorkennwort.
Im Hostportal konfigurieren Systemadministratoren die Automation Suite-Instanz. Die in diesem Portal konfigurierten Einstellungen werden von allen Ihren Organisationen übernommen; einige davon können auf Organisationsebene überschrieben werden.
Führen Sie die folgenden Schritte aus, um auf die Hostverwaltung zuzugreifen:
- Gehen Sie zur folgenden URL:
https://${Loadbalancer_dns}
, wobei<loadbalancer_dns>
die DNS-Bezeichnung für den Lastausgleich ist und unter den Ausgaben zu finden ist. - Wechseln Sie zur Host-Organisation.
- Geben Sie den Benutzernamen ein, den Sie zuvor als Wert für den Parameter UiPath Admin Username angegeben haben.
- Geben Sie das Kennwort ein, das sie zuvor als Wert für den Parameter UiPath Administratorkennwort angegeben haben. Rufen Sie das Kennwort ab, indem Sie zu Keyvault und dann zu Geheimnisse wechseln; es befindet sich unter Hostadministratorkennwort.
Sie können die ArgoCD-Konsole verwenden, um installierte Produkte zu verwalten.
Führen Sie die folgenden Schritte aus, um auf ArgoCD zuzugreifen:
- Gehen Sie zur folgenden URL:
https://alm.${Loadbalancer_dns}
, wobei<loadbalancer_dns>
die DNS-Bezeichnung für den Lastausgleich ist und unter Ausgaben zu finden ist. Beachten Sie, dass Sie den externen Zugriff auf diese URL konfigurieren müssen, wie in Schritt 4: Konfigurieren des DNS beschrieben. - Der Benutzername ist admin.
- Um auf das Kennwort zuzugreifen, wechseln Sie zur Registerkarte Ausgaben oder zum Keyvault der Anmeldeinformationen.
Um zum ersten Mal auf die Überwachungstools zuzugreifen, melden Sie sich als Administrator mit den folgenden Standardanmeldeinformationen an:
- Benutzername: admin
- Kennwort: Um das Kennwort abzurufen, führen Sie den folgenden Befehl aus:
kubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -d
kubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -d
Um das Standardkennwort zu aktualisieren, das für den Zugriff auf die Überwachungstools verwendet wird, führen Sie die folgenden Schritte aus:
-
Führen Sie den folgenden Befehl aus, indem Sie
newpassword
durch Ihr neues Kennwort ersetzen:password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]"
password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]" -
Run the following command to update the password:
./bin/uipathctl manifest apply /opt/UiPathAutomationSuite/cluster_config.json --versions versions/helm-charts.json
./bin/uipathctl manifest apply /opt/UiPathAutomationSuite/cluster_config.json --versions versions/helm-charts.json
Die von der Bereitstellung zur Verfügung gestellten Ressourcen werden aus Azure-Skalierungsgruppen berechnet, was eine einfache Skalierung ermöglicht.
Sie können einer bestimmten Skalierungsgruppe manuell zusätzliche Ressourcen hinzufügen, einschließlich das Hinzufügen von Serverknoten, Agent-Knoten oder spezialisierten Agent-Knoten (z. B. GPU-Knoten).
Sie können eine manuelle Skalierung durchführen, indem Sie die spezifische Skalierungsgruppe identifizieren und Ressourcen direkt hinzufügen.
Führen Sie dazu die folgenden Schritte aus:
Nach dem Ausführen eines Automation Suite-Cluster-Upgrades erfordern Azure-Vorlagenbereitstellungen einige Änderungen, um sicherzustellen, dass ein neuer Knoten dem Cluster ordnungsgemäß beitritt. Um die Änderungen zu automatisieren, empfehlen wir die Verwendung des dedizierten Skripts. Anweisungen finden Sie in den Dokumenten zur Azure-Bereitstellungsvorlage.
Azure lässt ein Fenster von höchstens 15 Minuten zu, um das Herunterfahren vorzubereiten, während die ordnungsgemäße Beendigung eines Automation Suite-Knotens von 20 Minuten (für Agent- und GPU-Agent-Knoten) bis zu Stunden (im Fall von Serverknoten) variiert.
Um Datenverlust zu vermeiden, ist die VMSS- Upgrade-Richtlinie des Servers auf „Manuell“ festgelegt und auf den Server-VMs ist der Schutz für die Skalierungsgruppenaktionen aktiviert. Daher empfehlen wir, den Serverlebenszyklus über die bereitgestellten Runbooks zu verwalten.
Die Runbooks InstanceRefresh, RemoveNodes, RemoveServers und CheckServerZoneResilience werden nur für HA-fähige Produktionsbereitstellungen mit mehreren Knoten unterstützt.
Die Anzahl der Server nach der Ausführung eines Runbooks muss ungerade und größer als drei sein (z. B. können Sie keine Instanzaktualisierung ausführen, wenn Sie über 4 Server verfügen; Sie können keinen Server entfernen, wenn Sie insgesamt fünf haben).
Running
befinden.
Es darf jeweils nur ein Runbook ausgeführt werden.
Die Runbooks InstanceRefresh, RemoveNodes und RemoveServers sind von einem Problem betroffen, das dazu führt, dass das Entfernen von Knoten fehlschlägt, wenn Sie Azure für die US-Regierung verwenden.
Alle unsere Speicherkonten und SQL-Server haben private Endpunkte. Eine Hybrid-Worker-Gruppe führt die vorhandenen automatisierten Vorgänge aus, damit sie problemlos funktionieren.
Ein Hybrid Worker ist eine VM, die sich innerhalb des VNET befindet und auf der die verschiedenen Automatisierungen ausgeführt werden.
Bei der VM handelt es sich in der Regel um eine Standard_D2s_v3 oder eine Standard_F2s_v2, je nachdem, welche VM Sie für Ihre Server-VMs auswählen und ob das Kontingent zulässt. Die VM wird nach Abschluss der Bereitstellung heruntergefahren, um die Kosten zu minimieren.
Runbooks werden in zwei Kategorien unterteilt: reguläre Runbooks und hybride Runbooks. Sie verwenden die regulären Runbooks, um einen Vorgang zu starten und alle Daten zu sammeln. Das reguläre Runbook startet dann die Hybrid Worker-VM und das Hybrid-Runbook, wobei letzteres den Vorgang abschließt.
Wenn der Vorgang abgeschlossen ist, können Sie die Hybrid-Worker-VM ausschalten, um die Kosten zu begrenzen.
In der folgenden Tabelle wird die Runbookaufschlüsselung beschrieben:
Reguläre Runbooks |
Hybrid-Runbooks |
---|---|
AddGpuNode | HybridAddGpuNode |
BackupCluster | HybridBackupCluster |
GetAllBackups | HybridGetAllBackups |
InstanceRefresh | HybridInstanceRefresh (+HybridCheckServerZoneRezilience) |
RegisterAiCenterExternalOrchestrator | HybridRegisterAiCenterExternalOrchestrator |
RemoveNodes | HybridRemoveNodes |
RemoveServers | HybridRemoveServers |
RestoreClusterInitialize | HybridRestoreClusterInitialize + HybridRestoreClusterSnapshot |
ValidateFullInstall | Wird am Ende der Bereitstellung ausgeführt, um die vollständige Installation zu überprüfen. |
Beschreibung
Das Runbook InstanceRefresh hat die folgenden Anwendungsfälle:
- Aktualisieren Sie die VMSS-Betriebssystem-SKU auf den Server-, Agent- und GPU-Skalierungsgruppen.
- Führen Sie einen Knotenrotationsvorgang für ein oder mehrere VMSSes aus.
- Andere VMSS-Konfigurationsänderungen, die zuvor auf das VMSS angewendet wurden.
Nutzung
Implementierungsdetails
Das Runbook InstanceRefresh ist ein Wrapper für das Runbook RemoveNodes. Daher wird der Status während der Ausführung von RemoveNodes nachverfolgt. Es aktualisiert alle VMSS-Betriebssystemversionen (falls erforderlich) und extrahiert basierend auf den empfangenen Parametern den Hostnamen für den Knotenrotationsvorgang und leitet sie an RemoveNodes weiter. Wenn der Cluster genau drei Server hat, erstellt das Runbook InstanceRefresh drei neue Server. Andernfalls übernimmt RemoveNodes die Hochskalierung, um immer mindestens einen Server in jeder Verfügbarkeitszone beizubehalten.
Beschreibung
Das Runbook RemoveNodes hat die folgenden Anwendungsfälle:
- Entfernen Sie die angegebenen Knoten aus dem Automation Suite-Cluster.
- Führen Sie einen Knotenrotationsvorgang für eine/zwei VMs durch.
Nutzung
NODESTOBEREMOVEDCOMPUTERNAME
ist eine durch Kommas getrennte Liste von Computernamen der VMs, die Sie löschen möchten (z. B.pxlqw-agent-000009,pxlqw-agent-00000A
), und es ist der einzige obligatorische Parameter. Wir empfehlen, Knoten jeweils aus einem einzelnen VMSS zu entfernen.-
ISINSTANCEREFRESH
undTHREESERVERSSCENARIO
sind Flags, die vom InstanceRefresh-Wrapper aufgefüllt werden.Klicken Sie auf die Schaltfläche OK, um das Runbook zu starten.
Implementierungsdetails
Das Runbook RemoveNodes hat einen rekursiven Ansatz, um das 3-Stunden-Zeitlimit für faire Freigabe zu überwinden. Es entfernt den ersten oder die ersten beiden Knoten (die Anzahl wird so gewählt, dass die Bedingung der ungeraden Anzahl von Servern erfüllt ist) aus der empfangenen Liste und führt eine weitere Instanz des Runbooks mit der verbleibenden Liste aus.
Der Vorgang zum Wiederherstellen des Knotens für einen Knoten erfordert die folgenden Schritte:
- Skalieren Sie das VMSS mit einer oder zwei VMs basierend auf der Anzahl der Knoten, die entfernt werden.
- Führen Sie die Knotenentfernung für die alten Instanzen durch.
Das Entfernen des Knotens für einen Knoten erfordert die folgenden Schritte:
- Sperren und leeren Sie die Instanzen. Der Vorgang läuft nach 20 Minuten für einen Agenten und nach
number_of_instances * 60
Minuten für Server ab. - Beenden Sie den rke-Dienst auf den Instanzen. Der Vorgang läuft nach 5 Minuten ab.
- Entfernen Sie die Knoten aus dem Automation Suite-Cluster und löschen Sie die VMs. Der Vorgang läuft nach 20 Minuten für Agenten und
number_of_instances * 60
Minuten für Server ab.
Beschreibung
Das Runbook RemoveServers hat den folgenden Anwendungsfall:
- Entfernen Sie Server aus dem Automation Suite-Cluster.
Nutzung
- Wechseln Sie zum Azure-Portal und suchen Sie nach der Ressource RemoveServers.
- Klicken Sie auf die Schaltfläche Start, um die Parameterliste zu öffnen. Vervollständigen Sie die Parameter unter Berücksichtigung der folgenden Punkte:
-
REMOVEDSERVERSCOUNT
ist die Anzahl der Server, die entfernt werden. Wir empfehlen, nicht mehr als 2 Server gleichzeitig zu entfernen, um das Fair-Share -Timeout nicht zu erreichen.
Implementierungsdetails
Das Runbook RemoveServers entfernt die Anzahl der Server, die als Parameter aus den Verfügbarkeitszonen mit den meisten VMs empfangen wurden.
Beschreibung
Das Runbook CheckServerZoneResilience skaliert das Server-VMSS und verwendet das Runbook RemoveServers, um die Server über die Verfügbarkeitszonen hinweg auszugleichen. Dies ist Teil des InstanceRefresh-Flows und sollte nicht manuell ausgeführt werden.
Beschreibung
In dem Szenario, in dem die erste Bereitstellung ohne GPU-Knoten erstellt wurde, erstellen wir die VM-Skalierungsgruppe, verwenden jedoch eine andere SKU, um Probleme mit der Zonen-/SKU-Verfügbarkeit zu vermeiden. Dieses Runbook ändert die SKU in eine GPU-SKU und fügt einen Knoten hinzu.
Nutzung
Führen Sie die folgenden Schritte aus, um dieses Runbook zu verwenden:
- Navigieren Sie zu der Ressourcengruppe, in der Sie die Automation Suite bereitgestellt haben, identifizieren Sie das Automatisierungskonto und klicken Sie darauf.
- Klicken Sie auf Runbooks und dann auf das Runbook AddGPUNode.
- Geben Sie einen Namen für die gewünschte SKU ein und klicken Sie auf Start.
Parameter:
skuName
– die SKU für die GPU-Knoten VMSS.
Zulässige Werte
Standard_NC8as_T4_v3
Standard_NC12s_v3
Standard_NC24s_v3
Beschreibung
Das Runbook registriert AI Center beim externen Orchestrator, das zum Zeitpunkt der Bereitstellung bereitgestellt wird.
Nutzung
IdentityToken
, bei dem es sich um ein Installationszugriffstoken handelt, das vom externen Identitätsdienst generiert wird. Da das Token nur eine kurze Verfügbarkeit hat (ca. 1–2 Stunden), empfehlen wir, es kurz vor der Ausführung des Runbooks zu generieren. Anweisungen finden Sie unter Installationsschlüssel.
Beschreibung
Das Runbook BackupCluster hilft Ihnen bei der Sicherung Ihres Clusters.
Nutzung
Beschreibung
Mit dem Runbook GetAllBackups können Sie eine Liste aller verfügbaren Sicherungen anzeigen, sowohl geplante als auch manuelle.
Beschreibung
Diese Runbooks helfen Ihnen, eine Wiederherstellung des Clusters durchzuführen.
Nutzung
Führen Sie die folgenden Schritte aus, um einen Wiederherstellungsvorgang durchzuführen:
- Falls eine VM dem Automation Suite-Cluster nicht beitreten kann, wird ein Rollback versucht. Die neu erstellten VMs führen dieselben Schritte aus wie bei der üblichen Entfernung von Knoten (absperren, entleeren, den rke-Dienst anhalten, den Knoten aus dem Cluster entfernen und die VMs löschen). Sie finden die Protokolle aus der Prozedur zum Verbinden des Knotens im Speicherkonto im Protokollcontainer in Blobs wie
infra-<hostname>.log
. -
Wenn beim Löschen von Knoten ein Fehler auftritt, wird jedes Runbook angehalten und die Protokolle für den fehlgeschlagenen Schritt angezeigt. Beheben Sie das Problem, schließen Sie den Prozess manuell ab oder verwenden Sie das RemoveNodes-Runbook. Sie finden alle Protokolle im Speicherkonto im Protokollcontainer wie folgt:
- Absperren und Ablassen –
<timestamp>-<runbook_abreviation>-drain_nodes.log
- Stoppen Sie den rke-Dienst –
<timestamp>-<runbook_abreviation>-stop_rke.log
- Knoten aus dem Cluster entfernen –
<timestamp>-<runbook_abreviation>-remove_nodes.log
- Absperren und Ablassen –
- Bei einer Zeitüberschreitung sollten Sie warten, bis der Schritt seine Ausführung abgeschlossen hat, die Protokolle überprüfen und den Prozess manuell oder mithilfe des Runbooks RemoveNodes abschließen. Alle Runbooks verwenden die Funktion Azure Run Command, um Code im Kontext der VMs auszuführen. Eine Einschränkung dieser Methode besteht darin, dass sie den Status der Ausführung nicht zurückgibt. Daher werden die Schritte zum Sperren, Entleeren und Beenden des rke-Diensts asynchron ausgeführt und der Status wird mit Blobs im folgenden Format beibehalten:
<timestamp>-<runbook_abreviation>-<step_name>.<success/fail>
.
- Überprüfen der Installation
- Aktualisieren der Zertifikate
- Aktivieren von FIPS 140-2
- Untersuchen von Flags und Protokollen
- Flags-Container
- Protokoll-Container
- Zugreifen auf Bereitstellungsausgaben
- Bereitstellungsausgaben
- Zugreifen auf Cluster-VMs
- DNS-Anforderungen
- Zugriff auf das Clusterverwaltungsportal
- Zugriff auf die allgemeine Benutzeroberfläche der Automation Suite
- Zugriff auf die Hostverwaltung
- Zugreifen auf ArgoCD
- Zugreifen auf die Überwachungstools
- Skalieren Ihres Clusters
- Abschließen eines Upgrades
- Azure-VM-Lebenszyklusvorgänge
- Hybrid-Worker
- InstanceRefresh
- RemoveNodes
- RemoveServers
- CheckServerZoneResilience
- AddGpuNode
- RegisterAiCenterExternalOrchestrator
- BackupCluster
- GetAllBackups
- RestoreClusterInitialize, RestoreSnapshot
- Fehlersuche und ‑behebung