- Erste Schritte
- Netzwerkanforderungen
- Anforderungen und Installation für einen einzelnen Knoten
- Anforderungen und Installation für mehrere Knoten
- Nach der Installation
- Zugriff auf AI Center
- Bereitstellen eines AI Center-Mandanten
- Aktualisieren von Orchestrator- und Identity Server-Zertifikaten
- Ändern der PVC-Größe
- Hinzufügen eines neuen Knotens zum Cluster
- Offlineinstallation von ML-Paketen
- Konfigurieren des Clusters
- Konfigurieren des FQDN nach der Installation
- Sichern und Wiederherstellen des Clusters
- Verwendung des Überwachungs-Stacks
- Einrichten einer Kerberos-Authentifizierung
- Bereitstellen einer GPU
- Verwenden der Konfigurationsdatei
- Knotenplanung
- Migration und Upgrade
- Grundlegende Anleitung zur Fehlerbehebung
Fehlerbehebung bei eigenständigem AI Center
Dieser Abschnitt enthält Informationen zur Fehlerbehebung für das AI Center in einer eigenständigen Umgebung.
Die folgenden Abschnitte sind spezifisch für das AI Center.
Stellen Sie sicher, dass Sie das Verfahren befolgen, das Ihren Anforderungen entspricht.
input.json
-Datei bereitgestellt wird, und die AI Center-Registrierung bei Identity Server schlägt fehl. Führen Sie die folgenden Schritte aus, um sie wiederherzustellen.
- Melden Sie sich bei
https://alm.<LB DNS>
mit dem Benutzernamenadmin
an. Führen Sie den folgenden Befehl aus, um das Kennwort abzurufen:kubectl -n argocd get secret argocd-admin-password -o jsonpath={.data.password} | base64 -d
kubectl -n argocd get secret argocd-admin-password -o jsonpath={.data.password} | base64 -d - Gehen Sie zu ArgoCD und klicken Sie auf die Kachel aicenter .
- Klicken Sie auf APP-DETAILS und wechseln Sie zur Registerkarte Manifest .
- Klicken Sie auf der Registerkarte Manifest auf Bearbeiten.
- Rufen Sie das neue Identitätstoken ab, indem Sie das Feld
accessToken
auf der Registerkarte Manifest aktualisieren und auf Speichernklicken.
Die Synchronisierung startet automatisch und ist abgeschlossen.
curl: (92) HTTP/2 stream 0 was not closed cleanly: HTTP_1_1_REQUIRED (err 13)
.
Wenn bei Ihren Datenbanken ein Problem besteht, können Sie sie direkt nach der Installation von Grund auf neu erstellen.
Dazu können Sie einen SQL-Befehl ausführen, um alle DBs zu löschen. Das geht wie folgt:
USE [master]
ALTER DATABASE [AutomationSuite_AICenter] SET SINGLE_USER WITH ROLLBACK IMMEDIATE
DROP DATABASE [AutomationSuite_AICenter]
CREATE DATABASE [AutomationSuite_AICenter]
GO
USE [master]
ALTER DATABASE [AutomationSuite_AICenter] SET SINGLE_USER WITH ROLLBACK IMMEDIATE
DROP DATABASE [AutomationSuite_AICenter]
CREATE DATABASE [AutomationSuite_AICenter]
GO
Das Installationsprogramm kann keine Verbindung zu ArgoCD herstellen, um zu überprüfen, ob das Kennwort zurückgesetzt wurde.
Dieses Problem kann während der Fabric-Installation auftreten. Das Installationsprogramm kann mit dem folgenden Fehler (oder einem ähnlichen) fehlschlagen.
appproject.argoproj.io/fabric created
configmap/argocd-cm configured
[INFO] [2021-09-02T09:21:15+0000]: Checking if ArgoCD password was reset, looking for secrets/argocd-admin-password.
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:16+0000]: Secret not found, trying to log in with initial password...1/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:36+0000]: Secret not found, trying to log in with initial password...2/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:56+0000]: Secret not found, trying to log in with initial password...3/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:16+0000]: Secret not found, trying to log in with initial password...4/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:36+0000]: Secret not found, trying to log in with initial password...5/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:56+0000]: Secret not found, trying to log in with initial password...6/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:17+0000]: Secret not found, trying to log in with initial password...7/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:37+0000]: Secret not found, trying to log in with initial password...8/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:57+0000]: Secret not found, trying to log in with initial password...9/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:24:17+0000]: Secret not found, trying to log in with initial password...10/10
[ERROR][2021-09-02T09:24:37+0000]: Failed to log in
appproject.argoproj.io/fabric created
configmap/argocd-cm configured
[INFO] [2021-09-02T09:21:15+0000]: Checking if ArgoCD password was reset, looking for secrets/argocd-admin-password.
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:16+0000]: Secret not found, trying to log in with initial password...1/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:36+0000]: Secret not found, trying to log in with initial password...2/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:56+0000]: Secret not found, trying to log in with initial password...3/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:16+0000]: Secret not found, trying to log in with initial password...4/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:36+0000]: Secret not found, trying to log in with initial password...5/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:56+0000]: Secret not found, trying to log in with initial password...6/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:17+0000]: Secret not found, trying to log in with initial password...7/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:37+0000]: Secret not found, trying to log in with initial password...8/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:57+0000]: Secret not found, trying to log in with initial password...9/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:24:17+0000]: Secret not found, trying to log in with initial password...10/10
[ERROR][2021-09-02T09:24:37+0000]: Failed to log in
Überprüfen Sie alle erforderlichen Unterdomänen und stellen Sie sicher, dass sie korrekt konfiguriert sind und wie folgt weiterleitbar sind:
getent ahosts automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts alm.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts registry.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts monitoring.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts objectstore.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts alm.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts registry.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts monitoring.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts objectstore.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
automationsuite.mycompany.com
durch Ihren Cluster-FQDN.
Wenn die obigen Befehle/Zeilen keine weiterleitbare IP-Adresse zurückgeben, ist die für das AI Center erforderliche Unterdomäne nicht ordnungsgemäß konfiguriert.
Dieser Fehler tritt auf, wenn das DNS nicht öffentlich ist.
Sie müssen die private DNS-Zone (für Azure) oder Route 53 (für AWS) hinzufügen.
Wenn obige Befehle die richtige IP-Adresse zurückgeben, führen Sie die folgenden Schritte aus.
- Löschen Sie den ArgoCD-Namespace, indem Sie den folgenden Befehl ausführen:
export KUBECONFIG=/etc/rancher/rke2/rke2.yaml export PATH=$PATH:/var/lib/rancher/rke2/bin kubectl delete namespace argocd
export KUBECONFIG=/etc/rancher/rke2/rke2.yaml export PATH=$PATH:/var/lib/rancher/rke2/bin kubectl delete namespace argocd - Run the following command to
verify:
kubectl get namespace
kubectl get namespace
In der Ausgabe dieses Befehls darf kein ArgoCD-Namespace vorhanden sein.
Bei Problemen im Zusammenhang mit dem Zugriff auf das AI Center führen Sie die Schritte aus den folgenden Abschnitten aus:
- Aktivieren von kubectl
- Verwalten von Zertifikaten
- Zulassen, dass Roboter mit dem AI Center kommunizieren
https://objectstore.${CONFIG_CLUSTER_FQDN}
aufrufen, um mit dem Speicher interagieren zu können.
- Abgelaufenes Identitätstoken
- Beschreibung
- Wiederherstellungsschritte
- Meldung: curl: (92) HTTP/2 stream 0 was not closed cleanly: HTTP_1_1_REQUIRED (err 13)
- Beschreibung
- Lösung
- Neuerstellen der Datenbanken
- Das Installationsprogramm kann keine Verbindung zu ArgoCD herstellen, um zu überprüfen, ob das Kennwort zurückgesetzt wurde.
- Beschreibung
- Lösung 1
- Lösung 2
- Probleme beim Zugriff auf das AI Center
- Aktivieren des AI Centers auf dem wiederhergestellten Cluster
- Aktivieren des AI Centers auf dem wiederhergestellten Cluster