- Erste Schritte
- Netzwerkanforderungen
- Anforderungen und Installation für einen einzelnen Knoten
- Anforderungen und Installation für mehrere Knoten
- Nach der Installation
- Zugriff auf AI Center
- Bereitstellen eines AI Center-Mandanten
- Aktualisieren von Orchestrator- und Identity Server-Zertifikaten
- Ändern der PVC-Größe
- Hinzufügen eines neuen Knotens zum Cluster
- Offlineinstallation von ML-Paketen
- Konfigurieren des Clusters
- Konfigurieren des FQDN nach der Installation
- Sichern und Wiederherstellen des Clusters
- Verwendung des Überwachungs-Stacks
- Einrichten einer Kerberos-Authentifizierung
- Bereitstellen einer GPU
- Verwenden der Konfigurationsdatei
- Knotenplanung
- Migration und Upgrade
- Grundlegende Anleitung zur Fehlerbehebung
Fehlerbehebung bei eigenständigem AI Center™
Dieser Abschnitt enthält Informationen zur Fehlerbehebung für AI Center™ in einer eigenständigen Umgebung.
Die folgenden Abschnitte gelten speziell für AI Center™.
Stellen Sie sicher, dass Sie das Verfahren befolgen, das Ihren Anforderungen entspricht.
input.json
-Datei bereitgestellt wird, und die AI Center-Registrierung bei Identity Server schlägt fehl. Führen Sie die folgenden Schritte aus, um sie wiederherzustellen.
- Melden Sie sich bei
https://alm.<LB DNS>
mit dem Benutzernamenadmin
an. Führen Sie den folgenden Befehl aus, um das Kennwort abzurufen:kubectl -n argocd get secret argocd-admin-password -o jsonpath={.data.password} | base64 -d
kubectl -n argocd get secret argocd-admin-password -o jsonpath={.data.password} | base64 -d - Gehen Sie zu ArgoCD und klicken Sie auf die Kachel aicenter .
- Klicken Sie auf APP-DETAILS und wechseln Sie zur Registerkarte Manifest .
- Klicken Sie auf der Registerkarte Manifest auf Bearbeiten.
- Rufen Sie das neue Identitätstoken ab, indem Sie das Feld
accessToken
auf der Registerkarte Manifest aktualisieren und auf Speichernklicken.
Die Synchronisierung startet automatisch und ist abgeschlossen.
curl: (92)
HTTP/2 stream 0 was not closed cleanly: HTTP_1_1_REQUIRED (err 13)
.
Wenn bei Ihren Datenbanken ein Problem besteht, können Sie sie direkt nach der Installation von Grund auf neu erstellen.
Dazu können Sie einen SQL-Befehl ausführen, um alle DBs zu löschen. Das geht wie folgt:
USE [master]
ALTER DATABASE [AutomationSuite_AICenter] SET SINGLE_USER WITH ROLLBACK IMMEDIATE
DROP DATABASE [AutomationSuite_AICenter]
CREATE DATABASE [AutomationSuite_AICenter]
GO
USE [master]
ALTER DATABASE [AutomationSuite_AICenter] SET SINGLE_USER WITH ROLLBACK IMMEDIATE
DROP DATABASE [AutomationSuite_AICenter]
CREATE DATABASE [AutomationSuite_AICenter]
GO
Das Installationsprogramm kann keine Verbindung zu ArgoCD herstellen, um zu überprüfen, ob das Kennwort zurückgesetzt wurde.
Dieses Problem kann während der Fabric-Installation auftreten. Das Installationsprogramm kann mit dem folgenden Fehler (oder einem ähnlichen) fehlschlagen.
appproject.argoproj.io/fabric created
configmap/argocd-cm configured
[INFO] [2021-09-02T09:21:15+0000]: Checking if ArgoCD password was reset, looking for secrets/argocd-admin-password.
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:16+0000]: Secret not found, trying to log in with initial password...1/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:36+0000]: Secret not found, trying to log in with initial password...2/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:56+0000]: Secret not found, trying to log in with initial password...3/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:16+0000]: Secret not found, trying to log in with initial password...4/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:36+0000]: Secret not found, trying to log in with initial password...5/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:56+0000]: Secret not found, trying to log in with initial password...6/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:17+0000]: Secret not found, trying to log in with initial password...7/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:37+0000]: Secret not found, trying to log in with initial password...8/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:57+0000]: Secret not found, trying to log in with initial password...9/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:24:17+0000]: Secret not found, trying to log in with initial password...10/10
[ERROR][2021-09-02T09:24:37+0000]: Failed to log in
appproject.argoproj.io/fabric created
configmap/argocd-cm configured
[INFO] [2021-09-02T09:21:15+0000]: Checking if ArgoCD password was reset, looking for secrets/argocd-admin-password.
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:16+0000]: Secret not found, trying to log in with initial password...1/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:36+0000]: Secret not found, trying to log in with initial password...2/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:56+0000]: Secret not found, trying to log in with initial password...3/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:16+0000]: Secret not found, trying to log in with initial password...4/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:36+0000]: Secret not found, trying to log in with initial password...5/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:56+0000]: Secret not found, trying to log in with initial password...6/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:17+0000]: Secret not found, trying to log in with initial password...7/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:37+0000]: Secret not found, trying to log in with initial password...8/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:57+0000]: Secret not found, trying to log in with initial password...9/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:24:17+0000]: Secret not found, trying to log in with initial password...10/10
[ERROR][2021-09-02T09:24:37+0000]: Failed to log in
Überprüfen Sie alle erforderlichen Unterdomänen und stellen Sie sicher, dass sie korrekt konfiguriert sind und wie folgt weiterleitbar sind:
getent ahosts automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts alm.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts registry.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts monitoring.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts objectstore.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts alm.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts registry.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts monitoring.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts objectstore.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
automationsuite.mycompany.com
durch Ihren Cluster-FQDN.
Wenn die obigen Befehle/Zeilen keine weiterleitbare IP-Adresse zurückgeben, ist die für das AI Center erforderliche Unterdomäne nicht ordnungsgemäß konfiguriert.
Dieser Fehler tritt auf, wenn das DNS nicht öffentlich ist.
Sie müssen die private DNS-Zone (für Azure) oder Route 53 (für AWS) hinzufügen.
Wenn obige Befehle die richtige IP-Adresse zurückgeben, führen Sie die folgenden Schritte aus.
- Löschen Sie den ArgoCD-Namespace, indem Sie den folgenden Befehl ausführen:
export KUBECONFIG=/etc/rancher/rke2/rke2.yaml export PATH=$PATH:/var/lib/rancher/rke2/bin kubectl delete namespace argocd
export KUBECONFIG=/etc/rancher/rke2/rke2.yaml export PATH=$PATH:/var/lib/rancher/rke2/bin kubectl delete namespace argocd - Führen Sie zum Überprüfen den folgenden Befehl aus:
kubectl get namespace
kubectl get namespace
In der Ausgabe dieses Befehls darf kein ArgoCD-Namespace vorhanden sein.
Bei Problemen im Zusammenhang mit dem Zugriff auf das AI Center führen Sie die Schritte aus den folgenden Abschnitten aus:
- Aktivieren von kubectl
- Verwalten von Zertifikaten
- Ermöglichen der Kommunikation von Robotern mit AI Center™
https://objectstore.${CONFIG_CLUSTER_FQDN}
aufrufen, um mit dem Speicher interagieren zu können.
- Abgelaufenes Identitätstoken
- Beschreibung
- Wiederherstellungsschritte
- Meldung: curl: (92) HTTP/2 stream 0 was not closed cleanly: HTTP_1_1_REQUIRED (err 13)
- Beschreibung
- Lösung
- Neuerstellen der Datenbanken
- Das Installationsprogramm kann keine Verbindung zu ArgoCD herstellen, um zu überprüfen, ob das Kennwort zurückgesetzt wurde.
- Beschreibung
- Lösung 1
- Lösung 2
- Probleme beim Zugriff auf das AI Center
- Aktivieren des AI Center im wiederhergestellten Cluster
- Aktivieren des AI Center im wiederhergestellten Cluster