- Versionshinweise
- Anforderungen
- Installation
- Über die Installation
- 1. Eine Maschine bereitstellen
- 2. Datenbank konfigurieren
- 3. Den Orchestrator konfigurieren
- 4. Das AI Fabric-Infrastruktur-Installationsprogramm ausführen
- 5. Das AI Fabric-Anwendungsinstallationsprogramm ausführen
- 6. Die Installation überprüfen
- Drittanbietersoftware
- Support
- Aktualisieren von AI Fabric
- Aktualisieren des AI Fabric-Zertifikats
- Erste Schritte
- Projekte
- Datasets
- ML-Pakete
- Pipelines
- ML-Skills
- ML-Protokolle
- Document Understanding in AI Fabric
- Grundlegende Anleitung zur Fehlerbehebung
AI Center
4. Das AI Fabric-Infrastruktur-Installationsprogramm ausführen
Ausführen des AI Fabric-Infrastrukturinstallationsprogramms. Wenn Sie dieses Installationsprogramm abgeschlossen haben, wird die Kots-Administratorkonsole geöffnet, in der Sie Anwendungsaktualisierungen, die Anwendungskonfiguration und die Ressourcennutzung (CPU-/Speicherauslastung) verwalten sowie Supportpakete zum Beheben von Problemen herunterladen können.
Der erste Schritt besteht darin, die ZIP-Datei des Installationsprogramms hier herunterzuladen und auf den AI Fabric-Server zu verschieben. Alternativ können Sie sie mit folgendem Befehl direkt von der Maschine herunterladen
Das Skript lädt einige Dateien im Rahmen des Installationsvorgangs lokal herunter. Stellen Sie sicher, dass 4 GB in dem Verzeichnis verfügbar sind, in dem Sie das Skript ausführen.
Standardmäßig haben Azure RHEL-VMs nur 1 GB im Startverzeichnis verfügbar, welches das Standardverzeichnis ist.
wget https://download.uipath.com/aifabric/online-installer/v2020.10.5/aifabric-installer-v20.10.5.tar.gz
wget https://download.uipath.com/aifabric/online-installer/v2020.10.5/aifabric-installer-v20.10.5.tar.gz
Entpacken Sie dann die Datei und wechseln Sie mit dem folgenden Befehl in den Hauptordner:
tar -xvf aifabric-installer-v20.10.5.tar.gz
cd ./aifabric-installer-v20.10.5
tar -xvf aifabric-installer-v20.10.5.tar.gz
cd ./aifabric-installer-v20.10.5
Sie können dann das AI Fabric-Installationsprogramm starten, indem Sie Folgendes ausführen:
./setup.sh
./setup.sh
Der erste Schritt besteht darin, die Lizenzvereinbarung durch Drücken von Y zu akzeptieren. Das Skript fragt Sie dann, welchen Plattformtyp Sie installieren möchten. Geben Sie Onebox ein und drücken Sie die Eingabetaste wie auf dem Bild unten:
Sie werden dann gefragt, ob ihr Setup über eine GPU verfügt. Geben Sie je nach Hardware Y oder N ein. Stellen Sie sicher, dass die Treiber bereits installiert sind.
Je nach System werden Sie möglicherweise einige Male aufgefordert, Y zu drücken, damit die Installation abgeschlossen wird.
Dieser Schritt dauert zwischen 15 und 25 Minuten. Nach Abschluss wird auf der Terminalausgabe die Meldung Installation abgeschlossen angezeigt.
Laden Sie auf der lokalen Maschine mit Zugriff auf einen Browser (z. B. einen Windows-Server) die Bundle-Installation mithilfe des von Ihrem Kontomanager bereitgestellten Links herunter.
tar -zxvf aifabric-installer-v2020.10.5.tar.gz
auf einer Maschine, die TAR unterstützt.
Dadurch werden zwei Ordner erstellt:
aif_infra_20.10.5.tar.gz
mit den Infrastrukturkomponenten (ca. 3,6 GB)ai-fabric-v2020.10.5.airgap
mit den Anwendungskomponenten (etwa 8,7 GB). Dies wird in Schritt 5. Ausführen des AI Fabric-Anwendungsinstallationsprogramms auf die Benutzeroberfläche hochgeladen.
aif_infra_20.10.5.tar.gz
in die Airgapped-AI Fabric-Maschine.
Führen Sie dann den folgenden Befehl aus, um das Infrastruktur-Installationsprogramm zu starten:
tar -zxvf aif_infra_20.10.5.tar.gz
cd aif_infra_20.10.5
sudo ./setup.sh
tar -zxvf aif_infra_20.10.5.tar.gz
cd aif_infra_20.10.5
sudo ./setup.sh
In beiden Fällen wird bei erfolgreicher Installation die Adresse und das Kennwort der KotsAdmin-Benutzeroberfläche ausgegeben.
...
Install Successful:
configmap/kurl-config created
Installation
Complete ✔
Kotsadm: http://13.59.108.17:8800
Login with password (will not be shown again): NNqKCY82S
The UIs of Prometheus, Grafana and Alertmanager have been exposed on NodePorts 30900,
30902 and 30903 respectively.
To access Grafana use the generated user:password of admin:msDX5VZ9m .
To access the cluster with kubectl, reload your shell:
bash -l
...
...
Install Successful:
configmap/kurl-config created
Installation
Complete ✔
Kotsadm: http://13.59.108.17:8800
Login with password (will not be shown again): NNqKCY82S
The UIs of Prometheus, Grafana and Alertmanager have been exposed on NodePorts 30900,
30902 and 30903 respectively.
To access Grafana use the generated user:password of admin:msDX5VZ9m .
To access the cluster with kubectl, reload your shell:
bash -l
...
<machine-ip>:8800
befindet. In einigen Fällen wird die interne IP anstelle der öffentlichen IP angezeigt. Stellen Sie sicher, dass Sie die öffentliche IP verwenden, wenn Sie von extern darauf zugreifen.
bash -l
kubectl kots reset-password -n default
bash -l
kubectl kots reset-password -n default
- Überprüfen Sie, ob die GPU-Treiber korrekt installiert sind, indem Sie den folgenden Befehl ausführen:
nvidia-smi
nvidia-smiWenn die GPU-Treiber korrekt installiert sind, sollten Ihre GPU-Informationen angezeigt werden. Wenn ein Fehler auftritt, bedeutet dies, dass die GPU nicht zugänglich ist oder die Treiber nicht korrekt installiert sind. Dieses Problem muss behoben werden, bevor Sie fortfahren.
- Überprüfen Sie, ob NVIDIA Runtime Container korrekt installiert ist, indem Sie den folgenden Befehl ausführen:
/usr/bin/nvidia-container-runtime
/usr/bin/nvidia-container-runtime
- Laden Sie die beiden verfügbaren Skripts zum Hinzufügen der GPU über den folgenden Link herunter: GPU-Skripte.
-
Führen Sie ein Skript aus, um die GPU zum Cluster hinzuzufügen, damit Pipelines und ML-Fähigkeiten sie verwenden können. Wählen Sie je nach Installation eine der folgenden Optionen aus:
- Führen Sie bei einer Online-Installation das folgende Skript aus:
<h1>navigate to where you untar installer (or redo it if you have removed it) cd ./aicenter-installer-v21.4.0/infra/common/scripts ./attach_gpu_drivers.sh</h1>
<h1>navigate to where you untar installer (or redo it if you have removed it) cd ./aicenter-installer-v21.4.0/infra/common/scripts ./attach_gpu_drivers.sh</h1> -
Im Fall von Airgapped müssen Sie zuerst die Datei im
aif_infra
-Verzeichnis erstellen und sicherstellen, dassnvidia-device-plugin.yaml
sich im selben Ordner befindet.Um die Datei zu erstellen, fügen Sie den Inhalt aus derattach_gpu_drivers.sh
-Datei ein, die Sie in Schritt 1 heruntergeladen haben. Führen Sie das folgende Skript aus:./attach_gpu_drivers.sh
./attach_gpu_drivers.sh
- Führen Sie bei einer Online-Installation das folgende Skript aus:
Das Infrastruktur-Installationsprogramm ist nicht idempotent. Das bedeutet, dass das erneute Ausführen des Installationsprogramms (nachdem Sie es bereits einmal ausgeführt haben) nicht funktioniert. Wenn dieses Installationsprogramm fehlschlägt, müssen Sie eine neue Maschine mit neuen Datenträgern bereitstellen.
Die häufigsten Fehlerquellen sind, dass das Bootlaufwerk während der Installation voll wird oder dass die externen Datenlaufwerke angehängt/formatiert werden. Denken Sie daran, die Datenträger nur anzuhängen und nicht zu formatieren.
Wenn die Installation mit unformatierten Datenträgern und einem ausreichend großen Bootlaufwerk fehlschlägt, wenden Sie sich an unser Supportteam und fügen Sie in Ihrer E-Mail ein Supportpaket hinzu. Durch Ausführen dieses Befehls kann ein Supportpaket generiert werden:
curl https://krew.sh/support-bundle | bash
kubectl support-bundle https://kots.io
curl https://krew.sh/support-bundle | bash
kubectl support-bundle https://kots.io
Wenn Sie alternativ keinen Zugriff auf das Internet haben, können Sie die Datei support-bundle.yaml mit folgendem Text erstellen:
apiVersion: troubleshoot.replicated.com/v1beta1
kind: Collector
metadata:
name: collector-sample
spec:
collectors:
- clusterInfo: {}
- clusterResources: {}
- exec:
args:
- "-U"
- kotsadm
collectorName: kotsadm-postgres-db
command:
- pg_dump
containerName: kotsadm-postgres
name: kots/admin_console
selector:
- app=kotsadm-postgres
timeout: 10s
- logs:
collectorName: kotsadm-postgres-db
name: kots/admin_console
selector:
- app=kotsadm-postgres
- logs:
collectorName: kotsadm-api
name: kots/admin_console
selector:
- app=kotsadm-api
- logs:
collectorName: kotsadm-operator
name: kots/admin_console
selector:
- app=kotsadm-operator
- logs:
collectorName: kotsadm
name: kots/admin_console
selector:
- app=kotsadm
- logs:
collectorName: kurl-proxy-kotsadm
name: kots/admin_console
selector:
- app=kurl-proxy-kotsadm
- secret:
collectorName: kotsadm-replicated-registry
includeValue: false
key: .dockerconfigjson
name: kotsadm-replicated-registry
- logs:
collectorName: rook-ceph-agent
selector:
- app=rook-ceph-agent
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-mgr
selector:
- app=rook-ceph-mgr
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-mon
selector:
- app=rook-ceph-mon
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-operator
selector:
- app=rook-ceph-operator
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-osd
selector:
- app=rook-ceph-osd
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-osd-prepare
selector:
- app=rook-ceph-osd-prepare
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-rgw
selector:
- app=rook-ceph-rgw
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-discover
selector:
- app=rook-discover
namespace: rook-ceph
name: kots/rook
apiVersion: troubleshoot.replicated.com/v1beta1
kind: Collector
metadata:
name: collector-sample
spec:
collectors:
- clusterInfo: {}
- clusterResources: {}
- exec:
args:
- "-U"
- kotsadm
collectorName: kotsadm-postgres-db
command:
- pg_dump
containerName: kotsadm-postgres
name: kots/admin_console
selector:
- app=kotsadm-postgres
timeout: 10s
- logs:
collectorName: kotsadm-postgres-db
name: kots/admin_console
selector:
- app=kotsadm-postgres
- logs:
collectorName: kotsadm-api
name: kots/admin_console
selector:
- app=kotsadm-api
- logs:
collectorName: kotsadm-operator
name: kots/admin_console
selector:
- app=kotsadm-operator
- logs:
collectorName: kotsadm
name: kots/admin_console
selector:
- app=kotsadm
- logs:
collectorName: kurl-proxy-kotsadm
name: kots/admin_console
selector:
- app=kurl-proxy-kotsadm
- secret:
collectorName: kotsadm-replicated-registry
includeValue: false
key: .dockerconfigjson
name: kotsadm-replicated-registry
- logs:
collectorName: rook-ceph-agent
selector:
- app=rook-ceph-agent
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-mgr
selector:
- app=rook-ceph-mgr
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-mon
selector:
- app=rook-ceph-mon
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-operator
selector:
- app=rook-ceph-operator
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-osd
selector:
- app=rook-ceph-osd
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-osd-prepare
selector:
- app=rook-ceph-osd-prepare
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-rgw
selector:
- app=rook-ceph-rgw
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-discover
selector:
- app=rook-discover
namespace: rook-ceph
name: kots/rook
Und erstellen Sie dann die Supportpaketdatei mit folgendem Befehl:
kubectl support-bundle support-bundle.yaml
kubectl support-bundle support-bundle.yaml
Dadurch wird eine Datei mit dem Namen supportbundle.tar.gz erstellt, die Sie hochladen können, wenn Sie ein Support-Ticket erstellen.