- Notes de publication
- Prérequis
- Installation
- À propos de l'installation
- 1. Enregistrer une machine
- 2. Configurer la base de données
- 3. Configurer Orchestrator
- 4. Exécutez le programme d'installation de l'infrastructure AI Fabric
- 5. Exécutez le programme d'installation de l'application AI Fabric
- 6. Vérifiez l'installation
- Logiciels tiers
- Assistance
- Mettre à niveau AI Fabric
- Mise à jour du certificat AI Fabric
- Démarrage
- Projets
- Jeux de données
- Paquets ML
- Pipelines
- Compétences ML
- Journaux ML
- Document Understanding dans AI Fabric
- Guide de dépannage de base
AI Center
4. Exécutez le programme d'installation de l'infrastructure AI Fabric
Exécutez le programme d'installation de l'infrastructure AI Fabric. À la fin du programme d'installation, la console d'administration Kots sera produite, sur laquelle vous pourrez gérer les mises à jour des applications, la configuration des applications, l'utilisation des ressources (pression sur le processeur/la mémoire) et télécharger des packages d'assistance pour résoudre les problèmes.
La première étape consiste à télécharger le fichier zippé du programme d'installation ici et à le déplacer vers le serveur AI Fabric. Vous pouvez également le télécharger directement depuis la machine en utilisant la commande suivante
Le script téléchargera certains fichiers localement dans le cadre du processus d'installation. Assurez-vous de disposer de 4 Go sur le répertoire où vous exécutez le script.
Par défaut, les machines virtuelles Azure RHEL ont seulement 1 Go de disponible sur le répertoire d'accueil, qui est le répertoire par défaut.
wget https://download.uipath.com/aifabric/online-installer/v2020.10.5/aifabric-installer-v20.10.5.tar.gz
wget https://download.uipath.com/aifabric/online-installer/v2020.10.5/aifabric-installer-v20.10.5.tar.gz
Ensuite, décompressez le fichier et allez dans le dossier principal à l'aide de la commande suivante :
tar -xvf aifabric-installer-v20.10.5.tar.gz
cd ./aifabric-installer-v20.10.5
tar -xvf aifabric-installer-v20.10.5.tar.gz
cd ./aifabric-installer-v20.10.5
Vous pouvez ensuite exécuter le programme d'installation d'AI Fabric en exécutant :
./setup.sh
./setup.sh
La première étape consiste à accepter le contrat de licence en appuyant sur Y. Le script vous demandera alors quel type de plate-forme vous souhaitez installer. Entrez onebox et appuyez sur Entrée comme sur l'image ci-dessous :
Il vous sera alors demandé si un GPU est disponible pour votre configuration : sélectionnez Y ou N selon votre matériel. Assurez-vous que les pilotes sont déjà installés.
Selon votre système, il peut vous être demandé d'appuyer plusieurs fois sur Y pour que l'installation se termine.
Cette étape prendra entre 15 et 25 minutes. À la fin, le message Installation terminée s'affichera sur la sortie du terminal.
Sur une machine locale avec accès à un navigateur (par exemple un serveur Windows), téléchargez le kit d'installation à l'aide du lien fourni par votre gestionnaire de compte.
tar -zxvf aifabric-installer-v2020.10.5.tar.gz
depuis une machine qui prend en charge tar.
Cela créera deux dossiers :
aif_infra_20.10.5.tar.gz
contenant des composants d'infrastructure (environ 3,6 Go)ai-fabric-v2020.10.5.airgap
, qui contient des composants d'application (environ 8,7 Go). Cela sera téléchargé sur l'interface utilisateur à l'étape 5. Exécutez le programme d'installation d'applications AI Fabric.
aif_infra_20.10.5.tar.gz
sur la machine AI Fabric physiquement isolée.
Exécutez ensuite la commande suivante pour démarrer le programme d'installation de l'infrastructure :
tar -zxvf aif_infra_20.10.5.tar.gz
cd aif_infra_20.10.5
sudo ./setup.sh
tar -zxvf aif_infra_20.10.5.tar.gz
cd aif_infra_20.10.5
sudo ./setup.sh
Dans les deux cas, une installation réussie affichera l'adresse et le mot de passe de l'IU KotsAdmin
...
Install Successful:
configmap/kurl-config created
Installation
Complete ✔
Kotsadm: http://13.59.108.17:8800
Login with password (will not be shown again): NNqKCY82S
The UIs of Prometheus, Grafana and Alertmanager have been exposed on NodePorts 30900,
30902 and 30903 respectively.
To access Grafana use the generated user:password of admin:msDX5VZ9m .
To access the cluster with kubectl, reload your shell:
bash -l
...
...
Install Successful:
configmap/kurl-config created
Installation
Complete ✔
Kotsadm: http://13.59.108.17:8800
Login with password (will not be shown again): NNqKCY82S
The UIs of Prometheus, Grafana and Alertmanager have been exposed on NodePorts 30900,
30902 and 30903 respectively.
To access Grafana use the generated user:password of admin:msDX5VZ9m .
To access the cluster with kubectl, reload your shell:
bash -l
...
<machine-ip>:8800
. Dans certains cas, l'IP interne peut être affichée au lieu de l'IP publique ; veillez à utiliser l'IP publique si vous y accédez de l'extérieur.
bash -l
kubectl kots reset-password -n default
bash -l
kubectl kots reset-password -n default
- Vérifiez si les pilotes GPU sont correctement installés en exécutant la commande suivante :
nvidia-smi
nvidia-smiSi les pilotes GPU ont été correctement installés, les informations de votre GPU devraient s'afficher. Si une erreur se produit, cela signifie que le GPU n'est pas accessible ou que les pilotes n'ont pas été installés correctement. Ce problème doit être résolu avant de continuer.
- Vérifiez si NVIDIA Runtime Container est correctement installé en exécutant la commande suivante :
/usr/bin/nvidia-container-runtime
/usr/bin/nvidia-container-runtime
- Téléchargez les deux scripts disponibles pour ajouter le GPU à partir du lien suivant : Scripts GPU.
-
Exécutez un script pour ajouter le GPU au cluster afin que les Pipelines et les Compétences ML puissent l'utiliser. Selon votre installation, choisissez l'une des options suivantes :
- En cas d'installation en ligne, exécutez le script suivant :
<h1>navigate to where you untar installer (or redo it if you have removed it) cd ./aicenter-installer-v21.4.0/infra/common/scripts ./attach_gpu_drivers.sh</h1>
<h1>navigate to where you untar installer (or redo it if you have removed it) cd ./aicenter-installer-v21.4.0/infra/common/scripts ./attach_gpu_drivers.sh</h1> -
Dans ce cas, vous devez d'abord créer le fichier dans le répertoire
aif_infra
en vous assurant quenvidia-device-plugin.yaml
se trouve dans le même dossier.Pour créer le fichier, collez le contenu du fichierattach_gpu_drivers.sh
téléchargé à l' étape 1. Exécutez le script suivant :./attach_gpu_drivers.sh
./attach_gpu_drivers.sh
- En cas d'installation en ligne, exécutez le script suivant :
L'installateur de l'infrastructure n'est pas idempotent. Cela signifie que recommencer l'exécution du programme d'installation (après l'avoir déjà exécuté une fois) ne fonctionnera pas. Si ce programme d'installation échoue, vous devrez réenregistrer une nouvelle machine avec de nouveaux disques.
Les sources d'erreur les plus fréquentes sont les suivantes : le disque de démarrage se trouve rempli au cours de l'installation, ou bien les disques de données externes sont montés/formatés. Veillez à uniquement joindre les disques et ne pas les formater.
Si l'installation échoue en dépit de la présence de disques non formatés et d'un disque de démarrage suffisamment volumineux, contactez notre équipe d'assistance et incluez dans votre e-mail un package d'assistance. Un package d'assistance peut être généré en exécutant cette commande :
curl https://krew.sh/support-bundle | bash
kubectl support-bundle https://kots.io
curl https://krew.sh/support-bundle | bash
kubectl support-bundle https://kots.io
Si vous n'avez pas accès à Internet, vous pouvez également créer un fichier support-bundle.yaml avec le texte suivant :
apiVersion: troubleshoot.replicated.com/v1beta1
kind: Collector
metadata:
name: collector-sample
spec:
collectors:
- clusterInfo: {}
- clusterResources: {}
- exec:
args:
- "-U"
- kotsadm
collectorName: kotsadm-postgres-db
command:
- pg_dump
containerName: kotsadm-postgres
name: kots/admin_console
selector:
- app=kotsadm-postgres
timeout: 10s
- logs:
collectorName: kotsadm-postgres-db
name: kots/admin_console
selector:
- app=kotsadm-postgres
- logs:
collectorName: kotsadm-api
name: kots/admin_console
selector:
- app=kotsadm-api
- logs:
collectorName: kotsadm-operator
name: kots/admin_console
selector:
- app=kotsadm-operator
- logs:
collectorName: kotsadm
name: kots/admin_console
selector:
- app=kotsadm
- logs:
collectorName: kurl-proxy-kotsadm
name: kots/admin_console
selector:
- app=kurl-proxy-kotsadm
- secret:
collectorName: kotsadm-replicated-registry
includeValue: false
key: .dockerconfigjson
name: kotsadm-replicated-registry
- logs:
collectorName: rook-ceph-agent
selector:
- app=rook-ceph-agent
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-mgr
selector:
- app=rook-ceph-mgr
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-mon
selector:
- app=rook-ceph-mon
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-operator
selector:
- app=rook-ceph-operator
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-osd
selector:
- app=rook-ceph-osd
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-osd-prepare
selector:
- app=rook-ceph-osd-prepare
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-rgw
selector:
- app=rook-ceph-rgw
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-discover
selector:
- app=rook-discover
namespace: rook-ceph
name: kots/rook
apiVersion: troubleshoot.replicated.com/v1beta1
kind: Collector
metadata:
name: collector-sample
spec:
collectors:
- clusterInfo: {}
- clusterResources: {}
- exec:
args:
- "-U"
- kotsadm
collectorName: kotsadm-postgres-db
command:
- pg_dump
containerName: kotsadm-postgres
name: kots/admin_console
selector:
- app=kotsadm-postgres
timeout: 10s
- logs:
collectorName: kotsadm-postgres-db
name: kots/admin_console
selector:
- app=kotsadm-postgres
- logs:
collectorName: kotsadm-api
name: kots/admin_console
selector:
- app=kotsadm-api
- logs:
collectorName: kotsadm-operator
name: kots/admin_console
selector:
- app=kotsadm-operator
- logs:
collectorName: kotsadm
name: kots/admin_console
selector:
- app=kotsadm
- logs:
collectorName: kurl-proxy-kotsadm
name: kots/admin_console
selector:
- app=kurl-proxy-kotsadm
- secret:
collectorName: kotsadm-replicated-registry
includeValue: false
key: .dockerconfigjson
name: kotsadm-replicated-registry
- logs:
collectorName: rook-ceph-agent
selector:
- app=rook-ceph-agent
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-mgr
selector:
- app=rook-ceph-mgr
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-mon
selector:
- app=rook-ceph-mon
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-operator
selector:
- app=rook-ceph-operator
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-osd
selector:
- app=rook-ceph-osd
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-osd-prepare
selector:
- app=rook-ceph-osd-prepare
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-ceph-rgw
selector:
- app=rook-ceph-rgw
namespace: rook-ceph
name: kots/rook
- logs:
collectorName: rook-discover
selector:
- app=rook-discover
namespace: rook-ceph
name: kots/rook
Ensuite, créez le fichier support-bundle à l'aide de la commande suivante :
kubectl support-bundle support-bundle.yaml
kubectl support-bundle support-bundle.yaml
Cela créera un fichier appelé supportbundle.tar.gz, que vous pourrez télécharger lors de la création d'un ticket d'assistance.