Automation Suite
2023.4
False
Imagen de fondo del banner
Guía de instalación de Automation Suite en Linux
Última actualización 24 de abr. de 2024

Nodo de GPU afectado por la falta de disponibilidad de recursos

Descripción

Al configurar un nodo de GPU en Automation Suite 2023.4.0 o 2023.4.1, puedes enfrentarte a incidencias de disponibilidad de recursos.

Para comprobar si el nodo de la GPU está afectado por esta incidencia, ejecuta el siguiente comando:

kubectl describe node <GPU>kubectl describe node <GPU>
Si el recurso Allocatable no contiene nvidia.com/gpu, como en el caso de la siguiente muestra, entonces la incidencia de GPU te afecta.
Allocatable:
  cpu:                5400m
  ephemeral-storage:  51938908890
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             113173836Ki
  pods:               500Allocatable:
  cpu:                5400m
  ephemeral-storage:  51938908890
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             113173836Ki
  pods:               500

Solución

Para solucionar esta incidencia, ejecuta el siguiente comando en el nodo de la GPU:

awk '1;/plugins."io.containerd.grpc.v1.cri".containerd]/{print " default_runtime_name = \"nvidia\""}' /var/lib/rancher/rke2/agent/etc/containerd/config.toml > /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
systemctl stop rke2-agent
rke2-killall.sh
systemctl start rke2-agentawk '1;/plugins."io.containerd.grpc.v1.cri".containerd]/{print " default_runtime_name = \"nvidia\""}' /var/lib/rancher/rke2/agent/etc/containerd/config.toml > /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
systemctl stop rke2-agent
rke2-killall.sh
systemctl start rke2-agent

Para verificar si el recurso de la GPU aparece, ejecuta el siguiente comando:

kubectl describe node <GPU>kubectl describe node <GPU>
En la siguiente muestra, puedes ver que nvidia.com/gpu está presente, por lo que la incidencia de GPU ya no se produce.
Allocatable:
  cpu:                5400m
  ephemeral-storage:  51938908890
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             113173836Ki
  nvidia.com/gpu:     1
  pods:               500Allocatable:
  cpu:                5400m
  ephemeral-storage:  51938908890
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             113173836Ki
  nvidia.com/gpu:     1
  pods:               500
  • Descripción
  • Solución

Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.