automation-suite
2023.4
false
Importante :
Este contenido se ha localizado parcialmente a partir de un sistema de traducción automática.
Guía de instalación de Automation Suite en Linux
Last updated 5 de sep. de 2024

Nodo de GPU afectado por la falta de disponibilidad de recursos

Descripción

Al configurar un nodo de GPU en Automation Suite 2023.4.0 o 2023.4.1, puedes enfrentarte a incidencias de disponibilidad de recursos.

Para comprobar si el nodo de la GPU está afectado por esta incidencia, ejecuta el siguiente comando:

kubectl describe node <GPU>kubectl describe node <GPU>
Si el recurso Allocatable no contiene nvidia.com/gpu, como en el caso de la siguiente muestra, entonces la incidencia de GPU te afecta.
Allocatable:
  cpu:                5400m
  ephemeral-storage:  51938908890
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             113173836Ki
  pods:               500Allocatable:
  cpu:                5400m
  ephemeral-storage:  51938908890
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             113173836Ki
  pods:               500

Solución

Para solucionar esta incidencia, ejecuta el siguiente comando en el nodo de la GPU:

awk '1;/plugins."io.containerd.grpc.v1.cri".containerd]/{print " default_runtime_name = \"nvidia\""}' /var/lib/rancher/rke2/agent/etc/containerd/config.toml > /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
systemctl stop rke2-agent
rke2-killall.sh
systemctl start rke2-agentawk '1;/plugins."io.containerd.grpc.v1.cri".containerd]/{print " default_runtime_name = \"nvidia\""}' /var/lib/rancher/rke2/agent/etc/containerd/config.toml > /var/lib/rancher/rke2/agent/etc/containerd/config.toml.tmpl
systemctl stop rke2-agent
rke2-killall.sh
systemctl start rke2-agent

Para verificar si el recurso de la GPU aparece, ejecuta el siguiente comando:

kubectl describe node <GPU>kubectl describe node <GPU>
En la siguiente muestra, puedes ver que nvidia.com/gpu está presente, por lo que la incidencia de GPU ya no se produce.
Allocatable:
  cpu:                5400m
  ephemeral-storage:  51938908890
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             113173836Ki
  nvidia.com/gpu:     1
  pods:               500Allocatable:
  cpu:                5400m
  ephemeral-storage:  51938908890
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             113173836Ki
  nvidia.com/gpu:     1
  pods:               500
  • Descripción
  • Solución

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.