- Información general
- Requisitos
- Plantillas de implementación
- Manual: preparar la instalación
- Manual: preparar la instalación
- Paso 2: configurar el registro compatible con OCI para las instalaciones sin conexión
- Paso 3: configurar el almacén de objetos externo
- Paso 4: configurar High Availability Add-on
- Paso 5: configurar las bases de datos SQL
- Paso 7: configurar el DNS
- Paso 8: configurar los discos
- Paso 10: configurar los puertos de nodo
- Paso 11: aplicar ajustes varios
- Paso 12: Validar e instalar los paquetes RPM necesarios
- Paso 13: Generar cluster_config.json
- Ejemplo de Clúster_config.json
- Configuración general
- Configuración del perfil
- Configuración de certificados
- Configuración de la base de datos
- Configuración del almacén de objetos externo
- Configuración de URL prefirmada
- Configuración de ArgoCD
- Configuración de la autenticación Kerberos
- Configuración de registro externo compatible con OCI
- Disaster recovery: configuraciones activas/pasivas y activas/activas
- Configuración de High Availability Add-on
- Configuración específica de Orchestrator
- Configuración específica de Insights
- Process Mining-specific configuration
- Configuración específica de Document Understanding
- Automation Suite Robots-specific configuration
- Configuración específica de AI Center
- Configuración de la supervisión
- Opcional: configurar el servidor proxy
- Opcional: habilitación de la resistencia a fallos de zona en un clúster multinodo de producción preparada para alta disponibilidad
- Opcional: pasar resolv.conf personalizado
- Optional: Increasing fault tolerance
- Inclusión de un nodo agente dedicado compatible con GPU
- Añadir un nodo agente dedicado a Automation Suite Robots
- Paso 15: configurar el registro temporal de Docker para las instalaciones sin conexión
- Paso 16: validar los requisitos previos para la instalación
- Ejecutar uipathctl
- Manual: realizar la instalación
- Después de la instalación
- Administración de clústeres
- Gestionar los productos
- Primeros pasos con el Portal de administración del clúster
- Migración de Redis desde un clúster a un High Availability Add-on externo
- Migrating data between objectstores
- Migrating in-cluster objectstore to external objectstore
- Migrar del registro en clúster a un registro externo compatible con OCI
- Cambiar manualmente al clúster secundario en una configuración activa/pasiva
- Disaster Recovery: realizar operaciones posteriores a la instalación
- Convertir una instalación existente en una configuración en varios sitios
- Directrices sobre la actualización de una implementación activa/pasiva o activa/activa
- Directrices sobre la copia de seguridad y restauración de una implementación activa/pasiva o activa/activa
- Escalar una implementación de nodo único (evaluación) a una implementación multinodo (HA)
- Supervisión y alertas
- Migración y actualización
- Migrar entre clústeres de Automation Suite
- Actualizar Automation Suite
- Descargar los paquetes de instalación y obtener todos los archivos del primer nodo del servidor
- Recuperar la última configuración aplicada del clúster
- Actualizar la configuración del clúster
- Configurar el registro compatible con OCI para las instalaciones sin conexión
- Ejecutar la actualización
- Realizar operaciones posteriores a la actualización
- Configuración específica del producto
- Configurar parámetros de Orchestrator
- Configurar AppSettings
- Configurar el tamaño máximo de la solicitud
- Anular la configuración de almacenamiento a nivel de clúster
- Configurar NLog
- Guardar los registros del robot en Elasticsearch
- Configurar almacenes de credenciales
- Configurar clave de cifrado por tenant
- Limpiar la base de datos de Orchestrator
- Buenas prácticas y mantenimiento
- Solución de problemas
- Cómo solucionar los problemas de los servicios durante la instalación
- Cómo desinstalar el clúster
- Cómo limpiar los artefactos sin conexión para mejorar el espacio en disco
- Cómo borrar datos de Redis
- Cómo habilitar el registro de Istio
- Cómo limpiar manualmente los registros
- Cómo limpiar los registros antiguos almacenados en el depósito sf-logs
- Cómo deshabilitar los registros de transmisión para AI Center
- Cómo depurar instalaciones de Automation Suite fallidas
- Cómo eliminar imágenes del instalador antiguo después de la actualización
- Cómo deshabilitar la descarga de la suma de comprobación TX
- Cómo establecer manualmente el nivel de registro de ArgoCD en Info
- Cómo expandir el almacenamiento de AI Center
- Cómo generar el pull_secret_value codificado para registros externos
- Cómo abordar los cifrados débiles en TLS 1.2
- Cómo comprobar la versión de TLS
- Cómo trabajar con certificados
- Cómo programar la copia de seguridad y la restauración de datos de Ceph
- Cómo recopilar datos de uso de DU con el almacén de objetos en el clúster (Ceph)
- Cómo instalar RKE2 SELinux en entornos aislados
- Cómo limpiar copias de seguridad diferenciales antiguas en un servidor NFS
- Error al descargar el paquete
- La instalación sin conexión falla porque falta un binario
- Problema de certificado en la instalación sin conexión
- Error de validación de la cadena de conexión SQL
- Azure disk not marked as SSD
- Fallo tras la actualización del certificado
- El antivirus causa problemas de instalación
- Automation Suite not working after OS upgrade
- Automation Suite requiere que backlog_wait_time se establezca en 0
- La instalación del registro temporal falla en RHEL 8.9
- Problema de reinicio frecuente en las implementaciones del espacio de nombres de uipath durante las instalaciones sin conexión
- Configuración de DNS no respetada por CoreDNS
- Upgrade fails due to unhealthy Ceph
- RKE2 no se inicia debido a un problema de espacio
- La actualización falla debido a objetos clásicos en la base de datos de Orchestrator
- El clúster de Ceph se encuentra en un estado degradado tras una actualización en paralelo.
- La actualización del servicio falla para Apps
- Tiempos de actualización in situ
- La actualización falla en entornos sin conexión
- pod de snapshot-controller-crds en estado CrashLoopBackOff después de la actualización
- La actualización falla debido a los tamaños de PVC de Insights anulados
- Error de actualización debido a un nombre de host en mayúsculas
- Establecer un intervalo de tiempo de espera para los portales de gestión
- La autenticación no funciona tras la migración
- kinit: no se puede encontrar la KDC para el territorio <AD Domain> mientras se obtienen las credenciales iniciales
- kinit: keytab no contiene claves adecuadas para *** mientras se obtienen las credenciales iniciales
- Error en la operación GSSAPI debido a un código de estado no válido
- Alarma recibida por un error en el trabajo de Kerberos-tgt-update
- Proveedor de SSPI: servidor no encontrado en la base de datos de Kerberos
- Error en inicio de sesión de un usuario AD debido a una cuenta deshabilitada
- ArgoCD login failed
- Actualizar las conexiones del directorio subyacente
- Fallo en la obtención de la imagen de Sandbox
- Los pods no se muestran en la interfaz de usuario de ArgoCD
- Fallo de la sonda Redis
- El servidor RKE2 no se inicia
- Secreto no encontrado en el espacio de nombres UiPath
- ArgoCD entra en estado de progreso tras la primera instalación
- Faltan métricas de Ceph-rook en los paneles de supervisión
- Falta de coincidencia en los errores informados durante las comprobaciones de estado de diagnóstico
- No hay problema ascendente en buen estado
- Inicio de Redis bloqueado por antivirus
- Document Understanding no se encuentra en la barra izquierda de Automation Suite
- Estado fallido al crear una sesión de etiquetado de datos
- Estado fallido al intentar implementar una habilidad ML
- El trabajo de migración falla en ArgoCD
- El reconocimiento de la escritura manual con el extractor de formularios inteligente no funciona
- Ejecutar alta disponibilidad con Process Mining
- La ingestión de Process Mining falló al iniciar sesión con Kerberos
- No se puede conectar a la base de datos AutomationSuite_ProcessMining_Warehouse utilizando una cadena de conexión en formato pyodbc
- La instalación de Airflow falla con sqlalchemy.exc.ArgumentError: no se pudo analizar la URL rfc1738 de la cadena ''
- Cómo añadir una regla de tabla de IP para utilizar el puerto 1433 de SQL Server
- El certificado de Automation Suite no es de confianza desde el servidor donde se ejecuta CData Sync
- Ejecutar la herramienta de diagnóstico
- Uso del paquete de soporte de Automation Suite
- Explorar registros
- Explorar la telemetría resumida

Guía de instalación de Automation Suite en Linux
KubernetesDiskPressure
Esta alerta indica que el uso de disco es muy elevado en el nodo Kubernetes.
Si se activa esta alerta, intenta ver qué pod está consumiendo más disco:
-
Confirma si el nodo está bajo
DiskPressureutilizando el siguiente comando:kubectl describe node <node-name>kubectl describe node <node-name>Identifique la condiciónDiskPressureen la salida. -
Comprueba el uso del espacio en disco en el nodo afectado:
df -hdf -hEsto muestra el uso del disco en todos los sistemas de archivos montados. Identifique dónde está el alto uso.
-
Si el disco está lleno y la limpieza es insuficiente, considera cambiar el tamaño del disco para el nodo (especialmente en entornos en la nube como AWS o GCP). Este proceso puede implicar la expansión de volúmenes, dependiendo de tu infraestructura.
KubernetesMemoryPressure
Esta alerta indica que el uso de memoria es muy alto en el nodo de Kubernetes.
MemoryPressure se producen cuando un nodo del clúster de Kubernetes se está quedando sin memoria, lo que puede deberse a una pérdida de memoria en una aplicación. Este tipo de incidente requiere atención inmediata para evitar cualquier tiempo de inactividad y garantizar el correcto funcionamiento del clúster de Kubernetes.
Si se activa esta alerta, intenta identificar el pod en el nodo que está consumiendo más memoria, siguiendo estos pasos:
-
Recupera las estadísticas de CPU y memoria de los nodos:
kubectl top nodekubectl top node -
Recupera los pods que se ejecutan en el nodo:
kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME}kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME} -
Comprueba el uso de memoria para los pods en un espacio de nombres utilizando:
kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>
Si puedes identificar cualquier pod con un uso elevado de memoria, comprueba los registros del pod y busca errores de pérdida de memoria.
Para solucionar el problema, aumenta la especificación de memoria para los nodos si es posible.
Si el problema persiste, genera el paquete de soporte y ponte en contacto con el soporte de UiPath®.
KubePersistentVolumeFillingUp
Si la gravedad de la alerta es advertencia: el espacio disponible es inferior al 30 % y es probable que se agote en cuatro días.
Si gravedad de la alerta es crucial: el espacio disponible es inferior al 10 %.
En cualquier servicio que se quede sin espacio, puede resultar difícil recuperar los datos, por lo que el tamaño de los volúmenes debe cambiarse antes de llegar al 0 % de espacio disponible.
Para obtener instrucciones, consulta Configurar el clúster.
Para alertas específicas de Prometheus, consulta Uso deAlmacenamiento de Prometheus para obtener más detalles e instrucciones.
KubePersistentVolumeErrors
PersistentVolume no puede aprovisionarse. Esto significa que no se iniciará ningún servicio que requiera el volumen. Compruebe si hay otros errores con Longhorn y/o el almacenamiento Ceph y póngase en contacto con el soporte de UiPath®.
NodeFilesystemSpaceFillingUp
El sistema de archivos en un nodo en particular se está llenando.
Si se activa esta alerta, considera los siguientes pasos:
-
Confirma si el nodo está bajo
DiskPressureutilizando el siguiente comando:kubectl describe node <node-name>kubectl describe node <node-name>Identifique la condiciónDiskPressureen la salida.
-
Borra los registros y los archivos temporales. Comprueba si hay archivos de registro grandes en
/var/log/y límpialos, si es posible.
-
Comprueba el uso del espacio en disco en el nodo afectado:
df -hdf -hEsto muestra el uso del disco en todos los sistemas de archivos montados. Identifique dónde está el alto uso.
-
Si el disco está lleno y la limpieza es insuficiente, considera cambiar el tamaño del disco para el nodo (especialmente en entornos en la nube como AWS o GCP). Este proceso puede implicar la expansión de volúmenes, dependiendo de tu infraestructura.
NodeFilesystemAlmostOutOfSpace
El sistema de archivos de un nodo concreto se está quedando sin espacio. Aprovisione más espacio añadiendo un disco o instalando discos no utilizados.
NodeFilesystemFilesFillingUp
El sistema de archivos de un nodo concreto se está quedando sin espacio. Aprovisione más espacio añadiendo un disco o instalando discos no utilizados.
NodeFilesystemAlmostOutOfFiles
El sistema de archivos de un nodo concreto se está quedando sin espacio. Aprovisione más espacio añadiendo un disco o instalando discos no utilizados.
NodeNetworkReceiveErrs
Estos errores indican que el controlador de red informa de un gran número de fallos. Esto puede deberse a fallos físicos del hardware o a una mala configuración de la red física. Este problema afecta al sistema operativo y no está controlado por la aplicación UiPath®.
/proc/net/dev que proporciona el kernel de Linux.
Ponte en contacto con el administrador de tu red y el equipo que gestiona la infraestructura física.
NodeNetworkTransmitErrs
Estos errores indican que el controlador de red informa de un gran número de fallos. Esto puede deberse a fallos físicos del hardware o a una mala configuración de la red física. Este problema afecta al sistema operativo y no está controlado por la aplicación UiPath®.
/proc/net/dev que proporciona el kernel de Linux.
Ponte en contacto con el administrador de tu red y el equipo que gestiona la infraestructura física.
CephClusterErrorState
Esta alerta indica que el clúster de almacenamiento Ceph ha estado en estado de error durante más de 10 minutos.
rook-ceph-mgr ha estado en estado de error durante un tiempo inaceptable. Compruebe si hay otras alertas que puedan haberse activado antes de esta y solucione los problemas primero.
kubectl describe cephcluster -n rook-cephkubectl describe cephcluster -n rook-cephCephMonQuorumAtRisk
Esta alerta indica que el quórum del clúster de almacenamiento es bajo.
Varios monos trabajan juntos para proporcionar redundancia; esto es posible porque cada uno guarda una copia de los metadatos. El clúster se implementa con 3 mons y requiere que 2 o más estén en funcionamiento para tener quórum y para que se ejecuten las operaciones de almacenamiento. Si se pierde el quórum, el acceso a los datos está en riesgo.
Si se activa esta alerta, comprueba si algún OSD está en estado de terminación, si hay alguno, fuerza a eliminar esos pods y espera un tiempo a que el operador se reconcilie. Si el problema persiste, póngase en contacto con el soporte de UiPath®.
CephMgrEstáAusente
Esta alerta indica que Ceph Manager ha desaparecido del descubrimiento de destino de Prometheus.
Si se activa esta alerta, comprueba y asegúrate de que el pod de Ceph Manager está en funcionamiento y en buen estado. Si el pod está en buen estado, comprueba los registros y comprueba si el pod está habilitado para emitir métricas de Prometheus.
NodoCephDown
Esta alerta indica que un nodo que ejecuta pods de Ceph está inactivo. Aunque las operaciones de almacenamiento siguen funcionando, ya que Ceph está diseñado para hacer frente a un fallo de nodo, se recomienda resolver el problema para minimizar el riesgo de que otro nodo se caiga y afecte a las funciones de almacenamiento.
rook-ceph se están ejecutando y en buen estado en el nuevo nodo.
Puedes comprobar el fallo del nodo describiendo el nodo utilizando el siguiente comando:
kubectl get nodeskubectl get nodesComprueba el nodo para identificar la causa raíz del problema y ponte en contacto con el soporte de UiPath®.
CephClusterNearFull
Esta alerta indica que la utilización del clúster de almacenamiento Ceph ha cruzado el 75% y pasará a ser de solo lectura al alcanzar el 85%.
Si se activa esta alerta, libera algo de espacio en Ceph eliminando algunos conjuntos de datos no utilizados en AI Center o amplía el almacenamiento disponible para Ceph PVC.
Antes de cambiar el tamaño del PVC, asegúrate de cumplir los requisitos de almacenamiento. Para obtener más información, consulta Evaluar tus necesidades de almacenamiento.
CephClusterCriticallyFull
Esta alerta indica que la utilización del clúster de almacenamiento Ceph ha superado el 80 % y pasará a ser de solo lectura al 85 %.
Si se activa esta alerta, libera algo de espacio en Ceph eliminando algunos conjuntos de datos no utilizados en AI Center o amplía el almacenamiento disponible para Ceph PVC.
Antes de cambiar el tamaño del PVC, asegúrate de cumplir los requisitos de almacenamiento. Para obtener más información, consulta Evaluar tus necesidades de almacenamiento.
CephClusterReadOnly
Esta alerta indica que la utilización del clúster de almacenamiento Ceph ha cruzado el 85% y ahora pasará a ser de solo lectura. Libere espacio o expanda el clúster de almacenamiento inmediatamente.
Si se activa esta alerta, libera algo de espacio en Ceph eliminando algunos conjuntos de datos no utilizados en AI Center o amplía el almacenamiento disponible para Ceph PVC.
Antes de cambiar el tamaño del PVC, asegúrate de cumplir los requisitos de almacenamiento. Para obtener más información, consulta Evaluar tus necesidades de almacenamiento.
CephOSDCriticallyFull
Si la gravedad de la alerta es crucial, el espacio disponible es inferior al 20 %.
Para cualquier servicio que se quede sin espacio, puede resultar difícil recuperar los datos, por lo que el tamaño de los volúmenes debe cambiarse antes de llegar al 10 % de espacio disponible. Consulta las siguientes instrucciones: Configurar el clúster.
CephOSDNearFull
Esta alerta indica que la utilización del clúster de almacenamiento Ceph ha cruzado el 75% y pasará a ser de solo lectura al alcanzar el 85%.
Si se activa esta alerta, libera algo de espacio en Ceph eliminando algunos conjuntos de datos no utilizados en AI Center o amplía el almacenamiento disponible para Ceph PVC.
Antes de cambiar el tamaño del PVC, asegúrate de cumplir los requisitos de almacenamiento. Para obtener más información, consulta Evaluar tus necesidades de almacenamiento.
PersistentVolumeUsageNearFull
Esta alerta indica que la utilización del clúster de almacenamiento Ceph ha cruzado el 75% y pasará a ser de solo lectura al alcanzar el 85%.
Si se activa esta alerta, libera algo de espacio en Ceph eliminando algunos conjuntos de datos no utilizados en AI Center o amplía el almacenamiento disponible para Ceph PVC.
Antes de cambiar el tamaño del PVC, asegúrate de cumplir los requisitos de almacenamiento. Para obtener más información, consulta Evaluar tus necesidades de almacenamiento.
Aleteo de CephOSD
Esta alerta indica que el daemon de almacenamiento se ha reiniciado más de 5 veces en los últimos 5 minutos.
Si se activa esta alerta, sigue los siguientes pasos:
-
Comprueba el estado del clúster de Ceph. Debes ejecutar
ceph statusen la caja de herramientas de Ceph para identificar los OSD oscilantes:Puedes identificar el pod de herramientas de Ceph enumerando los pods en el espacio de nombres:kubectl -n rook-ceph exec -it <ceph-tools-pod> -- ceph statuskubectl -n rook-ceph exec -it <ceph-tools-pod> -- ceph statuskubectl -n rook-ceph get pod | grep toolskubectl -n rook-ceph get pod | grep tools -
Comprueba los registros de OSD del pod de OSD para identificar problemas:
kubectl -n rook-ceph logs <osd-pod>kubectl -n rook-ceph logs <osd-pod> -
Identificar problemas a nivel de nodo:
-
Comprueba el uso de recursos:
kubectl top node <node-name>kubectl top node <node-name> -
Comprueba el estado del disco. Necesitas SSH en el nodo y ejecutar
df -hydmesgpara comprobar los errores de disco.
-
-
Reinicia el pod OSD. Si el problema es transitorio, debes reiniciar el pod OSD:
kubectl -n rook-ceph delete pod <osd-pod>kubectl -n rook-ceph delete pod <osd-pod> -
Asegúrese de que no haya problemas de conectividad de red entre los OSD y los monitores Ceph.
-
Si es necesario, marca temporalmente el OSD flotante como
out:ceph osd out <osd-id>ceph osd out <osd-id> -
Continúa supervisando el clúster para asegurarte de que el problema no se repite.
CephOSDDiskNotResponding
Esta alerta indica que el dispositivo de disco del host no responde.
Si se activa esta alerta, sigue los siguientes pasos:
-
Comprueba el estado del clúster de Ceph. Debes confirmar el estado general del clúster de Ceph y obtener más detalles sobre el estado de OSD:
-
Ejecuta el siguiente comando dentro del pod de la caja de herramientas de Ceph:
kubectl -n rook-ceph exec -it <ceph-tools-pod> -- ceph statuskubectl -n rook-ceph exec -it <ceph-tools-pod> -- ceph status -
Identifica el pod de herramientas de Ceph enumerando los pods en el espacio de nombres:
kubectl -n rook-ceph get pod | grep toolskubectl -n rook-ceph get pod | grep tools
-
-
Comprueba el estado del pod OSD. Debes comprobar si los pods OSD se están ejecutando. Ejecuta el siguiente comando para comprobar todos los estados del pod OSD:
kubectl -n rook-ceph get pods | grep osdkubectl -n rook-ceph get pods | grep osdSi algún pod OSD está en un estadoCrashLoopBackOffoPending, eso podría indicar un problema con el disco OSD o el nodo subyacente. -
Reinicia el pod OSD afectado. Si un pod OSD está en mal estado (
CrashLoopBackOff,Error, etc.), debes reiniciar el pod para ver si el problema se resuelve por sí solo. Kubernetes intenta reprogramar automáticamente el pod.kubectl -n rook-ceph delete pod <osd-pod>kubectl -n rook-ceph delete pod <osd-pod>El pod OSD se reiniciará y, si se trata de un problema transitorio, esto puede resolverlo.
-
Comprueba los registros OSD. Si el reinicio no resolvió el problema, consulta los registros del pod OSD para obtener más detalles sobre por qué el disco no responde:
kubectl -n rook-ceph logs <osd-pod>kubectl -n rook-ceph logs <osd-pod>Busque errores relacionados con el disco u otros problemas (por ejemplo, errores de E/S, montajes fallidos).
-
Identificar problemas a nivel de nodo. Si el disco OSD no está montado correctamente o se ha desconectado, puedes iniciar sesión en el nodo afectado y comprobar el estado de montaje del disco:
ssh <node> df -hssh <node> df -hBusca discos faltantes o desmontados que Ceph está esperando. Si es necesario, vuelve a montar el disco o reemplázalo si ha fallado.
CephOSDDisk no disponible
Esta alerta indica que el disco Ceph OSD no es accesible en el host.
Si se activa esta alerta, sigue los siguientes pasos:
-
Comprueba el estado del clúster de Ceph. Debes confirmar el estado general del clúster de Ceph y obtener más detalles sobre el estado de OSD:
-
Ejecuta el siguiente comando dentro del pod de la caja de herramientas de Ceph:
kubectl -n rook-ceph exec -it <ceph-tools-pod> -- ceph statuskubectl -n rook-ceph exec -it <ceph-tools-pod> -- ceph status -
Identifica el pod de herramientas de Ceph enumerando los pods en el espacio de nombres:
kubectl -n rook-ceph get pod | grep toolskubectl -n rook-ceph get pod | grep tools
-
-
Comprueba el estado del pod OSD. Debes comprobar si los pods OSD se están ejecutando. Ejecuta el siguiente comando para comprobar todos los estados del pod OSD:
kubectl -n rook-ceph get pods | grep osdkubectl -n rook-ceph get pods | grep osdSi algún pod OSD está en un estadoCrashLoopBackOffoPending, eso podría indicar un problema con el disco OSD o el nodo subyacente. -
Reinicia el pod OSD afectado. Si un pod OSD está en mal estado (
CrashLoopBackOff,Error, etc.), debes reiniciar el pod para ver si el problema se resuelve por sí solo. Kubernetes intenta reprogramar automáticamente el pod.kubectl -n rook-ceph delete pod <osd-pod>kubectl -n rook-ceph delete pod <osd-pod>El pod OSD se reiniciará y, si se trata de un problema transitorio, esto puede resolverlo.
-
Comprueba los registros OSD. Si el reinicio no resolvió el problema, consulta los registros del pod OSD para obtener más detalles sobre por qué el disco no responde:
kubectl -n rook-ceph logs <osd-pod>kubectl -n rook-ceph logs <osd-pod>Busque errores relacionados con el disco u otros problemas (por ejemplo, errores de E/S, montajes fallidos).
PersistentVolumeUsageCritical
Si se activa esta alerta, libera algo de espacio en Ceph eliminando algunos conjuntos de datos no utilizados en AI Center o amplía el almacenamiento disponible para Ceph PVC.
Antes de cambiar el tamaño de PVC, asegúrate de cumplir los requisitos de almacenamiento. Para obtener más detalles, consulta Evaluar tus necesidades de almacenamiento.
CephPoolQuotaBytesCriticallyExhausted
Esta alerta indica que el uso del grupo de almacenamiento Ceph ha cruzado el 90%.
Si se activa esta alerta, libera algo de espacio en CEPH eliminando algunos conjuntos de datos no utilizados en AI Center o amplía el almacenamiento disponible para Ceph PVC.
Antes de cambiar el tamaño del PVC, asegúrate de cumplir los requisitos de almacenamiento. Para obtener más información, consulta Evaluar tus necesidades de almacenamiento.
LowDiskForRancherPartition
/var/lib/rancher es menor que:
- 25%: la gravedad de la alerta es fundamental
df -h /var/lib/rancher para comprobar el espacio disponible en el disco. Si te estás quedando sin espacio, considera las siguientes opciones:
-
Borre los archivos innecesarios. Con el tiempo, los archivos de registro, los archivos temporales, los datos huérfanos y las copias de seguridad pueden consumir una cantidad significativa de espacio. La limpieza regular de estos archivos puede ayudar a mantener el espacio en disco.
-
Cambia el tamaño de la partición. Si tu sistema de archivos lo admite, y si hay espacio disponible sin utilizar en tu disco, puedes cambiar el tamaño de la partición para darle más espacio en disco.
-
Añade más espacio en disco. Si las opciones anteriores no son suficientes, y si tu infraestructura lo permite, aumenta el tamaño del disco para el correcto funcionamiento de Rancher.
-
Comprueba el uso de almacenamiento para cualquier archivo anormalmente grande:
find /var/lib/rancher -type f -exec du -h {} + | sort -rh | head -n 10find /var/lib/rancher -type f -exec du -h {} + | sort -rh | head -n 10 -
Comprueba si hay contenedores que estén escribiendo archivos grandes en el disco.
LowDiskForKubeletPartition
/var/lib/kubelet es menor que:
-
25%: la gravedad de la alerta es fundamental
Si se activa esta alerta, aumente el tamaño del disco.
LowDiskForVarPartition
/var es menor que:
- 25%: la gravedad de la alerta es fundamental
Esto puede ocurrir debido a la acumulación de registros del sistema del contenedor.
Si se activa esta alerta, sigue los siguientes pasos:
-
Comprueba el uso de almacenamiento:
find /var/ -type f -exec du -h {} + | sort -rh | head -n 10find /var/ -type f -exec du -h {} + | sort -rh | head -n 10 -
Aumenta el tamaño del disco.
LowDiskForVarLogPartition
/var/lib/var es menor que:
-
25%: la gravedad de la alerta es fundamental
Si se activa esta alerta, aumente el tamaño del disco.
- kubernetes-system
- KubernetesDiskPressure
- KubernetesMemoryPressure
- KubePersistentVolumeFillingUp
- KubePersistentVolumeErrors
- node-exporter
- NodeFilesystemSpaceFillingUp
- NodeFilesystemAlmostOutOfSpace
- NodeFilesystemFilesFillingUp
- NodeFilesystemAlmostOutOfFiles
- NodeNetworkReceiveErrs
- NodeNetworkTransmitErrs
- ceph.rules, cluster-state-alertas.rules
- CephClusterErrorState
- CephMonQuorumAtRisk
- CephMgrEstáAusente
- NodoCephDown
- cluster-utilization-alert.rules
- CephClusterNearFull
- CephClusterCriticallyFull
- CephClusterReadOnly
- osd-alert.rules
- CephOSDCriticallyFull
- CephOSDNearFull
- PersistentVolumeUsageNearFull
- Aleteo de CephOSD
- CephOSDDiskNotResponding
- CephOSDDisk no disponible
- persistent-volume-alert.rules
- PersistentVolumeUsageCritical
- pool-quota.rules
- CephPoolQuotaBytesCriticallyExhausted
- host-disk
- LowDiskForRancherPartition
- LowDiskForKubeletPartition
- LowDiskForVarPartition
- LowDiskForVarLogPartition