- Información general
- Requisitos
- Instalación
- Preguntas y respuestas: plantillas de implementación
- Descarga de los paquetes de instalación
- parámetros de install-uipath.sh
- Habilitar el complemento de alta disponibilidad (HAA) de Redis para el clúster
- Archivo de configuración de Document Understanding
- Inclusión de un nodo agente dedicado compatible con GPU
- Conexión de la aplicación Task Mining
- Añadir un nodo agente dedicado a Task Mining
- Después de la instalación
- Administración de clústeres
- Gestionar los productos
- Gestionar el clúster en ArgoCD
- Configurar el servidor NFS externo
- Automatizado: Habilitar la copia de seguridad en el clúster
- Automatizado: Deshabilitar la copia de seguridad en el clúster
- Automatizado, en línea: restaurar el clúster
- Automatizado, sin conexión: restaurar el clúster
- Manual: Habilitar la copia de seguridad en el clúster
- Manual : Deshabilitar la copia de seguridad en el clúster
- Manual, en línea: restaurar el clúster
- Manual, sin conexión: restaurar el clúster
- Configuración adicional
- Migrating objectstore from persistent volume to raw disks
- Supervisión y alertas
- Utilizar la pila de supervisión
- Runbooks de alerta
- Migración y actualización
- Opciones de migración
- Paso 1: Mover los datos de la organización de identidad de independiente a Automation Suite
- Paso 2: restaurar la base de datos del producto independiente
- Paso 3: Realizar una copia de seguridad de la base de datos de la plataforma en Automation Suite
- Paso 4: Fusionar organizaciones en Automation Suite
- Paso 5: actualizar las cadenas de conexión de los productos migrados
- Paso 6: migrar Insights independiente
- Paso 7: eliminar el tenant predeterminado
- B) Migración de tenant único
- Configuración específica del producto
- Buenas prácticas y mantenimiento
- Solución de problemas
- Cómo solucionar los problemas de los servicios durante la instalación
- Cómo desinstalar el clúster
- Cómo limpiar los artefactos sin conexión para mejorar el espacio en disco
- Cómo borrar datos de Redis
- Cómo habilitar el registro de Istio
- Cómo limpiar manualmente los registros
- Cómo limpiar los registros antiguos almacenados en el depósito sf-logs
- Cómo deshabilitar los registros de transmisión para AI Center
- Cómo depurar instalaciones de Automation Suite fallidas
- Cómo eliminar imágenes del instalador antiguo después de la actualización
- Cómo limpiar automáticamente las instantáneas de Longhorn
- Cómo deshabilitar la descarga de la suma de comprobación TX
- Cómo abordar los cifrados débiles en TLS 1.2
- No se puede ejecutar una instalación sin conexión en el sistema operativo RHEL 8.4
- Error al descargar el paquete
- La instalación sin conexión falla porque falta un binario
- Problema de certificado en la instalación sin conexión
- First installation fails during Longhorn setup
- Error de validación de la cadena de conexión SQL
- Error en la comprobación de requisitos previos para el módulo iscsid de selinux
- Azure disk not marked as SSD
- Fallo tras la actualización del certificado
- Automation Suite not working after OS upgrade
- Automation Suite requiere que Backlog_wait_time se establezca 1
- El volumen no se puede montar porque no está listo para las cargas de trabajo
- RKE2 falla durante la instalación y la actualización
- Fallo al cargar o descargar datos en el almacén de objetos
- PVC resize does not heal Ceph
- Fallo en el redimensionamiento de PVC de objectstore
- Rook Ceph o Looker pod atascados en estado Init
- Error de archivo adjunto de volumen de StatefulSet
- Fallo en la creación de volúmenes persistentes
- Parche de reclamación de almacenamiento
- La copia de seguridad falló debido al error
- Todas las réplicas de Longhorn son defectuosas
- Establecer un intervalo de tiempo de espera para los portales de gestión
- Actualizar las conexiones del directorio subyacente
- No se puede iniciar la sesión después de la migración
- kinit: no se puede encontrar la KDC para el territorio <AD Domain> mientras se obtienen las credenciales iniciales
- kinit: keytab no contiene claves adecuadas para *** mientras se obtienen las credenciales iniciales
- La operación GSSAPI ha fallado con un error: se ha suministrado un código de estado no válido (las credenciales del cliente han sido revocadas).
- Alarma recibida por trabajo de actualización Kerberos-tgt fallido
- Proveedor SSPI: servidor no encontrado en la base de datos de Kerberos
- Inicio de sesión fallido para el usuario <ADDOMAIN><aduser>. Razón: cuenta deshabilitada.
- ArgoCD login failed
- Fallo en la obtención de la imagen de Sandbox
- Los pods no se muestran en la interfaz de usuario de ArgoCD
- Fallo de la sonda Redis
- El servidor RKE2 no se inicia
- Secreto no encontrado en el espacio de nombres UiPath
- Después de la instalación inicial, la aplicación ArgoCD pasó al estado de progreso
- Pods MongoDB en CrashLoopBackOff o pendientes de aprovisionamiento de PVC tras su eliminación
- Inconsistencia inesperada, ejecuta fsck manualmente
- MongoDB o aplicaciones empresariales degradadas después de la restauración del clúster
- Falta el operador de Self-heal y el repositorio de Sf-k8-utils
- Servicios en mal estado después de la restauración o reversión del clúster
- El pod de RabbitMQ se atasca en CrashLoopBackOff
- Prometheus en estado CrashloopBackoff con error de falta de memoria (OOM)
- Faltan métricas de Ceph-rook en los paneles de supervisión
- Los pods no pueden comunicarse con FQDN en un entorno de proxy
- Document Understanding no se encuentra en la barra izquierda de Automation Suite
- Estado fallido al crear una sesión de etiquetado de datos
- Estado fallido al intentar implementar una habilidad ML
- El trabajo de migración falla en ArgoCD
- El reconocimiento de la escritura manual con el extractor de formularios inteligente no funciona
- Uso de la herramienta de diagnóstico de Automation Suite
- Uso de la herramienta del paquete de soporte de Automation Suite
- Explorar registros
Runbooks de alerta
- Para obtener instrucciones generales sobre el uso de las herramientas disponibles para alertas, métricas y visualizaciones, consulte Uso de la pila de supervisión
- Para una mayor información sobre cómo solucionar problemas y cómo crear un paquete de soporte para ingenieros de soporte de UiPath, consulte Resolución de problemas.
- Cuando se ponga en contacto con el servicio de soporte de UiPath, indique las alertas activas en ese momento.
Gravedad de las alertas |
Descripción |
---|---|
Info | No previsto pero inofensivo. Se puede silenciar pero puede resultar útil durante el diagnóstico. |
Advertencia | Indicación de degradación puntual de funcionalidad o probabilidad de degradación en un futuro próximo, que puede afectar a todo el clúster. Se recomienda una acción rápida (normalmente en unos días) para mantener el clúster en buen estado. |
Critical | Tiene como consecuencia una grave degradación de la funcionalidad que suele ser generalizada en el clúster. Requiere una acción inmediata (en el mismo día) para reparar el clúster. |
Prometheus no puede recopilar métricas procedentes del objetivo que figura en la alerta, lo que significa que los paneles de control de Grafana y otras alertas basadas en las métricas de ese objetivo no están disponibles. Consulte otras alertas relacionadas con ese objetivo.
Se trata de una alerta destinada a garantizar el funcionamiento de todo el proceso de alerta. Esta alerta se activa siempre. Por lo tanto, siempre debe activarse en AlertManager y respecto a un receptor. Existen integraciones con diversos mecanismos de notificación que avisan cuando esta alerta no se activa. Por ejemplo, la integración DeadMansSnitch en PagerDuty.
kubectl describe
y los registros con kubectl logs
para ver los detalles de los posibles fallos. Si el problema persiste, póngase en contacto con el soporte de UiPath®.
kubectl logs
para ver si hay alguna indicación de progreso. Si el problema persiste, póngase en contacto con el soporte de UiPath®.
Se ha intentado actualizar una implementación o un statefulset, pero ha habido un error y aún no se ha producido una reversión. Ponte en contacto con el soporte de UiPath®.
En los clústeres de alta disponibilidad con múltiples réplicas, esta alerta se activa cuando el número de réplicas no es óptimo. Esto puede ocurrir cuando no hay suficientes recursos en el clúster que programar. Compruebe la utilización de los recursos y añada capacidad, si es necesario. De lo contrario, póngase en contacto con el servicio de soporte de UiPath®.
Ha fallado la actualización de un statefulset. Ponte en contacto con el soporte de UiPath®.
Consulta también: StatefulSets.
El lanzamiento de Daemonset ha fallado. Ponte en contacto con el soporte de UiPath®.
Consulta también: DaemonSet.
kubectl describe
del pod. La causa más común de los contenedores en espera es un fallo en la extracción de la imagen. En el caso de los clústeres aislados, esto podría significar que el registro local no está disponible. Si el problema persiste, póngase en contacto con el soporte de UiPath®.
Esto puede indicar un problema con uno de los nodos. Compruebe el estado de cada nodo y solucione cualquier problema conocido. De lo contrario, póngase en contacto con el servicio de soporte de UiPath®.
Un trabajo lleva más de 12 horas en completarse. No es algo previsible. Ponte en contacto con el soporte de UiPath®.
Un trabajo ha fallado; sin embargo, la mayoría de los trabajos se reintentan automáticamente. Si el problema persiste, póngase en contacto con el soporte de UiPath®.
El autoescalado no puede ampliar el recurso de destino tal y como está configurado. Si las expectativas son mayores que la realidad, es posible que haya una falta de recursos. Si las expectativas son inferiores a la realidad, es posible que los pods se bloqueen al apagarse. Si el problema persiste, póngase en contacto con el soporte de UiPath®.
Consulta también: Autoescalado de pod horizontal
El número de réplicas de un servicio determinado ha alcanzado su valor máximo. Esto ocurre cuando la cantidad de peticiones que se hacen al clúster es muy alta. Si se prevé un tráfico elevado y temporal, puede silenciarse esta alerta. Sin embargo, esta alerta es una señal de que el clúster está al límite de su capacidad y no puede gestionar mucho más tráfico. Si se dispone de más capacidad de recursos en el clúster, puede aumentarse el número de réplicas máximas para el servicio siguiendo estas instrucciones:
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
Consulta también: Autoescalado de pod horizontal.
Estas advertencias indican que el clúster no puede tolerar el fallo de un nodo. Este hecho se ha constatado en clústeres de evaluación de nodo único, por lo que estas alertas pueden silenciarse. En el caso de configuraciones de producción multinodo preparadas para alta disponibilidad, estas alertas se activan cuando hay demasiados nodos que no son capaces de soportar una alta disponibilidad e indican que los nodos deben recuperarse o reemplazarse.
KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
Estas alertas pertenecen a cuotas de recursos de espacios de nombres que solo existen en el clúster si se añaden a través de la personalización. Las cuotas de recursos de espacio de nombres no se añaden como parte de la instalación de Automation Suite.
Consulta también: Cuotas de recursos.
Si la gravedad de la alerta es advertencia: el espacio disponible es inferior al 30 % y es probable que se agote en cuatro días.
Si gravedad de la alerta es crucial: el espacio disponible es inferior al 10 %.
En cualquier servicio que se quede sin espacio, puede resultar difícil recuperar los datos, por lo que el tamaño de los volúmenes debe cambiarse antes de llegar al 0 % de espacio disponible.
Para obtener instrucciones, consulta Configurar el clúster.
Para alertas específicas de Prometheus, consulta Uso deAlmacenamiento de Prometheus para obtener más detalles e instrucciones.
El recopilador de métricas de estado de Kubernetes no es capaz de recopilar métricas del clúster sin errores. Esto significa que las alertas importantes pueden no activarse. Ponte en contacto con el soporte de UiPath®.
Consulta también: Métricas del estado de Kubernetes en el momento del lanzamiento.
Si gravedad de la alerta es una advertencia: un certificado de cliente utilizado para autenticarse en el servidor de la API de Kubernetes caduca en menos de siete días.
Si la gravedad de la alerta es crucial: un certificado de cliente utilizado para autenticarse en el servidor de la API de Kubernetes caduca en menos de 1 día.
Debe renovar el certificado.
Indica problemas con el plano de control de Kubernetes. Compruebe el estado de los nodos maestros, solucione los problemas pendientes y póngase en contacto con el servicio de soporte de UiPath® si los problemas persisten.
Consulte también:
Esta alerta indica que el servidor de la API de Kubernetes está experimentando una alta tasa de errores. Este problema podría provocar otros errores, por lo que se recomienda investigar el problema de forma proactiva.
api-server
para descubrir la causa raíz del problema utilizando el comando kubectl logs <pod-name> -n kube-system
.
KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
Estas alertas indican un problema con un nodo. En los clústeres de producción multinodo preparada para alta disponibilidad, los pods probablemente se reprogramarán en otros nodos. Si el problema persiste, conviene eliminar y vaciar el nodo para mantener el clúster en buen estado. En clústeres sin capacidad adicional, primero debe unirse otro nodo al clúster.
Hay demasiados pods ejecutándose en el nodo especificado.
Unir otro nodo al clúster.
Si la gravedad de la alerta es una advertencia: un certificado de cliente o servidor para Kubelet caduca en menos de siete días.
Si la gravedad de la alerta es crucial: un certificado de cliente o servidor para Kubelet caduca en menos de un día.
Debe renovar el certificado.
Hay diferentes versiones semánticas de los componentes de Kubernetes en ejecución. Esto puede suceder como resultado de una actualización sin éxito de Kubernetes.
El cliente del servidor de la API de Kubernetes presenta un porcentaje de errores superior al 1 %. Puede haber un problema con el nodo en el que se ejecuta este cliente o con el propio servidor de la API de Kubernetes.
Esta alerta indica que el uso de memoria es muy alto en el nodo de Kubernetes.
Si se activa esta alerta, intente ver qué pod está consumiendo más memoria.
El sistema de archivos de un nodo concreto se está quedando sin espacio. Aprovisione más espacio añadiendo un disco o instalando discos no utilizados.
La matriz RAID presenta un estado degradado debido a uno o varios fallos de disco. El número de unidades de repuesto
es insuficiente para solucionar el problema automáticamente.
Hay un problema con la interfaz de red física del nodo. Si los problemas persisten, puede ser necesario sustituirla.
El nodo ha dejado de responder debido a un problema que ha provocado la interrupción de la comunicación entre los nodos del clúster.
Para solucionar este problema, reinicia el nodo afectado. Si el problema persiste, ponte en contacto con UiPath® Support con la herramienta de paquete de soporte.
Estas alertas avisan cuando el clúster se aproxima a los límites configurados para la memoria y almacenamiento. Esta situación suele producirse en clústeres con un reciente aumento sustancial del uso (normalmente de robots y no de usuarios), o cuando se añaden nodos al clúster sin ajustar los recursos de Prometheus. La razón es el aumento de la cantidad de métricas que se recopilan.
La tasa de aumento de la utilización del almacenamiento se puede ver en el panel Kubernetes/Persistent Volumes (Kubernetes/Volúmenes persistentes):
Puedes ajustarlo cambiando el tamaño del PVC como se explica en: Configurar el clúster.
La tasa de aumento de la utilización de la memoria se puede ver en el panel Kubernetes/Compute Resources/Pod (Kubernetes/Calcular recursos/Pod).
Puedes ajustarlo editando los límites de recursos de memoria de Prometheus en la aplicación de supervisión de rancheros desde ArgoCD. La aplicación de supervisión de los ganaderos se vuelve a sincronizar automáticamente después de hacer clic en Guardar.
Tenga en cuenta que Prometheus tarda un tiempo en reiniciarse y volver a mostrar las métricas en Grafana. Suele necesitar menos de 10 minutos, incluso con clústeres grandes.
Se trata de errores internos de AlertManager para clústeres de alta disponibilidad con varias réplicas de AlertManager. Las alertas pueden aparecer y desaparecer de forma intermitente. Reducir temporalmente y luego aumentar las réplicas de AlertManager podría solucionar la incidencia.
Para solucionar el problema, realiza los siguientes pasos:
-
Escalar a cero. Ten en cuenta que los pods tardarán un momento en apagarse:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0 -
Escalar de vuelta a dos:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2 -
Comprueba si los pods de AlertManager se iniciaron y están en estado de ejecución:
kubectl get po -n cattle-monitoring-system
kubectl get po -n cattle-monitoring-system
Si el problema persiste, póngase en contacto con el soporte de UiPath®.
PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
Errores internos del operador de Prometheus, que controla sus recursos. El propio Prometheus puede funcionar bien incluso cuando estos errores están presentes; sin embargo, este error indica que la configuración de la supervisión está degradada. Ponte en contacto con el soporte de UiPath®.
Se ha producido un fallo a la hora de cargar o volver a cargar la configuración de Prometheus. Compruebe cualquier configuración personalizada de Prometheus para comprobar si hay errores de entrada. De lo contrario, póngase en contacto con el servicio de soporte de UiPath®.
PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
La conexión de Prometheus a AlertManager no es buena. Las métricas pueden consultarse y mostrarse en los paneles de control de Grafana, pero las alertas no se activarán. Compruebe cualquier configuración personalizada de AlertManager para ver si hay errores de entrada y, si no es así, póngase en contacto con el servicio de soporte de UiPath®.
PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
Errores internos de Prometheus que indican que las métricas no pueden recopilarse como se espera. Póngase en contacto con el servicio de soporte de UiPath®.
Este hecho puede ocurrir si hay alertas incorrectas basadas en métricas inexistentes o en una sintaxis PromQL incorrecta. Póngase en contacto con el servicio de soporte de UiPath si no se han añadido alertas personalizadas.
Prometheus no es capaz de evaluar si las alertas deben activarse. Este problema puede producirse si hay demasiadas alertas. Elimina las evaluaciones de alertas personalizadas costosas y/o consulta la documentación sobre el aumento del límite de la CPU para Prometheus. Póngase en contacto con el servicio de soporte de UiPath si no se han añadido alertas personalizadas.
UiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
El número de respuestas http 500 de los servicios de UiPath® supera un umbral determinado.
Nivel de tráfico |
Número de solicitudes en 20 minutos |
Umbral de error (para http 500) |
---|---|---|
Alto |
>100 000 |
0,1 % |
Medio |
Entre 10 000 y 100 000 |
1 % |
Bajo |
< 10 000 |
5 % |
Los errores en los servicios dirigidos al usuario probablemente supongan una degradación de la funcionalidad que se puede observar directamente en la interfaz de usuario de Automation Suite, mientras que los errores en los servicios de backend tendrían consecuencias menos obvias.
La alerta indica qué servicio está experimentando una alta tasa de errores. Para entender qué problemas continuos puede haber en otros servicios de los que depende el servicio de informes, puede utilizar el panel de carga de trabajo de Istio, que muestra los errores entre servicios.
Vuelve a comprobar cualquier producto de Automation Suite que haya sido reconfigurado recientemente. También se pueden obtener registros detallados con el comando kubectl logs. Si el error persiste, póngase en contacto con el soporte de UiPath®.
uipath-infra/istio-configure-script-cronjob
está en estado suspendido.
Para solucionar este problema, habilita el trabajo cron siguiendo los siguientes pasos:
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
Este trabajo obtiene el último ticket Kerberos del servidor AD para la autenticación integrada en SQL. Cualquier fallo en este trabajo provocaría el fallo de la autenticación del servidor SQL. Póngase en contacto con el servicio de soporte de UiPath®.
Esta alerta indica que la utilización del clúster de almacenamiento Ceph ha cruzado el 75% y pasará a ser de solo lectura al alcanzar el 85%.
Si se dispara esta alerta, libera algo de espacio en CEPH eliminando algunos conjuntos de datos no utilizados en AI Center o Task Mining o bien amplía el almacenamiento disponible para Ceph PVC siguiendo las instrucciones de Cambiar el tamaño de PVC.
Antes de cambiar el tamaño del PVC, asegúrate de cumplir los requisitos de almacenamiento. Para obtener más información, consulta Evaluar tus necesidades de almacenamiento.
Esta alerta indica que la utilización del clúster de almacenamiento Ceph ha superado el 80 % y pasará a ser de solo lectura al 85 %.
Si se dispara esta alerta, libera algo de espacio en CEPH eliminando algunos conjuntos de datos no utilizados en AI Center o Task Mining o bien amplía el almacenamiento disponible para Ceph PVC siguiendo las instrucciones de Cambiar el tamaño de PVC.
Antes de cambiar el tamaño del PVC, asegúrate de cumplir los requisitos de almacenamiento. Para obtener más información, consulta Evaluar tus necesidades de almacenamiento.
Esta alerta indica que la utilización del clúster de almacenamiento Ceph ha cruzado el 85% y ahora pasará a ser de solo lectura. Libere espacio o expanda el clúster de almacenamiento inmediatamente.
Si se dispara esta alerta, libera algo de espacio en CEPH eliminando algunos conjuntos de datos no utilizados en AI Center o Task Mining o bien amplía el almacenamiento disponible para Ceph PVC siguiendo las instrucciones de Cambiar el tamaño de PVC.
Antes de cambiar el tamaño del PVC, asegúrate de cumplir los requisitos de almacenamiento. Para obtener más información, consulta Evaluar tus necesidades de almacenamiento.
Esta alerta indica que el uso del grupo de almacenamiento Ceph ha cruzado el 90%.
Si se dispara esta alerta, libera algo de espacio en CEPH eliminando algunos conjuntos de datos no utilizados en AI Center o Task Mining o bien amplía el almacenamiento disponible para Ceph PVC siguiendo las instrucciones de Cambiar el tamaño de PVC.
Antes de cambiar el tamaño del PVC, asegúrate de cumplir los requisitos de almacenamiento. Para obtener más información, consulta Evaluar tus necesidades de almacenamiento.
Esta alerta indica que el clúster de almacenamiento Ceph ha estado en estado de error durante más de 10 minutos.
rook-ceph-mgr
ha estado en estado de error durante un tiempo inaceptable. Compruebe si hay otras alertas que puedan haberse activado antes de esta y solucione los problemas primero.
Esta alerta indica que el quórum del clúster de almacenamiento es bajo.
Varios monos trabajan juntos para proporcionar redundancia; esto es posible porque cada uno guarda una copia de los metadatos. El clúster se implementa con 3 mons y requiere que 2 o más estén en funcionamiento para tener quórum y para que se ejecuten las operaciones de almacenamiento. Si se pierde el quórum, el acceso a los datos está en riesgo.
Si se activa esta alerta, comprueba si algún OSD está en estado de terminación, si hay alguno, fuerza a eliminar esos pods y espera un tiempo a que el operador se reconcilie. Si el problema persiste, póngase en contacto con el soporte de UiPath®.
Si la gravedad de la alerta es crucial, el espacio disponible es inferior al 20 %.
Para cualquier servicio que se quede sin espacio, puede resultar difícil recuperar los datos, por lo que el tamaño de los volúmenes debe cambiarse antes de llegar al 10 % de espacio disponible. Consulta las siguientes instrucciones: Configurar el clúster.
Los errores en la capa de enrutamiento de solicitudes darían lugar a una funcionalidad degradada que se puede observar directamente en la interfaz de usuario de Automation Suite. Las solicitudes no se enrutarán a los servicios de backend.
kubectl logs
en el pod de puerta de enlace de entrada de Istio. Si el error persiste, póngase en contacto con el soporte de UiPath®.
Esta alerta indica que se están ejecutando menos de 3 nodos en el clúster de RabbitMQ.
kubectl logs <pod-name> -n <namespace>
Para solucionar el problema, elimine el pod usando el comando kubectl delete pod <pod-name> -n <namespace>
y compruébelo de nuevo una vez que aparezca el nuevo.
Esta alerta se activa si el certificado TLS de MongoDB no rota automáticamente en el período de 19 días. La gravedad de esta alerta es fundamental.
Para rotar el certificado, sigue las instrucciones en Renovación del certificado de MongoDB.
Esta alerta se activa cuando MongoDB no funciona. La gravedad de esta alerta es fundamental.
Si se activa esta alerta, siga los siguientes pasos:
- Comprueba los registros utilizando los siguientes comandos:
kubectl logs <pod-name> -n mongodb
; - Utiliza la herramienta de diagnóstico;
- Póngase en contacto con el soporte técnico de UiPath.
El miembro del conjunto de replicación de MongoDB, tal como se ve desde otro miembro del conjunto, es inaccesible. Si se activa la alerta, lo más probable es que el nodo esté inactivo. La gravedad de esta alerta es fundamental.
Si se activa esta alerta, siga los siguientes pasos:
- Compruebe si el nodo está inactivo;
- Si el nodo está inactivo, reinícielo y encuentre la causa raíz;
- Si el problema persiste, póngase en contacto con el soporte de UiPath.
El estado del miembro del conjunto de replicación de MongoDB, tal como se ve desde otro miembro del conjunto, aún no se conoce. Si esta alerta está activada, una o más réplicas no están en estado de ejecución. La gravedad de esta alerta es fundamental.
Si se activa esta alerta, siga los siguientes pasos:
- Marca los registros mediante la ejecución del comando siguiente:
kubectl logs <pod-name> -n mongodb
; - Para ver los detalles del estado de la réplica, ejecute el siguiente comando para describir el pod:
kubectl describe <pod-name> -n mongodb
; - Si el problema persiste, póngase en contacto con el soporte de UiPath.
Esta alerta indica que el retraso de replicación de MongoDB es de más de 10 segundos. La gravedad de esta alerta es fundamental.
Si se activa esta alerta, siga los siguientes pasos:
- Marca los registros mediante la ejecución del comando siguiente:
kubectl logs <pod-name> -n mongodb
; - Para ver información detallada sobre el estado de la réplica, ejecuta el siguiente comando para describir el pod:
kubectl describe <pod-name> -n mongodb
- Si el problema persiste, póngase en contacto con el soporte de UiPath.
Esta alerta indica que el número de conexiones ha alcanzado su máximo. Si esto es esperado y temporal, puede silenciar la alerta. Sin embargo, la alerta es una señal de que la conexión de Mongo está al límite y no puede manejar más. Esta alerta es una advertencia.
Si se activa esta alerta, siga los siguientes pasos:
-
Para consultar el número de conexiones en el nodo, ejecute el siguiente comando:
db.serverStatus().connections
current
indica conexiones existentesavailable
indica el número de conexiones disponibles;
- Si el problema persiste, póngase en contacto con el soporte de UiPath.
Esta alerta indica una alta latencia en la instancia. Esto puede significar que el tráfico ha crecido en un nodo. Puede deberse a que una réplica no funciona correctamente o el tráfico está sobrecargado. Si esto es esperado y temporal, puede silenciar esta alerta. Sin embargo, esta alerta es una señal de que la instancia está en su límite y no puede manejar más. La gravedad de esta alerta es fundamental.
Si se activa esta alerta, siga los siguientes pasos:
- Comprobar los registros y el estado de las instancias;
- Si el problema persiste, póngase en contacto con el soporte de UiPath.
El miembro del conjunto de replicación de MongoDB realiza autocomprobaciones de inicio o pasa de completar una reversión o volver a sincronizar. La gravedad de esta alerta es fundamental.
Si se activa esta alerta, siga los siguientes pasos:
- Comprueba el estado de la réplica ejecutando el siguiente comando:
rs.status()
. - Comprobar los registros con
kubectl logs <pod-name> -n mongodb
- Si el problema persiste, póngase en contacto con el soporte de UiPath.
El miembro del conjunto de replicación de MongoDB está realizando activamente una reversión. Los datos no están disponibles para su lectura. La gravedad de esta alerta es fundamental.
Si se activa esta alerta, siga los siguientes pasos:
- Comprueba el estado de la réplica ejecutando el siguiente comando:
rs.status()
; - Marca los registros mediante la ejecución del comando siguiente:
kubectl logs <pod-name> -n mongodb
; - Si el problema persiste, póngase en contacto con el soporte de UiPath.
El miembro del conjunto de replicación de MongoDB estuvo una vez en un conjunto de réplicas, pero se eliminó posteriormente. La gravedad de esta alerta es fundamental.
Si se activa esta alerta, siga los siguientes pasos:
- Comprueba el estado de la réplica ejecutando el siguiente comando:
rs.status()
; - Marca los registros mediante la ejecución del comando siguiente:
kubectl logs <pod-name> -n mongodb
; - Si el problema persiste, póngase en contacto con el soporte de UiPath.
Esta alerta indica que el certificado TLS del servidor expirará en los próximos 30 días.
Para solucionar este problema, actualice el certificado TLS del servidor. Para obtener instrucciones, consulta Gestionar certificados de servidor.
Esta alerta indica que el certificado TLS del servidor expirará en los próximos 7 días.
Para solucionar esta incidencia, actualiza el Certificado TLS. Para obtener instrucciones, consulta Gestionar certificados de servidor.
Esta alerta indica que el certificado de firma del token de identidad caducará en los siguientes 30 días.
Para solucionar esta incidencia, actualiza el Certificado de firma del token de identidad. Para obtener instrucciones, consulta Gestionar certificados de servidor.
Esta alerta indica que el certificado de firma de token de identidad expirará en los próximos 7 días.
Para solucionar esta incidencia, actualiza el Certificado de firma del token de identidad. Para obtener instrucciones, consulta Gestionar certificados de servidor.
Esta alerta indica que el clúster etcd no tiene suficientes miembros. Tenga en cuenta que el clúster debe tener un número impar de miembros. La gravedad de esta alerta es fundamental.
Asegúrese de que haya un número impar de nodos de servidor en el clúster y que todos estén activos y en buen estado.
Esta alerta muestra que el clúster etcd no tiene líder. La gravedad de esta alerta es fundamental.
Esta alerta indica que el líder etcd cambia más de dos veces en 10 minutos. Esta es una advertencia.
Esta alerta indica que se detectó un cierto porcentaje de errores de solicitudes de GRPC en etcd.
Esta alerta indica que las solicitudes etcd GRPC son lentas. Esta es una advertencia.
Esta alerta indica que se ha detectado un determinado porcentaje de fallos HTTP en etcd.
Esta alerta indica que las solicitudes HTTP se están ralentizando. Esta es una advertencia.
Esta alerta indica que la comunicación de los miembros etcd se está ralentizando. Esta es una advertencia.
Esta alerta indica que el servidor etcd recibió más de 5 propuestas fallidas en la última hora. Esta es una advertencia.
Esta alerta indica que la duración de etcd WAL fsync está aumentando. Esta es una advertencia.
/var/lib/rancher
es menor que:
- 35%: la gravedad de la alerta es una advertencia
- 25%: la gravedad de la alerta es fundamental
Si se activa esta alerta, aumente el tamaño del disco.
/var/lib/kubelet
es menor que:
- 35%: la gravedad de la alerta es una advertencia
-
25%: la gravedad de la alerta es fundamental
Si se activa esta alerta, aumente el tamaño del disco.
Esta alerta indica que el espacio libre para el disco Longhorn es menor que:
- 35%: la gravedad de la alerta es una advertencia
- 25%: la gravedad de la alerta es fundamental
Si se activa esta alerta, aumente el tamaño del disco.
/var
es menor que:
- 35%: la gravedad de la alerta es una advertencia
- 25%: la gravedad de la alerta es fundamental
Los requisitos de almacenamiento para las habilidades ML pueden aumentar sustancialmente el uso del disco.
Si se activa esta alerta, aumente el tamaño del disco.
Esta alerta indica que se perdió la conexión del servidor NFS.
Debe verificar la conexión del servidor NFS y la ruta de montaje.
Si el número de copias de seguridad o instantáneas creadas por Longhorn es demasiado alto, puedes encontrar una de las siguientes alertas:
Para solucionar la incidencia que provocaba que se desencadenaran estas alertas, ejecuta el siguiente script:
#!/bin/bash
set -e
# longhorn backend URL
url=
# By default, snapshot older than 10 days will be deleted
days=-1
function display_usage() {
echo "usage: $(basename "$0") [-h] -u longhorn-url -d days"
echo " -u Longhorn URL"
echo " -d Number of days(should be >0). By default, script will delete snapshot older than 10 days."
echo " -h Print help"
}
while getopts 'hd:u:' flag "$@"; do
case "${flag}" in
u)
url=${OPTARG}
;;
d)
days=${OPTARG}
[ "$days" ] && [ -z "${days//[0-9]}" ] || { echo "Invalid number of days=$days"; exit 1; }
;;
h)
display_usage
exit 0
;;
:)
echo "Invalid option: ${OPTARG} requires an argument."
exit 1
;;
*)
echo "Unexpected option ${flag}"
exit 1
;;
esac
done
[[ -z "$url" ]] && echo "Missing longhorn URL" && exit 1
# check if URL is valid
curl -s --connect-timeout 30 ${url}/v1 >> /dev/null || { echo "Unable to connect to longhorn backend"; exit 1; }
echo "Deleting snapshots older than $days days"
# Fetch list of longhorn volumes
vols=$( (curl -s -X GET ${url}/v1/volumes |jq -r '.data[].name') )
#delete given snapshot for given volume
function delete_snapshot() {
local vol=$1
local snap=$2
[[ -z "$vol" || -z "$snap" ]] && echo "Error: delete_snapshot: Empty argument" && return 1
curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotDelete -d '{"name": "'$snap'"}' >> /dev/null
echo "Snapshot=$snap deleted for volume=$vol"
}
#perform cleanup for given volume
function cleanup_volume() {
local vol=$1
local deleted_snap=0
[[ -z "$vol" ]] && echo "Error: cleanup_volume: Empty argument" && return 1
# fetch list of snapshot
snaps=$( (curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotList | jq -r '.data[] | select(.usercreated==true) | .name' ) )
for i in ${snaps[@]}; do
echo $i
if [[ $i == "volume-head" ]]; then
continue
fi
# calculate date difference for snapshot
snapTime=$(curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotGet -d '{"name":"'$i'"}' |jq -r '.created')
currentTime=$(date "+%s")
timeDiff=$((($(date -d $snapTime "+%s") - $currentTime) / 86400))
if [[ $timeDiff -lt $days ]]; then
echo "Ignoring snapshot $i, since it is older than $timeDiff days"
continue
fi
#trigger deletion for snapshot
delete_snapshot $vol $i
deleted_snap=$((deleted_snap+1))
done
if [[ "$deleted_snap" -gt 0 ]]; then
#trigger purge for volume
curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotPurge >> /dev/null
fi
}
for i in ${vols[@]}; do
cleanup_volume $i
done
#!/bin/bash
set -e
# longhorn backend URL
url=
# By default, snapshot older than 10 days will be deleted
days=-1
function display_usage() {
echo "usage: $(basename "$0") [-h] -u longhorn-url -d days"
echo " -u Longhorn URL"
echo " -d Number of days(should be >0). By default, script will delete snapshot older than 10 days."
echo " -h Print help"
}
while getopts 'hd:u:' flag "$@"; do
case "${flag}" in
u)
url=${OPTARG}
;;
d)
days=${OPTARG}
[ "$days" ] && [ -z "${days//[0-9]}" ] || { echo "Invalid number of days=$days"; exit 1; }
;;
h)
display_usage
exit 0
;;
:)
echo "Invalid option: ${OPTARG} requires an argument."
exit 1
;;
*)
echo "Unexpected option ${flag}"
exit 1
;;
esac
done
[[ -z "$url" ]] && echo "Missing longhorn URL" && exit 1
# check if URL is valid
curl -s --connect-timeout 30 ${url}/v1 >> /dev/null || { echo "Unable to connect to longhorn backend"; exit 1; }
echo "Deleting snapshots older than $days days"
# Fetch list of longhorn volumes
vols=$( (curl -s -X GET ${url}/v1/volumes |jq -r '.data[].name') )
#delete given snapshot for given volume
function delete_snapshot() {
local vol=$1
local snap=$2
[[ -z "$vol" || -z "$snap" ]] && echo "Error: delete_snapshot: Empty argument" && return 1
curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotDelete -d '{"name": "'$snap'"}' >> /dev/null
echo "Snapshot=$snap deleted for volume=$vol"
}
#perform cleanup for given volume
function cleanup_volume() {
local vol=$1
local deleted_snap=0
[[ -z "$vol" ]] && echo "Error: cleanup_volume: Empty argument" && return 1
# fetch list of snapshot
snaps=$( (curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotList | jq -r '.data[] | select(.usercreated==true) | .name' ) )
for i in ${snaps[@]}; do
echo $i
if [[ $i == "volume-head" ]]; then
continue
fi
# calculate date difference for snapshot
snapTime=$(curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotGet -d '{"name":"'$i'"}' |jq -r '.created')
currentTime=$(date "+%s")
timeDiff=$((($(date -d $snapTime "+%s") - $currentTime) / 86400))
if [[ $timeDiff -lt $days ]]; then
echo "Ignoring snapshot $i, since it is older than $timeDiff days"
continue
fi
#trigger deletion for snapshot
delete_snapshot $vol $i
deleted_snap=$((deleted_snap+1))
done
if [[ "$deleted_snap" -gt 0 ]]; then
#trigger purge for volume
curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotPurge >> /dev/null
fi
}
for i in ${vols[@]}; do
cleanup_volume $i
done
Esta alerta indica que el número de copias de seguridad creadas por Longhorn en el sistema está aumentando, lo que puede provocar un posible tiempo de inactividad. Esto es una advertencia.
Esta alerta se activa cuando el recuento de copias de seguridad de Longhorn es mayor o igual a 150 y menor de 200.
Esta alerta indica que el número de copias de seguridad creadas por Longhorn en el sistema está aumentando, lo que puede provocar un posible tiempo de inactividad. Se trata de una alerta crítica.
Esta alerta se activa cuando el recuento de copias de seguridad de Longhorn es mayor o igual a 200 y menor de 240.
Esta alerta indica que el número de copias de instantáneas creadas por Longhorn en el sistema está aumentando, lo que puede provocar un posible tiempo de inactividad. Esto es una advertencia.
Esta alerta se activa si el recuento de instantáneas es mayor o igual a 150 y menor de 200.
Esta alerta indica que el número de copias de instantáneas creadas por Longhorn en el sistema está aumentando, lo que puede provocar un posible tiempo de inactividad. Se trata de una alerta crítica.
Esta alerta se activa si el recuento de instantáneas es mayor o igual a 200 y menor de 240.
- Indicador de gravedad de la alerta
- reglas. general
- TargetDown
- Watchdog
- kubernetes-apps
- KubePodCrashLooping
- KubePodNotReady
- KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
- KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
- KubeStatefulSetUpdateNotRolledOut
- KubeDaemonSetRolloutStuck
- KubeContainerWaiting
- KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
- KubeJobCompletion
- KubeJobFailed
- KubeHpaReplicasMismatch
- KubeHpaMaxedOut
- kubernetes-resources
- KubeCPUOvercommit, KubeMemoryOvercommit
- KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
- CPUThrottlingHigh
- Kubernetes-storage
- KubePersistentVolumeFillingUp
- KubePersistentVolumeErrors
- kube-state-metrics
- KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
- kubernetes-system-apiserver
- KubeClientCertificateExpiration
- AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
- KubernetesApiServerErrors
- kubernetes-system-kubelet
- KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
- KubeletTooManyPods
- KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
- KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
- kubernetes-system
- KubeVersionMismatch
- KubeClientErrors
- KubernetesMemoryPressure
- KubernetesDiskPressure
- Kube-apiserver-slos
- KubeAPIErrorBudgetBurn
- node-exporter
- NodeFilesystemSpaceFillingUp, NodeFilesystemAlmostOutOfSpace, NodeFilesystemFilesFillingUp
- NodeRAIDDegraded
- NodeRAIDDiskFailure
- NodeNetworkReceiveErrs, NodeNetworkTransmitErrs, NodeHighNumberConntrackEntriesUsed
- NodeClockSkewDetected, NodeClockNotSynchronising
- node-network
- NodeNetworkInterfaceFlapping
- InternodeCommunicationBroken
- uipath.prometheus.resource.provisioning.alerts
- PrometheusMemoryUsage, PrometheusStorageUsage
- alertmanager.rules
- AlertmanagerConfigInconsistent
- AlertmanagerFailedReload
- prometheus-operator
- PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
- Prometheus
- PrometheusBadConfig
- PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
- PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
- PrometheusRuleFailures
- PrometheusMissingRuleEvaluations
- PrometheusTargetLimitHit
- uipath.availability.alerts
- UiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
- uipath.cronjob.alerts.rules
- CronJobSuspended
- Error de CronJob "Kerberos-tgt-actualizar" de la UIPath
- IdentityKerberosTgtUpdateFailed
- Alertas de Ceph
- CephClusterNearFull
- CephClusterCriticallyFull
- CephClusterReadOnly
- CephPoolQuotaBytesCriticallyExhausted
- CephClusterErrorState
- CephMonQuorumAtRisk
- CephOSDCriticallyFull
- uipath.requestrouting.alerts
- UiPathRequestRouting
- RabbitmqNodeDown
- Alertas de MongoDB
- MongodbCertExpiration
- MongodbDown
- MongodbReplicationStatusUnreachable
- MongodbReplicationStatusNotKnown
- MongodbReplicationLag
- MongodbTooManyConnections
- MongodbHighLatency
- MongodbReplicationStatusSelfCheck
- MongodbReplicationStatusRollback
- MongodbReplicationStatusRemoved
- Alertas de certificado TLS del servidor
- SecretCertificateExpiry30Days
- SecretCertificateExpiry7Days
- Alertas de certificado de firma de token de identidad
- IdentityCertificateExpiry30Days
- IdentityCertificateExpiry7Days
- Alertas de etdc
- EtcdInsufficientMembers
- EtcdNoLeader
- EtcdHighNumberOfLeaderChanges
- EtcdHighNumberOfFailedGrpcRequests
- EtcdGrpcRequestsSlow
- EtcdHighNumberOfFailedHttpRequests
- EtcdHttpRequestsSlow
- EtcdMemberCommunicationSlow
- EtcdHighNumberOfFailedProposals
- EtcdHighFsyncDurations
- EtcdHighCommitDurations
- Alertas de tamaño de disco
- LowDiskForRancherPartition
- LowDiskForKubeletPartition
- LowDiskForLonghornPartition
- LowDiskForVarPartition
- Alertas de copias de seguridad
- NFSServerDisconnected
- VolumeBackupFailed
- BackupDisabled
- longhorn-snapshot-alert
- LonghornBackupObjectThresholdExceededWarn
- LonghornBackupObjectThresholdExceededCritical
- LonghornSnapshotObjectThresholdExceededWarn
- LonghornSnapshotObjectThresholdExceededCritical