automation-suite
2023.10
true
Guía de instalación de Automation Suite en Linux
Last updated 4 de nov. de 2024

Alertas de gestión

alertmanager.rules

AlertmanagerConfigInconsistent

Se trata de errores internos de AlertManager para clústeres de alta disponibilidad con varias réplicas de AlertManager. Las alertas pueden aparecer y desaparecer de forma intermitente. Reducir temporalmente y luego aumentar las réplicas de AlertManager podría solucionar la incidencia.

Para solucionar el problema, realiza los siguientes pasos:

  1. Escalar a cero. Ten en cuenta que los pods tardarán un momento en apagarse:

    kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
  2. Escalar de vuelta a dos:

    kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
  3. Comprueba si los pods de AlertManager se iniciaron y están en estado de ejecución:

    kubectl get po -n cattle-monitoring-systemkubectl get po -n cattle-monitoring-system

Si el problema persiste, póngase en contacto con el soporte de UiPath®.

AlertmanagerFailedReload

Se ha producido un error al cargar o volver a cargar la configuración de AlertManager. Comprueba si las configuraciones personalizadas de AlertManager contienen errores de entrada y, en caso contrario, ponte en contacto con el servicio de asistencia de UiPath®.

AlertmanagerMembersInconsistent

Se trata de errores internos de AlertManager para clústeres de alta disponibilidad con varias réplicas de AlertManager. Las alertas pueden aparecer y desaparecer de forma intermitente. Reducir temporalmente y luego aumentar las réplicas de AlertManager podría solucionar la incidencia.

Para solucionar el problema, realiza los siguientes pasos:

  1. Escalar a cero. Ten en cuenta que los pods tardarán un momento en apagarse:

    kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
  2. Escalar de vuelta a dos:

    kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
  3. Comprueba si los pods de AlertManager se iniciaron y están en estado de ejecución:

    kubectl get po -n cattle-monitoring-systemkubectl get po -n cattle-monitoring-system

Si el problema persiste, póngase en contacto con el soporte de UiPath®.

reglas. general

TargetDown

Prometheus no puede recopilar métricas procedentes del objetivo que figura en la alerta, lo que significa que los paneles de control de Grafana y otras alertas basadas en las métricas de ese objetivo no están disponibles. Consulte otras alertas relacionadas con ese objetivo.

Watchdog

Se trata de una alerta destinada a garantizar el funcionamiento de todo el proceso de alerta. Esta alerta se activa siempre. Por lo tanto, siempre debe activarse en AlertManager y respecto a un receptor. Existen integraciones con diversos mecanismos de notificación que avisan cuando esta alerta no se activa. Por ejemplo, la integración DeadMansSnitch en PagerDuty.

prometheus-operator

PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources

Errores internos del operador de Prometheus, que controla sus recursos. El propio Prometheus puede funcionar bien incluso cuando estos errores están presentes; sin embargo, este error indica que la configuración de la supervisión está degradada. Ponte en contacto con el soporte de UiPath®.

Prometheus

PrometheusBadConfig

Se ha producido un fallo a la hora de cargar o volver a cargar la configuración de Prometheus. Compruebe cualquier configuración personalizada de Prometheus para comprobar si hay errores de entrada. De lo contrario, póngase en contacto con el servicio de soporte de UiPath®.

PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers

La conexión de Prometheus a AlertManager no es buena. Las métricas pueden consultarse y mostrarse en los paneles de control de Grafana, pero las alertas no se activarán. Compruebe cualquier configuración personalizada de AlertManager para ver si hay errores de entrada y, si no es así, póngase en contacto con el servicio de soporte de UiPath®.

PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards

Errores internos de Prometheus que indican que las métricas no pueden recopilarse como se espera. Póngase en contacto con el servicio de soporte de UiPath®.

PrometheusRuleFailures

Este hecho puede ocurrir si hay alertas incorrectas basadas en métricas inexistentes o en una sintaxis PromQL incorrecta. Póngase en contacto con el servicio de soporte de UiPath si no se han añadido alertas personalizadas.

PrometheusMissingRuleEvaluations

Prometheus no es capaz de evaluar si las alertas deben activarse. Este problema puede producirse si hay demasiadas alertas. Elimina las evaluaciones de alertas personalizadas costosas y/o consulta la documentación sobre el aumento del límite de la CPU para Prometheus. Póngase en contacto con el servicio de soporte de UiPath si no se han añadido alertas personalizadas.

PrometheusTargetLimitHit

El número de objetivos de los que Prometheus puede recopilar datos es excesivo. Si se han añadido ServiceMonitors adicionales (consulte la consola de supervisión), puede eliminarlos.

uipath.prometheus.resource.provisioning.alerts

PrometheusMemoryUsage, PrometheusStorageUsage

Estas alertas avisan cuando el clúster se aproxima a los límites configurados para la memoria y almacenamiento. Esta situación suele producirse en clústeres con un reciente aumento sustancial del uso (normalmente de robots y no de usuarios), o cuando se añaden nodos al clúster sin ajustar los recursos de Prometheus. La razón es el aumento de la cantidad de métricas que se recopilan.

La tasa de aumento de la utilización del almacenamiento se puede ver en el panel Kubernetes/Persistent Volumes (Kubernetes/Volúmenes persistentes):



Puedes ajustarlo cambiando el tamaño del PVC como se explica en: Configurar el clúster.

La tasa de aumento de la utilización de la memoria se puede ver en el panel Kubernetes/Compute Resources/Pod (Kubernetes/Calcular recursos/Pod).



Puedes ajustarlo editando los límites de recursos de memoria de Prometheus en la aplicación de supervisión de rancheros desde ArgoCD. La aplicación de supervisión de los ganaderos se vuelve a sincronizar automáticamente después de hacer clic en Guardar.



Tenga en cuenta que Prometheus tarda un tiempo en reiniciarse y volver a mostrar las métricas en Grafana. Suele necesitar menos de 10 minutos, incluso con clústeres grandes.

uipath.availability.alerts

UiPathAvailabilityHighTrafficUserFacing

El número de respuestas http 500 de los servicios de UiPath® supera un umbral determinado.

Nivel de tráfico

Número de solicitudes en 20 minutos

Umbral de error (para http 500)

Alto

>100 000

0,1 %

Medio

Entre 10 000 y 100 000

1 %

Bajo

< 10 000

5 %

Los errores en los servicios dirigidos al usuario probablemente supongan una degradación de la funcionalidad que se puede observar directamente en la interfaz de usuario de Automation Suite, mientras que los errores en los servicios de backend tendrían consecuencias menos obvias.

La alerta indica qué servicio está experimentando una alta tasa de errores. Para entender qué problemas continuos puede haber en otros servicios de los que depende el servicio de informes, puede utilizar el panel de carga de trabajo de Istio, que muestra los errores entre servicios.

Vuelve a comprobar cualquier producto de Automation Suite que haya sido reconfigurado recientemente. También se pueden obtener registros detallados con el comando kubectl logs. Si el error persiste, póngase en contacto con el soporte de UiPath®.

copia de seguridad

NFSServerDisconnected

Esta alerta indica que se perdió la conexión del servidor NFS.

Debe verificar la conexión del servidor NFS y la ruta de montaje.

VolumeBackupFailed

Esta alerta indica que la copia de seguridad falló para un PVC.

BackupDisabled

Esta alerta indica que la copia de seguridad está deshabilitada.

Debe comprobar si el clúster no está en buen estado.

cronjob-alerts

CronJobSuspended

El trabajo cron uipath-infra/istio-configure-script-cronjob está en estado suspendido.

Para solucionar este problema, habilita el trabajo cron siguiendo los siguientes pasos:

export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'

IdentityKerberosTgtUpdateFailed

Este trabajo actualiza el último ticket de Kerberos en todos los servicios de UiPath®. Cualquier fallo en este trabajo provocaría el fallo de la autenticación del servidor SQL. Póngase en contacto con el servicio de soporte de UiPath®.

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.