- Información general
- Requisitos
- Preinstalación
- Instalación
- Después de la instalación
- Migración y actualización
- Supervisión y alertas
- Administración de clústeres
- Configuración específica del producto
- Configurar parámetros de Orchestrator
- Configurar AppSettings
- Configurar el tamaño máximo de la solicitud
- Anular la configuración de almacenamiento a nivel de clúster
- Configurar NLog
- Guardar los registros del robot en Elasticsearch
- Configurar almacenes de credenciales
- Configurar clave de cifrado por tenant
- Limpiar la base de datos de Orchestrator
- Solución de problemas
Guía de instalación de Automation Suite en EKS / AKS
Runbooks de alerta
- Para obtener instrucciones generales sobre el uso de las herramientas disponibles para alertas, métricas y visualizaciones, consulta Uso de la pila de supervisión.
- Para una mayor información sobre cómo solucionar problemas y cómo crear un paquete de soporte para ingenieros de soporte de UiPath®, consulta Resolución de problemas.
- Cuando se ponga en contacto con el servicio de soporte de UiPath®, indique las alertas activas en ese momento.
Gravedad de las alertas |
Descripción |
---|---|
Info | No previsto pero inofensivo. Se puede silenciar pero puede resultar útil durante el diagnóstico. |
Advertencia | Indicación de degradación puntual de funcionalidad o probabilidad de degradación en un futuro próximo, que puede afectar a todo el clúster. Se recomienda una acción rápida (normalmente en unos días) para mantener el clúster en buen estado. |
Critical | Tiene como consecuencia una grave degradación de la funcionalidad que suele ser generalizada en el clúster. Requiere una acción inmediata (en el mismo día) para reparar el clúster. |
Prometheus no puede recopilar métricas procedentes del objetivo que figura en la alerta, lo que significa que los paneles de control de Grafana y otras alertas basadas en las métricas de ese objetivo no están disponibles. Consulte otras alertas relacionadas con ese objetivo.
Se trata de una alerta destinada a garantizar el funcionamiento de todo el proceso de alerta. Esta alerta se activa siempre. Por lo tanto, siempre debe activarse en AlertManager y respecto a un receptor. Existen integraciones con diversos mecanismos de notificación que avisan cuando esta alerta no se activa. Por ejemplo, la integración DeadMansSnitch en PagerDuty.
kubectl describe
y los registros con kubectl logs
para ver los detalles de los posibles fallos. Si el problema persiste, póngase en contacto con el soporte de UiPath®.
kubectl logs
para ver si hay alguna indicación de progreso. Si el problema persiste, póngase en contacto con el soporte de UiPath®.
Se ha intentado actualizar una implementación o un statefulset, pero ha habido un error y aún no se ha producido una reversión. Ponte en contacto con el soporte de UiPath®.
En los clústeres de alta disponibilidad con múltiples réplicas, esta alerta se activa cuando el número de réplicas no es óptimo. Esto puede ocurrir cuando no hay suficientes recursos en el clúster que programar. Compruebe la utilización de los recursos y añada capacidad, si es necesario. De lo contrario, póngase en contacto con el servicio de soporte de UiPath®.
Ha fallado la actualización de un statefulset. Ponte en contacto con el soporte de UiPath®.
Consulta también: StatefulSets.
El lanzamiento de Daemonset ha fallado. Ponte en contacto con el soporte de UiPath®.
Consulta también: DaemonSet.
kubectl describe
del pod. La causa más común de los contenedores en espera es un fallo en la extracción de la imagen. En el caso de los clústeres aislados, esto podría significar que el registro local no está disponible. Si el problema persiste, póngase en contacto con el soporte de UiPath®.
Esto puede indicar un problema con uno de los nodos. Compruebe el estado de cada nodo y solucione cualquier problema conocido. De lo contrario, póngase en contacto con el servicio de soporte de UiPath®.
Un trabajo lleva más de 12 horas en completarse. No es algo previsible. Ponte en contacto con el soporte de UiPath®.
Un trabajo ha fallado; sin embargo, la mayoría de los trabajos se reintentan automáticamente. Si el problema persiste, póngase en contacto con el soporte de UiPath®.
El autoescalado no puede ampliar el recurso de destino tal y como está configurado. Si las expectativas son mayores que la realidad, es posible que haya una falta de recursos. Si las expectativas son inferiores a la realidad, es posible que los pods se bloqueen al apagarse. Si el problema persiste, póngase en contacto con el soporte de UiPath®.
Consulta también: Autoescalado de pod horizontal
El número de réplicas de un servicio determinado ha alcanzado su valor máximo. Esto ocurre cuando la cantidad de peticiones que se hacen al clúster es muy alta. Si se prevé un tráfico elevado y temporal, puede silenciarse esta alerta. Sin embargo, esta alerta es una señal de que el clúster está al límite de su capacidad y no puede gestionar mucho más tráfico. Si se dispone de más capacidad de recursos en el clúster, puede aumentarse el número de réplicas máximas para el servicio siguiendo estas instrucciones:
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
Consulta también: Autoescalado de pod horizontal.
Estas advertencias indican que el clúster no puede tolerar el fallo de un nodo. Este hecho se ha constatado en clústeres de evaluación de nodo único, por lo que estas alertas pueden silenciarse. En el caso de configuraciones de producción multinodo preparadas para alta disponibilidad, estas alertas se activan cuando hay demasiados nodos que no son capaces de soportar una alta disponibilidad e indican que los nodos deben recuperarse o reemplazarse.
KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
Estas alertas pertenecen a cuotas de recursos de espacios de nombres que solo existen en el clúster si se añaden a través de la personalización. Las cuotas de recursos de espacio de nombres no se añaden como parte de la instalación de Automation Suite.
Consulta también: Cuotas de recursos.
Si la gravedad de la alerta es advertencia: el espacio disponible es inferior al 30 % y es probable que se agote en cuatro días.
Si gravedad de la alerta es crucial: el espacio disponible es inferior al 10 %.
En cualquier servicio que se quede sin espacio, puede resultar difícil recuperar los datos, por lo que el tamaño de los volúmenes debe cambiarse antes de llegar al 0 % de espacio disponible.
Para alertas específicas de Prometheus, consulta Uso deAlmacenamiento de Prometheus para obtener más detalles e instrucciones.
El recopilador de métricas de estado de Kubernetes no es capaz de recopilar métricas del clúster sin errores. Esto significa que las alertas importantes pueden no activarse. Ponte en contacto con el soporte de UiPath®.
Consulta también: Métricas del estado de Kubernetes en el momento del lanzamiento.
Si gravedad de la alerta es una advertencia: un certificado de cliente utilizado para autenticarse en el servidor de la API de Kubernetes caduca en menos de siete días.
Si la gravedad de la alerta es crucial: un certificado de cliente utilizado para autenticarse en el servidor de la API de Kubernetes caduca en menos de 1 día.
Debe renovar el certificado.
Indica problemas con el plano de control de Kubernetes. Compruebe el estado de los nodos maestros, solucione los problemas pendientes y póngase en contacto con el servicio de soporte de UiPath® si los problemas persisten.
Consulte también:
Esta alerta indica que el servidor de la API de Kubernetes está experimentando una alta tasa de errores. Este problema podría provocar otros errores, por lo que se recomienda investigar el problema de forma proactiva.
api-server
para descubrir la causa raíz del problema utilizando el comando kubectl logs <pod-name> -n kube-system
.
KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
Estas alertas indican un problema con un nodo. En los clústeres de producción multinodo preparada para alta disponibilidad, los pods probablemente se reprogramarán en otros nodos. Si el problema persiste, conviene eliminar y vaciar el nodo para mantener el clúster en buen estado. En clústeres sin capacidad adicional, primero debe unirse otro nodo al clúster.
Si los problemas persisten, póngase en contacto con el soporte de UiPath®.
Si la gravedad de la alerta es una advertencia: un certificado de cliente o servidor para Kubelet caduca en menos de siete días.
Si la gravedad de la alerta es crucial: un certificado de cliente o servidor para Kubelet caduca en menos de un día.
Debe renovar el certificado.
Hay diferentes versiones semánticas de los componentes de Kubernetes en ejecución. Esto puede suceder como resultado de una actualización sin éxito de Kubernetes.
El cliente del servidor de la API de Kubernetes presenta un porcentaje de errores superior al 1 %. Puede haber un problema con el nodo en el que se ejecuta este cliente o con el propio servidor de la API de Kubernetes.
Esta alerta indica que el uso de memoria es muy alto en el nodo de Kubernetes.
MemoryPressure
se producen cuando un nodo del clúster de Kubernetes se está quedando sin memoria, lo que puede deberse a una pérdida de memoria en una aplicación. Este tipo de incidente requiere atención inmediata para evitar cualquier tiempo de inactividad y garantizar el correcto funcionamiento del clúster de Kubernetes.
Si se activa esta alerta, intenta identificar el pod en el nodo que está consumiendo más memoria, siguiendo estos pasos:
-
Recupera las estadísticas de CPU y memoria de los nodos:
kubectl top node
kubectl top node -
Recupera los pods que se ejecutan en el nodo:
kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME}
kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME} -
Comprueba el uso de memoria para los pods en un espacio de nombres utilizando:
kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>
kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>
Si puedes identificar cualquier pod con un uso elevado de memoria, comprueba los registros del pod y busca errores de pérdida de memoria.
Para solucionar el problema, aumenta la especificación de memoria para los nodos si es posible.
Si el problema persiste, genera elpaquete de soporte y ponte en contacto con el soporte de UiPath®.
Esta alerta indica que el uso de disco es muy elevado en el nodo Kubernetes.
Si se activa esta alerta, intenta ver qué pod está consumiendo más disco:
-
Confirma si el nodo está bajo
DiskPressure
utilizando el siguiente comando:kubectl describe node <node-name>
kubectl describe node <node-name>Identifique la condiciónDiskPressure
en la salida. -
Comprueba el uso del espacio en disco en el nodo afectado:
df -h
df -hEsto muestra el uso del disco en todos los sistemas de archivos montados. Identifique dónde está el alto uso.
-
Si el disco está lleno y la limpieza es insuficiente, considera cambiar el tamaño del disco para el nodo (especialmente en entornos en la nube como AWS o GCP). Este proceso puede implicar la expansión de volúmenes, dependiendo de tu infraestructura.
El sistema de archivos en un nodo en particular se está llenando.
Si se activa esta alerta, considera los siguientes pasos:
-
Confirma si el nodo está bajo
DiskPressure
utilizando el siguiente comando:kubectl describe node <node-name>
kubectl describe node <node-name>Identifique la condiciónDiskPressure
en la salida.
-
Borra los registros y los archivos temporales. Comprueba si hay archivos de registro grandes en
/var/log/
y límpialos, si es posible.
-
Comprueba el uso del espacio en disco en el nodo afectado:
df -h
df -hEsto muestra el uso del disco en todos los sistemas de archivos montados. Identifique dónde está el alto uso.
-
Si el disco está lleno y la limpieza es insuficiente, considera cambiar el tamaño del disco para el nodo (especialmente en entornos en la nube como AWS o GCP). Este proceso puede implicar la expansión de volúmenes, dependiendo de tu infraestructura.
La matriz RAID presenta un estado degradado debido a uno o varios fallos de disco. El número de unidades de repuesto
es insuficiente para solucionar el problema automáticamente.
Estos errores indican que el controlador de red informa de un gran número de fallos. Esto puede deberse a fallos físicos del hardware o a una mala configuración de la red física. Este problema afecta al sistema operativo y no está controlado por la aplicación UiPath®.
/proc/net/dev
que proporciona el kernel de Linux.
Ponte en contacto con el administrador de tu red y el equipo que gestiona la infraestructura física.
El nodo ha dejado de responder debido a un problema que ha provocado la interrupción de la comunicación entre los nodos del clúster.
Si el problema persiste, ponte en contacto con el soporte de UiPath® con el paquete de soporte generado.
Estas alertas advierten cuando el clúster se acerca a los límites configurados de memoria y almacenamiento. Es probable que esto suceda en clústeres con un aumento sustancial reciente en el uso (normalmente de Robots en lugar de usuarios), o cuando se añaden nodos al clúster sin ajustar los recursos de Prometheus. Esto se debe a un aumento en la cantidad de métricas recopiladas. Esto también podría deberse a un gran número de alertas que se están disparando, es importante comprobar por qué se está disparando la gran cantidad de alertas.
Si este problema persiste, ponte en contacto con el soporte de UiPath® con el paquete de soporte generado.
Alertmanager
instancias dentro del mismo clúster tienen configuraciones diferentes. Esto podría indicar un problema con la implementación de la configuración que no es coherente en todas las instancias de Alertmanager
.
Para solucionar el problema, realiza los siguientes pasos:
-
Ejecuta una herramienta
diff
entre todos losalertmanager.yml
implementados para identificar el problema. -
Elimina el secreto incorrecto e implementa el correcto.
Si el problema persiste, póngase en contacto con el soporte de UiPath®.
AlertManager no ha podido cargar o volver a cargar la configuración. Compruebe cualquier configuración personalizada de AlertManager para ver si hay errores de entrada y, de lo contrario, póngase en contacto con el soporte de UiPath® y proporcione el paquete de soporte. Para obtener más información, consulta Uso del paquete de soporte de Automation Suite.
PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
Errores internos del operador de Prometheus, que controla sus recursos. El propio Prometheus puede funcionar bien incluso cuando estos errores están presentes; sin embargo, este error indica que la configuración de la supervisión está degradada. Ponte en contacto con el soporte de UiPath®.
Se ha producido un fallo a la hora de cargar o volver a cargar la configuración de Prometheus. Compruebe cualquier configuración personalizada de Prometheus para comprobar si hay errores de entrada. De lo contrario, póngase en contacto con el servicio de soporte de UiPath®.
PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
La conexión de Prometheus a AlertManager no es buena. Las métricas pueden consultarse y mostrarse en los paneles de control de Grafana, pero las alertas no se activarán. Compruebe cualquier configuración personalizada de AlertManager para ver si hay errores de entrada y, si no es así, póngase en contacto con el servicio de soporte de UiPath®.
PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
Errores internos de Prometheus que indican que las métricas no pueden recopilarse como se espera. Póngase en contacto con el servicio de soporte de UiPath®.
Este hecho puede ocurrir si hay alertas incorrectas basadas en métricas inexistentes o en una sintaxis PromQL incorrecta. Póngase en contacto con el servicio de soporte de UiPath si no se han añadido alertas personalizadas.
Prometheus no es capaz de evaluar si las alertas deben activarse. Este problema puede producirse si hay demasiadas alertas. Elimina las evaluaciones de alertas personalizadas costosas y/o consulta la documentación sobre el aumento del límite de la CPU para Prometheus. Póngase en contacto con el servicio de soporte de UiPath si no se han añadido alertas personalizadas.
UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
El número de respuestas http 500 de los servicios de UiPath® supera un umbral determinado.
Nivel de tráfico |
Número de solicitudes en 20 minutos |
Umbral de error (para http 500) |
---|---|---|
Alto |
>100 000 |
0,1 % |
Medio |
Entre 10 000 y 100 000 |
1 % |
Bajo |
< 10 000 |
5 % |
Los errores en los servicios dirigidos al usuario probablemente supongan una degradación de la funcionalidad que se puede observar directamente en la interfaz de usuario de Automation Suite, mientras que los errores en los servicios de backend tendrían consecuencias menos obvias.
La alerta indica qué servicio está experimentando una alta tasa de errores. Para entender qué problemas continuos puede haber en otros servicios de los que depende el servicio de informes, puede utilizar el panel de carga de trabajo de Istio, que muestra los errores entre servicios.
Vuelve a comprobar cualquier producto de Automation Suite que haya sido reconfigurado recientemente. También se pueden obtener registros detallados con el comando kubectl logs. Si el error persiste, póngase en contacto con el soporte de UiPath®.
uipath-infra/istio-configure-script-cronjob
está en estado suspendido.
Para solucionar este problema, habilita el trabajo cron siguiendo los siguientes pasos:
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n <istio-system> get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n <istio-system> get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
Este trabajo obtiene el último ticket Kerberos del servidor AD para la autenticación integrada en SQL. Cualquier fallo en este trabajo provocaría el fallo de la autenticación del servidor SQL. Póngase en contacto con el servicio de soporte de UiPath®.
Los errores en la capa de enrutamiento de solicitudes darían lugar a una funcionalidad degradada que se puede observar directamente en la interfaz de usuario de Automation Suite. Las solicitudes no se enrutarán a los servicios de backend.
istio-ingressgateway
pods en el espacio de nombres istio-system
. Recupera el nombre del pod ejecutando los siguientes comandos:
kubectl get pods -n istio-system
kubectl logs <istio-ingressgateway-pod-name> -n istio-system
kubectl get pods -n istio-system
kubectl logs <istio-ingressgateway-pod-name> -n istio-system
Esta alerta indica que el certificado TLS del servidor expirará en los próximos 30 días.
Para solucionar este problema, actualice el certificado TLS del servidor. Para obtener instrucciones, consulta Gestionar certificados de servidor.
Esta alerta indica que el certificado TLS del servidor expirará en los próximos 7 días.
Para solucionar esta incidencia, actualiza el Certificado TLS. Para obtener instrucciones, consulta Gestionar certificados de servidor.
Esta alerta indica que el certificado de firma del token de identidad caducará en los siguientes 30 días.
Para solucionar esta incidencia, actualiza el Certificado de firma del token de identidad. Para obtener instrucciones, consulta Gestionar certificados de servidor.
Esta alerta indica que el certificado de firma de token de identidad expirará en los próximos 7 días.
Para solucionar esta incidencia, actualiza el Certificado de firma del token de identidad. Para obtener instrucciones, consulta Gestionar certificados de servidor.
Esta alerta indica que el clúster etcd no tiene suficientes miembros. Tenga en cuenta que el clúster debe tener un número impar de miembros. La gravedad de esta alerta es fundamental.
Asegúrese de que haya un número impar de nodos de servidor en el clúster y que todos estén activos y en buen estado.
Esta alerta muestra que el clúster etcd no tiene líder. La gravedad de esta alerta es fundamental.
Esta alerta indica que el líder etcd cambia más de dos veces en 10 minutos. Esta es una advertencia.
Esta alerta indica que se detectó un cierto porcentaje de errores de solicitudes de GRPC en etcd.
Esta alerta indica que las solicitudes etcd GRPC son lentas. Esta es una advertencia.
Si esta alerta persiste, póngase en contacto con el soporte de UiPath®.
Esta alerta indica que se ha detectado un determinado porcentaje de fallos HTTP en etcd.
Esta alerta indica que las solicitudes HTTP se están ralentizando. Esta es una advertencia.
Esta alerta indica que la comunicación de los miembros etcd se está ralentizando. Esta es una advertencia.
Esta alerta indica que el servidor etcd recibió más de 5 propuestas fallidas en la última hora. Esta es una advertencia.
Esta alerta indica que la duración de etcd WAL fsync está aumentando. Esta es una advertencia.
/var/lib/rancher
es menor que:
- 35%: la gravedad de la alerta es una advertencia
- 25%: la gravedad de la alerta es fundamental
Si se activa esta alerta, aumente el tamaño del disco.
/var/lib/kubelet
es menor que:
- 35%: la gravedad de la alerta es una advertencia
-
25%: la gravedad de la alerta es fundamental
Si se activa esta alerta, aumente el tamaño del disco.
/var
es menor que:
- 35%: la gravedad de la alerta es una advertencia
- 25%: la gravedad de la alerta es fundamental
Los requisitos de almacenamiento para las habilidades ML pueden aumentar sustancialmente el uso del disco.
Si se activa esta alerta, aumente el tamaño del disco.
Esta alerta indica que se perdió la conexión del servidor NFS.
Debe verificar la conexión del servidor NFS y la ruta de montaje.
Esta alerta indica que la copia de seguridad falló para un PVC.
Para solucionar este problema, sigue los siguientes pasos:
-
Comprueba el estado del PVC para asegurarte de que está
Bound
en un volumen persistente (PV).kubectl get pvc --namespace <namespace>
kubectl get pvc --namespace <namespace>El comando enumera todos los PVC y su estado actual. El PVC debe tener un estado deBound
para indicar que ha reclamado correctamente un PV.Si el estado esPending
, significa que el PVC aún está esperando un PV adecuado, y se necesita más investigación. -
Si el PVC no está en estado
Bound
o si necesitas información más detallada, utiliza el comandodescribe
:kubectl describe pvc <pvc-name> --namespace <namespace>
kubectl describe pvc <pvc-name> --namespace <namespace>Busca información sobre el estado, los eventos y cualquier mensaje de error. Por ejemplo, un problema podría estar relacionado con configuraciones erróneas de clase de almacenamiento o limitaciones de cuota.
-
Comprueba el estado del volumen persistente (PV) que está vinculado al PVC:
kubectl get pv <pv-name>
kubectl get pv <pv-name>El estado debe serBound
. Si el PV está en un estadoReleased
oFailed
, puede indicar problemas con el almacenamiento subyacente. -
Si un pod utiliza el PVC, comprueba si el pod ha montado correctamente el volumen:
kubectl get pod <pod-name> --namespace <namespace>
kubectl get pod <pod-name> --namespace <namespace>Si el pod está en estadoRunning
, indica que el PVC se ha montado correctamente. Si el pod está en un estado de error (comoInitBackOff
), podría indicar problemas con el montaje del volumen. -
Si hay problemas con el montaje del PVC, describe el pod para comprobar si hay errores de montaje:
kubectl describe pod <pod-name> --namespace <namespace>
kubectl describe pod <pod-name> --namespace <namespace>
- Indicador de gravedad de la alerta
- reglas. general
- TargetDown
- Watchdog
- kubernetes-apps
- KubePodCrashLooping
- KubePodNotReady
- KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
- KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
- KubeStatefulSetUpdateNotRolledOut
- KubeDaemonSetRolloutStuck
- KubeContainerWaiting
- KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
- KubeJobCompletion
- KubeJobFailed
- KubeHpaReplicasMismatch
- KubeHpaMaxedOut
- kubernetes-resources
- KubeCPUOvercommit, KubeMemoryOvercommit
- KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
- CPUThrottlingHigh
- Kubernetes-storage
- KubePersistentVolumeFillingUp
- kube-state-metrics
- KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
- kubernetes-system-apiserver
- KubeClientCertificateExpiration
- AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
- KubernetesApiServerErrors
- kubernetes-system-kubelet
- KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
- KubeletTooManyPods
- KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
- KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
- kubernetes-system
- KubeVersionMismatch
- KubeClientErrors
- KubernetesMemoryPressure
- KubernetesDiskPressure
- Kube-apiserver-slos
- KubeAPIErrorBudgetBurn
- node-exporter
- NodeFilesystemSpaceFillingUp
- NodeRAIDDegraded
- NodeRAIDDiskFailure
- NodeNetworkReceiveErrs
- NodeClockSkewDetected, NodeClockNotSynchronising
- node-network
- NodeNetworkInterfaceFlapping
- InternodeCommunicationBroken
- uipath.prometheus.resource.provisioning.alerts
- PrometheusMemoryUsage, PrometheusStorageUsage
- alertmanager.rules
- AlertmanagerConfigInconsistent
- AlertmanagerFailedReload
- prometheus-operator
- PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
- Prometheus
- PrometheusBadConfig
- PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
- PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
- PrometheusRuleFailures
- PrometheusMissingRuleEvaluations
- PrometheusTargetLimitHit
- UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
- uipath.cronjob.alerts.rules
- CronJobSuspended
- Error de CronJob "Kerberos-tgt-actualizar" de la UIPath
- IdentityKerberosTgtUpdateFailed
- uipath.requestrouting.alerts
- UiPathRequestRouting
- Alertas de certificado TLS del servidor
- SecretCertificateExpiry30Days
- SecretCertificateExpiry7Days
- Alertas de certificado de firma de token de identidad
- IdentityCertificateExpiry30Days
- IdentityCertificateExpiry7Days
- Alertas de etdc
- EtcdInsufficientMembers
- EtcdNoLeader
- EtcdHighNumberOfLeaderChanges
- EtcdHighNumberOfFailedGrpcRequests
- EtcdGrpcRequestsSlow
- EtcdHighNumberOfFailedHttpRequests
- EtcdHttpRequestsSlow
- EtcdMemberCommunicationSlow
- EtcdHighNumberOfFailedProposals
- EtcdHighFsyncDurations
- EtcdHighCommitDurations
- Alertas de tamaño de disco
- LowDiskForRancherPartition
- LowDiskForKubeletPartition
- LowDiskForVarPartition
- Alertas de copias de seguridad
- NFSServerDisconnected
- VolumeBackupFailed
- BackupDisabled