Automation Suite
2022.10
False
Imagen de fondo del banner
Guía de instalación de Automation Suite
Última actualización 24 de abr. de 2024

Prometheus en estado CrashloopBackoff con error de falta de memoria (OOM)

Descripción

En ciertas situaciones, los pods de Prometheus pueden no iniciarse debido a un error de falta de memoria (OOM). Para identificar los pods de Prometheus afectados, busca el último estado de terminación que se refiera específicamente a los errores de OOM.

Solución

Para solucionar el problema, realiza los siguientes pasos:

  1. Actualiza argocd configmap para ignorar service-monitors actualizando resource.exclusions.
    1. Crea una copia de seguridad de la antigua configmap:
      kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yamlkubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
    2. Edita argocd-cm:
      kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
    3. Añade una nueva entrada de datos para resource.exclusions:
      data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"
  2. Elimina el envoy-stats-monitormonitor de servicio en elistio-system espacio de nombres:
    kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor
  3. Elimina a la fuerza los pods de Prometheus:
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system
  4. Espera a que los pods de Prometheus bajo cattle-monitoring-system se reinicien correctamente.
Importante: eliminar los directorios wal y chunks_head da como resultado una pérdida de todos los datos de supervisión recopilados durante los días en que se acumularon estos archivos. Sin embargo, una vez que Prometheus vuelva a estar en funcionamiento, se podrá acceder a cualquier nueva alerta y datos de métricas.
  • Descripción
  • Solución

Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.