automation-suite
2023.4
false
Importante :
Este contenido se ha localizado parcialmente a partir de un sistema de traducción automática.
Guía de instalación de Automation Suite en Linux
Last updated 5 de sep. de 2024

Prometheus en estado CrashloopBackoff con error de falta de memoria (OOM)

Descripción

En ciertas situaciones, los pods de Prometheus pueden no iniciarse debido a un error de falta de memoria (OOM). Para identificar los pods de Prometheus afectados, busca el último estado de terminación que se refiera específicamente a los errores de OOM.

Solución

Para solucionar el problema, realiza los siguientes pasos:

  1. Actualiza argocd configmap para ignorar service-monitors actualizando resource.exclusions.
    1. Crea una copia de seguridad de la antigua configmap:
      kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yamlkubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
    2. Edita argocd-cm:
      kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
    3. Añade una nueva entrada de datos para resource.exclusions:
      data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"
  2. Elimina el envoy-stats-monitormonitor de servicio en elistio-system espacio de nombres:
    kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor
  3. Elimina a la fuerza los pods de Prometheus:
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system
  4. Espera a que los pods de Prometheus bajo cattle-monitoring-system se reinicien correctamente.
Importante: eliminar los directorios wal y chunks_head da como resultado una pérdida de todos los datos de supervisión recopilados durante los días en que se acumularon estos archivos. Sin embargo, una vez que Prometheus vuelva a estar en funcionamiento, se podrá acceder a cualquier nueva alerta y datos de métricas.
  • Descripción
  • Solución

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.