Prometheus en estado CrashloopBackoff con error de falta de memoria (OOM)

Descripción

En ciertas situaciones, los pods de Prometheus pueden no iniciarse debido a un error de falta de memoria (OOM). Para identificar los pods de Prometheus afectados, busca el último estado de terminación que se refiera específicamente a los errores de OOM.

Solución

Para solucionar el problema, realiza los siguientes pasos:

Actualiza argocd configmap para ignorar service-monitors actualizando resource.exclusions.
1. Crea una copia de seguridad de la antigua configmap:
```
kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yamlkubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
```
2. Edita argocd-cm:
```
kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
```
3. Añade una nueva entrada de datos para resource.exclusions:
```
data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"
```

Elimina el envoy-stats-monitormonitor de servicio en elistio-system espacio de nombres:

kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor

Elimina a la fuerza los pods de Prometheus:

kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system

Espera a que los pods de Prometheus bajo cattle-monitoring-system se reinicien correctamente.

Importante: eliminar los directorios wal y chunks_head da como resultado una pérdida de todos los datos de supervisión recopilados durante los días en que se acumularon estos archivos. Sin embargo, una vez que Prometheus vuelva a estar en funcionamiento, se podrá acceder a cualquier nueva alerta y datos de métricas.

En esta página