automation-suite

2022.4

false

Importante :

Este contenido se ha localizado parcialmente a partir de un sistema de traducción automática. La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Guía de instalación de Automation Suite

Última actualización 16 de dic. de 2024

Prometheus en estado CrashloopBackoff con error de falta de memoria (OOM)

Descripción

En ciertas situaciones, los pods de Prometheus pueden no iniciarse debido a un error de falta de memoria (OOM). Para identificar los pods de Prometheus afectados, busca el último estado de terminación que se refiera específicamente a los errores de OOM.

Solución

Para solucionar el problema, realiza los siguientes pasos:

Actualiza argocd configmap para ignorar service-monitors actualizando resource.exclusions.
1. Crea una copia de seguridad de la antigua configmap:
```
kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yamlkubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
```
2. Edita argocd-cm:
```
kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
```
3. Añade una nueva entrada de datos para resource.exclusions:
```
data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"
```

Elimina el envoy-stats-monitormonitor de servicio en elistio-system espacio de nombres:

kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor

Elimina a la fuerza los pods de Prometheus:

kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system

Espera a que los pods de Prometheus bajo cattle-monitoring-system se reinicien correctamente.

Importante: eliminar los directorios wal y chunks_head da como resultado una pérdida de todos los datos de supervisión recopilados durante los días en que se acumularon estos archivos. Sin embargo, una vez que Prometheus vuelva a estar en funcionamiento, se podrá acceder a cualquier nueva alerta y datos de métricas.

En esta página