Prometheus en état CrashloopBackoff avec erreur de mémoire insuffisante (OOM)

Description

Dans certaines situations, les pods Prometheus peuvent ne pas démarrer en raison d’une erreur de mémoire insuffisante (OOM). Pour identifier les pods Prometheus concernés, recherchez le dernier état de terminaison spécifiquement associé aux erreurs OOM.

Solution

Pour résoudre le problème, procédez comme suit :

Mettez à jour argocd configmap pour ignorer service-monitors en mettant à jour resource.exclusions.
1. Créez une sauvegarde de l’ancienne configmap :
```
kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yamlkubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
```
2. Modifier argocd-cm :
```
kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
```
3. Ajoutez une nouvelle entrée de données pour resource.exclusions :
```
data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"
```

Supprimez le moniteur de service envoy-stats-monitorsous l’espace de nomsistio-system :

kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor

Forcez la suppression des pods Prometheus :

kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system

Attendez que les pods Prometheus sous cattle-monitoring-system aient redémarré avec succès.

Attention : la suppression des répertoires wal et chunks_head entraînera la perte de toutes les données de surveillance recueillies au cours des jours où ces fichiers ont été accumulés. Dès que Prometheus sera à nouveau opérationnel, cependant, toutes les nouvelles données d’alertes et de métriques seront accessibles.

À cette page