Prometheus im Status „Crash Loop Backoff“ mit Out-of-Memory-Fehler (OOM).

Beschreibung

In bestimmten Situationen kann es vorkommen, dass Prometheus-Pods aufgrund eines Out-of-Memory-Fehlers (OOM) nicht gestartet werden können. Um die betroffenen Prometheus-Elemente zu identifizieren, suchen Sie nach dem letzten Beendigungsstatus, der sich speziell auf OOM-Fehler bezieht.

Lösung

Führen Sie die folgenden Schritte aus, um das Problem zu beheben:

Aktualisieren Sie argocd configmap , um service-monitors zu ignorieren, indem Sie resource.exclusions aktualisieren.
1. Erstellen Sie eine Sicherung des alten configmap:
```
kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yamlkubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
```
2. Edit argocd-cm:
```
kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
```
3. Fügen Sie einen neuen Dateneintrag für resource.exclusions:
```
data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"
```

Löschen Sie den Dienstmonitor envoy-stats-monitorunter dem Namespaceistio-system :

kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor

Erzwingen des Löschens der Prometheus-Pods:

kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system

Warten Sie, bis die Prometheus-Pods unter cattle-monitoring-system erfolgreich neu gestartet wurden.

Wichtig: Das Löschen der Verzeichnisse wal und chunks_head führt dazu, dass alle Überwachungsdaten verloren gehen, die während der Tage gesammelt wurden, in denen diese Dateien gesammelt wurden. Sobald Prometheus jedoch wieder betriebsbereit ist, sind alle neuen Warnungen und Metrikdaten zugänglich.

Auf dieser Seite