automation-suite

2023.4

false

Wichtig :

Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Automation Suite unter Linux – Installationsanleitung

Letzte Aktualisierung 30. Mai 2025

Prometheus im Zustand „CrashloopBackoff“ mit OOM-Fehler (Out-of-Memory)

Beschreibung

In bestimmten Situationen kann es vorkommen, dass Prometheus-Pods aufgrund eines Out-of-Memory-Fehlers (OOM) nicht gestartet werden können. Um die betroffenen Prometheus-Pods zu identifizieren, suchen Sie nach dem letzten Beendigungsstatus, der sich speziell auf OOM-Fehler bezieht.

Lösung

Führen Sie die folgenden Schritte aus, um das Problem zu beheben:

Aktualisieren Sie argocd configmap, um service-monitors zu ignorieren, indem Sie resource.exclusions aktualisieren.

Erstellen Sie eine Sicherung des alten configmap:

kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yamlkubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml

Bearbeiten Sie argocd-cm:

kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd

Fügen Sie einen neuen Dateneintrag für resource.exclusions hinzu:

data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"

Löschen Sie den Dienstmonitor envoy-stats-monitor unter dem Namespace istio-system:

kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor

Erzwingen Sie das Löschen der Prometheus-Pods:

kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system

Warten Sie, bis die Prometheus-Pods unter cattle-monitoring-system erfolgreich neu gestartet wurden.

Wichtig: Das Löschen der Verzeichnisse wal und chunks_head führt zum Verlust aller Überwachungsdaten, die während der Tage erfasst wurden, an denen diese Dateien gesammelt wurden. Sobald Prometheus jedoch wieder betriebsbereit ist, sind alle neuen Warnungen und Metrikdaten zugänglich.

Auf dieser Seite