Automation Suite
2023.4
False
Bannerhintergrundbild
Automation Suite unter Linux – Installationsanleitung
Letzte Aktualisierung 24. Apr. 2024

Prometheus im Zustand „CrashloopBackoff“ mit OOM-Fehler (Out-of-Memory)

Beschreibung

In bestimmten Situationen kann es vorkommen, dass Prometheus-Pods aufgrund eines Out-of-Memory-Fehlers (OOM) nicht gestartet werden können. Um die betroffenen Prometheus-Pods zu identifizieren, suchen Sie nach dem letzten Beendigungsstatus, der sich speziell auf OOM-Fehler bezieht.

Lösung

Führen Sie die folgenden Schritte aus, um das Problem zu beheben:

  1. Aktualisieren Sie argocd configmap, um service-monitors zu ignorieren, indem Sie resource.exclusions aktualisieren.
    1. Erstellen Sie eine Sicherung des alten configmap:
      kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yamlkubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
    2. Bearbeiten Sie argocd-cm:
      kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
    3. Fügen Sie einen neuen Dateneintrag für resource.exclusions hinzu:
      data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"
  2. Löschen Sie den Dienstmonitor envoy-stats-monitor unter dem Namespace istio-system:
    kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor
  3. Erzwingen Sie das Löschen der Prometheus-Pods:
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system
  4. Warten Sie, bis die Prometheus-Pods unter cattle-monitoring-system erfolgreich neu gestartet wurden.
Wichtig: Das Löschen der Verzeichnisse wal und chunks_head führt zum Verlust aller Überwachungsdaten, die während der Tage erfasst wurden, an denen diese Dateien gesammelt wurden. Sobald Prometheus jedoch wieder betriebsbereit ist, sind alle neuen Warnungen und Metrikdaten zugänglich.
  • Beschreibung
  • Lösung

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
UiPath Logo weiß
Vertrauen und Sicherheit
© 2005-2024 UiPath. All rights reserved.