Automation Suite
2022.4
False
Bannerhintergrundbild
Automation Suite-Installationsanleitung
Letzte Aktualisierung 24. Apr. 2024

Prometheus im Status „Crash Loop Backoff“ mit Out-of-Memory-Fehler (OOM).

Beschreibung

In bestimmten Situationen kann es vorkommen, dass Prometheus-Pods aufgrund eines Out-of-Memory-Fehlers (OOM) nicht gestartet werden können. Um die betroffenen Prometheus-Elemente zu identifizieren, suchen Sie nach dem letzten Beendigungsstatus, der sich speziell auf OOM-Fehler bezieht.

Lösung

Führen Sie die folgenden Schritte aus, um das Problem zu beheben:

  1. Aktualisieren Sie argocd configmap , um service-monitors zu ignorieren, indem Sie resource.exclusions aktualisieren.
    1. Erstellen Sie eine Sicherung des alten configmap:
      kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yamlkubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
    2. Edit argocd-cm:
      kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
    3. Fügen Sie einen neuen Dateneintrag für resource.exclusions:
      data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"
  2. Löschen Sie den Dienstmonitor envoy-stats-monitorunter dem Namespaceistio-system :
    kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor
  3. Erzwingen des Löschens der Prometheus-Pods:
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system
  4. Warten Sie, bis die Prometheus-Pods unter cattle-monitoring-system erfolgreich neu gestartet wurden.
Wichtig: Das Löschen der Verzeichnisse wal und chunks_head führt dazu, dass alle Überwachungsdaten verloren gehen, die während der Tage gesammelt wurden, in denen diese Dateien gesammelt wurden. Sobald Prometheus jedoch wieder betriebsbereit ist, sind alle neuen Warnungen und Metrikdaten zugänglich.
  • Beschreibung
  • Lösung

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
UiPath Logo weiß
Vertrauen und Sicherheit
© 2005-2024 UiPath. All rights reserved.