Automation Suite
2022.4
False
横幅背景图像
Automation Suite 安装指南
上次更新日期 2024年4月24日

Prometheus 处于 CrashLoopBackoff 状态,并出现内存不足 (OOM) 错误

描述

在某些情况下,Prometheus Pod 可能由于内存不足 (OOM) 错误而无法启动。要识别受影响的 Prometheus Pod,请搜索与 OOM 错误明确相关的上一个终止状态。

解决方案

要解决此问题,请执行以下步骤:

  1. 通过更新 resource.exclusions 来更新 argocd configmap 以忽略 service-monitors
    1. 创建旧 configmap 的备份:
      kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yamlkubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
    2. 编辑 argocd-cm
      kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
    3. resource.exclusions 添加新的数据条目:
      data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"
  2. 删除 istio-system 命名空间下的 envoy-stats-monitor 服务监控:
    kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor
  3. 强制删除 Prometheus Pod:
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system
  4. 等待 cattle-monitoring-system 下的 Prometheus Pod 成功重新启动。
重要提示:删除 walchunks_head 目录会导致丢失在累积这些文件期间收集的所有监控数据。但是,Prometheus 再次启动并运行后,任何新的警示和指标数据都将可以访问。
  • 描述
  • 解决方案

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.