Automation Suite 安装指南

上次更新日期 2025年3月17日

Prometheus 处于 CrashLoopBackoff 状态，并出现内存不足 (OOM) 错误

描述

在某些情况下，Prometheus Pod 可能由于内存不足 (OOM) 错误而无法启动。要识别受影响的 Prometheus Pod，请搜索与 OOM 错误明确相关的上一个终止状态。

解决方案

要解决此问题，请执行以下步骤：

通过更新 resource.exclusions 来更新 argocd configmap 以忽略 service-monitors。
1. 创建旧 configmap 的备份：
```
kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
```
2. 编辑 argocd-cm：
```
kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
```
3. 为 resource.exclusions 添加新的数据条目：
```
data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"
```

删除 istio-system 命名空间下的 envoy-stats-monitor 服务监控：

kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor

强制删除 Prometheus Pod：

kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system