Prometheus が CrashloopBackoff ステートでメモリ不足 (OOM) エラーを伴う

説明

特定の状況下では、メモリ不足 (OOM) エラーが原因で Prometheus ポッドの起動に失敗することがあります。影響を受ける Prometheus ポッドを特定するには、OOM エラーに特に関連する最後の終了ステートを検索します。

解決策

この問題を修正するには、次の手順に従います。

resource.exclusionsを更新してservice-monitorsを無視するように argocd configmap を更新します。
1. 古い configmapのバックアップを作成します。
```
kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yamlkubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
```
2. argocd-cm を編集します。
```
kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
```
3. resource.exclusionsの新しいデータエントリを追加します。
```
data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"
```

istio-system 名前空間の下にある envoy-stats-monitorサービスモニターを削除します。

kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor

Prometheus ポッドを強制削除します。

kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system