automation-suite

2022.10

false

Importante :

A tradução automática foi aplicada parcialmente neste conteúdo. A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Guia de instalação do Automation Suite

Última atualização 6 de nov de 2025

Prometheus no estado CrashloopBackoff com erro de falta de memória (OOM)

Description

Em certas situações, os pods do Prometheus podem falhar ao iniciar devido a um erro de falta de memória (OOM). Para identificar os pods do Prometheus afetados, pesquise o último estado de rescisão relacionado especificamente aos erros do OOM.

Solução

Para corrigir o problema, siga as seguintes etapas:

Atualize argocd configmap para ignorar service-monitors atualizando resource.exclusions.
1. Crie um backup do antigo configmap:
```
kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
```
2. Editar argocd-cm:
```
kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
```
3. Adicione uma nova entrada de dados para resource.exclusions:
```
data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"data:
  resource.exclusions: |
    - apiGroups:
        - monitoring.coreos.com
      kinds:
        - ServiceMonitor
      clusters:
        - "*"
```

Exclua o envoy-stats-monitormonitor de serviço noistio-system namespace:

kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor

Forçar exclusão dos pods do Prometheus:

kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system

Aguarde os pods do Prometheus em cattle-monitoring-system para reiniciar com sucesso.

Importante: a exclusão dos diretórios wal e chunks_head resulta em uma perda de todos os dados de monitoramento coletados durante os dias em que esses arquivos foram acumulados. No entanto, assim que o Prometheus estiver funcionando novamente, quaisquer novos alertas e dados de métricas estarão acessíveis.

Nesta página