automation-suite
2022.10
false
Importante :
A tradução automática foi aplicada parcialmente neste conteúdo.
Guia de instalação do Automation Suite
Last updated 5 de set de 2024

Prometheus no estado CrashloopBackoff com erro de falta de memória (OOM)

Description

Em certas situações, os pods do Prometheus podem falhar ao iniciar devido a um erro de falta de memória (OOM). Para identificar os pods do Prometheus afetados, pesquise o último estado de rescisão relacionado especificamente aos erros do OOM.

Solução

Para corrigir o problema, siga as seguintes etapas:

  1. Atualize argocd configmap para ignorar service-monitors atualizando resource.exclusions.
    1. Crie um backup do antigo configmap:
      kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yamlkubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
    2. Editar argocd-cm:
      kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
    3. Adicione uma nova entrada de dados para resource.exclusions:
      data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"
  2. Exclua o envoy-stats-monitormonitor de serviço noistio-system namespace:
    kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor
  3. Forçar exclusão dos pods do Prometheus:
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system
  4. Aguarde os pods do Prometheus em cattle-monitoring-system para reiniciar com sucesso.
Importante: a exclusão dos diretórios wal e chunks_head resulta em uma perda de todos os dados de monitoramento coletados durante os dias em que esses arquivos foram acumulados. No entanto, assim que o Prometheus estiver funcionando novamente, quaisquer novos alertas e dados de métricas estarão acessíveis.
  • Description
  • Solução

Esta página foi útil?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Uipath Logo White
Confiança e segurança
© 2005-2024 UiPath. Todos os direitos reservados.