Automation Suite
2022.10
falso
Imagem de fundo do banner
Guia de instalação do Automation Suite
Última atualização 24 de abr de 2024

Prometheus no estado CrashloopBackoff com erro de falta de memória (OOM)

Description

Em certas situações, os pods do Prometheus podem falhar ao iniciar devido a um erro de falta de memória (OOM). Para identificar os pods do Prometheus afetados, pesquise o último estado de rescisão relacionado especificamente aos erros do OOM.

Solução

Para corrigir o problema, siga as seguintes etapas:

  1. Atualize argocd configmap para ignorar service-monitors atualizando resource.exclusions.
    1. Crie um backup do antigo configmap:
      kubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yamlkubectl get  configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml  
    2. Editar argocd-cm:
      kubectl edit configmap argocd-cm -n argocdkubectl edit configmap argocd-cm -n argocd
    3. Adicione uma nova entrada de dados para resource.exclusions:
      data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"data:
        resource.exclusions: |
          - apiGroups:
              - monitoring.coreos.com
            kinds:
              - ServiceMonitor
            clusters:
              - "*"
  2. Exclua o envoy-stats-monitormonitor de serviço noistio-system namespace:
    kubectl -n istio-system  delete servicemonitor  envoy-stats-monitorkubectl -n istio-system  delete servicemonitor  envoy-stats-monitor
  3. Forçar exclusão dos pods do Prometheus:
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-systemkubectl delete pod  prometheus-rancher-monitoring-prometheus-0  -n cattle-monitoring-system
    kubectl delete pod  prometheus-rancher-monitoring-prometheus-1  -n cattle-monitoring-system
  4. Aguarde os pods do Prometheus em cattle-monitoring-system para reiniciar com sucesso.
Importante: a exclusão dos diretórios wal e chunks_head resulta em uma perda de todos os dados de monitoramento coletados durante os dias em que esses arquivos foram acumulados. No entanto, assim que o Prometheus estiver funcionando novamente, quaisquer novos alertas e dados de métricas estarão acessíveis.
  • Description
  • Solução

Was this page helpful?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Logotipo branco da Uipath
Confiança e segurança
© 2005-2024 UiPath. All rights reserved.