Automation Suite
2023.10
falso
Imagem de fundo do banner
Guia de instalação do Automation Suite no Linux
Última atualização 19 de abr de 2024

Alertas de gerenciamento

alertmanager.rules

AlertmanagerConfigInconsistent

Esses são erros internos do AlertManager para clusters de alta disponibilidade com várias réplicas do AlertManager. Os alertas podem aparecer e desaparecer intermitentemente. Reduzir temporariamente e, em seguida, aumentar as réplicas do AlertManager pode corrigir o problema.

Para corrigir o problema, siga as seguintes etapas:

  1. Dimensionar para zero. Observe que leva um momento para que os pods sejam desligados:

    kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
  2. Dimensionar novamente para dois:

    kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
  3. Verifique se os pods do AlertManager foram iniciados e se estão no estado de execução:

    kubectl get po -n cattle-monitoring-systemkubectl get po -n cattle-monitoring-system

Se o problema persistir, entre em contato com o Suporte da UiPath®.

AlertmanagerFailedReload

O AlertManager falhou ao carregar ou recarregar a configuração. Verifique quaisquer configurações personalizadas do AlertManager para erros de entrada e, caso contrário, entre em contato com o Suporte da UiPath®.

AlertmanagerMembersInconsistent

Esses são erros internos do AlertManager para clusters de alta disponibilidade com várias réplicas do AlertManager. Os alertas podem aparecer e desaparecer intermitentemente. Reduzir temporariamente e, em seguida, aumentar as réplicas do AlertManager pode corrigir o problema.

Para corrigir o problema, siga as seguintes etapas:

  1. Dimensionar para zero. Observe que leva um momento para que os pods sejam desligados:

    kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
  2. Dimensionar novamente para dois:

    kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
  3. Verifique se os pods do AlertManager foram iniciados e se estão no estado de execução:

    kubectl get po -n cattle-monitoring-systemkubectl get po -n cattle-monitoring-system

Se o problema persistir, entre em contato com o Suporte da UiPath®.

Regras.Geral

TargetDown

O Prometheus não pode coletar métricas do destino no alerta, o que significa que os painéis do Grafana e outros alertas com base nas métricas desse destino não estarão disponíveis. Verifique outros alertas relativos a esse destino.

Watchdog

Este é um alerta destinado a garantir que todo o pipeline de alertas esteja funcional. Este alerta está sempre disparando. Portanto, ele deve sempre ser disparado no AlertManager e contra um receptor. Existem integrações com vários mecanismos de notificação que notificam quando esse alerta não está disparando. Por exemplo, a integração do DeadMansSnitch no PagerDuty.

prometheus-operator

PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources

Erros internos do operador do Prometheus, que controla os recursos do Prometheus. O próprio Prometheus ainda pode estar íntegro mesmo com esses erros presentes; no entanto, esse erro indica que há uma configuração de monitoramento degradada. Entre em contato com o Suporte da UiPath®.

Prometheus

PrometheusBadConfig

O Prometheus falhou ao carregar ou recarregar a configuração. Verifique se as configurações personalizadas do Prometheus têm erros de entrada. Caso contrário, entre em contato com o Suporte da UiPath®.

PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers

A conexão do Prometheus ao AlertManager não está íntegra. As métricas ainda podem ser consultadas e os painéis do Grafana ainda podem exibi-las, mas os alertas não serão acionados. Verifique se as configurações personalizadas do AlertManager têm erros de entrada, caso contrário, entre em contato com o Suporte da UiPath®.

PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards

Erros internos do Prometheus que indicam que as métricas podem não ser coletadas conforme o esperado. Entre em contato com o Suporte da UiPath®.

PrometheusRuleFailures

Isso pode acontecer se houver alertas malformados com base em métricas inexistentes ou sintaxe incorreta do PromQL. Entre em contato com o Suporte da UiPath® se nenhum alerta personalizado tiver sido adicionado.

PrometheusMissingRuleEvaluations

O Prometheus não consegue avaliar se os alertas devem ser disparados. Isso pode acontecer se houver muitos alertas. Remova as avaliações dispendiosas de alertas personalizados e/ou consulte a documentação sobre como aumentar o limite de CPU do Prometheus. Entre em contato com o Suporte da UiPath® se nenhum alerta personalizado tiver sido adicionado.

PrometheusTargetLimitHit

Há muitos alvos para o Prometheus coletar. Se ServiceMonitors extras tiverem sido adicionados (consulte Console de monitoramento), você poderá removê-los.

uipath.prometheus.resource.provisioning.alerts

PrometheusMemoryUsage, PrometheusStorageUsage

Esses alertas advertem quando o cluster está se aproximando dos limites configurados para memória e armazenamento. É provável que isso aconteça em clusters com um aumento substancial recente no uso (geralmente de robôs em vez de usuários) ou quando os nós são adicionados ao cluster sem ajustar os recursos do Prometheus. Isso se deve a um aumento na quantidade de métricas coletadas.

A taxa de maior utilização do armazenamento pode ser exibida no painel Kubernetes / Volumes persistentes:



Você pode ajustá-lo redimensionando o PVC conforme estas instruções: Configuração do cluster.

A taxa de utilização de memória aumentada pode ser exibida no painel Kubernetes / Recursos do computador / Pod.



Você pode ajustá-la alterando os limites de recursos de memória do Prometheus no aplicativo de monitoramento da Rancher do ArgoCD. O aplicativo de monitoramento da Rancher ressincroniza automaticamente depois de clicar em Salvar.



Observe que o Prometheus leva um tempo para reiniciar e começar a mostrar as métricas no Grafana novamente. geralmente leva menos de 10 minutos, mesmo com clusters grandes.

uipath.availability.alerts

UiPathAvailabilityHighTrafficUserFacing

A quantidade de respostas http 500 dos serviços da UiPath® excede um determinado limite.

Nível de tráfego

Quantidade de solicitações em 20 minutos

Limite de erro (para http 500s)

Alta

>100.000

0,1%

Médio

Entre 10.000 e 100.000

1%

Baixa

< 10.000

5%

Os erros em serviços voltados para o usuário provavelmente resultariam em funcionalidade degradada que é diretamente observável na interface do usuário do Automation Suite, já os erros em serviços de back-end teriam consequências menos óbvias.

O alerta indica qual serviço está apresentando uma alta taxa de erro. Para entender quais problemas de cascata podem haver de outros serviços dos quais o serviço de relatório depende, você pode usar o painel de carga de trabalho do Istio, que mostra os erros entre os serviços.

Verifique novamente todos os produtos do Automation Suite recentemente reconfigurados. Logs detalhados também estão disponíveis com o comando kubectl logs. Se o erro persistir, entre em contato com o Suporte da UiPath®.

backup

NFSServerDisconnected

Este alerta indica que a conexão do servidor NFS foi perdida.

Você precisa verificar a conexão do servidor NFS e o caminho de montagem.

VolumeBackupFailed

Este alerta indica que o backup falhou para um PVC.

BackupDisabled

Este alerta indica que o backup está desabilitado.

Você precisa verificar se o cluster não está íntegro.

cronjob-alerts

CronJobSuspended

O cronjob uipath-infra/istio-configure-script-cronjob está em estado suspenso.

Para corrigir esse problema, habilite o cronjob executando as seguintes etapas:

export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'

IdentityKerberosTgtUpdateFailed

Este trabalho atualiza o tíquete do Kerberos mais recente para todos os serviços da UiPath®. Falhas neste trabalho fariam com que a autenticação do SQL Server falhasse. Entre em contato com o Suporte da UiPath®.

Was this page helpful?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Logotipo branco da Uipath
Confiança e segurança
© 2005-2024 UiPath. All rights reserved.