Automation Suite

2021.10

falso

Guia de instalação do Automation Suite

Última atualização 19 de abril de 2024

Runbooks de alertas

Observação:

Para obter instruções gerais sobre como usar as ferramentas disponíveis para alertas, métricas e visualizações, consulte Uso da pilha de monitoramento
Para obter mais informações sobre como corrigir problemas e criar um pacote de suporte para engenheiros de suporte do UiPath, consulte Solução de problemas.
Ao entrar em contato com o Suporte da UiPath, inclua todos os alertas que estão sendo disparados no momento.

Chave de gravidade do alerta

Gravidade do alerta	Description
Informações	Inesperado, mas inofensivo. Pode ser silenciado, mas pode ser útil durante o diagnóstico.
Aviso	Indicação de uma degradação direcionada da funcionalidade ou uma probabilidade de degradação em um futuro próximo, que pode afetar todo o cluster. Sugere ação imediata (geralmente dentro de dias) para manter o cluster íntegro.
Crítica	Conhecido por causar séria degradação da funcionalidade que geralmente é difundida no cluster. Requer ação imediata (no mesmo dia) para reparar o cluster.

Regras.Geral

TargetDown

O Prometheus não pode coletar métricas do destino no alerta, o que significa que os painéis do Grafana e outros alertas com base nas métricas desse destino não estarão disponíveis. Verifique outros alertas relativos a esse destino.

Watchdog

Este é um alerta destinado a garantir que todo o pipeline de alertas esteja funcional. Este alerta está sempre disparando. Portanto, ele deve sempre ser disparado no AlertManager e contra um receptor. Existem integrações com vários mecanismos de notificação que notificam quando esse alerta não está disparando. Por exemplo, a integração do DeadMansSnitch no PagerDuty.

kubernetes-apps

KubePodCrashLooping

Um pod que continua reiniciando inesperadamente. Isso pode acontecer devido a um erro de memória insuficiente (OOM na sigla em inglês), caso em que os limites podem ser ajustados. Verifique os eventos do pod com kubectl describe, e os logs com kubectl logs para conferir detalhes sobre possíveis falhas. Se o problema persistir, entre em contato com o Suporte da UiPath®.

KubePodNotReady

Um pod foi iniciado, mas não está respondendo à investigação de integridade com sucesso. Isso pode significar que ele está travado e não é capaz de atender ao tráfego. Você pode verificar os logs do pod com kubectl logs para conferir se há alguma indicação de progresso. Se o problema persistir, entre em contato com o Suporte da UiPath®.

KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch

Houve uma tentativa de atualização para uma implantação ou statefulset, mas falhou e ainda não ocorreu uma reversão. Entre em contato com o Suporte da UiPath®.

KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch

Em clusters de alta disponibilidade com várias réplicas, esse alerta é acionado quando a quantidade de réplicas não é a ideal. Isso pode ocorrer quando não há recursos suficientes no cluster para agendar. Verifique a utilização de recursos e adicione capacidade conforme necessário. Caso contrário, entre em contato com o Suporte da UiPath®.

KubeStatefulSetUpdateNotRolledOut

Uma atualização para uma statefulset falhou. Entre em contato com o Suporte da UiPath®.

Consulte também: StatefulSets.

KubeDaemonSetRolloutStuck

A implementação do Daemonset falhou. Entre em contato com o Suporte da UiPath®.

Consulte também: DaemonSet.

KubeContainerWaiting

Um contêiner está travado no estado de espera. Ele foi agendado para um nó de trabalho, mas não pode ser executado naquela máquina. Confira kubectl describe do pod para obter mais informações. A causa mais comum de contêineres em espera é uma falha no pull da imagem. Para clusters isolados, isso pode significar que o registro local não está disponível. Se o problema persistir, entre em contato com o Suporte da UiPath®.

KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled

Isso pode indicar um problema com um dos nós. Verifique a integridade de cada nó e corrija os problemas conhecidos. Caso contrário, entre em contato com o Suporte da UiPath®.

KubeJobCompletion

Um trabalho leva mais de 12 horas para ser concluído. Isso não é esperado. Entre em contato com o Suporte da UiPath®.

KubeJobFailed

Um trabalho falhou; no entanto, a maioria dos trabalhos é repetida automaticamente. Se o problema persistir, entre em contato com o Suporte da UiPath®.

KubeHpaReplicasMismatch

O escalonador automático não pode escalonar o recurso em questão conforme configurado. Se o desejado for maior que o real, pode haver falta de recursos. Se o desejado for menor que o real, os pods podem estar travados durante o desligamento. Se o problema persistir, entre em contato com o Suporte da UiPath®.

Consulte também: Dimensionamento automático de pod horizontal

KubeHpaMaxedOut

A quantidade de réplicas de um determinado serviço atingiu seu máximo. Isso acontece quando a quantidade de solicitações feitas ao cluster é muito alta. Se o tráfego intenso for esperado e temporário, você poderá silenciar este alerta. No entanto, esse alerta é um sinal de que o cluster está com capacidade máxima e não pode lidar com muito mais tráfego. Se mais capacidade de recursos estiver disponível no cluster, você poderá aumentar a quantidade máxima de réplicas para o serviço seguindo estas instruções:

# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'

Consulte também: Dimensionamento automático de pod horizontal.

kubernetes-resources

KubeCPUOvercommit, KubeMemoryOvercommit

Esses avisos indicam que o cluster não consegue tolerar falhas de nó. Para clusters de avaliação de nó único, isso é conhecido e esses alertas podem ser silenciados. Para configurações de produção prontas para alta disponibilidade de vários nós, esses alertas são acionados quando muitos nós se tornam não íntegros para dar suporte à alta disponibilidade, e indicam que os nós devem ser restaurados ou substituídos.

KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded

Esses alertas pertencem a cotas de recursos de namespace que só existem no cluster se adicionados por meio de personalização. As cotas de recursos de namespace não são adicionadas como parte da instalação do Automation Suite.

Consulte também: Cotas de recursos.

CPUThrottlingHigh

A utilização da CPU de um contêiner foi limitada de acordo com os limites configurados. Isso faz parte da operação normal do Kubernetes e pode fornecer informações úteis quando outros alertas estiverem sendo acionados. Você pode silenciar este alerta.

Kubernetes-storage

KubePersistentVolumeFillingUp

Quando Aviso: o espaço disponível é inferior a 15% e provavelmente será preenchido em quatro dias.

Quando Crítico: o espaço disponível é inferior a 3%.

Para qualquer serviço que fique sem espaço, pode ser difícil recuperar os dados, portanto, os volumes devem ser redimensionados antes de atingir 0% de espaço disponível. Consulte as seguintes instruções: Configuração do cluster.

Para alertas específicos do Prometheus, consulte PrometheusStorageUsage para obter mais detalhes e instruções.

KubePersistentVolumeErrors

O PersistentVolume não pode ser provisionado. Isso significa que qualquer serviço que exija o volume não será iniciado. Verifique se há outros erros com armazenamento Longhorn e/ou Ceph e entre em contato com o Suporte da UiPath®.

kube-state-metrics

KubeStateMetricsListErrors, KubeStateMetricsWatchErrors

O coletor de métricas de estado do Kube não consegue coletar métricas do cluster sem erros. Isso significa que alertas importantes podem não disparar. Entre em contato com o Suporte da UiPath®.

Consulte também: Métricas de estado do Kube no lançamento.

kubernetes-system-apiserver

KubeClientCertificateExpiration

Quando Aviso: um certificado de cliente usado para autenticação no servidor da API do Kubernetes expira em menos de sete dias.

Quando Crítico: um certificado de cliente usado para autenticação no servidor da API do Kubernetes expira em menos de um dia.

Você deve renovar o certificado.

AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests

Indica problemas com o control plane. do Kubernetes. Verifique a integridade dos nós principais, resolva os problemas pendentes e entre em contato com o Suporte da UiPath se os problemas persistirem.

Consulte também:

API do Kubernetes

Camada de agregação da API do Kubernetes

kubernetes-system-kubelet

KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown

Esses alertas indicam um problema com um nó. Em clusters de produção prontos para alta disponibilidade de vários nós, os pods provavelmente seriam reprogramados para outros nós. Se o problema persistir, você deverá remover e drenar o nó para manter a integridade do cluster. Em clusters sem capacidade adicional, é necessário primeiro associar outro nó ao cluster.

KubeletTooManyPods

Há muitos pods em execução no nó especificado.

Unir outro nó ao cluster.

KubeletClientCertificateExpiration, KubeletServerCertificateExpiration

Quando Warning: um certificado de cliente ou servidor para Kubelet expira em menos de sete dias.

Quando Crítico: um certificado de cliente ou servidor para Kubelet expira em menos de um dia.

Você deve renovar o certificado.

KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors

O Kubelet falhou ao renovar seu certificado de cliente ou servidor. Entre em contato com o suporte da UiPath®.

kubernetes-system

KubeVersionMismatch

Existem versões semânticas diferentes de componentes do Kubernetes em execução. Isso pode acontecer como resultado de uma falha de upgrade do Kubernetes.

KubeClientErrors

O cliente do servidor da API do Kubernetes está apresentando mais de 1% de erros. Pode haver um problema com o nó em que este cliente está sendo executado ou com o próprio servidor da API do Kubernetes.

Kube-apiserver-slos

KubeAPIErrorBudgetBurn

O servidor da API do Kubernetes está usando muita reserva de erros.

node-exporter

NodeFilesystemSpaceFillingUp, NodeFilesystemAlmostOutOfSpace, NodeFilesystemFilesFillingUp

O sistema de arquivos em um nó específico está sendo preenchido completamente. Provisione mais espaço adicionando um disco ou montando discos não utilizados.

NodeRAIDDegraded

A matriz RAID está em um estado degradado devido a uma ou mais falhas de disco. A quantidade de drives sobressalentes

é insuficiente para corrigir o problema automaticamente.

NodeRAIDDiskFailure

O array de RAID precisa de atenção e possivelmente uma troca de disco.

NodeNetworkReceiveErrs, NodeNetworkTransmitErrs, NodeHighNumberConntrackEntriesUsed

Há um problema com a interface de rede física no nó. Se os problemas persistirem, pode ser necessário substituí-la.

NodeClockSkewDetected, NodeClockNotSynchronising

Há um problema com o relógio no nó. Certifique-se de que o NTP esteja configurado corretamente.

node-network

NodeNetworkInterfaceFlapping

Há um problema com a interface de rede física no nó. Se os problemas persistirem, pode ser necessário substituí-la.

uipath.prometheus.resource.provisioning.alerts

PrometheusMemoryUsage, PrometheusStorageUsage

Esses alertas advertem quando o cluster está se aproximando dos limites configurados para memória e armazenamento. É provável que isso aconteça em clusters com um aumento substancial recente no uso (geralmente de robôs em vez de usuários) ou quando os nós são adicionados ao cluster sem ajustar os recursos do Prometheus. Isso se deve a um aumento na quantidade de métricas coletadas.

A taxa de maior utilização do armazenamento pode ser exibida no painel Kubernetes / Volumes persistentes:

Você pode ajustá-lo redimensionando o PVC conforme estas instruções: Configuração do cluster.

A taxa de utilização de memória aumentada pode ser exibida no painel Kubernetes / Recursos do computador / Pod.

Você pode ajustá-la alterando os limites de recursos de memória do Prometheus no aplicativo de monitoramento da Rancher do ArgoCD. O aplicativo de monitoramento da Rancher ressincroniza automaticamente depois de clicar em Salvar.

Observe que o Prometheus leva um tempo para reiniciar e começar a mostrar as métricas no Grafana novamente. geralmente leva menos de 10 minutos, mesmo com clusters grandes.

alertmanager.rules

AlertmanagerConfigInconsistent

Esses são erros internos do AlertManager para clusters de alta disponibilidade com várias réplicas do AlertManager. Os alertas podem aparecer e desaparecer intermitentemente. Reduzir temporariamente e, em seguida, aumentar as réplicas do AlertManager pode corrigir o problema.

Para corrigir o problema, siga as seguintes etapas:

Dimensionar para zero. Observe que leva um momento para que os pods sejam desligados:

kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0

Dimensionar novamente para dois:

kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2

Verifique se os pods do AlertManager foram iniciados e se estão no estado de execução:
```
kubectl get po -n cattle-monitoring-systemkubectl get po -n cattle-monitoring-system
```

Se o problema persistir, entre em contato com o Suporte da UiPath®.

AlertmanagerFailedReload

O AlertManager falhou ao carregar ou recarregar a configuração. Verifique quaisquer configurações personalizadas do AlertManager para erros de entrada e, caso contrário, entre em contato com o Suporte da UiPath®.

prometheus-operator

PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources

Erros internos do operador do Prometheus, que controla os recursos do Prometheus. O próprio Prometheus ainda pode estar íntegro mesmo com esses erros presentes; no entanto, esse erro indica que há uma configuração de monitoramento degradada. Entre em contato com o Suporte da UiPath®.

Prometheus

PrometheusBadConfig

O Prometheus falhou ao carregar ou recarregar a configuração. Verifique se as configurações personalizadas do Prometheus têm erros de entrada. Caso contrário, entre em contato com o Suporte da UiPath®.

PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers

A conexão do Prometheus ao AlertManager não está íntegra. As métricas ainda podem ser consultadas e os painéis do Grafana ainda podem exibi-las, mas os alertas não serão acionados. Verifique se as configurações personalizadas do AlertManager têm erros de entrada, caso contrário, entre em contato com o Suporte da UiPath®.

PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards

Erros internos do Prometheus que indicam que as métricas podem não ser coletadas conforme o esperado. Entre em contato com o Suporte da UiPath®.

PrometheusRuleFailures

Isso pode acontecer se houver alertas malformados com base em métricas inexistentes ou sintaxe incorreta do PromQL. Entre em contato com o Suporte da UiPath® se nenhum alerta personalizado tiver sido adicionado.

PrometheusMissingRuleEvaluations

O Prometheus não consegue avaliar se os alertas devem ser disparados. Isso pode acontecer se houver muitos alertas. Remova as avaliações dispendiosas de alertas personalizados e/ou consulte a documentação sobre como aumentar o limite de CPU do Prometheus. Entre em contato com o Suporte da UiPath® se nenhum alerta personalizado tiver sido adicionado.

PrometheusTargetLimitHit

Há muitos alvos para o Prometheus coletar. Se ServiceMonitors extras tiverem sido adicionados (consulte Console de monitoramento), você poderá removê-los.

uipath.availability.alerts

UiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend

A quantidade de respostas http 500 dos serviços da UiPath® excede um determinado limite.

Nível de tráfego	Quantidade de solicitações em 20 minutos	Limite de erro (para http 500s)
Alta	>100.000	0,1%
Médio	Entre 10.000 e 100.000	1%
Baixa	< 10.000	5%

Os erros em serviços voltados para o usuário provavelmente resultariam em funcionalidade degradada que é diretamente observável na interface do usuário do Automation Suite, já os erros em serviços de back-end teriam consequências menos óbvias.

O alerta indica qual serviço está apresentando uma alta taxa de erro. Para entender quais problemas de cascata podem haver de outros serviços dos quais o serviço de relatório depende, você pode usar o painel de carga de trabalho do Istio, que mostra os erros entre os serviços.

Verifique novamente todos os produtos do Automation Suite recentemente reconfigurados. Logs detalhados também estão disponíveis com o comando kubectl logs. Se o erro persistir, entre em contato com o Suporte da UiPath®.

uipath.cronjob.alerts.rules

UiPath CronJob "kerberos-tgt-refresh" falhou

Este trabalho obtém o tíquete do Kerberos mais recente do AD Server para autenticação integrada ao SQL. Falhas neste trabalho fariam com que a autenticação do SQL Server falhasse. Entre em contato com o Suporte da UiPath®.

UiPath CronJob Kerberos-tgt-secret-update falhou

Este trabalho atualiza o tíquete do Kerberos mais recente para todos os serviços da UiPath. Falhas neste trabalho fariam com que a autenticação do SQL Server falhasse. Entre em contato com o Suporte da UiPath.

Osd-alert.rules

CephOSDNearFull

Quando a gravidade do alerta for Aviso, o espaço disponível estará com menos de 25% e provavelmente será esgotado muito em breve.

Para qualquer serviço que fique sem espaço, pode ser difícil recuperar os dados, portanto, você deve redimensionar os volumes antes de atingir 10% de espaço disponível. Consulte as seguintes instruções: Configuração do cluster.