- Visão geral
- Requisitos
- Pré-instalação
- Instalação
- Pós-instalação
- Migração e atualização
- Atualizando o Automação Suite
- Migração de produtos independentes para o Automation Suite
- Etapa 1: restauração do banco de dados de produtos independente
- Etapa 2: atualizar o esquema do banco de dados de produtos restaurado
- Etapa 3: migração dos dados da organização do Identity de independente para o Automation Suite
- Etapa 4: backup do banco de dados da plataforma no Automation Suite
- Etapa 5: mesclando organizações no Automation Suite
- Etapa 6: atualização das strings de conexão do produto migradas
- Etapa 7: migração do Orchestrator independente
- Etapa 8: migração do Insights independente
- Etapa 9: migração do Test Manager independente
- Etapa 10: exclusão do tenant padrão
- Executando uma migração de único tenant
- Migração entre clusters do Automation Suite
- Migração do Automation Suite no EKS/AKS para o Automation Suite no OpenShift
- Monitoramento e alertas
- Administração de cluster
- Configuração específica do produto
- Configuração avançada do Orchestrator
- Configuração de parâmetros do Orchestrator
- Configuração do AppSettings
- Configuração do tamanho máximo da solicitação
- Substituição da configuração de armazenamento no nível do cluster
- Configuração do NLog
- Salvando logs do robô no Elasticsearch
- Configuração dos repositórios de credenciais
- Configuração da chave de criptografia por tenant
- Limpeza do banco de dados do Orchestrator
- Ignorar a instalação da biblioteca do host
- Solução de problemas
- Não é possível acessar o Automation Hub após a atualização para o Automation Suite 2024.10.0
- Falha no provisionamento do AI Center após a atualização para a 2023.10 ou posterior
- Volumes do Insights criados em duas zonas diferentes após a migração
- Falha de atualização devido aos tamanhos de PVC do Insights substituídos
- A configuração de backup não funciona devido a uma falha na conexão com o Azure Government
- Pods no namespace uipath travaram ao habilitar taints de nó personalizado
- Não é possível iniciar o Automation Hub e o Apps com configuração de proxy
- O Robot não pode se conectar a uma instância do Automation Suite Orchestrator
- O streaming de logs não funciona em configurações de proxy
- O backup do Velero falha com o erro FailedValidation
- O acesso ao FQDN retorna RBAC: erro de acesso negado
Guia de instalação do Automation Suite no EKS/AKS
- Para obter instruções gerais sobre como usar as ferramentas disponíveis para alertas, métricas e exibições, consulte Uso da pilha de monitoramento.
- Para obter mais informações sobre como corrigir problemas e criar um pacote de suporte para engenheiros de suporte da UiPath®, consulte Solução de problemas.
- Ao entrar em contato com o Suporte da UiPath®, certifique-se de incluir todos os alertas que estão sendo disparados no momento.
Chave de gravidade do alerta
A tabela a seguir descreve os níveis de severidade de alerta.
| Gravidade do alerta | Description |
|---|---|
| Informações | Inesperado, mas inofensivo. Pode ser silenciado, mas pode ser útil durante o diagnóstico. |
| Aviso | Indicação de uma degradação direcionada da funcionalidade ou uma probabilidade de degradação em um futuro próximo, que pode afetar todo o cluster. Sugere ação imediata (geralmente dentro de dias) para manter o cluster íntegro. |
| Crítica | Conhecido por causar séria degradação da funcionalidade que geralmente é difundida no cluster. Requer ação imediata (no mesmo dia) para reparar o cluster. |
Regras.Geral
TargetDown
O Prometheus não pode coletar métricas do destino no alerta, o que significa que os painéis do Grafana e outros alertas com base nas métricas desse destino não estarão disponíveis. Verifique outros alertas relativos a esse destino.
Watchdog
Este é um alerta destinado a garantir que todo o pipeline de alertas esteja funcional. Este alerta está sempre disparando. Portanto, ele deve sempre ser disparado no AlertManager e contra um receptor. Existem integrações com vários mecanismos de notificação que notificam quando esse alerta não está disparando. Por exemplo, a integração do DeadMansSnitch no PagerDuty.
kubernetes-apps
KubePodCrashLooping
Um pod que continua reiniciando inesperadamente. Isso pode acontecer devido a um erro de memória insuficiente (OOM na sigla em inglês), caso em que os limites podem ser ajustados. Verifique os eventos do pod com kubectl describe, e os logs com kubectl logs para conferir detalhes sobre possíveis falhas. Se o problema persistir, entre em contato com o Suporte da UiPath®.
KubePodNotReady
Um pod foi iniciado, mas não está respondendo à investigação de integridade com sucesso. Isso pode significar que ele está travado e não é capaz de atender ao tráfego. Você pode verificar os logs do pod com kubectl logs para conferir se há alguma indicação de progresso. Se o problema persistir, entre em contato com o Suporte da UiPath®.
KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
Houve uma tentativa de atualização para uma implantação ou statefulset, mas falhou e ainda não ocorreu uma reversão. Entre em contato com o Suporte da UiPath®.
KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
Em clusters de alta disponibilidade com várias réplicas, esse alerta é acionado quando a quantidade de réplicas não é a ideal. Isso pode ocorrer quando não há recursos suficientes no cluster para agendar. Verifique a utilização de recursos e adicione capacidade conforme necessário. Caso contrário, entre em contato com o Suporte da UiPath®.
KubeStatefulSetUpdateNotRolledOut
Uma atualização para uma statefulset falhou. Entre em contato com o Suporte da UiPath®.
Consulte também: StatefulSets.
KubeDaemonSetRolloutStuck
A implementação do Daemonset falhou. Entre em contato com o Suporte da UiPath®.
Consulte também: DaemonSet.
KubeContainerWaiting
Um contêiner está travado no estado de espera. Ele foi agendado para um nó de trabalho, mas não pode ser executado naquela máquina. Confira kubectl describe do pod para obter mais informações. A causa mais comum de contêineres em espera é uma falha no pull da imagem. Para clusters isolados, isso pode significar que o registro local não está disponível. Se o problema persistir, entre em contato com o Suporte da UiPath®.
KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
Isso pode indicar um problema com um dos nós. Verifique a integridade de cada nó e corrija os problemas conhecidos. Caso contrário, entre em contato com o Suporte da UiPath®.
KubeJobCompletion
Um trabalho leva mais de 12 horas para ser concluído. Isso não é esperado. Entre em contato com o Suporte da UiPath®.
KubeJobFailed
Um trabalho falhou; no entanto, a maioria dos trabalhos é repetida automaticamente. Se o problema persistir, entre em contato com o Suporte da UiPath®.
KubeHpaReplicasMismatch
O escalonador automático não pode escalonar o recurso em questão conforme configurado. Se o desejado for maior que o real, pode haver falta de recursos. Se o desejado for menor que o real, os pods podem estar travados durante o desligamento. Se o problema persistir, entre em contato com o Suporte da UiPath®.
Consulte também: Escalonamento horizontal automático de pod
KubeHpaMaxedOut
A quantidade de réplicas de um determinado serviço atingiu seu máximo. Isso acontece quando a quantidade de solicitações feitas ao cluster é muito alta. Se o tráfego intenso for esperado e temporário, você poderá silenciar este alerta. No entanto, esse alerta é um sinal de que o cluster está com capacidade máxima e não pode lidar com muito mais tráfego. Se mais capacidade de recursos estiver disponível no cluster, você poderá aumentar a quantidade máxima de réplicas para o serviço seguindo estas instruções:
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
Consulte também: Dimensionamento automático de pod horizontal.
kubernetes-resources
KubeCPUOvercommit, KubeMemoryOvercommit
Esses avisos indicam que o cluster não consegue tolerar falhas de nó. Para clusters de avaliação de nó único, isso é conhecido e esses alertas podem ser silenciados. Para configurações de produção prontas para alta disponibilidade de vários nós, esses alertas são acionados quando muitos nós se tornam não íntegros para dar suporte à alta disponibilidade, e indicam que os nós devem ser restaurados ou substituídos.
KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
Esses alertas pertencem a cotas de recursos de namespace que só existem no cluster se adicionados por meio de personalização. As cotas de recursos de namespace não são adicionadas como parte da instalação do Automation Suite.
Consulte também: Cotas de recursos.
CPUThrottlingHigh
A utilização da CPU de um contêiner foi limitada de acordo com os limites configurados. Isso faz parte da operação normal do Kubernetes e pode fornecer informações úteis quando outros alertas estiverem sendo acionados. Você pode silenciar este alerta.
Kubernetes-storage
KubePersistentVolumeFillingUp
When Warning: The available space is less than 30% and is likely to fill up within four days.
When Critical: The available space is less than 10%.
Para qualquer serviço que fique sem espaço, pode ser difícil recuperar os dados, portanto, os volumes devem ser redimensionados antes de atingir 0% de espaço disponível.
Para alertas específicos do Prometheus, consulte o PrometheusStorageUsage para obter mais detalhes e instruções.
kube-state-metrics
KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
O coletor de métricas de estado do Kube não consegue coletar métricas do cluster sem erros. Isso significa que alertas importantes podem não disparar. Entre em contato com o Suporte da UiPath®.
Consulte também: Métricas de estado do Kube no lançamento.
kubernetes-system-apiserver
KubeClientCertificateExpiration
Quando Aviso: um certificado de cliente usado para autenticação no servidor da API do Kubernetes expira em menos de sete dias.
Quando Crítico: um certificado de cliente usado para autenticação no servidor da API do Kubernetes expira em menos de um dia.
Você deve renovar o certificado.
AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
Indica problemas com o plano de controle do Kubernetes. Verifique a integridade dos nós principais, resolva os problemas pendentes e entre em contato com o Suporte da UiPath® se os problemas persistirem.
Consulte também:
KubernetesApiServerErrors
Este alerta indica que o servidor da API do Kubernetes está apresentando uma alta taxa de erros. Esse problema pode levar a outras falhas, portanto, é recomendável que você investigue o problema proativamente.
Verifique os logs do pod api-server para descobrir a causa raiz do problema usando o comando kubectl logs <pod-name> -n kube-system .
kubernetes-system-kubelet
KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
Esses alertas indicam um problema com um nó. Em clusters de produção prontos para alta disponibilidade de vários nós, os pods provavelmente seriam reprogramados para outros nós. Se o problema persistir, você deverá remover e drenar o nó para manter a integridade do cluster. Em clusters sem capacidade adicional, é necessário primeiro associar outro nó ao cluster.
Se os problemas persistirem, entre em contato com o Suporte da UiPath®.
KubeletTooManyPods
Há muitos pods em execução no nó especificado.
KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
Quando Warning: um certificado de cliente ou servidor para Kubelet expira em menos de sete dias.
Quando Crítico: um certificado de cliente ou servidor para Kubelet expira em menos de um dia.
Você deve renovar o certificado.
KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
O Kubelet falhou ao renovar seu certificado de cliente ou servidor. Entre em contato com o suporte da UiPath®.
kubernetes-system
KubeVersionMismatch
Existem versões semânticas diferentes de componentes do Kubernetes em execução. Isso pode acontecer como resultado de uma falha de upgrade do Kubernetes.
KubeClientErrors
O cliente do servidor da API do Kubernetes está apresentando mais de 1% de erros. Pode haver um problema com o nó em que este cliente está sendo executado ou com o próprio servidor da API do Kubernetes.
KubernetesMemoryPressure
Esse alerta indica que o uso de memória está muito alto no nó do Kubernetes.
Os nós do Kubernetes com tipo de incidente MemoryPressure ocorrem quando um nó do cluster do Kubernetes está com pouca memória, o que pode ser causado por um vazamento de memória em um aplicativo. Esse tipo de incidente requer atenção imediata para evitar tempo de inatividade e garantir o funcionamento adequado do cluster do Kubernetes.
Se esse alerta for disparado, tente identificar o pod no nó que está consumindo mais memória, seguindo estas etapas:
- Recupere as estatísticas de CPU e memória dos nós:
kubectl top nodekubectl top node - Recupere os pods em execução no nó:
kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME}kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME} - Verifique o uso de memória para pods em um namespace usando:
kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>
Se você conseguir identificar qualquer pod com alto uso de memória, verifique os logs do pod e procure erros de vazamento de memória.
Para resolver o problema, aumente a especificação de memória para os nós, se possível.
Se o problema persistir, gere opacote de suporte e entre em contato com o Suporte da UiPath®.
KubernetesDiskPressure
Esse alerta indica que o uso do disco é muito alto no nó Kubernetes.
Ao surgir esse alerta, tente ver qual pod está consumindo mais disco:
- Confirme se o nó está sob
DiskPressureusando o seguinte comando:kubectl describe node <node-name>kubectl describe node <node-name>
Identifique a condição DiskPressure na saída.
- Verifique o uso do espaço em disco no nó afetado:
df -hdf -h
Isso mostra o uso do disco em todos os sistemas de arquivos montados. Identificar onde está o alto uso.
- Se o disco estiver cheio e a limpeza for insuficiente, considere redimensionar o disco para o nó (principalmente em ambientes de nuvem, como AWS ou GCP). Esse processo pode envolver a expansão de volumes, dependendo de sua infraestrutura.
Kube-apiserver-slos
KubeAPIErrorBudgetBurn
O servidor da API do Kubernetes está usando muita reserva de erros.
node-exporter
NodeFilesystemSpaceFillingUp
O sistema de arquivos em um nó específico está sendo preenchido completamente.
Ao surgir esse alerta, considere as etapas a seguir:
- Confirme se o nó está sob
DiskPressureusando o seguinte comando:kubectl describe node <node-name>kubectl describe node <node-name>
Identifique a condição DiskPressure na saída.
- Limpe os logs e arquivos temporários. Verifique se há arquivos de log grandes em
/var/log/e limpe-os, se possível. - Verifique o uso do espaço em disco no nó afetado:
df -hdf -h
Isso mostra o uso do disco em todos os sistemas de arquivos montados. Identificar onde está o alto uso.
- Se o disco estiver cheio e a limpeza for insuficiente, considere redimensionar o disco para o nó (principalmente em ambientes de nuvem, como AWS ou GCP). Esse processo pode envolver a expansão de volumes, dependendo de sua infraestrutura.
NodeRAIDDegraded
A matriz RAID está em um estado degradado devido a uma ou mais falhas de disco. A quantidade de drives sobressalentes
é insuficiente para corrigir o problema automaticamente.
NodeRAIDDiskFailure
O array de RAID precisa de atenção e possivelmente uma troca de disco.
NodeNetworkReceiveErrs
Esses erros indicam que o driver de rede está relatando um número alto de falhas. Isso pode ser causado por falhas de hardware físico ou configuração incorreta na rede física. Esse problema pertence ao sistema operacional e não é controlado pelo aplicativo UiPath®.
O alerta é acionado monitorando o contador/proc/net/dev que o kernel do Linux fornece.
Entre em contato com seu administrador de rede e a equipe que gerencia a infraestrutura física.
NodeClockSkewDetected, NodeClockNotSynchronising
Há um problema com o relógio no nó. Certifique-se de que o NTP esteja configurado corretamente.
node-network
NodeNetworkInterfaceFlapping
Há um problema com a interface de rede física no nó. Se os problemas persistirem, pode ser necessário substituí-la.
InternodeCommunicationBroken
O nó parou de responder devido a algum problema que causou comunicação interrompida entre nós no cluster.
Se o problema persistir, entre em contato com o Suporte da UiPath® com o pacote de suporte gerado .
uipath.prometheus.resource.provisioning.alerts
PrometheusMemoryUsage, PrometheusStorageUsage
Esses alertas advertem quando o cluster está se aproximando dos limites configurados para memória e armazenamento. É provável que isso aconteça em clusters com um aumento substancial recente no uso (geralmente de robôs em vez de usuários) ou quando os nós são adicionados ao cluster sem ajustar os recursos do Prometheus. Isso se deve a um aumento na quantidade de métricas coletadas. Isso também pode ocorrer devido a um grande número de alertas que estão sendo acionados. É importante verificar por que a grande quantidade de alertas está sendo acionada.
Se esse problema persistir, entre em contato com o Suporte da UiPath® com o pacote de suporte gerado.
alertmanager.rules
AlertmanagerConfigInconsistent
Este alerta é acionado quando as instâncias Alertmanager dentro do mesmo cluster têm configurações diferentes. Isso pode indicar um problema com a implantação da configuração que não é consistente em todas as instâncias do Alertmanager.
Para corrigir o problema, siga as seguintes etapas:
- Execute uma ferramenta
diffentre todos osalertmanager.ymlimplantados para identificar o problema. - Exclua o segredo incorreto e implante o correto.
Se o problema persistir, entre em contato com o Suporte da UiPath®.
AlertmanagerFailedReload
O AlertManager falhou ao carregar ou recarregar a configuração. Verifique quaisquer configurações personalizadas do AlertManager para erros de entrada e, caso contrário, entre em contato com o Suporte da UiPath® e forneça o pacote de suporte. Para obter detalhes, consulte Uso do pacote de suporte do Automation Suite.
prometheus-operator
PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
Erros internos do operador do Prometheus, que controla os recursos do Prometheus. O próprio Prometheus ainda pode estar íntegro mesmo com esses erros presentes; no entanto, esse erro indica que há uma configuração de monitoramento degradada. Entre em contato com o Suporte da UiPath®.
Prometheus
PrometheusBadConfig
O Prometheus falhou ao carregar ou recarregar a configuração. Verifique se as configurações personalizadas do Prometheus têm erros de entrada. Caso contrário, entre em contato com o Suporte da UiPath®.
PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
A conexão do Prometheus ao AlertManager não está íntegra. As métricas ainda podem ser consultadas e os painéis do Grafana ainda podem exibi-las, mas os alertas não serão acionados. Verifique se as configurações personalizadas do AlertManager têm erros de entrada, caso contrário, entre em contato com o Suporte da UiPath®.
PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
Erros internos do Prometheus que indicam que as métricas podem não ser coletadas conforme o esperado. Entre em contato com o Suporte da UiPath®.
PrometheusRuleFailures
Isso pode acontecer se houver alertas malformados com base em métricas inexistentes ou sintaxe incorreta do PromQL. Entre em contato com o Suporte da UiPath® se nenhum alerta personalizado tiver sido adicionado.
PrometheusMissingRuleEvaluations
O Prometheus não consegue avaliar se os alertas devem ser disparados. Isso pode acontecer se houver muitos alertas. Remova as avaliações dispendiosas de alertas personalizados e/ou consulte a documentação sobre como aumentar o limite de CPU do Prometheus. Entre em contato com o Suporte da UiPath® se nenhum alerta personalizado tiver sido adicionado.
PrometheusTargetLimitHit
Há muitos alvos para o Prometheus coletar. Se ServiceMonitors extras tiverem sido adicionados (consulte Console de monitoramento), você poderá removê-los.
UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
A quantidade de respostas http 500 dos serviços da UiPath® excede um determinado limite.
A tabela a seguir lista os limites de nível de tráfego e taxas de erro.
| Nível de tráfego | Quantidade de solicitações em 20 minutos | Limite de erro (para http 500s) |
|---|---|---|
| Alta | >100.000 | 0,1% |
| Médio | Entre 10.000 e 100.000 | 1% |
| Baixa | < 10.000 | 5% |
Os erros em serviços voltados para o usuário provavelmente resultariam em funcionalidade degradada que é diretamente observável na interface do usuário do Automation Suite, já os erros em serviços de back-end teriam consequências menos óbvias.
O alerta indica qual serviço está apresentando uma alta taxa de erro. Para entender quais problemas de cascata podem haver de outros serviços dos quais o serviço de relatório depende, você pode usar o painel de carga de trabalho do Istio, que mostra os erros entre os serviços.
Verifique novamente todos os produtos do Automation Suite recentemente reconfigurados. Logs detalhados também estão disponíveis com o comando kubectl logs. Se o erro persistir, entre em contato com o Suporte da UiPath®.
uipath.cronjob.alerts.rules
CronJobSuspended
O cronjob uipath-infra/istio-configure-script-cronjob está em estado suspenso.
Para corrigir esse problema, habilite o cronjob executando as seguintes etapas:
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verif if all the IP's listed by the previous command are part of output of following command
kubectl -n <istio-system> get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verif if all the IP's listed by the previous command are part of output of following command
kubectl -n <istio-system> get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
UiPath CronJob "kerberos-tgt-refresh" falhou
Este trabalho obtém o tíquete do Kerberos mais recente do AD Server para autenticação integrada ao SQL. Falhas neste trabalho fariam com que a autenticação do SQL Server falhasse. Entre em contato com o Suporte da UiPath®.
IdentityKerberosTgtUpdateFailed
Este trabalho atualiza o tíquete do Kerberos mais recente para todos os serviços da UiPath®. Falhas neste trabalho fariam com que a autenticação do SQL Server falhasse. Entre em contato com o Suporte da UiPath®.
uipath.requestrouting.alerts
UiPathRequestRouting
Erros na camada de roteamento de solicitação resultariam em funcionalidade degradada que é diretamente observável na interface do usuário do Automation Suite. As solicitações não serão roteadas para serviços de back-end.
Você pode encontrar o log de erro detalhado do roteamento de solicitações em pods istio-ingressgateway no namespace istio-system. Recupere o nome do pod executando os seguintes comandos:
kubectl get pods -n istio-system
kubectl logs <istio-ingressgateway-pod-name> -n istio-system
kubectl get pods -n istio-system
kubectl logs <istio-ingressgateway-pod-name> -n istio-system
Se o erro persistir, entre em contato com o Suporte da UiPath®.
Alertas de certificado TLS do servidor
SecretCertificateExpiry30Days
Esse alerta indica que o certificado do servidor TLS expirará nos 30 dias seguintes.
Para corrigir esse problema, atualize o certificado TLS do servidor. Para obter instruções, consulte Gerenciamento de certificados do servidor.
SecretCertificateExpiry7Days
Esse alerta indica que o certificado do servidor TLS expirará nos 7 dias seguintes.
Para corrigir esse problema, atualize o certificado TLS. Para obter instruções, consulte Gerenciamento de certificados do servidor.
Alertas de certificado de assinatura de token de identidade
IdentityCertificateExpiry30Days
Este alerta indica que o certificado de assinatura do token de identidade expirará nos próximos 30 dias.
Para corrigir esse problema, atualize o certificado de assinatura do token de identidade. Para obter instruções, consulte Gerenciamento de certificados do servidor.
IdentityCertificateExpiry7Days
Esse alerta indica que o certificado de assinatura do token de identidade expirará nos 7 dias seguintes.
Para corrigir esse problema, atualize o certificado de assinatura do token de identidade. Para obter instruções, consulte Gerenciamento de certificados do servidor.
Alertas etdc
EtcdInsufficientMembers
Este alerta indica que o cluster etcd possui um número insuficiente de membros. Observe que o cluster deve ter um número ímpar de membros. A gravidade desse alerta é crítica.
Certifique-se de que haja um número ímpar de nós de servidor no cluster e que todos estejam ativos e íntegros.
EtcdNoLeader
Este alerta mostra que o cluster etcd não tem líder. A gravidade desse alerta é crítica.
EtcdHighNumberOfLeaderChanges
Este alerta indica que o líder do etcd muda mais de duas vezes em 10 minutos. Este é um aviso.
EtcdHighNumberOfFailedGrpcRequests
Este alerta indica que uma determinada porcentagem de falhas de solicitação GRPC foi detectada no etcd.
EtcdGrpcRequestsSlow
Este alerta indica que as solicitações etcd GRPC estão lentas. Este é um aviso.
Se esse alerta persistir, entre em contato com o Suporte da UiPath®.
EtcdHighNumberOfFailedHttpRequests
Esse alerta indica que uma determinada porcentagem de falhas HTTP foi detectada no etcd.
EtcdHttpRequestsSlow
Este alerta indica que as solicitações HTTP estão ficando lentas. Este é um aviso.
EtcdMemberCommunicationSlow
Este alerta indica que a comunicação do membro do etcd está diminuindo. Este é um aviso.
EtcdHighNumberOfFailedProposals
Este alerta indica que o servidor etcd recebeu mais de 5 propostas com falha na última hora. Este é um aviso.
EtcdHighFsyncDurations
Este alerta indica que a duração do fsync do etcd WAL está aumentando. Este é um aviso.
EtcdHighCommitDurations
Esse alerta indica que a duração de confirmação do etcd está aumentando. Esse é um warning.
Alertas de tamanho de disco
LowDiskForRancherPartition
Este alerta indica que o espaço livre para a partição /var/lib/rancher é menor que:
- 35% - a gravidade do alerta é warning
- 25% - a gravidade do alerta é crítica
Se esse alerta disparar, aumente o tamanho do disco.
LowDiskForKubeletPartition
Este alerta indica que o espaço livre para a partição /var/lib/kubelet é menor que:
- 35% - a gravidade do alerta é warning
- 25% - a gravidade do alerta é crítica Se esse alerta for acionado, aumente o tamanho do disco.
LowDiskForVarPartition
Este alerta indica que o espaço livre para a partição /var é menor que:
- 35% - a gravidade do alerta é warning
- 25% - a gravidade do alerta é crítica
Os requisitos de armazenamento para habilidades de ML podem aumentar substancialmente o uso do disco.
Se esse alerta disparar, aumente o tamanho do disco.
Alertas de backup
NFSServerDisconnected
Este alerta indica que a conexão do servidor NFS foi perdida.
Você precisa verificar a conexão do servidor NFS e o caminho de montagem.
VolumeBackupFailed
Este alerta indica que o backup falhou para um PVC.
Para solucionar esse problema, siga as seguintes etapas:
-
Verifique o status do PVC para garantir que seja
Boundem relação a um Volume Persistente (PV).kubectl get pvc --namespace <namespace>kubectl get pvc --namespace <namespace>O comando lista todos os PVCs e seus status atuais. O PVC deve ter um status de
Boundpara indicar que reivindicou um PV com sucesso.Se o status for
Pending, significa que o PVC ainda está aguardando um PV adequado, e é necessária uma investigação mais aprofundada. -
Se o PVC não estiver em um estado
Boundou se você precisar de informações mais detalhadas, use o comandodescribe:kubectl describe pvc <pvc-name> --namespace <namespace>kubectl describe pvc <pvc-name> --namespace <namespace>Procure informações sobre o status, eventos e quaisquer mensagens de erro. Por exemplo, um problema pode estar relacionado a configurações incorretas de classes de armazenamento ou limitações de cota.
-
Verifique a integridade do Volume Persistente (PV) que está vinculado ao PVC:
kubectl get pv <pv-name>kubectl get pv <pv-name>O status deve ser
Bound. Se o PV estiver em um estadoReleasedouFailed, isso pode indicar problemas com o armazenamento subjacente. -
Se o PVC for usado por um pod, verifique se o pod montou o volume com sucesso:
kubectl get pod <pod-name> --namespace <namespace>kubectl get pod <pod-name> --namespace <namespace>Se o pod estiver em um estado
Running, isso indica que o PVC foi montado com sucesso. Se o pod estiver em um estado de erro (comoInitBackOff), isso pode indicar problemas na montagem do volume. -
Se houver problemas com a montagem do PVC, descreva o pod para verificar se há erros de montagem:
kubectl describe pod <pod-name> --namespace <namespace>kubectl describe pod <pod-name> --namespace <namespace>
BackupDesabilitado
Este alerta indica que o backup está desabilitado.
Você precisa habilitar o backup.
- Chave de gravidade do alerta
- Regras.Geral
- TargetDown
- Watchdog
- kubernetes-apps
- KubePodCrashLooping
- KubePodNotReady
- KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
- KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
- KubeStatefulSetUpdateNotRolledOut
- KubeDaemonSetRolloutStuck
- KubeContainerWaiting
- KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
- KubeJobCompletion
- KubeJobFailed
- KubeHpaReplicasMismatch
- KubeHpaMaxedOut
- kubernetes-resources
- KubeCPUOvercommit, KubeMemoryOvercommit
- KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
- CPUThrottlingHigh
- Kubernetes-storage
- KubePersistentVolumeFillingUp
- kube-state-metrics
- KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
- kubernetes-system-apiserver
- KubeClientCertificateExpiration
- AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
- KubernetesApiServerErrors
- kubernetes-system-kubelet
- KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
- KubeletTooManyPods
- KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
- KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
- kubernetes-system
- KubeVersionMismatch
- KubeClientErrors
- KubernetesMemoryPressure
- KubernetesDiskPressure
- Kube-apiserver-slos
- KubeAPIErrorBudgetBurn
- node-exporter
- NodeFilesystemSpaceFillingUp
- NodeRAIDDegraded
- NodeRAIDDiskFailure
- NodeNetworkReceiveErrs
- NodeClockSkewDetected, NodeClockNotSynchronising
- node-network
- NodeNetworkInterfaceFlapping
- InternodeCommunicationBroken
- uipath.prometheus.resource.provisioning.alerts
- PrometheusMemoryUsage, PrometheusStorageUsage
- alertmanager.rules
- AlertmanagerConfigInconsistent
- AlertmanagerFailedReload
- prometheus-operator
- PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
- Prometheus
- PrometheusBadConfig
- PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
- PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
- PrometheusRuleFailures
- PrometheusMissingRuleEvaluations
- PrometheusTargetLimitHit
- UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
- uipath.cronjob.alerts.rules
- CronJobSuspended
- UiPath CronJob "kerberos-tgt-refresh" falhou
- IdentityKerberosTgtUpdateFailed
- uipath.requestrouting.alerts
- UiPathRequestRouting
- Alertas de certificado TLS do servidor
- SecretCertificateExpiry30Days
- SecretCertificateExpiry7Days
- Alertas de certificado de assinatura de token de identidade
- IdentityCertificateExpiry30Days
- IdentityCertificateExpiry7Days
- Alertas etdc
- EtcdInsufficientMembers
- EtcdNoLeader
- EtcdHighNumberOfLeaderChanges
- EtcdHighNumberOfFailedGrpcRequests
- EtcdGrpcRequestsSlow
- EtcdHighNumberOfFailedHttpRequests
- EtcdHttpRequestsSlow
- EtcdMemberCommunicationSlow
- EtcdHighNumberOfFailedProposals
- EtcdHighFsyncDurations
- EtcdHighCommitDurations
- Alertas de tamanho de disco
- LowDiskForRancherPartition
- LowDiskForKubeletPartition
- LowDiskForVarPartition
- Alertas de backup
- NFSServerDisconnected
- VolumeBackupFailed
- BackupDisabled