- Visão geral
- Requisitos
- Instalação
- Q&A: Deployment templates
- Configuração das máquinas
- Configurando o objectstore externo
- Configuração do balanceador de carga
- Configuração do DNS
- Como configurar o Microsoft SQL Server
- Configuração dos certificados
- Instalação online de produção pronta para alta disponibilidade de vários nós
- Instalação offline de produção pronta para alta disponibilidade de vários nós
- Baixando os pacotes de instalação
- Parâmetros do install-uipath.sh
- Como habilitar o High Availability Add-on do Redis para o cluster
- Arquivo de configuração do Document Understanding
- Adicionando um nó de agente dedicado com suporte a GPU
- Conexão do aplicativo Task Mining
- Adição de um nó de agente dedicado ao Task Mining
- Adicionando um nó de agente dedicado para robôs do Automation Suite
- Pós-instalação
- Administração de cluster
- Monitoramento e alertas
- Uso da pilha de monitoramento
- Runbooks de alertas
- Migração e atualização
- Opções de migração
- Etapa 1: mover os dados da organização do Identity, de independente para o Automation Suite
- Etapa 2: restauração do banco de dados de produtos independente
- Etapa 3: backup do banco de dados da plataforma no Automation Suite
- Etapa 4: mesclando organizações no Automation Suite
- Etapa 5: atualização das strings de conexão do produto migradas
- Etapa 6: migração do Insights independente
- Etapa 7: exclusão do tenant padrão
- B) Migração de um único tenant
- Configuração específica do produto
- Melhores práticas e manutenção
- Solução de problemas
- Como solucionar problemas dos serviços durante a instalação
- Como desinstalar o cluster
- Como limpar os artefatos offline para melhorar o espaço em disco
- Como limpar os dados do Redis
- Como habilitar o registro em log do Istio
- Como limpar logs manualmente
- Como limpar logs antigos armazenados no bucket do sf-logs
- Como desabilitar os logs de streaming para o AI Center
- Como depurar instalações do Automation Suite com falha
- Como excluir imagens do instalador antigo após a atualização
- Como limpar automaticamente instantâneos do Longhorn
- Como desabilitar o descarregamento de soma de verificação do TX
- Como lidar com cifras fracas no TLS 1.2
- Não é possível executar uma instalação offline no SO RHEL 8.4
- Erro ao baixar o pacote
- A instalação offline falha devido a um binário ausente
- Problema de certificado na instalação offline
- First installation fails during Longhorn setup
- Erro de validação da string de conexão ao SQL
- Verificação de pré-requisito para o módulo iscsid do selinux falha
- Azure disk not marked as SSD
- Falha após a atualização do certificado
- Antivírus causa problemas de instalação
- Automation Suite not working after OS upgrade
- O Automation Suite requer que backlog_wait_time seja definido como 0
- Não é possível montar o volume devido a não estar pronto para cargas de trabalho
- Não é possível iniciar o Automation Hub e o Apps com configuração de proxy
- Falha ao carregar ou baixar dados no objectstore
- PVC resize does not heal Ceph
- Falha no redimensionamento do PVC
- Falha no redimensionamento do PVC do Objectstore
- Pod do Rook Ceph ou Looker travado no estado Init
- Erro de anexo de volume StatefulSet
- Falha ao criar volumes persistentes
- Patch de reclamação de armazenamento
- Falha de backup devido ao erro TooManySnapshots
- Todas as réplicas do Longhorn estão com falha
- Configurando um intervalo de tempo limite para os portais de gerenciamento
- Atualizar as conexões de diretório subjacentes
- Autenticação não funciona após migração
- kinit: não é possível encontrar o KDC para o realm <AD Domain> ao obter credenciais iniciais
- kinit: o Keytab não contém chaves adequadas para *** ao obter credenciais iniciais
- Falha na operação GSSAPI devido a código de status inválido
- Alarme recebido para trabalho com falha do Kerberos-tgt-update
- Provedor de SSPI: servidor não encontrado no banco de dados Kerberos
- Falha de login para usuário do AD devido a conta desabilitada
- ArgoCD login failed
- Falha ao obter a imagem do sandbox
- Os pods não são exibidos na UI do ArgoCD
- Falha de teste do Redis
- O servidor RKE2 falha ao iniciar
- Segredo não encontrado no namespace da UiPath
- O ArgoCD entra em estado Em andamento após a primeira instalação
- Inconsistência inesperada; execute o fsck manualmente
- Pods de MongoDB em CrashLoopBackOff ou provisionamento de PVC pendente após exclusão
- Pod do MongoDB falha ao atualizar de 4.4.4-ent para 5.0.7-ent
- Unhealthy services after cluster restore or rollback
- Pods presos em Init:0/X
- Prometheus no estado CrashloopBackoff com erro de falta de memória (OOM)
- Métricas Ceph-rook ausentes nos painéis de monitoramento
- Os pods não podem se comunicar com o FQDN em um ambiente de proxy
- O Document Understanding não está no menu de navegação esquerdo do Automation Suite
- Status de Falha ao criar uma sessão de rotulagem de dados
- Status de Falha ao tentar implantar uma habilidade de ML
- Trabalho de migração falha no ArgoCD
- Reconhecimento de escrita com o Extrator de formulários inteligente não está funcionando
- Usando a ferramenta de diagnóstico do Automation Suite
- Usando o pacote de suporte do Automation Suite
- Exploração de logs
Guia de instalação do Automation Suite
Runbooks de alertas
- Para obter instruções gerais sobre como usar as ferramentas disponíveis para alertas, métricas e exibições, consulte Uso da pilha de monitoramento.
- Para obter mais informações sobre como corrigir problemas e criar um pacote de suporte para engenheiros de suporte da UiPath®, consulte Solução de problemas.
- Ao entrar em contato com o Suporte da UiPath®, inclua todos os alertas que estão sendo disparados no momento.
Gravidade do alerta |
Description |
---|---|
Informações | Inesperado, mas inofensivo. Pode ser silenciado, mas pode ser útil durante o diagnóstico. |
Aviso | Indicação de uma degradação direcionada da funcionalidade ou uma probabilidade de degradação em um futuro próximo, que pode afetar todo o cluster. Sugere ação imediata (geralmente dentro de dias) para manter o cluster íntegro. |
Crítica | Conhecido por causar séria degradação da funcionalidade que geralmente é difundida no cluster. Requer ação imediata (no mesmo dia) para reparar o cluster. |
O Prometheus não pode coletar métricas do destino no alerta, o que significa que os painéis do Grafana e outros alertas com base nas métricas desse destino não estarão disponíveis. Verifique outros alertas relativos a esse destino.
Este é um alerta destinado a garantir que todo o pipeline de alertas esteja funcional. Este alerta está sempre disparando. Portanto, ele deve sempre ser disparado no AlertManager e contra um receptor. Existem integrações com vários mecanismos de notificação que notificam quando esse alerta não está disparando. Por exemplo, a integração do DeadMansSnitch no PagerDuty.
kubectl describe
, e os logs com kubectl logs
para conferir detalhes sobre possíveis falhas. Se o problema persistir, entre em contato com o Suporte da UiPath®.
kubectl logs
para conferir se há alguma indicação de progresso. Se o problema persistir, entre em contato com o Suporte da UiPath®.
Houve uma tentativa de atualização para uma implantação ou statefulset, mas falhou e ainda não ocorreu uma reversão. Entre em contato com o Suporte da UiPath®.
Em clusters de alta disponibilidade com várias réplicas, esse alerta é acionado quando a quantidade de réplicas não é a ideal. Isso pode ocorrer quando não há recursos suficientes no cluster para agendar. Verifique a utilização de recursos e adicione capacidade conforme necessário. Caso contrário, entre em contato com o Suporte da UiPath®.
Uma atualização para uma statefulset falhou. Entre em contato com o Suporte da UiPath®.
Consulte também: StatefulSets.
A implementação do Daemonset falhou. Entre em contato com o Suporte da UiPath®.
Consulte também: DaemonSet.
kubectl describe
do pod para obter mais informações. A causa mais comum de contêineres em espera é uma falha no pull da imagem. Para clusters isolados, isso pode significar que o registro local não está disponível. Se o problema persistir, entre em contato com o Suporte da UiPath®.
Isso pode indicar um problema com um dos nós. Verifique a integridade de cada nó e corrija os problemas conhecidos. Caso contrário, entre em contato com o Suporte da UiPath®.
Um trabalho leva mais de 12 horas para ser concluído. Isso não é esperado. Entre em contato com o Suporte da UiPath®.
Um trabalho falhou; no entanto, a maioria dos trabalhos é repetida automaticamente. Se o problema persistir, entre em contato com o Suporte da UiPath®.
O escalonador automático não pode escalonar o recurso em questão conforme configurado. Se o desejado for maior que o real, pode haver falta de recursos. Se o desejado for menor que o real, os pods podem estar travados durante o desligamento. Se o problema persistir, entre em contato com o Suporte da UiPath®.
Consulte também: Dimensionamento automático de pod horizontal
A quantidade de réplicas de um determinado serviço atingiu seu máximo. Isso acontece quando a quantidade de solicitações feitas ao cluster é muito alta. Se o tráfego intenso for esperado e temporário, você poderá silenciar este alerta. No entanto, esse alerta é um sinal de que o cluster está com capacidade máxima e não pode lidar com muito mais tráfego. Se mais capacidade de recursos estiver disponível no cluster, você poderá aumentar a quantidade máxima de réplicas para o serviço seguindo estas instruções:
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
Consulte também: Dimensionamento automático de pod horizontal.
Esses avisos indicam que o cluster não consegue tolerar falhas de nó. Para clusters de avaliação de nó único, isso é conhecido e esses alertas podem ser silenciados. Para configurações de produção prontas para alta disponibilidade de vários nós, esses alertas são acionados quando muitos nós se tornam não íntegros para dar suporte à alta disponibilidade, e indicam que os nós devem ser restaurados ou substituídos.
KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
Esses alertas pertencem a cotas de recursos de namespace que só existem no cluster se adicionados por meio de personalização. As cotas de recursos de namespace não são adicionadas como parte da instalação do Automation Suite.
Consulte também: Cotas de recursos.
Aviso: o espaço disponível é inferior a 15% e provavelmente será preenchido em quatro dias.
Quando Crítico: o espaço disponível é inferior a 10%.
Para qualquer serviço que fique sem espaço, pode ser difícil recuperar os dados, portanto, os volumes devem ser redimensionados antes de atingir 0% de espaço disponível.
Para obter instruções, consulte Configuração do cluster.
Para alertas específicos do Prometheus, consulte PrometheusStorageUsage para obter mais detalhes e instruções.
O coletor de métricas de estado do Kube não consegue coletar métricas do cluster sem erros. Isso significa que alertas importantes podem não disparar. Entre em contato com o Suporte da UiPath®.
Consulte também: Métricas de estado do Kube no lançamento.
Quando Aviso: um certificado de cliente usado para autenticação no servidor da API do Kubernetes expira em menos de sete dias.
Quando Crítico: um certificado de cliente usado para autenticação no servidor da API do Kubernetes expira em menos de um dia.
Você deve renovar o certificado.
Indica problemas com o plano de controle do Kubernetes. Verifique a integridade dos nós principais, resolva os problemas pendentes e entre em contato com o Suporte da UiPath® se os problemas persistirem.
Consulte também:
Este alerta indica que o servidor da API do Kubernetes está apresentando uma alta taxa de erros. Esse problema pode levar a outras falhas, portanto, é recomendável que você investigue o problema proativamente.
api-server
para descobrir a causa raiz do problema usando o comando kubectl logs <pod-name> -n kube-system
.
KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
Esses alertas indicam um problema com um nó. Em clusters de produção prontos para alta disponibilidade de vários nós, os pods provavelmente seriam reprogramados para outros nós. Se o problema persistir, você deverá remover e drenar o nó para manter a integridade do cluster. Em clusters sem capacidade extra, primeiro outro nó deve ser associado ao cluster.
Há muitos pods em execução no nó especificado.
Unir outro nó ao cluster.
Quando Warning: um certificado de cliente ou servidor para Kubelet expira em menos de sete dias.
Quando Crítico: um certificado de cliente ou servidor para Kubelet expira em menos de um dia.
Você deve renovar o certificado.
Existem versões semânticas diferentes de componentes do Kubernetes em execução. Isso pode acontecer como resultado de uma falha de upgrade do Kubernetes.
O cliente do servidor da API do Kubernetes está apresentando mais de 1% de erros. Pode haver um problema com o nó em que este cliente está sendo executado ou com o próprio servidor da API do Kubernetes.
Esse alerta indica que o uso de memória está muito alto no nó do Kubernetes.
Se esse alerta disparar, tente ver qual pod está consumindo mais memória.
O sistema de arquivos em um nó específico está sendo preenchido completamente. Provisione mais espaço adicionando um disco ou montando discos não utilizados.
A matriz RAID está em um estado degradado devido a uma ou mais falhas de disco. A quantidade de drives sobressalentes
é insuficiente para corrigir o problema automaticamente.
Há um problema com a interface de rede física no nó. Se os problemas persistirem, pode ser necessário substituí-la.
O nó parou de responder devido a algum problema que causou comunicação interrompida entre nós no cluster.
Para corrigir esse problema, reinicie o nó afetado. Se o problema persistir, entre em contato com o Suporte da UiPath® com a Ferramenta de Pacote de Suporte.
Esses alertas advertem quando o cluster está se aproximando dos limites configurados para memória e armazenamento. É provável que isso aconteça em clusters com um aumento substancial recente no uso (geralmente de robôs em vez de usuários) ou quando os nós são adicionados ao cluster sem ajustar os recursos do Prometheus. Isso se deve a um aumento na quantidade de métricas coletadas.
A taxa de maior utilização do armazenamento pode ser exibida no painel Kubernetes / Volumes persistentes:
Você pode ajustá-lo redimensionando o PVC conforme estas instruções: Configuração do cluster.
A taxa de utilização de memória aumentada pode ser exibida no painel Kubernetes / Recursos do computador / Pod.
Você pode ajustá-la alterando os limites de recursos de memória do Prometheus no aplicativo de monitoramento da Rancher do ArgoCD. O aplicativo de monitoramento da Rancher ressincroniza automaticamente depois de clicar em Salvar.
Observe que o Prometheus leva um tempo para reiniciar e começar a mostrar as métricas no Grafana novamente. geralmente leva menos de 10 minutos, mesmo com clusters grandes.
Esses são erros internos do AlertManager para clusters de alta disponibilidade com várias réplicas do AlertManager. Os alertas podem aparecer e desaparecer intermitentemente. Reduzir temporariamente e, em seguida, aumentar as réplicas do AlertManager pode corrigir o problema.
Para corrigir o problema, siga as seguintes etapas:
-
Dimensionar para zero. Observe que leva um momento para que os pods sejam desligados:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0 -
Dimensionar novamente para dois:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2 -
Verifique se os pods do AlertManager foram iniciados e se estão no estado de execução:
kubectl get po -n cattle-monitoring-system
kubectl get po -n cattle-monitoring-system
Se o problema persistir, entre em contato com o Suporte da UiPath®.
PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
Erros internos do operador do Prometheus, que controla os recursos do Prometheus. O próprio Prometheus ainda pode estar íntegro mesmo com esses erros presentes; no entanto, esse erro indica que há uma configuração de monitoramento degradada. Entre em contato com o Suporte da UiPath®.
O Prometheus falhou ao carregar ou recarregar a configuração. Verifique se as configurações personalizadas do Prometheus têm erros de entrada. Caso contrário, entre em contato com o Suporte da UiPath®.
PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
A conexão do Prometheus ao AlertManager não está íntegra. As métricas ainda podem ser consultadas e os painéis do Grafana ainda podem exibi-las, mas os alertas não serão acionados. Verifique se as configurações personalizadas do AlertManager têm erros de entrada, caso contrário, entre em contato com o Suporte da UiPath®.
PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
Erros internos do Prometheus que indicam que as métricas podem não ser coletadas conforme o esperado. Entre em contato com o Suporte da UiPath®.
Isso pode acontecer se houver alertas malformados com base em métricas inexistentes ou sintaxe incorreta do PromQL. Entre em contato com o Suporte da UiPath® se nenhum alerta personalizado tiver sido adicionado.
O Prometheus não consegue avaliar se os alertas devem ser disparados. Isso pode acontecer se houver muitos alertas. Remova as avaliações dispendiosas de alertas personalizados e/ou consulte a documentação sobre como aumentar o limite de CPU do Prometheus. Entre em contato com o Suporte da UiPath® se nenhum alerta personalizado tiver sido adicionado.
UiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
A quantidade de respostas http 500 dos serviços da UiPath® excede um determinado limite.
Nível de tráfego |
Quantidade de solicitações em 20 minutos |
Limite de erro (para http 500s) |
---|---|---|
Alta |
>100.000 |
0,1% |
Médio |
Entre 10.000 e 100.000 |
1% |
Baixa |
< 10.000 |
5% |
Os erros em serviços voltados para o usuário provavelmente resultariam em funcionalidade degradada que é diretamente observável na interface do usuário do Automation Suite, já os erros em serviços de back-end teriam consequências menos óbvias.
O alerta indica qual serviço está apresentando uma alta taxa de erro. Para entender quais problemas de cascata podem haver de outros serviços dos quais o serviço de relatório depende, você pode usar o painel de carga de trabalho do Istio, que mostra os erros entre os serviços.
Verifique novamente todos os produtos do Automation Suite recentemente reconfigurados. Logs detalhados também estão disponíveis com o comando kubectl logs. Se o erro persistir, entre em contato com o Suporte da UiPath®.
uipath-infra/istio-configure-script-cronjob
está em estado suspenso.
Para corrigir esse problema, habilite o cronjob executando as seguintes etapas:
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
Este trabalho obtém o tíquete do Kerberos mais recente do AD Server para autenticação integrada ao SQL. Falhas neste trabalho fariam com que a autenticação do SQL Server falhasse. Entre em contato com o Suporte da UiPath®.
Esse alerta indica que a utilização do cluster de armazenamento Ceph ultrapassou 75% e se tornará somente leitura em 85%.
Ao surgir esse alerta, libere um pouco de espaço no CEPH, excluindo alguns conjuntos de dados não utilizados no AI Center ou no Task Mining, ou ainda expanda o armazenamento disponível para o Ceph PVC seguindo as instruções em Redimensionamento de PVC.
Antes de redimensionar o PVC, certifique-se de atender aos requisitos de armazenamento. Para obter detalhes, consulte Avaliando suas necessidades de armazenamento.
Esse alerta indica que a utilização do cluster de armazenamento Ceph superou 80% e se tornará somente leitura aos 85%.
Ao surgir esse alerta, libere um pouco de espaço no CEPH, excluindo alguns conjuntos de dados não utilizados no AI Center ou no Task Mining, ou ainda expanda o armazenamento disponível para o Ceph PVC seguindo as instruções em Redimensionamento de PVC.
Antes de redimensionar o PVC, certifique-se de atender aos requisitos de armazenamento. Para obter detalhes, consulte Avaliando suas necessidades de armazenamento.
Esse alerta indica que a utilização do cluster de armazenamento do Ceph ultrapassou 85% e se tornará somente leitura agora. Libere algum espaço ou expanda o cluster de armazenamento imediatamente.
Ao surgir esse alerta, libere um pouco de espaço no CEPH, excluindo alguns conjuntos de dados não utilizados no AI Center ou no Task Mining, ou ainda expanda o armazenamento disponível para o Ceph PVC seguindo as instruções em Redimensionamento de PVC.
Antes de redimensionar o PVC, certifique-se de atender aos requisitos de armazenamento. Para obter detalhes, consulte Avaliando suas necessidades de armazenamento.
Esse alerta indica que o uso do pool de armazenamento do Ceph ultrapassou 90%.
Ao surgir esse alerta, libere um pouco de espaço no CEPH, excluindo alguns conjuntos de dados não utilizados no AI Center ou no Task Mining, ou ainda expanda o armazenamento disponível para o Ceph PVC seguindo as instruções em Redimensionamento de PVC.
Antes de redimensionar o PVC, certifique-se de atender aos requisitos de armazenamento. Para obter detalhes, consulte Avaliando suas necessidades de armazenamento.
Este alerta indica que o cluster de armazenamento Ceph está em estado de erro por mais de 10m.
rook-ceph-mgr
esteve em estado de erro por um período de tempo inaceitável. Verifique se há outros alertas que possam ter sido acionados antes deste e solucione-os primeiro.
Esse alerta indica que o quorum do cluster de armazenamento está baixo.
Múltiplos mons trabalham juntos para fornecer redundância; isso é possível porque cada um mantém uma cópia dos metadados. O cluster é implantado com 3 mons e requer 2 ou mais mons para estar em funcionamento para quorum e para que as operações de armazenamento sejam executadas. Se o quorum for perdido, o acesso aos dados estará em risco.
Se esse alerta for disparado, verifique se algum OSD está no estado de término, se houver algum, force a exclusão desses pods e aguarde algum tempo até que o operador se reconcilie. Se o problema persistir, entre em contato com o Suporte da UiPath®.
Quando a gravidade do alerta é Critical, o espaço disponível é inferior a 20%.
Para qualquer serviço que fique sem espaço, pode ser difícil recuperar os dados, portanto, você deve redimensionar os volumes antes de atingir 10% de espaço disponível. Consulte as seguintes instruções: Configuração do cluster.
Erros na camada de roteamento de solicitação resultariam em funcionalidade degradada que é diretamente observável na interface do usuário do Automation Suite. As solicitações não serão roteadas para serviços de back-end.
kubectl logs
no pod do gateway do Istio ingress. Se o erro persistir, entre em contato com o Suporte da UiPath®.
Este alerta indica que menos de 3 nós estão em execução no cluster RabbitMQ.
kubectl logs <pod-name> -n <namespace>
Para corrigir o problema, exclua o pod usando o comando kubectl delete pod <pod-name> -n <namespace>
e verifique novamente quando o novo pod aparecer.
Este alerta é acionado se o certificado TLS do MongoDB não alternar automaticamente no período de 19 dias. A gravidade desse alerta é crítica.
Para rotacionar o certificado, siga as instruções em Renovação de Certificado do MongoDB.
Este alerta é acionado quando o MongoDB está inativo. A gravidade desse alerta é crítica.
Se este alerta for disparado, siga os seguintes passos:
- Verifique os logs usando o seguinte comando:
kubectl logs <pod-name> -n mongodb
; - Use a Ferramenta de Diagnóstico;
- Entre em contato com o suporte da UiPath.
O membro do conjunto de replicação do MongoDB, visto de outro membro do conjunto, está inacessível. Se o alerta for acionado, provavelmente o nó está inativo. A gravidade desse alerta é crítica.
Se este alerta for disparado, siga os seguintes passos:
- Verifique se o nó está inativo;
- Se o nó estiver inativo, reinicie-o e encontre a causa raiz;
- Se o problema persistir, entre em contato com o Suporte da UiPath.
O status do membro do conjunto de replicação do MongoDB, visto de outro membro do conjunto, ainda não é conhecido. Se este alerta for acionado, uma ou mais réplicas não estão em estado de execução. A gravidade desse alerta é crítica.
Se este alerta for disparado, siga os seguintes passos:
- Verifique os logs executando o seguinte comando:
kubectl logs <pod-name> -n mongodb
; - Para ver os detalhes sobre o status da réplica, execute o seguinte comando para descrever o pod:
kubectl describe <pod-name> -n mongodb
; - Se o problema persistir, entre em contato com o Suporte da UiPath.
Este alerta indica que o atraso de replicação do MongoDB é superior a 10 segundos. A gravidade desse alerta é crítica.
Se este alerta for disparado, siga os seguintes passos:
- Verifique os logs executando o seguinte comando:
kubectl logs <pod-name> -n mongodb
; - Para detalhes sobre o status de réplica, execute o seguinte comando para descrição do pod:
kubectl describe <pod-name> -n mongodb
- Se o problema persistir, entre em contato com o Suporte da UiPath.
Este alerta indica que o número de conexões atingiu o máximo. Se isso for esperado e temporário, você pode silenciar o alerta. No entanto, o alerta é um sinal de que a conexão do Mongo está no limite e não pode lidar com mais. Este alerta é um aviso.
Se este alerta for disparado, siga os seguintes passos:
-
Para consultar o número de conexões no nó, execute o seguinte comando:
db.serverStatus().connections
current
indica conexões existentesavailable
indica o número de conexões disponíveis;
- Se o problema persistir, entre em contato com o Suporte da UiPath.
Este alerta indica uma alta latência na instância. Isso pode significar que o tráfego aumentou em um nó. Pode ser porque uma réplica não está íntegra ou o tráfego está sobrecarregado em uma réplica. Se isso for esperado e temporário, você pode silenciar este alerta. No entanto, esse alerta é um sinal de que a instância está no limite e não pode lidar com mais. A gravidade desse alerta é crítica.
Se este alerta for disparado, siga os seguintes passos:
- Verifique os logs e saúde das instâncias;
- Se o problema persistir, entre em contato com o Suporte da UiPath.
O membro do conjunto de replicação do MongoDB executa autoverificações de inicialização ou transições de concluir uma reversão ou ressincronização. A gravidade desse alerta é crítica.
Se este alerta for disparado, siga os seguintes passos:
- Verifique o status da réplica executando o seguinte comando:
rs.status()
. - Verifique os logs usando
kubectl logs <pod-name> -n mongodb
- Se o problema persistir, entre em contato com o Suporte da UiPath.
O membro do conjunto de replicação do MongoDB está executando ativamente uma reversão. Os dados não estão disponíveis para leituras. A gravidade desse alerta é crítica.
Se este alerta for disparado, siga os seguintes passos:
- Verifique o status da réplica executando o seguinte comando:
rs.status()
; - Verifique os logs executando o seguinte comando:
kubectl logs <pod-name> -n mongodb
; - Se o problema persistir, entre em contato com o Suporte da UiPath.
O membro do conjunto de replicação do MongoDB já esteve em um conjunto de réplicas, mas foi posteriormente removido. A gravidade desse alerta é crítica.
Se este alerta for disparado, siga os seguintes passos:
- Verifique o status da réplica executando o seguinte comando:
rs.status()
; - Verifique os logs executando o seguinte comando:
kubectl logs <pod-name> -n mongodb
; - Se o problema persistir, entre em contato com o Suporte da UiPath.
Esse alerta indica que o certificado do servidor TLS expirará nos 30 dias seguintes.
Para corrigir esse problema, atualize o certificado TLS do servidor. Para instruções, consulte Como gerenciar certificados.
Esse alerta indica que o certificado do servidor TLS expirará nos 7 dias seguintes.
Para corrigir esse problema, atualize o certificado TLS. Para instruções, consulte Como gerenciar certificados.
Este alerta indica que o certificado de assinatura do token de identidade expirará nos próximos 30 dias.
Para corrigir esse problema, atualize o certificado de assinatura do token de identidade. Para instruções, consulte Como gerenciar certificados.
Esse alerta indica que o certificado de assinatura do token de identidade expirará nos 7 dias seguintes.
Para corrigir esse problema, atualize o certificado de assinatura do token de identidade. Para instruções, consulte Como gerenciar certificados.
Este alerta indica que o cluster etcd possui um número insuficiente de membros. Observe que o cluster deve ter um número ímpar de membros. A gravidade desse alerta é crítica.
Certifique-se de que haja um número ímpar de nós de servidor no cluster e que todos estejam ativos e íntegros.
Este alerta mostra que o cluster etcd não tem líder. A gravidade desse alerta é crítica.
Este alerta indica que o líder do etcd muda mais de duas vezes em 10 minutos. Este é um aviso.
Este alerta indica que uma determinada porcentagem de falhas de solicitação GRPC foi detectada no etcd.
Este alerta indica que as solicitações etcd GRPC estão lentas. Este é um aviso.
Esse alerta indica que uma determinada porcentagem de falhas HTTP foi detectada no etcd.
Este alerta indica que as solicitações HTTP estão ficando lentas. Este é um aviso.
Este alerta indica que a comunicação do membro do etcd está diminuindo. Este é um aviso.
Este alerta indica que o servidor etcd recebeu mais de 5 propostas com falha na última hora. Este é um aviso.
Este alerta indica que a duração do fsync do etcd WAL está aumentando. Este é um aviso.
/var/lib/rancher
é menor que:
- 35% – a gravidade do alerta é um aviso
- 25% – a gravidade do alerta é crítica
Se esse alerta disparar, aumente o tamanho do disco.
/var/lib/kubelet
é menor que:
- 35% – a gravidade do alerta é um aviso
-
25% – a gravidade do alerta é crítica
Se esse alerta disparar, aumente o tamanho do disco.
Este alerta indica que o espaço livre para o disco Longhorn é menor que:
- 35% – a gravidade do alerta é um aviso
- 25% – a gravidade do alerta é crítica
Se esse alerta disparar, aumente o tamanho do disco.
/var
é menor que:
- 35% – a gravidade do alerta é um aviso
- 25% – a gravidade do alerta é crítica
Os requisitos de armazenamento para habilidades de ML podem aumentar substancialmente o uso do disco.
Se esse alerta disparar, aumente o tamanho do disco.
Este alerta indica que a conexão do servidor NFS foi perdida.
Você precisa verificar a conexão do servidor NFS e o caminho de montagem.
Se o número cumulativo de objetos de backup ou instantâneo criados pelo Longhorn for muito alto, você poderá encontrar um dos seguintes alertas:
Para corrigir o problema que faz com que esses alertas sejam acionados, execute o seguinte script:
#!/bin/bash
set -e
# longhorn backend URL
url=
# By default, snapshot older than 10 days will be deleted
days=-1
function display_usage() {
echo "usage: $(basename "$0") [-h] -u longhorn-url -d days"
echo " -u Longhorn URL"
echo " -d Number of days(should be >0). By default, script will delete snapshot older than 10 days."
echo " -h Print help"
}
while getopts 'hd:u:' flag "$@"; do
case "${flag}" in
u)
url=${OPTARG}
;;
d)
days=${OPTARG}
[ "$days" ] && [ -z "${days//[0-9]}" ] || { echo "Invalid number of days=$days"; exit 1; }
;;
h)
display_usage
exit 0
;;
:)
echo "Invalid option: ${OPTARG} requires an argument."
exit 1
;;
*)
echo "Unexpected option ${flag}"
exit 1
;;
esac
done
[[ -z "$url" ]] && echo "Missing longhorn URL" && exit 1
# check if URL is valid
curl -s --connect-timeout 30 ${url}/v1 >> /dev/null || { echo "Unable to connect to longhorn backend"; exit 1; }
echo "Deleting snapshots older than $days days"
# Fetch list of longhorn volumes
vols=$( (curl -s -X GET ${url}/v1/volumes |jq -r '.data[].name') )
#delete given snapshot for given volume
function delete_snapshot() {
local vol=$1
local snap=$2
[[ -z "$vol" || -z "$snap" ]] && echo "Error: delete_snapshot: Empty argument" && return 1
curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotDelete -d '{"name": "'$snap'"}' >> /dev/null
echo "Snapshot=$snap deleted for volume=$vol"
}
#perform cleanup for given volume
function cleanup_volume() {
local vol=$1
local deleted_snap=0
[[ -z "$vol" ]] && echo "Error: cleanup_volume: Empty argument" && return 1
# fetch list of snapshot
snaps=$( (curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotList | jq -r '.data[] | select(.usercreated==true) | .name' ) )
for i in ${snaps[@]}; do
echo $i
if [[ $i == "volume-head" ]]; then
continue
fi
# calculate date difference for snapshot
snapTime=$(curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotGet -d '{"name":"'$i'"}' |jq -r '.created')
currentTime=$(date "+%s")
timeDiff=$((($(date -d $snapTime "+%s") - $currentTime) / 86400))
if [[ $timeDiff -lt $days ]]; then
echo "Ignoring snapshot $i, since it is older than $timeDiff days"
continue
fi
#trigger deletion for snapshot
delete_snapshot $vol $i
deleted_snap=$((deleted_snap+1))
done
if [[ "$deleted_snap" -gt 0 ]]; then
#trigger purge for volume
curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotPurge >> /dev/null
fi
}
for i in ${vols[@]}; do
cleanup_volume $i
done
#!/bin/bash
set -e
# longhorn backend URL
url=
# By default, snapshot older than 10 days will be deleted
days=-1
function display_usage() {
echo "usage: $(basename "$0") [-h] -u longhorn-url -d days"
echo " -u Longhorn URL"
echo " -d Number of days(should be >0). By default, script will delete snapshot older than 10 days."
echo " -h Print help"
}
while getopts 'hd:u:' flag "$@"; do
case "${flag}" in
u)
url=${OPTARG}
;;
d)
days=${OPTARG}
[ "$days" ] && [ -z "${days//[0-9]}" ] || { echo "Invalid number of days=$days"; exit 1; }
;;
h)
display_usage
exit 0
;;
:)
echo "Invalid option: ${OPTARG} requires an argument."
exit 1
;;
*)
echo "Unexpected option ${flag}"
exit 1
;;
esac
done
[[ -z "$url" ]] && echo "Missing longhorn URL" && exit 1
# check if URL is valid
curl -s --connect-timeout 30 ${url}/v1 >> /dev/null || { echo "Unable to connect to longhorn backend"; exit 1; }
echo "Deleting snapshots older than $days days"
# Fetch list of longhorn volumes
vols=$( (curl -s -X GET ${url}/v1/volumes |jq -r '.data[].name') )
#delete given snapshot for given volume
function delete_snapshot() {
local vol=$1
local snap=$2
[[ -z "$vol" || -z "$snap" ]] && echo "Error: delete_snapshot: Empty argument" && return 1
curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotDelete -d '{"name": "'$snap'"}' >> /dev/null
echo "Snapshot=$snap deleted for volume=$vol"
}
#perform cleanup for given volume
function cleanup_volume() {
local vol=$1
local deleted_snap=0
[[ -z "$vol" ]] && echo "Error: cleanup_volume: Empty argument" && return 1
# fetch list of snapshot
snaps=$( (curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotList | jq -r '.data[] | select(.usercreated==true) | .name' ) )
for i in ${snaps[@]}; do
echo $i
if [[ $i == "volume-head" ]]; then
continue
fi
# calculate date difference for snapshot
snapTime=$(curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotGet -d '{"name":"'$i'"}' |jq -r '.created')
currentTime=$(date "+%s")
timeDiff=$((($(date -d $snapTime "+%s") - $currentTime) / 86400))
if [[ $timeDiff -lt $days ]]; then
echo "Ignoring snapshot $i, since it is older than $timeDiff days"
continue
fi
#trigger deletion for snapshot
delete_snapshot $vol $i
deleted_snap=$((deleted_snap+1))
done
if [[ "$deleted_snap" -gt 0 ]]; then
#trigger purge for volume
curl -s -X POST ${url}/v1/volumes/${vol}?action=snapshotPurge >> /dev/null
fi
}
for i in ${vols[@]}; do
cleanup_volume $i
done
Este alerta indica que o número cumulativo de objetos de backup criados no sistema pelo Longhorn está aumentando, o que pode levar a um possível tempo de inatividade. Esse é um warning.
Este alerta é acionado quando a contagem de backup do Longhorn é igual ou maior que 150 e menor que 200.
Este alerta indica que o número cumulativo de objetos de backup criados no sistema pelo Longhorn está aumentando, o que pode levar a um possível tempo de inatividade. Este é um alerta crítico.
Este alerta é acionado quando a contagem de backup do Longhorn é igual ou maior que 200 e menor que 240.
Este alerta indica que o número cumulativo de objetos de instantâneo criados no sistema pelo Longhorn está aumentando, o que pode levar a um possível tempo de inatividade. Esse é um warning.
Este alerta é acionado se a contagem de instantâneo for igual ou maior que 150 e menor que 200.
Este alerta indica que o número cumulativo de objetos de instantâneo criados no sistema pelo Longhorn está aumentando, o que pode levar a um possível tempo de inatividade. Esse alerta é crítico.
Este alerta é acionado se a contagem de instantâneo for igual ou maior que 200 e menor que 240.
- Chave de gravidade do alerta
- Regras.Geral
- TargetDown
- Watchdog
- kubernetes-apps
- KubePodCrashLooping
- KubePodNotReady
- KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
- KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
- KubeStatefulSetUpdateNotRolledOut
- KubeDaemonSetRolloutStuck
- KubeContainerWaiting
- KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
- KubeJobCompletion
- KubeJobFailed
- KubeHpaReplicasMismatch
- KubeHpaMaxedOut
- kubernetes-resources
- KubeCPUOvercommit, KubeMemoryOvercommit
- KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
- CPUThrottlingHigh
- Kubernetes-storage
- KubePersistentVolumeFillingUp
- KubePersistentVolumeErrors
- kube-state-metrics
- KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
- kubernetes-system-apiserver
- KubeClientCertificateExpiration
- AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
- KubernetesApiServerErrors
- kubernetes-system-kubelet
- KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
- KubeletTooManyPods
- KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
- KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
- kubernetes-system
- KubeVersionMismatch
- KubeClientErrors
- KubernetesMemoryPressure
- KubernetesDiskPressure
- Kube-apiserver-slos
- KubeAPIErrorBudgetBurn
- node-exporter
- NodeFilesystemSpaceFillingUp, NodeFilesystemAlmostOutOfSpace, NodeFilesystemFilesFillingUp
- NodeRAIDDegraded
- NodeRAIDDiskFailure
- NodeNetworkReceiveErrs, NodeNetworkTransmitErrs, NodeHighNumberConntrackEntriesUsed
- NodeClockSkewDetected, NodeClockNotSynchronising
- node-network
- NodeNetworkInterfaceFlapping
- InternodeCommunicationBroken
- uipath.prometheus.resource.provisioning.alerts
- PrometheusMemoryUsage, PrometheusStorageUsage
- alertmanager.rules
- AlertmanagerConfigInconsistent
- AlertmanagerFailedReload
- prometheus-operator
- PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
- Prometheus
- PrometheusBadConfig
- PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
- PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
- PrometheusRuleFailures
- PrometheusMissingRuleEvaluations
- PrometheusTargetLimitHit
- uipath.availability.alerts
- UiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
- uipath.cronjob.alerts.rules
- CronJobSuspended
- UiPath CronJob "kerberos-tgt-refresh" falhou
- IdentityKerberosTgtUpdateFailed
- Alertas Ceph
- CephClusterNearFull
- CephClusterCriticallyFull
- CephClusterReadOnly
- CephPoolQuotaBytesCriticallyExhausted
- CephClusterErrorState
- CephMonQuorumAtRisk
- CephOSDCriticallyFull
- uipath.requestrouting.alerts
- UiPathRequestRouting
- RabbitmqNodeDown
- Alertas do MongoDB
- MongodbCertExpiration
- MongodbDown
- MongodbReplicationStatusUnreachable
- MongodbReplicationStatusNotKnown
- MongodbReplicationLag
- MongodbTooManyConnections
- MongodbHighLatency
- MongodbReplicationStatusSelfCheck
- MongodbReplicationStatusRollback
- MongodbReplicationStatusRemoved
- Alertas de certificado TLS do servidor
- SecretCertificateExpiry30Days
- SecretCertificateExpiry7Days
- Alertas de certificado de assinatura de token de identidade
- IdentityCertificateExpiry30Days
- IdentityCertificateExpiry7Days
- Alertas etdc
- EtcdInsufficientMembers
- EtcdNoLeader
- EtcdHighNumberOfLeaderChanges
- EtcdHighNumberOfFailedGrpcRequests
- EtcdGrpcRequestsSlow
- EtcdHighNumberOfFailedHttpRequests
- EtcdHttpRequestsSlow
- EtcdMemberCommunicationSlow
- EtcdHighNumberOfFailedProposals
- EtcdHighFsyncDurations
- EtcdHighCommitDurations
- Alertas de tamanho de disco
- LowDiskForRancherPartition
- LowDiskForKubeletPartition
- LowDiskForLonghornPartition
- LowDiskForVarPartition
- Alertas de backup
- NFSServerDisconnected
- VolumeBackupFailed
- BackupDisabled
- longhorn-snapshot-alert
- LonghornBackupObjectThresholdExceededWarn
- LonghornBackupObjectThresholdExceededCritical
- LonghornSnapshotObjectThresholdExceededWarn
- LonghornSnapshotObjectThresholdExceededCritical