- Visão geral
- Requisitos
- Instalação
- Perguntas e respostas: modelos de implantação
- Baixando pacotes de instalação
- Parâmetros do install-uipath.sh
- Como habilitar o High Availability Add-on do Redis para o cluster
- Arquivo de configuração do Document Understanding
- Adicionando um nó de agente dedicado com suporte a GPU
- Conexão do aplicativo Task Mining
- Adição de um nó de agente dedicado ao Task Mining
- Pós-instalação
- Administração de cluster
- Monitoramento e alertas
- Uso da pilha de monitoramento
- Runbooks de alertas
- Migração e atualização
- Modo online de avaliação de nó único
- Modo offline de avaliação de nó único
- Modo de produção online pronto para alta disponibilidade de vários nós
- Modo de produção offline pronto para alta disponibilidade de vários nós
- Migrando o disco físico do Longhorn para o LVM
- Fazendo downgrade do Ceph de 16.2.6 para 15.2.9
- Opções de migração
- B) Migração de um único tenant
- Configuração específica do produto
- Melhores práticas e manutenção
- Solução de problemas
- Como solucionar problemas dos serviços durante a instalação
- Como desinstalar o cluster
- Como limpar os artefatos offline para melhorar o espaço em disco
- How to disable TLS 1.0 and 1.1
- Como habilitar o registro em log do Istio
- Como limpar logs manualmente
- Como limpar logs antigos armazenados no bucket do sf-logs
- Como depurar instalações do Automation Suite com falha
- Como desabilitar o descarregamento de soma de verificação do TX
- Não é possível executar uma instalação offline no SO RHEL 8.4
- Erro ao baixar o pacote
- A instalação offline falha devido a um binário ausente
- Problema de certificado na instalação offline
- Erro de validação da string de conexão ao SQL
- Falha após a atualização do certificado
- O Automation Suite requer que Backlog_wait_time seja definido como 1
- Não é possível fazer login após a migração
- Configurando um intervalo de tempo limite para os portais de gerenciamento
- Atualizar as conexões de diretório subjacentes
- kinit: não é possível encontrar o KDC para o realm <AD Domain> ao obter credenciais iniciais
- kinit: o Keytab não contém chaves adequadas para *** ao obter credenciais iniciais
- A operação do GSSAPI falhou com erro: um código de status inválido foi fornecido (as credenciais do cliente foram revogadas).
- Falha do login para o usuário <ADDOMAIN><aduser> Motivo: a conta está desabilitada.
- Alarme recebido para tarefa Kerberos-tgt-update com falha
- Provedor SSPI: servidor não encontrado no banco de dados Kerberos
- Falha ao obter a imagem do sandbox
- Os pods não são exibidos na UI do ArgoCD
- Falha de teste do Redis
- O servidor RKE2 falha ao iniciar
- Segredo não encontrado no namespace da UiPath
- O ArgoCD entra em estado Em andamento após a primeira instalação
- Inconsistência inesperada; execute o fsck manualmente
- Operador de autocura ausente e repositório Sf-k8-utils ausente
- MongoDB degradado ou aplicativos de negócios após a restauração do cluster
- Serviços não íntegros após restauração ou reversão do cluster
- O Document Understanding não está no menu de navegação esquerdo do Automation Suite
- Status de Falha ao criar uma sessão de rotulagem de dados
- Status de Falha ao tentar implantar uma habilidade de ML
- Trabalho de migração falha no ArgoCD
- Reconhecimento de escrita com o Extrator de formulários inteligente não está funcionando
- Usando a ferramenta de diagnóstico do Automation Suite
- Usando o pacote de suporte do Automation Suite
- Exploração de logs
Uso da pilha de monitoramento
A pilha de monitoramento dos clusters do Automation Suite inclui o Prometheus, Grafana e AlertManager, que são integrados dentro da UI do Rancher Cluster Explorer.
As falhas de nó podem ocasionar um desligamento do Kubernetes, o que interromperia os alertas do Prometheus. Para evitar isso, recomendamos configurar um alerta separado no servidor RKE2.
Esta página descreve uma série de cenários de monitoramento. Para obter mais detalhes, consulte a documentação do Rancher sobre o uso do Rancher Monitoring.
Ao usar coletores para exportar métricas para ferramentas de terceiros, habilitar o monitoramento de aplicativos pode interromper a funcionalidade do Automation Suite.
No painel de Monitoramento, verifique no painel inferior se há alertas acionados no momento. As seguintes capturas de tela mostram vários alertas acionados no momento.
Se os alertas forem muito ruidosos, você poderá silenciá-los. Para isso, siga as seguintes etapas:
É altamente recomendável configurar um receptor externo para os alertas. Dessa forma, os alertas serão enviados conforme acontecerem, ao invés de exigirem uma atualização do painel do Monitoring para ver os alertas mais recentes.
Para obter detalhes sobre como enviar alertas para um receptor externo, consulte a documentação do Rancher em Configuração dos receptores do AlertManager.
Além de um receptor, você deve configurar pelo menos uma rota que use esse receptor. Uma rota define como os alertas são agrupados e quais alertas são enviados para o receptor. Consulte a documentação do Rancher em Configuração de rotas do AlertManager.
Consulte abaixo um exemplo de como os alertas serão exibidos ao usar o receptor do Slack. Clicar no link para o AlertManager levará você até o console do AlertManager, onde os alertas podem ser silenciados e existem outros links para a expressão do Prometheus que acionou o alerta. Clicar na URL do Runbook levará você para esta página, com instruções de correção específicas. Esses links também estão presentes quando os alertas são enviados para outros receptores externos.
No painel de Monitoramento, clique no bloco do Grafana. O painel do Grafana agora é exibido.
Você pode monitorar o Istio Service Mesh por meio dos seguintes painéis do Grafana: o Istio Mesh e o Istio Workload.
Esse painel mostra o volume geral de solicitações, assim como as taxas de erros 400 e 500 em todo o service mesh para o período de tempo selecionado. Os dados são exibidos no canto superior direito da janela. Consulte os quatro gráficos na parte superior para obter essas informações.
Ele também mostra a taxa de sucesso imediata no último minuto passado para cada serviço individual. Observe que uma taxa de sucesso de NaN indica que o serviço não está servindo tráfego no momento.
Esse painel mostra as métricas de tráfego no intervalo de tempo selecionado no canto superior direito da janela.
Use os selectores na parte superior do painel para detalhar cargas de trabalho específicas. Um namespace de interesse específico é o uipath.
A seção superior mostra métricas gerais, a seção Cargas de trabalho de entrada separa o tráfego com base na origem e a seção Serviços de saída separa o tráfego com base no destino.
Você pode monitorar volumes persistentes por meio do painel do Kubernetes/Volumes persistentes. Você pode rastrear o espaço livre e utilizado para cada volume.
Você também pode verificar o status de cada volume clicando no item Volumes persistentes dentro do menu Armazenamento do Cluster Explorer.
Para verificar a utilização do hardware por nó, você pode usar o painel Nós. Há dados disponíveis sobre a CPU, memória, disco e rede.
Você pode monitorar a utilização do hardware para cargas de trabalho específicas usando o painel do Kubernetes/Compute Resources/Namespace (Workloads). Selecione o namespace uipath para obter os dados necessários.
- Clique na seta que aponta para baixo ao lado do título do gráfico e, em seguida, selecione Compartilhar.
- Clique na guia Instantâneo e defina o Nome do instantâneo, Expiração e Tempo limite.
- Clique em Publicar para snapshot.raintank.io.
Para obter mais detalhes, consulte a documentação do Grafana sobre painéis de compartilhamento.
Para obter detalhes sobre como criar painéis persistentes personalizados do Grafana, consulte a Documentação do Rancher.
O acesso de administradores ao Grafana normalmente não é necessário nos clusters do Automation Suite, pois os painéis estão disponíveis para acesso de leitura por padrão para usuários anônimos, e a criação de painéis persistentes personalizados deve ser feita usando as instruções nativas vinculadas acima neste documento.
No entanto, o acesso de administradores ao Grafana é possível com as instruções abaixo.
O nome de usuário e senha padrão para o acesso de administradores do Grafana pode ser recuperado da seguinte forma:
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
Observe que nos clusters do Automation Suite de alta disponibilidade existem vários pods do Grafana para habilitar o acesso de leitura ininterrupto no caso de falha de nós, assim como um maior volume de consultas de leitura. Isso é incompatível com o acesso de administradores, porque os pods não compartilham o estado da sessão, e o login requer isso. Como solução alternativa, o número de réplicas do Grafana deve ser escalonado temporariamente como uma enquanto se desejar que o administrador tenha acesso. Consulte abaixo instruções sobre como dimensionar o número de réplicas do Grafana:
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
A documentação sobre as métricas disponíveis está aqui:
Você pode criar alertas personalizados usando uma consulta do Prometheus com uma expressão booleana.
Para consultar o status dos pods, implantações, statefulsets etc., você pode usar a UI do Cluster Explorer. Essa é a mesma página de destino que foi acessada após se conectar ao endpoint do Rancher Server. A página inicial mostra um resumo, com detalhes específicos de cada tipo de recurso à esquerda. Observe o seletor do namespace na parte superior da página. O painel também pode ser substituído pela ferramenta Lens.
O Prometheus usa o recurso de gravação remota do Prometheus para coletar e exportar métricas do Prometheus para um sistema externo.
remote_write
em um cluster do Automation Suite:
- Acesso ao painel do Rancher Monitoring
- Verificando alertas atualmente sendo disparados
- Silenciamento dos alertas
- Envio de alertas para um receptor externo
- Acesso ao painel do Grafana
- Monitoramento do service mesh
- Painel do Istio Mesh
- Painel do Istio Workload
- Monitoramento de volumes persistentes
- Monitoramento da utilização de hardware
- Criação de um instantâneo visual compartilhável de um gráfico do Grafana
- Criação de painéis persistentes personalizados do Grafana
- Acesso do administrador ao Grafana
- Consulta do Prometheus
- Criação de alertas personalizados
- Monitoramento do status de recursos do Kubernetes
- Exportação de métricas do Prometheus para um sistema externo