- Visão geral
- Requisitos
- Instalação
- Perguntas e respostas: modelos de implantação
- Configuração das máquinas
- Configuração do balanceador de carga
- Configuração do DNS
- Como configurar o Microsoft SQL Server
- Configuração dos certificados
- Instalação online de produção pronta para alta disponibilidade de vários nós
- Instalação offline de produção pronta para alta disponibilidade de vários nós
- Baixando os pacotes de instalação
- Parâmetros do install-uipath.sh
- Como habilitar o High Availability Add-on do Redis para o cluster
- Arquivo de configuração do Document Understanding
- Adicionando um nó de agente dedicado com suporte a GPU
- Conexão do aplicativo Task Mining
- Adição de um nó de agente dedicado ao Task Mining
- Pós-instalação
- Administração de cluster
- Gerenciando produtos
- Gerenciamento do cluster no ArgoCD
- Configuração do servidor NFS externo
- Automatizado: habilitando o backup no cluster
- Automatizado: desabilitando o backup no cluster
- Automatizado, online: restaurando o cluster
- Automatizado, offline: restaurando o cluster
- Manual: habilitando o backup no cluster
- Manual: desabilitando o backup no cluster
- Manual, online: restaurando o cluster
- Manual, offline: restaurando o cluster
- Configuração adicional
- Migrating objectstore from persistent volume to raw disks
- Monitoramento e alertas
- Uso da pilha de monitoramento
- Runbooks de alertas
- Migração e atualização
- Opções de migração
- Etapa 1: mover os dados da organização do Identity, de independente para o Automation Suite
- Etapa 2: restauração do banco de dados de produtos independente
- Etapa 3: backup do banco de dados da plataforma no Automation Suite
- Etapa 4: mesclando organizações no Automation Suite
- Etapa 5: atualização das strings de conexão do produto migradas
- Etapa 6: migração do Insights independente
- Etapa 7: exclusão do tenant padrão
- B) Migração de um único tenant
- Configuração específica do produto
- Melhores práticas e manutenção
- Solução de problemas
- Como solucionar problemas dos serviços durante a instalação
- Como desinstalar o cluster
- Como limpar os artefatos offline para melhorar o espaço em disco
- Como limpar os dados do Redis
- Como habilitar o registro em log do Istio
- Como limpar logs manualmente
- Como limpar logs antigos armazenados no bucket do sf-logs
- Como desabilitar os logs de streaming para o AI Center
- Como depurar instalações do Automation Suite com falha
- Como excluir imagens do instalador antigo após a atualização
- Como limpar automaticamente instantâneos do Longhorn
- Como desabilitar o descarregamento de soma de verificação do TX
- Como lidar com cifras fracas no TLS 1.2
- Não é possível executar uma instalação offline no SO RHEL 8.4
- Erro ao baixar o pacote
- A instalação offline falha devido a um binário ausente
- Problema de certificado na instalação offline
- First installation fails during Longhorn setup
- Erro de validação da string de conexão ao SQL
- Verificação de pré-requisito para o módulo iscsid do selinux falha
- Azure disk not marked as SSD
- Falha após a atualização do certificado
- Automation Suite not working after OS upgrade
- O Automation Suite requer que Backlog_wait_time seja definido como 1
- Não é possível montar o volume devido a não estar pronto para cargas de trabalho
- O RKE2 falha durante a instalação e atualização
- Falha ao carregar ou baixar dados no objectstore
- PVC resize does not heal Ceph
- Falha no redimensionamento do PVC do Objectstore
- Pod do Rook Ceph ou Looker travado no estado Init
- Erro de anexo de volume StatefulSet
- Falha ao criar volumes persistentes
- Patch de reclamação de armazenamento
- Falha de backup devido ao erro TooManySnapshots
- Todas as réplicas do Longhorn estão com falha
- Configurando um intervalo de tempo limite para os portais de gerenciamento
- Atualizar as conexões de diretório subjacentes
- Não é possível fazer login após a migração
- kinit: não é possível encontrar o KDC para o realm <AD Domain> ao obter credenciais iniciais
- kinit: o Keytab não contém chaves adequadas para *** ao obter credenciais iniciais
- A operação do GSSAPI falhou com erro: um código de status inválido foi fornecido (as credenciais do cliente foram revogadas).
- Alarme recebido para tarefa Kerberos-tgt-update com falha
- Provedor SSPI: servidor não encontrado no banco de dados Kerberos
- Falha do login para o usuário <ADDOMAIN><aduser> Motivo: a conta está desabilitada.
- ArgoCD login failed
- Falha ao obter a imagem do sandbox
- Os pods não são exibidos na UI do ArgoCD
- Falha de teste do Redis
- O servidor RKE2 falha ao iniciar
- Segredo não encontrado no namespace da UiPath
- Após a instalação inicial, o aplicativo ArgoCD entrou no estado Em andamento
- Pods de MongoDB em CrashLoopBackOff ou provisionamento de PVC pendente após exclusão
- Inconsistência inesperada; execute o fsck manualmente
- MongoDB degradado ou aplicativos de negócios após a restauração do cluster
- Operador de autocura ausente e repositório Sf-k8-utils ausente
- Serviços não íntegros após restauração ou reversão do cluster
- Pod RabbitMQ preso em CrashLoopBackOff
- Prometheus no estado CrashloopBackoff com erro de falta de memória (OOM)
- Métricas Ceph-rook ausentes nos painéis de monitoramento
- Os pods não podem se comunicar com o FQDN em um ambiente de proxy
- O Document Understanding não está no menu de navegação esquerdo do Automation Suite
- Status de Falha ao criar uma sessão de rotulagem de dados
- Status de Falha ao tentar implantar uma habilidade de ML
- Trabalho de migração falha no ArgoCD
- Reconhecimento de escrita com o Extrator de formulários inteligente não está funcionando
- Usando a ferramenta de diagnóstico do Automation Suite
- Usando o pacote de suporte do Automation Suite
- Exploração de logs
Uso da pilha de monitoramento
A pilha de monitoramento dos clusters do Automation Suite inclui o Prometheus, Grafana e AlertManager, que são integrados dentro da UI do Rancher Cluster Explorer.
As falhas de nó podem ocasionar um desligamento do Kubernetes, o que interromperia os alertas do Prometheus. Para evitar isso, recomendamos configurar um alerta separado no servidor RKE2.
Esta página descreve uma série de cenários de monitoramento. Para obter mais detalhes, consulte a documentação do Rancher sobre o uso do Rancher Monitoring.
Ao usar coletores para exportar métricas para ferramentas de terceiros, habilitar o monitoramento de aplicativos pode interromper a funcionalidade do Automation Suite.
No painel de Monitoramento, verifique no painel inferior se há alertas acionados no momento. As seguintes capturas de tela mostram vários alertas acionados no momento.
Se os alertas forem muito ruidosos, você poderá silenciá-los. Para isso, siga as seguintes etapas:
É altamente recomendável configurar um receptor externo para os alertas. Dessa forma, os alertas serão enviados conforme acontecerem, ao invés de exigirem uma atualização do painel do Monitoring para ver os alertas mais recentes.
Para obter detalhes sobre como enviar alertas para um receptor externo, consulte a documentação do Rancher em Configuração dos receptores do AlertManager.
Além de um receptor, você deve configurar pelo menos uma rota que use esse receptor. Uma rota define como os alertas são agrupados e quais alertas são enviados para o receptor. Consulte a documentação do Rancher em Configuração de rotas do AlertManager.
Consulte abaixo um exemplo de como os alertas serão exibidos ao usar o receptor do Slack. Clicar no link para o AlertManager levará você até o console do AlertManager, onde os alertas podem ser silenciados e existem outros links para a expressão do Prometheus que acionou o alerta. Clicar na URL do Runbook levará você para esta página, com instruções de correção específicas. Esses links também estão presentes quando os alertas são enviados para outros receptores externos.
No painel de Monitoramento, clique no bloco do Grafana. O painel do Grafana agora é exibido.
Você pode monitorar o Istio Service Mesh por meio dos seguintes painéis do Grafana: o Istio Mesh e o Istio Workload.
Esse painel mostra o volume geral de solicitações, assim como as taxas de erros 400 e 500 em todo o service mesh para o período de tempo selecionado. Os dados são exibidos no canto superior direito da janela. Consulte os quatro gráficos na parte superior para obter essas informações.
Ele também mostra a taxa de sucesso imediata no último minuto passado para cada serviço individual. Observe que uma taxa de sucesso de NaN indica que o serviço não está servindo tráfego no momento.
Esse painel mostra as métricas de tráfego no intervalo de tempo selecionado no canto superior direito da janela.
Use os selectores na parte superior do painel para detalhar cargas de trabalho específicas. Um namespace de interesse específico é o uipath.
A seção superior mostra métricas gerais, a seção Cargas de trabalho de entrada separa o tráfego com base na origem e a seção Serviços de saída separa o tráfego com base no destino.
Você pode monitorar volumes persistentes por meio do painel do Kubernetes/Volumes persistentes. Você pode rastrear o espaço livre e utilizado para cada volume.
Você também pode verificar o status de cada volume clicando no item Volumes persistentes dentro do menu Armazenamento do Cluster Explorer.
Para verificar a utilização do hardware por nó, você pode usar o painel Nós. Há dados disponíveis sobre a CPU, memória, disco e rede.
Você pode monitorar a utilização do hardware para cargas de trabalho específicas usando o painel do Kubernetes/Compute Resources/Namespace (Workloads). Selecione o namespace uipath para obter os dados necessários.
- Clique na seta que aponta para baixo ao lado do título do gráfico e, em seguida, selecione Compartilhar.
- Clique na guia Instantâneo e defina o Nome do instantâneo, Expiração e Tempo limite.
- Clique em Publicar para snapshot.raintank.io.
Para obter mais detalhes, consulte a documentação do Grafana sobre painéis de compartilhamento.
Para obter detalhes sobre como criar painéis persistentes personalizados do Grafana, consulte a Documentação do Rancher.
O acesso de administradores ao Grafana normalmente não é necessário nos clusters do Automation Suite, pois os painéis estão disponíveis para acesso de leitura por padrão para usuários anônimos, e a criação de painéis persistentes personalizados deve ser feita usando as instruções nativas vinculadas acima neste documento.
No entanto, o acesso de administradores ao Grafana é possível com as instruções abaixo.
O nome de usuário e senha padrão para o acesso de administradores do Grafana pode ser recuperado da seguinte forma:
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
Observe que nos clusters do Automation Suite de alta disponibilidade existem vários pods do Grafana para habilitar o acesso de leitura ininterrupto no caso de falha de nós, assim como um maior volume de consultas de leitura. Isso é incompatível com o acesso de administradores, porque os pods não compartilham o estado da sessão, e o login requer isso. Como solução alternativa, o número de réplicas do Grafana deve ser escalonado temporariamente como uma enquanto se desejar que o administrador tenha acesso. Consulte abaixo instruções sobre como dimensionar o número de réplicas do Grafana:
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
A documentação sobre as métricas disponíveis está aqui:
Você pode criar alertas personalizados usando uma consulta do Prometheus com uma expressão booleana.
Para consultar o status dos pods, implantações, statefulsets etc., você pode usar a UI do Cluster Explorer. Essa é a mesma página de destino que foi acessada após se conectar ao endpoint do Rancher Server. A página inicial mostra um resumo, com detalhes específicos de cada tipo de recurso à esquerda. Observe o seletor do namespace na parte superior da página. O painel também pode ser substituído pela ferramenta Lens.
O Prometheus usa o recurso de gravação remota do Prometheus para coletar e exportar métricas do Prometheus para um sistema externo.
remote_write
em um cluster do Automation Suite:
- Acesso ao painel do Rancher Monitoring
- Verificando alertas atualmente sendo disparados
- Silenciamento dos alertas
- Envio de alertas para um receptor externo
- Acesso ao painel do Grafana
- Monitoramento do service mesh
- Painel do Istio Mesh
- Painel do Istio Workload
- Monitoramento de volumes persistentes
- Monitoramento da utilização de hardware
- Criação de um instantâneo visual compartilhável de um gráfico do Grafana
- Criação de painéis persistentes personalizados do Grafana
- Acesso do administrador ao Grafana
- Consulta do Prometheus
- Criação de alertas personalizados
- Monitoramento do status de recursos do Kubernetes
- Exportação de métricas do Prometheus para um sistema externo