- Visão geral
- Requisitos
- Modelos de implantação
- Manual: preparando a instalação
- Manual: preparando a instalação
- Etapa 2: configuração do registro compatível com OCI para instalações offline
- Etapa 3: configuração do objectstore externo
- Etapa 4: configuração do High Availability Add-on
- Etapa 5: configuração de bancos de dados SQL
- Etapa 6: configuração do balanceador de carga
- Etapa 7: configuração do DNS
- Etapa 8: configuração dos discos
- Etapa 9: configuração dos ajustes do nível do kernel e do sistema operacional
- Etapa 10: configuração das portas do nó
- Etapa 11: aplicação de configurações diversas
- Etapa 12: validação e instalação dos pacotes RPM necessários
- Etapa 13: geração de cluster_config.json
- Configuração de Certificados
- Configuração do Banco de Dados
- Configuração externa do Objectstore
- Configuração de URL pré-assinada
- Configuração da autenticação do Kerberos
- Configuração de registro externo compatível com OCI
- Disaster Recovery: configurações Ativo/Passivo e Ativo/Ativo
- Configuração do High Availability Add-on
- Configuração específica do Orchestrator
- Configuração específica do Insights
- Process Mining-specific configuration
- Configuração específica do Document Understanding
- Automation Suite Robots-specific configuration
- Configuração do monitoramento
- Opcional: configuração do servidor proxy
- Opcional: habilitação da resiliência a falhas zonais em um cluster de produção pronto para alta disponibilidade de vários nós
- Opcional: transmitindo resolv.conf personalizado
- Optional: Increasing fault tolerance
- Parâmetros do install-uipath.sh
- Adicionando um nó de agente dedicado com suporte a GPU
- Adição de um nó de agente dedicado ao Task Mining
- Conexão do aplicativo Task Mining
- Adicionando um nó de agente dedicado para robôs do Automation Suite
- Etapa 15: configuração do registro temporário do Docker para instalações offline
- Etapa 16: validação dos pré-requisitos para a instalação
- Manual: realizando a instalação
- Pós-instalação
- Administração de cluster
- Gerenciando produtos
- Introdução ao portal de administração do cluster
- Migrating objectstore from persistent volume to raw disks
- Migração do High Availability Add-on no cluster para externo
- Migrating data between objectstores
- Migrating in-cluster objectstore to external objectstore
- Migração de um registro no cluster para um registro externo compatível com OCI
- Mudança para o cluster secundário manualmente em uma configuração Ativo/Passivo
- Disaster Recovery: executando operações pós-instalação
- Convertendo uma instalação existente para configuração multi-local
- Diretrizes sobre atualização de uma implantação Ativo/Passivo ou Ativo/Ativo
- Diretrizes sobre backup e restauração de uma implantação Ativo/Passivo ou Ativo/Ativo
- Redirecionamento do tráfego dos serviços não compatíveis para o cluster principal
- Escalando uma implantação de nó único (avaliação) para uma implantação de vários nós (HA)
- Monitoramento e alertas
- Migração e atualização
- Etapa 1: mover os dados da organização do Identity, de independente para o Automation Suite
- Etapa 2: restauração do banco de dados de produtos independente
- Etapa 3: backup do banco de dados da plataforma no Automation Suite
- Etapa 4: mesclando organizações no Automation Suite
- Etapa 5: atualização das strings de conexão do produto migradas
- Etapa 6: migração do Orchestrator independente
- Etapa 7: migração do Insights independente
- Etapa 8: exclusão do tenant padrão
- Executando uma migração de único tenant
- Migração do Automation Suite no Linux para o Automation Suite no EKS/AKS
- Atualizando o Automação Suite
- Download dos pacotes de instalação e obtenção de todos os arquivos no primeiro nó do servidor
- Recuperação da mais recente configuração aplicada do cluster
- Atualização da configuração de cluster
- Configuração do registro compatível com OCI para instalações offline
- Execução da atualização
- Realização de operações pós-atualização
- Configuração específica do produto
- Uso da ferramenta de configuração do Orchestrator
- Configuração de parâmetros do Orchestrator
- Configurações de aplicativo do Orchestrator
- Configuração do AppSettings
- Configuração do tamanho máximo da solicitação
- Substituição da configuração de armazenamento no nível do cluster
- Configuração dos repositórios de credenciais
- Configuração da chave de criptografia por tenant
- Limpeza do banco de dados do Orchestrator
- Melhores práticas e manutenção
- Solução de problemas
- Como solucionar problemas dos serviços durante a instalação
- Como desinstalar o cluster
- Como limpar os artefatos offline para melhorar o espaço em disco
- Como limpar os dados do Redis
- Como habilitar o registro em log do Istio
- Como limpar logs manualmente
- Como limpar logs antigos armazenados no bucket do sf-logs
- Como desabilitar os logs de streaming para o AI Center
- Como depurar instalações do Automation Suite com falha
- Como excluir imagens do instalador antigo após a atualização
- Como desabilitar o descarregamento de soma de verificação do TX
- Como atualizar do Automation Suite 2022.10.10 e 2022.4.11 para 2023.10.2
- Como definir manualmente o nível de log do ArgoCD como Info
- Como expandir o armazenamento do AI Center
- Como gerar o pull_secret_value codificado para registros externos
- Como lidar com cifras fracas no TLS 1.2
- Como trabalhar com certificados
- Como encaminhar logs do aplicativo para o Splunk
- Como limpar imagens do Docker não usadas dos pods de registro
- Como coletar dados de uso de DU com objectstore (Ceph) no cluster
- Como instalar o RKE2 SELinux em ambientes air-gapped
- How to clean up old differential backups on an NFS server
- Não é possível executar uma instalação offline no SO RHEL 8.4
- Erro ao baixar o pacote
- A instalação offline falha devido a um binário ausente
- Problema de certificado na instalação offline
- First installation fails during Longhorn setup
- Erro de validação da string de conexão ao SQL
- Verificação de pré-requisito para o módulo iscsid do selinux falha
- Azure disk not marked as SSD
- Falha após a atualização do certificado
- Antivírus causa problemas de instalação
- Automation Suite not working after OS upgrade
- O Automation Suite requer que backlog_wait_time seja definido como 0
- Não é possível montar o volume devido a não estar pronto para cargas de trabalho
- Falha na coleta de logs do pacote de suporte
- A cadeia de caracteres de conexão SQL da Automação de Teste é ignorada
- Perda de dados ao reinstalar ou atualizar o Insights após a atualização do Automation Suite
- A atualização de nó único falha no estágio de malha
- Cluster unhealthy after automated upgrade from 2021.10
- Upgrade fails due to unhealthy Ceph
- RKE2 não é iniciado devido a um problema de espaço
- O volume não pode ser montado e permanece no estado de loop anexar/desanexar
- A atualização falha devido a objetos clássicos no banco de dados do Orchestrator
- Um cluster do Ceph foi encontrado em um estado degradado após atualização lado a lado
- Um componente sem integridade do Insights causa uma falha na migração
- A atualização do serviço falha para o Apps
- Tempos limite de atualização no local
- Migração de registro do Docker presa no estágio de exclusão do PVC
- Falha no provisionamento do AI Center após a atualização para a 2023.10 ou posterior
- Falha de atualização em ambientes offline
- A validação de SQL falha durante a atualização
- pod snapshot-controller-crds no estado CrashLoopBackOff após a atualização
- Erro de upgrade/reinstalação do endpoint da API REST do Longhorn
- Falha de atualização devido aos tamanhos de PVC do Insights substituídos
- Configurando um intervalo de tempo limite para os portais de gerenciamento
- Autenticação não funciona após migração
- kinit: não é possível encontrar o KDC para o realm <AD Domain> ao obter credenciais iniciais
- kinit: o Keytab não contém chaves adequadas para *** ao obter credenciais iniciais
- Falha na operação GSSAPI devido a código de status inválido
- Alarme recebido para trabalho com falha do Kerberos-tgt-update
- Provedor de SSPI: servidor não encontrado no banco de dados Kerberos
- Falha de login para usuário do AD devido a conta desabilitada
- ArgoCD login failed
- Atualizar as conexões de diretório subjacentes
- Falha ao obter a imagem do sandbox
- Os pods não são exibidos na UI do ArgoCD
- Falha de teste do Redis
- O servidor RKE2 falha ao iniciar
- Segredo não encontrado no namespace da UiPath
- O ArgoCD entra em estado Em andamento após a primeira instalação
- Pods de MongoDB em CrashLoopBackOff ou provisionamento de PVC pendente após exclusão
- Unhealthy services after cluster restore or rollback
- Pods presos em Init:0/X
- Métricas Ceph-rook ausentes nos painéis de monitoramento
- Os pods não podem se comunicar com o FQDN em um ambiente de proxy
- Falha ao configurar alertas por e-mail após a atualização
- Nenhum problema upstream íntegro
- O Document Understanding não está no menu de navegação esquerdo do Automation Suite
- Status de Falha ao criar uma sessão de rotulagem de dados
- Status de Falha ao tentar implantar uma habilidade de ML
- Trabalho de migração falha no ArgoCD
- Reconhecimento de escrita com o Extrator de formulários inteligente não está funcionando
- Falha na implantação de habilidade de ML devido à expiração do token
- Execução de alta disponibilidade com o Process Mining
- Falha na ingestão do Process Mining ao fazer logon usando o Kerberos
- Após a recuperação de desastres, o Dapr não está funcionando corretamente para Process Mining
- Configurando o Dapr com o Redis no modo de cluster
- Não é possível conectar-se ao banco de dados AutomationSuite_ProcessMining_Warehouse usando uma string de conexão em formato pyodbc.
- A instalação do Airflow falha com sqlalchemy.exc.ArgumentError: não foi possível analisar o URL rfc1738 da string ''
- Como adicionar uma regra de tabela de IP para usar a porta 1433 do SQL Server
- O certificado do Automation Suite não é confiável para o servidor em que o CData Sync está sendo executado
- Execução da ferramenta de diagnóstico
- Usando o pacote de suporte do Automation Suite
- Exploração de logs
- Exploração de telemetria resumida

Guia de instalação do Automation Suite no Linux
A ferramenta de diagnóstico do Automation Suite executa um conjunto de verificações para gerar um relatório sobre a integridade do cluster, o qual você pode analisar para identificar problemas e suas possíveis causas. A ferramenta ajuda a encontrar problemas comuns, como a conectividade perdida do banco de dados ou credenciais inválidas ou expiradas.
uipathctl e uipathtools, e você pode baixar na sua máquina de gerenciamento.
uipathtools é uma ferramenta de CLI que contém um subconjunto de recursos uipathctl específicos para comandos de integridade. A ferramenta é compatível com versões anteriores e funciona com qualquer uma das versões do Automation Suite suportadas. Recomendamos usar uipathtools como a primeira etapa se você tiver qualquer problema.
Validação rápida
check e test fornecem insights rápidos sobre o estado do cluster sem executar uma análise profunda.
-
checkdepende da integridade e do status de sincronização do ArgoCD e não modifica nenhum estado no cluster -
testexamina os aplicativos, implantação ou pods e altera temporariamente o estado do cluster para fornecer esses insights a você.
Verificação de integridade
Para executar uma verificação de integridade, use um dos seguintes comandos, dependendo da ferramenta de CLI que você usar:
- Se você usar
uipathctl, execute:./uipathctl health check./uipathctl health check - Se você usar
uipathtools, execute:./uipathtools health check./uipathtools health check
uipathctl health check verifica a integridade de todos os componentes. No entanto, também permite verificar estritamente os componentes nos quais você está interessado:
- Se quiser excluir componentes da execução, use o sinalizador
--excluded. Por exemplo, se você não quiser verificar a integridade do SQL, executeuipathctl health check --excluded SQL. O comando verifica a integridade de todos os componentes, exceto SQL. - Se quiser incluir apenas determinados componentes na execução, use o sinalizador
--included. Por exemplo, se você quiser apenas verificar a integridade do DNS e do objectstore, executeuipathctl health check --included DNS,OBJECTSTORAGE.
Análise dos logs
- Após executar uma verificação de integridade, os logs mostram que a verificação de integridade do aplicativo Data Service falhou.
❌ [DATASERVICE] ❌ [DATASERVICE_HEALTH] Application health check failed: health status is Progressing and sync status is Synced❌ [DATASERVICE] ❌ [DATASERVICE_HEALTH] Application health check failed: health status is Progressing and sync status is Synced - Após uma investigação mais aprofundada, fica claro que o aplicativo Data Service falhou porque os pods
dataservice-runtime-8f5bb7d56-v5krgedataservice-taskrunner-787df76c74-98h5lestão em um estado de falha. Se você analisar mais a fundo, poderá descobrir que odataservice-external-storage-secretausente está ausente.❌ [POD] ✔ [LIST_NAMESPACES] Retrieved 25 namespaces to check pod health ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-v5krg cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-xs9t5 cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-taskrunner-787df76c74-98h5l cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found❌ [POD] ✔ [LIST_NAMESPACES] Retrieved 25 namespaces to check pod health ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-v5krg cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-xs9t5 cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-taskrunner-787df76c74-98h5l cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found - Para corrigir esse problema, certifique-se de que você forneceu as credenciais corretas para o objectstore no
cluster_config.json.
Teste de integridade
Para executar um teste de integridade, use um dos seguintes comandos, dependendo da ferramenta de CLI utilizada:
- Se você usar
uipathctl, execute:./uipathctl health test./uipathctl health test - Se você usar
uipathtools, execute:./uipathtools health test./uipathtools health test
uipathctl health test executa testes de integridade em todos os componentes. No entanto, também permite verificar estritamente os componentes nos quais você está interessado:
- Se quiser excluir componentes da execução, use o sinalizador
--excluded. Por exemplo, se você não quiser verificar a integridade do SQL, executeuipathctl health test --excluded SQL. O comando verifica a integridade de todos os componentes, exceto SQL. - Se quiser incluir apenas determinados componentes na execução, use o sinalizador
--included. Por exemplo, se você quiser apenas verificar a integridade do DNS e do objectstore, executeuipathctl health test --included DNS,OBJECTSTORAGE.
check e test para o aplicativo Data Service, poderá ver que o primeiro valida a integridade do aplicativo, enquanto o último verifica o roteamento.
Problema conhecido
Você pode receber uma mensagem de erro semelhante ao exemplo a seguir. Você pode ignorá-lo porque nenhuma Actions é necessária do seu lado.
E0621 23:32:56.426321 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.426392 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.444420 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.446150 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.513357 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceededE0621 23:32:56.426321 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.426392 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.444420 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.446150 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceeded
E0621 23:32:56.513357 24470 reflector.go:138] external/io_k8s_client_go/tools/cache/reflector.go:167: Failed to watch *v1.Pod: context deadline exceededValidação profunda
diagnose fornece insights profundos sobre o estado do cluster. Ele ajuda a identificar problemas em todos os níveis, como SQL, Objectstore, nó, segredo, Istio, rede etc.
- Ele abrange os comandos
checketest. - Ele executa as verificações de pré-requisitos realizadas antes da instalação do Automation Suite para validar as alterações na configuração do ambiente que foram feitas após a instalação e que podem ser a causa potencial do problema.
-
Ele é executado em todos os nós para coletar quaisquer problemas específicos do nó, como indisponibilidade de recursos, qualquer interferência de rede, etc.
Para executar uma verificação de diagnóstico, use um dos seguintes comandos, dependendo da ferramenta de CLI utilizada:
- Se você usar
uipathctl, execute:./uipathctl health diagnose cluster_config.json --versions version.json./uipathctl health diagnose cluster_config.json --versions version.json - Se você usar
uipathtools, execute:./uipathtools health diagnose cluster_config.json --versions version.json./uipathtools health diagnose cluster_config.json --versions version.json
diagnose é executado em vários níveis, como infraestrutura, rede, armazenamento, pods, DNS etc.
Análise dos logs
Há dois problemas potenciais que você pode observar nos logs anteriores:
- O Istio tem uma configuração incorreta, o que pode causar problemas no acesso à plataforma do Document Understanding:
❌ [ISTIO] ✔ [ISTIO_SYNC_STATUS] Istio sync is up-to-date ❌ [ISTIO_ENVOY_CONFIG_STATUS] Istio Envoy configs are not healthy: Error [IST0101] (VirtualService uipath/du-platform-vs) Referenced host:port not found: "aistorage:5000"❌ [ISTIO] ✔ [ISTIO_SYNC_STATUS] Istio sync is up-to-date ❌ [ISTIO_ENVOY_CONFIG_STATUS] Istio Envoy configs are not healthy: Error [IST0101] (VirtualService uipath/du-platform-vs) Referenced host:port not found: "aistorage:5000" - Data Service indisponível. Consulte Ceph no exemplo de código.
❌ [DATASERVICE] ❌ [DATASERVICE_HEALTH] Application health check failed: health status is Progressing and sync status is Synced ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-v5krg cannot mount volume: (combined from similar events): Unable to attach or mount volumes: unmounted volumes=[external-storage-creds], unattached volumes=[workload-socket is-secrets openssl istio-podinfo temp-location cert-location istio-data external-storage-creds workload-certs istio-envoy java domain-cert-config edk2 credential-socket tmp additional-ca-cert-config pem istiod-ca-cert istio-token app-secrets ceph-storage-creds]: timed out waiting for the condition ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-xs9t5 cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-taskrunner-787df76c74-98h5l cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found❌ [DATASERVICE] ❌ [DATASERVICE_HEALTH] Application health check failed: health status is Progressing and sync status is Synced ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-v5krg cannot mount volume: (combined from similar events): Unable to attach or mount volumes: unmounted volumes=[external-storage-creds], unattached volumes=[workload-socket is-secrets openssl istio-podinfo temp-location cert-location istio-data external-storage-creds workload-certs istio-envoy java domain-cert-config edk2 credential-socket tmp additional-ca-cert-config pem istiod-ca-cert istio-token app-secrets ceph-storage-creds]: timed out waiting for the condition ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-runtime-8f5bb7d56-xs9t5 cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found ❌ [CANNOT_MOUNT_VOLUME] Pod uipath/dataservice-taskrunner-787df76c74-98h5l cannot mount volume: MountVolume.SetUp failed for volume "external-storage-creds" : secret "dataservice-external-storage-secret" not found
Problemas conhecidos
Você pode receber uma mensagem de erro semelhante ao exemplo a seguir. Você pode ignorá-lo porque nenhuma Actions é necessária do seu lado.
Utilitários adicionais
check, teste diagnose) suportam filtragem e formato de saída adicionais.
Filtragem
|
Filtros |
Description |
Usos |
|---|---|---|
|
|
Lista separada por vírgulas dos serviços a serem incluídos na validação |
Esse comando executa o diagnóstico apenas em relação ao Istio e ao Insights. |
|
|
Lista separada por vírgulas dos serviços a serem excluídos da validação |
Esse comando executa o teste em todo o cluster, exceto no Istio e no Insights. |
Formato de saída
json, yaml, texte junit. Você pode passar esses valores para qualquer comando por meio do sinalizador --output . Esses formatos de saída são úteis quando você deseja aproveitar essas ferramentas para criar sua própria estrutura de solução de problemas com base nelas.
Usos de exemplos
|
Uso |
Saída de exemplo |
|---|---|
| |
| |
| |
| |
INFO Registros
Os logs INFO em verde mostram que as verificações necessárias passaram. No entanto, você ainda deve verificar adequadamente o uso de disco/memória para evitar erros ocultos.
Mensagens de AVISO
Mesmo que essas mensagens não sinalizem um alto risco, talvez seja necessário corrigi-las, pois podem afetar alguns serviços em determinados cenários.
Mensagens de erro
Você deve corrigir os problemas descritos por essas mensagens, pois elas afetam algum serviço no cluster.
Rke2-servidor ou Rke2-agente Service Down
Se esses serviços estiverem inoperantes, significa que o nó está inoperante. Tente reiniciar o serviço usando systemctl restart <service-name>, pois isso deve corrigir o problema.
Tamanho do diretório montado em /var/lib
/var/lib conforme o Kubernetes o usa para armazenar seus dados. Se o diretório estiver cheio, vários problemas podem surgir. Para evitar esses problemas, aumente seu tamanho.
Versão Rke2
rke2 para referência.
Demanda de disco ou demanda de memória
Para todos os nós, especificamos se eles estão sob demanda de disco ou demanda de memória. Se isso acontecer, as cargas de trabalho nesses nós podem começar a apresentar problemas. Verifique se existem outros processos em execução nesses nós que estão consumindo recursos e remova-os, se for o caso.
Status dos serviços do Ceph
Usamos o Ceph como armazenamento de objetos S3 para armazenar logs e arquivos de diferentes aplicativos. Você pode exibir o status de seus serviços. Se eles estiverem inoperantes, talvez seja necessário reiniciá-los. Verifique também se o uso do disco pelo Ceph está cheio.
Portas 443 e 31443
31443 e 443 sejam abertas com o nome de host fornecido. O relatório indica se eles não estão acessíveis. Abra as portas apropriadas se apontadas aqui.
Validade do certificado
A ferramenta verifica se o certificado carregado é válido para o nome de host fornecido e se ele não expirou. Se o certificado não atender a esses critérios, ocorrerão erros. Para evitar isso, verifique o seu certificado carregado e altere-o, se necessário.
GPU
Como alguns serviços exigem que a GPU esteja presente em alguns nós do cluster, a Ferramenta de diagnóstico do Automation Suite verifica se há nós de GPU e apresenta a quantidade de tais nós. Se você espera que os nós de GPU estejam presentes e eles não aparecerem aqui, isso significa que algo deu errado na configuração da GPU.
RabbitMQ e DockerRegistry
O RabbitMQ e o DockerRegistry são dois componentes importantes que alguns serviços usam. Se algum deles estiver inoperante, você precisará investigar o problema e reiniciar.
Serviços do ArgoCD inoperantes
O ArgoCD é nossa ferramenta de gerenciamento do ciclo de vida do aplicativo (ALM). Se algum dos serviços estiver inoperante, outros aplicativos poderão ficar desatualizados ou apresentar outros problemas. A recuperação desses serviços é importante e pode precisar de depuração adicional.
Aplicativos do ArgoCD ausentes ou degradados
A Ferramenta de diagnóstico do Automation Suite mostra se os aplicativos do ArgoCD estão faltando ou estão degradados.
- Se os aplicativos estiverem ausentes, acesse a interface do usuário do ArgoCD e sincronize-o.
- Se os aplicativos estiverem degradados, é necessária depuração adicional para investigar os erros gerados pelo ArgoCD
- Validação rápida
- Validação rápida
- Verificação de integridade
- Teste de integridade
- Validação profunda
- Validação profunda
- Utilitários adicionais
- Utilitários adicionais
- Leitura de relatórios de diagnóstico
- INFO Registros
- Mensagens de AVISO
- Mensagens de erro
- Rke2-servidor ou Rke2-agente Service Down
- Tamanho do diretório montado em /var/lib
- Versão Rke2
- Demanda de disco ou demanda de memória
- Status dos serviços do Ceph
- Portas 443 e 31443
- Validade do certificado
- GPU
- RabbitMQ e DockerRegistry
- Serviços do ArgoCD inoperantes
- Aplicativos do ArgoCD ausentes ou degradados