- Introdução
- Requisitos de rede
- Requisitos e instalação de um nó
- Requisitos e instalação de vários nós
- Pós-instalação
- Acesso ao AI Center
- Provisionamento de um tenant do AI Center
- Atualização dos certificados do Orchestrator e do Identity Server
- Redimensionamento de PVC
- Adição de um novo nó ao cluster
- Instalação offline de pacotes de ML
- Configuração do cluster
- Configuração da pós-instalação do FQDN
- Backup e restauração do cluster
- Uso da pilha de monitoramento
- Configuração de uma autenticação do Kerberos
- Provisionamento de uma GPU
- Uso do arquivo de configuração
- Agendamento de nós
- Migração e atualização
- Guia básico de solução de problemas
Solução de problemas independente do AI Center
Esta seção fornece Informações sobre solução de problemas para o AI Center no ambiente independente.
As seções abaixo são específicas para o AI Center.
Certifique-se de seguir o procedimento adequado para suas necessidades.
input.json
expira e o registro do AI Center com o Identity Server falha. Siga as etapas abaixo para recuperá-lo.
- Faça login no
https://alm.<LB DNS>
usando o nome de usuárioadmin
. Para obter a senha, execute o seguinte comando:kubectl -n argocd get secret argocd-admin-password -o jsonpath={.data.password} | base64 -d
kubectl -n argocd get secret argocd-admin-password -o jsonpath={.data.password} | base64 -d - Acesse o ArgoCD e clique no bloco do aicenter.
- Clique em DETALHES DO APLICATIVO e acesse a aba Manifesto.
- Na aba Manifesto, clique em Editar.
- Obtenha o novo token de identidade atualizando o campo
accessToken
na aba Manifesto e clique em Salvar.
A sincronização começa automaticamente e é concluída.
curl: (92) HTTP/2 stream 0 was not closed cleanly: HTTP_1_1_REQUIRED (err 13)
.
Se houver um problema com seus bancos de dados, você pode recriá-los do zero diretamente após a instalação.
Você pode fazê-lo executando um comando SQL para descartar todos os bancos de dados e recriá-los da seguinte forma:
USE [master]
ALTER DATABASE [AutomationSuite_AICenter] SET SINGLE_USER WITH ROLLBACK IMMEDIATE
DROP DATABASE [AutomationSuite_AICenter]
CREATE DATABASE [AutomationSuite_AICenter]
GO
USE [master]
ALTER DATABASE [AutomationSuite_AICenter] SET SINGLE_USER WITH ROLLBACK IMMEDIATE
DROP DATABASE [AutomationSuite_AICenter]
CREATE DATABASE [AutomationSuite_AICenter]
GO
Esse problema pode ocorrer durante a instalação. O instalador pode falhar com o erro semelhante abaixo.
appproject.argoproj.io/fabric created
configmap/argocd-cm configured
[INFO] [2021-09-02T09:21:15+0000]: Checking if ArgoCD password was reset, looking for secrets/argocd-admin-password.
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:16+0000]: Secret not found, trying to log in with initial password...1/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:36+0000]: Secret not found, trying to log in with initial password...2/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:56+0000]: Secret not found, trying to log in with initial password...3/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:16+0000]: Secret not found, trying to log in with initial password...4/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:36+0000]: Secret not found, trying to log in with initial password...5/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:56+0000]: Secret not found, trying to log in with initial password...6/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:17+0000]: Secret not found, trying to log in with initial password...7/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:37+0000]: Secret not found, trying to log in with initial password...8/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:57+0000]: Secret not found, trying to log in with initial password...9/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:24:17+0000]: Secret not found, trying to log in with initial password...10/10
[ERROR][2021-09-02T09:24:37+0000]: Failed to log in
appproject.argoproj.io/fabric created
configmap/argocd-cm configured
[INFO] [2021-09-02T09:21:15+0000]: Checking if ArgoCD password was reset, looking for secrets/argocd-admin-password.
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:16+0000]: Secret not found, trying to log in with initial password...1/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:36+0000]: Secret not found, trying to log in with initial password...2/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:21:56+0000]: Secret not found, trying to log in with initial password...3/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:16+0000]: Secret not found, trying to log in with initial password...4/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:36+0000]: Secret not found, trying to log in with initial password...5/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:22:56+0000]: Secret not found, trying to log in with initial password...6/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:17+0000]: Secret not found, trying to log in with initial password...7/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:37+0000]: Secret not found, trying to log in with initial password...8/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:23:57+0000]: Secret not found, trying to log in with initial password...9/10
FATA[0000] dial tcp: lookup remusr-sf on 168.63.129.16:53: no such host
[INFO] [2021-09-02T09:24:17+0000]: Secret not found, trying to log in with initial password...10/10
[ERROR][2021-09-02T09:24:37+0000]: Failed to log in
Verifique todos os subdomínios necessários e certifique-se de que estejam configurados corretamente e sejam roteáveis como:
getent ahosts automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts alm.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts registry.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts monitoring.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts objectstore.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts alm.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts registry.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts monitoring.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
getent ahosts objectstore.automationsuite.mycompany.com | awk '{print $1}' | sort | uniq
automationsuite.mycompany.com
pelo FQDN do cluster.
Se os comandos/linhas acima não retornarem um endereço IP roteável, o subdomínio necessário para o AI Center não será configurado corretamente.
Esse erro é encontrado quando o DNS não é público.
Você precisa adicionar a Zona DNS privada (para o Azure) ou o Route 53 (para AWS).
Se os comandos acima retornarem o endereço IP adequado, siga as etapas abaixo.
- Exclua o namespace ArgoCD executando o seguinte comando:
export KUBECONFIG=/etc/rancher/rke2/rke2.yaml export PATH=$PATH:/var/lib/rancher/rke2/bin kubectl delete namespace argocd
export KUBECONFIG=/etc/rancher/rke2/rke2.yaml export PATH=$PATH:/var/lib/rancher/rke2/bin kubectl delete namespace argocd - Run the following command to
verify:
kubectl get namespace
kubectl get namespace
Não deve aparecer o namespace ArgoCD no resultado deste comando.
Para problemas relacionados com o acesso ao AI Center, siga as etapas das seguintes seções:
- Habilitando o kubectl
- Gerenciamento de certificados
- Como permitir que os robôs se comuniquem com o AI Center
https://objectstore.${CONFIG_CLUSTER_FQDN}
uma vez com cada navegador que deseja usar para ser capaz de interagir com o armazenamento.
- Token de identidade expirado
- Description
- Etapas de recuperação
- Mensagem: curl: (92) HTTP/2 fluxo 0 não foi fechado corretamente: HTTP_1_1_REQUIED (errr 13)
- Description
- Solução
- Como recriar bancos de dados
- O instalador não pode conectar-se ao ArgoCD para verificar se a senha foi redefinida
- Description
- Solução 1
- Solução 2
- Problemas ao acessar o AI Center
- Habilitação do AI Center no cluster restaurado
- Habilitação do AI Center no cluster restaurado