- Información general
- Requisitos
- Recomendado: plantillas de implementación
- Manual: preparar la instalación
- Manual: preparar la instalación
- Paso 1: configurar el registro compatible con OCI para las instalaciones sin conexión
- Paso 2: configurar el almacén de objetos externo
- Paso 3: configurar High Availability Add-on
- Paso 4: configurar Microsoft SQL Server
- Paso 5: configurar el equilibrador de carga
- Paso 6: configurar el DNS
- Paso 7: configurar los discos
- Paso 8: configurar el kernel y la configuración en el nivel del sistema operativo
- Paso 9: configurar los puertos de nodo
- Paso 10: aplicar ajustes diversos
- Paso 12: Validar e instalar los paquetes RPM necesarios
- Paso 13: Generar cluster_config.json
- Configuración de certificados
- Configuración de la base de datos
- Configuración del almacén de objetos externo
- Configuración de URL prefirmada
- Configuración de registro externo compatible con OCI
- Disaster recovery: configuraciones activas/pasivas y activas/activas
- Configuración de High Availability Add-on
- Configuración específica de Orchestrator
- Configuración específica de Insights
- Process Mining-specific configuration
- Configuración específica de Document Understanding
- Automation Suite Robots-specific configuration
- Configuración de la supervisión
- Opcional: configurar el servidor proxy
- Opcional: habilitación de la resistencia a fallos de zona en un clúster multinodo de producción preparada para alta disponibilidad
- Opcional: pasar resolv.conf personalizado
- Optional: Increasing fault tolerance
- parámetros de install-uipath.sh
- Inclusión de un nodo agente dedicado compatible con GPU
- Añadir un nodo agente dedicado a Task Mining
- Conexión de la aplicación Task Mining
- Añadir un nodo agente dedicado a Automation Suite Robots
- Paso 15: configurar el registro temporal de Docker para las instalaciones sin conexión
- Paso 16: validar los requisitos previos para la instalación
- Manual: realizar la instalación
- Después de la instalación
- Administración de clústeres
- Gestionar los productos
- Primeros pasos con el Portal de administración del clúster
- Migrating objectstore from persistent volume to raw disks
- Migrar del en el clúster a High Availability Add-on externo
- Migrating data between objectstores
- Migrating in-cluster objectstore to external objectstore
- Migrar a un registro externo compatible con OCI
- Cambiar manualmente al clúster secundario en una configuración activa/pasiva
- Disaster Recovery: realizar operaciones posteriores a la instalación
- Convertir una instalación existente en una configuración en varios sitios
- Directrices sobre la actualización de una implementación activa/pasiva o activa/activa
- Directrices sobre la copia de seguridad y restauración de una implementación activa/pasiva o activa/activa
- Redireccionando el tráfico de los servicios no compatibles al clúster principal
- Supervisión y alertas
- Migración y actualización
- Paso 1: Mover los datos de la organización de identidad de independiente a Automation Suite
- Paso 2: restaurar la base de datos del producto independiente
- Paso 3: Realizar una copia de seguridad de la base de datos de la plataforma en Automation Suite
- Paso 4: Fusionar organizaciones en Automation Suite
- Paso 5: actualizar las cadenas de conexión de los productos migrados
- Paso 6: migrar el Orchestrator independiente
- Paso 7: migrar Insights independiente
- Paso 8: eliminar el tenant predeterminado
- B) Migración de tenant único
- Migrar de Automation Suite en Linux a Automation Suite en EKS / AKS
- Actualizar Automation Suite
- Descargar los paquetes de instalación y obtener todos los archivos del primer nodo del servidor
- Recuperar la última configuración aplicada del clúster
- Actualizar la configuración del clúster
- Configurar el registro compatible con OCI para las instalaciones sin conexión
- Ejecutar la actualización
- Realizar operaciones posteriores a la actualización
- Configuración específica del producto
- Uso de la herramienta de configuración de Orchestrator
- Configurar parámetros de Orchestrator
- Configuración de Orchestrator
- Configurar AppSettings
- Configurar el tamaño máximo de la solicitud
- Anular la configuración de almacenamiento a nivel de clúster
- Configurar almacenes de credenciales
- Configurar clave de cifrado por tenant
- Limpiar la base de datos de Orchestrator
- Buenas prácticas y mantenimiento
- Solución de problemas
- Cómo solucionar los problemas de los servicios durante la instalación
- Cómo desinstalar el clúster
- Cómo limpiar los artefactos sin conexión para mejorar el espacio en disco
- Cómo borrar datos de Redis
- Cómo habilitar el registro de Istio
- Cómo limpiar manualmente los registros
- Cómo limpiar los registros antiguos almacenados en el paquete sf-logs
- Cómo deshabilitar los registros de transmisión para AI Center
- Cómo depurar instalaciones de Automation Suite fallidas
- Cómo eliminar imágenes del instalador antiguo después de la actualización
- Cómo deshabilitar la descarga de la suma de comprobación TX
- Cómo actualizar desde Automation Suite 2022.10.10 y 2022.4.11 a 2023.10.2
- Cómo establecer manualmente el nivel de registro de ArgoCD en Info
- Cómo expandir el almacenamiento de AI Center
- Cómo generar el pull_secret_value codificado para registros externos
- Cómo abordar los cifrados débiles en TLS 1.2
- No se puede ejecutar una instalación sin conexión en el sistema operativo RHEL 8.4
- Error al descargar el paquete
- La instalación sin conexión falla porque falta un binario
- Problema de certificado en la instalación sin conexión
- First installation fails during Longhorn setup
- Error de validación de la cadena de conexión SQL
- Error en la comprobación de requisitos previos para el módulo iscsid de selinux
- Azure disk not marked as SSD
- Fallo tras la actualización del certificado
- El antivirus causa problemas de instalación
- Automation Suite not working after OS upgrade
- Automation Suite requiere que backlog_wait_time se establezca en 0
- El volumen no se puede montar porque no está listo para las cargas de trabajo
- Error de recopilación de registros del paquete de soporte
- La actualización de nodo único falla en la etapa de tejido
- Cluster unhealthy after automated upgrade from 2021.10
- Upgrade fails due to unhealthy Ceph
- RKE2 no se inicia debido a un problema de espacio
- El volumen no se puede montar y permanece en estado de bucle de conexión/desconexión
- La actualización falla debido a objetos clásicos en la base de datos de Orchestrator
- El clúster de Ceph se encuentra en un estado degradado tras una actualización en paralelo.
- Un componente Insights en mal estado provoca el fallo de la migración
- La actualización del servicio falla para Apps
- Tiempos de actualización in situ
- La migración del registro de Docker se atasca en la fase de eliminación de PVC
- Fallo de aprovisionamiento de AI Center después de actualizar a 2023.10
- La actualización falla en entornos sin conexión
- La validación SQL falla durante la actualización
- pod de snapshot-controller-crds en estado CrashLoopBackOff después de la actualización
- Establecer un intervalo de tiempo de espera para los portales de gestión
- La autenticación no funciona tras la migración
- kinit: no se puede encontrar la KDC para el territorio <AD Domain> mientras se obtienen las credenciales iniciales
- kinit: keytab no contiene claves adecuadas para *** mientras se obtienen las credenciales iniciales
- Error en la operación GSSAPI debido a un código de estado no válido
- Alarma recibida por un error en el trabajo de Kerberos-tgt-update
- Proveedor de SSPI: servidor no encontrado en la base de datos de Kerberos
- Error en inicio de sesión de un usuario AD debido a una cuenta deshabilitada
- ArgoCD login failed
- Actualizar las conexiones del directorio subyacente
- Fallo en la obtención de la imagen de Sandbox
- Los pods no se muestran en la interfaz de usuario de ArgoCD
- Fallo de la sonda Redis
- El servidor RKE2 no se inicia
- Secreto no encontrado en el espacio de nombres UiPath
- ArgoCD entra en estado de progreso tras la primera instalación
- Pods MongoDB en CrashLoopBackOff o pendientes de aprovisionamiento de PVC tras su eliminación
- Unhealthy services after cluster restore or rollback
- Pods atascados en Inicialización: 0 / X
- Faltan métricas de Ceph-rook en los paneles de supervisión
- Document Understanding no se encuentra en la barra izquierda de Automation Suite
- Estado fallido al crear una sesión de etiquetado de datos
- Estado fallido al intentar implementar una habilidad ML
- El trabajo de migración falla en ArgoCD
- El reconocimiento de la escritura manual con el extractor de formularios inteligente no funciona
- Ejecutar alta disponibilidad con Process Mining
- La ingestión de Process Mining falló al iniciar sesión con Kerberos
- Después de Disaster Recovery, Dapr no funciona correctamente para Process Mining y Task Mining
- No se puede conectar a la base de datos AutomationSuite_ProcessMining_Warehouse utilizando una cadena de conexión en formato pyodbc
- La instalación de Airflow falla con sqlalchemy.exc.ArgumentError: no se pudo analizar la URL rfc1738 de la cadena ''
- Cómo añadir una regla de tabla de IP para utilizar el puerto 1433 de SQL Server
- Ejecutar la herramienta de diagnóstico
- Uso de la herramienta del paquete de soporte de Automation Suite
- Explorar registros
Paso 3: Pasos posteriores a la implementación
\
puede no funcionar como se espera. Para garantizar que las nuevas líneas se interpreten correctamente, utilice el widget de portapapeles de la consola.
installResult
(en el contenedor) es successful
. El contenido será failed
si falla la instalación.
El proceso de instalación genera certificados autofirmados en tu nombre. Estos certificados son compatibles con FIPS 140-2. La plantilla de implementación de Azure también te ofrece la opción de proporcionar un certificado de servidor emitido por una autoridad de certificación en el momento de la instalación en lugar de utilizar un certificado autofirmado y generado de forma automática.
Estos certificados autofirmados caducarán en 90 días, y deberá sustituirlos por certificados firmados por una autoridad de certificación de confianza en cuanto finalice la instalación. Si no actualiza los certificados, la instalación dejará de funcionar transcurridos 90 días.
Si instalaste Automation Suite en un host habilitado para FIPS 140-2 y deseas actualizar los certificados, asegúrate de que sean compatibles con FIPS 140-2.
Para obtener instrucciones, consulta Gestión de certificados.
Tras completar una instalación de Automation Suite utilizando la plantilla de implementación de Azure, puedes habilitar FIPS 140-2 en tus máquinas. Para obtener instrucciones, consulta Seguridad y cumplimiento.
Si necesita más información sobre el proceso de instalación de Automation Suite u otras operaciones, un buen lugar para comenzar es la cuenta de almacenamiento utilizada para almacenar varios indicadores y registros durante la implementación y el mantenimiento del clúster.
Para localizar la cuenta de almacenamiento, siga los siguientes pasos:
El contenedor de indicadores almacena varios indicadores o archivos necesarios para la orquestación o simplemente para informar del estado de varias operaciones. En un clúster nuevo, el contenido del contenedor de indicadores suele tener el aspecto que se muestra en el siguiente ejemplo:
Los archivos de los contenedores de indicadores se utilizan para organizar diversas operaciones, como el proceso de instalación de Automation Suite en el clúster, u operaciones específicas del clúster, como la actualización de instancias. Por ejemplo:
uipath-server-000000.success
indica que la instalación de la infraestructura se completó correctamente en ese nodo específico del clúster;installResult
leesuccess
si la instalación general se ha realizado correctamente.
Al realizar una operación, normalmente genera un archivo de registro en el contenedor de registros . En un clúster nuevo, el contenido del contenedor de registros normalmente se ve como se muestra en el siguiente ejemplo:
Cada archivo del contenedor de registros representa los registros de un paso específico del proceso de instalación. Por ejemplo:
infra-uipath-server-000000.log
almacena los registros de instalación de la infraestructura;fabric.log
almacena los registros de la instalación de la estructura;services.log
almacena los registros para la instalación de la aplicación y los servicios.
Una vez completada la instalación, deberá acceder a las salidas de implementación en la pestaña Salidas.
DateTime
) → Salidas.
Salida |
Descripción |
---|---|
Documentación |
Un enlace a la documentación. |
URL |
La URL del equilibrador de carga. Puede utilizarse para el acceso directo. Si se activaron dominios personalizados, este es el dominio que utilizaría para el enlace CNAME. |
KeyVaultURL |
La URL de Azure Portal para el almacén de claves creado por la implementación. Contiene todos los secretos (credenciales) que se utilizaron en la implementación. |
ArgoCDURL |
La URL para acceder a ArgoCD. Está disponible en la VNet. El acceso externo a esta URL debe configurarse como se describe en el Paso 4: configurar el DNS. |
ArgoCDPassword |
La contraseña que se utiliza para iniciar sesión en el portal de ArgoCD. |
HostAdminUsername y HostAdminPassword |
Las credenciales utilizadas para la administración del host. |
URL de administración de clúster |
La URL del portal de administración de clústeres. |
DashboardMonitoringURL |
La dirección URL de las herramientas de monitorización del panel (Grafana):
https://monitoring.<fqdn>/dashboard .
Asegúrate de reemplazar
<fqdn> por tu FQDN.
|
MetricsMonitoringURL |
La dirección URL de las herramientas de supervisión de métricas (Prometheus):
https://monitoring.<fqdn>/metrics .
Asegúrate de reemplazar
<fqdn> por tu FQDN.
|
AlertmanagerMonitoringURL |
La dirección URL de herramientas de supervisión de Alertmanager:
https://monitoring.<fqdn>/alertmanager .
Asegúrate de reemplazar
<fqdn> por tu FQDN.
|
Todas las credenciales utilizadas en la implementación se almacenan como secretos dentro de un almacén de claves aprovisionado durante la implementación. Para acceder a los secretos, filtre los recursos del grupo de recursos, busque Almacén y, a continuación, haga clic en Secretos.
The operation “List” is not enabled in the key vault’s access policy
en la pestaña Secretos, siga estos pasos:
- Diríjase a Directivas de acceso → Añadir directiva de acceso → Configurar la plantilla → Gestión de secretos → Seleccionar principal.
- Seleccione su usuario y, a continuación, haga clic en Guardar.
- Vuelva a Secretos. La advertencia debería haber desaparecido y los secretos deberían ser visibles.
Las máquinas virtuales se aprovisionan dentro de una VNet privada. Puede acceder a ellas a través de Azure Bastion, siguiendo estos pasos:
Tal como se menciona en el Paso 1: Preparar la implementación de Azure, la implementación de Automation Suite en Azure crea un equilibrador de carga con una IP pública y una etiqueta de DNS asociada. Esta etiqueta de DNS es propiedad de Microsoft.
La implementación también aprovisiona una zona de DNS privada dentro de la VNet del clúster y añade varios registros que se utilizan durante el proceso de instalación y configuración.
Si elige conectarse desde una máquina externa, no podrá utilizar la zona de DNS privada para resolver el DNS de varios servicios, por lo que deberá añadir estos registros a su archivo de host.
Consulta Paso 4: Configurar el DNS para obtener más detalles.
Ahora debería poder conectarse a varios servicios que se ejecutan en su clúster.
El portal de administración de clústeres es una ubicación centralizada donde puedes encontrar todos los recursos necesarios para completar la instalación de Automation Suite y realizar operaciones comunes posteriores a la instalación. Para obtener más información, consulta Primeros pasos con el portal de administración de clústeres.
Para acceder al portal de administración de clústeres, realice el siguiente paso:
https://${CONFIG_CLUSTER_FQDN}/uipath-management
.La interfaz de usuario de uso general de Automation Suite sirve de portal tanto para los administradores como para los usuarios de su organización. Se trata de un recurso común en el ámbito de la organización desde el que todo el mundo puede acceder a todas las áreas de Automation Suite: páginas de administración, páginas de la plataforma, páginas específicas de los servicios y también páginas específicas de los usuarios.
Para acceder a Automation Suite, siga estos pasos:
- Diríjase a la siguiente URL:
https://${Loadbalancer_dns}
, donde<loadbalancer_dns>
es la etiqueta de DNS para el equilibrador de carga. Se encuentra en Salidas. - Cambie a la organización predeterminada.
- El nombre de usuario es orgadmin.
- Recupera la contraseña yendo a Keyvault, Secretos y Contraseña de administrador Host.
El portal del host es donde los administradores de sistemas configurar la instancia de Automation Suite. Los ajustes configurados desde este portal son heredados por todas las organizaciones. Algunos pueden sobrescribirse en el nivel de la organización.
Para acceder a la administración del host, siga estos pasos:
- Diríjase a la siguiente URL:
https://${Loadbalancer_dns}
, donde<loadbalancer_dns>
es la etiqueta de DNS para el equilibrador de carga. Se encuentra en Salidas. - Cambie a la organización del host.
- Escribe el nombre de usuario que especificó previamente como valor para el parámetro Nombre de usuario de administrador de UiPath .
- Introduce la contraseña que has especificado previamente como un valor para el parámetro Clave de administrador de UiPath. Recupera la contraseña yendo a Keyvault, Secretos y Contraseña de administrador Host.
Puede utilizar la consola ArgoCD para gestionar los productos instalados.
Para acceder a ArgoCD, siga estos pasos:
- Diríjase a la siguiente URL:
https://alm.${Loadbalancer_dns}
, donde<loadbalancer_dns>
es la etiqueta de DNS para el equilibrador de carga. Se encuentra en Salidas. Ten en cuenta que debes configurar el acceso externo a esta URL, tal como se describe en el Paso 4: Configurar el DNS. - El nombre de usuario es admin.
- Para acceder a la contraseña, vaya a la pestaña Salidas o al almacén de credenciales.
Para acceder a las herramientas de supervisión por primera vez, inicie sesión como administrador con las siguientes credenciales predeterminadas:
- Nombre de usuario: admin
- Contraseña: para recuperar la contraseña , ejecuta el siguiente comando:
kubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -d
kubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -d
Para actualizar la contraseña predeterminada utilizada para acceder a las herramientas de supervisión, siga los siguientes pasos:
-
Ejecuta el siguiente comando reemplazando
newpassword
con tu nueva contraseña:password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]"
password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]" -
Ejecuta el siguiente comando reemplazando
<cluster_config.json>
con la ruta de tu archivo de configuración:/opt/UiPathAutomationSuite/UiPath_Installer/install-uipath.sh -i <cluster_config.json> -f -o output.json --accept-license-agreement
/opt/UiPathAutomationSuite/UiPath_Installer/install-uipath.sh -i <cluster_config.json> -f -o output.json --accept-license-agreement
Los recursos informáticos aprovisionados en la implementación son conjuntos de escalado de Azure, que facilitan la escalabilidad.
Puede añadir manualmente recursos adicionales a un conjunto de escalado específico, incluyendo la inclusión de nodos de servidor, nodos agente o nodos agente especializados (como nodos de GPU).
Puede llevar a cabo un escalado manual identificando el conjunto de escalado específico y añadiendo recursos directamente.
Para ello, siga estos pasos:
Después de realizar una actualización de clúster de Automation Suite, las implementaciones de plantillas de Azure requieren algunos cambios para garantizar que un nuevo nodo se una al clúster correctamente. Para automatizar los cambios, recomendamos utilizar el script dedicado. Para obtener instrucciones, consulta los documentos de la plantilla de implementación de Azure.
Azure permite una ventana de 15 minutos como máximo para prepararse para el apagado, mientras que la finalización ordenada de un nodo de Automation Suite varía de 20 minutos (para nodos de agente y agente de GPU) a horas (en el caso de nodos de servidor).
Para evitar la pérdida de datos, la política de actualización de VMSS del servidor se establece en manual y las máquinas virtuales del servidor tienen habilitada la protección para las acciones establecidas de la escala . Por ello, recomendamos gestionar el ciclo de vida de los servidores a través de los Runbook proporcionados.
Los runbook ActualizaciónDeInstancia, EliminarNodos, EliminarServidoresy CheckServerZoneResilience solo se admiten para implementaciones de producción multinodo preparadas para alta disponibilidad.
El número de servidores después de ejecutar cualquier runbook debe ser impar y superior a tres (por ejemplo, no puede ejecutar una actualización de instancia si tiene 4 servidores; no puede eliminar un servidor si tiene un total de cinco).
Running
.
Solo se debe ejecutar un runbook a la vez.
Los runbooks de InstanceRefresh, RemoveNodes y RemoveServers se ven afectados por un problema que provoca que las operaciones de eliminación de nodos fallen si utilizas Azure para el gobierno de los Estados Unidos.
Todas nuestras cuentas de almacenamiento y servidores SQL tienen puntos de conexión privados. Un grupo de trabajadores híbridos ejecuta las operaciones automatizadas existentes para que funcionen sin problemas.
Un trabajador híbrido es una máquina virtual que se encuentra dentro de la VNET y en la que se ejecutarán las diversas automatizaciones.
La VM suele ser Standard_D2s_v3 o Standard_F2s_v2, dependiendo de qué elijas para las VM de tu servidor y si la cuota lo permite. La máquina virtual se apaga cuando finaliza la implementación para minimizar los costes.
Los runbook se dividen en dos categorías: runbook regulares y runbook híbridos. Utilice los runbook normales para iniciar una operación y recopilar todos los datos. El runbook normal inicia la máquina virtual de trabajo híbrida y el runbook híbrido, y este último completa la operación.
Cuando la operación finalice, puede desactivar la máquina virtual de trabajo híbrido para limitar los costes.
La siguiente tabla describe el desglose del runbook:
Runbook regulares |
Runbook híbrido |
---|---|
AddGpuNode | HybridAddGpuNode |
BackupCluster | HybridBackupCluster |
GetAllBackups | HybridGetAllBackups |
InstanceRefresh | HybridInstanceRefresh (+HybridCheckServerZoneRezilience) |
RegisterAiCenterExternalOrchestrator | HybridRegisterAiCenterExternalOrchestrator |
RemoveNodes | HybridRemoveNodes |
RemoveServers | HybridRemoveServers |
RestoreClusterInitialize | HybridRestoreClusterInitialize + HybridRestoreClusterSnapshot |
ValidateFullInstall | Se ejecutó al final de la implementación para validar la instalación completa. |
Descripción
El runbook InstanceRefresh tiene los siguientes casos prácticos:
- Actualice la SKU del sistema operativo VMSS en los conjuntos de escalas de servidor, agente y GPU.
- Realizar una operación de rotación de nodo para uno o más VMS.
- Otros cambios de configuración de VMSS que se aplicaron a VMSS de antemano.
Uso
Detalles de implementación
El runbook InstanceRefresh es un contenedor para el runbook EliminarNodes. Como resultado, se realiza un seguimiento del estado mientras se ejecuta EliminarNodos. Actualiza todas las versiones del sistema operativo VMSS (si es necesario) y extrae, según los parámetros recibidos, el nombre de host para la operación de rotación de nodo y los reenvía a EliminarNodos. Si el clúster tiene exactamente tres servidores, el runbook InstanceRefresh crea tres nuevos servidores; de lo contrario, RemoveNodes gestiona el escalado para mantener al menos un servidor en cada zona de disponibilidad en todo momento.
Descripción
El runbook de EliminarNodos tiene los siguientes casos prácticos:
- Elimina los nodos especificados del clúster de Automation Suite.
- Realiza una operación de rotación de nodos para una/dos máquinas virtuales.
Uso
NODESTOBEREMOVEDCOMPUTERNAME
es una lista separada por comas de los nombres de las máquinas virtuales que quieres eliminar (p. Ej.,pxlqw-agent-000009,pxlqw-agent-00000A
) y es el único parámetro obligatorio. Recomendamos eliminar los nodos de un solo VMSS a la vez.-
ISINSTANCEREFRESH
yTHREESERVERSSCENARIO
son marcadores rellenados por el contenedor InstanceRefresh .Haga clic en el botón Aceptar para iniciar el runbook.
Detalles de implementación
El runbook EliminarNodos tiene un enfoque recursivo para superar el tiempo de espera de uso compartido justo de 3 horas. Elimina o repavifica el primer o los dos primeros nodos (el número se elige para cumplir la restricción de número impar de servidores) de la lista recibida y vuelve a ejecutar otra instancia del runbook con la lista restante.
La operación de reparación de nodos requiere seguir los siguientes pasos:
- Escale el VMSS con una o dos máquinas virtuales en función de la cantidad de nodos que se eliminarán.
- Realiza la eliminación de nodos para las instancias antiguas.
La operación de eliminación de nodo de un nodo requiere seguir los siguientes pasos:
- Acordonar y vaciar las instancias. El tiempo de espera de la operación se agota después de 20 minutos para un agente y
number_of_instances * 60
minutos para los servidores. - Detenga el servicio rke en las instancias. La operación agota el tiempo de espera después de 5 minutos.
- Elimina los nodos del clúster de Automation Suite y elimina las VM. El tiempo de espera de la operación se agota después de 20 minutos para los agentes y
number_of_instances * 60
minutos para los servidores.
Descripción
El runbook RemoveServers tiene el siguiente caso de uso:
- eliminar servidores del clúster de Automation Suite.
Uso
- Vaya a Azure Portal y busque el recurso llamado RemoveServers.
- Haz clic en el botón de inicio para abrir la lista de parámetros. Completa los parámetros teniendo en cuenta lo siguiente:
-
REMOVEDSERVERSCOUNT
es el número de servidores que se eliminarán. Recomendamos eliminar no más de 2 servidores a la vez para no agotar el tiempo de espera de uso compartido justo .
Detalles de implementación
El runbook EliminarServidores elimina el número de servidores recibidos como parámetro de las zonas de disponibilidad con más máquinas virtuales.
Descripción
El runbook CheckServerZoneResilience escala el VMSS del servidor y utiliza el runbook EliminarServidores para equilibrar los servidores en las zonas de disponibilidad. Esto forma parte del flujo de actualización de instancia y no se debe ejecutar manualmente.
Descripción
En el escenario en el que se creó la implementación inicial sin un nodo de GPU, creamos el conjunto de escalas de VM, pero tenemos un SKU diferente para evitar problemas de disponibilidad de zona / SKU. Este runbook cambia la SKU a SKU de GPU y agrega un nodo.
Uso
Para utilizar este runbook, siga los siguientes pasos:
- Navega hasta el grupo de recursos en el que implementaste Automation Suite y luego identifica Cuenta de automatizacióny haz clic en ella.
- Haz clic en Runbook y luego en el runbook AddGPUNode.
- Proporciona un nombre para el SKU que deseas y haz clic en Iniciar.
Parámetros:
skuName
: la SKU para los nodos de GPU VMSS.
Valores permitidos:
Estándar_NC8as_T4_v3
Estándar_NC12s_v3
Estándar_NC24s_v3
Descripción
El runbook registra AI Center en el Orchestrator externo proporcionado en el momento de la implementación.
Uso
IdentityToken
, que es un token de acceso a la instalación generado por el servicio de identidad externo. Dado que el token tiene una disponibilidad breve (aproximadamente de 1 a 2 horas), recomendamos generarlo justo antes de ejecutar el runbook. Para obtener más información, consulte Clave de instalación.
Descripción
El runbook de Copia de seguridad de clúster le ayuda a realizar una copia de seguridad de su clúster.
Uso
Descripción
El runbook GetAllBackup le ayuda a ver una lista de todas las copias de seguridad disponibles, tanto las programadas como las manuales.
Descripción
Estos runbook le ayudarán a restaurar el clúster.
Uso
Para realizar una operación de restauración, siga los siguientes pasos:
- En caso de que una máquina virtual no pueda unirse al clúster de Automation Suite, se intentará una reversión. Las máquinas virtuales recién creadas seguirán los mismos pasos que una eliminación de nodo habitual (acordonar, drenar, detener el servicio rke, eliminar el nodo del clúster y eliminar las máquinas virtuales). Puedes encontrar los registros del procedimiento de unión al nodo en la cuenta de almacenamiento, dentro del contenedor de registros , en blob como
infra-<hostname>.log
. -
En caso de error al eliminar los nodos, cualquier runbook se detendrá y mostrará los registros del paso que ha fallado. Solucione el problema, complete el proceso manualmente o usando el runbook de RemoveNodes. Puedes encontrar todos los registros en la cuenta de almacenamiento, dentro del contenedor de registros , de la siguiente manera:
- Acordonar y drenar -
<timestamp>-<runbook_abreviation>-drain_nodes.log
- Detener el servicio rke:
<timestamp>-<runbook_abreviation>-stop_rke.log
- Eliminar el nodo del clúster:
<timestamp>-<runbook_abreviation>-remove_nodes.log
- Acordonar y drenar -
- En caso de que se agote el tiempo de espera, debe esperar a que el paso finalice su ejecución, verificar los registros y completar el proceso manualmente o usando el runbook EliminarNodes. Todos los runbook usan la característica Ejecutar comando de Azure para ejecutar código en el contexto de las máquinas virtuales. Una limitación de este método es que no devuelve el estado de la ejecución. Por lo tanto, los pasos para acordonar, drenar y detener el servicio rke se ejecutan de forma asíncrona, y el estado se mantiene con los blob en el siguiente formato:
<timestamp>-<runbook_abreviation>-<step_name>.<success/fail>
.
- Validar la instalación
- Actualizar certificados
- Habilitar FIPS 140-2
- Exploring flags and logs
- Contenedor de banderas
- Contenedor de registros
- Acceder a las salidas de implementación
- Salidas de implementación
- Acceder a las máquinas virtuales del clúster
- Requisitos de DNS
- Acceso al Portal de administración del clúster
- Acceder a la interfaz general de Automation Suite
- Acceder a la administración del host
- Acceder a ArgoCD
- Acceder a las herramientas de supervisión
- Escalar el clúster
- Completar una actualización
- Operaciones del ciclo de vida de la máquina virtual de Azure
- Trabajadoras híbridas
- InstanceRefresh
- RemoveNodes
- RemoveServers
- CheckServerZoneResilience
- AddGpuNode
- RegisterAiCenterExternalOrchestrator
- BackupCluster
- GetAllBackups
- RestoreClusterInitialize, RestoreSnapshot
- Solución de problemas