- Información general
- Requisitos
- Instalación
- Q&A: Deployment templates
- Configurar las máquinas
- Configurar el almacén de objetos externo
- Configurar el equilibrador de carga
- Configurar el DNS
- Configurar Microsoft SQL Server
- Configurar los certificados
- Instalación de producción multinodo preparada para alta disponibilidad en línea
- Instalación de producción multinodo preparada para alta disponibilidad sin conexión
- Descarga de los paquetes de instalación
- parámetros de install-uipath.sh
- Habilitar el complemento de alta disponibilidad (HAA) de Redis para el clúster
- Archivo de configuración de Document Understanding
- Inclusión de un nodo agente dedicado compatible con GPU
- Conexión de la aplicación Task Mining
- Añadir un nodo agente dedicado a Task Mining
- Añadir un nodo agente dedicado a Automation Suite Robots
- Después de la instalación
- Administración de clústeres
- Supervisión y alertas
- Utilizar la pila de supervisión
- Runbooks de alerta
- Migración y actualización
- Rutas de actualización de Automation Suite
- Automatizado: Actualización en línea
- Automatizado: Actualización sin conexión
- Manual: Actualización en línea
- Manual: Actualización sin conexión
- Reversión por error
- Migración de disco físico Longhorn a LVM
- Migración de Canal a Cilium CNI
- Downgrading Ceph from 16.2.6 to 15.2.9
- Opciones de migración
- Paso 1: Mover los datos de la organización de identidad de independiente a Automation Suite
- Paso 2: restaurar la base de datos del producto independiente
- Paso 3: Realizar una copia de seguridad de la base de datos de la plataforma en Automation Suite
- Paso 4: Fusionar organizaciones en Automation Suite
- Paso 5: actualizar las cadenas de conexión de los productos migrados
- Paso 6: migrar Insights independiente
- Paso 7: eliminar el tenant predeterminado
- B) Migración de tenant único
- Configuración específica del producto
- Buenas prácticas y mantenimiento
- Solución de problemas
- Cómo solucionar los problemas de los servicios durante la instalación
- Cómo desinstalar el clúster
- Cómo limpiar los artefactos sin conexión para mejorar el espacio en disco
- Cómo borrar datos de Redis
- Cómo habilitar el registro de Istio
- Cómo limpiar manualmente los registros
- Cómo limpiar los registros antiguos almacenados en el depósito sf-logs
- Cómo deshabilitar los registros de transmisión para AI Center
- Cómo depurar instalaciones de Automation Suite fallidas
- Cómo eliminar imágenes del instalador antiguo después de la actualización
- Cómo limpiar automáticamente las instantáneas de Longhorn
- Cómo deshabilitar la descarga de la suma de comprobación TX
- Cómo abordar los cifrados débiles en TLS 1.2
- No se puede ejecutar una instalación sin conexión en el sistema operativo RHEL 8.4
- Error al descargar el paquete
- La instalación sin conexión falla porque falta un binario
- Problema de certificado en la instalación sin conexión
- First installation fails during Longhorn setup
- Error de validación de la cadena de conexión SQL
- Error en la comprobación de requisitos previos para el módulo iscsid de selinux
- Azure disk not marked as SSD
- Fallo tras la actualización del certificado
- El antivirus causa problemas de instalación
- Automation Suite not working after OS upgrade
- Automation Suite requiere que backlog_wait_time se establezca en 0
- El volumen no se puede montar porque no está listo para las cargas de trabajo
- No se puede iniciar Automation Hub y Apps con la configuración de proxy
- Fallo al cargar o descargar datos en el almacén de objetos
- PVC resize does not heal Ceph
- Fallo en el redimensionamiento de PVC
- Fallo en el redimensionamiento de PVC de objectstore
- Rook Ceph o Looker pod atascados en estado Init
- Error de archivo adjunto de volumen de StatefulSet
- Fallo en la creación de volúmenes persistentes
- Parche de reclamación de almacenamiento
- La copia de seguridad falló debido al error
- Todas las réplicas de Longhorn son defectuosas
- Establecer un intervalo de tiempo de espera para los portales de gestión
- Actualizar las conexiones del directorio subyacente
- La autenticación no funciona tras la migración
- kinit: no se puede encontrar la KDC para el territorio <AD Domain> mientras se obtienen las credenciales iniciales
- kinit: keytab no contiene claves adecuadas para *** mientras se obtienen las credenciales iniciales
- Error en la operación GSSAPI debido a un código de estado no válido
- Alarma recibida por un error en el trabajo de Kerberos-tgt-update
- Proveedor de SSPI: servidor no encontrado en la base de datos de Kerberos
- Error en inicio de sesión de un usuario AD debido a una cuenta deshabilitada
- ArgoCD login failed
- Fallo en la obtención de la imagen de Sandbox
- Los pods no se muestran en la interfaz de usuario de ArgoCD
- Fallo de la sonda Redis
- El servidor RKE2 no se inicia
- Secreto no encontrado en el espacio de nombres UiPath
- ArgoCD entra en estado de progreso tras la primera instalación
- Inconsistencia inesperada, ejecuta fsck manualmente
- Pods MongoDB en CrashLoopBackOff o pendientes de aprovisionamiento de PVC tras su eliminación
- El pod de MongoDB no se actualiza de 4.4.4-ent a 5.0.7-ent
- Unhealthy services after cluster restore or rollback
- Pods atascados en Inicialización: 0 / X
- Prometheus en estado CrashloopBackoff con error de falta de memoria (OOM)
- Faltan métricas de Ceph-rook en los paneles de supervisión
- Los pods no pueden comunicarse con FQDN en un entorno de proxy
- Document Understanding no se encuentra en la barra izquierda de Automation Suite
- Estado fallido al crear una sesión de etiquetado de datos
- Estado fallido al intentar implementar una habilidad ML
- El trabajo de migración falla en ArgoCD
- El reconocimiento de la escritura manual con el extractor de formularios inteligente no funciona
- Uso de la herramienta de diagnóstico de Automation Suite
- Uso de la herramienta del paquete de soporte de Automation Suite
- Explorar registros
Utilizar la pila de supervisión
La pila de supervisión para los clústeres de Automation Suite incluye Prometheus, Grafana y AlertManager, que están integrados en la interfaz de usuario del explorador de clústeres de Rancher.
Los fallos de los nodos pueden provocar un apagado de Kubernetes, que interrumpiría las alertas de Prometheus. Para evitar esto, recomendamos configurar una alerta independiente en el servidor RKE2.
En esta página se describen una serie de escenarios de supervisión. Para más detalles, consulta la documentación oficial de Rancher sobre el uso de Rancher Monitoring.
Al utilizar recopiladores para exportar métricas a herramientas de terceros, al habilitar la supervisión de la aplicación puede interrumpir la funcionalidad de Automation Suite.
En el cuadro de mandos Supervisión, compruebe en el panel inferior las alertas que se están generando.Las siguientes capturas de pantalla muestran varias alertas generadas actualmente.
Si las alertas son demasiado intrusivas, puede silenciarlas. Para hacerlo, siga los siguientes pasos:
Se recomienda encarecidamente la instalación de un receptor externo para las alertas. De este modo, las alertas se enviarán a medida que se produzcan, en lugar de tener que actualizar el panel Supervisión para ver las últimas alertas.
Para más detalles sobre cómo enviar alertas a un receptor externo, consulta la documentación de Rancher sobre Configuración del receptor de AlertManager.
Además de un receptor, debe configurar al menos una ruta que utilice ese receptor. Una ruta define cómo se agrupan las alertas y qué alertas se envían al receptor. Consulta la documentación de Rancher sobre la Configuración de rutas de AlertManager.
Consulte a continuación un ejemplo de cómo se mostrarán las alertas al utilizar el receptor de Slack. Al hacer clic en el enlace a AlertManager, se accede a la consola de AlertManager, donde se pueden silenciar las alertas y se encuentran más enlaces a la expresión de Prometheus que activó la alerta. Al hacer clic en la URL de Runbook, accederás a esta página con instrucciones específicas de corrección. Estos enlaces también están presentes cuando las alertas se envían a otros receptores externos.
En el panel Supervisión, haga clic en el mosaico Grafana. El panel de Grafana se mostrará ahora.
Puede supervisar el grupo de servicios de Istio a través de los siguientes paneles de Grafana: Panel de grupos de Istio y Carga de trabajo de Istio.
Este panel muestra el volumen global de solicitudes, así como las tasas de error 400 y 500 en toda la malla de servicios, para el período de tiempo seleccionado. Los datos aparecen en la esquina superior derecha de la ventana. Consulte los 4 gráficos de la parte superior para obtener esta información.
También muestra la tasa de éxito inmediata durante el último minuto para cada servicio individual. Ten en cuenta que una tasa de éxito de NaN indica que el servicio no está prestando tráfico actualmente.
Este panel muestra las métricas de tráfico en el rango de tiempo seleccionado en la esquina superior derecha de la ventana.
Usa los selectores de la parte superior del panel para profundizar en cargas de trabajo específicas. Es de especial interés el espacio de nombres uipath.
La sección superior muestra las métricas generales, la sección Cargas de trabajo entrantes separa el tráfico en función del origen, y la sección Servicios salientes separa el tráfico en función del destino.
Puede supervisar los volúmenes persistentes a través del panel Kubernetes / Volúmenes persistentes. Puede hacer un seguimiento del espacio libre y utilizado de cada volumen.
También puede comprobar el estado de cada volumen haciendo clic en el elemento Volúmenes persistentes dentro del menú Almacenamiento del Explorador de clústeres.
Para marcar la utilización del hardware por nodo, puede utilizar el panel Nodos. Los datos sobre la CPU, la memoria, el disco y la red están disponibles.
Puede supervisar la utilización del hardware para cargas de trabajo específicas con el panel Kubernetes / Calcular recursos / Espacio de nombres (cargas de trabajo). Seleccione el espacio de nombres uipath para obtener los datos necesarios.
- Haga clic en la flecha que apunta hacia abajo junto al título del gráfico y, a continuación, seleccione Compartir.
- Haga clic en la pestaña Instantánea, y establezca los valores Nombre de instantánea, Vencimiento y Tiempo de espere.
- Haz clic en Publicar en snapshot.raintank.io.
Para más detalles, consulta la documentación de Grafana sobre compartir paneles.
Para obtener más información sobre cómo crear paneles de Grafana persistentes personalizados, consulta la documentación de Rancher.
El acceso de administrador a Grafana no suele ser necesario en los clústeres de Automation Suite, ya que los paneles están disponibles para el acceso de lectura por defecto para los usuarios anónimos, y la creación de paneles persistentes personalizados debe crearse siguiendo las instrucciones nativas de Kubernetes enlazadas anteriormente en este documento.
Sin embargo, el acceso de administrador a Grafana es posible siguiendo las siguientes instrucciones.
El nombre de usuario y la contraseña predeterminados para el acceso de administrador de Grafana se pueden obtener de la siguiente manera:
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
Ten en cuenta que en los clústeres de Automation Suite de alta disponibilidad hay varios pods de Grafana para permitir un acceso de lectura ininterrumpido en caso de que falle el nodo, así como un mayor volumen de consultes de lectura. Esto es incompatible con el acceso de administrador porque los pods no comparten el estado de la sesión y el inicio de sesión lo requiere. Para solucionar esto, el número de réplicas de Grafana debe escalarse temporalmente a 1 mientras se desee el acceso del administrador. Consulte a continuación las instrucciones sobre cómo escalar el número de réplicas de Grafana:
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
La documentación sobre las métricas disponibles está aquí:
Puede crear alertas personalizadas utilizando una consulte de Prometheus con una expresión booleana.
Para ver el estado de los pods, implementaciones, StatefulSets, etc., puede utilizar la interfaz de usuario del explorador de clústeres. Esta es la misma página de destino a la que se accede después de registrarse en el punto final de rancher-server. La página de inicio muestra un resumen, con detalles específicos para cada tipo de recurso a la izquierda. El selector de espacio de nombres se encuentra en la parte superior de la página. Este panel también puede sustituirse por la herramienta Lens.
Prometheus utiliza la Función de escritura remota de Prometheus para obtener y exportar las métricas a un sistema externo.
remote_write
en un clúster de Automation Suite:
- Acceso al panel de supervisión de Rancher
- Comprobación de las alertas en curso
- Silenciar alertas
- Envío de alertas a un receptor externo
- Acceso al panel de control de Grafana
- Seguimiento del grupo de servicios
- Panel de grupos de Istio
- Panel de carga de trabajo de Istio
- Supervisión de los volúmenes persistentes
- Supervisión de la utilización del hardware
- Creación de una instantánea compartible de un gráfico de Grafana
- Creación de paneles personalizados y persistentes de Grafana
- Acceso de administrador a Grafana
- Consulte a Prometheus
- Creación de alertas personalizadas
- Supervisión del estado de los recursos de Kubernetes
- Exportación de las métricas de Prometheus a un sistema externo