- Información general
- Requisitos
- Instalación
- Preguntas y respuestas: plantillas de implementación
- Descargar los paquetes de instalación
- parámetros de install-uipath.sh
- Habilitar el complemento de alta disponibilidad (HAA) de Redis para el clúster
- Archivo de configuración de Document Understanding
- Inclusión de un nodo agente dedicado compatible con GPU
- Conexión de la aplicación Task Mining
- Añadir un nodo agente dedicado a Task Mining
- Después de la instalación
- Administración de clústeres
- Supervisión y alertas
- Utilizar la pila de supervisión
- Runbooks de alerta
- Migración y actualización
- Configuración específica del producto
- Buenas prácticas y mantenimiento
- Solución de problemas
- Cómo solucionar los problemas de los servicios durante la instalación
- Cómo desinstalar el clúster
- Cómo limpiar los artefactos sin conexión para mejorar el espacio en disco
- How to disable TLS 1.0 and 1.1
- Cómo habilitar el registro de Istio
- Cómo limpiar manualmente los registros
- Cómo limpiar los registros antiguos almacenados en el depósito sf-logs
- Cómo depurar instalaciones de Automation Suite fallidas
- Cómo deshabilitar la descarga de la suma de comprobación TX
- No se puede ejecutar una instalación sin conexión en el sistema operativo RHEL 8.4
- Error al descargar el paquete
- La instalación sin conexión falla porque falta un binario
- Problema de certificado en la instalación sin conexión
- Error de validación de la cadena de conexión SQL
- Fallo tras la actualización del certificado
- Automation Suite requiere que Backlog_wait_time se establezca 1
- No se puede iniciar la sesión después de la migración
- Establecer un intervalo de tiempo de espera para los portales de gestión
- Actualizar las conexiones del directorio subyacente
- kinit: no se puede encontrar la KDC para el territorio <AD Domain> mientras se obtienen las credenciales iniciales
- kinit: keytab no contiene claves adecuadas para *** mientras se obtienen las credenciales iniciales
- La operación GSSAPI ha fallado con un error: se ha suministrado un código de estado no válido (las credenciales del cliente han sido revocadas).
- Inicio de sesión fallido para el usuario <ADDOMAIN><aduser>. Razón: cuenta deshabilitada.
- Alarma recibida por trabajo de actualización Kerberos-tgt fallido
- Proveedor SSPI: servidor no encontrado en la base de datos de Kerberos
- Fallo en la obtención de la imagen de Sandbox
- Los pods no se muestran en la interfaz de usuario de ArgoCD
- Fallo de la sonda Redis
- El servidor RKE2 no se inicia
- Secreto no encontrado en el espacio de nombres UiPath
- ArgoCD entra en estado de progreso tras la primera instalación
- Inconsistencia inesperada, ejecuta fsck manualmente
- Falta el operador de Self-heal y el repositorio de Sf-k8-utils
- MongoDB o aplicaciones empresariales degradadas después de la restauración del clúster
- Servicios en mal estado después de la restauración o reversión del clúster
- Document Understanding no se encuentra en la barra izquierda de Automation Suite
- Estado fallido al crear una sesión de etiquetado de datos
- Estado fallido al intentar implementar una habilidad ML
- El trabajo de migración falla en ArgoCD
- El reconocimiento de la escritura manual con el extractor de formularios inteligente no funciona
- Uso de la herramienta de diagnóstico de Automation Suite
- Using the Automation Suite support bundle
- Explorar registros
Utilizar la pila de supervisión
La pila de supervisión para los clústeres de Automation Suite incluye Prometheus, Grafana y AlertManager, que están integrados en la interfaz de usuario del explorador de clústeres de Rancher.
Los fallos de los nodos pueden provocar un apagado de Kubernetes, que interrumpiría las alertas de Prometheus. Para evitar esto, recomendamos configurar una alerta independiente en el servidor RKE2.
En esta página se describen una serie de escenarios de supervisión. Para más detalles, consulta la documentación oficial de Rancher sobre el uso de Rancher Monitoring.
Al utilizar recopiladores para exportar métricas a herramientas de terceros, al habilitar la supervisión de la aplicación puede interrumpir la funcionalidad de Automation Suite.
En el cuadro de mandos Supervisión, compruebe en el panel inferior las alertas que se están generando.Las siguientes capturas de pantalla muestran varias alertas generadas actualmente.
Si las alertas son demasiado intrusivas, puede silenciarlas. Para hacerlo, siga los siguientes pasos:
Se recomienda encarecidamente la instalación de un receptor externo para las alertas. De este modo, las alertas se enviarán a medida que se produzcan, en lugar de tener que actualizar el panel Supervisión para ver las últimas alertas.
Para más detalles sobre cómo enviar alertas a un receptor externo, consulta la documentación de Rancher sobre Configuración del receptor de AlertManager.
Además de un receptor, debe configurar al menos una ruta que utilice ese receptor. Una ruta define cómo se agrupan las alertas y qué alertas se envían al receptor. Consulta la documentación de Rancher sobre la Configuración de rutas de AlertManager.
Consulte a continuación un ejemplo de cómo se mostrarán las alertas al utilizar el receptor de Slack. Al hacer clic en el enlace a AlertManager, se accede a la consola de AlertManager, donde se pueden silenciar las alertas y se encuentran más enlaces a la expresión de Prometheus que activó la alerta. Al hacer clic en la URL de Runbook, accederás a esta página con instrucciones específicas de corrección. Estos enlaces también están presentes cuando las alertas se envían a otros receptores externos.
En el panel Supervisión, haga clic en el mosaico Grafana. El panel de Grafana se mostrará ahora.
Puede supervisar el grupo de servicios de Istio a través de los siguientes paneles de Grafana: Panel de grupos de Istio y Carga de trabajo de Istio.
Este panel muestra el volumen global de solicitudes, así como las tasas de error 400 y 500 en toda la malla de servicios, para el período de tiempo seleccionado. Los datos aparecen en la esquina superior derecha de la ventana. Consulte los 4 gráficos de la parte superior para obtener esta información.
También muestra la tasa de éxito inmediata durante el último minuto para cada servicio individual. Ten en cuenta que una tasa de éxito de NaN indica que el servicio no está prestando tráfico actualmente.
Este panel muestra las métricas de tráfico en el rango de tiempo seleccionado en la esquina superior derecha de la ventana.
Usa los selectores de la parte superior del panel para profundizar en cargas de trabajo específicas. Es de especial interés el espacio de nombres uipath.
La sección superior muestra las métricas generales, la sección Cargas de trabajo entrantes separa el tráfico en función del origen, y la sección Servicios salientes separa el tráfico en función del destino.
Puede supervisar los volúmenes persistentes a través del panel Kubernetes / Volúmenes persistentes. Puede hacer un seguimiento del espacio libre y utilizado de cada volumen.
También puede comprobar el estado de cada volumen haciendo clic en el elemento Volúmenes persistentes dentro del menú Almacenamiento del Explorador de clústeres.
Para marcar la utilización del hardware por nodo, puede utilizar el panel Nodos. Los datos sobre la CPU, la memoria, el disco y la red están disponibles.
Puede supervisar la utilización del hardware para cargas de trabajo específicas con el panel Kubernetes / Calcular recursos / Espacio de nombres (cargas de trabajo). Seleccione el espacio de nombres uipath para obtener los datos necesarios.
- Haga clic en la flecha que apunta hacia abajo junto al título del gráfico y, a continuación, seleccione Compartir.
- Haga clic en la pestaña Instantánea, y establezca los valores Nombre de instantánea, Vencimiento y Tiempo de espere.
- Haz clic en Publicar en snapshot.raintank.io.
Para más detalles, consulta la documentación de Grafana sobre compartir paneles.
Para obtener más información sobre cómo crear paneles de Grafana persistentes personalizados, consulta la documentación de Rancher.
El acceso de administrador a Grafana no suele ser necesario en los clústeres de Automation Suite, ya que los paneles están disponibles para el acceso de lectura por defecto para los usuarios anónimos, y la creación de paneles persistentes personalizados debe crearse siguiendo las instrucciones nativas de Kubernetes enlazadas anteriormente en este documento.
Sin embargo, el acceso de administrador a Grafana es posible siguiendo las siguientes instrucciones.
El nombre de usuario y la contraseña predeterminados para el acceso de administrador de Grafana se pueden obtener de la siguiente manera:
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
Ten en cuenta que en los clústeres de Automation Suite de alta disponibilidad hay varios pods de Grafana para permitir un acceso de lectura ininterrumpido en caso de que falle el nodo, así como un mayor volumen de consultes de lectura. Esto es incompatible con el acceso de administrador porque los pods no comparten el estado de la sesión y el inicio de sesión lo requiere. Para solucionar esto, el número de réplicas de Grafana debe escalarse temporalmente a 1 mientras se desee el acceso del administrador. Consulte a continuación las instrucciones sobre cómo escalar el número de réplicas de Grafana:
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
La documentación sobre las métricas disponibles está aquí:
Puede crear alertas personalizadas utilizando una consulte de Prometheus con una expresión booleana.
Para ver el estado de los pods, implementaciones, StatefulSets, etc., puede utilizar la interfaz de usuario del explorador de clústeres. Esta es la misma página de destino a la que se accede después de registrarse en el punto final de rancher-server. La página de inicio muestra un resumen, con detalles específicos para cada tipo de recurso a la izquierda. El selector de espacio de nombres se encuentra en la parte superior de la página. Este panel también puede sustituirse por la herramienta Lens.
Prometheus utiliza la Función de escritura remota de Prometheus para obtener y exportar las métricas a un sistema externo.
remote_write
en un clúster de Automation Suite:
- Acceso al panel de supervisión de Rancher
- Comprobación de las alertas en curso
- Silenciar alertas
- Envío de alertas a un receptor externo
- Acceso al panel de control de Grafana
- Seguimiento del grupo de servicios
- Panel de grupos de Istio
- Panel de carga de trabajo de Istio
- Supervisión de los volúmenes persistentes
- Supervisión de la utilización del hardware
- Creación de una instantánea compartible de un gráfico de Grafana
- Creación de paneles personalizados y persistentes de Grafana
- Acceso de administrador a Grafana
- Consulte a Prometheus
- Creación de alertas personalizadas
- Supervisión del estado de los recursos de Kubernetes
- Exportación de las métricas de Prometheus a un sistema externo