- Primeros pasos
- Agentes de UiPath en Studio Web
- Acerca de los agentes de UiPath
- Licencia
- Solicitudes
- Trabajar con archivos
- Contextos
- Escalaciones y memoria del agente
- Evaluaciones
- Seguimientos de agente
- Puntuación del agente
- Gestión de agentes de UiPath
- Agentes de UiPath codificados

Guía del usuario de Agents
Evaluar agentes conversacionales
Las evaluaciones ayudan a garantizar que tu agente conversacional se comporte de forma fiable en diversas rutas de diálogo. Esta página explica cómo probar tu agente utilizando Depurar chat, crear conjuntos de evaluación y ejecutar pruebas automatizadas.
Depurar chat
El chat de depuración proporciona un entorno de prueba en tiempo real en el que puedes interactuar con tu agente e inspeccionar su comportamiento.
Iniciar una sesión de depuración
- En Studio Web, abre tu agente conversacional.
- Selecciona Depurar para abrir la interfaz de chat.
- Envía mensajes para probar las respuestas de tu agente.

Ver seguimientos de ejecución
El panel de historial muestra detalles en tiempo real de la ejecución del agente:
- Llamadas de LLM: las solicitudes enviadas al modelo y las respuestas recibidas.
- Llamadas a herramientas: qué herramientas se invocaron, con argumentos y salidas.
Expande cualquier paso para ver todos los detalles, incluidos los recuentos de tokens y la latencia.

Ver citas
Cuando tu agente utiliza Contextualización, aparecen citas en la respuesta que muestran qué documentos informaron la respuesta.
- Busca marcadores de cita en la respuesta del agente (normalmente referencias numeradas).
- Seleccione una cita para ver el documento de origen y el extracto relevante.
- Verifique que las citas respalden con precisión la respuesta del agente.

Añadir conversaciones a conjuntos de evaluación
Después de una interacción de prueba exitosa, guárdala para pruebas automatizadas:
- En la pestaña Chat , selecciona Añadir a conjunto de evaluación.
- Elija un conjunto de evaluación existente o cree uno nuevo.
La conversación se guarda con:
- Historial de conversaciones: todos los giros anteriores en el diálogo.
- Mensaje del usuario actual: la última entrada del usuario.
- Respuesta esperada del agente: la respuesta real del agente (que puedes editar).
Conjuntos de evaluación
Los conjuntos de evaluación son colecciones de casos de prueba que validan el comportamiento de tu agente. Admiten escenarios de prueba de un solo turno y de varios turnos.
Para obtener una guía de evaluación detallada, consulta Evaluaciones de agentes
Evaluaciones de un solo turno
Las evaluaciones de un solo turno prueban pares de preguntas y respuestas aislados sin historial de conversaciones. Son pruebas de evaluación en las que se prueba la primera solicitud de una conversación.
Utiliza evaluaciones de un solo turno para:
- Probar la recuperación de conocimientos específicos.
- Validar la selección de herramientas para diferentes intenciones.
- Comprobación del formato y tono de respuesta.
Ejemplo:
| Mensaje de usuario | Comportamiento esperado |
|---|---|
| "¿Cuántos días festivos tenemos en Estados Unidos?" | Devuelve el recuento correcto, cita el documento de política |
| "Programar una reunión con John mañana a las 14:00" | Herramienta de calendario de llamadas con parámetros correctos |
Evaluaciones multiturno
Las evaluaciones multiturno prueban cómo el agente maneja el contexto de la conversación y las preguntas de seguimiento. Son pruebas de evaluación en las que la solicitud probada sigue a una conversación anterior.
Utiliza evaluaciones multiturno para:
- Probar la retención del contexto en los turnos.
- Validando la resolución de pronombres ("eso", "eso", "lo mismo").
- Comprobación del flujo de conversación y la coherencia.
Ejemplo:
| Giro | Mensaje | Comportamiento esperado |
|---|---|---|
| 1 | "¿Cuál es la política de PTO?" | Devuelve el resumen de la política de PTO |
| 2 | "¿Cómo solicito tiempo libre?" | Hace referencia al contexto PTO, explica el proceso de solicitud |
| 3 | "¿Puedo hacerlo a través del correo electrónico?" | Entiende que "eso" se refiere a solicitar tiempo libre |
Crear pruebas de evaluación
Desde el chat de depuración
- Ejecuta una conversación en Depurar chat.
- Selecciona Añadir al conjunto de evaluación en el panel Chat .
- El intercambio de conversación se añadirá como prueba de evaluación en tu conjunto de evaluación designado.
Utilizar el creador de conversaciones
El Creador de conversaciones te permite crear o editar casos de prueba de varios turnos:
- Selecciona Conjuntos de evaluación para tu agente en Studio Web.
- Selecciona un conjunto de evaluación o crea uno nuevo. Si estas opciones están deshabilitadas, asegúrate de que no estás en modo de depuración.
- Selecciona Añadir para establecer o editar una prueba existente.
- Utiliza el Creador de conversaciones para:
- Añadir turnos al historial de conversaciones.
- Define el mensaje de usuario actual.
- Utilice Configuración de salida para definir la aserción
- Especifique la respuesta esperada del agente para los evaluadores deterministas y basados en LLM como juez.
- Especifique las "notas de comportamiento y salida" para los evaluadores basados en la trayectoria.

Simulaciones de herramientas
Las simulaciones te permiten probar el comportamiento del agente sin ejecutar puntos finales de herramientas reales. Para cada prueba de evaluación, puedes especificar si las herramientas deben ejecutarse realmente o simular su ejecución.
Las simulaciones mejoran las evaluaciones de los agentes habilitando:
- Pruebas seguras: evita los efectos secundarios no deseados de las llamadas a API o servicios reales.
- Ejecución más rápida: omite la latencia de la red y los retrasos de los servicios externos.
- Ejecuciones rentables: reduce los costes de la API durante las pruebas iterativas.
- Reproducibilidad: obtenga resultados consistentes controlando las salidas de la herramienta.
Puedes configurar el comportamiento de la simulación para cada prueba de evaluación:
- Abre un conjunto de evaluación.
- Seleccione un caso de prueba para editar.
- En la configuración de prueba, especifica qué herramientas deben simular la ejecución.
- Define la salida simulada esperada para cada herramienta.
Generar pruebas con lenguaje natural
Utiliza Autopilot para generar pruebas de evaluación a partir de descripciones:
- En la pantalla Conjuntos de evaluación, selecciona Crear y luego Generar nuevo conjunto de evaluación.
- Describe los escenarios que quieres probar en lenguaje natural.
- Revisa y refina los casos de prueba generados.
Solicitud de ejemplo:
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Las pruebas de evaluación generadas por Autopilot utilizan automáticamente evaluaciones basadas en la trayectoria.

Ejecutar evaluaciones
Ejecutar una sola prueba
- Selecciona un caso de prueba de tu conjunto de evaluación.
- Selecciona Evaluar seleccionados.
- Revisa los resultados, comparando la salida real con la salida esperada.
Ejecutar evaluaciones por lotes
- Ve a Conjuntos de evaluación.
- Selecciona Ejecutar en el conjunto de evaluación deseado para ejecutar todas las pruebas.
- Revise los resultados que muestran las tasas de aprobación/fallo.

Pruebas con diferentes modelos
Ejecuta el mismo conjunto de evaluación en diferentes modelos para comparar el rendimiento:
- En el conjunto de evaluación, selecciona Configuración de evaluación para añadir un modelo de destino adicional.
- Ejecuta la evaluación.
- Compara los resultados de los modelos para identificar el que mejor se adapta a tu caso de uso.
Esto te ayuda a entender:
- Qué modelos funcionan mejor para tus escenarios específicos.
- Compensaciones entre calidad de respuesta y latencia.
- Implicaciones de costes de las diferentes opciones de modelo.
Métricas de evaluación
Las evaluaciones evalúan múltiples dimensiones del comportamiento del agente:
| Métrica | Descripción |
|---|---|
| Precisión de la respuesta | ¿La respuesta contiene información correcta? |
| Selección de herramientas | ¿Eligió el agente la herramienta adecuada? |
| Calidad de la cita | ¿Son las citas relevantes y precisas? |
| Tono y formato | ¿La respuesta coincide con el estilo esperado? |
| Retención de contexto | ¿El agente mantiene el contexto en todos los turnos? |
Mejores prácticas de evaluación
Probar tanto las rutas felices como las no felices
No pruebes solo los escenarios ideales. Incluir:
- Preguntas ambiguas
- Solicitudes fuera de ámbito
- Casos límite y condiciones de error
- Entradas en varios idiomas (si son compatibles)
Crear conjuntos de pruebas representativos
Crea conjuntos de evaluación que reflejen patrones de uso reales:
- Analizar consultas comunes de usuario de producción
- Incluir variaciones de la misma pregunta
- Pruebe diferentes personas de usuario y estilos de comunicación
Iterar en función de los resultados
Utiliza los fallos de evaluación para mejorar tu agente:
- Identificar patrones en pruebas fallidas.
- Actualizar las solicitudes del sistema o las configuraciones de las herramientas.
- Vuelva a ejecutar las evaluaciones para verificar las mejoras.
- Añadir nuevas pruebas para casos límite descubiertos.
Próximos pasos
- Implementación: publique su agente probado
- Observabilidad: supervisar el rendimiento de la producción
- Evaluaciones de agentes: documentación detallada del marco de evaluación
- Depurar chat
- Iniciar una sesión de depuración
- Ver seguimientos de ejecución
- Ver citas
- Añadir conversaciones a conjuntos de evaluación
- Conjuntos de evaluación
- Evaluaciones de un solo turno
- Evaluaciones multiturno
- Crear pruebas de evaluación
- Ejecutar evaluaciones
- Ejecutar una sola prueba
- Ejecutar evaluaciones por lotes
- Pruebas con diferentes modelos
- Métricas de evaluación
- Mejores prácticas de evaluación
- Probar tanto las rutas felices como las no felices
- Crear conjuntos de pruebas representativos
- Iterar en función de los resultados
- Próximos pasos