UiPath Documentation
agents
latest
false
Importante :
La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.
UiPath logo, featuring letters U and I in white

Guía del usuario de Agents

Última actualización 2 de abr. de 2026

Evaluar agentes conversacionales

Las evaluaciones ayudan a garantizar que tu agente de conversación se comporta de forma fiable en rutas de diálogo variadas. Esta página explica cómo probar tu agente utilizando el chat de depuración, creando conjuntos de evaluación y ejecutando pruebas automatizadas.

Chat de depuración

Chat de depuración proporciona un entorno de prueba en tiempo real donde puedes interactuar con tu agente e inspeccionar su comportamiento.

Iniciar una sesión de depuración

  1. En Studio Web, abre tu agente conversacional.
  2. Selecciona Depurar para abrir la interfaz de chat.
  3. Envía mensajes para probar las respuestas de tu agente.

Interfaz del chat de depuración

Ver seguimientos de ejecución

El panel de historial muestra detalles en tiempo real de la ejecución del agente:

  • Llamadas de LLM: las solicitudes enviadas al modelo y las respuestas recibidas.
  • Llamadas de herramientas: qué herramientas se invocaron, con argumentos y salidas.

Expande cualquier paso para ver los detalles completos, incluidos los recuentos de tokens y la latencia.

Panel de seguimiento de ejecución

Ver citas

Cuando tu agente utiliza la contextualización, aparecen citas en la respuesta que muestran qué documentos informaron la respuesta.

  1. Busca marcadores de cita en la respuesta del agente (normalmente referencias numeradas).
  2. Selecciona una cita para ver el documento de origen y el extracto relevante.
  3. Verifica que las citas apoyen con precisión la respuesta del agente.

Vista de cita

Añadir conversaciones a los conjuntos de evaluación

Después de una interacción de prueba correcta, guárdala para las pruebas automatizadas:

  1. En la pestaña Chat, selecciona Añadir al conjunto de evaluación.
  2. Elige un conjunto de evaluación existente o crea uno nuevo.

La conversación se guarda con:

  • Historial de conversación: todas las intervenciones anteriores en el diálogo.
  • Mensaje de usuario actual: la última entrada del usuario.
  • Respuesta esperada del agente: la respuesta real del agente (que puedes editar).

Conjuntos de evaluación

Los conjuntos de evaluación son colecciones de casos de prueba que validan el comportamiento de tu agente. Admiten tanto escenarios de prueba de un solo turno como de varios turnos.

Para obtener una guía de evaluación detallada, consulta Evaluaciones de agente.

Evaluaciones de un solo turno

Las evaluaciones de un solo turno prueban los pares de pregunta y respuesta aislados sin historial de conversación. Son pruebas de evaluación en las que pruebas la primera solicitud de una conversación.

Usa las evaluaciones de un solo turno para:

  • Probar la recuperación de conocimiento específico.
  • Validar la selección de herramientas para diferentes intenciones.
  • Comprobar el formato y el tono de respuesta.

Ejemplo:

Mensaje de usuarioComportamiento esperado
"¿Cuántos días festivos tenemos en los EE. UU.?"Devuelve el recuento correcto, cita el documento de política
"Programa una reunión con John para mañana a las 14:00"Llama a la herramienta de calendario con los parámetros correctos

Evaluaciones de varios turnos

Las evaluaciones de varios turnos prueban cómo el agente maneja el contexto de conversación y las preguntas de seguimiento. Son pruebas de evaluación en las que la solicitud probada sigue la conversación anterior.

Usa las evaluaciones de varios turnos para:

  • Probar la retención de contexto en todos los turnos.
  • Validar la resolución de pronombres ("it", "that", "the same").
  • Comprobar el flujo de conversación y la coherencia.

Ejemplo:

TurnoMensajeComportamiento esperado
1"¿Cuál es la política de PTO?"Devuelve el resumen de la política de PTO
2"¿Cómo puedo solicitar días libres?"Hace referencia al contexto de PTO, explica el proceso de solicitud
3"¿Puedo hacer eso a través de correo electrónico?"Entiende que "eso" se refiere a solicitar días libres

Crear pruebas de evaluación

Desde el chat de depuración
  1. Ejecuta una conversación en el chat de depuración.
  2. Seleccionar Añadir a conjunto de evaluación en el panel Chat.
  3. El intercambio de conversación se añadirá como prueba de evaluación en tu conjunto de evaluación designado.
Usando el Creador de conversación

El Creador de conversación te permite crear o editar casos de prueba de varios turnos:

  1. Selecciona Conjuntos de evaluación para tu agente en Studio Web.
  2. Selecciona un conjunto de evaluación o crea uno nuevo. Si estas opciones están deshabilitadas, asegúrate de no estar en modo depuración.
  3. Seleccionar Añadir a conjunto o edita una prueba existente.
  4. Usa el Creador de conversación para:
    • Añadir turnos del historial de conversación.
    • Definir el mensaje de usuario actual.
  5. Usa Configuración de salida para definir la aserción
    • Especifica la respuesta esperada del agente para los evaluadores deterministas y basados en LLM-como-juez.
    • Especifica las "notas de comportamiento y salida" para los evaluadores basados en trayectoria.

Creador de conversaciones

Simulaciones de herramienta

Las simulaciones te permiten probar el comportamiento del agente sin ejecutar puntos finales de herramienta reales. Para cada prueba de evaluación, puedes especificar si las herramientas deben ejecutarse realmente o simular su ejecución.

Las simulaciones mejoran las evaluaciones de agente al permitir:

  • Pruebas seguras: evita los efectos secundarios no deseados de llamar a API o servicios reales.
  • Ejecución más rápida: omite la latencia de la red y los retrasos del servicio externo.
  • Ejecuciones rentables: reduce los costes de API durante las pruebas iterativas.
  • Reproducibilidad: obtén resultados coherentes controlando las salidas de la herramienta.

Puedes configurar el comportamiento de simulación para cada prueba de evaluación:

  1. Abre un conjunto de evaluación.
  2. Selecciona un caso de prueba para editar.
  3. En la configuración de prueba, especifica qué herramientas deben simular la ejecución.
  4. Define la salida simulada esperada para cada herramienta.
Generar pruebas con lenguaje natural

Usa Autopilot para generar pruebas de evaluación a partir de las descripciones:

  1. En la pantalla Conjuntos de evaluación, selecciona Crear y luego Generar nuevo conjunto de evaluación.
  2. Describe los escenarios que quieres probar en lenguaje natural.
  3. Revisa y refina los casos de prueba generados.

Solicitud de ejemplo:

Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Nota:

Las pruebas de evaluación generadas por Autopilot utilizan automáticamente evaluaciones basadas en la trayectoria.

Cuadro de diálogo Generar pruebas

Ejecutar evaluaciones

Ejecutar una sola prueba

  1. Selecciona un caso de prueba de tu conjunto de evaluación.
  2. Selecciona Evaluar seleccionado.
  3. Revisa los resultados, comparando la salida real con la salida esperada.

Ejecutar evaluaciones en lote

  1. Ve a Conjuntos de evaluación.
  2. Selecciona Ejecutar en el conjunto de evaluación deseado para ejecutar todas las pruebas.
  3. Revisa los resultados que muestran las tasas de aprobación/error.

Resultados de la evaluación

Pruebas con diferentes modelos

Ejecuta el mismo conjunto de evaluación en diferentes modelos para comparar el rendimiento:

  1. En el conjunto de evaluación, seleccionar Configuración de evaluación para añadir un modelo de destino adicional.
  2. Ejecuta la evaluación.
  3. Compara los resultados de todos los modelos para identificar el mejor ajuste para tu caso de uso.

Esto te ayuda a entender:

  • Qué modelos funcionan mejor para tus escenarios específicos.
  • Compensaciones entre la calidad de respuesta y la latencia.
  • Implicaciones de coste de las diferentes opciones de modelo.

Métricas de evaluación

Las evaluaciones evalúan varias dimensiones del comportamiento del agente:

MétricaDescripción
Precisión de la respuesta¿Contiene la respuesta información correcta?
Selección de herramienta¿Eligió el agente la herramienta adecuada?
Calidad de la cita¿Las citas son relevantes y precisas?
Tono y formato¿Coincide la respuesta con el estilo esperado?
Retención de contexto¿Mantiene el agente el contexto en todos los turnos?

Prácticas recomendadas de evaluación

Prueba tanto con las rutas felices como con las no felices

No te limites a probar escenarios ideales. Incluye:

  • Preguntas ambiguas
  • Solicitudes fuera de ámbito
  • Casos límite y condiciones de error
  • Entradas multilenguaje (si se admite)

Crea suites de prueba representativas

Construye conjuntos de evaluación que reflejen los patrones de uso reales:

  • Analiza las consultas de usuario comunes de la producción
  • Incluye variaciones de la misma pregunta
  • Prueba diferentes perfiles de usuario y estilos de comunicación

Itera en función de los resultados

Usa los fallos de evaluación para mejorar tu agente:

  1. Identifica patrones en las pruebas fallidas.
  2. Actualiza las solicitudes del sistema o las configuraciones de las herramientas.
  3. Vuelve a ejecutar las evaluaciones para verificar las mejoras.
  4. Añade nuevas pruebas para los casos límite descubiertos.

Próximos pasos

¿Te ha resultado útil esta página?

Conectar

¿Necesita ayuda? Soporte

¿Quiere aprender? UiPath Academy

¿Tiene alguna pregunta? Foro de UiPath

Manténgase actualizado