agents

latest

false

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Guía del usuario de Agents

Última actualización 13 de mar. de 2026

Evaluar agentes conversacionales

Las evaluaciones ayudan a garantizar que tu agente conversacional se comporte de forma fiable en diversas rutas de diálogo. Esta página explica cómo probar tu agente utilizando Depurar chat, crear conjuntos de evaluación y ejecutar pruebas automatizadas.

Depurar chat

El chat de depuración proporciona un entorno de prueba en tiempo real en el que puedes interactuar con tu agente e inspeccionar su comportamiento.

Iniciar una sesión de depuración

En Studio Web, abre tu agente conversacional.
Selecciona Depurar para abrir la interfaz de chat.
Envía mensajes para probar las respuestas de tu agente.

Interfaz del chat de depuración

Ver seguimientos de ejecución

El panel de historial muestra detalles en tiempo real de la ejecución del agente:

Llamadas de LLM: las solicitudes enviadas al modelo y las respuestas recibidas.
Llamadas a herramientas: qué herramientas se invocaron, con argumentos y salidas.

Expande cualquier paso para ver todos los detalles, incluidos los recuentos de tokens y la latencia.

Panel de seguimiento de ejecución

Ver citas

Cuando tu agente utiliza Contextualización, aparecen citas en la respuesta que muestran qué documentos informaron la respuesta.

Busca marcadores de cita en la respuesta del agente (normalmente referencias numeradas).
Seleccione una cita para ver el documento de origen y el extracto relevante.
Verifique que las citas respalden con precisión la respuesta del agente.

Vista de citas

Añadir conversaciones a conjuntos de evaluación

Después de una interacción de prueba exitosa, guárdala para pruebas automatizadas:

En la pestaña Chat , selecciona Añadir a conjunto de evaluación.
Elija un conjunto de evaluación existente o cree uno nuevo.

La conversación se guarda con:

Historial de conversaciones: todos los giros anteriores en el diálogo.
Mensaje del usuario actual: la última entrada del usuario.
Respuesta esperada del agente: la respuesta real del agente (que puedes editar).

Conjuntos de evaluación

Los conjuntos de evaluación son colecciones de casos de prueba que validan el comportamiento de tu agente. Admiten escenarios de prueba de un solo turno y de varios turnos.

Para obtener una guía de evaluación detallada, consulta Evaluaciones de agentes

Evaluaciones de un solo turno

Las evaluaciones de un solo turno prueban pares de preguntas y respuestas aislados sin historial de conversaciones. Son pruebas de evaluación en las que se prueba la primera solicitud de una conversación.

Utiliza evaluaciones de un solo turno para:

Probar la recuperación de conocimientos específicos.
Validar la selección de herramientas para diferentes intenciones.
Comprobación del formato y tono de respuesta.

Ejemplo:

Mensaje de usuario	Comportamiento esperado
"¿Cuántos días festivos tenemos en Estados Unidos?"	Devuelve el recuento correcto, cita el documento de política
"Programar una reunión con John mañana a las 14:00"	Herramienta de calendario de llamadas con parámetros correctos

Evaluaciones multiturno

Las evaluaciones multiturno prueban cómo el agente maneja el contexto de la conversación y las preguntas de seguimiento. Son pruebas de evaluación en las que la solicitud probada sigue a una conversación anterior.

Utiliza evaluaciones multiturno para:

Probar la retención del contexto en los turnos.
Validando la resolución de pronombres ("eso", "eso", "lo mismo").
Comprobación del flujo de conversación y la coherencia.

Ejemplo:

Giro	Mensaje	Comportamiento esperado
1	"¿Cuál es la política de PTO?"	Devuelve el resumen de la política de PTO
2	"¿Cómo solicito tiempo libre?"	Hace referencia al contexto PTO, explica el proceso de solicitud
3	"¿Puedo hacerlo a través del correo electrónico?"	Entiende que "eso" se refiere a solicitar tiempo libre

Crear pruebas de evaluación

Desde el chat de depuración

Ejecuta una conversación en Depurar chat.
Selecciona Añadir al conjunto de evaluación en el panel Chat .
El intercambio de conversación se añadirá como prueba de evaluación en tu conjunto de evaluación designado.

Utilizar el creador de conversaciones

El Creador de conversaciones te permite crear o editar casos de prueba de varios turnos:

Selecciona Conjuntos de evaluación para tu agente en Studio Web.
Selecciona un conjunto de evaluación o crea uno nuevo. Si estas opciones están deshabilitadas, asegúrate de que no estás en modo de depuración.
Selecciona Añadir para establecer o editar una prueba existente.
Utiliza el Creador de conversaciones para:
- Añadir turnos al historial de conversaciones.
- Define el mensaje de usuario actual.
Utilice Configuración de salida para definir la aserción
- Especifique la respuesta esperada del agente para los evaluadores deterministas y basados en LLM como juez.
- Especifique las "notas de comportamiento y salida" para los evaluadores basados en la trayectoria.

Conversation Builder

Simulaciones de herramientas

Las simulaciones te permiten probar el comportamiento del agente sin ejecutar puntos finales de herramientas reales. Para cada prueba de evaluación, puedes especificar si las herramientas deben ejecutarse realmente o simular su ejecución.

Las simulaciones mejoran las evaluaciones de los agentes habilitando:

Pruebas seguras: evita los efectos secundarios no deseados de las llamadas a API o servicios reales.
Ejecución más rápida: omite la latencia de la red y los retrasos de los servicios externos.
Ejecuciones rentables: reduce los costes de la API durante las pruebas iterativas.
Reproducibilidad: obtenga resultados consistentes controlando las salidas de la herramienta.

Puedes configurar el comportamiento de la simulación para cada prueba de evaluación:

Abre un conjunto de evaluación.
Seleccione un caso de prueba para editar.
En la configuración de prueba, especifica qué herramientas deben simular la ejecución.
Define la salida simulada esperada para cada herramienta.

Generar pruebas con lenguaje natural

Utiliza Autopilot para generar pruebas de evaluación a partir de descripciones:

En la pantalla Conjuntos de evaluación, selecciona Crear y luego Generar nuevo conjunto de evaluación.
Describe los escenarios que quieres probar en lenguaje natural.
Revisa y refina los casos de prueba generados.

Solicitud de ejemplo:

Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated

Nota:

Las pruebas de evaluación generadas por Autopilot utilizan automáticamente evaluaciones basadas en la trayectoria.

Generar cuadro de diálogo de pruebas

Ejecutar evaluaciones

Ejecutar una sola prueba

Selecciona un caso de prueba de tu conjunto de evaluación.
Selecciona Evaluar seleccionados.
Revisa los resultados, comparando la salida real con la salida esperada.

Ejecutar evaluaciones por lotes

Ve a Conjuntos de evaluación.
Selecciona Ejecutar en el conjunto de evaluación deseado para ejecutar todas las pruebas.
Revise los resultados que muestran las tasas de aprobación/fallo.

Evaluation results

Pruebas con diferentes modelos

Ejecuta el mismo conjunto de evaluación en diferentes modelos para comparar el rendimiento:

En el conjunto de evaluación, selecciona Configuración de evaluación para añadir un modelo de destino adicional.
Ejecuta la evaluación.
Compara los resultados de los modelos para identificar el que mejor se adapta a tu caso de uso.

Esto te ayuda a entender:

Qué modelos funcionan mejor para tus escenarios específicos.
Compensaciones entre calidad de respuesta y latencia.
Implicaciones de costes de las diferentes opciones de modelo.

Métricas de evaluación

Las evaluaciones evalúan múltiples dimensiones del comportamiento del agente:

Métrica	Descripción
Precisión de la respuesta	¿La respuesta contiene información correcta?
Selección de herramientas	¿Eligió el agente la herramienta adecuada?
Calidad de la cita	¿Son las citas relevantes y precisas?
Tono y formato	¿La respuesta coincide con el estilo esperado?
Retención de contexto	¿El agente mantiene el contexto en todos los turnos?

Mejores prácticas de evaluación

Probar tanto las rutas felices como las no felices

No pruebes solo los escenarios ideales. Incluir:

Preguntas ambiguas
Solicitudes fuera de ámbito
Casos límite y condiciones de error
Entradas en varios idiomas (si son compatibles)

Crear conjuntos de pruebas representativos

Crea conjuntos de evaluación que reflejen patrones de uso reales:

Analizar consultas comunes de usuario de producción
Incluir variaciones de la misma pregunta
Pruebe diferentes personas de usuario y estilos de comunicación

Iterar en función de los resultados

Utiliza los fallos de evaluación para mejorar tu agente:

Identificar patrones en pruebas fallidas.
Actualizar las solicitudes del sistema o las configuraciones de las herramientas.
Vuelva a ejecutar las evaluaciones para verificar las mejoras.
Añadir nuevas pruebas para casos límite descubiertos.

Próximos pasos

Implementación: publique su agente probado
Observabilidad: supervisar el rendimiento de la producción
Evaluaciones de agentes: documentación detallada del marco de evaluación

¿Te ha resultado útil esta página?

AnteriorDiseñar agentes conversacionales

Sig.Implementar agentes conversacionales

Guía del usuario de Agents

Depurar chat​

Iniciar una sesión de depuración​

Ver seguimientos de ejecución​

Ver citas​

Añadir conversaciones a conjuntos de evaluación​

Conjuntos de evaluación​

Evaluaciones de un solo turno​

Evaluaciones multiturno​

Crear pruebas de evaluación​

Desde el chat de depuración​

Utilizar el creador de conversaciones​

Simulaciones de herramientas​

Generar pruebas con lenguaje natural​

Ejecutar evaluaciones​

Ejecutar una sola prueba​

Ejecutar evaluaciones por lotes​

Pruebas con diferentes modelos​

Métricas de evaluación​

Mejores prácticas de evaluación​

Probar tanto las rutas felices como las no felices​

Crear conjuntos de pruebas representativos​

Iterar en función de los resultados​

Próximos pasos​