- Primeros pasos
- Agentes de UiPath en Studio Web
- Agentes de UiPath en Agent Builder
- Agentes codificados de UiPath

Guía del usuario de agentes
Evaluaciones
Cuando diseñas un agente, el objetivo es que sea fiable: algo en lo que puedas confiar para que te dé el resultado correcto de forma consistente. Las evaluaciones te ayudan a determinar si tu agente está haciendo un buen trabajo o si necesita mejoras.
Terminología
Una evaluación es un par entre una entrada y una afirmación realizada en la salida. Una aserción es una condición o regla definida que se utiliza para evaluar si la salida del agente cumple con la salida esperada.
Los conjuntos de evaluación son agrupaciones lógicas de evaluaciones.
Los resultados de evaluación son seguimientos de ejecuciones de evaluación completadas que evalúan el rendimiento de un agente. Durante estas ejecuciones, la precisión, la eficiencia y la capacidad de toma de decisiones del agente se miden y se puntúan en función de lo bien que rinde el agente.La puntuación de evaluación determina el rendimiento del agente en función de las aserciones en una evaluación específica. La puntuación está en una escala de 0 a 100. Las ejecuciones de evaluación fallidas deben volver a ejecutarse y depurarse.
Antes de crear una evaluación, debes probar primero tu agente para ver si su salida es correcta o no. Si tu agente se está ejecutando correctamente, puedes crear evaluaciones a partir de los seguimientos correctos. Si tu agente no se está ejecutando correctamente y su salida es incorrecta, puedes crear evaluaciones desde cero.
Crear evaluaciones a partir de ejecuciones de prueba y seguimiento del agente
- Después de diseñar tu agente, en el panel Campo de juego, añade la entrada necesaria para la ejecución de pruebas y selecciona Ejecutar.
- Una vez completada la ejecución y si la salida es correcta, selecciona el botón Añadir a conjunto de evaluación.
Si la salida del agente no es correcta, puedes:
- Refina la solicitud: ajusta la solicitud y vuelve a ejecutar el agente hasta que la salida sea correcta.
- Crear evaluaciones a partir de salidas incorrectas: genera evaluaciones basadas en las salidas incorrectas y edítalas manualmente para que se alineen con el resultado esperado.
Como alternativa, después de la ejecución de prueba, ve a la pestaña Seguimientos para ver los detalles de la ejecución. Selecciona Ver seguimiento y luego selecciona Añadir a conjunto de evaluación.
- Selecciona Crear conjunto de evaluación y elige un nombre para este conjunto. Confirma tu acción seleccionando el icono de marca de verificación.
El nuevo conjunto aparece ahora en el panel Seleccionar conjuntos de evaluación.Selecciónalo y luego selecciona Siguiente para ir a la ventana Crear evaluación. Aquí crearás la primera evaluación del conjunto.
- En la ventana Crear evaluación, los campos Entrada y Salida esperada ya se han rellenado previamente con los argumentos de entrada y salida que creaste para la solicitud del agente. Si utilizas el tipo de aserción predeterminado LLM-como-juez, añade una solicitud de evaluación y luego selecciona Crear para finalizar la evaluación.
Crear evaluaciones desde cero
- Después de diseñar tu agente, ve a la pestaña Evaluaciones y selecciona Crear conjunto.
También puedes seleccionar Importar para utilizar los datos JSON existentes de evaluaciones de otros agentes.
- Elige un nombre para tu nuevo conjunto de evaluación y selecciona Crear.
El conjunto de evaluación se crea y se muestra la ventana Crear evaluación.
- Crea la primera evaluación en este conjunto:
- Configura los campos de entrada. Estos campos se heredan de los argumentos de entrada que creas para las solicitudes.
- Configura la salida esperada. Esto se hereda de los argumentos de salida que has creado.
- En Configuración de evaluación, configura los siguientes campos:
- Selecciona el Campo de salida de destino:
-
Objetivo en nivel raíz (* Todos): evalúa toda la salida.
-
Objetivo específico del campo: evalúa los campos específicos de primer nivel. Utiliza el menú desplegable para seleccionar un campo. Los campos de salida enumerados se heredan de los argumentos de salida que definiste para la solicitud del sistema.
-
- Selecciona el tipo de Aserción. Esto representa el método de evaluación:
- LLM-como-juez (método predeterminado)
- Recomendado como enfoque predeterminado cuando se orienta a la salida raíz.
- Proporciona evaluación flexible de salidas complejas.
- Puede evaluar la calidad y la corrección más allá de la coincidencia exacta.
- Se recomienda usarlo al evaluar el razonamiento, las respuestas de lenguaje natural o los resultados estructurados complejos.
- Igual
- Recomendado cuando se esperan coincidencias exactas.
- Más eficaz cuando los requisitos de salida están definidos de forma estricta.
- Funciona con objetos complejos, pero es mejor usarlo con:
- Respuestas booleanas (verdadero/falso)
- Valores numéricos específicos
- Coincidencias exactas de las cadenas
- Matrices de primitivas.
- LLM-como-juez (método predeterminado)
- Selecciona el Campo de salida de destino:
- Selecciona Crear para guardar la nueva evaluación.
Estructura tu solicitud de evaluación
Una salida bien estructurada hace que las evaluaciones sean más fiables. Por eso es bueno tener salidas estructuradas: garantiza la coherencia y facilita las comparaciones.
Como evaluador experto, analiza la similitud semántica de estos contenidos JSON para determinar una puntuación de 0 a 100. Céntrate en comparar el significado y la equivalencia contextual de los campos correspondientes, teniendo en cuenta expresiones válidas alternativas, sinónimos y variaciones razonables en el lenguaje para mantener altos estándares de precisión e integridad.Justifica tu puntuación, explicando de forma breve y concisa por qué has otorgado esa puntuación.
Salida esperada: {{ExpectedOutput}}
Salida real: {{ActualOutput}}
Número de evaluaciones
Para agentes simples, procura realizar aproximadamente 30 evaluaciones en entre 1 y 3 conjuntos de evaluación.Para agentes más complejos, se recomienda al menos el doble de esa cantidad o más.
El número de evaluaciones depende de:
- Complejidad del agente
- Número de parámetros de entrada
- Complejidad de la estructura de salida
- Patrones de uso de herramientas
- Ramas de decisión.
- Entrada
- Rango de posibles entradas: tipos de datos, rangos de valores, campos opcionales
- Casos límite
- Patrones de uso
- Casos de uso comunes
- Distintas personalidades
- Escenarios de error
Conjuntos de evaluación
Agrupar evaluaciones en conjuntos ayuda a organizarlas mejor. Por ejemplo, puedes tener:
- Un conjunto para una evaluación completa de salida.
- Otro para casos límite
- Otro para manejar errores ortográficos.
Principios de cobertura
- Cobertura lógica: asigna combinaciones de entrada, casos límite y condiciones de límite.
- Gestión de redundancias: procura realizar entre 3 y 5 evaluaciones diferentes por caso lógicamente equivalente.
- Calidad sobre cantidad: más evaluaciones no siempre significan mejores resultados. Concéntrate en pruebas significativas.
Cuándo crear evaluaciones
Crea evaluaciones una vez que los argumentos sean estables o completos. Eso también significa que tu caso de uso se ha establecido y la solicitud, las herramientas y los índices de Contextualización están finalizados.
Si modificas los argumentos, debes ajustar tus evaluaciones en consecuencia. Para minimizar el trabajo adicional, es mejor empezar con agentes estables que tengan casos de uso bien definidos.
Puedes exportar e importar conjuntos de evaluación entre agentes dentro de la misma organización o entre diferentes organizaciones.Mientras el diseño de tu agente esté completo, puedes mover las evaluaciones según sea necesario sin tener que volver a crearlas desde cero.