- Primeros pasos
 - Agentes de UiPath en Studio Web
 - Agentes de UiPath codificados
 

Guía del usuario de agentes
Cuando diseñas un agente, el objetivo es que sea fiable: algo en lo que puedas confiar para que te dé el resultado correcto de forma consistente. Las evaluaciones te ayudan a determinar si tu agente está haciendo un buen trabajo o si necesita mejoras.
Terminología
Una evaluación es un par entre una entrada y una aserción (o evaluador) realizada en la salida. El evaluador es una condición o regla definida que se utiliza para evaluar si la salida del agente cumple con el resultado o la trayectoria esperados.
Los conjuntos de evaluación son agrupaciones lógicas de evaluaciones y evaluadores.
Los resultados de evaluación son seguimientos de ejecuciones de evaluación completadas que evalúan el rendimiento de un agente. Durante estas ejecuciones, la precisión, la eficiencia y la capacidad de toma de decisiones del agente se miden y se puntúan en función del rendimiento del agente.
La puntuación de evaluación determina el rendimiento del agente en función de las aserciones en una evaluación específica. La puntuación es en una escala de 0 a 100. Si has fallado las ejecuciones de evaluación, debes diagnosticar la causa, depurar y volver a ejecutarlas.
Antes de crear evaluaciones a escala, puedes probar primero tu agente en escenarios desactivados para ver si el agente puede realizar su tarea y si la salida es correcta o no. Si tu agente genera la salida correcta, puedes crear evaluaciones a partir de las ejecuciones correctas. Si tu agente no genera la salida correcta, puedes corregir la salida y crear una evaluación con la salida esperada, puedes crear evaluaciones desde cero.
Crear evaluaciones a partir de ejecuciones de pruebas
- Después de diseñar tu agente, selecciona Configuración de depuración.
 -  En la ventana Configuración de depuración, confirma los recursos utilizados en la solución y: 
                           
- 
                                 
Proporciona la entrada para la ejecución de la prueba:
- Proporciona entradas manualmente escribiendo el contenido, o
 - Simula entradas: utiliza un LLM para generar entradas para los argumentos de tu agente. Puedes dejar que el LLM genere automáticamente entradas o proporcione instrucciones para dirigirlo hacia ejemplos específicos.
 
 - Configura si quieres probar con herramientas reales o simular una, más o todas tus herramientas.
                                 
- Simular herramientas: utiliza un LLM para simular una o más herramientas de agente. Describe cómo debe responder cada herramienta y simula los conjuntos de herramientas parciales o completos en los que se basa tu agente.
 
 
 - 
                                 
 - 
                           
Selecciona Guardar y depurar.
Los resultados se muestran en el panel inferior del Seguimiento de ejecución. Hay indicadores disponibles para mostrar cuándo tu agente se ejecuta con datos reales o simulados.
 - Si la salida es correcta, selecciona el botón Añadir al conjunto de evaluación. Si la salida no es correcta, puedes:
                           
- Refinar la solicitud: ajusta la solicitud y prueba el agente hasta que la salida sea correcta.
 - Crear evaluaciones a partir de salidas incorrectas: genera evaluaciones basadas en las salidas incorrectas y edítalas manualmente para que se alineen con el resultado esperado.
 
 - 
                           
Las ejecuciones de prueba se muestran en la ventana Añadir a conjunto de evaluación. Selecciona Añadir a conjunto predeterminado para cualquier ejecución que desees añadir a una evaluación.
Si ya has creado un conjunto de evaluación, puedes seleccionarlo de la lista desplegable disponible.
 - 
                           
A continuación, ve al panel Conjuntos de evaluación. Hay tres opciones disponibles:
- Utiliza el conjunto de evaluación prediseñado para organizar tus evaluaciones.
 - Genera un nuevo conjunto con entradas y herramientas simuladas.
 - Añade evaluaciones en conjuntos existentes con datos reales y simulados.
 
 - Selecciona Evaluar conjunto para ejecutar las evaluaciones. También puedes seleccionar evaluaciones específicas a partir del conjunto que deseas evaluar.
 - Ve a la pestaña Resultados para ver la puntuación y los detalles de la evaluación.
 
Crear evaluaciones desde cero
- Después de diseñar tu agente, ve a la pestaña Conjuntos de evaluación y selecciona Crear nuevo. 
                           
También puedes seleccionar Importar para utilizar los datos JSON existentes de evaluaciones de otros agentes.
 - Añade un nombre relevante para el conjunto de evaluación.
 - 
                           
Selecciona Añadir al conjunto para crear nuevas evaluaciones. Para cada nueva evaluación del conjunto:
- 
                                 
Añade un nombre.
 - 
                                 
Añade valores para los campos de Entrada (heredados de los argumentos de entrada definidos) y la Salida esperada.
 - 
                                 
Selecciona Guardar.
 
 - 
                                 
 - A continuación, selecciona Establecer evaluadores para asignar evaluadores al conjunto de evaluación. 
                           
Puedes asignar uno o varios evaluadores a un conjunto.
 - 
                           
Selecciona Guardar cambios.
 - 
                           
En la página principal de Conjuntos de evaluación, selecciona Ejecutar conjunto de evaluación para cada conjunto que deseas ejecutar.
 - 
                           
Ve a la pestaña Resultados para ver la puntuación y los detalles de la evaluación.
 
Crear evaluaciones a partir de seguimientos de runtime
Puedes crear evaluaciones de agentes directamente a partir de los seguimientos de runtime, lo que te permite convertir los comentarios de producción en casos de prueba accionables para mejoras en tiempo de diseño.
- Primero, ejecuta tu agente.
 - En Orchestrator, ve a Automatizaciones > Trabajos y abre los seguimientos de trabajo para la ejecución del agente. Como alternativa, ve a la página Gestión de instancias de agente para ver los seguimientos de las ejecuciones de agente.
 - Proporciona comentarios para las ejecuciones del agente:
                           
- Para cada seguimiento, selecciona el icono de pulgares arriba o abajo.
 - Añade un comentario para hacer que la evaluación sea procesable.
 
 - Obtener seguimientos de runtime en la definición del agente: 
                           
- Vuelve a tu agente en Studio Web y ve a Evaluaciones > Conjuntos de evaluación.
 - En el botón Crear, selecciona Obtener seguimientos de runtime para extraer seguimientos que hayan recibido comentarios.
 
 - Añadir seguimientos a un conjunto de evaluación: 
                           
- De los seguimientos recuperados, selecciona Añadir al conjunto de evaluación.
 - Edita la entrada y la salida esperada si es necesario.
 - Guarda el seguimiento en el conjunto de evaluación elegido.
 
 - Guarda el seguimiento en el conjunto de evaluación elegido.
 
Una vez añadidos, los seguimientos de runtime están claramente etiquetados como ejecuciones de runtime dentro del conjunto de evaluación, lo que facilita la distinción de las ejecuciones de prueba sin conexión. Estos seguimientos también actualizan la puntuación de evaluación general del agente automáticamente, lo que te brinda visibilidad inmediata de cómo los comentarios del mundo real mejoran el rendimiento del agente.
Generar evaluaciones
También puedes crear conjuntos de evaluación con simulaciones. Genera nuevos conjuntos de evaluación (o añádelos a los ya existentes) utilizando entradas y herramientas simuladas.
- Selecciona Crear.
 -  Selecciona Generar nuevo conjunto de evaluación. 
                        
Puedes dejar que el LLM genere automáticamente el conjunto de evaluación basándose en tu agente existente, sus ejecuciones de diseño, argumentos o proporcionar indicaciones para orientarlo hacia ejemplos específicos.
 
Para obtener más información, consulta Configurar simulaciones en evaluaciones.
Definir evaluadores
Utiliza el panel Evaluadores para crear y gestionar tus evaluadores. De forma predeterminada, cada agente tiene un Evaluador predeterminado basado en LLM.
Para crear tus propios evaluadores:
- Selecciona Crear nuevo:
 -  Selecciona el tipo de evaluador: 
                           
- LLM como juez: similitud semántica: crea tu propio evaluador basado en LLM.
 - Coincidencia exacta: comprueba si la salida del agente coincide con la salida esperada.
 - Similitud de JSON: comprueba si dos estructuras o valores JSON son similares.
 - Evaluador de la trayectoria: utiliza IA para juzgar al agente en función del historial de ejecución y el comportamiento esperado.
 
 - Selecciona Continuar.
 -  Configura el evaluador: 
                           
- 
                                 
Añade un nombre y una descripción relevantes.
 -  Selecciona los Campos de salida de destino:
                                 
- Objetivo en nivel raíz (* Todos): evalúa toda la salida.
 - Objetivo específico del campo: evalúa los campos específicos de primer nivel. Utiliza el menú desplegable para seleccionar un campo. Los campos de salida enumerados se heredan de los argumentos de salida que definiste para la solicitud del sistema.
 
 - Añade una solicitud (solo para el evaluador basado en LLM).
 
 - 
                                 
 
Elegir el tipo de evaluador
Si no sabes qué tipo de evaluador se adapta a tus necesidades, consulta las siguientes recomendaciones:
-  LLM-como-juez: 
                           
- Recomendado como enfoque predeterminado cuando se orienta a la salida raíz.
 - Proporciona evaluación flexible de salidas complejas.
 - Puede evaluar la calidad y la corrección más allá de la coincidencia exacta.
 - Se recomienda usarlo al evaluar el razonamiento, las respuestas de lenguaje natural o los resultados estructurados complejos.
 
 -  Determinista (coincidencia exacta o similitud de JSON): 
                           
- Recomendado cuando se esperan coincidencias exactas.
 - Más eficaz cuando los requisitos de salida están definidos de forma estricta.
 -  Funciona con objetos complejos, pero es mejor usarlo con: 
                                 
- Respuestas booleanas (verdadero/falso)
 - Valores numéricos específicos
 - Coincidencias exactas de las cadenas
 - Matrices de primitivas.
 
 
 
Las simulaciones mejoran las evaluaciones de agentes al permitir pruebas seguras, rápidas y rentables a través de herramientas y comportamientos de escalada simulados en lugar de puntos finales reales. Ofrecen un control granular en el nivel de evaluación, lo que permite a los equipos definir qué componentes simular y combinar ejecuciones reales y simuladas dentro del mismo conjunto de evaluación. Esta flexibilidad admite entradas fijas o generadas y tanto la salida literal como la clasificación basada en el comportamiento, mejorando la cobertura de la prueba, la reproducibilidad y la capacidad de evaluar si los agentes se comportan como se espera.
Para obtener más información, consulta Configurar simulaciones para herramientas de agente.
Cómo configurar simulaciones de evaluación
Para configurar nuevos conjuntos de evaluación utilizando simulaciones, sigue estos pasos:
- En la pestaña Conjuntos de evaluación, selecciona Crear y luego Generar nuevo conjunto de evaluación.
 - Introduce una descripción de los casos de evaluación que quieres generar. 
                           
Puedes proporcionar contexto de alto nivel, escenarios específicos o pegar contenido relevante para guiar la generación. Si dejas este campo en blanco, los casos de evaluación se siguen generando automáticamente para ti.
 - Selecciona Generar evaluaciones.
                           
Autopilot genera varias evaluaciones. Para cada evaluación, puedes ver y editar las instrucciones de simulación, generación de entradas y las notas de comportamiento esperado.
 - Selecciona qué evaluaciones quieres utilizar y luego Añadir conjunto.
 
Para configurar simulaciones para evaluaciones existentes, sigue estos pasos:
- Abre cualquier conjunto de evaluación y selecciona Editar en cualquier evaluación. Se muestra el panel Editar evaluación.
 - 
                           En la sección Organizar, define o genera datos de entrada utilizando valores manuales o instrucciones de generación de runtime.
                           
                           
Si defines los datos de entrada manualmente, puedes establecer el campo Pruebas en Verdadero para indicar que forma parte de un escenario de prueba.
 - En la sección Acto, elige si cada herramienta debe simular comportamiento o ejecutar llamadas reales y añade instrucciones de simulación. La ejecución de herramientas es la configuración predeterminada.
 - En la sección Afirmar, especifica si la evaluación se basa en la coincidencia de salida o en la trayectoria del agente, y describe el comportamiento y el resultado esperados.
 - 
                           
                           
Selecciona Guardar para aplicar tu configuración.
 
Dónde trabajar con las evaluaciones
Puedes trabajar con evaluaciones en dos lugares, dependiendo de tu flujo de trabajo:
- 
                        
                        
Panel inferior en el lienzo de diseño: proporciona acceso rápido a las evaluaciones mientras creas o pruebas activamente tu agente. El panel incluye:
- 
                              
                              
Pestaña Historial para ver ejecuciones anteriores con seguimientos completos y añadirlas directamente a los conjuntos de evaluación.
 - 
                              
                              
Pestaña Evaluaciones para ver tus conjuntos de evaluación, revisar las puntuaciones recientes, profundizar en los detalles o volver a ejecutar pruebas individualmente o como un conjunto completo. También puedes comparar las salidas reales con las esperadas y actualizar las evaluaciones con la salida real cuando sea correcta.
 - 
                              
                              
Pestaña Seguimiento de ejecución para seguir los detalles de seguimiento de la ejecución actual en tiempo real. Para los agentes conversacionales, esta pestaña está disponible como Chat y proporciona una ventana de chat interactiva para probar el agente, a la vez que muestra la ruta de ejecución para cada intercambio conversacional.
 
 - 
                              
                              
 - Pestaña Evaluaciones en la definición del agente: proporciona el espacio de trabajo de evaluación completo. Desde aquí, puedes crear y organizar conjuntos de evaluación, asignar evaluadores, configurar entradas y salidas esperadas, y ejecutar evaluaciones a escalar. Este es el mejor lugar para configurar escenarios de evaluación estructurados y gestionar los activos de evaluación a lo largo del periodo.
 
El uso del panel inferior ayuda durante la iteración y la depuración diarias, mientras que la pestaña Evaluaciones dedicada es más adecuada para la gestión y configuración completo del conjunto de evaluación.
Estructurar tu solicitud de evaluación
Una salida bien estructurada hace que las evaluaciones sean más fiables. Por eso es bueno tener salidas estructuradas: garantiza la coherencia y facilita las comparaciones.
Este es un ejemplo de una solicitud predefinida que evalúa toda la salida:
Como evaluador experto, analiza la similitud semántica de estos contenidos JSON para determinar una puntuación de 0 a 100. Céntrate en comparar el significado y la equivalencia contextual de los campos correspondientes, teniendo en cuenta expresiones válidas alternativas, sinónimos y variaciones razonables en el lenguaje para mantener altos estándares de precisión e integridad.Justifica tu puntuación, explicando de forma breve y concisa por qué has otorgado esa puntuación.
Salida esperada: {{ExpectedOutput}}
ActualOutput: {{ActualOutput}}
Número de evaluaciones
La Puntuación de agente tiene en cuenta más de 30 evaluaciones como un buen punto de referencia.
Para agentes simples, procura realizar aproximadamente 30 evaluaciones en entre 1 y 3 conjuntos de evaluación.Para agentes más complejos, te recomendamos que cuentes al menos con el doble de esa cantidad o más.
El número de evaluaciones depende de:
- Complejidad del agente
                        
- Número de parámetros de entrada
 - Complejidad de la estructura de salida
 - Patrones de uso de herramientas
 - Ramas de decisión.
 
 - Entrada
                        
- Rango de posibles entradas: tipos de datos, rangos de valores, campos opcionales
 - Casos límite
 
 - Patrones de uso
                        
- Casos de uso comunes
 - Distintas personalidades
 - Escenarios de error
 
 
Conjuntos de evaluación
Agrupar evaluaciones en conjuntos ayuda a organizarlas mejor. Por ejemplo, puedes tener:
- Un conjunto para una evaluación completa de salida.
 - Otro para casos límite
 - Otro para manejar errores ortográficos.
 
Principios de cobertura
- Cobertura lógica: asigna combinaciones de entrada, casos límite y condiciones de límite.
 - Gestión de redundancias: procura realizar entre 3 y 5 evaluaciones diferentes por caso lógicamente equivalente.
 - Calidad sobre cantidad: más evaluaciones no siempre significan mejores resultados. Concéntrate en pruebas significativas.
 
Cuándo crear evaluaciones
Crea evaluaciones una vez que los argumentos sean estables o completos. Eso también significa que tu caso de uso se ha establecido y la solicitud, las herramientas y los contextos están finalizados. Si modificas los argumentos, debes ajustar tus evaluaciones en consecuencia. Para minimizar el trabajo adicional, es mejor empezar con agentes estables que tengan casos de uso bien definidos. Puedes exportar e importar conjuntos de evaluación entre agentes dentro de la misma organización o entre diferentes organizaciones.Mientras el diseño de tu agente esté completo, puedes mover las evaluaciones según sea necesario sin tener que volver a crearlas desde cero.
- Acerca de las evaluaciones
 - Terminología
 - Crear evaluaciones
 - Crear evaluaciones a partir de ejecuciones de pruebas
 - Crear evaluaciones desde cero
 - Crear evaluaciones a partir de seguimientos de runtime
 - Generar evaluaciones
 - Definir evaluadores
 - Configurar simulaciones en evaluaciones
 - Cómo configurar simulaciones de evaluación
 - Trabajar con evaluaciones
 - Dónde trabajar con las evaluaciones
 - Estructurar tu solicitud de evaluación
 - Número de evaluaciones
 - Conjuntos de evaluación
 - Cuándo crear evaluaciones