- Introdução
- Agentes da UiPath no Studio Web
- Agentes da UiPath no Agent Builder
- Agentes codificados da UiPath

Guia do Usuário de Agentes
Avaliações
Quando você está criando um agente, o objetivo é torná-lo confiável — algo em que você pode confiar para entregar resultados corretos de forma consistente.As avaliações ajudam você a entender se seu agente está fazendo um bom trabalho ou se precisa de melhorias.
Uma avaliação é um par entre uma entrada e uma asserção — ou avaliador — feita na saída. O avaliador é uma condição ou regra definida usada para avaliar se a saída do agente atende à saída esperada.
Conjuntos de avaliações são agrupamentos lógicos de avaliações e avaliadores.
Resultados de avaliação são rastreamentos para execuções de avaliação concluídas que avaliam o desempenho de um agente. Durante essas execuções, a precisão, a eficiência e a capacidade de tomada de decisão do agente são medidas e pontuadas com base no desempenho do agente.
A pontuação da avaliação determina o desempenho do agente com base nas asserções em uma avaliação específica. A pontuação se dá em uma escala de 0 a 100. Se você tiver falhado em execuções de avaliação, você deve executá-las novamente e depurá-las.
Antes de criar uma avaliação, você deve primeiro testar seu agente para ver se a saída está correta ou não. Se seu agente estiver gerando a saída correta, você pode criar avaliações a partir das execuções corretas. Se seu agente não estiver gerando a saída correta, você pode criar avaliações do zero.
- Após projetar seu agente, selecione Teste na nuvem.
-
Na janela Configuração de teste, confirme os recursos usados na solução e forneça a entrada para a execução de teste.
-
Selecione Executar.
Os resultados são exibidos no painel de Saída de execução.
- Se a saída estiver correta, selecione o botão Adicionar para conjunto de avaliação, agora disponível na aba Geral.
Se a saída não estiver correta, você pode:
- Refinar a solicitação: ajuste a solicitação e teste o agente até que a saída esteja correta.
- Crie avaliações a partir de saídas incorretas: gere avaliações com base nas saídas incorretas e edite-as manualmente para se alinhar ao resultado esperado.
-
As execuções de Teste são listadas na janela Adicionar para conjunto de avaliação. Selecione Adicionar para conjunto padrão para qualquer execução que você queira adicionar a uma avaliação.
Se você já criou um conjunto de avaliação, você pode selecioná-lo na lista suspensa disponível.
-
Em seguida, acesse o painel Conjuntos de avaliação e selecione Exibir detalhes para o conjunto de avaliação.
-
Selecione Avaliar conjunto para executar as avaliações. Você também pode selecionar avaliações específicas do conjunto que você gostaria de avaliar.
-
Acesse a aba Resultados para exibir a pontuação e os detalhes da avaliação.
- Após projetar seu agente, acesse a aba Conjuntos de avaliação e selecione Criar novo.
Você também pode selecionar Importar para usar dados JSON existentes dos avaliações de outros agentes.
- Adicione um nome relevante para o conjunto de avaliação.
-
Selecione Adicionar ao conjunto para criar novas avaliações. Para cada nova avaliação no conjunto:
-
Adicione um nome.
-
Adicione valores para os campos de Entrada (herdados dos argumentos de entrada definidos) e a Saída esperada.
-
Selecione Salvar.
-
- Em seguida, selecione Definir avaliadores para atribuir avaliadores ao conjunto de avaliação.
Você pode atribuir um ou vários avaliadores a um conjunto.
-
Selecione Salvar mudanças.
-
De na página principal Conjuntos de avaliação, selecione Conjunto de avaliação para cada conjunto que você deseja executar.
-
Acesse a aba Resultados para exibir a pontuação e os detalhes da avaliação.
Use o painel Avaliadores para criar e gerenciar seus avaliadores. Por padrão, cada agente tem um Avaliador padrão predefinido baseado em LLM.
Para criar seus próprios avaliadores:
-
Selecione Criar novo:
-
Selecione o tipo de avaliador:
-
LLM como um juiz: Similaridade Semântica – Crie seu próprio avaliador baseado em LLM.
-
Correspondência exata – Verifica se a saída do agente corresponde à saída esperada.
-
Similaridade do JSON – Verifica se duas estruturas ou valores do JSON são semelhantes.
- Trajectory evaluator – Uses AI to judge the agent based on run history and expected behavior.
-
-
Selecione Continuar.
-
Configurar o avaliador:
-
Adicione um nome e uma descrição relevantes.
-
Selecionar os Campos de saída de destino:
-
Segmentação de nível raiz (* Todos): avalia toda a saída.
-
Segmentação específica para campo: avalia campos específicos de primeiro nível.Use o menu suspenso para selecionar um campo. Os campos de saída listados são herdados dos argumentos de saída que você definiu para o prompt do sistema.
-
-
Adicione uma solicitação (apenas para o avaliador baseado em LLM).
-
Escolhendo o tipo de avaliador
Se você não souber qual tipo de avaliador se adequa às suas necessidades, consulte as seguintes recomendações:
-
LLM como juiz:
-
Recomendado como a abordagem padrão ao direcionar a saída raiz.
-
Fornece avaliação flexível de saídas complexas.
-
Pode avaliar qualidade e correção além da correspondência exata.
-
Mais bem utilizado ao avaliar raciocínio, respostas em linguagem natural ou saídas estruturadas complexas.
-
-
Determinístico (Correspondência exata ou similaridade do JSON):
-
Recomendado quando são esperadas correspondências exatas.
-
Mais eficaz quando os requisitos de saída são estritamente definidos.
-
Funciona com objetos complexos, mas é mais bem utilizado com:
-
Respostas booleanas (verdadeiro/falso)
-
Valores numéricos específicos
-
Correspondências exatas de strings
-
Matrizes de tipos primitivos.
-
-
Uma saída bem estruturada torna as avaliações mais confiáveis. É por isso que é bom ter saídas estruturadas — garante consistência e facilita as comparações.
Aqui está um exemplo de uma solicitação predefinida que avalia toda a saída:
Como avaliador especializado, analise a similaridade semântica desses conteúdos JSON para determinar uma pontuação de 0 a 100. Concentre-se na comparação do significado e da equivalência contextual dos campos correspondentes, levando em consideração expressões alternativas válidas, sinônimos e variações razoáveis no idioma, mantendo altos padrões de precisão e integridade. Forneça sua pontuação com a justificativa, explicando de forma breve e concisa por que você deu essa pontuação.
Saída esperada: {{ExpectedOutput}}
SaídaActual: {{ActualOutput}}
A Pontuação do agente considera mais de 30 avaliações como um bom parâmetro de referência.
Para agentes simples, procure aproximadamente 30 avaliações em 1 a 3 conjuntos de avaliação. Para agentes mais complexos, recomendamos que você tenha pelo menos o dobro desse valor ou mais.
O número de avaliações depende de:
- Complexidade do agente
- Número de parâmetros de entrada
- Complexidade da estrutura de saída
- Padrões de uso da ferramenta
- Ramificações de decisão
- Entrada
- Gama de entradas possíveis: tipos de dados, intervalos de valores, campos opcionais.
- Casos extremos
- Padrões de uso
- Casos de uso comum
- Perfis diferentes
- Cenários de erro
Agrupar avaliações em conjuntos ajuda a organizá-las melhor. Por exemplo, você pode ter:
- Um conjunto para avaliação de saída completa
- Outro para casos extremos
- Outro para lidar com erros ortográficos.
Princípios de cobertura
- Cobertura lógica: mapeie combinações de entrada, casos extremos e condições de limite.
- Gerenciamento de redundância: procure realizar 3 a 5 avaliações diferentes por caso logicamente equivalente.
- Priorize qualidade em vez de quantidade: mais avaliações nem sempre significam melhores resultados. Concentre-se em testes significativos.
Crie avaliações quando os argumentos estiverem estáveis ou concluídos. Isso também significa que seu caso de uso é estabelecido e a solicitação, as ferramentas e os contextos são finalizados. Se você modificar os argumentos, precisará ajustar suas avaliações de acordo. Para minimizar o trabalho adicional, é melhor começar com agentes estáveis que tenham casos de uso bem definidos. Você pode exportar e importar conjuntos de avaliação entre agentes dentro da mesma organização ou entre organizações diferentes. Desde que o design de seu agente esteja concluído, você pode mover as avaliações conforme necessário sem ter que recriá-las do zero.