- Introdução
- Agentes da UiPath no Studio Web
- Sobre os agentes da UiPath
- Licenciamento
- Prompts
- Trabalhando com arquivos
- Contexto
- Escalonamentos e memória do agente
- Avaliações
- Traços de agente
- Pontuação do agente
- Gerenciamento de agentes UiPath
- Agentes codificados da UiPath

Guia do Usuário de Agentes
Avaliação de agentes de conversa
As avaliações ajudam a garantir que seu agente de conversa se comporta de forma confiável em caminhos de diálogo variados. Esta página abrange como testar seu agente usando o chat de Debug, criar conjuntos de avaliação e executar testes automatizados.
Depurar chat
O chat de depuração fornece um ambiente de testes em tempo real no qual você pode interagir com seu agente e inspecionar seu comportamento.
Iniciando uma sessão de depuração
- No Studio Web, abra seu agente de conversa.
- Selecione Depurar para abrir a interface do chat.
- Envie mensagens para testar as respostas do seu agente.

Visualização de rastreamentos de execução
O painel de histórico mostra detalhes em tempo real da execução do agente:
- Chamadas de LLM: os prompts enviados para o modelo e as respostas recebidas.
- Chamadas de ferramentas: quais ferramentas foram invocadas, com argumentos e saídas.
Expanda qualquer etapa para ver os detalhes completos, incluindo contagens de token e latência.

Exibição de citações
Quando seu agente usa a Contextualização, aparecem citações na resposta mostrando quais documentos informaram a resposta.
- Procure marcadores de citação na resposta do agente ( normalmente referências numeradas ).
- Selecione uma citação para ver o documento de origem e o trecho relevante.
- Verifique se as citações suportam com precisão a resposta do agente.

Como adicionar conversas aos conjuntos de avaliação
Após uma interação de teste bem-sucedida, salve-a para testes automatizados:
- Na aba Chat , selecione Adicionar ao conjunto de avaliação.
- Escolha um conjunto de avaliação existente ou crie um novo.
A conversa é salva com:
- Histórico de conversa: todos os retornos anteriores na caixa de diálogo.
- Mensagem do usuário atual: a entrada mais recente do usuário.
- Resposta esperada do agente: a resposta real do agente (que você pode editar).
Conjuntos de avaliação
Conjuntos de avaliação são coleções de casos de teste que validam o comportamento do seu agente. Eles são compatíveis com cenários de teste de uma vez e de várias voltas.
Para obter orientações de avaliação detalhadas, consulte Avaliações de agentes
Avaliações de retorno único
As avaliações de retorno único testam pares de pergunta e resposta isolados sem histórico de conversa. Eles são testes de avaliação em que você testa o primeiro prompt em uma conversa.
Use avaliações de retorno único para:
- Recuperação de conhecimento específico de testes.
- Validação da seleção de ferramenta para diferentes intenções.
- Verificando formato e tom da resposta.
Exemplo:
| Mensagem do usuário | Comportamento esperado |
|---|---|
| "Quantos feriados temos nos EUA?" | Retorna contagem correta, documento da política de citações |
| "Agende uma reunião com o John amanhã às 14h" | Chama a ferramenta de calendário com os parâmetros corretos |
Avaliações várias vezes
As avaliações realizadas várias vezes testam como o agente lida com o contexto da conversa e perguntas de acompanhamento. Eles são testes de avaliação em que o prompt testado segue a conversa anterior.
Use avaliações de várias vezes para:
- Testar a retenção de contexto entre as voltas.
- Validando a resolução do pronome "it", "que", "a mesmo").
- Verificando fluxo e coerência da conversa.
Exemplo:
| Girar | Mensagem | Comportamento esperado |
|---|---|---|
| 1 | "Qual é a política PTO?" | Retorna o resumo da política de PTO |
| 2 | "Como posso solicitar uma licença?" | Faz referência ao contexto do PTO, explica o processo de solicitação |
| 3 | " Posso fazer isso por e-mail?" | Entende que "que" se refere à solicitação de licença |
Criação de testes de avaliação
Do chat de depuração
- Execute uma conversa em Debug chat.
- Selecione Adicionar para conjunto de avaliação no painel Chat .
- A conversa será adicionada como um teste de avaliação em seu conjunto de avaliações designado.
Uso do Construtor de conversas
O construtor de Conversas permite que você crie ou edite casos de teste de várias voltas:
- Selecione Conjuntos de avaliação para seu agente no Studio Web.
- Selecione um conjunto de avaliação ou crie um novo. Se essas opções estiverem desabilitadas, certifique-se de que você não esteja no modo de depuração.
- Selecione Adicionar para definir ou editar um teste existente.
- Use o construtor de Conversas para:
- Adicione o histórico de conversas.
- Defina a mensagem do usuário atual.
- Use a Configuração de saída para definir a asserção
- Especifique a resposta esperada do agente para avaliadores determinísticos e baseados em LLM como juiz.
- Especifique as "notas de comportamento e saída" para avaliadores baseados em trajetória.

Simulações de ferramenta
As simulações permitem que você teste o comportamento do agente sem executar pontos de extremidade de ferramenta reais. Para cada teste de avaliação, você pode especificar se as ferramentas devem realmente executar ou simular sua execução.
As simulações aprimoram as avaliações de agentes habilitando:
- Testes seguros: evite efeitos secundários não intencionais ao chamar APIs ou serviços reais.
- Execução mais rápida: ignore a latência da rede e atrasos nos serviços externos.
- Execuções com economia: reduza os custos de API durante testes iterativos.
- Reprodutibilidade: obtenha resultados consistentes controlando as saídas da ferramenta.
Você pode configurar o comportamento da simulação para cada teste de avaliação:
- Abra um conjunto de avaliação.
- Selecione um caso de teste para editar.
- Na configuração de teste, especifique quais ferramentas devem simular a execução.
- Defina a saída simulada esperada para cada ferramenta.
Geração de testes com linguagem natural
Use o Autopilot para gerar testes de avaliação a partir de descrições:
- Na tela Conjuntos de avaliação, selecione Criar e , em seguida, Gerar novo conjunto de avaliação.
- Descreva os cenários que você quer testar em linguagem natural.
- Revise e refine os casos de teste gerados.
Exemplo de solicitação:
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Os testes de avaliação gerados pelo Autopilot usam automaticamente avaliações baseadas em trajetória.

Executando avaliações
Execução de um único teste
- Selecione um caso de teste de seu conjunto de avaliação.
- Selecione Avaliar selecionados.
- Revise os resultados, comparando a saída real com a saída esperada.
Execução de avaliações em lote
- Vá para Conjuntos de avaliação.
- Selecione Executar no conjunto de avaliação desejado para executar todos os testes.
- Examine os resultados que mostram as taxas de aprovado/reprovado.

Testes com modelos diferentes
Execute o mesmo conjunto de avaliação em diferentes modelos para comparar o desempenho:
- No conjunto de avaliação, selecione Configurações de avaliação para adicionar um modelo de destino adicional.
- Execute a avaliação.
- Compare resultados entre modelos para identificar o melhor ajuste para seu caso de uso.
Isso ajuda a entender:
- Quais modelos têm o melhor desempenho em seus cenários específicos.
- Combinações entre qualidade e latência da resposta.
- Implicações de custo de diferentes escolhas de modelo.
Métricas de avaliação
As avaliações avaliam várias dimensões do comportamento do agente:
| Métrica | Description |
|---|---|
| Precisão da resposta | A resposta contém informações corretas? |
| Seleção de ferramenta | O agente escolheu a ferramenta adequada? |
| Qualidade da menção | As citações são relevantes e precisas? |
| Tom e formato | A resposta corresponde ao estilo esperado? |
| Retenção de contexto | O agente mantém o contexto entre as mudanças? |
Práticas recomendadas de avaliação
Teste os caminhos felizes e desabilitados
Não teste apenas cenários ideais. Incluir:
- Perguntas ambíguas
- Solicitações fora do escopo
- Casos extremos e condições de erro
- Entradas multilíngue (se compatível)
Crie conjuntos de testes representativos
Crie conjuntos de avaliação que reflitam os padrões de uso reais:
- Analisar consultas comuns de usuários da produção
- Incluir variações da mesma pergunta
- Teste diferentes personas de usuário e estilos de comunicação
Iterar com base nos resultados
Use as falhas de avaliação para melhorar seu agente:
- Identificar padrões em testes com falha.
- Atualizar prompts do sistema ou configurações de ferramentas.
- Execute novamente as avaliações para verificar melhorias.
- Adicione novos testes para casos de borda descobertos.
Próximas Etapas
- Implantação: publique seu agente testado
- Observabilidade: monitore o desempenho da produção
- Avaliações de agentes: documentação detalhada da estrutura de avaliação
- Depurar chat
- Iniciando uma sessão de depuração
- Visualização de rastreamentos de execução
- Exibição de citações
- Como adicionar conversas aos conjuntos de avaliação
- Conjuntos de avaliação
- Avaliações de retorno único
- Avaliações várias vezes
- Criação de testes de avaliação
- Executando avaliações
- Execução de um único teste
- Execução de avaliações em lote
- Testes com modelos diferentes
- Métricas de avaliação
- Práticas recomendadas de avaliação
- Teste os caminhos felizes e desabilitados
- Crie conjuntos de testes representativos
- Iterar com base nos resultados
- Próximas Etapas