- Introdução
- Agentes da UiPath no Studio Web
- Sobre os agentes da UiPath
- Licenciamento
- Agentes codificados no Studio Web
- Execução de agentes
- Prompts
- Trabalhando com arquivos
- Contexto
- Escalonamentos e memória do agente
- Avaliações
- Traços de agente
- Pontuação do agente
- Gerenciamento de agentes UiPath
- Agentes codificados da UiPath

Guia do Usuário de Agentes
Avaliação de agentes de conversa
As avaliações ajudam a garantir que seu agente de conversação se comporte de forma confiável em caminhos de diálogo variados. Esta página aborda como testar seu agente usando o Chat de debug, criar conjuntos de avaliações e executar testes automatizados.
Chat de debug
O Chat de debug fornece um ambiente de teste em tempo real onde você pode interagir com seu agente e inspecionar o comportamento dele.
Iniciar uma sessão de debug
- No Studio Web, abra seu agente de conversa.
- Selecione Debug para abrir a interface de chat.
- Envie mensagens para testar as respostas do seu agente.

Exibição de traces de execução
O painel de histórico mostra detalhes em tempo real da execução do agente:
- Chamadas de LLM: as solicitações enviadas para o modelo e as respostas recebidas.
- Chamadas de ferramentas: quais ferramentas foram invocadas, com argumentos e saídas.
Expanda qualquer etapa para ver detalhes completos, incluindo contagens de tokens e latência.

Visualização de citações
Quando seu agente usa contextualização, as citações aparecem na resposta, mostrando quais documentos informaram a resposta.
- Procure marcadores de citação na resposta do agente (normalmente referências numeradas).
- Selecione uma citação para ver o documento de origem e o trecho relevante.
- Verifique se as citações suportam com precisão a resposta do agente.

Adicionar conversas a conjuntos de avaliações
Após uma interação de teste bem-sucedida, salve-a para testes automatizados.
- Na guia Chat, selecione Adicionar ao conjunto de avaliações.
- Escolha um conjunto de avaliações existente ou crie um novo.
A conversa é salva com:
- Histórico de conversas: todos os turnos anteriores no diálogo.
- Mensagem do usuário atual: a entrada mais recente do usuário.
- Resposta esperada do agente: a resposta real do agente (que você pode editar).
Conjuntos de avaliação
Conjuntos de avaliações são coleções de casos de teste que validam o comportamento do seu agente. Eles oferecem suporte a cenários de teste de interação única e interações múltiplas.
Para obter orientações detalhadas de avaliação, consulte Avaliações de agente.
Avaliações de turno único
As avaliações de etapa única testam pares isolados de perguntas e respostas sem histórico de conversas. Elas são testes de avaliação em que você testa a primeira solicitação em uma conversa.
Use avaliações de interação única para:
- Testar recuperação de conhecimento específico.
- Validar seleção de ferramentas para diferentes intenções.
- Verificar o formato e o tom da resposta.
Exemplo:
| Mensagem do usuário | Comportamento esperado |
|---|---|
| "Quantos feriados temos nos EUA?" | Retorna contagem correta, cita o documento da política |
| "Agende uma reunião com John para amanhã às 14h" | Chama a ferramenta de calendário com parâmetros corretos |
Avaliações de múltiplas interações
As avaliações de múltiplas etapas testam como o agente lida com o contexto da conversa e perguntas de acompanhamento. Elas são testes de avaliação em que a solicitação testada segue a conversa anterior.
Use avaliações de múltiplas interações para:
- Testar a retenção de contexto em várias etapas.
- Validar a resolução de pronomes ("isso", "aquilo", "o mesmo").
- Verificar o fluxo de conversa e a coerência.
Exemplo:
| Turno | Mensagem | Comportamento esperado |
|---|---|---|
| 1 | "Qual é a política de PTO?" | Retorna o resumo da política de PTO |
| 2 | "Como posso solicitar um período de folga?" | Faz referência ao contexto do PTO, explica o processo de solicitação |
| 3 | "Posso fazer isso por e-mail?" | Entende que "isso" se refere à solicitação de período de folga |
Criação de testes de avaliação
Do Chat de debug
- Execute uma conversa no Chat de debug.
- Selecione Adicionar ao conjunto de avaliações do painel Chat.
- Adicionaremos a troca de mensagens como um Teste de avaliação no seu conjunto de avaliações.
Uso do Construtor de conversa
O Construtor de conversa permite que você crie ou edite casos de teste de várias etapas:
- Selecione Conjuntos de avaliações para seu agente no Studio Web.
- Selecione um conjunto de avaliações ou crie um novo. Se essas opções estiverem desabilitadas, certifique-se de que você não esteja no Modo Debug.
- Selecione Adicionar ao conjunto ou edite um teste existente.
- Use o Construtor de conversa para:
- Adicionar turnos do histórico de conversas.
- Definir a mensagem do usuário atual.
- Usar a Configuração de saída para definir a asserção
- Especificar a resposta esperada do agente para avaliadores determinísticos e baseados em LLM como juiz.
- Especificar as "notas de comportamento e saída" para avaliadores baseados em trajetórias.

Simulações de ferramentas
As simulações permitem que você teste o comportamento do agente sem executar pontos de extremidade de ferramentas reais. Para cada teste de avaliação, você pode especificar se as ferramentas devem realmente executar ou simular sua execução.
As simulações aprimoram avaliações de agentes permitindo:
- Testes seguros: evite efeitos colaterais não intencionais ao chamar APIs ou serviços reais.
- Execução mais rápida: ignorar latência de rede e atrasos em serviços externos.
- Execuções econômicas: reduza os custos de API durante testes iterativos.
- Reprodutibilidade: obtenha resultados consistentes controlando as saídas da ferramenta.
Você pode configurar o comportamento da simulação para cada teste de avaliação:
- Abra um conjunto de avaliações.
- Selecione um caso de teste para editar.
- Na configuração de teste, especifique quais ferramentas devem simular a execução.
- Defina a saída simulada esperada para cada ferramenta.
Geração de testes com linguagem natural
Use o Autopilot para gerar testes de avaliação a partir de descrições:
- Na tela Conjuntos de avaliações, selecione Criar e, em seguida, Gerar novo conjunto de avaliações.
- Descreva os cenários que você deseja testar em linguagem natural.
- Revise e refine os casos de teste gerados.
Exemplo de solicitação:
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Os testes de avaliação gerados pelo Autopilot usam automaticamente avaliações baseadas em trajetórias.

Executar avaliações
Executar um teste único
- Selecione um caso de teste de seu conjunto de avaliações.
- Selecione Avaliar selecionado.
- Revise os resultados, comparando a saída real com a saída esperada.
Executar avaliações em lote
- Acesse Conjuntos de avaliações.
- Selecione Executar no conjunto de avaliações desejado para executar todos os testes.
- Revise os resultados mostrando taxas de aprovação/falha.

Testes com diferentes modelos
Execute o mesmo conjunto de avaliações em diferentes modelos para comparar o desempenho:
- No conjunto de avaliações, selecione Configurações de avaliação para acrescentar um modelo de destino adicional.
- Execute a avaliação.
- Compare resultados entre modelos para identificar o melhor ajuste para seu caso de uso.
Isso ajuda você a entender:
- Quais modelos têm o melhor desempenho para seus cenários específicos.
- Compensações entre qualidade de resposta e latência.
- Implicações de custo das diferentes escolhas de modelos.
Métricas de avaliação
As avaliações calculam várias dimensões do comportamento do agente:
| Métrica | Description |
|---|---|
| Precisão da resposta | A resposta contém informações corretas? |
| Seleção de ferramentas | O agente escolheu a ferramenta apropriada? |
| Qualidade da citação | As citações são relevantes e precisas? |
| Tom e formato | A resposta corresponde ao estilo esperado? |
| Retenção de contexto | O agente mantém o contexto em todos os turnos? |
Melhores práticas de avaliação
Teste os caminhos que funcionam e que não funcionam
Não teste apenas cenários ideais. Incluir:
- Perguntas ambíguas
- Solicitações fora do escopo
- Casos extremos e condições de erro
- Entradas em vários idiomas (se compatíveis)
Criar conjuntos de testes representativos
Crie conjuntos de avaliações que reflitam padrões de uso reais:
- Analise consultas comuns de usuários a partir de produção
- Inclua variações da mesma pergunta
- Teste diferentes personas de usuário e estilos de comunicação
Itere com base em resultados
Use falhas de avaliação para melhorar seu agente:
- Identifique padrões em testes com falha.
- Atualize solicitações do sistema ou configurações de ferramentas.
- Execute novamente avaliações para verificar melhorias.
- Adicione novos testes para casos limite identificados.
Próximas Etapas
- Implantação: publique seu agente testado
- Observabilidade: monitore o desempenho da produção
- Avaliações de agentes: documentação detalhada da estrutura de avaliações
- Chat de debug
- Iniciar uma sessão de debug
- Exibição de traces de execução
- Visualização de citações
- Adicionar conversas a conjuntos de avaliações
- Conjuntos de avaliação
- Avaliações de turno único
- Avaliações de múltiplas interações
- Criação de testes de avaliação
- Executar avaliações
- Executar um teste único
- Executar avaliações em lote
- Testes com diferentes modelos
- Métricas de avaliação
- Melhores práticas de avaliação
- Teste os caminhos que funcionam e que não funcionam
- Criar conjuntos de testes representativos
- Itere com base em resultados
- Próximas Etapas