agents
latest
false
Importante :
A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.
UiPath logo, featuring letters U and I in white

Guia do Usuário de Agentes

Última atualização 2 de mar de 2026

Avaliação de agentes de conversa

As avaliações ajudam a garantir que seu agente de conversa se comporta de forma confiável em caminhos de diálogo variados. Esta página abrange como testar seu agente usando o chat de Debug, criar conjuntos de avaliação e executar testes automatizados.

Depurar chat

O chat de depuração fornece um ambiente de testes em tempo real no qual você pode interagir com seu agente e inspecionar seu comportamento.

Iniciando uma sessão de depuração

  1. No Studio Web, abra seu agente de conversa.
  2. Selecione Depurar para abrir a interface do chat.
  3. Envie mensagens para testar as respostas do seu agente.

Interface de chat de debug

Visualização de rastreamentos de execução

O painel de histórico mostra detalhes em tempo real da execução do agente:

  • Chamadas de LLM: os prompts enviados para o modelo e as respostas recebidas.
  • Chamadas de ferramentas: quais ferramentas foram invocadas, com argumentos e saídas.

Expanda qualquer etapa para ver os detalhes completos, incluindo contagens de token e latência.

Painel do trace da execução

Exibição de citações

Quando seu agente usa a Contextualização, aparecem citações na resposta mostrando quais documentos informaram a resposta.

  1. Procure marcadores de citação na resposta do agente ( normalmente referências numeradas ).
  2. Selecione uma citação para ver o documento de origem e o trecho relevante.
  3. Verifique se as citações suportam com precisão a resposta do agente.

Exibição com referência

Como adicionar conversas aos conjuntos de avaliação

Após uma interação de teste bem-sucedida, salve-a para testes automatizados:

  1. Na aba Chat , selecione Adicionar ao conjunto de avaliação.
  2. Escolha um conjunto de avaliação existente ou crie um novo.

A conversa é salva com:

  • Histórico de conversa: todos os retornos anteriores na caixa de diálogo.
  • Mensagem do usuário atual: a entrada mais recente do usuário.
  • Resposta esperada do agente: a resposta real do agente (que você pode editar).

Conjuntos de avaliação

Conjuntos de avaliação são coleções de casos de teste que validam o comportamento do seu agente. Eles são compatíveis com cenários de teste de uma vez e de várias voltas.

Para obter orientações de avaliação detalhadas, consulte Avaliações de agentes

Avaliações de retorno único

As avaliações de retorno único testam pares de pergunta e resposta isolados sem histórico de conversa. Eles são testes de avaliação em que você testa o primeiro prompt em uma conversa.

Use avaliações de retorno único para:

  • Recuperação de conhecimento específico de testes.
  • Validação da seleção de ferramenta para diferentes intenções.
  • Verificando formato e tom da resposta.

Exemplo:

Mensagem do usuárioComportamento esperado
"Quantos feriados temos nos EUA?"Retorna contagem correta, documento da política de citações
"Agende uma reunião com o John amanhã às 14h"Chama a ferramenta de calendário com os parâmetros corretos

Avaliações várias vezes

As avaliações realizadas várias vezes testam como o agente lida com o contexto da conversa e perguntas de acompanhamento. Eles são testes de avaliação em que o prompt testado segue a conversa anterior.

Use avaliações de várias vezes para:

  • Testar a retenção de contexto entre as voltas.
  • Validando a resolução do pronome "it", "que", "a mesmo").
  • Verificando fluxo e coerência da conversa.

Exemplo:

GirarMensagemComportamento esperado
1"Qual é a política PTO?"Retorna o resumo da política de PTO
2"Como posso solicitar uma licença?"Faz referência ao contexto do PTO, explica o processo de solicitação
3" Posso fazer isso por e-mail?"Entende que "que" se refere à solicitação de licença

Criação de testes de avaliação

Do chat de depuração
  1. Execute uma conversa em Debug chat.
  2. Selecione Adicionar para conjunto de avaliação no painel Chat .
  3. A conversa será adicionada como um teste de avaliação em seu conjunto de avaliações designado.
Uso do Construtor de conversas

O construtor de Conversas permite que você crie ou edite casos de teste de várias voltas:

  1. Selecione Conjuntos de avaliação para seu agente no Studio Web.
  2. Selecione um conjunto de avaliação ou crie um novo. Se essas opções estiverem desabilitadas, certifique-se de que você não esteja no modo de depuração.
  3. Selecione Adicionar para definir ou editar um teste existente.
  4. Use o construtor de Conversas para:
    • Adicione o histórico de conversas.
    • Defina a mensagem do usuário atual.
  5. Use a Configuração de saída para definir a asserção
    • Especifique a resposta esperada do agente para avaliadores determinísticos e baseados em LLM como juiz.
    • Especifique as "notas de comportamento e saída" para avaliadores baseados em trajetória.

Conversation Builder

Simulações de ferramenta

As simulações permitem que você teste o comportamento do agente sem executar pontos de extremidade de ferramenta reais. Para cada teste de avaliação, você pode especificar se as ferramentas devem realmente executar ou simular sua execução.

As simulações aprimoram as avaliações de agentes habilitando:

  • Testes seguros: evite efeitos secundários não intencionais ao chamar APIs ou serviços reais.
  • Execução mais rápida: ignore a latência da rede e atrasos nos serviços externos.
  • Execuções com economia: reduza os custos de API durante testes iterativos.
  • Reprodutibilidade: obtenha resultados consistentes controlando as saídas da ferramenta.

Você pode configurar o comportamento da simulação para cada teste de avaliação:

  1. Abra um conjunto de avaliação.
  2. Selecione um caso de teste para editar.
  3. Na configuração de teste, especifique quais ferramentas devem simular a execução.
  4. Defina a saída simulada esperada para cada ferramenta.
Geração de testes com linguagem natural

Use o Autopilot para gerar testes de avaliação a partir de descrições:

  1. Na tela Conjuntos de avaliação, selecione Criar e , em seguida, Gerar novo conjunto de avaliação.
  2. Descreva os cenários que você quer testar em linguagem natural.
  3. Revise e refine os casos de teste gerados.

Exemplo de solicitação:

Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Observação:

Os testes de avaliação gerados pelo Autopilot usam automaticamente avaliações baseadas em trajetória.

Caixa de diálogo Gerar testes

Executando avaliações

Execução de um único teste

  1. Selecione um caso de teste de seu conjunto de avaliação.
  2. Selecione Avaliar selecionados.
  3. Revise os resultados, comparando a saída real com a saída esperada.

Execução de avaliações em lote

  1. Vá para Conjuntos de avaliação.
  2. Selecione Executar no conjunto de avaliação desejado para executar todos os testes.
  3. Examine os resultados que mostram as taxas de aprovado/reprovado.

Evaluation results

Testes com modelos diferentes

Execute o mesmo conjunto de avaliação em diferentes modelos para comparar o desempenho:

  1. No conjunto de avaliação, selecione Configurações de avaliação para adicionar um modelo de destino adicional.
  2. Execute a avaliação.
  3. Compare resultados entre modelos para identificar o melhor ajuste para seu caso de uso.

Isso ajuda a entender:

  • Quais modelos têm o melhor desempenho em seus cenários específicos.
  • Combinações entre qualidade e latência da resposta.
  • Implicações de custo de diferentes escolhas de modelo.

Métricas de avaliação

As avaliações avaliam várias dimensões do comportamento do agente:

MétricaDescription
Precisão da respostaA resposta contém informações corretas?
Seleção de ferramentaO agente escolheu a ferramenta adequada?
Qualidade da mençãoAs citações são relevantes e precisas?
Tom e formatoA resposta corresponde ao estilo esperado?
Retenção de contextoO agente mantém o contexto entre as mudanças?

Práticas recomendadas de avaliação

Teste os caminhos felizes e desabilitados

Não teste apenas cenários ideais. Incluir:

  • Perguntas ambíguas
  • Solicitações fora do escopo
  • Casos extremos e condições de erro
  • Entradas multilíngue (se compatível)

Crie conjuntos de testes representativos

Crie conjuntos de avaliação que reflitam os padrões de uso reais:

  • Analisar consultas comuns de usuários da produção
  • Incluir variações da mesma pergunta
  • Teste diferentes personas de usuário e estilos de comunicação

Iterar com base nos resultados

Use as falhas de avaliação para melhorar seu agente:

  1. Identificar padrões em testes com falha.
  2. Atualizar prompts do sistema ou configurações de ferramentas.
  3. Execute novamente as avaliações para verificar melhorias.
  4. Adicione novos testes para casos de borda descobertos.

Próximas Etapas

Esta página foi útil?

Conectar

Precisa de ajuda? Suporte

Quer aprender? Academia UiPath

Tem perguntas? Fórum do UiPath

Fique por dentro das novidades