agents
latest
false
Importante :
A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.
UiPath logo, featuring letters U and I in white

Guia do Usuário de Agentes

Última atualização 18 de mar de 2026

Avaliação de agentes de conversa

As avaliações ajudam a garantir que seu agente de conversação se comporte de forma confiável em caminhos de diálogo variados. Esta página aborda como testar seu agente usando o Chat de debug, criar conjuntos de avaliações e executar testes automatizados.

Chat de debug

O Chat de debug fornece um ambiente de teste em tempo real onde você pode interagir com seu agente e inspecionar o comportamento dele.

Iniciar uma sessão de debug

  1. No Studio Web, abra seu agente de conversa.
  2. Selecione Debug para abrir a interface de chat.
  3. Envie mensagens para testar as respostas do seu agente.

Interface de chat de debug

Exibição de traces de execução

O painel de histórico mostra detalhes em tempo real da execução do agente:

  • Chamadas de LLM: as solicitações enviadas para o modelo e as respostas recebidas.
  • Chamadas de ferramentas: quais ferramentas foram invocadas, com argumentos e saídas.

Expanda qualquer etapa para ver detalhes completos, incluindo contagens de tokens e latência.

Painel de rastreamento de execução

Visualização de citações

Quando seu agente usa contextualização, as citações aparecem na resposta, mostrando quais documentos informaram a resposta.

  1. Procure marcadores de citação na resposta do agente (normalmente referências numeradas).
  2. Selecione uma citação para ver o documento de origem e o trecho relevante.
  3. Verifique se as citações suportam com precisão a resposta do agente.

Visualização de citação

Adicionar conversas a conjuntos de avaliações

Após uma interação de teste bem-sucedida, salve-a para testes automatizados.

  1. Na guia Chat, selecione Adicionar ao conjunto de avaliações.
  2. Escolha um conjunto de avaliações existente ou crie um novo.

A conversa é salva com:

  • Histórico de conversas: todos os turnos anteriores no diálogo.
  • Mensagem do usuário atual: a entrada mais recente do usuário.
  • Resposta esperada do agente: a resposta real do agente (que você pode editar).

Conjuntos de avaliação

Conjuntos de avaliações são coleções de casos de teste que validam o comportamento do seu agente. Eles oferecem suporte a cenários de teste de interação única e interações múltiplas.

Para obter orientações detalhadas de avaliação, consulte Avaliações de agente.

Avaliações de turno único

As avaliações de etapa única testam pares isolados de perguntas e respostas sem histórico de conversas. Elas são testes de avaliação em que você testa a primeira solicitação em uma conversa.

Use avaliações de interação única para:

  • Testar recuperação de conhecimento específico.
  • Validar seleção de ferramentas para diferentes intenções.
  • Verificar o formato e o tom da resposta.

Exemplo:

Mensagem do usuárioComportamento esperado
"Quantos feriados temos nos EUA?"Retorna contagem correta, cita o documento da política
"Agende uma reunião com John para amanhã às 14h"Chama a ferramenta de calendário com parâmetros corretos

Avaliações de múltiplas interações

As avaliações de múltiplas etapas testam como o agente lida com o contexto da conversa e perguntas de acompanhamento. Elas são testes de avaliação em que a solicitação testada segue a conversa anterior.

Use avaliações de múltiplas interações para:

  • Testar a retenção de contexto em várias etapas.
  • Validar a resolução de pronomes ("isso", "aquilo", "o mesmo").
  • Verificar o fluxo de conversa e a coerência.

Exemplo:

TurnoMensagemComportamento esperado
1"Qual é a política de PTO?"Retorna o resumo da política de PTO
2"Como posso solicitar um período de folga?"Faz referência ao contexto do PTO, explica o processo de solicitação
3"Posso fazer isso por e-mail?"Entende que "isso" se refere à solicitação de período de folga

Criação de testes de avaliação

Do Chat de debug
  1. Execute uma conversa no Chat de debug.
  2. Selecione Adicionar ao conjunto de avaliações do painel Chat.
  3. Adicionaremos a troca de mensagens como um Teste de avaliação no seu conjunto de avaliações.
Uso do Construtor de conversa

O Construtor de conversa permite que você crie ou edite casos de teste de várias etapas:

  1. Selecione Conjuntos de avaliações para seu agente no Studio Web.
  2. Selecione um conjunto de avaliações ou crie um novo. Se essas opções estiverem desabilitadas, certifique-se de que você não esteja no Modo Debug.
  3. Selecione Adicionar ao conjunto ou edite um teste existente.
  4. Use o Construtor de conversa para:
    • Adicionar turnos do histórico de conversas.
    • Definir a mensagem do usuário atual.
  5. Usar a Configuração de saída para definir a asserção
    • Especificar a resposta esperada do agente para avaliadores determinísticos e baseados em LLM como juiz.
    • Especificar as "notas de comportamento e saída" para avaliadores baseados em trajetórias.

Construtor de conversa

Simulações de ferramentas

As simulações permitem que você teste o comportamento do agente sem executar pontos de extremidade de ferramentas reais. Para cada teste de avaliação, você pode especificar se as ferramentas devem realmente executar ou simular sua execução.

As simulações aprimoram avaliações de agentes permitindo:

  • Testes seguros: evite efeitos colaterais não intencionais ao chamar APIs ou serviços reais.
  • Execução mais rápida: ignorar latência de rede e atrasos em serviços externos.
  • Execuções econômicas: reduza os custos de API durante testes iterativos.
  • Reprodutibilidade: obtenha resultados consistentes controlando as saídas da ferramenta.

Você pode configurar o comportamento da simulação para cada teste de avaliação:

  1. Abra um conjunto de avaliações.
  2. Selecione um caso de teste para editar.
  3. Na configuração de teste, especifique quais ferramentas devem simular a execução.
  4. Defina a saída simulada esperada para cada ferramenta.
Geração de testes com linguagem natural

Use o Autopilot para gerar testes de avaliação a partir de descrições:

  1. Na tela Conjuntos de avaliações, selecione Criar e, em seguida, Gerar novo conjunto de avaliações.
  2. Descreva os cenários que você deseja testar em linguagem natural.
  3. Revise e refine os casos de teste gerados.

Exemplo de solicitação:

Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Observação:

Os testes de avaliação gerados pelo Autopilot usam automaticamente avaliações baseadas em trajetórias.

Gerar testes - Diálogo

Executar avaliações

Executar um teste único

  1. Selecione um caso de teste de seu conjunto de avaliações.
  2. Selecione Avaliar selecionado.
  3. Revise os resultados, comparando a saída real com a saída esperada.

Executar avaliações em lote

  1. Acesse Conjuntos de avaliações.
  2. Selecione Executar no conjunto de avaliações desejado para executar todos os testes.
  3. Revise os resultados mostrando taxas de aprovação/falha.

Resultados da avaliação

Testes com diferentes modelos

Execute o mesmo conjunto de avaliações em diferentes modelos para comparar o desempenho:

  1. No conjunto de avaliações, selecione Configurações de avaliação para acrescentar um modelo de destino adicional.
  2. Execute a avaliação.
  3. Compare resultados entre modelos para identificar o melhor ajuste para seu caso de uso.

Isso ajuda você a entender:

  • Quais modelos têm o melhor desempenho para seus cenários específicos.
  • Compensações entre qualidade de resposta e latência.
  • Implicações de custo das diferentes escolhas de modelos.

Métricas de avaliação

As avaliações calculam várias dimensões do comportamento do agente:

MétricaDescription
Precisão da respostaA resposta contém informações corretas?
Seleção de ferramentasO agente escolheu a ferramenta apropriada?
Qualidade da citaçãoAs citações são relevantes e precisas?
Tom e formatoA resposta corresponde ao estilo esperado?
Retenção de contextoO agente mantém o contexto em todos os turnos?

Melhores práticas de avaliação

Teste os caminhos que funcionam e que não funcionam

Não teste apenas cenários ideais. Incluir:

  • Perguntas ambíguas
  • Solicitações fora do escopo
  • Casos extremos e condições de erro
  • Entradas em vários idiomas (se compatíveis)

Criar conjuntos de testes representativos

Crie conjuntos de avaliações que reflitam padrões de uso reais:

  • Analise consultas comuns de usuários a partir de produção
  • Inclua variações da mesma pergunta
  • Teste diferentes personas de usuário e estilos de comunicação

Itere com base em resultados

Use falhas de avaliação para melhorar seu agente:

  1. Identifique padrões em testes com falha.
  2. Atualize solicitações do sistema ou configurações de ferramentas.
  3. Execute novamente avaliações para verificar melhorias.
  4. Adicione novos testes para casos limite identificados.

Próximas Etapas

Esta página foi útil?

Conectar

Precisa de ajuda? Suporte

Quer aprender? Academia UiPath

Tem perguntas? Fórum do UiPath

Fique por dentro das novidades