agents

latest

false

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Guia do Usuário de Agentes

Última atualização 21 de mai de 2026

ENTREGA:

Avaliação de agentes de conversa

As avaliações ajudam a garantir que seu agente de conversação se comporte de forma confiável em caminhos de diálogo variados. Esta página aborda como testar seu agente usando o Chat de debug, criar conjuntos de avaliações e executar testes automatizados.

Chat de debug

O Chat de debug fornece um ambiente de teste em tempo real onde você pode interagir com seu agente e inspecionar o comportamento dele.

Iniciar uma sessão de debug

No Studio Web, abra seu agente de conversa.
Selecione Debug para abrir a interface de chat.
Envie mensagens para testar as respostas do seu agente.

Exibição de traces de execução

O painel de histórico mostra detalhes em tempo real da execução do agente:

Chamadas de LLM: as solicitações enviadas para o modelo e as respostas recebidas.
Chamadas de ferramentas: quais ferramentas foram invocadas, com argumentos e saídas.

Expanda qualquer etapa para ver detalhes completos, incluindo contagens de tokens e latência.

Visualização de citações

Quando seu agente usa contextualização, as citações aparecem na resposta, mostrando quais documentos informaram a resposta.

Procure marcadores de citação na resposta do agente (normalmente referências numeradas).
Selecione uma citação para ver o documento de origem e o trecho relevante.
Verifique se as citações suportam com precisão a resposta do agente.

Adicionar conversas a conjuntos de avaliações

Após uma interação de teste bem-sucedida, salve-a para testes automatizados.

Na guia Chat, selecione Adicionar ao conjunto de avaliações.
Escolha um conjunto de avaliações existente ou crie um novo.

A conversa é salva com:

Histórico de conversas: todos os turnos anteriores no diálogo.
Mensagem do usuário atual: a entrada mais recente do usuário.
Resposta esperada do agente: a resposta real do agente (que você pode editar).

Conjuntos de avaliação

Conjuntos de avaliações são coleções de casos de teste que validam o comportamento do seu agente. Eles oferecem suporte a cenários de teste de interação única e interações múltiplas.

Para obter orientações detalhadas de avaliação, consulte Avaliações de agente.

Avaliações de turno único

As avaliações de etapa única testam pares isolados de perguntas e respostas sem histórico de conversas. Elas são testes de avaliação em que você testa a primeira solicitação em uma conversa.

Use avaliações de interação única para

Testar recuperação de conhecimento específico.
Validar seleção de ferramentas para diferentes intenções.
Verificar o formato e o tom da resposta.

Exemplo

Mensagem do usuário	Comportamento esperado
"Quantos feriados temos nos EUA?"	Retorna contagem correta, cita o documento da política
"Agende uma reunião com John para amanhã às 14h"	Chama a ferramenta de calendário com parâmetros corretos

Avaliações de múltiplas interações

As avaliações de múltiplas etapas testam como o agente lida com o contexto da conversa e perguntas de acompanhamento. Elas são testes de avaliação em que a solicitação testada segue a conversa anterior.

Use avaliações de múltiplas interações para

Testar a retenção de contexto em várias etapas.
Validar a resolução de pronomes ("isso", "aquilo", "o mesmo").
Verificar o fluxo de conversa e a coerência.

Exemplo

Turno	Mensagem	Comportamento esperado
1	"Qual é a política de PTO?"	Retorna o resumo da política de PTO
2	"Como posso solicitar um período de folga?"	Faz referência ao contexto do PTO, explica o processo de solicitação
3	"Posso fazer isso por e-mail?"	Entende que "isso" se refere à solicitação de período de folga

Criação de testes de avaliação

Do Chat de debug

Execute uma conversa no Chat de debug.
Selecione Adicionar ao conjunto de avaliações do painel Chat.
Adicionaremos a troca de mensagens como um Teste de avaliação no seu conjunto de avaliações.

Uso do Construtor de conversa

O Construtor de conversa permite que você crie ou edite casos de teste de várias etapas:

Selecione Conjuntos de avaliações para seu agente no Studio Web.
Selecione um conjunto de avaliações ou crie um novo. Se essas opções estiverem desabilitadas, certifique-se de que você não esteja no Modo Debug.
Selecione Adicionar ao conjunto ou edite um teste existente.
Use o Construtor de conversa para:
- Adicionar turnos do histórico de conversas.
- Definir a mensagem do usuário atual.
Usar a Configuração de saída para definir a asserção
- Especificar a resposta esperada do agente para avaliadores determinísticos e baseados em LLM como juiz.
- Especificar as "notas de comportamento e saída" para avaliadores baseados em trajetórias.

Simulações de ferramentas

As simulações permitem que você teste o comportamento do agente sem executar pontos de extremidade de ferramentas reais. Para cada teste de avaliação, você pode especificar se as ferramentas devem realmente executar ou simular sua execução.

As simulações aprimoram avaliações de agentes permitindo:

Testes seguros: evite efeitos colaterais não intencionais ao chamar APIs ou serviços reais.
Execução mais rápida: ignorar latência de rede e atrasos em serviços externos.
Execuções econômicas: reduza os custos de API durante testes iterativos.
Reprodutibilidade: obtenha resultados consistentes controlando as saídas da ferramenta.

Você pode configurar o comportamento da simulação para cada teste de avaliação:

Abra um conjunto de avaliações.
Selecione um caso de teste para editar.
Na configuração de teste, especifique quais ferramentas devem simular a execução.
Defina a saída simulada esperada para cada ferramenta.

Geração de testes com linguagem natural

Use o Autopilot para gerar testes de avaliação a partir de descrições:

Na tela Conjuntos de avaliações, selecione Criar e, em seguida, Gerar novo conjunto de avaliações.
Descreva os cenários que você deseja testar em linguagem natural.
Revise e refine os casos de teste gerados.

Exemplo de solicitação:

Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated

Observação:

Os testes de avaliação gerados pelo Autopilot usam automaticamente avaliações baseadas em trajetórias.

Executar avaliações

Executar um teste único

Selecione um caso de teste de seu conjunto de avaliações.
Selecione Avaliar selecionado.
Revise os resultados, comparando a saída real com a saída esperada.

Executar avaliações em lote

Acesse Conjuntos de avaliações.
Selecione Executar no conjunto de avaliações desejado para executar todos os testes.
Revise os resultados mostrando taxas de aprovação/falha.

Testes com diferentes modelos

Execute o mesmo conjunto de avaliações em diferentes modelos para comparar o desempenho:

No conjunto de avaliações, selecione Configurações de avaliação para acrescentar um modelo de destino adicional.
Execute a avaliação.
Compare resultados entre modelos para identificar o melhor ajuste para seu caso de uso.

Isso ajuda você a entender:

Quais modelos têm o melhor desempenho para seus cenários específicos.
Compensações entre qualidade de resposta e latência.
Implicações de custo das diferentes escolhas de modelos.

Métricas de avaliação

As avaliações calculam várias dimensões do comportamento do agente:

Métrica	Description
Precisão da resposta	A resposta contém informações corretas?
Seleção de ferramentas	O agente escolheu a ferramenta apropriada?
Qualidade da citação	As citações são relevantes e precisas?
Tom e formato	A resposta corresponde ao estilo esperado?
Retenção de contexto	O agente mantém o contexto em todos os turnos?

Melhores práticas de avaliação

Teste os caminhos que funcionam e que não funcionam

Não teste apenas cenários ideais. Incluir:

Perguntas ambíguas
Solicitações fora do escopo
Casos extremos e condições de erro
Entradas em vários idiomas (se compatíveis)

Criar conjuntos de testes representativos

Crie conjuntos de avaliações que reflitam padrões de uso reais:

Analise consultas comuns de usuários a partir de produção
Inclua variações da mesma pergunta
Teste diferentes personas de usuário e estilos de comunicação

Itere com base em resultados

Use falhas de avaliação para melhorar seu agente:

Identifique padrões em testes com falha.
Atualize solicitações do sistema ou configurações de ferramentas.
Execute novamente avaliações para verificar melhorias.
Adicione novos testes para casos limite identificados.

Próximas Etapas

Implantação: publique seu agente testado
Observabilidade: monitore o desempenho da produção
Avaliações de agentes: documentação detalhada da estrutura de avaliações

Esta página foi útil?

AnteriorProjeto de agentes de conversa

AvançarImplantação de agentes de conversa

Guia do Usuário de Agentes

Chat de debug​

Iniciar uma sessão de debug​

Exibição de traces de execução​

Visualização de citações​

Adicionar conversas a conjuntos de avaliações​

Conjuntos de avaliação​

Avaliações de turno único​

Use avaliações de interação única para​

Exemplo​

Avaliações de múltiplas interações​

Use avaliações de múltiplas interações para​

Exemplo​

Criação de testes de avaliação​

Do Chat de debug​

Uso do Construtor de conversa​

Simulações de ferramentas​

Geração de testes com linguagem natural​

Executar avaliações​

Executar um teste único​

Executar avaliações em lote​

Testes com diferentes modelos​

Métricas de avaliação​

Melhores práticas de avaliação​

Teste os caminhos que funcionam e que não funcionam​

Criar conjuntos de testes representativos​

Itere com base em resultados​

Próximas Etapas​

Esta página foi útil?

Chat de debug

Iniciar uma sessão de debug

Exibição de traces de execução

Visualização de citações

Adicionar conversas a conjuntos de avaliações

Conjuntos de avaliação

Avaliações de turno único

Use avaliações de interação única para

Exemplo

Avaliações de múltiplas interações

Use avaliações de múltiplas interações para

Exemplo

Criação de testes de avaliação

Do Chat de debug

Uso do Construtor de conversa

Simulações de ferramentas

Geração de testes com linguagem natural

Executar avaliações

Executar um teste único

Executar avaliações em lote

Testes com diferentes modelos

Métricas de avaliação

Melhores práticas de avaliação

Teste os caminhos que funcionam e que não funcionam

Criar conjuntos de testes representativos

Itere com base em resultados

Próximas Etapas