agents

latest

false

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Guide de l'utilisateur des Agents

Évaluation des Agents conversationnels

Les évaluations permettent de garantir que votre agent de conversation se comporte de manière fiable dans des chemins de dialogue variés. Cette page explique comment tester votre agent à l’aide de Debug chat, créer des ensembles d’évaluations et exécuter des tests automatisés.

Debug le chat

Debug le hat fournit un environnement de test en temps réel où vous pouvez interagir avec votre agent et inspecter son comportement.

Démarrage d’une session de Debug

Dans Studio Web, ouvrez votre agent conversationnel.
Sélectionnez Debug pour ouvrir l'interface de chat.
Envoyez des messages pour tester les réponses de votre agent.

Affichage des traçages d’exécution

Le panneau Historique affiche les détails en temps réel de l’exécution de l’agent :

Appels LLM : les invites envoyées au modèle et les réponses reçues.
Appels d’outils : quels outils ont été invoqués, avec des arguments et des sorties.

Développez n’importe quelle étape pour voir des détails complets, y compris le nombre de jetons et la latence.

Affichage des citations

Lorsque votre agent utilise l’ancrage dans le contexte, des citations apparaissent dans la réponse indiquant les documents qui ont éclairé la réponse.

Recherchez des marqueurs de citation dans la réponse de l’agent (références généralement numérotées).
Sélectionnez une citation pour voir le document source et l’extrait pertinent.
Vérifiez que les citations prennent précisément en charge la réponse de l’agent.

Ajout de conversations aux ensembles d’évaluations

Après une interaction de test réussie, enregistrez-la pour des tests automatisés :

Dans l’onglet Chat, sélectionnez Ajouter à l’ensemble d’évaluations.
Choisissez un ensemble d’évaluations existant ou créez-en un nouveau.

La conversation est enregistrée avec :

Historique de la conversation : tous les tours de parole précédents dans le dialogue.
Message de l’utilisateur actuel : la dernière entrée de l’utilisateur.
Réponse attendue de l’agent : la réponse réelle de l’agent (que vous pouvez modifier).

Ensembles d’évaluation

Les ensembles d’évaluations sont des collections de cas de test qui valident le comportement de votre agent.Ils prennent en charge à la fois les scénarios de test à un seul tour et à plusieurs tours.

Pour des directives d’évaluation détaillées, reportez-vous à Évaluations de l'agent.

Évaluations à un seul tour

Les évaluations à un seul tour testent les paires de questions-réponses isolées sans historique de la conversation. Ce sont des tests d’évaluation où vous testez la première invite dans une conversation.

Utilisez des évaluations à un seul tour pour

Test de la récupération des connaissances spécifiques.
Validation de la sélection de l’outil pour différentes intentions.
Vérification du format et du ton de la réponse.

Exemple

Message de l’utilisateur	Comportement attendu
« Combien de jours fériés avons-nous aux États-Unis ? »	Renvoie le nombre correct, cite le document de la politique
« Planifiez une réunion avec John demain à 14 h »	Appelle l’outil de calendrier avec des paramètres corrects

Évaluations multi-tours

Les évaluations multi-tours testent la façon dont l’agent gère le contexte de la conversation et les questions de suivi. Ce sont des tests d’évaluation où l’invite testée suit la conversation précédente.

Utilisez des évaluations multi-tours pour

Test de la rétention du contexte entre les tours.
Validation de la résolution des pronoms (« il », « ça », « le même »).
Vérification du flux et de la cohérence de la conversation.

Exemple

Tour	Message	Comportement attendu
1	« Quelle est la politique PTO ? »	Renvoie un résumé de la politique PTO
2	« Comment demander des congés ? »	Fait référence au contexte PTO, explique le processus de demande
3	« Puis-je le faire via un e-mail ? »	Comprend que « cela » fait référence à la demande de congés

Création de tests d’évaluation

Depuis le chat Debug

Exécutez une conversation dans le chat Debug.
Sélectionnez Ajouter à l’ensemble d’évaluations dans le panneau Chat.
L’échange de conversation sera ajouté en tant que test d’évaluation dans votre ensemble d’évaluations désigné.

Utilisation du générateur de conversations

Le générateur de conversations vous permet de créer ou de modifier des cas de test multi-tours :

Sélectionnez Ensembles d’évaluations de votre agent dans Studio Web.
Sélectionnez un ensemble d’évaluations ou créez-en un nouveau. Si ces options sont désactivées, assurez-vous que vous n’êtes pas en mode Débug.
Sélectionnez Ajouter pour définir ou modifiez un test existant.
Utilisez le générateur de conversations pour :
- Ajoutez des tours de l’historique de la conversation.
- Définissez le message de l’utilisateur actuel.
Utilisez la configuration de la sortie pour définir l’assertion
- Spécifiez la réponse attendue de l’agent pour les évaluateurs déterministes et basés sur LLM en tant que juge.
- Spécifiez les « notes de comportement et de sortie » pour les évaluateurs basés sur la trajectoire.

Simulations d’outils

Les simulations vous permettent de tester le comportement de l’agent sans exécuter de points de terminaison d’outils réels. Pour chaque test d’évaluation, vous pouvez spécifier si les outils doivent réellement exécuter ou simuler leur exécution.

Les simulations améliorent les évaluations de l’agent en permettant :

Tests sûrs : évitez les effets secondaires inattendus de l’appel d’API ou de services réels.
Exécution plus rapide : ignorez la latence du réseau et les délais de service externe.
Exécutions rentables : réduisez les coûts d’API pendant les tests itératifs.
Reproductibilité : obtenez des résultats cohérents en contrôlant les sorties de l’outil.

Vous pouvez configurer le comportement de la simulation pour chaque test d’évaluation :

Ouvrez un ensemble d’évaluations.
Sélectionnez un incident de test à modifier.
Dans la configuration de test, spécifiez les outils qui doivent simuler l’exécution.
Définissez la sortie simulée attendue pour chaque outil.

Génération de tests avec le langage naturel

Utilisez Autopilot pour générer des tests d’évaluation à partir des descriptions :

Dans l’écran Ensembles d’évaluations, sélectionnez Créer, puis Générer un nouvel ensemble d’évaluations.
Décrivez les scénarios que vous souhaitez tester en langage naturel.
Examinez et affinez les cas de test générés.

Exemple de requête :

Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated

Remarque :

Les tests d’évaluation générés par Autopilot utilisent automatiquement des évaluations basées sur la trajectoire.

Exécution d’évaluations

Exécution d’un seul test

Sélectionnez un incident de test dans votre ensemble d’évaluations.
Sélectionnez Évaluer sélectionné.
Examinez les résultats en comparant la sortie réelle à la sortie attendue.

Exécution d’évaluations par lots

Accédez à Ensembles d’évaluations.
Sélectionnez Exécuter sur l’ensemble d’évaluations souhaité pour exécuter tous les tests.
Examinez les résultats affichant les taux de réussite/d’échec.

Tests avec différents modèles

Exécutez le même ensemble d’évaluations par rapport à différents modèles pour comparer les performances :

Dans l’ensemble d’évaluations, sélectionnez Paramètres d’évaluation pour ajouter un modèle cible supplémentaire.
Exécutez l’évaluation.
Comparez les résultats sur les modèles pour identifier la meilleure adéquation à votre incident d’utilisation.

Cela vous aide à comprendre :

Quels modèles fonctionnent le mieux pour vos scénarios spécifiques.
Compromis entre la qualité de la réponse et la latence.
Implications de coûts des différents choix de modèle.

Métriques d’évaluation

Les évaluations évaluent plusieurs dimensions du comportement de l’agent :

Mesure	Description
Précision de la réponse	La réponse contient-elle des informations correctes ?
Sélection de l’outil	L’agent a-t-il choisi l’outil approprié ?
Qualité de la citation	Les citations sont-elles pertinentes et précises ?
Ton et format	La réponse correspond-elle au style attendu ?
Rétention du contexte	L’agent conserve-t-il le contexte entre les tours ?

Meilleures pratiques d’évaluation

Testez à la fois les chemins heureux et malheureux

Ne testez pas uniquement des scénarios idéaux. Incluez :

Questions ambiguës
Demandes hors du cadre
Cas périphériques et conditions d'Error
Entrées multi-langues (si elles sont prises en charge)

Créer des suites de tests représentatives

Créez des ensembles d’évaluations qui reflètent les modèles d’utilisation réels :

Analyser les requêtes courantes des utilisateurs depuis la production
Inclure des variations de la même question
Tester différents personnages d’utilisateurs et styles de communication

Itérer en fonction des résultats

Utilisez les échecs d’évaluation pour améliorer votre agent :

Identifiez des modèles dans les tests échoués.
Mettez à jour les invites système ou les configurations des outils.
Réexécutez les évaluations pour vérifier les améliorations.
Ajoutez de nouveaux tests pour les cas périphériques découverts.

Prochaines étapes

Déploiement : publiez votre agent testé
Observabilité : surveillez les performances de production
Évaluations de l’agent : documentation détaillée du cadre d’évaluation

Cette page vous a-t-elle été utile ?

PrécédentConception d’Agents conversationnels

SuivantDéploiement d’Agents conversationnels

Guide de l'utilisateur des Agents

Debug le chat​

Démarrage d’une session de Debug​

Affichage des traçages d’exécution​

Affichage des citations​

Ajout de conversations aux ensembles d’évaluations​

Ensembles d’évaluation​

Évaluations à un seul tour​

Utilisez des évaluations à un seul tour pour​

Exemple​

Évaluations multi-tours​

Utilisez des évaluations multi-tours pour​

Exemple​

Création de tests d’évaluation​

Depuis le chat Debug​

Utilisation du générateur de conversations​

Simulations d’outils​

Génération de tests avec le langage naturel​

Exécution d’évaluations​

Exécution d’un seul test​

Exécution d’évaluations par lots​

Tests avec différents modèles​

Métriques d’évaluation​

Meilleures pratiques d’évaluation​

Testez à la fois les chemins heureux et malheureux​

Créer des suites de tests représentatives​

Itérer en fonction des résultats​

Prochaines étapes​

Cette page vous a-t-elle été utile ?

Debug le chat

Démarrage d’une session de Debug

Affichage des traçages d’exécution

Affichage des citations

Ajout de conversations aux ensembles d’évaluations

Ensembles d’évaluation

Évaluations à un seul tour

Utilisez des évaluations à un seul tour pour

Exemple

Évaluations multi-tours

Utilisez des évaluations multi-tours pour

Exemple

Création de tests d’évaluation

Depuis le chat Debug

Utilisation du générateur de conversations

Simulations d’outils

Génération de tests avec le langage naturel

Exécution d’évaluations

Exécution d’un seul test

Exécution d’évaluations par lots

Tests avec différents modèles

Métriques d’évaluation

Meilleures pratiques d’évaluation

Testez à la fois les chemins heureux et malheureux

Créer des suites de tests représentatives

Itérer en fonction des résultats

Prochaines étapes