UiPath Documentation
agents
latest
false
Important :
La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.
UiPath logo, featuring letters U and I in white

Guide de l'utilisateur des Agents

Dernière mise à jour 2 avr. 2026

Évaluation des Agents conversationnels

Les évaluations permettent de garantir que votre agent de conversation se comporte de manière fiable dans des chemins de dialogue variés. Cette page explique comment tester votre agent à l’aide de Debug chat, créer des ensembles d’évaluations et exécuter des tests automatisés.

Debug le chat

Debug le hat fournit un environnement de test en temps réel où vous pouvez interagir avec votre agent et inspecter son comportement.

Démarrage d’une session de Debug

  1. Dans Studio Web, ouvrez votre agent conversationnel.
  2. Sélectionnez Debug pour ouvrir l'interface de chat.
  3. Envoyez des messages pour tester les réponses de votre agent.

Debug l'interface de chat

Affichage des traçages d’exécution

Le panneau Historique affiche les détails en temps réel de l’exécution de l’agent :

  • Appels LLM : les invites envoyées au modèle et les réponses reçues.
  • Appels d’outils : quels outils ont été invoqués, avec des arguments et des sorties.

Développez n’importe quelle étape pour voir des détails complets, y compris le nombre de jetons et la latence.

Panneau de Trace de l’exécution

Affichage des citations

Lorsque votre agent utilise l’ancrage dans le contexte, des citations apparaissent dans la réponse indiquant les documents qui ont éclairé la réponse.

  1. Recherchez des marqueurs de citation dans la réponse de l’agent (références généralement numérotées).
  2. Sélectionnez une citation pour voir le document source et l’extrait pertinent.
  3. Vérifiez que les citations prennent précisément en charge la réponse de l’agent.

Vue des citations

Ajout de conversations aux ensembles d’évaluations

Après une interaction de test réussie, enregistrez-la pour des tests automatisés :

  1. Dans l’onglet Chat, sélectionnez Ajouter à l’ensemble d’évaluations.
  2. Choisissez un ensemble d’évaluations existant ou créez-en un nouveau.

La conversation est enregistrée avec :

  • Historique de la conversation : tous les tours de parole précédents dans le dialogue.
  • Message de l’utilisateur actuel : la dernière entrée de l’utilisateur.
  • Réponse attendue de l’agent : la réponse réelle de l’agent (que vous pouvez modifier).

Ensembles d’évaluation

Les ensembles d’évaluations sont des collections de cas de test qui valident le comportement de votre agent.Ils prennent en charge à la fois les scénarios de test à un seul tour et à plusieurs tours.

Pour des directives d’évaluation détaillées, reportez-vous à Évaluations de l'agent.

Évaluations à un seul tour

Les évaluations à un seul tour testent les paires de questions-réponses isolées sans historique de la conversation. Ce sont des tests d’évaluation où vous testez la première invite dans une conversation.

Utilisez des évaluations à un seul tour pour :

  • Test de la récupération des connaissances spécifiques.
  • Validation de la sélection de l’outil pour différentes intentions.
  • Vérification du format et du ton de la réponse.

Exemple :

Message de l’utilisateurComportement attendu
« Combien de jours fériés avons-nous aux États-Unis ? »Renvoie le nombre correct, cite le document de la politique
« Planifiez une réunion avec John demain à 14 h »Appelle l’outil de calendrier avec des paramètres corrects

Évaluations multi-tours

Les évaluations multi-tours testent la façon dont l’agent gère le contexte de la conversation et les questions de suivi. Ce sont des tests d’évaluation où l’invite testée suit la conversation précédente.

Utilisez des évaluations multi-tours pour :

  • Test de la rétention du contexte entre les tours.
  • Validation de la résolution des pronoms (« il », « ça », « le même »).
  • Vérification du flux et de la cohérence de la conversation.

Exemple :

TourMessageComportement attendu
1« Quelle est la politique PTO ? »Renvoie un résumé de la politique PTO
2« Comment demander des congés ? »Fait référence au contexte PTO, explique le processus de demande
3« Puis-je le faire via un e-mail ? »Comprend que « cela » fait référence à la demande de congés

Création de tests d’évaluation

Depuis le chat Debug
  1. Exécutez une conversation dans le chat Debug.
  2. Sélectionnez Ajouter à l’ensemble d’évaluations dans le panneau Chat.
  3. L’échange de conversation sera ajouté en tant que test d’évaluation dans votre ensemble d’évaluations désigné.
Utilisation du générateur de conversations

Le générateur de conversations vous permet de créer ou de modifier des cas de test multi-tours :

  1. Sélectionnez Ensembles d’évaluations de votre agent dans Studio Web.
  2. Sélectionnez un ensemble d’évaluations ou créez-en un nouveau. Si ces options sont désactivées, assurez-vous que vous n’êtes pas en mode Débug.
  3. Sélectionnez Ajouter pour définir ou modifiez un test existant.
  4. Utilisez le générateur de conversations pour :
    • Ajoutez des tours de l’historique de la conversation.
    • Définissez le message de l’utilisateur actuel.
  5. Utilisez la configuration de la sortie pour définir l’assertion
    • Spécifiez la réponse attendue de l’agent pour les évaluateurs déterministes et basés sur LLM en tant que juge.
    • Spécifiez les « notes de comportement et de sortie » pour les évaluateurs basés sur la trajectoire.

Générateur de conversations

Simulations d’outils

Les simulations vous permettent de tester le comportement de l’agent sans exécuter de points de terminaison d’outils réels. Pour chaque test d’évaluation, vous pouvez spécifier si les outils doivent réellement exécuter ou simuler leur exécution.

Les simulations améliorent les évaluations de l’agent en permettant :

  • Tests sûrs : évitez les effets secondaires inattendus de l’appel d’API ou de services réels.
  • Exécution plus rapide : ignorez la latence du réseau et les délais de service externe.
  • Exécutions rentables : réduisez les coûts d’API pendant les tests itératifs.
  • Reproductibilité : obtenez des résultats cohérents en contrôlant les sorties de l’outil.

Vous pouvez configurer le comportement de la simulation pour chaque test d’évaluation :

  1. Ouvrez un ensemble d’évaluations.
  2. Sélectionnez un incident de test à modifier.
  3. Dans la configuration de test, spécifiez les outils qui doivent simuler l’exécution.
  4. Définissez la sortie simulée attendue pour chaque outil.
Génération de tests avec le langage naturel

Utilisez Autopilot pour générer des tests d’évaluation à partir des descriptions :

  1. Dans l’écran Ensembles d’évaluations, sélectionnez Créer, puis Générer un nouvel ensemble d’évaluations.
  2. Décrivez les scénarios que vous souhaitez tester en langage naturel.
  3. Examinez et affinez les cas de test générés.

Exemple de requête :

Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Remarque :

Les tests d’évaluation générés par Autopilot utilisent automatiquement des évaluations basées sur la trajectoire.

Boîte de dialogue Générer des tests

Exécution d’évaluations

Exécution d’un seul test

  1. Sélectionnez un incident de test dans votre ensemble d’évaluations.
  2. Sélectionnez Évaluer sélectionné.
  3. Examinez les résultats en comparant la sortie réelle à la sortie attendue.

Exécution d’évaluations par lots

  1. Accédez à Ensembles d’évaluations.
  2. Sélectionnez Exécuter sur l’ensemble d’évaluations souhaité pour exécuter tous les tests.
  3. Examinez les résultats affichant les taux de réussite/d’échec.

Résultats de l’évaluation

Tests avec différents modèles

Exécutez le même ensemble d’évaluations par rapport à différents modèles pour comparer les performances :

  1. Dans l’ensemble d’évaluations, sélectionnez Paramètres d’évaluation pour ajouter un modèle cible supplémentaire.
  2. Exécutez l’évaluation.
  3. Comparez les résultats sur les modèles pour identifier la meilleure adéquation à votre incident d’utilisation.

Cela vous aide à comprendre :

  • Quels modèles fonctionnent le mieux pour vos scénarios spécifiques.
  • Compromis entre la qualité de la réponse et la latence.
  • Implications de coûts des différents choix de modèle.

Métriques d’évaluation

Les évaluations évaluent plusieurs dimensions du comportement de l’agent :

MesureDescription
Précision de la réponseLa réponse contient-elle des informations correctes ?
Sélection de l’outilL’agent a-t-il choisi l’outil approprié ?
Qualité de la citationLes citations sont-elles pertinentes et précises ?
Ton et formatLa réponse correspond-elle au style attendu ?
Rétention du contexteL’agent conserve-t-il le contexte entre les tours ?

Meilleures pratiques d’évaluation

Testez à la fois les chemins heureux et malheureux

Ne testez pas uniquement des scénarios idéaux. Incluez :

  • Questions ambiguës
  • Demandes hors du cadre
  • Cas périphériques et conditions d'Error
  • Entrées multi-langues (si elles sont prises en charge)

Créer des suites de tests représentatives

Créez des ensembles d’évaluations qui reflètent les modèles d’utilisation réels :

  • Analyser les requêtes courantes des utilisateurs depuis la production
  • Inclure des variations de la même question
  • Tester différents personnages d’utilisateurs et styles de communication

Itérer en fonction des résultats

Utilisez les échecs d’évaluation pour améliorer votre agent :

  1. Identifiez des modèles dans les tests échoués.
  2. Mettez à jour les invites système ou les configurations des outils.
  3. Réexécutez les évaluations pour vérifier les améliorations.
  4. Ajoutez de nouveaux tests pour les cas périphériques découverts.

Prochaines étapes

Cette page vous a-t-elle été utile ?

Connecter

Besoin d'aide ? Assistance

Vous souhaitez apprendre ? UiPath Academy

Vous avez des questions ? UiPath Forum

Rester à jour