- Démarrage
- Agents UiPath dans Studio Web
- À propos des agents UiPath
- Licences
- Agents codés dans Studio Web
- Exécuter des agents
- Agents et workflows
- Meilleures pratiques pour créer des agents
- Choix du meilleur modèle pour votre agent
- Meilleures pratiques pour la publication et le déploiement d’agents
- Meilleures pratiques en matière d’ingénierie contextuelle
- Meilleures pratiques pour DeepRAG et la transformation par lots : JIT vs. stratégies basées sur l’index
- Invites
- Utiliser des fichiers
- Contextes
- Escalade et mémoire d’agent
- Évaluations
- Traçages d’agent
- Score de l’agent
- Gérer les agents UiPath
- Agents codés UiPath

Guide de l'utilisateur des Agents
Évaluation des Agents conversationnels
Les évaluations permettent de garantir que votre agent de conversation se comporte de manière fiable dans des chemins de dialogue variés. Cette page explique comment tester votre agent à l’aide de Debug chat, créer des ensembles d’évaluations et exécuter des tests automatisés.
Debug le chat
Debug le hat fournit un environnement de test en temps réel où vous pouvez interagir avec votre agent et inspecter son comportement.
Démarrage d’une session de Debug
- Dans Studio Web, ouvrez votre agent conversationnel.
- Sélectionnez Debug pour ouvrir l'interface de chat.
- Envoyez des messages pour tester les réponses de votre agent.

Affichage des traçages d’exécution
Le panneau Historique affiche les détails en temps réel de l’exécution de l’agent :
- Appels LLM : les invites envoyées au modèle et les réponses reçues.
- Appels d’outils : quels outils ont été invoqués, avec des arguments et des sorties.
Développez n’importe quelle étape pour voir des détails complets, y compris le nombre de jetons et la latence.

Affichage des citations
Lorsque votre agent utilise l’ancrage dans le contexte, des citations apparaissent dans la réponse indiquant les documents qui ont éclairé la réponse.
- Recherchez des marqueurs de citation dans la réponse de l’agent (références généralement numérotées).
- Sélectionnez une citation pour voir le document source et l’extrait pertinent.
- Vérifiez que les citations prennent précisément en charge la réponse de l’agent.

Ajout de conversations aux ensembles d’évaluations
Après une interaction de test réussie, enregistrez-la pour des tests automatisés :
- Dans l’onglet Chat, sélectionnez Ajouter à l’ensemble d’évaluations.
- Choisissez un ensemble d’évaluations existant ou créez-en un nouveau.
La conversation est enregistrée avec :
- Historique de la conversation : tous les tours de parole précédents dans le dialogue.
- Message de l’utilisateur actuel : la dernière entrée de l’utilisateur.
- Réponse attendue de l’agent : la réponse réelle de l’agent (que vous pouvez modifier).
Ensembles d’évaluation
Les ensembles d’évaluations sont des collections de cas de test qui valident le comportement de votre agent.Ils prennent en charge à la fois les scénarios de test à un seul tour et à plusieurs tours.
Pour des directives d’évaluation détaillées, reportez-vous à Évaluations de l'agent.
Évaluations à un seul tour
Les évaluations à un seul tour testent les paires de questions-réponses isolées sans historique de la conversation. Ce sont des tests d’évaluation où vous testez la première invite dans une conversation.
Utilisez des évaluations à un seul tour pour :
- Test de la récupération des connaissances spécifiques.
- Validation de la sélection de l’outil pour différentes intentions.
- Vérification du format et du ton de la réponse.
Exemple :
| Message de l’utilisateur | Comportement attendu |
|---|---|
| « Combien de jours fériés avons-nous aux États-Unis ? » | Renvoie le nombre correct, cite le document de la politique |
| « Planifiez une réunion avec John demain à 14 h » | Appelle l’outil de calendrier avec des paramètres corrects |
Évaluations multi-tours
Les évaluations multi-tours testent la façon dont l’agent gère le contexte de la conversation et les questions de suivi. Ce sont des tests d’évaluation où l’invite testée suit la conversation précédente.
Utilisez des évaluations multi-tours pour :
- Test de la rétention du contexte entre les tours.
- Validation de la résolution des pronoms (« il », « ça », « le même »).
- Vérification du flux et de la cohérence de la conversation.
Exemple :
| Tour | Message | Comportement attendu |
|---|---|---|
| 1 | « Quelle est la politique PTO ? » | Renvoie un résumé de la politique PTO |
| 2 | « Comment demander des congés ? » | Fait référence au contexte PTO, explique le processus de demande |
| 3 | « Puis-je le faire via un e-mail ? » | Comprend que « cela » fait référence à la demande de congés |
Création de tests d’évaluation
Depuis le chat Debug
- Exécutez une conversation dans le chat Debug.
- Sélectionnez Ajouter à l’ensemble d’évaluations dans le panneau Chat.
- L’échange de conversation sera ajouté en tant que test d’évaluation dans votre ensemble d’évaluations désigné.
Utilisation du générateur de conversations
Le générateur de conversations vous permet de créer ou de modifier des cas de test multi-tours :
- Sélectionnez Ensembles d’évaluations de votre agent dans Studio Web.
- Sélectionnez un ensemble d’évaluations ou créez-en un nouveau. Si ces options sont désactivées, assurez-vous que vous n’êtes pas en mode Débug.
- Sélectionnez Ajouter pour définir ou modifiez un test existant.
- Utilisez le générateur de conversations pour :
- Ajoutez des tours de l’historique de la conversation.
- Définissez le message de l’utilisateur actuel.
- Utilisez la configuration de la sortie pour définir l’assertion
- Spécifiez la réponse attendue de l’agent pour les évaluateurs déterministes et basés sur LLM en tant que juge.
- Spécifiez les « notes de comportement et de sortie » pour les évaluateurs basés sur la trajectoire.

Simulations d’outils
Les simulations vous permettent de tester le comportement de l’agent sans exécuter de points de terminaison d’outils réels. Pour chaque test d’évaluation, vous pouvez spécifier si les outils doivent réellement exécuter ou simuler leur exécution.
Les simulations améliorent les évaluations de l’agent en permettant :
- Tests sûrs : évitez les effets secondaires inattendus de l’appel d’API ou de services réels.
- Exécution plus rapide : ignorez la latence du réseau et les délais de service externe.
- Exécutions rentables : réduisez les coûts d’API pendant les tests itératifs.
- Reproductibilité : obtenez des résultats cohérents en contrôlant les sorties de l’outil.
Vous pouvez configurer le comportement de la simulation pour chaque test d’évaluation :
- Ouvrez un ensemble d’évaluations.
- Sélectionnez un incident de test à modifier.
- Dans la configuration de test, spécifiez les outils qui doivent simuler l’exécution.
- Définissez la sortie simulée attendue pour chaque outil.
Génération de tests avec le langage naturel
Utilisez Autopilot pour générer des tests d’évaluation à partir des descriptions :
- Dans l’écran Ensembles d’évaluations, sélectionnez Créer, puis Générer un nouvel ensemble d’évaluations.
- Décrivez les scénarios que vous souhaitez tester en langage naturel.
- Examinez et affinez les cas de test générés.
Exemple de requête :
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Les tests d’évaluation générés par Autopilot utilisent automatiquement des évaluations basées sur la trajectoire.

Exécution d’évaluations
Exécution d’un seul test
- Sélectionnez un incident de test dans votre ensemble d’évaluations.
- Sélectionnez Évaluer sélectionné.
- Examinez les résultats en comparant la sortie réelle à la sortie attendue.
Exécution d’évaluations par lots
- Accédez à Ensembles d’évaluations.
- Sélectionnez Exécuter sur l’ensemble d’évaluations souhaité pour exécuter tous les tests.
- Examinez les résultats affichant les taux de réussite/d’échec.

Tests avec différents modèles
Exécutez le même ensemble d’évaluations par rapport à différents modèles pour comparer les performances :
- Dans l’ensemble d’évaluations, sélectionnez Paramètres d’évaluation pour ajouter un modèle cible supplémentaire.
- Exécutez l’évaluation.
- Comparez les résultats sur les modèles pour identifier la meilleure adéquation à votre incident d’utilisation.
Cela vous aide à comprendre :
- Quels modèles fonctionnent le mieux pour vos scénarios spécifiques.
- Compromis entre la qualité de la réponse et la latence.
- Implications de coûts des différents choix de modèle.
Métriques d’évaluation
Les évaluations évaluent plusieurs dimensions du comportement de l’agent :
| Mesure | Description |
|---|---|
| Précision de la réponse | La réponse contient-elle des informations correctes ? |
| Sélection de l’outil | L’agent a-t-il choisi l’outil approprié ? |
| Qualité de la citation | Les citations sont-elles pertinentes et précises ? |
| Ton et format | La réponse correspond-elle au style attendu ? |
| Rétention du contexte | L’agent conserve-t-il le contexte entre les tours ? |
Meilleures pratiques d’évaluation
Testez à la fois les chemins heureux et malheureux
Ne testez pas uniquement des scénarios idéaux. Incluez :
- Questions ambiguës
- Demandes hors du cadre
- Cas périphériques et conditions d'Error
- Entrées multi-langues (si elles sont prises en charge)
Créer des suites de tests représentatives
Créez des ensembles d’évaluations qui reflètent les modèles d’utilisation réels :
- Analyser les requêtes courantes des utilisateurs depuis la production
- Inclure des variations de la même question
- Tester différents personnages d’utilisateurs et styles de communication
Itérer en fonction des résultats
Utilisez les échecs d’évaluation pour améliorer votre agent :
- Identifiez des modèles dans les tests échoués.
- Mettez à jour les invites système ou les configurations des outils.
- Réexécutez les évaluations pour vérifier les améliorations.
- Ajoutez de nouveaux tests pour les cas périphériques découverts.
Prochaines étapes
- Déploiement : publiez votre agent testé
- Observabilité : surveillez les performances de production
- Évaluations de l’agent : documentation détaillée du cadre d’évaluation
- Debug le chat
- Démarrage d’une session de Debug
- Affichage des traçages d’exécution
- Affichage des citations
- Ajout de conversations aux ensembles d’évaluations
- Ensembles d’évaluation
- Évaluations à un seul tour
- Évaluations multi-tours
- Création de tests d’évaluation
- Exécution d’évaluations
- Exécution d’un seul test
- Exécution d’évaluations par lots
- Tests avec différents modèles
- Métriques d’évaluation
- Meilleures pratiques d’évaluation
- Testez à la fois les chemins heureux et malheureux
- Créer des suites de tests représentatives
- Itérer en fonction des résultats
- Prochaines étapes