- Démarrage
- Agents UiPath dans Studio Web
- À propos des agents UiPath
- Licences
- Coded agents in Studio Web
- Exécuter des agents
- Agents et workflows
- Meilleures pratiques pour créer des agents
- Choix du meilleur modèle pour votre agent
- Meilleures pratiques pour la publication et le déploiement d’agents
- Meilleures pratiques en matière d’ingénierie contextuelle
- Meilleures pratiques pour DeepRAG et la transformation par lots : JIT vs. stratégies basées sur des index
- Invites
- Utiliser des fichiers
- Contextes
- Escalade et mémoire d’agent
- Évaluations
- Traçages d’agent
- Score de l’agent
- Gérer les agents UiPath
- Agents codés UiPath

Guide de l'utilisateur des Agents
Évaluation des Agents conversationnels
Les évaluations aident à garantir que votre agent conversationnel se comporte de manière fiable entre les différents chemins de dialogue. Cette page explique comment tester votre agent à l'aide du chat Debug, créer des ensembles d'évaluations et exécuter des tests automatisés.
Chat de débogage
Le chat de débogage fournit un environnement de test en temps réel où vous pouvez interagir avec votre agent et inspecter son comportement.
Lancement d’une session de débogage
- Dans Studio Web, ouvrez votre agent conversationnel.
- Sélectionnez Déboguer pour ouvrir l’interface de chat.
- Envoyez des messages pour tester les réponses de votre agent.

Afficher les traçages des exécutions
Le panneau d'historique affiche les détails en temps réel de l'exécution de l'agent :
- Appels LLM: les invites envoyées au modèle et les réponses reçues.
- Appels d’outils: quels outils ont été invoqués, avec des arguments et des sorties.
Développez n'importe quelle étape pour voir les détails, y compris le nombre de jetons et la latence.

Afficher les citations
Lorsque votre agent utilise l'ancrage dans le contexte, des citations apparaissent dans la réponse indiquant les documents qui ont informé la réponse.
- Recherchez des marqueurs de citation dans la réponse de l'agent.
- Sélectionnez une citation pour voir le document source et l'extrait pertinent.
- Vérifiez que les citations accompagnent avec précision la réponse de l’agent.

Ajout de conversations aux ensembles d'évaluation
Une fois qu'une interaction de test a réussi, enregistrez-la pour des tests automatisés :
- Dans l'onglet Chat , sélectionnez Ajouter à l'ensemble d'évaluations.
- Choisissez un ensemble d'évaluation existant ou créez-en un nouveau.
La conversation est enregistrée avec :
- Historique des conversations: tous les changements précédents dans la boîte de dialogue.
- Message de l'utilisateur actuel: la dernière entrée de l'utilisateur.
- Réponse attendue de l'agent: la réponse réelle de l'agent (que vous pouvez modifier).
Ensembles d’évaluation
Les ensembles d'évaluation sont des collections de cas de test qui valident le comportement de votre agent. Ils prennent en charge les scénarios de test à décision unique et multi-directionnels.
Pour obtenir des conseils d'évaluation détaillés, consultez la section Évaluations des agents
Évaluations à décision unique
Les évaluations à décision unique testent des paires de questions-réponses isolées sans historique des conversations. Il s'agit de tests d'évaluation dans lesquels vous testez la première invite d'une conversation.
Utilisez des évaluations à décision unique pour :
- Tester la récupération de connaissances spécifiques.
- Validation de la sélection d'outils pour différentes intentions.
- Vérification du format et du ton de la réponse.
Exemple :
| Message de l’utilisateur | Comportement attendu |
|---|---|
| « Combien de vacances avons-nous aux États-Unis ? » | Renvoie le nombre correct, lis le document de stratégie |
| « Planer une réunion avec John demain à 14 h » | Outil de calendrier des appels avec des paramètres corrects |
Évaluations multi-lignes
Les évaluations multi-directionnels testent la façon dont l'agent gère le contexte des conversations et les questions de suivi. Il s'agit de tests d'évaluation dans lesquels l'invite testée suit la conversation précédente.
Utilisez des évaluations multi-sorties pour :
- Test de la rétention du contexte entre les rotations.
- Validation de la résolution des pronoms « it », « que », « le même »).
- Vérifiant le flux des conversations et la cohérence.
Exemple :
| Transformer | Message | Comportement attendu |
|---|---|---|
| 1 | « Quelle est la politique du PTO ? » | Renvoie le résumé de la politique PTO |
| 2 | « Comment demander un délai d’attente ? » | Référence le contexte PTO, explique le processus de requête |
| 3 | « Puis-je le faire par e-mail ? » | Comprendre « cela » fait référence à une demande de délai |
Créer des tests d'évaluation
Sur le chat de débogage
- Exécutez une conversation dans le chat de débogage.
- Sélectionnez Add to evaluation set dans le panneau Chat .
- La conversation Exchange sera ajoutée en tant que test d'évaluation dans l'ensemble d'évaluation que vous avez désigné.
Utilisation du générateur de conversations
Le générateur de conversations vous permet de créer ou de modifier des cas de test multi-changements :
- Sélectionnez Evaluation Sets pour votre agent dans Studio Web.
- Sélectionnez un ensemble d'évaluation ou créez-en un nouveau. Si ces options sont désactivées, assurez-vous que vous n’êtes pas en mode débogage.
- Sélectionnez Ajouter pour définir ou modifier un test existant.
- Utilisez le générateur de conversations pour :
- Ajouter des changements d'historique de conversation.
- Définissez le message de l'utilisateur actuel.
- Utiliser la configuration de sortie pour définir l'assertion
- Spécifiez la réponse attendue de l'agent pour les évaluateurs déterministes et basés sur des LLM.
- Spécifiez les « Notes de comportement et de sortie » pour les évaluateurs basés sur la trajectoire.

Simulations d’outils
Les simulations vous permettent de tester le comportement de l'agent sans exécuter de vrais points de terminaison d'outil. Pour chaque test d'évaluation, vous pouvez spécifier si les outils doivent réellement exécuter ou simuler leur exécution.
Les simulations améliorent les évaluations des agents en permettant :
- Tests sécurisés: évitez les effets secondaires involontaires de l'appel de API ou de services réels.
- Exécution plus rapide: ignorez la latence du réseau et les retards de service externes.
- Exécutions rentables: réduisez les coûts de l'API lors des tests itératifs.
- Reproductibilité: obtenez des résultats cohérents en contrôlant les sorties des outils.
Vous pouvez configurer le comportement de simulation pour chaque test d'évaluation :
- Ouvrez un ensemble d'évaluation.
- Sélectionnez un cas de test à modifier.
- Dans la configuration de test, spécifiez les outils qui doivent simuler l’exécution.
- Définissez la sortie simulée attendue pour chaque outil.
Générer des tests avec le langage naturel
Utilisez Autopilot pour générer des tests d’évaluation à partir des descriptions :
- Dans l'écran Ensembles d'évaluations, sélectionnez Créer, puis Générer un nouvel ensemble d'évaluations.
- Décrivez les scénarios que vous souhaitez tester en langage naturel.
- Examinez et affinez les cas de test générés.
Exemple de requête :
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Les tests d’évaluation générés par Autopilot utilisent automatiquement des évaluations basées sur la trajectoire.

Exécution des évaluations
Exécuter un test unique
- Sélectionnez un cas de test dans votre ensemble d’évaluation.
- Sélectionnez Évaluer la sélection.
- Examinez les résultats en comparant la sortie réelle et la sortie attendue.
Exécution d'évaluations par lots
- Accédez à Ensembles d'évaluations.
- Sélectionnez Exécuter sur l'ensemble d'évaluations souhaité pour exécuter tous les tests.
- Examinez les résultats en affichant les taux de réussite/d’échec.

Test avec différents modèles
Exécutez le même ensemble d’évaluation sur différents modèles pour comparer les performances :
- Dans l'ensemble d'évaluation, sélectionnez Paramètres d'évaluation pour ajouter un modèle cible supplémentaire.
- Exécutez l'évaluation.
- Comparez les résultats des différents modèles afin d’identifier celui qui convient le mieux à votre cas d’utilisation.
Cela vous aide à comprendre :
- Quels modèles fonctionnent le mieux pour vos scénarios spécifiques.
- compromis entre la qualité de la réponse et la latence.
- Significations financières des différents choix de modèle.
Mesures d’évaluation
Les évaluations évaluent plusieurs dimensions du comportement de l'agent :
| Mesure | Description |
|---|---|
| Précision de la réponse | La réponse contient-elle les informations correctes ? |
| Sélection d’outil | L'agent a-t-il choisi l'outil approprié ? |
| Qualité de la citation | Les citations sont-elles pertinentes et précises ? |
| Tonalité et format | La réponse correspond-elle au style attendu ? |
| Rétention du contexte | L’agent conserve-t-il le contexte entre les rotations ? |
Meilleures pratiques d'évaluation
Tester les chemins heureux et heureux
Ne vous contentez pas de tester des scénarios idéaux. Inclure :
- Questions ambiguës
- Requêtes hors de l’étendue
- Cas extrêmes et conditions d’erreur
- Entrées multi-langues (si prises en charge)
Créer des suites de tests représentatives
Créez des ensembles d’évaluations qui reflètent les modèles d’utilisation réels :
- Analyser les requêtes courantes des utilisateurs depuis la production
- Inclure les variations de la même question
- Testez différents personas d'utilisateur et différents styles de communication
Itérer en fonction des résultats
Utilisez les échecs d'évaluation pour améliorer votre agent :
- Identifiez les tendances des tests ayant échoué.
- Mettez à jour les invites système ou les configurations d’outils.
- Réexécutez les évaluations pour vérifier les améliorations.
- Ajoutez de nouveaux tests pour les cas particuliers découverts.
Prochaines étapes
- Déploiement: publiez votre agent testé
- Observabilité: Surveillez les performances de production
- Évaluations des agents: documentation détaillée de l'infrastructure d'évaluation
- Chat de débogage
- Lancement d’une session de débogage
- Afficher les traçages des exécutions
- Afficher les citations
- Ajout de conversations aux ensembles d'évaluation
- Ensembles d’évaluation
- Évaluations à décision unique
- Évaluations multi-lignes
- Créer des tests d'évaluation
- Exécution des évaluations
- Exécuter un test unique
- Exécution d'évaluations par lots
- Test avec différents modèles
- Mesures d’évaluation
- Meilleures pratiques d'évaluation
- Tester les chemins heureux et heureux
- Créer des suites de tests représentatives
- Itérer en fonction des résultats
- Prochaines étapes