agents
latest
false
Important :
La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.
UiPath logo, featuring letters U and I in white

Guide de l'utilisateur des agents

Dernière mise à jour 15 sept. 2025

Évaluations

À propos des évaluations

Lorsque vous créez un agent, l'objectif est qu'il soit fiable : une ressource sur laquelle vous pouvez compter pour fournir constamment le bon résultat. Les évaluations vous aident à déterminer si votre agent fait du bon travail ou s'il doit être amélioré.

Terminologie

Une évaluation est une paire composée d’une entrée et d’une assertion (ou évaluateur) formulée sur la sortie. L’évaluateur est une condition définie ou une règle utilisée pour évaluer si la sortie de l’agent répond à la sortie attendue ou à la trajectoire attendue.

Les ensembles d'évaluation sont des regroupements logiques d'évaluations et d'évaluateurs.

Les résultats des évaluations sont les traçages des exécutions d'évaluations effectuées qui permettent d'évaluer les performances d'un agent. Au cours de ces exécutions, la précision, l'efficacité et la capacité de prise de décision de l'agent sont mesurées et notées en fonction de ses performances.

Le score d’évaluation détermine les performances de l’agent en fonction des assertions contenues dans une évaluation spécifique. La note utilise une échelle de 0 à 100. Si vos exécutions d’évaluation ont échoué, vous devez diagnostiquer la cause, procéder au débogage, puis les réexécuter.

Créer des évaluations

Avant de créer des évaluations à grande échelle, vous pouvez au préalable tester votre agent dans des scénarios ponctuels pour déterminer si l’agent est capable d’effectuer sa tâche et si la sortie est correcte ou non. Si votre agent génère la sortie correcte, vous pouvez créer des évaluations à partir des exécutions correctes. Si votre agent ne génère pas la sortie correcte, vous pouvez corriger la sortie et créer une évaluation avec la sortie attendue, vous pouvez créer des évaluations à partir de zéro.

Créer des évaluations à partir d'exécutions de tests

  1. Une fois que vous avez conçu votre agent, sélectionnez Test on cloud (Tester sur le cloud).
  2. Dans la fenêtre Configuration de test, confirmez les ressources utilisées dans la solution et :
    1. Fournissez l’entrée de l’exécution du test :

      • Fournir des entrées manuellement en tapant le contenu, ou
      • Simuler les entrées : utilisez un LLM pour générer les entrées des arguments de votre agent. Vous pouvez laisser LLM générer automatiquement des entrées ou fournir des instructions pour l’orienter vers des exemples spécifiques.
    2. Configurez si vous souhaitez tester avec de vrais outils ou simuler un, plusieurs ou tous vos outils.
      • Simuler les outils : utilisez un LLM pour simuler un ou plusieurs outils d’agent. Décrivez comment chaque outil doit répondre et simulez les ensembles d’outils partiels ou complets sur lesquels votre agent s’appuie.
  3. Sélectionnez Enregistrer et Exécuter.

    Les résultats s’affichent dans le panneau Sortie d’exécution. Des indicateurs sont à disposition pour vous signaler que l’agent est exécuté avec des données réelles ou simulées.

  4. Si la sortie est correcte, sélectionnez le bouton Add to eval set (Ajouter à l'ensemble d'évaluation), désormais disponible dans l'onglet General (Général).

    Si la sortie n'est pas correcte, vous pouvez :

    • Affinez la requête : ajustez la requête et testez l'agent jusqu'à ce que la sortie soit correcte.
    • Créer des évaluations à partir de résultats incorrects : générez des évaluations basées sur des résultats incorrects et modifiez-les manuellement pour qu'elles correspondent résultat attendu.
  5. Les exécutions de tests sont répertoriées dans la fenêtre Add to Evaluation Set (Ajouter à l'ensemble d'évaluation). Sélectionnez Add to default set (Ajouter à l'ensemble par défaut) pour toute exécution que vous souhaitez ajouter à une évaluation.

    Si vous avez déjà créé un ensemble d'évaluation, vous pouvez le sélectionner dans la liste déroulante disponible.

  6. Accédez ensuite au panneau Ensembles d’évaluation. Trois options sont disponibles :

    1. Utilisez l’ensemble d’évaluation prédéfini pour organiser vos évaluations.
    2. Générez un nouvel ensemble avec des entrées et des outils simulés.
    3. Ajoutez des évaluations dans des ensembles existants avec des données réelles et simulées.
  7. Sélectionnez Evaluate set (Évaluer l'ensemble) pour exécuter les évaluations. Vous pouvez également sélectionner des évaluations spécifiques dans l'ensemble que vous souhaitez évaluer.
  8. Accédez à l'onglet Results (Résultats) pour afficher la note de l'évaluation et les détails correspondants.

Créer des évaluations de bout en bout

  1. Une fois que vous avez conçu votre agent, accédez à l'onglet Evaluation sets (Ensembles d'évaluation) et sélectionnez Create New (Créer nouveau).

    Vous pouvez également sélectionner Importer pour utiliser des données JSON existantes provenant des évaluations d'autres agents.

  2. Donnez à l'ensemble d'évaluation un nom pertinent.
  3. Sélectionnez Add to set (Ajouter à l'ensemble) pour créer de nouvelles évaluations. Pour chaque nouvelle évaluation de l'ensemble :

    1. Ajoutez un nom.

    2. Ajoutez des valeurs dans les champs Input (Entrée) (hérités des arguments d'entrée définis) et la sortie Output attendue.

    3. Sélectionnez Enregistrer (Save).

  4. Ensuite, sélectionnez Set Evaluators (Définir les évaluateurs) pour affecter des évaluateurs à l'ensemble d'évaluation.

    Vous pouvez affecter un ou plusieurs évaluateurs à un ensemble.

  5. Sélectionnez Save changes (Enregistrer les modifications).

  6. Sur la page Evaluation sets (Ensembles d'évaluation) principale, sélectionnez Run evaluation set (Exécuter l'ensemble d'évaluation) pour chaque ensemble que vous souhaitez exécuter.

  7. Accédez à l'onglet Results (Résultats) pour afficher la note de l'évaluation et les détails correspondants.

Générer des évaluations

Vous pouvez également créer des ensembles d’évaluation avec des simulations. Générer de nouveaux ensembles d’évaluation (ou ajouter des ensembles d’évaluation existants) à l’aide d’entrées et d’outils simulés.

  1. Sélectionnez Créer.
  2. Sélectionnez Générer un nouvel ensemble d’évaluation.

    Vous pouvez laisser le LLM générer automatiquement l’ensemble d’évaluation en fonction de votre agent existant, de ses exécutions de conception, de ses arguments ou fournir des invites pour l’orienter vers des exemples spécifiques.

Définir les évaluateurs

Utilisez le panneau Evaluators (Évaluateurs) pour créer et gérer vos évaluateurs. Par défaut, chaque agent dispose d'un évaluateur par défaut (Default Evaluator) prédéfini basé sur un LLM.

Pour créer vos propres évaluateurs, procédez comme suit :

  1. Sélectionnez Create New (Créer nouveau) :
  2. Sélectionnez le type d'évaluateur :
    1. LLM-as-a judge: Semantic Similarity (LLM en tant que juge : similarité sémantique) : créez votre propre évaluateur basé sur LLM.
    2. Exact match (Correspondance exacte) : vérifie si la sortie de l'agent correspond à la sortie attendue.
    3. JSON similarity (Similarité JSON) : vérifie si deux structures ou valeurs JSON sont similaires.
    4. Évaluateur de trajectoire : utilise l’IA pour juger l’agent en fonction de l’historique des exécutions et du comportement attendu.
  3. Sélectionnez continuer (continue).
  4. Configurez l'évaluateur :
    1. Ajoutez un nom et une description pertinents.

    2. Sélectionnez les champs de sortie cibles (Target output fields) :
      • Ciblage au niveau racine (* Tous) : évalue la sortie entière.
      • Ciblage spécifique au domaine : évalue des champs spécifiques de premier niveau. Utilisez le menu déroulant pour sélectionner un champ. Les champs de sortie répertoriés sont hérités des arguments de sortie que vous avez définis pour la requête système.
    3. Ajoutez une requête (uniquement pour l'évaluateur basé sur LLM).

Choisir le type d'évaluateur

Si vous ne savez pas quel type d'évaluateur répond à vos besoins, consultez les recommandations suivantes :

  • LLM-as-a-Judge (LLM en tant que juge) :
    • Approche par défaut recommandée lorsque vous ciblez le résultat racine.
    • Permet une évaluation flexible des sorties complexes.
    • Peut évaluer la qualité et l'exactitude au-delà des correspondances exactes.
    • Principalement utilisé pour évaluer le raisonnement, les réponses en langage naturel ou les résultats structurés complexes.
  • Deterministic (Déterministe) (correspondance exacte ou similarité JSON) :
    • Recommandé lorsque vous attendez des correspondances exactes.
    • Plus efficace lorsque les exigences de sortie sont strictement définies.
    • Fonctionne avec des objets complexes, mais est mieux adapté aux sorties suivantes :
      • Réponses booléennes (vrai ou faux)
      • Valeurs numériques spécifiques
      • Correspondance exacte de chaînes de caractères
      • Tableaux de primitives.

Configurer des simulations dans les évaluations

Remarque : cette fonctionnalité est disponible en version d'évaluation.

Les simulations améliorent les évaluations des agents en permettant de tester de manière sûre, rapide et économique à l’aide de comportements simulés d’outils et d’escalade au lieu de points de terminaison réels. Ils offrent un contrôle détaillé au niveau de l’évaluation, ce qui permet aux équipes de définir les composants à simuler et de combiner des exécutions réelles et simulées dans le même ensemble d’évaluation. Cette flexibilité prend en charge les entrées fixes ou générées et la sortie littérale et la notation basée sur le comportement, ce qui améliore la couverture des tests, la reproductibilité et la capacité d’évaluer si les agents se comportent comme prévu.

Pour plus d'informations, consultez Configuration de simulations pour les outils d'agent.

Comment configurer des simulations d’évaluation

Pour configurer de nouveaux ensembles d’évaluation à l’aide de simulations, procédez comme suit :

  1. Dans l’onglet Ensembles d’évaluation, sélectionnez Créer, puis Générer un nouvel ensemble d’évaluation.
  2. Saisissez une description des scénarios d’évaluation que vous souhaitez générer.

    Vous pouvez fournir un contexte de haut niveau, des scénarios spécifiques ou coller du contenu pertinent pour guider la génération. Si vous laissez ce champ vide, les cas d’évaluation sont quand même générés automatiquement.

  3. Sélectionnez Générer des évaluations.

    Autopilot génère plusieurs évaluations. Pour chaque évaluation, vous pouvez afficher et modifier les instructions de simulation, les instructions de génération d’entrée et les notes de comportement attendu.

  4. Sélectionnez les évaluations que vous souhaitez utiliser, puis sélectionnez Ajouter un ensemble.




Pour configurer les simulations des évaluations existantes, procédez comme suit :

  1. Ouvrez un ensemble d’évaluations et sélectionnez Modifier sur n’importe quelle évaluation. Le panneau Modifier l’évaluation s’affiche.
  2. Dans la section Organiser, définissez ou générez des données d’entrée à l’aide de valeurs manuelles ou d’instructions de génération d’exécution.

    Si vous définissez les données d’entrée manuellement, vous pouvez définir le champ Test sur Vrai pour indiquer qu’il s’agit d’un scénario de test.

  3. Dans la section Agir, choisissez si chaque outil doit simuler un comportement (simulé) ou exécuter de vrais appels et ajoutez des instructions de simulation. L’exécution de l’outil est le paramètre par défaut.
  4. Dans la section Asserter, spécifiez si l’évaluation est basée sur la correspondance de sortie ou sur la trajectoire de l’agent et décrivez le comportement et la sortie attendus.
  5. Sélectionnez Enregistrer pour appliquer votre configuration.

Figure 1. Configurer les simulations d’outils dans les évaluations


Utiliser les évaluations

Structurer la requête de votre évaluation

Une sortie bien structurée rend les évaluations plus fiables. C'est pourquoi il est préférable d'avoir des sorties structurées : cela offre une plus grande cohérence et facilite les comparaisons.

Voici un exemple de requête prédéfinie qui évalue l'ensemble de la sortie :

Exemple de requête

En tant qu'évaluateur expert, analysez la similarité sémantique de ces contenus JSON pour déterminer une note comprise entre 0 et 100. Concentrez-vous sur la comparaison de la signification et de l'équivalence contextuelle des champs correspondants, en tenant compte des expressions équivalentes valides, des synonymes et des variations de langage raisonnables tout en maintenant un haut niveau d'exactitude et d'exhaustivité. Accompagnez votre note d'une justification expliquant brièvement et de façon concise pourquoi vous avez attribué cette note.

Sortie attendue : {{ExpectedOutput}}

Sortie réelle : {{ActualOutput}}

Nombre d'évaluations

Agent Score (Note de l'agent) considère plus de 30 évaluations comme un banc d'essai convenable.

Pour les agents simples, visez environ 30 évaluations réparties sur 1 à 3 ensembles d'évaluation. Pour les agents plus complexes, nous vous recommandons d'utiliser au moins le double, voire plus.

Le nombre d'évaluations dépend des éléments suivants :

  • Complexité de l'agent
    • Nombre de paramètres d'entrée
    • Complexité de la structure de sortie
    • Schémas d'utilisation des outils
    • Arbres de décision
  • Entrée
    • Gamme des entrées possibles : types de données, plages de valeurs, champs facultatifs
    • Cas extrêmes
  • Schémas d'utilisation
    • Cas d'utilisation communs
    • Personas différents
    • Scénarios d'erreur

Ensembles d’évaluation

Le regroupement des évaluations sous forme d'ensembles permet de mieux les organiser. Par exemple, vous pouvez avoir :

  • Un ensemble pour une évaluation complète de la sortie.
  • Une autre pour les cas extrêmes.
  • Une autre pour gérer les fautes d'orthographe.

Principes de couverture

  • Couverture logique : cartographiez les combinaisons d'entrées, les cas extrêmes et les conditions limites.
  • Gestion des redondances : visez 3 à 5 évaluations différentes par cas logiquement équivalent.
  • Qualité plutôt que quantité : la multiplication des évaluations n'entraîne pas toujours de meilleurs résultats. Concentrez-vous sur des tests significatifs.

Quand créer des évaluations

Créez des évaluations une fois que les arguments sont stables ou complets. Cela signifie également que votre cas d'utilisation est établi et que la requête, les outils et les contextes sont finalisés. Si vous modifiez les arguments, vous devez ajuster vos évaluations en conséquence. Pour minimiser le travail supplémentaire, il est préférable de commencer avec des agents stables dont les cas d'utilisation sont bien définis. Vous pouvez exporter et importer des ensembles d'évaluation entre des agents de la même organisation ou d'organisations différentes. Tant que la conception de votre agent est terminée, vous pouvez déplacer les évaluations en fonction de vos besoins sans avoir à les recréer intégralement.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo
Confiance et sécurité
© 2005-2025 UiPath Tous droits réservés.