ixp
latest
false
  • Vue d'ensemble (Overview)
    • Introduction
    • Extraire des données de documents non structurés
    • Créer et déployer des modèles
    • Quotas
  • Construction de modèles
    • Vue d'ensemble (Overview)
    • Gérer des projets
    • Téléversement d'exemples de documents​
      • Meilleures pratiques
      • Gérer les champs
      • Importing and exporting taxonomies
    • Examen des prédictions
    • Valider les prédictions d'extraction
    • Configuration du modèle
  • Validation du modèle
  • Déploiement du modèle
  • Questions fréquemment posées
UiPath logo, featuring letters U and I in white

Guide de l'utilisateur des documents non structurés et complexes

Dernière mise à jour 13 oct. 2025

Meilleures pratiques

Cette section contient les meilleures pratiques sur la façon d'écrire de bonnes instructions d'invite au niveau du projet (c'est-à-dire de l'extraction globale), au niveau du groupe de champs et au niveau du champ.

Remarque : ces bonnes pratiques sont conçues pour GPT-4o, mais des problèmes d'OCR peuvent toujours survenir. Même avec des invitations bien conçues, suivre toutes les instructions ne garantit pas que les performances d'extraction répondront à vos attentes.

Recommandations générales concernant la taxonomie

  • Clarté et simplicité : utilisez un langage clair, direct et sans ambiguïté. Évitez de trop compliquer les instructions qui pourraient embrouiller le modèle. Utilisez un langage simple et des phrases courtes.
  • Cohérence : maintenir la cohérence de la terminologie entre les champs, les groupes de champs et les instructions pour éviter toute confusion.
  • Fournir le contexte : équiper le modèle du contexte pertinent pour comprendre l'étendue générale de la tâche. Dans la mesure où le modèle doit comprendre la tâche qu'il gère, cela peut inclure des informations métier, le type de document ou le format de données général. Si vous fournissez davantage de contexte dans l'invite, la probabilité que le modèle prédise systématiquement le champ augmente également.
  • Itérer : les invitations d'affinement étant un processus itératif, le maintien d'un enregistrement de vos brouillons et de leurs résultats correspondants peut fournir des informations précieuses pour les ajustements et les améliorations futurs. Écrire une requête, tester et modifier. Répétez ce processus jusqu'à ce que vous obteniez l'extraction souhaitée.
  • Éviter les instructions négatives – N'entrez pas d'instruction semblable à : n'omettez aucune section du document. Remplacez-le plutôt par : vérifiez que toutes les sections clés, telles que x, y, z, du document sont couvertes.
  • Éviter le langage répétitif : un langage répétitif peut entraîner une redondance, de la confusion et rendre les instructions du modèle peu claires.
  • Méfiez-vous des informations contradictoires : vérifiez que votre projet, votre groupe de champs et vos instructions au niveau du champ ne se contredisent pas entre elles en ce qui concerne les informations à extraire, le format de l'extraction et l'emplacement des informations. Cela embrouillera le modèle et entraînera des résultats incohérents.
  • Exemple de renforcement : dans la mesure du possible, renforcez l'instruction rapide avec des exemples de réponses correctes. Ces instances peuvent guider le modèle vers le résultat attendu.

Figure 1. Exemple de taxonomie

Niveau du projet (extraction globale)

Bonnes pratiquesDétails (Details)ImportanceExemple correct Exemple incorrect
Définition du secteur d'activité et saisie du type de documentDécrire brièvement le secteur d'activité et le type de document desquels les informations sont extraites. Ensuite, spécifiez les principales caractéristiques et la structure attendue du type de document pour guider l'extraction.  Cela fournit un contexte important pour le processus d'extraction de données. Instruction : extraire des informations d’un relevé de courtage, qui se trouve couramment dans le secteur des services financiers. Les relevés de courtage comprennent généralement quelques sections : aperçu du compte, résumé du compte, solde du compte et activités de transaction du compte.

Instruction : extraire du document les champs ci-dessous.

Explication : cet exemple d’instruction de projet ne présente aucun avantage pour le modèle. Il ne fournit aucun contexte important ni aucune caractéristique clé susceptible d’aider à guider le modèle. 

Spécifiez si vous prévoyez que le document apparaisse plusieurs fois dans un même fichier.  Indiquez si le document contient plusieurs instances de données identiques et fournissez des conseils pour chaque instance d'extraction. Dans les cas d'utilisation qui peuvent contenir plusieurs documents dans un même fichier, identifiez un identificateur unique et incluez-le en tant que champ dans chaque groupe de champs. Cela facilitera le post-traitement et rendra l'automatisation plus efficace.  Instruction : un fichier de document peut contenir plusieurs comptes de courtage. Un compte de courtage peut être identifié à l’aide d’un champ Numéro de compte unique présent dans chaque groupe de champs. Extrayez les informations du compte, les avoirs du compte et les groupes de champs d’activité du compte de chaque compte.

Instruction : extraire toutes les instances de données de chaque document de compte.

  

Explication : cet exemple d’instruction est médiocre dans la mesure où il ne spécifie pas comment déterminer si un type de document apparaît plusieurs fois dans un fichier. 

Groupe de champs

Bonnes pratiquesDétails (Details)ImportanceExemple correct Exemple incorrect
Regroupez les points de données similaires que vous souhaitez extraire dans des groupes de champs.  Organisez les champs associés en groupes logiques.Cela permet de rationaliser l'extraction et de minimiser les erreurs. Le nom, l'adresse et l'état civil du propriétaire du compte sont autant d'informations qu'il est possible d'associer dans un groupe de champs « Informations sur le propriétaire du compte ». 

Groupe de champs : Informations sur le compte

  

Champs : Dépôts du compte, Date de transaction, Propriétaire du compte

  

Explication : ce regroupement peut fonctionner dans une situation où un utilisateur souhaite uniquement extraire ces trois champs. Toutefois, si d’autres champs sont ajoutés, par exemple l’indice boursier ou encore la base fiscale, la conception ou la structure de ce groupe ne sera pas la plus efficace. 

Contexte du groupe de champs Expliquez comment chaque groupe de champs contribue à la signification globale et à l'objectif du document. Cela aide le modèle à comprendre le contexte de l'extraction. Instructions : cette section décrit les principaux détails du compte de courtage, y compris le nom de l’action, la date d’achat, la quantité achetée, le prix de revient et le prix total payé. Ces détails aident à déterminer les avoirs actuels dans une déclaration de courtage.

Instruction : extraire du document les champs ci-dessous.

  

Explication : les instructions de l’invite manquent de contexte et d’instructions détaillées pour le modèle.Il n’explique pas le type d’information qui doit être extraite ni ne met en évidence son importance. 

  

Exploitation de l'emplacement et de la structure des informations du document dans les invites de votre groupe de champs Indiquez les emplacements probables des données de chaque champ, par exemple tableau, en-tête, corps, pour guider l'extraction.
Remarque : si vous travaillez sur un document dans lequel les informations figurent dans la même section, indiquez l'état de la section dans l'invite. 
Cela aide le modèle à se concentrer sur la partie correcte du document pour chaque champ. Instructions : les données de champ de cette section se trouvent très probablement dans l’en-tête du rapport, sur la première page sous le titre du document.

Instructions : extraire les informations du début du document.

  

Explication : l’invite est vague et ne fournit pas au modèle suffisamment de détails sur les éléments à rechercher dans le document. 

Modélisation des tableaux à l'aide de groupes de champs avec champsTraiter un groupe de champs comme un tableau, chaque colonne agissant comme un champ unique au sein de ce groupe. Cette approche est essentielle pour modéliser les données efficacement, car elle garantit une différenciation claire, minimise la duplication des données et améliore la cohérence des données. Cette méthode permet de structurer logiquement et de disposer les données de manière systématique, ce qui améliore l'efficacité des requêtes et de l'analyse de données. 

Groupe de champs : Clients

Champs : Nom, Adresse, Numéro de téléphone

Groupes de champs : Nom du client, Adresse du client, Numéro de téléphone du client

Champs : Nom, Adresse, Numéro de téléphone

Explication : cet exemple sépare inutilement chaque client dans son propre groupe de champs, ce qui rend la gestion des données complexe et sujette à des incohérences.

Créer des groupes de champs parent et enfant Les relations sont caractérisées par un symbole > de supériorité. Un groupe de champs parent peut avoir plusieurs groupes de champs enfants.  L'utilisation de groupes de champs pour afficher les relations entre les données dans les documents est un excellent moyen de maintenir l'organisation hiérarchique des données.

Groupe de champs : Relevé de courtage

Champs : Propriétaire du compte, Type de compte

Nom du groupe de champs : Relevé de courtage > Répartition des actifs

Champs : Type d’actif, par exemple, Actions, Obligations, Trésorerie, Pourcentage des actifs totaux

Nom du groupe de champs : Relevé de courtage > Investissements

Champs : Nom de l’investissement, Quantité détenue, Prix par action, Valeur totale de l’investissement

Groupe de champs : Propriétaire du compte

Champs : Nom, Nom de l’investissement, Type de compte, Nombre d’actions, Actions, Obligations

Groupe de champs : Propriétaire du compte > Adresse

Champs : Rue, Ville, État, Code postal

Groupe de champs : Propriétaire du compte > Coordonnées

Champs : Numéro de téléphone, E-mail

  

Explication : il s’agit d’une hiérarchie mal structurée, car elle combine des champs sans lien sous le même parent et les groupes de champs enfants (Adresse et Coordonnées) ne sont pas liés de manière logique aux champs du parent (Nom de l’investissement, Nombre d’actions, Actions, Obligations). Cela pourrait embrouiller le modèle d’IA, car cela ne reflète pas l’organisation naturelle des données dans le document. 

Utiliser un champ clé pour les fichiers qui contiennent plusieurs documents Sélectionnez un identificateur unique dans le document qui vous permettra de différencier les données. Inclure ce champ dans chaque groupe de champs. Il n'est pas nécessaire de modifier l'instruction de ce champ d'un groupe de champs à un autre. L'inclusion de ce champ clé permet de séparer les informations dans le document et évite toute confusion lors du traitement des données extraites.  Champ : Numéro de compte, Numéro de sécurité sociale, Numéro de police

Champ : Date, Nom

Explication : les noms de champs répertoriés ne constituent pas des champs clés pertinents dans la mesure où ils ne sont pas uniques. Les dates et les noms peuvent être répétés. 

Au niveau du champ

Bonnes pratiquesDétails (Details)ImportanceExemple correct Exemple incorrect
Choisir soigneusement les noms des champs Choisissez pour les champs des noms clairs et reconnaissables qui correspondent aux attentes de l'utilisateur. Si un nom universel est utilisé dans toutes les variantes de document, veillez à l'inclure.  Des noms de champs précis garantissent une extraction précise et réduisent l'ambiguïté. Champ : Date de l’accident

Champ : Date

  

Explication : la date est un terme générique qui ne fournit aucun contexte sur ce à quoi la date se réfère. Cela peut entraîner une extraction de données inexacte, car le modèle d’IA peut reprendre toute date qui apparaît dans le document. 

Soyez explicite et détaillé, utilisez des instructions Démarrez le modèle en indiquant explicitement ce que vous souhaitez qu'il extraie. Spécifiez le format et la structure exacts des données à extraire.  Des instructions claires et détaillées guident le modèle pour extraire exactement ce dont vous avez besoin, dans le format que vous attendez. Instructions : extraire la liste de tous les conseillers du document, les formater dans une liste séparée par des virgules et les organiser dans l’ordre alphabétique.

Instructions : obtenir tous les conseillers

  

Explication : l’invite est vague et ne fournit pas au modèle d’instructions claires sur le résultat souhaité et sur la façon dont il doit être formaté. Cela peut engendrer des incohérences au sein des informations extraites, ce qui complique le traitement des résultats. 

  

Fournir des exemples dans les instructionsFournir des exemples d'entrées et de sorties attendues correspondantes pour clarifier les résultats attendus. Cela aide le modèle à comprendre exactement ce que vous recherchez.  Instruction : extraire les dates de transaction du document. Les dates doivent être au format MM/DD/YYYY. Par exemple, si le document indique que la transaction a été effectuée le 1er janvier 2021, la date extraite doit être le 01/01/2021. Si la date de la transaction est indiquée au format MM/YYYY, extrayez-la comme premier jour de ce mois. Par exemple, si la date est présentée sous la forme 05/2021, extrayez-la sous la forme 05/01/2021.

Instruction : obtenir les dates de transaction du document.

  

Explication : l’invite ci-dessus n’est pas aussi efficace car elle ne fournit pas d’instructions explicites sur la gestion des différents formats de date trouvés dans le document. Ce manque de clarté peut entraîner une extraction incohérente des dates, ce qui complique l’interprétation et l’analyse des données. 

S'en tenir à une idée principale par instruction de champ Évitez de surcharger l'invite en essayant d'extraire de grandes quantités de données séquentielles dans un seul champ pour améliorer la précision. Chaque niveau de champ doit se concentrer sur l'extraction d'une donnée. Cela facilitera également le post-traitement. 

Champ 1 : extraire le numéro de compte.

Champ 2 : extraire la date de la transaction.

Champ 3 : extraire le solde du compte.

Instruction : extraire ensemble le numéro de compte, la date de transaction et le solde du compte.

Explication : l’invite est surchargée de plusieurs instructions demandant au modèle d’extraire différents types de données simultanément. Cette approche pourrait créer des résultats d’extraction compliqués et rendre le post-traitement difficile. 

Type de champ

Bonnes pratiquesDétails (Details)ImportanceExemple correct Exemple incorrect
Choisir des types de données avec un objectifDéterminez comment vous souhaitez que les données extraites soient formatées et vérifiez qu'elles correspondent aux scénarios d'utilisation en aval pour optimiser l'extraction des données en vue de l'automatisation. 
  • Date : utilisez cette option pour représenter les dates dans le texte. Les dates seront normalisées en UTC au format YYYY-MM-DD HH:MM:SS
  • Texte exact : utilisez cette option pour représenter le texte qui apparaît mot pour mot dans le document. 
  • Texte déduit : utilisez cette option pour le texte qui ne figure pas mot pour mot dans le document, mais qui contient d'autres identificateurs dans le document. 
  • Somme monétaire : utilisez-la pour représenter les valeurs monétaires dans le texte. Les sommes monétaires sont normalisées dans les exemples de formats suivants : $00.00 ou 00.00 USD.
  • Nombre : utilisez-le pour représenter les montants ou les quantités dans le texte. Les nombres sont déduits du document, les utilisateurs peuvent saisir des valeurs et éventuellement annoter des preuves. La valeur sera formatée sous forme de valeur décimale, 00.00.
La sélection du type de données approprié permet un formatage précis et facilite le traitement en aval.

Nom du champ : Volume de transaction

Type de données : Nombre

Nom du champ : Numéro de téléphone

Type de données : Nombre

Explication : l’utilisation du type de données Numéro pour un numéro de téléphone n’est pas bénéfique. Bien qu’un numéro de téléphone soit composé de chiffres, ce n’est pas une valeur numérique, ce qui signifie que vous n’effectuez pas d’opérations arithmétiques avec ; il est préférable de le décrire sous la forme d’une chaîne de caractères. Par conséquent, le type de données Texte exact serait le choix approprié. 

N'incluez que des instructions spécifiques au type de champ dans le type de champ. 

Lorsque vous fournissez des instructions d'extraction de données, il est essentiel de les garder spécifiques à chaque type de champ. Si des instructions générales s'appliquent à tous les champs d'un certain type, un utilisateur peut les fournir au niveau du type de champ pour éviter les répétitions. Par exemple, si tous les champs Montant monétaire doivent être libellés en USD, spécifiez-le au niveau du type de champ. 

  

Cependant, certains ensembles de données peuvent nécessiter des champs uniques non couverts par les types de champs existants (Date, Texte, Montant monétaire, etc.). Dans ces cas, vous pouvez créer un nouveau type de champ personnalisé. Lorsque vous écrivez des instructions pour ces nouveaux champs, spécifiez comment les données doivent être formatées pour vous assurer que les données extraites répondent à l'objectif prévu. Ces pratiques améliorent la précision et la cohérence de vos données extraites. 

 

Type de champ : Date

Instruction : extraire toutes les dates associées aux transactions du document. Les dates doivent être normalisées au format YYYY-MM-DD.

Type de champ : Montant monétaire

Instruction : extraire le prix de l’élément de la colonne Prix du tableau des éléments de la facture.

Explication : l’instruction est pertinente spécifiquement pour l’extraction d’une quantité monétaire d’un certain champ (la colonne Prix), et non pour tout autre champ relatif à une quantité monétaire. 

Tester et itérer

  1. Créez un champ contenant toutes les informations que vous souhaitez extraire, mais n'incluez aucune instruction.
  2. Sélectionnez un échantillon de 2 à 3 documents et exécutez des prédictions sur chacun d'eux. Ces documents doivent refléter la variation présente dans les documents pour lesquels vous créez le modèle.
  3. Comparez les extractions du modèle à ce que vous attendiez. Pour les champs qui n'ont pas bien fonctionné, rédigez une invite à l'aide des meilleures pratiques énumérées précédemment, car cela vous servira d'invite de référence.
  4. Réessayez les prédictions à l'aide des mêmes exemples deux ou trois échantillons de documents testés précédemment et vérifiez si les performances d'extraction se sont améliorées.
  5. Si les prédictions sont incorrectes ou incomplètes, affinez les requêtes pour ajouter les détails nécessaires pour améliorer les performances d'extraction du modèle. Si les prédictions correspondent à vos attentes, élargissez la taille de votre échantillon de documents. Il est essentiel d'augmenter progressivement ces chiffres. Passez de 2 à 3 à 10, puis à 20, 30, etc. Continuez jusqu'à ce que vous soyez certain que les prédictions du modèle sont correctes.
  6. Si les instructions ont changé, réévaluez les documents précédemment consultés pour vous assurer que les prédictions restent exactes.
  7. Une fois que vous êtes satisfait des performances du modèle, consultez le premier document et commencez à annoter. Annotez au moins dix documents pour obtenir des métriques de performances de champ utiles dans l'onglet Mesurer. Cette fonctionnalité vous permet d'évaluer les performances d'extraction au niveau global du projet et du champ.
  8. Surveillez les métriques de performances pour renseigner votre raffinement de prompts à grande échelle. Le processus d'itération rapide doit principalement se produire au niveau du champ, où les ajustements auront des impacts plus ciblés et directs sur les champs spécifiques qui ne fonctionnent pas bien. Si la note d'un groupe de champs ne fonctionne pas bien, l'ajustement de vos instructions de projet et de groupe de champs peut avoir plus d'impact, car elles affectent plusieurs champs.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo
Confiance et sécurité
© 2005-2025 UiPath Tous droits réservés.