document-understanding

latest

false

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Guide de l'utilisateur de Document Understanding

PRODUIT :

Dernière mise à jour 15 sept. 2025

Construire

Cette section propose les expériences suivantes :

Charger des documents et les classer automatiquement.
Charger des documents directement dans des types de documents.
Gérer les fichiers à partir du projet (ajouter, supprimer des fichiers et ajouter, modifier des balises).
Annoter des documents.
Ajouter ou supprimer des champs.
Bénéficier d’une expérience guidée concernant l’entraînement des modèles de classification et d’extraction à l’aide des recommandations.

Annoter des documents

Une fois que vous avez créé votre projet et chargé vos documents vers un type de document spécifique, ceux-ci sont automatiquement pré-annotés. Cela se fait à l’aide d’une combinaison de modèles génératifs et spécialisés, basée sur le schéma du type de document. Le schéma permet de définir clairement les champs que vous souhaitez extraire d’un type de document particulier. Pour trouver le schéma du type de document, rendez-vous sur la page Annotation et consultez la section Champs.

Pour des informations plus détaillées sur la façon d’annoter vos documents, consultez la page Annoter des documents.

Exceptions pour révision

Vous pouvez utiliser des documents qui ont été validés dans la Station de validation pour améliorer encore les performances de vos modèles.

Si des modifications sont apportées après l’étape de validation, le bouton Exceptions pour révision s’affiche pour le type de document concerné.

Figure 1. Bouton Exceptions pour la révision

Pour obtenir des informations plus détaillées sur la façon de réentraîner vos modèles, consultez le tutoriel Réentraîner des extracteurs.

Baliser des documents

Une fois que vous avez chargé vos documents, vous pouvez y ajouter des balises.

Vous pouvez ajouter une balise d’un maximum de 100 caractères pour chaque document.

Pour ajouter une balise à vos documents, sélectionnez les documents que vous souhaitez ajouter, puis sélectionnez le bouton Balises dans le menu situé au-dessus de la liste des types de documents.

Vous pouvez rechercher plus facilement dans vos documents en filtrant avec des balises. Vous pouvez également vérifier les résultats par balise dans le fichier de configuration avancée lorsqu’un modèle est entraîné.

Gestionnaire des types de documents

Vous pouvez modifier les paramètres de plusieurs champs à partir du Gestionnaire de type de document.

Pour y accéder, sélectionnez l’icône à trois points ⋮ située à côté du type de document que vous souhaitez modifier, puis sélectionnez Gestionnaire de type de document dans le menu.

Image 2. Sélectionnez le gestionnaire de type de document

Champs d’extraction

Modifier et ajouter de nouveaux champs

Pour ajouter un nouveau champ, sélectionnez Ajouter un champ et saisissez les informations nécessaires. Vous pouvez ajouter ou modifier les options suivantes pour chaque champ :

Nom du champ : le nom unique du champ.
Type de contenu : le type de contenu du champ :
- Chaîne (string) : utilisé pour les noms ou adresses des sociétés, ainsi que les conditions de paiement, ou pour tout autre domaine où vous souhaitez créer la logique d’analyse ou de formatage manuellement, dans le workflow RPA.
- Nombre (number) : utilisé pour les montants ou les quantités, avec une analyse intelligente des séparateurs décimaux/milliers.
- Date : analysez, formatez et unifiez la sortie en utilisant le format AAAA-MM-JJ.
- Téléphone (Phone) : utilisé pour le numéro de téléphone. Le formatage supprime les lettres et les parenthèses, et remplace les espaces par des tirets.
- Numéro d’identification (ID Number) : utilisé pour les codes alphanumériques et les numéros d’identification. Similaire au type de contenu de la chaîne de caractères (string), mais supprime tous les caractères précédant le caractère :. Si le numéro d’identification que vous devez extraire peut contenir le caractère :, choisissez plutôt string comme type de contenu afin d’éviter toute perte de données.
Raccourci : la touche de raccourci de ce champ. Il est possible d’utiliser une seule clé ou une combinaison de deux clés.
Paramètres avancés : les options disponibles diffèrent en fonction du Type de contenu du champ sélectionné. Sélectionnez le bouton Paramètres avancés du champ que vous souhaitez modifier :
Image 3. Paramètres avancés du type de document
- ID de champ : l’identifiant unique du champ.
- Traitement ultérieur :
  - first_span : si le modèle prévoit plus d’une instance d’un champ dans un document, faites en sorte que le modèle renvoie la première.
  - longest_value : si le modèle prévoit plus d’une instance d’un champ dans un document, faites en sorte que le modèle renvoie la valeur composée du plus grand nombre de caractères.
  - highest_confidence : si le modèle prévoit plus d’une instance d’un champ dans un document, faites en sorte que le modèle renvoie la valeur avec le degré de confiance le plus élevé.
  Évaluation : la mesure utilisée fin de déterminer la précision lors de l’évaluation des prédictions du modèle est disponible uniquement pour les champs dont le type de contenu est Chaîne (String) :
  - exact_match : la prédiction sera considérée comme correcte (note de 1) uniquement si elle correspond exactement à la valeur réelle. Si elle diffère ne serait-ce que d’un seul caractère, elle est considérée comme incorrecte (note de 0). C’est le paramètre par défaut pour tous les champs, sauf pour les champs de type String.
  - levenshtein : une prédiction sera considérée comme partiellement correcte en fonction de la distance de Levenshtein entre la prédiction et la valeur réelle. Par exemple, si une valeur de 10 lettres est prédite correctement sauf pour les 2 derniers caractères, alors la note de cette prédiction sera de 0,8.
- Format de date : ce champ, disponible uniquement pour les champs dont le type de contenu est Date, indique comment les dates ambiguës seront analysées et renvoyées :
  - Auto
  - Style américain : AAAA-JJ-MM
  - Style non américain : AAAA-MM-JJ
- Multiligne : cette option doit être cochée pour les champs couvrant plusieurs lignes de texte (adresses ou descriptions), sinon seule la première ligne sera renvoyée.
- Valeurs multiples : le champ renverra une liste avec toutes les valeurs détectées dans le document.

Cette vue vous permet également de réorganiser les champs.

Les modifications apportées aux paramètres de type de document ne seront pas reflétées dans la nouvelle version du projet lorsque vous publiez une nouvelle version du projet avant qu’un nouvel entraînement soit déclenché.

Solution: pour éviter cela, entraînez à nouveau le type de document après avoir apporté des modifications aux champs relatifs au type de document. Vous pouvez procéder à cela en identifiant ou en confirmant d’autres documents de ce type avant de publier la nouvelle version.

Rechercher des noms de champ

Vous pouvez recherchez parmi les noms de champs disponibles. Pour cela, utilisez la barre de recherche située en haut à gauche de l’interface du Gestionnaire de type de document. Pour une recherche plus efficace, utilisez la fonction Filtre afin de filtrer par Type de contenu.

Image 4. Rechercher des noms de champ

Supprimer les champs

Sélectionnez le bouton Supprimer en regard du champ que vous souhaitez supprimer.

Image 5. Supprimer un champ.

Vous pouvez également sélectionner plusieurs champs (ou tous) et les supprimer en même temps. Pour ce faire, cochez la case en regard des champs que vous souhaitez supprimer, puis sélectionnez Supprimer.

Image 6. Supprimer plusieurs champs à la fois

Champs de classification

Les champs de classification sont des points de données qui font référence à un document dans son ensemble. Par exemple, le type de dépense d’un reçu (nourriture, hôtel, billet d’avion ou transport) ou la devise d’une facture (USD, EUR, JPY) sont des champs de classification.

Remarque :

Les limitations suivantes s’appliquent actuellement à la fonctionnalité Champs de classification :

Lorsque vous utilisez l’activité Extraire les données du document, les champs de classification sont pris en charge pour les extracteurs de projets modernes et les modèles prêts à l’emploi, mais pas pour les extracteurs de projets classiques.
Les champs de classification sont extraits des types de documents personnalisés uniquement après une formation réussie.

Modifier ou ajouter des champs de classification

Pour ajouter un nouveau champ de classification, sélectionnez Ajouter un champ et nommez-le.

Cette vue vous permet également de réorganiser les champs.

Figure 7. Ajouter un nouveau champ de classification

Pour vérifier l’ID du champ de classification, sélectionnez Paramètres avancés en regard du champ de classification nécessaire.

Figure 8. Paramètres avancés des champs de classification

Modifier ou ajouter des classes

Pour ajouter une nouvelle classe à un champ de classification, sélectionnez Ajouter une classe, saisissez un nom de classe et une description facultative.

Remarque : chaque champ de classification doit contenir au moins deux classes.

Figure 9. Ajouter une nouvelle classe

Vous pouvez modifier le nom et la description de chaque classe.

Vous pouvez également réorganiser les classes à partir de cette vue.

Pour supprimer une classe, sélectionnez Supprimer en regard de la classe que vous souhaitez supprimer.

Figure 10. Supprimer une classe

Paramètres

Vous pouvez modifier les paramètres du type de document à partir de l’onglet Paramètres.

Figure 11. Paramètres du modèle

Vous pouvez modifier les paramètres suivants :

Modèle de base : les estimations de la taille de l’ensemble de données utilisées dans les actions recommandées dépendent du modèle de base utilisé pour l’entraînement. L’utilisation du modèle de base le plus similaire à votre type de document permettra de réduire la quantité de travail d’annotation requise.
Nombre de langues : l’estimation de la taille de l’ensemble de données utilisée dans les actions recommandées dépend du nombre de langues dans l’ensemble de données. Un plus grand nombre de langues nécessite généralement d’annoter plus de données.

Rechercher des documents

Vous pouvez rechercher les documents chargés par nom de document. Pour ce faire, utilisez la barre de recherche située en haut à gauche de la section Build (Construire). Pour une recherche plus efficace, utilisez la fonction Filtre afin de filtrer par :

Type de document : choisissez le type de document souhaité dans la liste déroulante.
Date de chargement : choisissez un intervalle de dates de chargement du document.
Statut : choisissez le statut du document.
Balise : choisissez les balises que vous souhaitez filtrer.

Figure 12. Filtrer les documents

Score du projet et du modèle

Vous pouvez vérifier le score global de votre projet en haut à droite. Ce score tient compte des scores du classifieur et de l’extracteur pour tous les types de documents. Sélectionnez Score du projet pour afficher la section Mesurer (Measure ). Vous pourrez accéder à des mesures de performances plus détaillées dans cette section.

Vous pouvez vérifier le score de chaque type de document séparément à partir de la section Type de document. Ce score prend en compte les performances globales du modèle, ainsi que la taille et la qualité de l’ensemble de données.

Remarque : vous devez avoir chargé au moins 10 documents pour pouvoir obtenir un score de projet. Pour pouvoir obtenir un score de type de document, au moins 10 documents doivent être du même type.

Vous pouvez vérifier la notation de modèle pour vos modèles si vous sélectionnez la balise de score. La notation de modèle est une fonctionnalité destinée à vous aider à visualiser les performances d’un modèle de classification. Elle est exprimée sous la forme d’un score de modèle compris entre 0 et 100 :