Document Understanding

document-understanding

2.2510

true

Guide de l'utilisateur des projets modernes Document Understanding

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Construire

Cette section propose les expériences suivantes :

Charger des documents et les classer automatiquement.
Charger des documents directement dans des types de documents.
Gérer les fichiers à partir du projet (ajouter, supprimer des fichiers).
Annoter des documents.
Ajouter ou supprimer des champs.
Bénéficier d’une expérience guidée concernant l’entraînement des modèles de classification et d’extraction à l’aide des recommandations.

Annoter des documents

Une fois que vous avez créé votre projet et chargé vos documents vers un type de document spécifique, ceux-ci sont automatiquement pré-annotés. Cela est réalisé à l’aide de modèles spécialisés basés sur le schéma du type de document. Le schéma permet de définir clairement les champs que vous souhaitez extraire d’un type de document particulier. Pour trouver le schéma du type de document, rendez-vous sur la page Annotation et consultez la section Champs.

Pour des informations plus détaillées sur la façon d’annoter vos documents, consultez la page Annoter des documents.

Exceptions pour révision

Vous pouvez utiliser des documents qui ont été validés dans la Station de validation pour améliorer encore les performances de vos modèles.

Si des modifications sont apportées après l’étape de validation, le bouton Exceptions pour révision s’affiche pour le type de document concerné.

Graphique 1. Bouton Exceptions pour la révision

Pour obtenir des informations plus détaillées sur la façon de réentraîner vos modèles, consultez le tutoriel Réentraîner des extracteurs.

Modifier les paramètres des champs

Vous pouvez modifier les paramètres de plusieurs champs à partir du Gestionnaire de type de document.

Pour y accéder, sélectionnez l’icône à trois points ⋮ située à côté du type de document que vous souhaitez modifier, puis sélectionnez Gestionnaire de type de document dans le menu.

Image 2. Sélectionnez le gestionnaire de type de document

Modifier et ajouter de nouveaux champs

Pour ajouter un nouveau champ, sélectionnez Ajouter un champ et saisissez les informations nécessaires. Vous pouvez ajouter ou modifier les options suivantes pour chaque champ :

Nom du champ : le nom unique du champ.
Type de contenu : le type de contenu du champ :
- Chaîne (string) : utilisé pour les noms ou adresses des sociétés, ainsi que les conditions de paiement, ou pour tout autre domaine où vous souhaitez créer la logique d’analyse ou de formatage manuellement, dans le workflow RPA.
- Nombre (number) : utilisé pour les montants ou les quantités, avec une analyse intelligente des séparateurs décimaux/milliers.
- Date : analysez, formatez et unifiez la sortie en utilisant le format AAAA-MM-JJ.
- Téléphone (Phone) : utilisé pour le numéro de téléphone. Le formatage supprime les lettres et les parenthèses, et remplace les espaces par des tirets.
- Numéro d’identification: utilisé pour les codes alphanumériques et les numéros d’identification. Similaire au type de contenu de la chaîne de caractères, mais supprime tous les caractères précédant le caractère : . Si le numéro d’identification que vous devez extraire peut contenir le caractère : , choisissez plutôt string comme type de contenu afin d’éviter toute perte de données.
Raccourci : la touche de raccourci de ce champ. Il est possible d’utiliser une seule clé ou une combinaison de deux clés.
Paramètres avancés : les options disponibles diffèrent en fonction du Type de contenu du champ sélectionné. Sélectionnez le bouton Paramètres avancés du champ souhaité à modifier : Figure 3. Paramètres avancés de type de document
- ID de champ : l’identifiant unique du champ.
- Traitement ultérieur :
  - first_span : si le modèle prévoit plus d’une instance d’un champ dans un document, faites en sorte que le modèle renvoie la première.
  - longest_value : si le modèle prévoit plus d’une instance d’un champ dans un document, faites en sorte que le modèle renvoie la valeur composée du plus grand nombre de caractères.
  - highest_confidence : si le modèle prédit plus d'une instance d'un champ dans un document, renvoyez la valeur avec la plus grande confiance. Évaluation : la mesure utilisée pour déterminer la précision lors de l'exécution d'évaluations des prédictions du modèle est disponible uniquement pour les champs avec le type de contenu String :
  - exact_match : la prédiction sera considérée comme correcte (note de 1) uniquement si elle correspond exactement à la valeur réelle. Si elle diffère ne serait-ce que d’un seul caractère, elle est considérée comme incorrecte (note de 0). C’est le paramètre par défaut pour tous les champs, sauf pour les champs de type String.
  - levenshtein : une prédiction sera considérée comme partiellement correcte en fonction de la distance de Levenshtein entre la prédiction et la valeur réelle. Par exemple, si une valeur de 10 lettres est prédite correctement sauf pour les 2 derniers caractères, alors la note de cette prédiction sera de 0,8.
- Format de date : ce champ, disponible uniquement pour les champs dont le type de contenu est Date, indique comment les dates ambiguës seront analysées et renvoyées :
  - Auto
  - Style américain : AAAA-JJ-MM
  - Style non américain : AAAA-MM-JJ
- Multiligne : cette option doit être cochée pour les champs couvrant plusieurs lignes de texte (adresses ou descriptions), sinon seule la première ligne sera renvoyée.
- Valeurs multiples : le champ renverra une liste avec toutes les valeurs détectées dans le document.

Les modifications apportées aux paramètres de type de document ne seront pas reflétées dans la nouvelle version du projet lorsque vous publiez une nouvelle version du projet avant qu’un nouvel entraînement soit déclenché.

Solution: pour éviter cela, entraînez à nouveau le type de document après avoir apporté des modifications aux champs relatifs au type de document. Vous pouvez procéder à cela en identifiant ou en confirmant d’autres documents de ce type avant de publier la nouvelle version.

Paramètres du modèle

Vous pouvez modifier les paramètres du type de document dans la vue des paramètres du modèle. Pour ce faire, sélectionnez Paramètres du modèle.

Images 4. Paramètres du modèle

Vous pouvez modifier les paramètres suivants :

Modèle de base : les estimations de la taille de l’ensemble de données utilisées dans les actions recommandées dépendent du modèle de base utilisé pour l’entraînement. L’utilisation du modèle de base le plus similaire à votre type de document permettra de réduire la quantité de travail d’annotation requise.
Nombre de langues : l’estimation de la taille de l’ensemble de données utilisée dans les actions recommandées dépend du nombre de langues dans l’ensemble de données. Un plus grand nombre de langues nécessite généralement d’annoter plus de données.

Rechercher des noms de champ

Vous pouvez recherchez parmi les noms de champs disponibles. Pour cela, utilisez la barre de recherche située en haut à gauche de l’interface du Gestionnaire de type de document. Pour une recherche plus efficace, utilisez la fonction Filtre afin de filtrer par Type de contenu.

Image 5. Rechercher des noms de champ

Supprimer les champs

Sélectionnez Supprimer à côté du champ que vous souhaitez supprimer.

Image 6. Supprimer un champ

Vous pouvez également sélectionner plusieurs champs (ou tous) et les supprimer simultanément. Pour cela, cochez la case située à côté des champs que vous souhaitez supprimer, puis cliquez sur Supprimer.

Image 7. Supprimer plusieurs champs à la fois

Champs de classification

Les champs de classification sont des points de données qui font référence à un document dans son ensemble. Par exemple, le type de dépense d’un reçu (nourriture, hôtel, billet d’avion ou transport) ou la devise d’une facture (USD, EUR, JPY) sont des champs de classification.

Remarque :

Les limitations suivantes s’appliquent actuellement à la fonctionnalité Champs de classification :

Lorsque vous utilisez l’activité Extraire les données du document, les champs de classification sont pris en charge pour les extracteurs de projets modernes et les modèles prêts à l’emploi, mais pas pour les extracteurs de projets classiques.
Les champs de classification sont extraits des types de documents personnalisés uniquement après une formation réussie.

Modifier ou ajouter des champs de classification

Pour ajouter un nouveau champ de classification, sélectionnez Ajouter un champ et nommez-le.

Cette vue vous permet également de réorganiser les champs.

Pour vérifier l’ID du champ de classification, sélectionnez Paramètres avancés en regard du champ de classification nécessaire.

Modifier ou ajouter des classes

Pour ajouter une nouvelle classe à un champ de classification, sélectionnez Ajouter une classe, saisissez un nom de classe et une description facultative.

Remarque :

Chaque champ de classification doit contenir au moins deux classes.

Vous pouvez modifier le nom et la description de chaque classe.

Vous pouvez également réorganiser les classes à partir de cette vue.

Pour supprimer une classe, sélectionnez Supprimer en regard de la classe que vous souhaitez supprimer.

Rechercher des documents

Vous pouvez rechercher les documents chargés par nom de document. Pour ce faire, utilisez la barre de recherche située en haut à gauche de la section Build (Construire). Pour une recherche plus efficace, utilisez la fonction Filtre afin de filtrer par :

Type de document : choisissez le type de document souhaité dans la liste déroulante.
Date de chargement : choisissez un intervalle de dates de chargement du document.
Statut : choisissez le statut du document.
Balise : choisissez les balises que vous souhaitez filtrer.

Figure 8. Filtrer des documents

Score du projet et du modèle

Vous pouvez vérifier le score global de votre projet en haut à droite. Ce score tient compte des scores du classifieur et de l’extracteur pour tous les types de documents. Sélectionnez Score du projet pour afficher la section Mesurer . Vous pourrez accéder à des mesures de performances plus détaillées dans cette section.

Vous pouvez vérifier le score de chaque type de document séparément à partir de la section Type de document. Ce score prend en compte les performances globales du modèle, ainsi que la taille et la qualité de l’ensemble de données.

Remarque :

Vous devez avoir chargé au moins 10 documents pour pouvoir obtenir un score de projet. Pour pouvoir obtenir un score de type de document, au moins 10 documents doivent être du même type.

Vous pouvez vérifier la notation de modèle pour vos modèles si vous sélectionnez la balise de score. La notation de modèle est une fonctionnalité destinée à vous aider à visualiser les performances d’un modèle de classification. Elle est exprimée sous la forme d’un score de modèle compris entre 0 et 100 :

Faible (0-49)
Moyen (50-69)
Bon (70-89)
Excellent (90-100)

Sélectionnez Scores détaillés du modèle pour accéder à la section Mesure et obtenir des informations détaillées.

Cette page vous a-t-elle été utile ?

PrécédentImporter des documents

SuivantMesure

Annoter des documents​

Exceptions pour révision​

Modifier les paramètres des champs​

Modifier et ajouter de nouveaux champs​

Paramètres du modèle​

Rechercher des noms de champ​

Supprimer les champs​

Champs de classification​

Modifier ou ajouter des champs de classification​

Modifier ou ajouter des classes​

Rechercher des documents​

Score du projet et du modèle​

Cette page vous a-t-elle été utile ?

Annoter des documents

Exceptions pour révision

Modifier les paramètres des champs

Modifier et ajouter de nouveaux champs

Paramètres du modèle

Rechercher des noms de champ

Supprimer les champs

Champs de classification

Modifier ou ajouter des champs de classification

Modifier ou ajouter des classes

Rechercher des documents

Score du projet et du modèle