document-understanding
2024.10
true
UiPath logo, featuring letters U and I in white
Document Understanding Modern Projects User Guide
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 11 nov. 2024

Construire

Cette section propose les expériences suivantes :
  • Charger des documents et les classer automatiquement.
  • Charger des documents directement dans des types de documents.
  • Manage files from the project (add, remove files).
  • Annoter des documents.
  • Ajouter ou supprimer des champs.
  • Bénéficier d’une expérience guidée concernant l’entraînement des modèles de classification et d’extraction à l’aide des recommandations.

Annoter des documents

Une fois que vous avez créé votre projet et chargé vos documents vers un type de document spécifique, ceux-ci sont automatiquement pré-annotés. Cela est réalisé à l’aide de modèles spécialisés basés sur le schéma du type de document. Le schéma permet de définir clairement les champs que vous souhaitez extraire d’un type de document particulier. Pour trouver le schéma du type de document, rendez-vous sur la page Annotation et consultez la section Champs.



Pour des informations plus détaillées sur la façon d'annoter vos documents, consultez la page Annoter les documents .

Modifier les paramètres des champs

Vous pouvez modifier les paramètres de plusieurs champs à partir du Gestionnaire de type de document.

Pour y accéder, sélectionnez l’icône à trois points située à côté du type de document que vous souhaitez modifier, puis sélectionnez Gestionnaire de type de document dans le menu.

Image 1. Sélectionnez le gestionnaire de type de document

Modifier et ajouter de nouveaux champs

Pour ajouter un nouveau champ, sélectionnez Ajouter un champ et saisissez les informations nécessaires. Vous pouvez ajouter ou modifier les options suivantes pour chaque champ :
  • Nom du champ : le nom unique du champ.
  • Type de contenu : le type de contenu du champ :
    • Chaîne (string) : utilisé pour les noms ou adresses des sociétés, ainsi que les conditions de paiement, ou pour tout autre domaine où vous souhaitez créer la logique d’analyse ou de formatage manuellement, dans le workflow RPA.
    • Nombre (number) : utilisé pour les montants ou les quantités, avec une analyse intelligente des séparateurs décimaux/milliers.
    • Date : analysez, formatez et unifiez la sortie en utilisant le format AAAA-MM-JJ.
    • Téléphone (Phone) : utilisé pour le numéro de téléphone. Le formatage supprime les lettres et les parenthèses, et remplace les espaces par des tirets.
    • Numéro d’identification (ID Number) : utilisé pour les codes alphanumériques et les numéros d’identification. Similaire au type de contenu de la chaîne de caractères (string), mais supprime tous les caractères précédant le caractère :. Si le numéro d’identification que vous devez extraire peut contenir le caractère :, choisissez plutôt string comme type de contenu afin d’éviter toute perte de données.
  • Raccourci : la touche de raccourci de ce champ. Il est possible d’utiliser une seule clé ou une combinaison de deux clés.
  • Paramètres avancés : les options disponibles diffèrent en fonction du Type de contenu du champ sélectionné. Sélectionnez le bouton Paramètres avancés du champ que vous souhaitez modifier :
    Image 2. Paramètres avancés du type de document

    • ID de champ : l’identifiant unique du champ.
    • Traitement ultérieur :
      • first_span : si le modèle prévoit plus d’une instance d’un champ dans un document, faites en sorte que le modèle renvoie la première.
      • longest_value : si le modèle prévoit plus d’une instance d’un champ dans un document, faites en sorte que le modèle renvoie la valeur composée du plus grand nombre de caractères.
      • highest_confidence : si le modèle prévoit plus d’une instance d’un champ dans un document, faites en sorte que le modèle renvoie la valeur avec le degré de confiance le plus élevé.
      Évaluation : la mesure utilisée fin de déterminer la précision lors de l’évaluation des prédictions du modèle est disponible uniquement pour les champs dont le type de contenu est Chaîne (String) :
      • exact_match : la prédiction sera considérée comme correcte (note de 1) uniquement si elle correspond exactement à la valeur réelle. Si elle diffère ne serait-ce que d’un seul caractère, elle est considérée comme incorrecte (note de 0). C’est le paramètre par défaut pour tous les champs, sauf pour les champs de type String.
      • levenshtein : une prédiction sera considérée comme partiellement correcte en fonction de la distance de Levenshtein entre la prédiction et la valeur réelle. Par exemple, si une valeur de 10 lettres est prédite correctement sauf pour les 2 derniers caractères, alors la note de cette prédiction sera de 0,8.
    • Format de date : ce champ, disponible uniquement pour les champs dont le type de contenu est Date, indique comment les dates ambiguës seront analysées et renvoyées :
      • Auto
      • Style américain : AAAA-JJ-MM
      • Style non américain : AAAA-MM-JJ
    • Multiligne : cette option doit être cochée pour les champs couvrant plusieurs lignes de texte (adresses ou descriptions), sinon seule la première ligne sera renvoyée.
    • Valeurs multiples : le champ renverra une liste avec toutes les valeurs détectées dans le document.

Les modifications apportées aux paramètres de type de document ne seront pas reflétées dans la nouvelle version du projet lorsque vous publiez une nouvelle version du projet avant qu’un nouvel entraînement soit déclenché.

Solution: pour éviter cela, entraînez à nouveau le type de document après avoir apporté des modifications aux champs relatifs au type de document. Vous pouvez procéder à cela en identifiant ou en confirmant d’autres documents de ce type avant de publier la nouvelle version.

Paramètres du modèle

Vous pouvez modifier les paramètres du type de document dans la vue des paramètres du modèle. Pour ce faire, sélectionnez Paramètres du modèle.

Images 3. Paramètres du modèle

Vous pouvez modifier les paramètres suivants :

  • Modèle de base : les estimations de la taille de l’ensemble de données utilisées dans les actions recommandées dépendent du modèle de base utilisé pour l’entraînement. L’utilisation du modèle de base le plus similaire à votre type de document permettra de réduire la quantité de travail d’annotation requise.
  • Nombre de langues : l’estimation de la taille de l’ensemble de données utilisée dans les actions recommandées dépend du nombre de langues dans l’ensemble de données. Un plus grand nombre de langues nécessite généralement d’annoter plus de données.

Rechercher des noms de champ

Vous pouvez recherchez parmi les noms de champs disponibles. Pour cela, utilisez la barre de recherche située en haut à gauche de l’interface du Gestionnaire de type de document. Pour une recherche plus efficace, utilisez la fonction Filtre afin de filtrer par Type de contenu.

Image 4. Rechercher des noms de champ

Supprimer les champs

Sélectionnez Supprimer à côté du champ que vous souhaitez supprimer.

Image 5. Supprimer un champ.

Vous pouvez également sélectionner plusieurs champs (ou l’ensemble d’entre eux), puis supprimer ceux-ci simultanément. Pour cela, cochez la case située à côté des champs que vous souhaitez supprimer, puis cliquez sur Supprimer.
Image 6. Supprimer plusieurs champs à la fois

Rechercher des documents

Vous pouvez rechercher les documents chargés par nom de document. Pour ce faire, utilisez la barre de recherche située en haut à gauche de la section Build (Construire). Pour une recherche plus efficace, utilisez la fonction Filtre afin de filtrer par :
  • Type de document : choisissez le type de document souhaité dans la liste déroulante.
  • Date de chargement : choisissez un intervalle de dates de chargement du document.
  • Statut : choisissez le statut du document.


Score du projet et du modèle

Vous pouvez vérifier le score global de votre projet en haut à droite. Ce score tient compte des scores du classifieur et de l’extracteur pour tous les types de documents. Cliquez sur Score du projet pour afficher la section Mesurer (Measure). Vous pourrez accéder à des mesures de performances plus détaillées dans cette section.

Vous pouvez vérifier le score de chaque type de document séparément à partir de la section Type de document. Ce score prend en compte les performances globales du modèle, ainsi que la taille et la qualité de l’ensemble de données.

Remarque : vous devez avoir chargé au moins 10 documents pour pouvoir obtenir un score de projet. Pour pouvoir obtenir un score de type de document, au moins 10 documents doivent être du même type.


Vous pouvez vérifier la notation de modèle pour vos modèles si vous sélectionnez la balise de score. La notation de modèle est une fonctionnalité destinée à vous aider à visualiser les performances d’un modèle de classification. Elle est exprimée sous la forme d’un score de modèle compris entre 0 et 100 :
  • Faible (0-49)
  • Moyen (50-69)
  • Bon (70-89)
  • Excellent (90-100)

Sélectionnez Scores détaillés du modèle pour accéder à la section Mesure et obtenir des informations détaillées.



Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2024 UiPath Tous droits réservés.