UiPath Documentation
document-understanding
latest
false
Important :
La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Guide de l'utilisateur de Document Understanding

Fractionneur entraînable (aperçu)

Vue d'ensemble (Overview)

Le fractionneur entraînable utilise le modèle Helix Classifier pour fractionner et classifier les paquets multi-documents. Il détecte automatiquement les limites du document et affecte un type de document à chaque sous-document détecté.

Le modèle est disponible uniquement pour les locataires en Europe et aux États-Unis.

Important :

Cette fonctionnalité prend uniquement en charge les clés gérées par le fournisseur. Les clés gérées par le client ne peuvent pas être utilisées pour chiffrer les données de cette fonctionnalité, même si CMK est activé au niveau de l’organisation.

Quand l’utiliser

Utilisez le fractionneur entraînable dans les scénarios suivants :

  • Demandes de prêt hypothécaire: fractionnez les paquets contenant des pièces d'identité, des formulaires de demande et des relevés bancaires.
  • Intégration de la santé: vérifiez la présence des documents requis tels que les certificats médicaux, les formulaires NPI et les pièces d’identité.
  • Demandes d'indemnisation: formulaires de demande d'indemnisation, dossiers médicaux et reçus distincts.
  • Traitement des factures: gérez les paquets de factures multi-fournisseurs.
  • Nettoyage du document: supprimez les pages non pertinentes afin que seul le contenu pertinent soit traité en aval.

Créer un nouveau projet

Lors de la création d'un nouveau projet, les locataires situés en Europe et aux États-Unis peuvent activer notre nouveau modèle de fractionneur et de classifieur. Ce modèle entraînable peut être entraîné pour fractionner et classifier des documents complexes, ce qui vous permet de traiter des paquets de documents.

Suivez les instructions de cette page pour créer un projet Document UnderstandingTM et activer le nouveau modèle de séparateur et de classifieur.

Prérequis

Avant de commencer, assurez-vous que les conditions suivantes sont remplies :

  • Votre locataire est situé en Europe ou aux États-Unis.
  • IntelligentOCR.Activities version 6.27.0 ou ultérieure est installée.
  • Les projets modernes sont activés dans votre locataire Automation Cloud.
  • Vous disposez d'exemples de paquets de document représentatifs de votre cas d'utilisation en production.
  1. Ouvrez Document Understanding.

  2. Sélectionnez Créer un projet.

  3. Entrez le nom du projet souhaité.

  4. Pour Automation Cloud et Test Cloud, sélectionnez Moderne pour utiliser l'expérience moderne.

  5. Activez le bouton à bascule Activer le nouveau modèle de fractionneur et de classifieur.

  6. Configurez les options avancées si nécessaire.

    1. Activez le bouton Activer le fractionnement pour permettre au modèle de diviser les documents en fichiers individuels avant d’être classés. Vous pouvez également activer cette option à partir de l’écran des paramètres du projet .
      Important :

      Lorsque l'option Activer le fractionnement est mise en position Off, le modèle s'exécute en mode classification uniquement:

      • L’interface d’annotation de fractionnement n’est pas disponible.
      • Les documents ne peuvent pas être fractionnés manuellement.
      • Pour la formation, chargez des documents d'une page ou multi-pages du même type.
      • Toutes les autres fonctionnalités restent inchangées.
    2. Sélectionnez la méthode OCR dans la liste déroulante Méthode OCR .
    3. Saisissez la clé API OCR.
      Remarque :

      Ce champ sera rempli automatiquement si vous avez sélectionné un moteur OCR UiPath®.

    4. Saisissez l’ URL OCR. Pour obtenir la liste complète des URL des OCR UiPath, consultez la page Points de terminaison publics .
    5. Choisissez s’il faut Appliquer l’OCR aux PDF. La valeur par défaut est Auto.
  7. Sélectionnez Créer.

Résultat

Votre projet est créé. La section Construire devient disponible, où vous pouvez charger des documents à des fins d’extraction ou de classification.

Choisissez l'une des deux options disponibles :

  • Extraire des données de documents: extrait des champs spécifiques de vos documents, tels que les numéros de facture, les dates et les totaux. Utilisez cette option lorsque vous devez extraire des champs de documents.
  • Classer et diviser les documents: trie les documents par type et sépare plusieurs documents dans un seul fichier. Utilisez cette option lorsque vous devez fractionner et classer des documents.

Extraction de données de documents

  1. Sélectionnez un type de document.
  2. Sélectionnez Télécharger ou glisser-déposer vos fichiers dans le nouveau type de document.Attendez la fin du téléchargement.

Classer et fractionner des documents

Certains fichiers complexes contiennent plusieurs types de document. Le fractionneur entraînable détecte le début et la fin de chaque sous-document, et classe chaque section en conséquence.

  1. Sélectionnez Classifier et fractionner les documents.
  2. Chargez vos paquets de documents. Attendez que le chargement et le traitement se terminent.
  3. Sélectionnez un document dans la section de chargement.
  4. Sélectionnez Fractionner. L'interface d'annotation de fractionnement s'ouvre.
    Remarque :

    Si le projet dispose déjà d’un modèle entraîné, les documents chargés sont pré-annotés à l’aide de ce modèle. Cela permet d’accélérer l’annotation et vous permet d’examiner les résultats de prédiction sur les nouveaux documents.

  5. Sélectionnez Nouveau type de document pour créer un type de document pour chaque élément de votre taxonomie. Choisissez un type de document prédéfini ou créez-en un personnalisé. Pour les types de documents personnalisés, indiquez les éléments suivants:
    • Nom: un nom clair et descriptif pour le type de document.
    • Description: une à trois phrases expliquant l'objectif du document et ce qui le distingue des types similaires.
    • Indicateurs clés: champs ou termes séparés par des virgules qui identifient de manière unique ce type de document. Les descriptions et les indicateurs clés affectent directement la précision du modèle. Si les scores de classification sont faibles, affinez les descriptions avant d'ajouter plus de données d'entraînement. Exemple de type de document Facture:
    • Description: une demande de paiement officielle émise par un vendeur à un acheteur, répertoriant les éléments de ligne, les quantités et les montants totaux dus.
    • Indicateurs clés: numéro de facture, date de facture, montant total, informations sur le vendeur, informations sur l'acheteur, modalités de paiement Conseils pour rédiger des descriptions efficaces:
    • Incluez la terminologie spécifique au type de document.
    • Si deux types de document sont fréquemment confondus, ajoutez des détails distinctifs aux deux descriptions.
  6. Attribuez les pages non nécessaires au traitement en aval au type Inconnu . Cela inclut les pages de couverture, les pages vierges et les feuilles de séparation. Le modèle prévoit que ces pages sont Inconnues au moment du runtime.
  7. Sélectionnez les limites entre les types de document pour indiquer où chaque document commence et se termine.
  8. Affectez chaque plage de pages à un type de document à l'aide du menu déroulant.
  9. Sélectionnez Confirmer lorsque vous avez fini d’annoter le document.

Résultat

Chaque sous-document apparaît sous son type de document correspondant dans la section Créer . Chaque sous-document est pré-annoté avec le schéma de son type de document affecté.

Meilleures pratiques d'entraînement

Formez-vous sur les paquets de documents de production originaux non fractionnés, et non sur les documents individuels pré-fractionnés.

Le modèle apprend les schémas de regroupement de documents à partir du contexte entourant chaque type de document : ce qui apparaît avant et après dans un paquet réel. La formation sur les documents pré-fractionnés supprime ce contexte et réduit la précision du fractionnement.

Approche recommandée :

  • Chargez des paquets de production qui contiennent plusieurs types de document.
  • Incluez des paquets qui représentent la plage de commandes et le nombre de documents vus en production.
  • Visez un ensemble de données équilibré entre tous les types de document.
    Remarque :

    L’entraînement sur des documents pré-fractionnés produit un modèle de travail, mais la précision du fractionnement est inférieure à l’entraînement sur les paquets d’origine.

Entraînement de modèle

Vous démarrez l'entraînement du modèle manuellement à l'aide du bouton Démarrer l'entraînement sur la pilule du statut de l'entraînement du modèle , affiché dans le coin supérieur droit du panneau Classification . L'entraînement ne commence pas automatiquement.

Le bouton s’active une fois que les deux conditions suivantes sont remplies:

  • Au moins cinq sous-documents ont été créés et annotés.
    Remarque :

    Par exemple, si vous utilisez un seul PDF, il doit contenir au moins cinq sous-documents. Si vous utilisez deux fichiers PDF, l’un doit contenir au moins deux sous-documents et l’autre au moins trois.

  • Un document a été confirmé.

Une fois le seuil atteint, sélectionnez Démarrer l'entraînement pour mettre en file d'attente une exécution. La pilule du statut passe par En attente, Entraînement en cours et Enfin Entraîné , affichant le score, la date du dernier entraînement, la durée et la version du modèle de base. Si un entraînement échoue, la pilule affiche l'erreur et une action Réessayer .

Pour plus de détails sur les états des boutons, le compteur de modifications et le cycle de vie complet de l'entraînement, consultez la section Démarrer une exécution d'entraînement.

Exigences en matière de données d'entraînement

PrérequisDétails (Details)
Types de document minimums1
Échantillons totaux minimum5 documents sur tous les types de document
Échantillons minimum par type1
Recommandé pour des résultats fiables50 à 100 paquets
Taille maximale du document160 Mo ou 500 pages
Répartition entraînement/testAutomatique : 80 % de formation, 20 % de test

Amélioration des résultats de la formation

Lorsque les performances sont insatisfaisantes, utilisez l'une de ces approches :

  1. Affinez les descriptions et les indicateurs clés des types de documents peu performants.
  2. Ajoutez plus d'échantillons de formation pour les types de document avec une faible précision.

Prédictions de fractionnement et de classification

Chaque fois qu'un nouveau modèle est entraîné, tous les documents du projet reçoivent des prédictions de la part du modèle entraîné. Cela vous permet d'examiner les performances du modèle de classification.

La colonne Type affiche la vérité terrain, c'est-à-dire le type de document tel qu'il a été annoté. La colonne Type prévu affiche le type prévu par le modèle.

Par défaut, seuls les paquets de documents s'affichent. Pour visualiser les sous-documents dans chaque paquet, sélectionnez Visualiser et cochez Inclure les sous-documents.

Les prédictions sont également disponibles dans l’interface d’annotation en activant le bouton Afficher la prédiction .

Compréhension des métriques

Sélectionnez l'onglet Mesurer pour examiner les performances du modèle.

MesureCe qu'il mesureQue faire si le niveau est faible
Fractionnement de F1Précision de la détection des limites du document, indépendamment de la classificationAjouter des données d'entraînement avec des exemples de limites plus variés
Classification F1Précision de l’affectation du type de document, indépendamment des limitesAjouter plus de pages de formation pour les types de document peu performants
F1 globalScore combiné : la limite et l'affectation de type doivent toutes deux être correctesIdentifier si le fractionnement ou la classification est inférieure et résoudre ce problème en premier

Un sous-document est compté comme correct uniquement lorsque la détection de la limite et l'affectation de type sont correctes.

Remarque :

Les documents volumineux contenant de nombreuses pages inconnues dans l’ensemble de tests peuvent réduire de manière disproportionnée les scores. Si les scores apparaissent de manière inattendue, vérifiez si les documents atypiques biaisent l’ensemble de tests.

Consommation du modèle lors du runtime

Via les activités IntelligentOCR

Utilisez l'activité Classifieur de projet Document Understanding du package IntelligentOCR. Lorsque le fractionnement est activé dans le projet, l’activité renvoie plusieurs résultats de classification — un par sous-document détecté. Itérez les résultats pour effectuer une validation ou une extraction sur chaque sous-document.

Via les activités DocumentUnderstanding

Utilisez l’activité Classer un document .

Via l'API

Utilisez le point de terminaison classify. Lorsque le fractionnement est activé dans la version du projet, le point de terminaison effectue le fractionnement et renvoie les résultats de la classification pour chaque sous-document identifié.

Importation et exportation

Exportation d’un ensemble de données de modèle entraîné

Si une version de projet contient un classifieur entraîné de fractionnement, deux options d'exportation sont disponibles :

  • Exportation de l’ensemble de données de type de document: exportation standard des données annotées.
  • Exportation du séparateur et classifieur: exportation complète du projet en incluant le modèle entraîné.

Seules les versions de projet avec un classifieur de fractionnement entraîné apparaissent dans la liste déroulante Exportation du séparateur et classifieur .

Importation dans un nouveau projet

L’option d’importation est disponible sur la page de classification vide. L’importation d’un fichier zip affecte des documents à leurs types de document et déclenche automatiquement l’entraînement.

Limitations

  • Disponible uniquement pour les locataires situés en Europe et aux États-Unis.
  • Les pages ne peuvent pas être réorganisées ou supprimées dans l'interface d'annotation.
  • Les informations sur le fractionnement ne sont pas disponibles sur la page Surveiller.
  • Le réentraînement à partir de l’Action Center n’est pas pris en charge pour les modèles de fractionnement et de classification.

Cette page vous a-t-elle été utile ?

Connecter

Besoin d'aide ? Assistance

Vous souhaitez apprendre ? UiPath Academy

Vous avez des questions ? UiPath Forum

Rester à jour