Document Understanding - Fractionneur entraînable (aperçu)

document-understanding

latest

false

Guide de l'utilisateur de Document Understanding

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Fractionneur entraînable (aperçu)

Configurez le séparateur entraînable dans Document Understanding afin de détecter les limites des documents et attribuer des types de documents dans des paquets multi-documents.

Vue d'ensemble (Overview)

Le fractionneur entraînable utilise le modèle Helix Classifier pour fractionner et classifier les paquets multi-documents. Il détecte automatiquement les limites du document et affecte un type de document à chaque sous-document détecté.

Le modèle est disponible uniquement pour les locataires en Europe et aux États-Unis.

Important :

Cette fonctionnalité prend uniquement en charge les clés gérées par le fournisseur. Les clés gérées par le client ne peuvent pas être utilisées pour chiffrer les données de cette fonctionnalité, même si CMK est activé au niveau de l’organisation.

Quand l’utiliser

Utilisez le fractionneur entraînable dans les scénarios suivants :

Demandes de prêt hypothécaire: fractionnez les paquets contenant des pièces d'identité, des formulaires de demande et des relevés bancaires.
Intégration de la santé: vérifiez la présence des documents requis tels que les certificats médicaux, les formulaires NPI et les pièces d’identité.
Demandes d'indemnisation: formulaires de demande d'indemnisation, dossiers médicaux et reçus distincts.
Traitement des factures: gérez les paquets de factures multi-fournisseurs.
Nettoyage du document: supprimez les pages non pertinentes afin que seul le contenu pertinent soit traité en aval.

Créer un nouveau projet

Lors de la création d'un nouveau projet, les locataires situés en Europe et aux États-Unis peuvent activer notre nouveau modèle de fractionneur et de classifieur. Ce modèle entraînable peut être entraîné pour fractionner et classifier des documents complexes, ce qui vous permet de traiter des paquets de documents.

Suivez les instructions de cette page pour créer un projet Document Understanding^TM et activer le nouveau modèle de séparateur et de classifieur.

Prérequis

Avant de commencer, assurez-vous que les conditions suivantes sont remplies :

Votre locataire est situé en Europe ou aux États-Unis.
IntelligentOCR.Activities version 6.27.0 ou ultérieure est installée.
Les projets modernes sont activés dans votre locataire Automation Cloud.
Vous disposez d'exemples de paquets de document représentatifs de votre cas d'utilisation en production.

Ouvrez Document Understanding.
Sélectionnez Créer un projet.
Entrez le nom du projet souhaité.
Pour Automation Cloud et Test Cloud, sélectionnez Moderne pour utiliser l'expérience moderne.
Activez le bouton à bascule Activer le nouveau modèle de fractionneur et de classifieur.
Configurez les options avancées si nécessaire.
1. Activez le bouton Activer le fractionnement pour permettre au modèle de diviser les documents en fichiers individuels avant d’être classés. Vous pouvez également activer cette option à partir de l’écran des paramètres du projet .
  Important :
  Lorsque l'option Activer le fractionnement est mise en position Off, le modèle s'exécute en mode classification uniquement:
  - L’interface d’annotation de fractionnement n’est pas disponible.
  - Les documents ne peuvent pas être fractionnés manuellement.
  - Pour la formation, chargez des documents d'une page ou multi-pages du même type.
  - Toutes les autres fonctionnalités restent inchangées.
2. Sélectionnez la méthode OCR dans la liste déroulante Méthode OCR .
3. Saisissez la clé API OCR.
  Remarque :
  Ce champ sera rempli automatiquement si vous avez sélectionné un moteur OCR UiPath®.
4. Saisissez l’ URL OCR. Pour obtenir la liste complète des URL des OCR UiPath, consultez la page Points de terminaison publics .
5. Choisissez s’il faut Appliquer l’OCR aux PDF. La valeur par défaut est Auto.
Sélectionnez Créer.

Résultat

Votre projet est créé. La section Construire devient disponible, où vous pouvez charger des documents à des fins d’extraction ou de classification.

Choisissez l'une des deux options disponibles :

Extraire des données de documents: extrait des champs spécifiques de vos documents, tels que les numéros de facture, les dates et les totaux. Utilisez cette option lorsque vous devez extraire des champs de documents.
Classer et diviser les documents: trie les documents par type et sépare plusieurs documents dans un seul fichier. Utilisez cette option lorsque vous devez fractionner et classer des documents.

Extraction de données de documents

Sélectionnez un type de document.
Sélectionnez Télécharger ou glisser-déposer vos fichiers dans le nouveau type de document.Attendez la fin du téléchargement.

Classer et fractionner des documents

Certains fichiers complexes contiennent plusieurs types de document. Le fractionneur entraînable détecte le début et la fin de chaque sous-document, et classe chaque section en conséquence.

Sélectionnez Classifier et fractionner les documents.
Chargez vos paquets de documents. Attendez que le chargement et le traitement se terminent.
Sélectionnez un document dans la section de chargement.
Sélectionnez Fractionner. L'interface d'annotation de fractionnement s'ouvre.
Remarque :
Si le projet dispose déjà d’un modèle entraîné, les documents chargés sont pré-annotés à l’aide de ce modèle. Cela permet d’accélérer l’annotation et vous permet d’examiner les résultats de prédiction sur les nouveaux documents.
Sélectionnez Nouveau type de document pour créer un type de document pour chaque élément de votre taxonomie. Choisissez un type de document prédéfini ou créez-en un personnalisé. Pour les types de documents personnalisés, indiquez les éléments suivants:
- Nom: un nom clair et descriptif pour le type de document.
- Description: une à trois phrases expliquant l'objectif du document et ce qui le distingue des types similaires.
- Indicateurs clés: champs ou termes séparés par des virgules qui identifient de manière unique ce type de document. Les descriptions et les indicateurs clés affectent directement la précision du modèle. Si les scores de classification sont faibles, affinez les descriptions avant d'ajouter plus de données d'entraînement. Exemple de type de document Facture:
- Description: une demande de paiement officielle émise par un vendeur à un acheteur, répertoriant les éléments de ligne, les quantités et les montants totaux dus.
- Indicateurs clés: numéro de facture, date de facture, montant total, informations sur le vendeur, informations sur l'acheteur, modalités de paiement Conseils pour rédiger des descriptions efficaces:
- Incluez la terminologie spécifique au type de document.
- Si deux types de document sont fréquemment confondus, ajoutez des détails distinctifs aux deux descriptions.
Attribuez les pages non nécessaires au traitement en aval au type Inconnu . Cela inclut les pages de couverture, les pages vierges et les feuilles de séparation. Le modèle prévoit que ces pages sont Inconnues au moment du runtime.
Sélectionnez les limites entre les types de document pour indiquer où chaque document commence et se termine.
Affectez chaque plage de pages à un type de document à l'aide du menu déroulant.
Sélectionnez Confirmer lorsque vous avez fini d’annoter le document.

Résultat

Chaque sous-document apparaît sous son type de document correspondant dans la section Créer . Chaque sous-document est pré-annoté avec le schéma de son type de document affecté.

Meilleures pratiques d'entraînement

Formez-vous sur les paquets de documents de production originaux non fractionnés, et non sur les documents individuels pré-fractionnés.

Le modèle apprend les schémas de regroupement de documents à partir du contexte entourant chaque type de document : ce qui apparaît avant et après dans un paquet réel. La formation sur les documents pré-fractionnés supprime ce contexte et réduit la précision du fractionnement.

Approche recommandée :

Chargez des paquets de production qui contiennent plusieurs types de document.
Incluez des paquets qui représentent la plage de commandes et le nombre de documents vus en production.
Visez un ensemble de données équilibré entre tous les types de document.
Remarque :
L’entraînement sur des documents pré-fractionnés produit un modèle de travail, mais la précision du fractionnement est inférieure à l’entraînement sur les paquets d’origine.

Entraînement de modèle

Vous démarrez l'entraînement du modèle manuellement à l'aide du bouton Démarrer l'entraînement sur la pilule du statut de l'entraînement du modèle , affiché dans le coin supérieur droit du panneau Classification . L'entraînement ne commence pas automatiquement.

Le bouton s’active une fois que les deux conditions suivantes sont remplies:

Au moins cinq sous-documents ont été créés et annotés.
Remarque :
Par exemple, si vous utilisez un seul PDF, il doit contenir au moins cinq sous-documents. Si vous utilisez deux fichiers PDF, l’un doit contenir au moins deux sous-documents et l’autre au moins trois.
Un document a été confirmé.

Une fois le seuil atteint, sélectionnez Démarrer l'entraînement pour mettre en file d'attente une exécution. La pilule du statut passe par En attente, Entraînement en cours et Enfin Entraîné , affichant le score, la date du dernier entraînement, la durée et la version du modèle de base. Si un entraînement échoue, la pilule affiche l'erreur et une action Réessayer .

Pour plus de détails sur les états des boutons, le compteur de modifications et le cycle de vie complet de l'entraînement, consultez la section Démarrer une exécution d'entraînement.

Exigences en matière de données d'entraînement

Prérequis	Détails (Details)
Types de document minimums	1
Échantillons totaux minimum	5 documents sur tous les types de document
Échantillons minimum par type	1
Recommandé pour des résultats fiables	50 à 100 paquets
Taille maximale du document	160 Mo ou 500 pages
Répartition entraînement/test	Automatique : 80 % de formation, 20 % de test

Amélioration des résultats de la formation

Lorsque les performances sont insatisfaisantes, utilisez l'une de ces approches :

Affinez les descriptions et les indicateurs clés des types de documents peu performants.
Ajoutez plus d'échantillons de formation pour les types de document avec une faible précision.

Prédictions de fractionnement et de classification

Chaque fois qu'un nouveau modèle est entraîné, tous les documents du projet reçoivent des prédictions de la part du modèle entraîné. Cela vous permet d'examiner les performances du modèle de classification.

La colonne Type affiche la vérité terrain, c'est-à-dire le type de document tel qu'il a été annoté. La colonne Type prévu affiche le type prévu par le modèle.

Par défaut, seuls les paquets de documents s'affichent. Pour visualiser les sous-documents dans chaque paquet, sélectionnez Visualiser et cochez Inclure les sous-documents.

Les prédictions sont également disponibles dans l’interface d’annotation en activant le bouton Afficher la prédiction .

Compréhension des métriques

Sélectionnez l'onglet Mesurer pour examiner les performances du modèle.

Mesure	Ce qu'il mesure	Que faire si le niveau est faible
Fractionnement	Précision de la détection des limites du document, indépendamment de la classification	Ajouter des données d'entraînement avec des exemples de limites plus variés
Classification	Précision de l’affectation du type de document, indépendamment des limites	Ajouter plus de pages de formation pour les types de document peu performants
Global	Score combiné : la limite et l'affectation de type doivent toutes deux être correctes	Identifier si le fractionnement ou la classification est inférieure et résoudre ce problème en premier

Un sous-document est compté comme correct uniquement lorsque la détection de la limite et l'affectation de type sont correctes.

Fractionnement

Les performances du modèle en matière de détection des limites d’un document (c’est-à-dire où un document se termine et le suivant commence) dans un fichier. Affiché sous forme de score F1 au niveau de la page. Cette métrique est mesurée indépendamment de la classification, afin de refléter uniquement la qualité du fractionnement.

Interprétez la note comme suit:

Score élevé: un score élevé est préférable.
Score faible: le modèle détecte probablement des transitions de document dans ce type qu'il n'a pas rencontrées lors de l'entraînement. Ajoutez d'autres exemples incluant ces transitions.
N/A (S/O): il n’y a pas assez de transitions pertinentes dans l’ensemble d’évaluation pour calculer un score de fractionnement pour ce type.

Classification

La capacité du modèle à attribuer le type correct à chaque page. Cette métrique est mesurée indépendamment du fractionnement. Représentée sous la forme d’un score F1 pour chaque page.

Interprétez la note comme suit:

Score élevé: un score élevé est préférable.
Score faible: ajoutez davantage d'exemples de ce type pour que le modèle couvre davantage de variations de mise en page et de contenu.

Global

La mesure combinée de la capacité du modèle à fractionner et à classer ce type de document. Il reflète la qualité de bout en bout et échoue donc si le fractionnement ou la classification est faible. Plus le score est élevé, mieux c’est.

Remarque :

Les documents volumineux contenant de nombreuses pages inconnues dans l’ensemble de tests peuvent réduire de manière disproportionnée les scores. Si les scores apparaissent de manière inattendue, vérifiez si les documents atypiques biaisent l’ensemble de tests.

Consommation du modèle lors du runtime

Via les activités IntelligentOCR

Utilisez l'activité Classifieur de projet Document Understanding du package IntelligentOCR. Lorsque le fractionnement est activé dans le projet, l’activité renvoie plusieurs résultats de classification — un par sous-document détecté. Itérez les résultats pour effectuer une validation ou une extraction sur chaque sous-document.

Via les activités DocumentUnderstanding

Utilisez l’activité Classer un document .

Via l'API

Utilisez le point de terminaison classify. Lorsque le fractionnement est activé dans la version du projet, le point de terminaison effectue le fractionnement et renvoie les résultats de la classification pour chaque sous-document identifié.

Importation et exportation

Exportation d’un ensemble de données de modèle entraîné

Si une version de projet contient un classifieur entraîné de fractionnement, deux options d'exportation sont disponibles :

Exportation de l’ensemble de données de type de document: exportation standard des données annotées.
Exportation du séparateur et classifieur: exportation complète du projet en incluant le modèle entraîné.

Seules les versions de projet avec un classifieur de fractionnement entraîné apparaissent dans la liste déroulante Exportation du séparateur et classifieur .

Importation dans un nouveau projet

L’option d’importation est disponible sur la page de classification vide. L’importation d’un fichier zip affecte des documents à leurs types de document et déclenche automatiquement l’entraînement.

Limitations

Disponible uniquement pour les locataires situés en Europe et aux États-Unis.
Les pages ne peuvent pas être réorganisées ou supprimées dans l'interface d'annotation.
Les informations sur le fractionnement ne sont pas disponibles sur la page Surveiller.
Le réentraînement à partir de l’Action Center n’est pas pris en charge pour les modèles de fractionnement et de classification.

Cette page vous a-t-elle été utile ?

PrécédentCréer un projet

SuivantImporter des documents

Vue d'ensemble (Overview)​

Quand l’utiliser​

Créer un nouveau projet​

Prérequis​

Résultat​

Extraction de données de documents​

Classer et fractionner des documents​

Résultat​

Meilleures pratiques d'entraînement​

Entraînement de modèle​

Exigences en matière de données d'entraînement​

Amélioration des résultats de la formation​

Prédictions de fractionnement et de classification​

Compréhension des métriques​

Fractionnement​

Classification​

Global​

Consommation du modèle lors du runtime​

Via les activités IntelligentOCR​

Via les activités DocumentUnderstanding​

Via l'API​

Importation et exportation​

Exportation d’un ensemble de données de modèle entraîné​

Importation dans un nouveau projet​

Limitations​

Cette page vous a-t-elle été utile ?

Vue d'ensemble (Overview)

Quand l’utiliser

Créer un nouveau projet

Prérequis

Résultat

Extraction de données de documents

Classer et fractionner des documents

Résultat

Meilleures pratiques d'entraînement

Entraînement de modèle

Exigences en matière de données d'entraînement

Amélioration des résultats de la formation

Prédictions de fractionnement et de classification

Compréhension des métriques

Fractionnement

Classification

Global

Consommation du modèle lors du runtime

Via les activités IntelligentOCR

Via les activités DocumentUnderstanding

Via l'API

Importation et exportation

Exportation d’un ensemble de données de modèle entraîné

Importation dans un nouveau projet

Limitations