document-understanding

latest

false

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Guide de l'utilisateur de Document Understanding

Fractionneur entraînable (aperçu)

Vue d'ensemble (Overview)

Le fractionneur entraînable utilise le modèle Helix Classifier pour fractionner et classifier les paquets multi-documents. Il détecte automatiquement les limites du document et affecte un type de document à chaque sous-document détecté.

Le modèle est disponible uniquement pour les locataires en Europe et aux États-Unis.

Important :

Cette fonctionnalité prend uniquement en charge les clés gérées par le fournisseur. Les clés gérées par le client ne peuvent pas être utilisées pour chiffrer les données de cette fonctionnalité, même si CMK est activé au niveau de l’organisation.

Quand l’utiliser

Utilisez le fractionneur entraînable dans les scénarios suivants :

Applications de prêt : fractionner les paquets contenant les identifiants, les formulaires de demande et les relevés bancaires.
Intégration dans le secteur de la santé : vérifiez la présence des documents requis tels que les certificats médicaux, les formulaires de NPI et les identifiants.
Déclarations d'assurance : formulaires de réclamation distincts, dossiers médicaux et reçus.
Traitement des factures : gérez les paquets de factures multi-fournisseurs.
Nettoyage des documents : supprimez les pages non pertinentes afin que seul le contenu pertinent soit traité en aval.

Créer un nouveau projet

Lors de la création d'un nouveau projet, les locataires situés en Europe et aux États-Unis peuvent activer notre nouveau modèle de fractionneur et de classifieur. Ce modèle entraînable peut être entraîné pour fractionner et classifier des documents complexes, ce qui vous permet de traiter des paquets de documents.

Suivez les instructions de cette page pour créer un projet Document Understanding^TM et activer le nouveau modèle de séparateur et de classifieur.

Prérequis

Avant de commencer, assurez-vous que les conditions suivantes sont remplies :

Votre locataire est situé en Europe ou aux États-Unis.
IntelligentOCR.Activities version 6.27.0 ou ultérieure est installée.
Les projets modernes sont activés dans votre locataire Automation Cloud.
Vous disposez d'exemples de paquets de document représentatifs de votre cas d'utilisation en production.

Ouvrez Document Understanding.
Sélectionnez Créer un projet.
Entrez le nom du projet souhaité.
Pour Automation Cloud et Test Cloud, sélectionnez Moderne pour utiliser l'expérience moderne.
Activez le bouton à bascule Activer le nouveau modèle de fractionneur et de classifieur.
Configurez les options avancées si nécessaire.
1. Activez le bouton Activer le fractionnement pour permettre au modèle de diviser les documents en fichiers individuels avant d’être classés. Vous pouvez également activer cette option à partir de l’écran des paramètres du projet .
  Important :
  Lorsque l’option Activer le fractionnement est désactivée, le modèle s’exécute en mode de classification uniquement :
  - L’interface d’annotation de fractionnement n’est pas disponible.
  - Les documents ne peuvent pas être fractionnés manuellement.
  - Pour la formation, chargez des documents d'une page ou multi-pages du même type.
  - Toutes les autres fonctionnalités restent inchangées.
2. Sélectionnez la méthode OCR dans la liste déroulante Méthode OCR .
3. Saisissez la clé API OCR.
  Remarque :
  Ce champ sera rempli automatiquement si vous avez sélectionné un moteur OCR UiPath®.
4. Saisissez l’ URL OCR. Pour obtenir la liste complète des URL des OCR UiPath, consultez la page Points de terminaison publics .
5. Choisissez d’ appliquer l’OCR aux fichiers PDF ou non. La valeur par défaut est Auto.
Sélectionnez Créer.

Résultat

Votre projet a été créé. La section Créer devient disponible, où vous pouvez charger des documents à des fins d'extraction ou de classification.

Choisissez l'une des deux options disponibles :

Extract data data from documents: extrait des champs spécifiques de vos documents, tels que les numéros de facture, les dates et les totaux. Utilisez cette option lorsque vous devez extraire des champs de documents.
Classer et diviser les documents: trie les documents par type et sépare plusieurs documents dans un seul fichier. Utilisez cette option lorsque vous devez fractionner et classer des documents.

Extraction de données de documents

Sélectionnez un type de document.
Sélectionnez Télécharger ou glisser-déposer vos fichiers dans le nouveau type de document.Attendez la fin du téléchargement.

Classer et fractionner des documents

Certains fichiers complexes contiennent plusieurs types de document. Le fractionneur entraînable détecte le début et la fin de chaque sous-document, et classe chaque section en conséquence.

Sélectionnez Classer et fractionner les documents.
Chargez vos paquets de documents. Attendez que le chargement et le traitement se terminent.
Sélectionnez un document dans la section de chargement.
Sélectionnez Fractionner. L’interface d’annotation de fractionnement s’ouvre.
Remarque :
Si le projet dispose déjà d’un modèle entraîné, les documents chargés sont pré-annotés à l’aide de ce modèle. Cela permet d’accélérer l’annotation et vous permet d’examiner les résultats de prédiction sur les nouveaux documents.
Sélectionnez Nouveau type de document pour créer un type de document pour chaque élément de votre taxonomie. Choisissez un type de document prédéfini ou créez-en un personnalisé. Pour les types de documents personnalisés, indiquez les éléments suivants :
- Nom : un nom clair et descriptif pour le type de document.
- Description : une à trois phrases expliquant la fonction du document et ce qui le différencie des types similaires.
- Indicateurs clés : champs ou termes séparés par des virgules qui identifient de manière unique ce type de document. Les descriptions et les indicateurs clés affectent directement la précision du modèle. Si les scores de classification sont faibles, affinez les descriptions avant d'ajouter davantage de données d'entraînement. Exemple de type de document de facturation :
- Description : une demande de paiement officielle émise par un vendeur à un acheteur, répertoriant les éléments de ligne, les quantités et les montants totaux dus.
- Indicateurs clés : numéro de facture, date de facture, montant total, informations sur le vendeur, informations sur l’acheteur, conditions de paiement Conseils pour rédiger des descriptions efficaces :
- Incluez la terminologie spécifique au type de document.
- Si deux types de document sont fréquemment confondus, ajoutez des détails distinctifs aux deux descriptions.
Attribuez au type Inconnu les pages non nécessaires pour le traitement en aval. Cela inclut les pages de couverture, les pages vierges et les feuilles de séparation. Le modèle prévoit que ces pages sont Inconnues au moment du runtime.
Sélectionnez les limites entre les types de document pour indiquer où chaque document commence et se termine.
Affectez chaque plage de pages à un type de document à l'aide du menu déroulant.
Sélectionnez Confirmer lorsque vous avez terminé d’annoter le document.

Résultat

Chaque sous-document apparaît sous son type de document correspondant dans la section Build . Chaque sous-document est pré-annoté avec le schéma de son type de document attribué.

Meilleures pratiques d'entraînement

Formez-vous sur les paquets de documents de production originaux non fractionnés, et non sur les documents individuels pré-fractionnés.

Le modèle apprend les schémas de regroupement de documents à partir du contexte entourant chaque type de document : ce qui apparaît avant et après dans un paquet réel. La formation sur les documents pré-fractionnés supprime ce contexte et réduit la précision du fractionnement.

Approche recommandée :

Chargez des paquets de production qui contiennent plusieurs types de document.
Incluez des paquets qui représentent la plage de commandes et le nombre de documents vus en production.
Visez un ensemble de données équilibré entre tous les types de document.
Remarque :
L’entraînement sur des documents pré-séparés produit un modèle fonctionnel, mais la précision du fractionnement est inférieure à celle de l’entraînement sur des paquets d’origine.

Entraînement de modèle

Vous démarrez l'entraînement du modèle manuellement à l'aide du bouton Démarrer l'entraînement sur la pilule du statut de l'entraînement du modèle , affiché dans le coin supérieur droit du panneau Classification . L'entraînement ne commence pas automatiquement.

Le bouton s’active une fois que les deux conditions suivantes sont remplies:

Au moins cinq sous-documents ont été créés et annotés.
Remarque :
Par exemple, si vous utilisez un seul PDF, il doit contenir au moins cinq sous-documents. Si vous utilisez deux fichiers PDF, l’un doit contenir au moins deux sous-documents et l’autre au moins trois.
Un document a été confirmé.

Une fois le seuil atteint, sélectionnez Démarrer l'entraînement pour mettre en file d'attente une exécution. La pilule du statut passe par En attente, Entraînement en cours et Enfin Entraîné , affichant le score, la date du dernier entraînement, la durée et la version du modèle de base. Si un entraînement échoue, la pilule affiche l'erreur et une action Réessayer .

Pour plus de détails sur les états des boutons, le compteur de modifications et le cycle de vie complet de l'entraînement, consultez la section Démarrer une exécution d'entraînement.

Exigences en matière de données d'entraînement

Prérequis	Détails (Details)
Types de document minimums	1
Échantillons totaux minimum	5 documents sur tous les types de document
Échantillons minimum par type	1
Recommandé pour des résultats fiables	50 à 100 paquets
Taille maximale du document	160 Mo ou 500 pages
Répartition entraînement/test	Automatique : 80 % de formation, 20 % de test

Amélioration des résultats de la formation

Lorsque les performances sont insatisfaisantes, utilisez l'une de ces approches :

Affinez les descriptions et les indicateurs clés des types de documents peu performants.
Ajoutez plus d'échantillons de formation pour les types de document avec une faible précision.

Prédictions de fractionnement et de classification

Chaque fois qu'un nouveau modèle est entraîné, tous les documents du projet reçoivent des prédictions de la part du modèle entraîné. Cela vous permet d'examiner les performances du modèle de classification.

La colonne Type affiche la vérité terrain, c'est-à-dire le type de document tel qu'il a été annoté. La colonne Type prévu affiche le type prévu par le modèle.

Par défaut, seuls les paquets de documents sont affichés. Pour afficher les sous-documents dans chaque paquet, sélectionnez Afficher et cochez Inclure les sous-documents.

Les prédictions sont également disponibles dans l’interface d’annotation en activant le bouton Afficher la prédiction .

Compréhension des métriques

Sélectionnez l'onglet Mesurer pour examiner les performances du modèle.

Mesure	Ce qu'il mesure	Que faire si le niveau est faible
Fractionnement de F1	Précision de la détection des limites du document, indépendamment de la classification	Ajouter des données d'entraînement avec des exemples de limites plus variés
Classification F1	Précision de l’affectation du type de document, indépendamment des limites	Ajouter plus de pages de formation pour les types de document peu performants
F1 global	Score combiné : la limite et l'affectation de type doivent toutes deux être correctes	Identifier si le fractionnement ou la classification est inférieure et résoudre ce problème en premier

Un sous-document est compté comme correct uniquement lorsque la détection de la limite et l'affectation de type sont correctes.

Remarque :

Les documents volumineux contenant de nombreuses pages Inconnu dans l’ensemble de tests peuvent réduire les scores de façon disproportion. Si les scores apparaissent de manière inattendue, vérifiez si des documents sortants biaisent l’ensemble de tests.

Consommation du modèle lors du runtime

Via les activités IntelligentOCR

Utilisez l’activité Classifieur de projet Document Understanding du package IntelligentOCR. Lorsque le fractionnement est activé dans le projet, l’activité renvoie plusieurs ClassificationResults, un par sous-document détecté. Répétez les résultats pour effectuer une validation ou une extraction sur chaque sous-document.

Via les activités DocumentUnderstanding

Utilisez l’activité Classer un document .

Via l'API

Utilisez le point de terminaison classify. Lorsque le fractionnement est activé dans la version du projet, le point de terminaison effectue le fractionnement et renvoie les résultats de la classification pour chaque sous-document identifié.

Importation et exportation

Exportation d’un ensemble de données de modèle entraîné

Si une version de projet contient un classifieur entraîné de fractionnement, deux options d'exportation sont disponibles :

Exportation d’ensemble de données du type de document : exportation standard des données annotées.
Exportation du fractionnement et du classifieur : exportation complète du projet, y compris le modèle entraîné.

Seules les versions de projet avec un classifieur de fractionnement entraîné s’affichent dans la liste déroulante Exporter le classifieur et le classifieur .

Importation dans un nouveau projet

L’option d’importation est disponible sur la page de classification vide. L’importation d’un fichier zip affecte des documents à leurs types de document et déclenche automatiquement l’entraînement.

Limitations

Disponible uniquement pour les locataires situés en Europe et aux États-Unis.
Les pages ne peuvent pas être réorganisées ou supprimées dans l'interface d'annotation.
Les informations sur le fractionnement ne sont pas disponibles sur la page Surveiller.
Le réentraînement à partir de l’Action Center n’est pas pris en charge pour les modèles de fractionnement et de classification.

Cette page vous a-t-elle été utile ?

PrécédentCréer un projet

SuivantImporter des documents

Guide de l'utilisateur de Document Understanding

Vue d'ensemble (Overview)​

Quand l’utiliser​

Créer un nouveau projet​

Prérequis​

Résultat​

Extraction de données de documents​

Classer et fractionner des documents​

Résultat​

Meilleures pratiques d'entraînement​

Entraînement de modèle​

Exigences en matière de données d'entraînement​

Amélioration des résultats de la formation​

Prédictions de fractionnement et de classification​

Compréhension des métriques​

Consommation du modèle lors du runtime​

Via les activités IntelligentOCR​

Via les activités DocumentUnderstanding​

Via l'API​

Importation et exportation​

Exportation d’un ensemble de données de modèle entraîné​

Importation dans un nouveau projet​

Limitations​

Cette page vous a-t-elle été utile ?

Vue d'ensemble (Overview)

Quand l’utiliser

Créer un nouveau projet

Prérequis

Résultat

Extraction de données de documents

Classer et fractionner des documents

Résultat

Meilleures pratiques d'entraînement

Entraînement de modèle

Exigences en matière de données d'entraînement

Amélioration des résultats de la formation

Prédictions de fractionnement et de classification

Compréhension des métriques

Consommation du modèle lors du runtime

Via les activités IntelligentOCR

Via les activités DocumentUnderstanding

Via l'API

Importation et exportation

Exportation d’un ensemble de données de modèle entraîné

Importation dans un nouveau projet

Limitations