document-understanding

2022.4

false

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Guide de l'utilisateur de Document Understanding

PRODUIT :

Dernière mise à jour 4 avr. 2025

Factures réentraînées avec un champ supplémentaire

Important :

Le but de cette page est d'aider les nouveaux utilisateurs à se familiariser avec Document Understanding.

Pour les déploiements de production évolutifs, nous vous recommandons vivement d'utiliser le Processus Document Understanding (Document Understanding Process) disponible dans la section Modèles (Templates) d'UiPath Studio.

Ce guide de démarrage rapide vous montre comment recycler le modèle ML prêt à l'emploi de Factures (Invoices) pour extraire un champ supplémentaire.

Utilisons le même workflow que nous avons utilisé pour les reçus dans le démarrage rapide précédent et modifions-le afin qu'il puisse prendre en charge les factures.

Pour ce faire, nous devons effectuer les étapes suivantes dans notre workflow :

Modifier la taxonomie
Ajouter un classifieur
Ajouter un extracteur d'apprentissage automatique
Labelliser les données
Réentraîner le modèle Invoices ML

Voyons maintenant chaque étape en détail.

1. Modifier la taxonomie

Dans cette étape, nous devons modifier la taxonomie pour ajouter le type de document de facture.

Pour ce faire, ouvrez Taxonomy Manager et créez un groupe appelé « Documents semi-structurés », une catégorie appelée « Finances » et un type de document appelé « Factures ». Créez les champs listés ci-dessus avec des noms conviviaux ainsi que les types de données respectifs.

nom - Text
adresse-fournisseur - Address
nom-facturation - Text
adresse-facturation - Address
adresse-livraison - Address
facture-no - Text
po-non - Text
fournisseur-tva-no - Text
date - Date
taxe - Number
total - Number
conditions-paiement - Text
montant-net - Number
date-d'échéance - Date
remise - Number
frais-d'expédition - Number
adresse-paiement - Address
description - Text
éléments - Table
- description - Text
- quantité - Number
- prix unitaire – Number
- montant-ligne - Number
- élément-po-no - Text
- ligne-no - Text
- part-no - Text
- nom-facturation - Text

2. Ajouter un classifieur

Lors de cette étape, nous devons ajouter un classifieur afin de pouvoir traiter à la fois les reçus et les factures avec notre workflow.

Étant donné que notre workflow prend désormais en charge deux types de documents, « Reçus » et « Factures », nous devons ajouter le classifieur pour différencier les différents types de documents entrant en entrée :

Ajoutez Classer l'étendue du document (Classify Document Scope) après l'activité Numériser le document (Digitize Document) et fournissez DocumentPath, DocumentText, DocumentObjectModel et Taxonomie (Taxonomy) comme arguments d'entrée et capturez les ClassificationResults dans une nouvelle variable. Nous avons besoin de cette variable pour vérifier quel(s) document(s) nous traitons.
Nous devons également spécifier un ou plusieurs classifieurs. Dans cet exemple, nous utilisons le Classifieur de mots clés intelligents (Intelligent Keyword Classifier). Ajoutez-le à l'activité Classer l'étendue du document (Classify Document Scope).

Cette page vous aide à prendre une décision éclairée sur la méthode de classification à utiliser dans différents scénarios.
Entraînez le classifieur comme décrit ici.
Configurez le classifieur en l'activant pour les deux types de documents.
Selon votre cas d'utilisation, vous souhaiterez peut-être valider la classification. Vous pouvez le faire à l'aide de la Station de classification actuelle (Present Classification Station) ou des activités Créer une action de classification de document (Create Document Classification Action) et Attendre une action de classification de document et reprendre (Wait For Document Classification Action And Resume).

3. Ajouter un extracteur d'apprentissage automatique

Dans cette étape, nous devons ajouter un extracteur d'apprentissage automatique à l'activité Data Extraction Scope et le connecter au point de terminaison public Factures (Invoices).

La procédure est exactement la même que pour le précédent extracteur d'apprentissage automatique des reçus que nous avons ajouté auparavant :

Ajoutez une activité extracteur d'apprentissage automatique (Machine Learning Extractor) à côté des reçus extracteur d'apprentissage automatique (Receipts Machine Learning Extractor).
Indiquez le point de terminaison public Factures (Invoices), à savoir https://du.uipath.com/ie/invoices/, et une clé API pour l'extracteur.
Configurez l'extracteur pour qu'il fonctionne avec les factures en mappant les champs créés dans le Taxonomy Manager aux champs disponibles dans le modèle ML :
N'oubliez pas d'utiliser la variable ClassificationResults générée par Classer la portée du document (Classify Document Scope) comme entrée de Étendue de l'extraction de données (Data Extraction Scope), au lieu de spécifier un IDTypeDocument.

Vous devriez vous retrouver avec quelque chose comme ça :
Exécutez le workflow pour tester qu'il fonctionne correctement avec les factures.

4. Labelliser les données

Nous devons labelliser les données avant de réentrainer le modèle Factures (Invoices) ML de base afin qu'il prenne en charge le nouveau champ IBAN.

Rassemblez les exigences et les exemples de documents de facturation en volume suffisant pour la complexité du cas d'utilisation que vous devez résoudre.

Labellisez 50 pages, comme expliqué sur cette page de documentation.
Accédez à une instance de Data Manager en local ou dans AI Center dans le Cloud. Assurez-vous que vous disposez des autorisations nécessaires pour utiliser Data Manager.
Créez un projet AI Center et accédez à Labellisation des données (Data Labeling) > UiPath Document Understanding et créez une session Labellisation des données (Data Labeling).
Configurez un moteur OCR comme décrit ici, essayez d'importer un ensemble diversifié de vos documents de production et assurez-vous que le moteur OCR lit le texte que vous devez extraire.

Plus de suggestions dans cette section. Ne passez à l'étape suivante qu'après avoir choisi un moteur OCR.
Créez une nouvelle session Data Manager et importez un ensemble d'entraînement et un ensemble d'évaluation, tout en veillant à cocher la case Faites-en un ensemble de test (Make this a Test set) lors de l'importation de l'ensemble d'évaluation.
Créez et configurez le champ IBAN.

Des directives plus avancées sont disponibles dans cette section.
Labellisez un ensemble de données d'entraînement et un ensemble de données d'évaluation comme décrit ici.

La fonction de prébalisage de Data Manager peut rendre le travail de labellisation beaucoup plus facile.
Exportez d'abord l'ensemble d'évaluation, puis l'ensemble d'entraînement vers AI Center en les sélectionnant dans la liste déroulante des filtres en haut de la vue du Data Manager.

Ensuite, créons notre modèle, ré-entraînons-le et déployons-le.

5. Réentraîner le modèle ML Factures

Maintenant que notre flux de travail prend en charge le traitement des factures, nous devons extraire l'IBAN de nos factures, qui est un champ qui n'est pas récupéré par défaut par le modèle Factures (Invoices) ML prêt à l'emploi. Cela signifie que nous devons recycler un nouveau modèle, en commençant par celui de base.

Créez un paquet ML comme décrit ici. Si votre type de document est différent de ceux disponibles prêts à l'emploi, choisissez le paquet ML DocumentUnderstanding. Sinon, utilisez le package le plus proche du type de document que vous devez extraire.
Créez un pipeline d'entraînement comme décrit ici à l'aide de l'ensemble de données d'entrée que vous avez exporté dans la section précédente à partir du Data Manager.
Lorsque l'entraînement est terminé et que vous disposez de la version mineure 1 du package, exécutez un pipeline d'évaluation sur cette version mineure et inspectez la comparaison côte à côte evaluation.xlsx.

Utilisez les directives détaillées ici.
Si les résultats de l'évaluation sont satisfaisants, affichez compétences ML et créez une compétence ML à l'aide de la nouvelle version mineure du paquet ML. Si vous souhaitez l'utiliser pour effectuer un prébalisage dans Data Manager, vous devez cliquer sur le bouton Modifier le déploiement actuel (Modify Current Deployment) en haut à droite de la vue ML Skill et basculer sur Rendre publique la compétence ML (Make ML Skill Public).
Après avoir créé la compétence ML, nous devons maintenant l'utiliser dans Studio. Pour ce faire, le moyen le plus simple consiste à rendre la compétence ML publique, comme décrit ici. Ensuite, il ne reste plus qu'à remplacer le point de terminaison public du modèle ML Factures (Invoices) que nous avons initialement ajouté à l'extracteur d'apprentissage automatique dans notre workflow par le point de terminaison public de la compétence ML.
Exécutez le workflow et vous devriez voir le champ IBAN nouvellement ajouté être extrait avec les champs de factures par défaut.

Téléchargez l'exemple

Téléchargez cet exemple de projet à l'aide de ce lien. Vous devez modifier l'extracteur d'apprentissage automatique pour les factures du mode point de terminaison à votre compétence ML entraînée.

Sommaire de la page