- Vue d'ensemble (Overview)
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Extraction des données depuis des reçus
- Factures réentraînées avec un champ supplémentaire
- Extraire des données depuis des formulaires
- Composants de l'infrastructure
- Vue d'ensemble (Overview)
- Activités Document Understanding
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- Intelligent Keyword Classifier
- Keyword Based Classifier
- Machine Learning Classifier
- Classifieur génératif
- Activités liées à la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Vue d’ensemble de l'entraînement de la classification des documents
- Activités liées à l'entraînement de la classification des documents
- Machine Learning Classifier Trainer
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Vue d’ensemble de l’extraction des données
- Activités liées à l'extraction de données
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- Regex Based Extractor
- Consommation de données
- Appels API
- Paquets ML
- Vue d'ensemble (Overview)
- Paquets ML - Document Understanding
- Classifieur de documents - Paquet ML
- Paquets ML avec capacités OCR
- 1040 - Paquet ML
- Annexe C du formulaire 1040 Planification C - Paquet ML
- 1040 Planification D - Paquet ML
- Annexe E du formulaire 1040 - Paquet ML
- Paquet ML - 1040x
- Paquet ML 3949a
- 4506T - Paquet ML
- Paquet ML 709
- Paquet ML 941x
- Paquet ML 9465
- 990 - Paquet ML - Aperçu
- ACORD125 - Paquet ML
- ACORD126 - Paquet ML
- ACORD131 - Paquet ML
- ACORD140 - Paquet ML
- ACORD25 - Paquet ML
- États financiers - Paquet ML
- Connaissement - Paquet ML
- Paquet ML - Certificat de constitution
- Paquet ML - Certificat d'origine
- Chèques - Paquet ML
- Paquet ML - Certificat de produit pour enfants
- CMS1500 - Paquet ML
- Paquet ML - Déclaration de conformité de l’UE
- États financiers - Paquet ML
- FM1003 - Paquet ML
- I9 - Paquet ML
- Cartes d’identité - Paquet ML
- Factures - Paquet ML
- FacturesChine - Paquet ML
- Paquet ML - Factures hébreu
- FacturesInde - Paquet ML
- FacturesJapon - Paquet ML
- Paquet ML - Livraison des factures
- Listes de colisage - Paquet ML
- Passeports - Paquet ML
- Fiches de paie - Paquet ML
- Bons de commande - Paquet ML
- Reçus – Paquet ML
- RemittanceAdvices - Paquet ML
- Formulaire UB04 - Paquet ML
- Factures de services publics - Paquet ML
- Titres de véhicule - Paquet ML
- W2 - Paquet ML
- W9 - Paquet ML
- Autres paquets ML prêts à l’emploi
- Points de terminaison publics
- Prérequis matériels
- Pipelines
- Document Manager
- Services OCR
- Langues prises en charge
- Apprentissage profond
- Tableaux de bord Insights.
- Document Understanding déployé dans Automation Suite
- Document Understanding déployé dans une version AI Center autonome
- Licences
- Activités
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Guide de l'utilisateur de Document Understanding
Factures réentraînées avec un champ supplémentaire
The aim of this page is to help first time users get familiar with Document UnderstandingTM.
For scalable production deployments, we strongly recommend using the Document Understanding Process available in UiPath® Studio under the Templates section.
Ce guide de démarrage rapide vous montre comment recycler le modèle ML prêt à l'emploi de Factures (Invoices) pour extraire un champ supplémentaire.
Let’s use the same workflow we used for the receipts in the previous quickstart and modify it so it can support invoices.
Pour ce faire, nous devons effectuer les étapes suivantes dans notre workflow :
- Modifier la taxonomie
- Ajouter un classifieur
- Ajouter un extracteur d'apprentissage automatique
- Labelliser les données
- Réentraîner le modèle Invoices ML
1. Modifier la taxonomie
Dans cette étape, nous devons modifier la taxonomie pour ajouter le type de document de facture.
To do so, open Taxonomy Manager and create group named Semi Structured Documents, a category named Finance, a document type named Invoices. Create the listed fields with user friendly names along with respective data types.
- nom -
Text - adresse-fournisseur -
Address - nom-facturation -
Text - adresse-facturation -
Address - adresse-livraison -
Address - facture-no -
Text - po-non -
Text - fournisseur-tva-no -
Text - date -
Date - taxe -
Number - total -
Number - conditions-paiement -
Text - montant-net -
Number - date-d'échéance -
Date - remise -
Number - frais-d'expédition -
Number - adresse-paiement -
Address - description -
Text - éléments -
Table- description -
Text - quantité -
Number - prix unitaire –
Number - montant-ligne -
Number - élément-po-no -
Text - ligne-no -
Text - part-no -
Text - nom-facturation -
Text
- description -
2. Ajouter un classifieur
Lors de cette étape, nous devons ajouter un classifieur afin de pouvoir traiter à la fois les reçus et les factures avec notre workflow.
Since our workflow now supports two document types, Receipts and Invoices, we need to add the classifier to differentiate between different document types coming in as input:
- Add a Classify Document Scope after the Digitize Document activity and provide the DocumentPath, DocumentText, DocumentObjectModel, and Taxonomy as input arguments and capture the ClassificationResults in a new variable. We need this variable to check what document(s) we are processing.
- We also need to specify one or more classifiers. In this example, we are using the Intelligent Keyword Classifier. Add it to the Classify Document Scope activity. This page helps you take an educated decision on what classification method you should use in different scenarios.
- Train the classifier as described here.
- Configurez le classifieur en l'activant pour les deux types de documents.
- Depending on your usecase, you might want to validate the classification. You can do that using the Present Classification Station or the Create Document Classification Action and Wait For Document Classification Action And Resume activities.
3. Ajouter un extracteur d'apprentissage automatique
In this step, we need to add a Machine Learning Extractor to the Data Extraction Scope activity and connect it to the Invoices public endpoint.
La procédure est exactement la même que pour le précédent extracteur d'apprentissage automatique des reçus que nous avons ajouté auparavant :
-
Ajoutez une activité extracteur d'apprentissage automatique (Machine Learning Extractor) à côté des reçus extracteur d'apprentissage automatique (Receipts Machine Learning Extractor).
-
Provide the Invoices public endpoint, namely
https://du.uipath.com/ie/invoices, and an API key to the extractor. -
Configurez l'extracteur pour qu'il fonctionne avec les factures en mappant les champs créés dans le Taxonomy Manager aux champs disponibles dans le modèle ML :

-
Do not forget to use the ClassificationResults variable outputted by the Classify Document Scope as input to the Data Extraction Scope, instead of specifying a DocumentTypeId. You should end up with something like this:

-
Exécutez le workflow pour tester qu'il fonctionne correctement avec les factures.
4. Labelliser les données
Nous devons labelliser les données avant de réentrainer le modèle Factures (Invoices) ML de base afin qu'il prenne en charge le nouveau champ IBAN.
- Collect the requirements and sample invoice documents in sufficient volume for the complexity of the usecase you need to solve. Label 50 pages, as explained on this documentation page.
- Gain access to an instance of Document Manager either on premises or in AI Center in the Cloud. Make sure you have the permissions to use Document Manager.
- Créez un projet AI Center et accédez à Labellisation des données (Data Labeling) > UiPath Document Understanding et créez une session Labellisation des données (Data Labeling).
- Configure an OCR Engine as described here, try importing a diverse set of your production documents and make sure that the OCR engine reads the text you need to extract. More suggestions in this section. Only proceed to next step after you have settled on a OCR engine.
- Create a fresh Document Manager session, and import a Training set and an Evaluation set, while making sure to check the Make this a Test set checkbox when importing the Evaluation set. More details about imports here.
- Create and configure the IBAN field as described here. More advanced guidelines are available in this section.
- Label a Training dataset and an Evaluation dataset as described here. The prelabeling feature of Document Manager described here can make the labeling work a lot easier.
- Export first the Evaluation set and then the Training set to AI Center by selecting them from the filter dropdown at the top of the Document Manager view. More details about exports here.
Ensuite, créons notre modèle, ré-entraînons-le et déployons-le.
5. Réentraîner le modèle ML Factures
Maintenant que notre flux de travail prend en charge le traitement des factures, nous devons extraire l'IBAN de nos factures, qui est un champ qui n'est pas récupéré par défaut par le modèle Factures (Invoices) ML prêt à l'emploi. Cela signifie que nous devons recycler un nouveau modèle, en commençant par celui de base.
- Create an ML Package as described here. If your document type is different from the ones available out-of-the-box, then choose the DocumentUnderstanding ML Package. Otherwise, use the package closest to the document type you need to extract.
- Create a Training Pipeline as described here using the Input dataset which you exported in the previous section from Document Manager.
- When the training is done and you have package minor version 1, run an Evaluation Pipeline on this minor version and inspect the evaluation.xlsx side by side comparison. Use the detailed guidelines here.
- If the evaluation results are satisfactory, go to the ML Skills view and create an ML Skill using the new minor version of the ML Package. If you want to use this to do prelabeling in Document Manager, you need to select the Modify Current Deployment button at the top right of the ML Skill view and toggle on the Make ML Skill Public.
- After creating the ML skill, we now need to consume it in Studio. The easiest way to do that is to make the ML Skill public as described here. Then, the only thing left to do is simply replace the Invoices ML model public endpoint that we’ve initially added to the Machine Learning Extractor in our workflow with the public endpoint of the ML Skill.
- Exécutez le workflow et vous devriez observer que le champ IBAN nouvellement ajouté est extrait avec les champs de factures par défaut.
Téléchargez l'exemple
Download this sample project using this link. You need to change the Machine Learning Extractor for Invoices from Endpoint mode to your trained ML Skill.