- Vue d'ensemble (Overview)
- Démarrage
- Activités (Activities)
- Tableaux de bord Insights.
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Extraction des données depuis des reçus
- Factures réentraînées avec un champ supplémentaire
- Extraire des données depuis des formulaires
- Créer une nouvelle automatisation à partir d’un fichier
- Composants de l'infrastructure
- Vue d'ensemble (Overview)
- Activités Document Understanding
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- Intelligent Keyword Classifier
- Keyword Based Classifier
- Machine Learning Classifier
- Classifieur génératif
- Activités liées à la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Vue d’ensemble de l'entraînement de la classification des documents
- Activités liées à l'entraînement de la classification des documents
- Machine Learning Classifier Trainer
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Vue d’ensemble de l’extraction des données
- Activités liées à l'extraction de données
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- Regex Based Extractor
- Consommation de données
- Appels API
- Paquets ML
- Vue d'ensemble (Overview)
- Paquets ML - Document Understanding
- Classifieur de documents - Paquet ML
- Paquets ML avec capacités OCR
- 1040 - Paquet ML
- Annexe C du formulaire 1040 Planification C - Paquet ML
- 1040 Planification D - Paquet ML
- Annexe E du formulaire 1040 - Paquet ML
- Paquet ML - 1040x
- Paquet ML 3949a
- 4506T - Paquet ML
- Paquet ML 709
- Paquet ML 941x
- Paquet ML 9465
- ACORD131 - Paquet ML
- ACORD140 - Paquet ML
- ACORD25 - Paquet ML
- États financiers - Paquet ML
- Connaissement - Paquet ML
- Paquet ML - Certificat de constitution
- Paquet ML - Certificat d'origine
- Chèques - Paquet ML
- Paquet ML - Certificat de produit pour enfants
- CMS1500 - Paquet ML
- Paquet ML - Déclaration de conformité de l’UE
- États financiers - Paquet ML
- FM1003 - Paquet ML
- I9 - Paquet ML
- Cartes d’identité - Paquet ML
- Factures - Paquet ML
- FacturesAustralie - Paquet ML
- FacturesChine - Paquet ML
- Paquet ML - Factures hébreu
- FacturesInde - Paquet ML
- FacturesJapon - Paquet ML
- Paquet ML - Livraison des factures
- Listes de colisage - Paquet ML
- Fiches de paie - Paquet ML
- Passeports - Paquet ML
- Bons de commande - Paquet ML
- Reçus - Paquet ML
- RemittanceAdvices - Paquet ML
- Formulaire UB04 - Paquet ML
- Factures de services publics - Paquet ML
- Titres de véhicule - Paquet ML
- W2 - Paquet ML
- W9 - Paquet ML
- Autres paquets ML prêts à l’emploi
- Points de terminaison publics
- Limitations du trafic
- Configuration OCR
- Pipelines
- Services OCR
- Langues prises en charge
- Apprentissage profond
- Licences
Guide de l'utilisateur de Document Understanding
Factures réentraînées avec un champ supplémentaire
Le but de cette page est d'aider les nouveaux utilisateurs à se familiariser avec Document UnderstandingTM.
Pour les déploiements de production évolutifs, nous vous recommandons vivement d’utiliser le Processus Document Understanding disponible dans la section Modèles d’ UiPath® Studio.
Ce guide de démarrage rapide vous montre comment recycler le modèle ML prêt à l'emploi de Factures (Invoices) pour extraire un champ supplémentaire.
Utilisons le même workflow que nous avons utilisé pour les reçus dans le démarrage rapide précédent et modifions-le afin qu'il puisse prendre en charge les factures.
Pour ce faire, nous devons effectuer les étapes suivantes dans notre workflow :
- Modifier la taxonomie
- Ajouter un classifieur
- Ajouter un extracteur d'apprentissage automatique
- Labelliser les données
- Réentraîner le modèle Invoices ML
Voyons maintenant chaque étape en détail.
Dans cette étape, nous devons modifier la taxonomie pour ajouter le type de document de facture.
Ouvrez Taxonomy Manager et créez un groupe nommé Documents semi-structurés, une catégorie nommée Financeet un type de document nommé Factures. Créez les champs listés ci-dessus avec des noms conviviaux ainsi que les types de données respectifs.
- nom -
Text
- adresse-fournisseur -
Address
- nom-facturation -
Text
- adresse-facturation -
Address
- adresse-livraison -
Address
- facture-no -
Text
- po-non -
Text
- fournisseur-tva-no -
Text
- date -
Date
- taxe -
Number
- total -
Number
- conditions-paiement -
Text
- montant-net -
Number
- date-d'échéance -
Date
- remise -
Number
- frais-d'expédition -
Number
- adresse-paiement -
Address
- description -
Text
- éléments -
Table
- description -
Text
- quantité -
Number
- prix unitaire –
Number
- montant-ligne -
Number
- élément-po-no -
Text
- ligne-no -
Text
- part-no -
Text
- nom-facturation -
Text
- description -
Lors de cette étape, nous devons ajouter un classifieur afin de pouvoir traiter à la fois les reçus et les factures avec notre workflow.
Étant donné que notre workflow prend désormais en charge deux types de documents, Reçus et Factures, nous devons ajouter le classifieur pour différencier les différents types de documents entrant en entrée :
- Ajoutez Classer l'étendue du document (Classify Document Scope) après l'activité Numériser le document (Digitize Document) et fournissez DocumentPath, DocumentText, DocumentObjectModel et Taxonomie (Taxonomy) comme arguments d'entrée et capturez les ClassificationResults dans une nouvelle variable. Nous avons besoin de cette variable pour vérifier quel(s) document(s) nous traitons.
- Nous devons également spécifier un ou plusieurs classifieurs. Dans cet exemple, nous utilisons le Classifieur de mots clés intelligents (Intelligent Keyword Classifier). Ajoutez-le à l'activité Classer l'étendue du document (Classify Document Scope).
Cette page vous aide à prendre une décision éclairée sur la méthode de classification à utiliser dans différents scénarios.
- Entraînez le classifieur comme décrit ici.
- Configurez le classifieur en l'activant pour les deux types de documents.
- Selon votre cas d'utilisation, vous souhaiterez peut-être valider la classification. Vous pouvez le faire à l'aide de la Station de classification actuelle (Present Classification Station) ou des activités Créer une action de classification de document (Create Document Classification Action) et Attendre une action de classification de document et reprendre (Wait For Document Classification Action And Resume).
Dans cette étape, nous devons ajouter un extracteur d'apprentissage automatique à l'activité Data Extraction Scope et le connecter au point de terminaison public Factures (Invoices).
La procédure est exactement la même que pour le précédent extracteur d'apprentissage automatique des reçus que nous avons ajouté auparavant :
- Ajoutez une activité extracteur d'apprentissage automatique (Machine Learning Extractor) à côté des reçus extracteur d'apprentissage automatique (Receipts Machine Learning Extractor).
- Fournissez le point de terminaison public Factures (Invoices), à savoir
https://du.uipath.com/ie/invoices
, et une clé API pour l’extracteur. - Configurez l'extracteur pour qu'il fonctionne avec les factures en mappant les champs créés dans le Taxonomy Manager aux champs disponibles dans le modèle ML :
- N'oubliez pas d'utiliser la variable ClassificationResults générée par Classer la portée du document (Classify Document Scope) comme entrée de Étendue de l'extraction de données (Data Extraction Scope), au lieu de spécifier un IDTypeDocument.
Vous devriez vous retrouver avec quelque chose comme ça :
- Exécutez le workflow pour tester qu'il fonctionne correctement avec les factures.
Nous devons labelliser les données avant de réentrainer le modèle Factures (Invoices) ML de base afin qu'il prenne en charge le nouveau champ IBAN.
- Rassemblez les exigences et les exemples de documents de facturation en volume suffisant pour la complexité du cas d'utilisation que vous devez résoudre. Labellisez 50 pages, comme expliqué sur cette page de documentation.
- Accédez à une instance de Data Manager en local ou dans AI Center dans le Cloud. Assurez-vous que vous disposez des autorisations nécessaires pour utiliser Data Manager.
- Créez un projet AI Center et accédez à Labellisation des données (Data Labeling) > UiPath Document Understanding et créez une session Labellisation des données (Data Labeling).
- Configurez un moteur OCR comme décrit ici, essayez d'importer un ensemble diversifié de vos documents de production et assurez-vous que le moteur OCR lit le texte que vous devez extraire.
Plus de suggestions dans cette section. Ne passez à l'étape suivante qu'après avoir choisi un moteur OCR.
- Créez une nouvelle session Data Manager et importez un ensemble d'entraînement et un ensemble d'évaluation, tout en veillant à cocher la case Faites-en un ensemble de test (Make this a Test set) lors de l'importation de l'ensemble d'évaluation. Plus de détails sur les importations ici.
- Créez et configurez le champ IBAN comme décrit ici. Des directives plus avancées sont disponibles dans cette section.
- Labellisez un ensemble de données d'entraînement et un ensemble de données d'évaluation comme décrit ici. La fonction de prébalisage de Data Manager décrite ici peut rendre le travail de labellisation beaucoup plus facile.
- Exportez d'abord l'ensemble d'évaluation, puis l'ensemble d'entraînement vers AI Center en les sélectionnant dans la liste déroulante des filtres en haut de la vue du Data Manager. Vous trouverez plus de détails sur l'export ici.
Ensuite, créons notre modèle, ré-entraînons-le et déployons-le.
Maintenant que notre flux de travail prend en charge le traitement des factures, nous devons extraire l'IBAN de nos factures, qui est un champ qui n'est pas récupéré par défaut par le modèle Factures (Invoices) ML prêt à l'emploi. Cela signifie que nous devons recycler un nouveau modèle, en commençant par celui de base.
- Créez un paquet ML comme décrit ici. Si votre type de document est différent de ceux disponibles prêts à l'emploi, choisissez le paquet ML DocumentUnderstanding. Sinon, utilisez le package le plus proche du type de document que vous devez extraire.
- Créez un pipeline d'entraînement comme décrit ici à l'aide de l'ensemble de données d'entrée que vous avez exporté dans la section précédente à partir du Data Manager.
-
Lorsque l'entraînement est terminé et que vous disposez de la version mineure 1 du package, exécutez un pipeline d'évaluation sur cette version mineure et inspectez la comparaison côte à côte evaluation.xlsx. Utilisez les directives détaillées ici.
- Si les résultats de l'évaluation sont satisfaisants, affichez compétences ML et créez une compétence ML à l'aide de la nouvelle version mineure du paquet ML. Si vous souhaitez l'utiliser pour effectuer un prébalisage dans Data Manager, vous devez cliquer sur le bouton Modifier le déploiement actuel (Modify Current Deployment) en haut à droite de la vue ML Skill et basculer sur Rendre publique la compétence ML (Make ML Skill Public).
- Après avoir créé la compétence ML, nous devons maintenant l'utiliser dans Studio. Pour ce faire, le moyen le plus simple consiste à rendre la compétence ML publique, comme décrit ici. Ensuite, il ne reste plus qu'à remplacer le point de terminaison public du modèle ML Factures (Invoices) que nous avons initialement ajouté à l'extracteur d'apprentissage automatique dans notre workflow par le point de terminaison public de la compétence ML.
- Exécutez le workflow et vous devriez voir le champ IBAN nouvellement ajouté être extrait avec les champs de factures par défaut.
Téléchargez cet exemple de projet à l'aide de ce lien. Vous devez modifier l'extracteur d'apprentissage automatique pour les factures du mode point de terminaison à votre compétence ML entraînée.