- Vue d'ensemble (Overview)
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Composants de l'infrastructure
- Vue d'ensemble (Overview)
- Activités Document Understanding
- Présentation de la taxonomie
- Gestionnaire de taxonomie
- Activités liées à la taxonomie
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- Intelligent Keyword Classifier
- Keyword Based Classifier
- Machine Learning Classifier
- Classifieur génératif
- Activités liées à la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Vue d’ensemble de l'entraînement de la classification des documents
- Activités liées à l'entraînement de la classification des documents
- Machine Learning Classifier Trainer
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Vue d’ensemble de l’extraction des données
- Activités liées à l'extraction de données
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- Regex Based Extractor
- Consommation de données
- Appels API
- Paquets ML
- Vue d'ensemble (Overview)
- Paquets ML - Document Understanding
- Classifieur de documents - Paquet ML
- Paquets ML avec capacités OCR
- 1040 - Paquet ML
- Annexe C du formulaire 1040 Planification C - Paquet ML
- 1040 Planification D - Paquet ML
- Annexe E du formulaire 1040 - Paquet ML
- Paquet ML - 1040x
- Paquet ML 3949a
- 4506T - Paquet ML
- Paquet ML 709
- Paquet ML 941x
- Paquet ML 9465
- 990 - Paquet ML - Aperçu
- ACORD125 - Paquet ML
- ACORD126 - Paquet ML
- ACORD131 - Paquet ML
- ACORD140 - Paquet ML
- ACORD25 - Paquet ML
- États financiers - Paquet ML
- Connaissement - Paquet ML
- Paquet ML - Certificat de constitution
- Paquet ML - Certificat d'origine
- Chèques - Paquet ML
- Paquet ML - Certificat de produit pour enfants
- CMS1500 - Paquet ML
- Paquet ML - Déclaration de conformité de l’UE
- États financiers - Paquet ML
- FM1003 - Paquet ML
- I9 - Paquet ML
- Cartes d’identité - Paquet ML
- Factures - Paquet ML
- FacturesChine - Paquet ML
- Paquet ML - Factures hébreu
- FacturesInde - Paquet ML
- FacturesJapon - Paquet ML
- Paquet ML - Livraison des factures
- Listes de colisage - Paquet ML
- Passeports - Paquet ML
- Fiches de paie - Paquet ML
- Bons de commande - Paquet ML
- Reçus – Paquet ML
- RemittanceAdvices - Paquet ML
- Formulaire UB04 - Paquet ML
- Factures de services publics - Paquet ML
- Titres de véhicule - Paquet ML
- W2 - Paquet ML
- W9 - Paquet ML
- Autres paquets ML prêts à l’emploi
- Points de terminaison publics
- Prérequis matériels
- Pipelines
- Document Manager
- Services OCR
- Langues prises en charge
- Apprentissage profond
- Tableaux de bord Insights.
- Document Understanding déployé dans Automation Suite
- Document Understanding déployé dans une version AI Center autonome
- Licences
- Activités
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding user guide
Présentation de la taxonomie
Qu'est-ce qu'une taxonomie
The Taxonomy is the metadata that the Document UnderstandingTM framework considers in each of its steps.
- La taxonomie rassemble plusieurs types de documents.
- Un type de document est un type logique de document qui doit être géré par différents processus métier. Voici quelques exemples de types de documents : factures, dossiers médicaux, formulaires IRS W-2, contrats, etc. Les types de document, en plus de comprendre un nom, un groupe et une catégorie (pour en simplifier la manipulation), contiennent généralement une collection de champs.
- Le champ est une information qui, normalement, peut être trouvée et capturée à partir d'un type de document spécifique.
Une taxonomie est une structure hiérarchique qui contient le schéma des informations que l'infrastructure Document Understanding utilisera tout au long du processus. Chaque définition d'entité (des types de documents ou des champs) trouvée dans la taxonomie possède un ID unique.
Comment cela contribue-t-il à la classification des documents ?
Si vous souhaitez classer les fichiers entrants dans différents types de documents, la taxonomie doit contenir les types de documents que vous souhaitez traiter spécifiquement. Ceux-ci vous permettront de configurer vos processus Document Understanding sur la base d'un schéma de données uniforme : la structure de votre taxonomie.
Comment cela contribue-t-il à l'extraction de données ?
Si vous souhaitez extraire des données de certains types de documents, la taxonomie contiendra la liste des champs que vous ciblez aux fins de l'extraction automatique des données. Ceux-ci permettront la configuration de diverses méthodes et règles d'extraction basées ici aussi sur un seul schéma de données centralisé : la structure de votre type de document.
Types de champs et détails
Un champ peut comporter des parties dérivées : des informations formatées extraites ou modifiées à partir de la valeur textuelle sous-jacente trouvée dans un document.
| Type de champ | Autorise les valeurs multiples | Objectif | Pièces dérivées aux fins du formatage | Informations supplémentaires |
|---|---|---|---|---|
| Texte | Oui (Yes) | Informations textuelles | S/O | S/O |
| Numérique | Oui (Yes) | Valeurs numériques |
| S/O |
| Date | Oui (Yes) | Dates |
| Date fields allow for the definition of an Expected Format , which must be an MSDN-compliant date format string (for example, dd-MM-yyyy or MM, dd, yyyy ). Ce format est utilisé par l’activité Étendue de l’extraction de données (Data Extraction Scope) lors de la tentative d’analyse d’une date en ses parties constitutives Jour (en ses parties constitutives jour, mois et année. |
| Nom | Oui (Yes) | Nom de personnes |
| S/O |
| Address | Oui (Yes) | Adresses |
| S/O |
| Ensemble | Oui (Yes) | Définir une liste de valeurs possibles à partir d'un ensemble prédéfini | S/O | Un champ Ensemble doit définir les options autorisées en tant que valeurs. Celles-ci sont reflétées dans la Station de validation. |
| Booléen | Oui (Yes) | Valeurs Oui/Non | S/O | Un champ Booléen (Boolean) peut uniquement avoir Oui (Yes) ou Non (No) comme valeurs possibles, et est reflété dans la Station de validation. |
| Table | Non (No) | Données tabulaires | S/O | Un champ Table (Table) contient la définition des colonnes. |
| Colonne de table | Non (No) | Chaque cellule de la table. | S/O | Les colonnes de table du champ Table (Table) sont définies comme l'un des champs standard dans la liste de composants. Elle ne peut pas être de type Table (Table). |
Exceptions
You can define default Report as Exception reasons at the taxonomy level. These predefined reasons appear in Validation Station when a business user reports a document as an exception.
Cela permet aux utilisateurs métier de marquer des documents comme des exceptions en fonction de raisons prédéfinies (les raisons d’exception qui sont définies dans Taxonomy Manager).
Par exemple, un utilisateur peut attendre une facture, mais recevoir un enregistrement médical, attendre un document en coréen, mais en recevoir un en russe, ou attendre un document lisible, mais en recevoir un de très mauvaise qualité.
Les raisons que vous définissez s’affichent dans une liste déroulante à partir de laquelle l’utilisateur peut sélectionner l’option la plus appropriée.En fonction du raison sélectionnée, la reprise de l'automatisation peut être configurée pour déterminer le chemin de traitement à utiliser ensuite.
Autres informations capturées dans la taxonomie
La taxonomie contient également la liste de groupes et de catégories, ainsi qu'une collection de langues prises en charge pouvant être associées aux documents traités. Par exemple, pour traiter les documents en japonais et en anglais, la balise Langues prises en charge (Supported Languages) doit contenir leur nom complet et code langue correspondants. Il est recommandé d'ajouter une Langue indéterminée (Undetermined Language) (code und) pour la prise en charge des cas exceptionnels.
Méthodes d'extension de la taxonomie
Serialize()
Appelée dans un objet DocumentTaxonomy, la méthode Serialize() renvoie une représentation JSON de l'objet, afin de la stocker et de la récupérer pour une utilisation ultérieure.
Deserialize(String)
L'extension statique DocumentTaxonomy.Deserialize(jsonString) renvoie un objet DocumentTaxonomy, hydraté avec les données encodées JSON transmises en tant que paramètre.
GetFields(String)
Called on a DocumentTaxonomy object, the GetFields() method called with a DocumentTypeId string returns a list of fields defined within that document type.
Comment créer et modifier la taxonomie de votre projet
Once the UiPath.IntelligentOCR.Activities package is installed in your project in UiPath® Studio, a Taxonomy Manager button appears in the main ribbon of Studio's Design tab. Use the Taxonomy Manager wizard to edit your project taxonomy.
La taxonomie est stockée dans un fichier au sein de votre projet UiPath Studio dans le dossier DocumentProcessing et dans le fichier taxonomy.json.
The file is automatically created when you first open the Taxonomy Manager wizard. You can check the exact location of the file in the Taxonomy Manager, by hovering over the
button. Alternatively, each time you open the Taxonomy Manager, a pop-up message will appear in the upper right corner, informing you of the location of the file. When a project is published from Studio, the taxonomy will be published as well as an artifact of the project.
Le taxonomy.json est unique à chaque projet, mais il peut être réutilisé si vous le copiez manuellement dans un nouveau projet. Pour cela, il vous suffit de créer un nouveau projet, puis d'aller dans le dossier du projet et de copier le fichier avec la taxonomie de votre choix au bon endroit (dans le dossier DocumentProcessing).
For data integrity purposes, we recommend you always edit the taxonomy using Taxonomy Manager.
Comment utiliser votre taxonomie dans votre projet
La taxonomie de Document Understanding est requise en tant qu'objet dans le cadre de l'infrastructure Document Understanding.
The simplest and most convenient way to load your object is by using the Load Taxonomy activity. Once your taxonomy object is loaded, you can use it in all subsequent framework components requiring it.
Cas d'utilisation avancés
-
Si vous choisissez de stocker votre taxonomie dans un autre emplacement, vous pouvez toujours la charger dans votre projet (une fois que vous avez obtenu le contenu de chaîne du fichier de taxonomie, disons dans une
myTaxonomyContentString), en utilisant une simple activité Affecter (Assign), comme suit :myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString) -
Si votre cas d'utilisation l'exige, rappelez-vous que la taxonomie est un POCO (plain old class object) qui, si nécessaire, peut être modifié même au moment de l'exécution.
- Qu'est-ce qu'une taxonomie
- Comment cela contribue-t-il à la classification des documents ?
- Comment cela contribue-t-il à l'extraction de données ?
- Types de champs et détails
- Exceptions
- Autres informations capturées dans la taxonomie
- Méthodes d'extension de la taxonomie
- Serialize()
- Deserialize(String)
- GetFields(String)
- Comment créer et modifier la taxonomie de votre projet
- Comment utiliser votre taxonomie dans votre projet
- Cas d'utilisation avancés