- Vue d'ensemble (Overview)
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Composants de l'infrastructure
- Présentation de la taxonomie
- Gestionnaire de taxonomie
- Activités liées à la taxonomie
- Vue d’ensemble de l'entraînement de la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Machine Learning Classifier Trainer
- Activités liées à l'entraînement de la classification des documents
- Paquets ML
- Pipelines
- Document Manager
- Services OCR
- Document Understanding déployé dans Automation Suite
- Document Understanding déployé dans une version AI Center autonome
- Apprentissage profond
- Licences
- Référence (Reference)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Présentation de la taxonomie
La taxonomie correspond aux métadonnées que l'infrastructure Document Understanding prend en compte à chacune de ses étapes.
-
La taxonomie rassemble plusieurs types de documents.
-
Un type de document est un type logique de document qui doit être géré par différents processus métier. Voici quelques exemples de types de documents : factures, dossiers médicaux, formulaires IRS W-2, contrats, etc. Les types de document, en plus de comprendre un nom, un groupe et une catégorie (pour en simplifier la manipulation), contiennent généralement une collection de champs.
- Le champ est une information qui, normalement, peut être trouvée et capturée à partir d'un type de document spécifique.
-
Comme vu ci-dessus, la taxonomie est une structure hiérarchique qui contient le schéma des informations que l'infrastructure Document Understanding utilisera tout au long. Chaque définition d'entité (pour les types de documents ou les champs) trouvée dans la taxonomie a un ID unique.
Si vous souhaitez classer les fichiers entrants dans différents types de documents, la taxonomie doit contenir les types de documents que vous souhaitez traiter spécifiquement. Ceux-ci vous permettront de configurer vos processus Document Understanding sur la base d'un schéma de données uniforme : la structure de votre taxonomie.
Si vous souhaitez extraire des données de certains types de documents, la taxonomie contiendra la liste des champs que vous ciblez aux fins de l'extraction automatique des données. Ceux-ci permettront la configuration de diverses méthodes et règles d'extraction basées ici aussi sur un seul schéma de données centralisé : la structure de votre type de document.
Un champ peut comporter des parties dérivées : des informations formatées extraites ou modifiées à partir de la valeur textuelle sous-jacente trouvée dans un document.
Type de champ |
Autorise les valeurs multiples |
Objectif |
Pièces dérivées aux fins du formatage |
Informations supplémentaires |
---|---|---|---|---|
Texte |
Oui (Yes) |
Informations textuelles |
S/O |
S/O |
Numérique |
Oui (Yes) |
Valeurs numériques |
Valeur (Value) |
S/O |
Date |
Oui (Yes) |
Dates |
|
Les champs de date permettent la définition d’un format attendu, qui doit être une chaîne de format de date compatible MSDN (par exemple,
dd-MM-yyyy ou MM, dd, yyyy ).
Ce format est utilisé par l’activité Étendue de l’extraction de données (Data Extraction Scope) lors de la tentative d’analyse d’une date en ses parties constitutives Jour (en ses parties constitutives jour, mois et année. |
Nom |
Oui (Yes) |
Nom de personnes |
|
S/O |
Address |
Oui (Yes) |
Adresses |
|
S/O |
Ensemble |
Oui (Yes) |
Définir une liste de valeurs possibles à partir d'un ensemble prédéfini |
S/O |
Un champ Ensemble doit définir les options autorisées en tant que valeurs. Celles-ci sont reflétées dans la Station de validation. |
Booléen |
Oui (Yes) |
Valeurs Oui/Non |
S/O |
Un champ Booléen (Boolean) peut uniquement avoir Oui (Yes) ou Non (No) comme valeurs possibles, et est reflété dans la Station de validation. |
Table |
Non (No) |
Données tabulaires |
S/O |
Un champ Table (Table) contient la définition des colonnes. |
Colonne de table |
Non (No) |
Chaque cellule de la table. |
S/O |
Les colonnes de table du champ Table (Table) sont définies comme l'un des champs standard dans la liste de composants. Elle ne peut pas être de type Table (Table). |
und
) pour prendre en charge les cas exceptionnels.
DocumentTaxonomy
, la méthode Serialize()
renvoie une représentation JSON
de l'objet, afin de la stocker et de la récupérer pour une utilisation ultérieure.
DocumentTaxonomy.Deserialize(jsonString)
renvoie un objet DocumentTaxonomy
, hydraté avec les données encodées JSON transmises en tant que paramètre.
Une fois le package UiPath.IntelligentOCR.Activities installé dans votre projet dans UiPath Studio, un bouton Taxonomy Manager apparaît dans le ruban principal de l'onglet Conception (Design) de Studio. Utilisez l'assistant Taxonomy Manager pour modifier la taxonomie de votre projet.
taxonomy.json
.
Le fichier est automatiquement créé lorsque vous ouvrez pour la première fois l'assistant Taxonomy Manager. L'emplacement exact du fichier se trouve dans Taxonomy Manager en survolant le bouton . Chaque fois que vous ouvrez Taxonomy Manager, un message contextuel apparaît dans le coin supérieur droit vous indiquant l'emplacement du fichier. Lorsqu'un projet est publié à partir de Studio, la taxonomie sera publiée ainsi qu'un artefact du projet.
taxonomy.json
est unique à chaque projet, mais il peut être réutilisé si vous le copiez manuellement dans un nouveau projet. Pour cela, il vous suffit de créer un nouveau projet, puis d'aller dans le dossier du projet et de copier le fichier avec la taxonomie de votre choix au bon endroit (dans le dossier DocumentProcessing).
La taxonomie de Document Understanding est requise en tant qu'objet dans le cadre de l'infrastructure Document Understanding.
Le moyen le plus simple et le plus pratique de charger votre objet consiste à utiliser l'activité Charger la taxonomie (Load Taxonomy). Une fois votre objet de taxonomie chargé, vous pouvez l'utiliser dans tous les composants d'infrastructure ultérieurs qui le nécessitent.
-
Si vous choisissez de stocker votre taxonomie dans un autre emplacement, vous pouvez toujours la charger dans votre projet (une fois que vous avez obtenu le contenu de chaîne du fichier de taxonomie, disons dans une
myTaxonomyContentString
), en utilisant une simple activité Affecter (Assign), comme suit :myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)
- Si votre cas d'utilisation l'exige, rappelez-vous que la taxonomie est un POCO (plain old class object) qui, si nécessaire, peut être modifié même au moment de l'exécution.
- Qu'est-ce qu'une taxonomie
- Comment cela contribue-t-il à la classification des documents ?
- Comment cela contribue-t-il à l'extraction de données ?
- Types de champs et détails
- Autres informations capturées dans la taxonomie
- Méthodes d'extension de la taxonomie
- Serialize()
- Deserialize(String)
- GetFields(String)
- Comment créer et modifier la taxonomie de votre projet
- Comment utiliser votre taxonomie dans votre projet
- Cas d'utilisation avancés