- Vue d'ensemble (Overview)
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Composants de l'infrastructure
- Vue d'ensemble (Overview)
- Activités Document Understanding
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- Intelligent Keyword Classifier
- Keyword Based Classifier
- Machine Learning Classifier
- Classifieur génératif
- Activités liées à la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Vue d’ensemble de l'entraînement de la classification des documents
- Activités liées à l'entraînement de la classification des documents
- Machine Learning Classifier Trainer
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Vue d’ensemble de l’extraction des données
- Activités liées à l'extraction de données
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- Regex Based Extractor
- Consommation de données
- Appels API
- Paquets ML
- Vue d'ensemble (Overview)
- Paquets ML - Document Understanding
- Classifieur de documents - Paquet ML
- Paquets ML avec capacités OCR
- 1040 - Paquet ML
- Annexe C du formulaire 1040 Planification C - Paquet ML
- 1040 Planification D - Paquet ML
- Annexe E du formulaire 1040 - Paquet ML
- Paquet ML - 1040x
- Paquet ML 3949a
- 4506T - Paquet ML
- Paquet ML 709
- Paquet ML 941x
- Paquet ML 9465
- 990 - Paquet ML - Aperçu
- ACORD125 - Paquet ML
- ACORD126 - Paquet ML
- ACORD131 - Paquet ML
- ACORD140 - Paquet ML
- ACORD25 - Paquet ML
- États financiers - Paquet ML
- Connaissement - Paquet ML
- Paquet ML - Certificat de constitution
- Paquet ML - Certificat d'origine
- Chèques - Paquet ML
- Paquet ML - Certificat de produit pour enfants
- CMS1500 - Paquet ML
- Paquet ML - Déclaration de conformité de l’UE
- États financiers - Paquet ML
- FM1003 - Paquet ML
- I9 - Paquet ML
- Cartes d’identité - Paquet ML
- Factures - Paquet ML
- FacturesChine - Paquet ML
- Paquet ML - Factures hébreu
- FacturesInde - Paquet ML
- FacturesJapon - Paquet ML
- Paquet ML - Livraison des factures
- Listes de colisage - Paquet ML
- Passeports - Paquet ML
- Fiches de paie - Paquet ML
- Bons de commande - Paquet ML
- Reçus - Paquet ML
- RemittanceAdvices - Paquet ML
- Formulaire UB04 - Paquet ML
- Factures de services publics - Paquet ML
- Titres de véhicule - Paquet ML
- W2 - Paquet ML
- W9 - Paquet ML
- Autres paquets ML prêts à l’emploi
- Points de terminaison publics
- Prérequis matériels
- Pipelines
- Document Manager
- Services OCR
- Apprentissage profond
- Tableaux de bord Insights.
- Document Understanding déployé dans Automation Suite
- Document Understanding déployé dans une version AI Center autonome
- Licences
- Activités (Activities)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Vue d’ensemble de l’extraction des données
Data Extraction is a component in the Document UnderstandingTM Framework that helps in identifying very specific information that you are interested in, from your document types.
Les informations pouvant faire l'objet de l'extraction de données sont définies dans la taxonomie du projet comme la liste des champs d'un type de document spécifique qui y est défini. Les champs qui n'apparaissent pas dans la taxonomie de votre projet ne peuvent pas être configurés aux fins de l'extraction automatique de données.
L'étape d'extraction de données de l'infrastructure Document Understanding garantit que les extracteurs configurés sont appelés dans le bon ordre pour la liste de champs appropriée ainsi que pour la plage de pages du fichier en cours de traitement. Cela signifie que si, dans le même fichier, deux types de documents ou plus sont identifiés (pour des plages de pages différentes), il est alors recommandé d'exécuter l'étape d'extraction de données plusieurs fois, une fois pour chaque résultat de classification. L'exécution de l'extraction de données d'un résultat de classification avec une certaine plage de pages garantira que les données sont ciblées aux fins de l'extraction uniquement à partir de ces pages et uniquement pour ce type de document.
L'extraction de données est effectuée via l'activité Étendue de l'extraction de données (Data Extraction Scope). Pour extraire des données de documents, vous pouvez utiliser un ou plusieurs extracteurs, car l'activité Étendue (Scope) a pour rôle de configurer et d'exécuter un ou plusieurs algorithmes d'extraction de données ainsi que d'offrir une option de configuration simple et unifiée pour tous vos besoins.
En bref, voici les fonctions de Tester l'étendue des classifieurs (Data Extraction Scope) :
- Fournit à tous les extracteurs (algorithmes d'extraction) les configurations et les entrées nécessaires à leur exécution.
- Accepte un ou plusieurs extracteurs.
- Permet l'activation au niveau du champ, le mappage de la taxonomie et la configuration des paramètres de seuil de confiance minimum au niveau de l'extracteur.
- Les rapports ont extrait les données de manière unifiée, quel que soit l'extracteur qui les a rapportés.
L'activité Étendue de l'extraction de données (Data Extraction Scope) vous permet de la configurer à l'aide de l'assistant Configurer les extracteurs (Configure Extractors). Vous pouvez déterminer
- quels champs sont demandés à chaque extracteur,
- quel est le seuil de confiance minimum des extracteurs de points de données par classifieur,
- quel est le mappage taxonomique, au niveau du type de document, entre la taxonomie du projet et la taxonomie interne du classifieur (le cas échéant).
Vous pouvez mélanger et assortir des extracteurs au moyen d'une approche hybride, dans laquelle vous pouvez demander que l'extraction des champs soit réalisée par différents extracteurs.
Vous pouvez même mettre en œuvre des règles de secours pour l'extraction de données ; par exemple, si un extracteur donné ne rapporte pas une valeur acceptable pour un champ donné, vous pouvez décider d'appeler un extracteur de secours.
Notez que l'ordre des extracteurs dans le périmètre d'extraction de données est important :
- les classifieurs sont exécutés en priorité, de gauche à droite ;
- une valeur extraite pour un champ n'est acceptée que si elle présente une confiance égale ou supérieure au seuil de confiance minimum défini pour cet extracteur ;
-
un extracteur ne s'exécute que pour la plage de pages de classification fournie, et uniquement pour les champs qui lui sont demandés selon la configuration Étendue de l'extraction de données (Data Extraction Scope) et les champs qui n'ont pas déjà obtenu un résultat acceptable à partir des extracteurs précédents.
Attention : si l'étendue d'extraction de données ne demande aucun champ à un extracteur donné, cet extracteur ne s'exécute alors pas. Cela peut être le cas d'un extracteur non configuré pour un certain type de document entrant, ou d'un extracteur « de secours » pour lequel les extracteurs précédents ont déjà signalé toutes les données attendues.
En fonction des exigences du cas d'utilisation, vous pouvez choisir parmi plusieurs algorithmes d'extraction de données, nommés extracteurs.
Vous pouvez utiliser n’importe quel extracteur disponible dans les packages UiPath.IntelligentOCR.Activities et UiPath.DocumentUnderstanding.ML.Activities.
Les extracteurs disponibles sont :
- Extracteur basé sur Regex
- Form Extractor
- Extracteur d'apprentissage automatique
- Extracteur génératif
Vous pouvez toujours créer votre propre extracteur à l'aide des contrats de traitement de documents (Document Processing Contrats) publics, vous permettant ainsi de mettre en œuvre n'importe quel algorithme correspondant à votre cas d'utilisation.