- Vue d'ensemble (Overview)
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Composants de l'infrastructure
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- FlexiCapture Classifier
- Intelligent Keyword Classifier
- Keyword Based Classifier
- Machine Learning Classifier
- Activités liées à la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Vue d’ensemble de l'entraînement de la classification des documents
- Activités liées à l'entraînement de la classification des documents
- Machine Learning Classifier Trainer
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Vue d’ensemble de l’extraction des données
- Activités liées à l'extraction de données
- FlexiCapture Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- Regex Based Extractor
- Paquets ML
- Vue d'ensemble (Overview)
- Paquets ML - Document Understanding
- Classifieur de documents - Paquet ML
- Paquets ML avec capacités OCR
- 1040 - Paquet ML
- Annexe C du formulaire 1040 Planification C - Paquet ML
- 1040 Planification D - Paquet ML
- Annexe E du formulaire 1040 - Paquet ML
- 4506T - Paquet ML
- 990 - Paquet ML - Aperçu
- ACORD125 - Paquet ML
- ACORD126 - Paquet ML
- ACORD131 - Paquet ML
- ACORD140 - Paquet ML
- ACORD25 - Paquet ML
- États financiers - Paquet ML
- Connaissement - Paquet ML
- Paquet ML - Certificat de constitution
- Paquet ML - Certificat d'origine
- Chèques - Paquet ML
- Paquet ML - Certificat de produit pour enfants
- CMS1500 - Paquet ML
- Paquet ML - Déclaration de conformité de l’UE
- États financiers - Paquet ML
- FM1003 - Paquet ML
- I9 - Paquet ML
- Cartes d’identité - Paquet ML
- Factures - Paquet ML
- FacturesAustralie - Paquet ML
- FacturesChine - Paquet ML
- FacturesInde - Paquet ML
- FacturesJapon - Paquet ML
- Paquet ML - Livraison des factures
- Listes de colisage - Paquet ML
- Passeports - Paquet ML
- Fiches de paie - Paquet ML
- Bons de commande - Paquet ML
- Reçus – Paquet ML
- RemittanceAdvices - Paquet ML
- Formulaire UB04 - Paquet ML
- Factures de services publics - Paquet ML
- Titres de véhicule - Paquet ML
- W2 - Paquet ML
- W9 - Paquet ML
- Autres paquets ML prêts à l’emploi
- Points de terminaison publics
- Prérequis matériels
- Pipelines
- Document Manager
- Services OCR
- Apprentissage profond
- Document Understanding déployé dans Automation Suite
- Installer et utiliser
- Première expérience d'exécution
- Déployer UiPathDocumentOCR
- Déployer un paquet ML prêt à l'emploi
- Bundles hors ligne 2023.10.12+patch1
- Bundles hors ligne 2023.10.12
- Bundles hors ligne 2023.10.11
- Bundles hors ligne 2023.10.10
- Bundles hors ligne : 2023.10.9
- Bundles 2023.10.8 hors ligne
- Bundles 2023.10.7+patch1 hors ligne
- Bundles 2023.10.7 hors ligne
- Bundles 2023.10.6 hors ligne
- Bundles 2023.10.5 hors ligne
- Bundles 2023.10.4 hors ligne
- Bundles 2022.10.3 hors ligne
- Bundles 2023.10.2 hors ligne
- Bundles 2022.10.1 hors ligne
- Bundles 2023.10.0 hors ligne
- Utiliser le gestionnaire de documents
- Utiliser l'infrastructure
- Document Understanding déployé dans une version AI Center autonome
- Licences
- Activités
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding user guide
Vue d’ensemble de l’extraction des données
Qu'est-ce que l'extraction de données
Data Extraction is a component in the Document UnderstandingTM Framework that helps in identifying very specific information that you are interested in, from your document types.
Les informations pouvant faire l'objet de l'extraction de données sont définies dans la taxonomie du projet comme la liste des champs d'un type de document spécifique qui y est défini. Les champs qui n'apparaissent pas dans la taxonomie de votre projet ne peuvent pas être configurés aux fins de l'extraction automatique de données.
L'étape d'extraction de données de l'infrastructure Document Understanding garantit que les extracteurs configurés sont appelés dans le bon ordre pour la liste de champs appropriée ainsi que pour la plage de pages du fichier en cours de traitement. Cela signifie que si, dans le même fichier, deux types de documents ou plus sont identifiés (pour des plages de pages différentes), il est alors recommandé d'exécuter l'étape d'extraction de données plusieurs fois, une fois pour chaque résultat de classification. L'exécution de l'extraction de données d'un résultat de classification avec une certaine plage de pages garantira que les données sont ciblées aux fins de l'extraction uniquement à partir de ces pages et uniquement pour ce type de document.
Comment utiliser le composant d'extraction de données
Data Extraction is done through the Data Extraction Scope activity. To extract data from documents, you can use one or more extractors, as the scope activity has the role of configuring and executing one or more algorithms for data extraction and of offering an easy, unitary configuration option for all your needs.
En bref, voici les fonctions de Tester l'étendue des classifieurs (Data Extraction Scope) :
- Fournit à tous les extracteurs (algorithmes d'extraction) les configurations et les entrées nécessaires à leur exécution.
- Accepte un ou plusieurs extracteurs.
- Permet l'activation au niveau du champ, le mappage de la taxonomie et la configuration des paramètres de seuil de confiance minimum au niveau de l'extracteur.
- Les rapports ont extrait les données de manière unifiée, quel que soit l'extracteur qui les a rapportés.
L'activité Étendue de l'extraction de données (Data Extraction Scope) vous permet de la configurer à l'aide de l'assistant Configurer les extracteurs (Configure Extractors). Vous pouvez déterminer
- quels champs sont demandés à chaque extracteur,
- quel est le seuil de confiance minimum des extracteurs de points de données par classifieur,
- quel est le mappage taxonomique, au niveau du type de document, entre la taxonomie du projet et la taxonomie interne du classifieur (le cas échéant).
You can mix and match extractors, in a hybrid approach, in which you can request a few fields be extracted by a certain Extractor, while other fields are extracted by a different extractor.
Vous pouvez même mettre en œuvre des règles de secours pour l'extraction de données ; par exemple, si un extracteur donné ne rapporte pas une valeur acceptable pour un champ donné, vous pouvez décider d'appeler un extracteur de secours.
Notez que l'ordre des extracteurs dans le périmètre d'extraction de données est important :
- les classifieurs sont exécutés en priorité, de gauche à droite ;
- une valeur extraite pour un champ n'est acceptée que si elle présente une confiance égale ou supérieure au seuil de confiance minimum défini pour cet extracteur ;
- un extracteur ne s'exécute que pour la plage de pages de classification fournie, et uniquement pour les champs qui lui sont demandés selon la configuration Étendue de l'extraction de données (Data Extraction Scope) et les champs qui n'ont pas déjà obtenu un résultat acceptable à partir des extracteurs précédents.
Important :
If the Data Extraction Scope does not request any field from a given extractor, then that extractor is not executed. This may be the case of an extractor not configured for a certain incoming document type, or the case of an extractor being used as "fall-back" and the previous extractors reported all expected data already.
Extracteurs disponibles
En fonction des exigences du cas d'utilisation, vous pouvez choisir parmi plusieurs algorithmes d'extraction de données, nommés extracteurs.
You can use any extractor that is available in the UiPath.IntelligentOCR.Activities or UiPath.DocumentUnderstanding.ML.Activities package.
Les extracteurs disponibles sont :
- Extracteur basé sur Regex
- Form Extractor
- Extracteur d'apprentissage automatique
- Extracteur génératif
Vous pouvez toujours créer votre propre extracteur à l'aide des contrats de traitement de documents (Document Processing Contrats) publics, vous permettant ainsi de mettre en œuvre n'importe quel algorithme correspondant à votre cas d'utilisation.