- Vue d'ensemble (Overview)
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Composants de l'infrastructure
- Vue d'ensemble (Overview)
- Activités Document Understanding
- Présentation de la numérisation
- Activités liées à la numérisation
- Moteurs OCR
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- Intelligent Keyword Classifier
- Keyword Based Classifier
- Machine Learning Classifier
- Classifieur génératif
- Activités liées à la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Vue d’ensemble de l'entraînement de la classification des documents
- Activités liées à l'entraînement de la classification des documents
- Machine Learning Classifier Trainer
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Vue d’ensemble de l’extraction des données
- Activités liées à l'extraction de données
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- Regex Based Extractor
- Consommation de données
- Appels API
- Paquets ML
- Vue d'ensemble (Overview)
- Paquets ML - Document Understanding
- Classifieur de documents - Paquet ML
- Paquets ML avec capacités OCR
- 1040 - Paquet ML
- Annexe C du formulaire 1040 Planification C - Paquet ML
- 1040 Planification D - Paquet ML
- Annexe E du formulaire 1040 - Paquet ML
- Paquet ML - 1040x
- Paquet ML 3949a
- 4506T - Paquet ML
- Paquet ML 709
- Paquet ML 941x
- Paquet ML 9465
- 990 - Paquet ML - Aperçu
- ACORD125 - Paquet ML
- ACORD126 - Paquet ML
- ACORD131 - Paquet ML
- ACORD140 - Paquet ML
- ACORD25 - Paquet ML
- États financiers - Paquet ML
- Connaissement - Paquet ML
- Paquet ML - Certificat de constitution
- Paquet ML - Certificat d'origine
- Chèques - Paquet ML
- Paquet ML - Certificat de produit pour enfants
- CMS1500 - Paquet ML
- Paquet ML - Déclaration de conformité de l’UE
- États financiers - Paquet ML
- FM1003 - Paquet ML
- I9 - Paquet ML
- Cartes d’identité - Paquet ML
- Factures - Paquet ML
- FacturesChine - Paquet ML
- Paquet ML - Factures hébreu
- FacturesInde - Paquet ML
- FacturesJapon - Paquet ML
- Paquet ML - Livraison des factures
- Listes de colisage - Paquet ML
- Passeports - Paquet ML
- Fiches de paie - Paquet ML
- Bons de commande - Paquet ML
- Reçus – Paquet ML
- RemittanceAdvices - Paquet ML
- Formulaire UB04 - Paquet ML
- Factures de services publics - Paquet ML
- Titres de véhicule - Paquet ML
- W2 - Paquet ML
- W9 - Paquet ML
- Autres paquets ML prêts à l’emploi
- Points de terminaison publics
- Prérequis matériels
- Pipelines
- Document Manager
- Services OCR
- Langues prises en charge
- Apprentissage profond
- Tableaux de bord Insights.
- Document Understanding déployé dans Automation Suite
- Document Understanding déployé dans une version AI Center autonome
- Licences
- Activités
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding user guide
Présentation de la numérisation
Ce qu'est la numérisation
Digitization is the process of obtaining machine readable text from a given incoming file, so that a robot can then understand its contents and act upon them. It is the first step applied on files that need to be processed through the Document UnderstandingTM framework.
L'étape de numérisation a deux sorties :
- le texte du fichier traité, stocké dans une variable chaîne, et
- le modèle d'objet document de ce fichier – objet JSON contenant des informations de base telles que le nom, le type de contenu, la longueur du texte, le nombre de pages ainsi que des informations détaillées telles que la rotation des pages, la langue détectée, le contenu et les coordonnées de chaque mot identifié dans le fichier.
In the Document Processing Framework, digitization is performed using the Digitize Document activity.
Ce que la numérisation n'est pas
Bien que liée, l'étape de numérisation se distingue de l'OCR.
Dans de nombreux cas, les fichiers à traiter sont des fichiers PDF natifs (non numérisés) qui peuvent être lus par programmation par le robot sans appliquer l'OCR.
Quand l'OCR est utilisée dans la numérisation
The Digitize Document activity requires, as part of its configuration, the selection of an OCR engine - so that, at need, it can be used, but only executes OCR on:
- les fichiers images
- les formats d'images pris en charge sont .png, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp
- pour les fichiers TIFF multipages, l'OCR est appliqué pour chaque page
- pages PDF qui
- ne présentent aucun contenu lisible par machine
- contiennent des images qui couvrent une zone significative de la page.
The following digitization limitations apply:
- La limite de taille de fichier est de 160 Mo.
- Il y a un maximum de 500 pages par limite de document.
OCR is also applied, always, if the Digitize Document activity is configured with the ForceApplyOCR flag set to True. This option is usually recommended for use cases in which a significant percentage of files seem to contain native content, but the natively read content does not correspond to what a user can observe in those files.
Comment choisir votre moteur OCR
As each use case has its own particularities, it is strongly recommended to test all available OCR Engines with different settings, in order to determine which one works best for your project. Another recommendation is to pay particular attention to the OCR engine arguments, such as Profile, Scale, Language etc. (may vary from one engine to another), so that you identify the best settings for each use case.