- Vue d'ensemble (Overview)
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Composants de l'infrastructure
- Présentation de la numérisation
- Activités liées à la numérisation
- Moteurs OCR
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- FlexiCapture Classifier
- Intelligent Keyword Classifier
- Keyword Based Classifier
- Machine Learning Classifier
- Activités liées à la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Vue d’ensemble de l'entraînement de la classification des documents
- Activités liées à l'entraînement de la classification des documents
- Machine Learning Classifier Trainer
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Vue d’ensemble de l’extraction des données
- Activités liées à l'extraction de données
- FlexiCapture Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- Regex Based Extractor
- Paquets ML
- Vue d'ensemble (Overview)
- Paquets ML - Document Understanding
- Classifieur de documents - Paquet ML
- Paquets ML avec capacités OCR
- 1040 - Paquet ML
- 4506T - Paquet ML
- 990 - Paquet ML - Aperçu
- ACORD125 - Paquet ML
- ACORD126 - Paquet ML
- ACORD131 - Paquet ML
- ACORD140 - Paquet ML
- ACORD25 - Paquet ML
- États financiers - Paquet ML
- Connaissement - Paquet ML
- Paquet ML - Certificat de constitution
- Paquet ML - Certificat d'origine
- Chèques - Paquet ML
- Paquet ML - Certificat de produit pour enfants
- CMS1500 - Paquet ML
- Paquet ML - Déclaration de conformité de l’UE
- États financiers - Paquet ML
- FM1003 - Paquet ML
- I9 - Paquet ML
- Cartes d’identité - Paquet ML
- Factures - Paquet ML
- FacturesAustralie - Paquet ML
- FacturesChine - Paquet ML
- FacturesInde - Paquet ML
- FacturesJapon - Paquet ML
- Paquet ML - Livraison des factures
- Listes de colisage - Paquet ML
- Passeports - Paquet ML
- Fiches de paie - Paquet ML
- Bons de commande - Paquet ML
- Reçus – Paquet ML
- RemittanceAdvices - Paquet ML
- Factures de services publics - Paquet ML
- Titres de véhicule - Paquet ML
- W2 - Paquet ML
- W9 - Paquet ML
- Autres paquets ML prêts à l’emploi
- Points de terminaison publics
- Prérequis matériels
- Pipelines
- Document Manager
- Services OCR
- Apprentissage profond
- Document Understanding déployé dans Automation Suite
- Installer et utiliser
- Première expérience d'exécution
- Déployer UiPathDocumentOCR
- Déployer un paquet ML prêt à l'emploi
- Bundles hors ligne 2023.4.12
- Bundles 2023.4.11 hors ligne
- Bundles 2023.4.10+patch1 hors ligne
- Bundles 2023.4.10 hors ligne
- Bundles 2023.4.9 hors ligne
- Bundles 2023.4.8 hors ligne
- Bundles 2023.4.7 hors ligne
- Bundles 2023.4.6 hors ligne
- Bundles 2023.4.5 hors ligne
- Bundles 2023.4.4 hors ligne
- Bundles 2023.4.3 hors ligne
- Bundles 2023.4.2 hors ligne
- Bundle 2023.4.1 hors ligne
- Bundle 2023.4.0 hors ligne
- Utiliser le gestionnaire de documents
- Utiliser l'infrastructure
- Document Understanding déployé dans une version AI Center autonome
- Licences
- Activités (Activities)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Guide de l'utilisateur de Document Understanding
La numérisation est le processus d’obtention d’un texte lisible par une machine à partir d’un fichier entrant donné. Elle rend possible la compréhension de son contenu par un robot et permet à ce dernier d’agir en conséquence. Il s’agit de la première étape appliquée aux fichiers qui doivent être traités via l’infrastructure Document UnderstandingTM.
L'étape de numérisation a deux sorties :
- le texte du fichier traité, stocké dans une variable chaîne, et
- le modèle d'objet document de ce fichier – objet JSON contenant des informations de base telles que le nom, le type de contenu, la longueur du texte, le nombre de pages ainsi que des informations détaillées telles que la rotation des pages, la langue détectée, le contenu et les coordonnées de chaque mot identifié dans le fichier.
Dans l'infrastructure de traitement de document, la numérisation est effectuée à l'aide de l'activité Numériser le document (Digitize Document).
Ce que la numérisation n'est pas
Bien que liée, l'étape de numérisation se distingue de l'OCR.
Dans de nombreux cas, les fichiers à traiter sont des fichiers PDF natifs (non numérisés) qui peuvent être lus par programmation par le robot sans appliquer l'OCR.
Quand l'OCR est utilisée dans la numérisation
L'activité Numériser un document (Digitize Document) nécessite, dans le cadre de sa configuration, la sélection d'un moteur OCR afin qu'en cas de besoin, il puisse être utilisé tout en exécutant uniquement l'OCR sur :
- les fichiers images
- les formats d'images pris en charge sont .png, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp
- pour les fichiers TIFF multipages, l'OCR est appliqué pour chaque page
- pages PDF qui
- ne présentent aucun contenu lisible par machine
- contiennent des images qui couvrent une zone significative de la page.
- La limite de taille de fichier est de 160 Mo.
- Il y a un maximum de 500 pages par limite de document.
L'OCR est également appliqué, toujours, si l'activité Numériser le document est configurée avec l'indicateur ForceApplyOCR défini sur Vrai. Cette option est généralement recommandée dans les scénarios où un pourcentage important de fichiers semble contenir du contenu natif, mais où le contenu lu en natif ne correspond pas à ce qu'un utilisateur peut observer dans ces fichiers.
Comment choisir votre moteur OCR
Comme chaque cas d'utilisation a ses propres particularités, il est fortement recommandé de tester tous les moteurs OCR disponibles avec des paramètres différents afin de déterminer celui qui fonctionne le mieux pour votre projet. Nous recommandons également de porter une attention particulière aux arguments du moteur OCR, tels que Profil (Profile), Scale (Échelle), Langue (Language) etc. (peut varier d'un moteur à l'autre) afin d'identifier les meilleurs paramètres par cas d'utilisation.