Activités Document Understanding

Dernière mise à jour 21 mars 2025

Digitize Document

UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument

Description

Numérise un document, en extrayant son DOM (Document Object Model) et texte et les stocke dans leurs types de variables correspondants.

Remarque : vous devez affecter un moteur OCR à cette activité en le faisant glisser dans le corps de l’activité. Le moteur OCR choisi ne doit être utilisé que si les documents entrants nécessitent un traitement OCR. Consultez la section Moteurs OCR pour connaître les moteurs OCR qui sont disponibles. Les paramètres d’entrée et de sortie du moteur OCR sélectionné sont automatiquement définis par l’activité Numériser le document (Digitize Document).

Compatibilité du projet

Windows - Héritage | Windows

Configuration

Panneau propriétés

Commun

NomAffichage (DisplayName) - Nom affiché de l'activité.

Entrée

AppliquerOCRAuxPDF - Détermine si le processus OCR doit être appliqué ou non aux documents PDF. S'il est défini sur Oui(Yes), l'OCR est appliqué à toutes les pages PDF du document. S'il est défini sur Non, seul le texte saisi numériquement est extrait. La valeur par défaut est Auto, déterminant si le document nécessite l'application de l'algorithme OCR en fonction du document d'entrée.
DegréDeParallélisme : spécifie, le cas échéant, combien de pages doivent être analysées en parallèle. La valeur -1 utilise le « Nombre de cœurs sur la machine - 1 ». Cela signifie que l’activité va essayer de traiter en parallèle autant de pages que de nombre de cœurs - 1 valeur, tout en spécifiant une valeur positive utilisant ce nombre de processeurs logiques. Par défaut, cette propriété est configurée sur -1.
Cette propriété accepte toute valeur non supérieure à LogicalProcessorCount - 1.
DétecterCasesCocher : détecte les cases à cocher disponibles dans le document lors de sa numérisation. La valeur par défaut est Vrai.
CheminDocument : le chemin d’accès du document à numériser. Ce champ prend uniquement en charge les chaînes et les variables String.
Remarque :
- En cas d’échec de la classification d’un document contenant suffisamment de données, dans l’activité Numériser le document (Digitize Document), définissez la propriété AppliquerOCRAuxPDF sur Oui.
- L’extraction de texte à partir de fichiers PDF a bénéficié d’une mise à niveau. Le processus d’extraction a ainsi été optimisé, permettant de récupérer simultanément le texte natif et le texte numérisé. Le processus applique l’OCR uniquement aux images identifiées dans le fichier PDF. Cette amélioration est disponible uniquement lorsque l’option AppliquerOCRAuxPDF est définie sur Auto.
Remarque : les types de fichiers pris en charge pour ce champ de propriété sont les suivants : .png, .jpe, .jpg, .jpeg, .tiff, .tif et .pdf.

Divers

Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).

Sortie

DocumentObjectModel : le modèle objet de document (DOM) du fichier, stocké dans une variable Document . Ce champ ne prend en charge que Document variables.
TexteDocument : le texte extrait du document spécifié. Vous pouvez utiliser par la suite cette variable dans l’activité Présenter la station de validation (Present Validation Station). Ce champ ne prend en charge que les variables String.
Remarque : à partir du package UiPath.IntelligentOCR.Activities v6.3.0-preview, l’activité Numériser le document (Digitize Document) est livrée avec un moteur OCR présélectionné par défaut : le moteur UiPath® Document OCR.

Les deux variables de sortie, associées dans la mesure où elles sont dépendantes, peuvent être utilisées ultérieurement dans le traitement de document sur l’ensemble de l’infrastructure de traitement de document (classification, extraction de données, validation humaine, etc.).

Important

Si le package UiPath.IntelligentOCR.Activities a été mis à jour vers la version v5.1.0, alors le paramètre ForcerApplicationOCR a été remplacé par AppliquerOCRAuxPDF. Voici la compatibilité entre les anciens et les nouveaux paramètres :

ForcerApplicationOCR = Vrai est remplacé par AppliquerOCRAuxPDF = Oui ;
ForcerApplicationOCR = Faux est remplacé par AppliquerOCRAuxPDF = Auto ;
ForcerApplicationOCR = un champ vide est remplacé par AppliquerOCRAuxPDF = Auto ;
ForcerApplicationOCR = votre variable définie est remplacée par AppliquerOCRAuxPDF = Auto.

Remarque : l’activité Numériser le document (Digitize Document) permet d’extraire le texte d’un fichier PDF. Pour les documents complexes, elle peut également appliquer des algorithmes de prétraitement et de post-traitement. Cette activité peut être utilisée avec d’autres activités Document Understanding.

Document Object Model

Le modèle d’objet document est capturé dans un objet propriétaire. Consultez la section Classe Documents pour plus d’informations.

Astuce : pour numériser et traiter efficacement vos documents, tenez compte des conseils suivants :

Pour qu’une image soit numérisée/traitée avec succès, ses dimensions en largeur et en hauteur doivent être comprises entre 50 et 10 000 pixels. Toute image inférieure ou supérieure à cette plage sera rejetée, avec un message d’exception. Une image validée avec les dimensions mentionnées précédemment et avec une taille totale supérieure à 14 MP sera réduite à 14 MP, tout en conservant le même aspect (rapport largeur ou hauteur).
Les meilleurs résultats sont obtenus en maintenant l’angle d’inclinaison à +/- 20 degrés.

Exemple d'utilisation de l'activité Numériser le document

Consultez la page Valider manuellement des documents numérisés pour découvrir comment l’activité Numériser le document (Digitize Document) est utilisée dans un exemple qui intègre plusieurs activités.

Sommaire de la page