Activités (Activities)
Plus récente (Latest)
False
Image de fond de la bannière
Activités Document Understanding
Dernière mise à jour 10 avril. 2024

Digitize Document

UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument

Numérise un document, en extrayant son DOM (Document Object Model) et texte et les stocke dans leurs types de variables correspondants.

Remarque : vous devez affecter un moteur OCR à cette activité en le faisant glisser dans le corps de l’activité. Le moteur OCR choisi ne doit être utilisé que si les documents entrants nécessitent un traitement OCR. Les moteurs OCR disponibles sont disponibles ici. Les paramètres d'entrée et de sortie du moteur OCR sélectionné sont automatiquement définis par l'activité Numériser le document (Digitalize Document).

Propriétés

Commun
  • NomAffichage (DisplayName) - Nom affiché de l'activité.
Entrée
  • AppliquerOCRAuxPDF - Détermine si le processus OCR doit être appliqué ou non aux documents PDF. S'il est défini sur Oui(Yes), l'OCR est appliqué à toutes les pages PDF du document. S'il est défini sur Non, seul le texte saisi numériquement est extrait. La valeur par défaut est Auto, déterminant si le document nécessite l'application de l'algorithme OCR en fonction du document d'entrée.
  • DegreeOfParalelism : spécifie le nombre de pages, le cas échéant, à analyser en parallèle. La valeur -1 utilise la valeur "Number of Cores on the machine - 1" (ce qui signifie qu'elle essaie de traiter autant de pages en parallèle que le nombre de cœurs - valeur 1), tandis qu'une valeur positive utilise ce nombre spécifique de processeurs logiques . Par défaut, cette propriété est définie sur -1.
  • Détecter les cases à cocher (DetectCheckboxes ) : détecte les cases à cocher disponibles dans le document lors de sa numérisation. La valeur par défaut est True.
  • DocumentPath : chemin d'accès du document à numériser. Ce champ ne prend en charge que les chaînes et les variables String.

    Remarque :
    • En cas d’échec de classification d’un document contenant suffisamment de données, veuillez définir la propriété AppliquerOcrOnPdf sur Oui (Yes) dans l’activité Numériser le document (Digitize Document).
    • L'extraction de texte à partir de fichiers PDF a été mise à niveau, ce qui permet d'optimiser le processus d'extraction, dans lequel le texte natif et scanné est récupéré en même temps, l'OCR n'étant appliqué qu'aux images identifiées dans le fichier PDF. Cette amélioration n'est disponible que lorsque l'option AppliquerOCROnPDF est définie sur Auto.
    Remarque : les types de fichiers pris en charge pour ce champ de propriété sont les suivants : .png, .jpe, .jpg, .jpeg, .tiff, .tif et .pdf.
Divers
  • Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).
Sortie
  • DocumentObjectModel : le modèle objet de document (DOM) du fichier, stocké dans une variable Document . Ce champ ne prend en charge que Document variables.
  • DocumentText : le texte extrait du document spécifié. Vous pouvez utiliser par la suite cette variable dans l'activité Present Validation Station. Ce champ ne prend en charge que les variables String.

    Remarque : à partir de la version v6.3.0-preview du package UiPath.IntelligentOCR.Activities, l’activité Numériser le document est livrée avec un moteur OCR présélectionné par défaut, le moteur UiPath Document OCR.

Ces deux variables de sortie, appariées car dépendantes, peuvent être utilisées davantage dans le traitement de documents dans l'ensemble de l'infrastructure de traitement des documents (classification, extraction de données, validation humaine, etc.)

Important

Si le package UiPath.IntelligentOCR.Activities a été mis à jour vers la v5.1.0, le paramètre ForceApplyOCR a été remplacé par ApplyOcrOnPDF. Voici la compatibilité entre les anciens et les nouveaux paramètres :

  • ForceApplyOCR = True est remplacé par ApplyOcrOnPDF = Oui (Yes)

  • ForceApplyOCR = False est remplacé par ApplyOcrOnPDF = Auto • ForceApplyOCR = Empty est remplacé par ApplyOcrOnPDF = Auto

  • ForceApplyOCR = <user-defined variable> est en cours de remplacement par ApplyOcrOnPDF = Auto

Remarque : l'activité Numériser le document extrait le texte d'un fichier PDF et, pour les documents complexes, applique des algorithmes de prétraitement et de post-traitement. Cette activité peut être utilisée avec d'autres activités Document Understanding.

Document Object Model

Le modèle objet de document est capturé dans un objet propriétaire documenté ici.

Remarque :

Pour qu'une image soit numérisée/traitée avec succès, ses dimensions en largeur et en hauteur doivent être comprises entre 50 et 10 000 pixels. Toute image inférieure ou supérieure à cette plage doit être rejetée, avec un message d'exception. Une image validée avec les dimensions mentionnées précédemment et avec une taille totale supérieure à 14 MP doit être réduite à 14 MP, tout en conservant le rapport hauteur/largeur (rapport largeur/hauteur).

Les résultats de l'OCR sur les documents numérisés ont été améliorés et les meilleurs résultats sont désormais obtenus en maintenant l'angle d'inclinaison entre +/- 20 degrés.

Exemple d'utilisation de l'activité Numériser le document

Vous pouvez voir comment l'activité Digitize Document est utilisée dans un exemple qui intègre plusieurs activités.

Vous pouvez consulter et télécharger l'exemple ici.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Logo Uipath blanc
Confiance et sécurité
© 2005-2024 UiPath. All rights reserved.