UiPath Documentation
activities
latest
false

Activités Document Understanding

Dernière mise à jour 5 mai 2026

Extraction de données basée sur des ancres à l'aide de l'Extracteur de formulaires intelligent

L'exemple ci-dessous explique comment extraire des données d'un formulaire pouvant également inclure du texte manuscrit. Le scénario de cas d'utilisation suivant explique comment extraire des données d'une commande d'achat.

Il présente des activités telles que Digitize Document, Data Extraction Scope ou Intelligent Form Extractor. Vous pouvez retrouver ces activités dans le package UiPath.IntelligentOCR.Activities .

Création du workflow

Les packages suivants doivent être installés avant de créer le workflow ci-dessous :

  • UiPath.DocumentProcessing.Contracts.Activities
  • UiPath.IntelligentOCR.Activities
  • UiPath.OCR.Activities
  • UiPath.OCR.Contracts
  • UiPath.WebApi.Activities

Steps:

  1. Ouvrez Studio et démarrez un nouveau Processus.

  2. Ajoutez un conteneur Séquence dans le champ concepteur de workflow, nommez-le Sequence1 et créez la variable suivante :

    Table 1. Variables à créer

    Types de variablesValeur par défaut
    itemChaîne de caractères (string)S/O
    classificationResultClassificationResult[]S/O
    outputFileNameValeurGénériqueS/O
  3. Ajoutez un autre conteneur Séquence dans le champ Concepteur de workflow après le premier, nommez-le Sequence2 et créez les variables indiquées dans la table suivante :

    Tableau 2. Variables à créer

    Types de variablesValeur par défaut
    textChaîne de caractères (string)S/O
    taxonomyDocumentTaxonomyS/O
    domDocumentS/O
    documentPathChaîne de caractères (string)S/O
    classificationResult2ClassificationResult[]S/O
    outputFileName2ValeurGénériqueS/O
  4. Add a Message Box activity inside the sequence.

    • Dans le panneau Propriétés , sélectionnez l’option Ok dans la liste déroulante Boutons . Ajoutez le message suivant dans le champ Texte : « Sélectionner un fichier PDF ».
  5. Cochez la case de l’option PlusHaut. La boîte de message se retrouve au premier plan.

  6. Ajoutez une activité Sélectionner un fichier (Select File) après l’activité Zone de message (Message Box).

    • Dans le panneau Propriétés , ajoutez le texte suivant dans le champ Filtre : Pdf files (*.pdf)|*.pdf
    • Add the documentPath variable in the SelectedFile field.
  7. Ajoutez une activité Affecter (Assign) après l’activité Sélectionner un fichier (Select File).

    • Add the outputFileName2 variable in the To field.
    • Ajoutez l’expression ".temp/" + Path.GetFileName(documentPath) dans le champ Valeur.
  8. Ajoutez une activité Désérialiser JSON (Deserialize JSON) après l’activité Affecter (Assign).

    • Add the expression File.ReadAllText("DocumentProcessing axonomy.json") in the JSON String field.
    • In the Properties panel, select the UiPath.DocumentProcessing.Contracts.Taxonomy.DocumentTaxonomy option from the TypeArgument dropdown list.
    • Add the taxonomy variable in the JsonObject field.
  9. Ajoutez une activité Numériser le document (Digitize Document) après l’activité Désérialiser JSON (Deserialize JSON).

    • In the Properties panel, add the value 1 in the DegreeOfParallelism field.
    • Add the documentPath variable in the DocumentPath field.
    • Add the dom variable in the DocumentObjectModel field.
    • Add the text variable in the DocumentText field.
    • Ajoutez le moteur UiPath® Document OCR à l’intérieur de l’activité.
    • Add your API Key inside the ApiKey field.
    • Add the "https://du.uipath.com/ocr" expression in the Endpoint field.
  10. Ajoutez une activité Écrire un fichier texte (Write Text File) après l’activité Numériser le document (Digitize Document).

    • Add the JsonConvert.SerializeObject(dom) expression in the Text field.
    • Add the outputFileName2 + ".dom.json" expression in the FileName field.
  11. Ajoutez une autre activité Écrire un fichier texte (Write Text File) après l’activité Écrire un fichier texte (Write Text File).

    • Add the text variable in the Text field.
    • Add the outputFileName2 + ".text.txt" expression in the FileName field.
  12. Faites glisser un autre conteneur Séquence dans le champ concepteur de workflow, nommez-le Sequence3 et créez la variable suivante :

    Tableau 3. Variables à créer

    Types de variablesValeur par défaut
    extractionResultRésultatExtractionS/O
    validatedResultsRésultatExtractionS/O
    doubleValidatedResultsRésultatExtractionS/O
    datasetJeuDonnéesS/O
    iInt32S/O
  13. Add a Data Extraction Scope activity inside the Sequence3.

    • In the Properties panel, add the dom variable in the DocumentObjectModel field.
    • Add the documentPath variable in the DocumentPath field.
    • Add the text variable in the DocumentText field.
    • Add the "All.Benchmarks.Invoice" expression in the DocumentTypeId field.
    • Add the taxonomy variable in the Taxonomy field.
    • Add the extractionResult variable in the ExtractionResults field.
  14. Add an Intelligent Form Extractor activity inside the Data Extraction Scope activity.

    • Add your API Key in the ApiKey field.
  15. Ajoutez une activité Écrire un fichier texte (Write Text File) après l’activité Étendue de l’extraction de données (Data Extraction Scope).

    • Add the JsonConvert.SerializeObject(extractionResult) expression in the Text field.
    • Add the outputFileName2 + ".results.json" expression in the FileName field.
  16. Ajoutez une activité Présenter la station de validation (Present Validation Station) après l’activité Écrire un fichier texte (Write Text File).

    • Add the extractionResult variable in the AutomaticExtractionResults field.
    • Add the dom variable in the DocumentObjectModel field.
    • Add the documentPath variable in the DocumentPath field.
    • Add the text variable in the DocumentText field.
    • Add the taxonomy variable in the Taxonomy field.
    • Add the validatedResults variable in the ValidatedExtractionResults field.
  17. Ajoutez une activité Écrire un fichier texte (Write Text File) après l’activité Présenter la station de validation (Present Validation Station).

    • Add the JsonConvert.SerializeObject(validatedResults) expression in the Text field.
    • Add the outputFileName2 + ".savedinVS.results.json" expression in the FileName field.
  18. Ajoutez une autre activité Écrire un fichier texte (Write Text File) après l’activité Écrire un fichier texte (Write Text File).

    • Add the JsonConvert.SerializeObject(doubleValidatedResults) expression in the Text field.
    • Add the outputFileName2 + ".doubleSavedinVS.results.json" expression in the FileName field.
  19. Exécutez le processus. Le processus d'automatisation doit ouvrir la station de validation, extraire les données, les valider et les stocker dans le dossier de sortie.

Visitez le lien suivant pour télécharger l’exemple au format ZIP : Exemple.

Définir votre taxonomie

Vous avez créé votre workflow, défini toutes les variables et personnalisé toutes les activités. Il est maintenant temps de définir votre taxonomie. Visitez la page Charger la taxonomie pour en savoir plus sur la définition de votre propre taxonomie.

Créez votre taxonomie pour pouvoir extraire des informations d’une facture. Vous devez vous concentrer sur la création d’un type de document Facture contenant les champs indiqués dans le tableau suivant :

Tableau 4. Champs pour le type de document de facture

Type de champ
NonFactureText
Sous-totalNumber
Taxe de venteNumber
TotalNumber

Graphique 1. Vue d’ensemble de la taxonomie terminée avec les champs mentionnés précédemment

Présentation de la taxonomie terminée avec les champs précédemment mentionnés

Création de votre modèle

Il est maintenant temps de créer le modèle du processus d’extraction. Consultez la page Charger la taxonomie pour découvrir comment créer un modèle.

Dans le cadre de cet exemple, configurez le modèle à l’aide des valeurs suivantes :

  • Type de document : facture.
  • Nom du modèle : exemple de facture.
  • Modèle de document : sélectionnez le fichier cible.
  • Moteur OCR : Microsoft OCR.
  • Langues : fr.
  • Profil : numérisation.
  • Échelle : 1.

Image 2. Illustration animée montrant un exemple de configuration du modèle

Illustration animée montrant un exemple de configuration du modèle

Définition des ancres dans le modèle

Les ancres sont une fonctionnalité très spéciale et utile à utiliser lorsque vous devez extraire des informations précises d’un document. En définissant une zone d'extraction avec une ancre, vous pouvez vous attendre à une grande précision dans l'extraction des données.

Une fois la taxonomie définie et le modèle créé, vous pouvez commencer à configurer le modèle en utilisant des ancres, ce qui signifie que la zone d'extraction est définie dans une boîte et que les ancres sont utilisées pour définir la position de la boîte.

Consultez la liste de conseils suivante concernant l’ancrage avant de commencer à ajouter des ancres à votre modèle :

  • La boîte d'ancrage doit être aussi grande que possible (hauteur, largeur) pour couvrir tout type de numéro de facture, long, court, gros caractères, etc.
  • Une zone d'extraction peut avoir autant d'ancres que nécessaire, mais une seule définie comme principale (la première).
  • Utilisez des ancres formées de plusieurs mots côte à côte.
  • L'ancre principale doit être aussi proche que possible de la zone d'extraction.
  • Les positions de la zone d'extraction et de l'ancre principale sont fixes dans le modèle, même lorsqu'elles sont appliquées à des documents différents. La seule chose qui peut varier est la distance entre l'ancre principale et les ancres secondaires.

Continuons à configurer le modèle et découvrons comment extraire des données à l’aide d’une ancre.

  1. Définissez la zone d’extraction :
    • Dans la zone droite de la Station de validation, sélectionnez Modes de sélection.

    • Sélectionnez Ancre.

    • Commencez à sélectionner la zone souhaitée.

      Remarque :

      L'ancre principale doit contenir deux ou trois mots pour une grande précision et de meilleurs résultats dans le processus d'extraction.

      Sélectionnez plusieurs mots lorsque vous balisez une ancre en appuyant sur Ctrl et en sélectionnant les mots souhaités.

  2. Définissez l’ancre principale :
    1. Toujours dans le mode Ancre relatif à la sélection d’ancres, sélectionnez la zone souhaitée en tant qu’ancre principale.
    2. Sélectionnez la valeur d’extraction du champ souhaité.
  3. Définissez les ancres secondaires :
    1. Veillez à rester dans le mode Ancre de sélection d’ancres et vérifiez que les sélections d’ancres principales soient bien activées.
    2. Sélectionnez les nouvelles zones des ancres secondaires.
    3. Sélectionnez les Options du champ souhaité, puis sélectionnez Modifier la valeur extraite.

Répétez le processus jusqu'à ce que vous ayez fini de définir toutes les zones d'extraction et d'ajouter toutes vos ancres. Une fois terminé, enregistrez le modèle.

Cette page vous a-t-elle été utile ?

Connecter

Besoin d'aide ? Assistance

Vous souhaitez apprendre ? UiPath Academy

Vous avez des questions ? UiPath Forum

Rester à jour