Activités (Activities)
Plus récente (Latest)
False
Image de fond de la bannière
Activités Document Understanding
Dernière mise à jour 10 avril. 2024

Form Extractor

UiPath.IntelligentOCR.Activities.DataExtraction.FormExtractor

Remarque : à des fins de licence, l'activité Extracteur de formulaires ( Form Extractor) nécessite une connexion Internet pour exécuter le robot.

L'extracteur de formulaire est le mieux adapté pour extraire, faire correspondre et rapporter des informations spécifiques en analysant la position du mot dans le document ou en détectant une signature. Cette activité ne peut être utilisée qu'avec l'activité Étendue d'extraction des données (Data Extraction Scope). Le texte manuscrit peut également être détecté si l'activité Extracteur de formulaires (Form Extractor) est utilisée avec l'activité OCR de document UiPath.

Propriétés

Commun
  • NomAffichage (DisplayName) - Nom affiché de l'activité.
Entrée
  • Clé API : spécifie la clé API du compte. Le champ Clé API est automatiquement prérempli s'il est défini dans les paramètres du projet local ou dans l'infrastructure Document Understanding.
  • Point de terminaison (Endpoint) :L'URL du serveur UiPath. Par défaut, le point de terminaison est https://du.uipath.com/svc/formextractor. Pour plus d'informations, consultez Points de terminaison publics Document Understanding.
  • MinOverlapPercentage : spécifie la zone de chevauchement minimale (en pourcentage) entre un bloc du document et un bloc du modèle requis pour effectuer une extraction. La valeur en pourcentage peut être définie entre 0 et 100. La valeur par défaut est 65.
  • Envoyer des documents : envoyez des documents à des fins d'assistance, de résolution des problèmes et d'amélioration des performances.
  • Délai d'attente : spécifie la durée (en millisecondes) d'attente d'une réponse du serveur avant qu'une erreur soit générée. La valeur par défaut est de 100 000 millisecondes (100 secondes).
Divers
  • Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).
    Remarque : plusieurs modèles peuvent être définis pour un type de document. Lorsque l'activité est exécutée, l'extracteur sélectionne le modèle correspondant le mieux en fonction des informations trouvées sur la première page.

L'assistant du gestionnaire de modèles

Permet de créer, modifier, gérer et exporter/importer des modèles pour les types de documents définis dans la taxonomie.

Création d’un modèle
  1. Ajoutez une activité Extracteur basé sur Regex (RegEx Based Extractor) à votre workflow dans une activité Étendue de l'extraction de données (Data Extraction Scope).
  2. Configurez l'extracteur en cliquant sur le bouton Gérer les modèles (Manage Templates).
    • La fenêtre du gestionnaire de modèles (Template Manager) s'ouvre.


  3. Cliquez sur le bouton Créer un modèle (Create Template) pour créer un nouveau modèle.


    Remarque :

    Si le package UiPath.IntelligentOCR.Activities a été mis à jour vers la v5.1.0, le paramètre ForceApplyOCR a été remplacé par ApplyOcrOnPDF. Voici la compatibilité entre les anciens et les nouveaux paramètres :

    • ForceApplyOCR = True est remplacé par ApplyOcrOnPDF = Yes

    • ForceApplyOCR = False est remplacé par ApplyOcrOnPDF = Auto

    • ForceApplyOCR = Empty est remplacé par ApplyOcrOnPDF = Auto

    • ForceApplyOCR = <user-defined variable> est en cours de remplacement par ApplyOcrOnPDF = Auto

  4. Sélectionnez le type de document pour votre modèle dans la liste déroulante Type de document (Document Type).
    Remarque : Tous les types de documents sont basés sur la taxonomie. Assurez-vous d'ajouter ou de créer une taxonomie dans le dossier du projet.
  5. Nommez ce modèle dans le champ Nom du modèle (Template Name). Choisissez un nom pertinent qui reflète la version ou la mise en page de votre document.
  6. Ajoutez le chemin du document dans le champ Modèle de document (Template document).
    • Accédez au chemin du fichier à l'aide du bouton Parcourir (Browse).
  7. Sélectionnez un OCR dans la liste déroulante Moteur OCR et configurez-le en fonction de ses besoins.
  8. Cliquez sur le bouton Configurer (Configure) pour déclencher la modification du modèle.

L'option Appliquer l'OCR au PDF détermine si le processus OCR doit être appliqué ou non aux documents PDF. Trois options sont disponibles dans la liste déroulante : True, Falseet Auto.

S’il est défini sur Vrai, l’OCR est appliqué à toutes les pages PDF du document. S’il est défini sur Faux, seul le texte saisi numériquement est extrait. Lorsqu’il est défini sur Auto, il évalue si le document nécessite l’application de l’algorithme OCR en fonction du document d’entrée.

Chaque moteur OCR est livré avec son propre ensemble d'options personnalisées. Vous trouverez ici plus de détails sur toutes les options disponibles pour chaque moteur OCR. Le moteur OCR par défaut est UiPath Document OCR.

Si vous avez déjà créé un modèle, vous pouvez le modifier, l'exporter ou le supprimer.

Les boutons Supprimer (Delete) et Exporter (Export) deviennent disponibles uniquement lorsqu'au moins un modèle est sélectionné. Les options Modifier (Edit) et Supprimer (Remove) pour un modèle individuel sont toujours disponibles.



Configuration du traitement des champs booléens

Pour les documents qui incluent des cases à cocher, vous pouvez ajouter des synonymes connus pour les options Oui (Yes) et Non (No), ou vous pouvez partir d'une liste compilée par nos soins (voir nos suggestions Ajouter les éléments recommandés). Ces valeurs sont utilisées pour l'interprétation du contenu booléen, qui mappe une valeur capturée à une valeur signalée Oui ou Non.



Remarque : la case Sensible à la casse doit être cochée si les synonymes que vous avez ajoutés respectent la casse.
Exportation et importation de modèles

Vous pouvez importer des modèles créés et exportés à partir d'autres workflows. Utilisez ces fonctionnalités pour partager des modèles entre projets. Une fois qu'un type de document est configuré à l'aide de l'extracteur de formulaire intelligent, vous n'avez pas besoin de reconfigurer les modèles dans une nouvelle implémentation.

Procédure d'exportation

Voici les étapes à suivre pour exporter un modèle :

  1. Créez un ou plusieurs modèles en suivant les étapes expliquées au début de cette page.
  2. Sélectionnez les modèles que vous souhaitez exporter.
  3. Sélectionnez une option d'exportation (avec ou sans les fichiers originaux) comme indiqué dans la capture d'écran ci-dessous. L'exportation avec les fichiers originaux les joint à l'exportation.


  4. Enregistrez l'archive du modèle avec le nom souhaité.
  5. Un message s'affiche une fois le modèle enregistré. Sélectionnez le bouton OK.


    Remarque :

    Si vous ne pouvez pas partager le contenu des documents sur lesquels vous avez construit vos modèles, utilisez l'option Sans fichiers originaux (Without Original Files). Vous pouvez toujours partager et importer l'archive de modèle dans d'autres projets, mais vous ne pouvez plus les modifier ou les afficher.

    Si vous souhaitez modifier les modèles une fois importés dans un autre projet, assurez-vous d'utiliser l'option « Avec les fichiers d'origine (With Original Files) » lors de l'exportation puis de l'importation.

Procédure d'importation

Voici les étapes à suivre pour importer un modèle :

  1. Sélectionnez le bouton Importer (Import).


  2. Sélectionnez une archive. L'assistant d'importation apparaît et présente tous les types de documents et tous les modèles disponibles dans l'archive d'exportation sélectionnée. Sélectionnez les modèles que vous souhaitez importer et choisissez la bonne option d'importation (Import) (avec ou sans les fichiers originaux).


    Remarque :
    • Lorsque les modèles sont importés, les types de documents (Document Types) sont créés automatiquement dans la taxonomie du projet. Si un type de document portant le même nom existe déjà, un autre est créé en ajoutant un nombre au nom du type de document.
    • Si vous importez des modèles qui ont été exportés sans les fichiers d'origine, ou si vous choisissez d'importer des modèles sans les fichiers d'origine, vous n'avez aucune option d'affichage ou de modification pour ces modèles.
Situations spéciales lors de l'importation d'un modèle

Lorsqu'un modèle est importé, plusieurs situations particulières peuvent se produire. Le tableau ci-dessous explique chaque situation et ses particularités :

Import Type

Comportement d'activité

Nouveau type de document

Si un nouveau type de document est importé, alors un nouveau champ est ajouté dans le configurateur de l'assistant, vous informant qu'un nouveau modèle est à créer.

Type de document en double

Si un type de document identique est importé, le message d'avertissement suivant s'affiche :

  • Ce modèle existe déjà et il sera remplacé.

Modèle étendu

Si un modèle de type de document qui inclut des champs supplémentaires par rapport à l'existant est importé, le message d'avertissement suivant s'affiche :

  • Ce type de document sera mis à jour comme suit :
  • le ou les champs suivants n'existent pas et seront créés :

Type de document étendu

Si l'utilisateur importe un type de document qui inclut des champs supplémentaires par rapport à l'existant, le message d'avertissement suivant s'affiche :

  • Ce type de document sera mis à jour comme suit :
  • Le ou les champs suivants n'ont pas de configurations à importer.

Type de document avec un nom identique mais un contenu différent

Si l'utilisateur importe un type de document portant le même nom que l'existant mais des champs différents, le message d'avertissement suivant s'affiche :

  • Ce type de document sera mis à jour comme suit :
  • Le ou les champs suivants n'existent pas et seront créés ;
  • Les champs suivants n'ont pas de configurations à importer

Type de document avec tableau manquant

Si l'utilisateur importe un type de document qui n'inclut pas de table, le message d'avertissement suivant s'affiche :

  • Ce type de document sera mis à jour comme suit :
  • Le ou les champs suivants n'ont pas de configurations à importer.

Type de document avec tableau étendu

Si l'utilisateur importe un type de document qui inclut une table avec des colonnes supplémentaires, le message d'avertissement suivant s'affiche :

  • Ce document sera mis à jour comme suit :
  • le ou les champs suivants n'existent pas et seront créés :

Type de document avec table réduite

Si l'utilisateur importe un type de document qui inclut une table avec des colonnes manquantes, le message d'avertissement suivant s'affiche :

  • Ce document sera mis à jour comme suit :
  • Le ou les champs suivants n'ont pas de configurations à importer.

Modèle de tableau avec différents types de documents

Si l'utilisateur importe un modèle de type de document qui inclut un tableau avec différents types de document, un nouveau modèle est créé.

Si votre taxonomie inclut une table qui contient un champ avec un type de document différent, le message suivant s'affiche :

  • Le champ avec l'ID xyz a été trouvé à la fois dans la taxonomie importée ainsi que dans la taxonomie existante, mais leurs types sont incompatibles (les deux doivent être des tables ou aucun des deux).

L'assistant de l'éditeur de modèles

Considérations générales

L'éditeur de modèles s'appuie sur les fonctionnalités présentes dans la station de validation. Accédez-y en cliquant sur le bouton d'un modèle.

Pour en savoir plus sur l'utilisation de base de la station de validation, lisez cette section.

Outre les options disponibles dans la partie droite de l'écran Station de validation, il existe deux options spécifiques à l'éditeur de modèles :

Option

Description

Définit le mode de sélection d'ancre

Efface toute la sélection d'ancres

Lors de la création d'un nouveau modèle, un texte d'explication apparaît lors de la première ouverture de l'éditeur de modèles. Si vous souhaitez accéder à nouveau au texte, suivez les étapes ci-dessous :



Les informations de la table peuvent être modifiées au niveau de la cellule ou de la table. Voici plus d’informations sur la configuration des tables au niveau de la cellule et au niveau de la table .

Configurer les ancres

Les ancres peuvent être définies une fois l'éditeur de modèles ouvert à partir du gestionnaire de modèles et peuvent être trouvées parmi les options du mode de sélection.

Lors de la définition ou de la modification d'un modèle au niveau de la page, bien qu'elle soit facultative, la première étape à effectuer est la sélection des Informations de correspondance de la page 1 (Page 1 Matching Info). Cette étape est obligatoire uniquement pour les modèles de formulaire fixes.

Située sur le côté gauche de l'écran, la sélection des Informations de correspondance de la page 1 (Page 1 Matching Info) requiert une entrée de texte (seuls les jetons sont acceptés) à partir de la première page du modèle, qui est toujours dans la même position dans cette disposition de modèle particulière et forme un graphique unique de mots (en tenant compte des distances et des angles relatifs entre les mots) sur tous les modèles définis pour un type de document particulier.

En d'autres termes, les Informations de correspondance de la page 1 (Page 1 Matching Info) (et tous les autres champs d'informations de correspondance de page) sont les empreintes digitales d'une page donnée et sont fréquemment utilisées pour identifier le bon modèle de correspondance au moment de l'exécution.

Pour cette raison, pour le champ Informations de correspondance de la Page 1 (Page 1 Matching Info), il est fortement recommandé de sélectionner 10 à 20 mots, de préférence plus longs, répartis sur toute la zone de la page.

Les autres champs d'informations de correspondance de page (un pour chaque page de modèle) ne doivent être remplis que si vous essayez d'extraire des données à partir de cette page et ne nécessitent plus l'unicité des modèles croisés. Si aucun champ ne doit être extrait d'une page donnée, la définition des informations de correspondance au niveau de la page pour cette page n'est alors pas requise.

Configuration de champs simples

Pour tous les champs autres que les tableaux, la configuration du modèle consiste à sélectionner une zone personnalisée et à l'affecter à un champ particulier.

Pour les configurations de formulaires fixes, les champs de données ne peuvent être configurés qu'à l'aide de sélections de zone personnalisée (Custom Area).

Pour n'importe quel champ, vous pouvez définir une ou plusieurs de ces zones personnalisées (Custom Areas) en utilisant le bouton (+). Si deux ou plusieurs zones personnalisées sont définies pour un seul champ, alors lors de l'exécution, si le champ est défini dans la taxonomie en tant que valeur unique (Single Value), toutes les valeurs sont concaténées en une seule valeur rapportée. Si le champ est défini comme Valeur multiple (Multi Value), chaque valeur est signalée individuellement.

L'animation ci-dessous illustre la différence entre une sélection de jetons (Tokens) ou de zone personnalisée (Custom Area) :



L'icône à côté de chaque champ indique le type de sélection pris en charge :



Remarque :

Si une zone vide est sélectionnée, la sélection est automatiquement définie comme Zone personnalisée (Custom Area). Si du texte est détecté à l'intérieur de la zone sélectionnée, vous êtes invité à choisir le type de sélection entre Jetons (Tokens) ou Zone personnalisée (Custom area).

Utilisez le mode de sélection de la station de validation pour verrouiller votre sélection entre les jetons et les zones personnalisées.

Configuration des tables

Comme mentionné ci-dessus, il existe des champs dans lesquels des informations peuvent être ajoutées uniquement à l'aide de jetons [comme les champs Informations de correspondance de la page (Page Matching Info)] ou uniquement en utilisant une zone personnalisée (Custom Area) (comme des champs simples). Pour les champs Table (Table), vous pouvez :

  • définir chaque cellule une par une une fois l'éditeur de tableau développé en ajoutant une sélection de zone personnalisée à chaque cellule, ou
  • utiliser la fonctionnalité de balisage de table en marquant la zone de table, en dessinant des séparateurs de lignes et de colonnes, puis en affectant la table ainsi marquée au champ. Assurez-vous que la zone extraite a le même nombre de colonnes et de lignes que la zone du modèle.

Consultez l'animation ci-dessous pour apprendre à utiliser la fonctionnalité de balisage de table :



Configuration des ancres

Une méthode distinctive pour définir les limites d'une zone personnalisée à partir de laquelle les données doivent être extraites consiste à utiliser des ancres au niveau du champ. Ceux-ci permettent de cibler l'extraction de données en fonction des configurations au niveau du champ, permettant ainsi plus de flexibilité lors de la définition de vos règles d'extraction de formulaire.

Par conséquent, au moment de l'exécution, l'Extracteur de formulaires sait comment :

  • identifier si un modèle au niveau de la page correspond et extraire les informations en fonction de la meilleure correspondance de modèle au niveau de la page qu'il reconnaît ;
  • identifier si des paramètres basés sur les ancres correspondent et extraire les informations en fonction de leur application dans le document à traiter ;
  • calculer les scores de confiance appropriés pour toutes les correspondances possibles, afin de pouvoir rapporter le meilleur résultat (correspondance avec la probabilité la plus élevée) de toutes les options disponibles.
Création d'un nouveau paramètre d'ancrage
  1. Assurez-vous que vous êtes en mode de sélection d'ancres (Anchor Selection).
  2. Dessinez un cadre autour de la zone de valeur.
  3. Sélectionnez un libellé (ancre principale) pour votre zone de valeur en cliquant sur le premier mot, puis en Ctrl+Clic sur le dernier mot de la sélection, ou cliquez, faites glisser, puis relâchez pour capturer une plage de mots.
    Remarque : un libellé ne peut contenir que des mots consécutifs de la même ligne visuelle.
  4. Sélectionnez toutes les ancres supplémentaires qui identifieraient de manière unique votre libellé. Le même principe de sélection s'applique.
  5. Affectez votre construction d'ancrage au champ approprié en sélectionnant Extraire la valeur (Extract Value) pour ce champ particulier.


    Remarque : vous pouvez également utiliser l'exemple décrit ici pour apprendre à créer un modèle et à définir des zones d'extraction et des ancres.
Modifier un paramètre d'ancrage existant
  1. Mettez en surbrillance votre paramètre d'ancrage.
  2. Apportez-y des modifications (supprimez les éventuelles ancres, le libellé, voire la zone de valeur si vous le souhaitez, ajoutez de nouveaux éléments, etc.).
  3. Utilisez l'option Modifier la valeur extraite (Change Extracted Value) pour mettre à jour votre association de champ.


    Remarque :
    • Si vous supprimez la zone cible, toutes les ancres sont supprimées et vous recommencez.
    • Si vous supprimez le libellé (ancre principale), la première ancre dans l'ordre dans laquelle elle a été créée devient le nouveau libellé.
Supprimer un paramètre d'ancrage existant

Pour supprimer un paramètre d'ancrage, vous pouvez :

  • utiliser les options Marquer comme manquant (Mark as Missing) pour une valeur enregistrée


  • utiliser la fonction Supprimer la valeur (Remove Value) dans le cas d'une liste d'ancres définies pour un champ donné


Mélanger et assortir les configurations

Vous pouvez définir autant de modèles que vous le souhaitez pour un même type de document. Vous pouvez avoir plusieurs modèles au niveau de la page, plusieurs ancres pour le même champ, même des modèles contenant à la fois des ancres au niveau de la page et au niveau du champ.

Remarque :
  • Lorsque vous définissez des ancres au niveau du champ, assurez-vous que votre libellé est proche de votre zone de valeur et qu'elle est prise en charge par des ancres supplémentaires si la même construction de texte peut être trouvée à plusieurs endroits dans le même document.
  • Plus vos libellés et vos ancres sont longs, meilleure est la précision.
  • La zone de valeur est toujours calculée en fonction de sa position relative par rapport à votre libellé (ancre principale). Choisissez vos ancres principales en conséquence.
  • Le fait d'avoir des ancres au niveau du champ permet aux champs d'être déplacés dans le modèle et d'être toujours capturés, offrant plus de flexibilité dans les changements de mise en page du document.
Intégration de Document Understanding

L’activité Extracteur de formulaires (Form Extractor) fait partie des Solutions Document Understanding. Consultez le document Document Understanding Guide pour plus d'informations.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Logo Uipath blanc
Confiance et sécurité
© 2005-2024 UiPath. All rights reserved.