Activités - Extracteur de formulaire

Description

Remarque : à des fins de licence, l'activité Extracteur de formulaires ( Form Extractor) nécessite une connexion Internet pour exécuter le robot.

L' extracteur de formulaire est le mieux adapté pour extraire, faire correspondre et rapporter des informations spécifiques en analysant la position du mot dans le document ou en détectant une signature. Cette activité ne peut être utilisée qu'avec l'activité Étendue d'extraction des données (Data Extraction Scope) . Le texte manuscrit peut également être détecté si l'activité Extracteur de formulaires ( Form Extractor) est utilisée avec l'activité OCR de document UiPath .

Compatibilité du projet

Windows - Héritage | Windows

Configuration

Panneau propriétés

Commun

NomAffichage (DisplayName) - Nom affiché de l'activité.

Entrée

Clé API : spécifie la clé API du compte. Le champ Clé API est automatiquement prérempli s'il est défini dans les paramètres du projet local ou dans l'infrastructure Document Understanding.
Point de terminaison : L’URL du serveur UiPath® . Par défaut, le point de terminaison est https://du.uipath.com/svc/formextractor. Pour plus d'informations, consultez Points de terminaison publics Document Understanding.
MinOverlapPercentage : spécifie la zone de chevauchement minimale (en pourcentage) entre un bloc du document et un bloc du modèle requis pour effectuer une extraction. La valeur en pourcentage peut être définie entre 0 et 100. La valeur par défaut est 65.
Délai d'attente : spécifie la durée (en millisecondes) d'attente d'une réponse du serveur avant qu'une erreur soit générée. La valeur par défaut est de 100 000 millisecondes (100 secondes).

Divers

Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).
Remarque : plusieurs modèles peuvent être définis pour un type de document. Lorsque l'activité est exécutée, l'extracteur sélectionne le modèle correspondant le mieux en fonction des informations trouvées sur la première page.

L'assistant du gestionnaire de modèles

Permet de créer, modifier, gérer et exporter/importer des modèles pour les types de documents définis dans la taxonomie.

Création d’un modèle

Ajoutez une activité Extracteur basé sur Regex (RegEx Based Extractor) à votre workflow dans une activité Étendue de l'extraction de données (Data Extraction Scope).
Configurez l’extracteur en sélectionnant Gérer les modèles.
La fenêtre du gestionnaire de modèles (Template Manager) s'ouvre.
Image 1. Présentation de l’assistant du gestionnaire de modèles
Sélectionnez Créer un modèle (Create Template) pour créer un nouveau modèle.
Image 2. Présentation des champs de configuration Créer un nouveau modèle (Create a new template)
Remarque :
Si le package UiPath.IntelligentOCR.Activities a été mis à jour vers la version v5.1.0, alors le paramètre ForcerApplicationOCR a été remplacé par AppliquerOCRAuxPDF. Voici la compatibilité entre les anciens et les nouveaux paramètres :
- ForcerApplicationOCR = Vrai est remplacé par AppliquerOCRAuxPDF = Oui ;
- ForcerApplicationOCR = Faux est remplacé par AppliquerOCRAuxPDF = Auto ;
- ForcerApplicationOCR = un champ vide est remplacé par AppliquerOCRAuxPDF = Auto ;
- ForcerApplicationOCR = <user-defined variable> remplacé par AppliquerOCRAuxPDF = Auto.
L'option Appliquer l'OCR au PDF détermine si le processus OCR doit être appliqué ou non aux documents PDF. Trois options sont disponibles dans la liste déroulante : True, Falseet Auto.

S’il est défini sur Vrai, l’OCR est appliqué à toutes les pages PDF du document. S’il est défini sur Faux, seul le texte saisi numériquement est extrait. Lorsqu’il est défini sur Auto, il évalue si le document nécessite l’application de l’algorithme OCR en fonction du document d’entrée.

Chaque moteur OCR est livré avec son propre ensemble d'options personnalisées. Consultez Moteur OCR pour plus de détails sur toutes les options disponibles pour chaque moteur OCR. Le moteur OCR par défaut est UiPath Document OCR.
Sélectionnez le type de document pour votre modèle dans la liste déroulante Type de document (Document Type).
Remarque : Tous les types de documents sont basés sur la taxonomie. Assurez-vous d'ajouter ou de créer une taxonomie dans le dossier du projet.
Nommez ce modèle dans le champ Nom du modèle (Template Name). Choisissez un nom pertinent qui reflète la version ou la mise en page de votre document.
Ajoutez le chemin du document dans le champ Modèle de document (Template document).
Accédez au chemin du fichier à l'aide de l'option Parcourir (Browse).
Sélectionnez un OCR dans la liste déroulante Moteur OCR et configurez-le en fonction de ses besoins.
Sélectionner Configurer (Configure) pour déclencher la modification du modèle.

Si vous avez déjà créé un modèle, vous pouvez le modifier, l'exporter ou le supprimer. Les options Supprimer (Delete) et Exporter (Export) deviennent disponibles uniquement lorsqu'au moins un modèle est sélectionné. Les options Modifier (Edit) et Supprimer (Remove) pour un modèle individuel sont toujours disponibles.

Image 3. Image interactive de la sélection des options Supprimer (Delete) ou Exporter (Export) pour un modèle

Configuration du traitement des champs booléens

Pour les documents qui incluent des cases à cocher, vous pouvez ajouter des synonymes connus pour les options Oui ( Yes ) et Non (No), ou vous pouvez partir d’une liste compilée par UiPath® (sélectionner Ajouter les éléments recommandés. Ces valeurs sont utilisées pour l'interprétation du contenu Boolean , qui mappe une valeur capturée à une valeur signalée Oui ou Non .

Image 4. Image interactive montrant la suggestion générée après avoir sélectionné Ajouter les éléments recommandés (Add recommended) pour les champs Synonymes de Oui (Synonyms for Yes) et Synonymes de Non (Synonyms for No)

Remarque : la case Sensible à la casse doit être cochée si les synonymes que vous avez ajoutés sont sensibles à la casse.

Exportation et importation de modèles

Vous pouvez importer des modèles créés et exportés à partir d'autres workflows. Utilisez ces fonctionnalités pour partager des modèles entre projets. Une fois qu'un type de document est configuré à l'aide de l'extracteur de formulaire intelligent, vous n'avez pas besoin de reconfigurer les modèles dans une nouvelle implémentation.

Procédure d'exportation

Voici les étapes à suivre pour exporter un modèle :

Créez un ou plusieurs modèles en suivant les étapes expliquées au début de cette page.
Sélectionnez les modèles que vous souhaitez exporter.
Sélectionnez une option d’exportation :
1. Exporter avec des fichiers d'origine
  L'exportation avec les fichiers originaux les joint à l'exportation.
2. Exporter sans fichiers d'origine
  Image 5. L’action de sélection des options Exporter avec des fichiers d’origine (Export with original files)
Enregistrez l'archive du modèle avec le nom souhaité.
Un message s'affiche une fois le modèle enregistré. Sélectionnez OK.
Image 6. Le message « X modèle(s) correctement exporté(s) »

Remarque :
Si vous ne pouvez pas partager le contenu des documents sur lesquels vous avez construit vos modèles, utilisez l’option Exporter sans fichiers d’origine (Without Original Files). Vous pouvez toujours partager et importer l’archive de modèle dans d’autres projets, mais vous ne pouvez plus les modifier ou les afficher.

Si vous souhaitez modifier les modèles une fois importés dans un autre projet, veillez à bien utiliser l’option Exporter avec fichiers d’origine (Export With Original Files) lors de l’exportation puis de l’importation.

Procédure d'importation

Voici les étapes à suivre pour importer un modèle :

Sélectionnez Importer(Import).
Image 7. L’action de sélection de l’option Importer (Import) dans l’assistant du gestionnaire de modèles
Sélectionnez une archive. L'assistant d'importation apparaît et présente tous les types de documents et tous les modèles disponibles dans l'archive d'exportation sélectionnée. Sélectionnez les modèles que vous souhaitez importer et choisissez l'option d'importation souhaitée :
1. Importer avec des fichiers d'origine
2. Importer sans fichiers d'origine
  Image 8. Les options d'importation dans l'assistant du gestionnaire de modèles
  Remarque :
  - Lorsque les modèles sont importés, les types de documents (Document Types) sont créés automatiquement dans la taxonomie du projet. Si un type de document portant le même nom existe déjà, un autre est créé en ajoutant un nombre au nom du type de document.
  - Si vous importez des modèles qui ont été exportés sans les fichiers d'origine, ou si vous choisissez d'importer des modèles sans les fichiers d'origine, vous n'avez aucune option d'affichage ou de modification pour ces modèles.

Situations spéciales lors de l'importation d'un modèle

Lorsqu'un modèle est importé, plusieurs situations particulières peuvent se produire. La liste suivante explique chaque situation et ses particularités :

Nouveau type de document : si un nouveau type de document est importé, alors un nouveau champ est ajouté dans le configurateur de l'assistant, vous informant qu'un nouveau modèle va être créé.
Type de document en double : lorsqu’un type de document identique est importé, le message d’avertissement suivant apparaît : « Ce modèle existe déjà et il sera écrasé. »
Modèle étendu : si un modèle de type de document qui inclut des champs supplémentaires par rapport à celui déjà existant est importé, le message d'avertissement suivant apparaît : « Ce type de document sera mis à jour comme suit : Le ou les champ(s) suivant(s) n'existent pas et seront créés. »
Type de document étendu : si l’utilisateur importe un type de document qui inclut des champs supplémentaires par rapport à celui déjà existant, le message d’avertissement suivant apparaît : « Ce type de document sera mis à jour comme suit : Le ou les champ(s) suivant(s) ne comportent aucune configuration à importer. »
Type de document avec un nom identique mais un contenu différent : si l’utilisateur importe un type de document portant le même nom que l’existant mais contenant des champs différents, le message d’avertissement suivant apparaît : « Ce type de document sera mis à jour comme suit » :
- « Les champs suivants n’existent pas et seront créés »
- « Les champs suivants n’ont pas de configurations à importer »
Type de document avec tableau manquant : si l’utilisateur importe un type de document qui ne comprend pas de tableau, le message d’avertissement suivant apparaît : « Ce type de document sera mis à jour comme suit : Le ou les champ(s) suivant(s) ne comportent aucune configuration à importer. »
Type de document avec tableau étendu : si l'utilisateur importe un type de document qui inclut un tableau avec des colonnes supplémentaires, le message d'avertissement suivant s'affiche : « Ce document sera mis à jour comme suit : Le ou les champ(s) suivant(s) n'existent pas et seront créés. »
Type de document avec tableau réduit : si l'utilisateur importe un type de document qui inclut un tableau avec des colonnes manquantes, le message d'avertissement suivant apparaît : « Ce document sera mis à jour comme suit : Le ou les champ(s) suivant(s) ne comportent aucune configuration à importer ».
Modèle de table avec différents types de documents : si vous importez un modèle de type de document qui inclut une table avec différents types de document, alors un nouveau modèle est créé. Si votre taxonomie comprend une table qui a un champ avec un type de document différent, le message suivant s'affiche : « Le champ avec l'ID xyz a été trouvé à la fois dans la taxonomie importée et dans la taxonomie existante, mais leurs types sont incompatibles (les deux doivent être des tables ou aucun des deux). »

L'assistant de l'éditeur de modèles

Considérations générales

L'éditeur de modèles s'appuie sur les fonctionnalités présentes dans la station de validation. Pour y accéder, sélectionnez Modifier (Edit) Modifier (Edit) à côté d'un modèle.

Visitez la page Station de validation pour en savoir plus sur les principes de base pour utiliser la station de validation.

Outre les options disponibles dans la partie droite de l'écran Station de validation (Validation Station), l'éditeur de modèles propose deux options spécifiques :

: définit le mode de sélection d'ancre ;
: efface toute la sélection d'ancres.

Lors de la création d’un nouveau modèle, un texte d’explication apparaît lors de la première ouverture de l’éditeur de modèles. Si vous souhaitez accéder à nouveau au texte, rendez-vous dans la section d’affichage du document située à droite, sélectionnez Options supplémentaires, puis Afficher le texte d’explication.

Image 9. L’action d’affichage du texte explicatif

Les informations de la table peuvent être modifiées au niveau de la cellule ou de la table. Consultez Présenter la station de validation pour plus d’informations sur la configuration des tables au niveau de la cellule et de la table.

Configurer les ancres

Les ancres peuvent être définies une fois l'éditeur de modèles ouvert à partir du gestionnaire de modèles et peuvent être trouvées parmi les options du mode de sélection.

Lors de la définition ou de la modification d'un modèle au niveau de la page, bien qu'elle soit facultative, la première étape à effectuer est la sélection des Informations de correspondance de la page 1 (Page 1 Matching Info). Cette étape est obligatoire uniquement pour les modèles de formulaire fixes.

Située sur le côté gauche de l'écran, la sélection des Informations de correspondance de la page 1 (Page 1 Matching Info) requiert une entrée de texte (seuls les jetons sont acceptés) à partir de la première page du modèle, qui est toujours dans la même position dans cette disposition de modèle particulière et forme un graphique unique de mots (en tenant compte des distances et des angles relatifs entre les mots) sur tous les modèles définis pour un type de document particulier.

En d'autres termes, les Informations de correspondance de la page 1 (Page 1 Matching Info) (et tous les autres champs d'informations de correspondance de page) sont les empreintes digitales d'une page donnée et sont fréquemment utilisées pour identifier le bon modèle de correspondance au moment de l'exécution.

Pour cette raison, pour le champ Informations de correspondance de la Page 1 (Page 1 Matching Info), il est fortement recommandé de sélectionner 10 à 20 mots, de préférence plus longs, répartis sur toute la zone de la page.

Les autres champs d'informations de correspondance de page (un pour chaque page de modèle) ne doivent être remplis que si vous essayez d'extraire des données à partir de cette page et ne nécessitent plus l'unicité des modèles croisés. Si aucun champ ne doit être extrait d'une page donnée, la définition des informations de correspondance au niveau de la page pour cette page n'est alors pas requise.

Configuration de champs simples

Pour tous les champs autres que les tableaux, la configuration du modèle consiste à sélectionner une zone personnalisée et à l'affecter à un champ particulier.

Pour les configurations de formulaires fixes, les champs de données ne peuvent être configurés qu'à l'aide de sélections de zone personnalisée (Custom Area).

Pour n'importe quel champ, vous pouvez définir une ou plusieurs de ces zones personnalisées en cliquant sur le bouton Ajouter (Add). Si deux ou plusieurs zones personnalisées sont définies pour un seul champ, alors lors de l'exécution, si le champ est défini dans la taxonomie en tant que valeur unique, toutes les valeurs sont concaténées en une seule valeur rapportée. Si le champ est défini comme Valeur multiple (Multi Value), chaque valeur est signalée individuellement.

L’icône à côté de chaque champ indique le type de sélection pris en charge : Jetons ou Zone personnalisée.

Image 10. Illustration animée montrant les types de sélections pris en charge par certains champs

Remarque :

Si une zone vide est sélectionnée, la sélection est automatiquement définie comme Zone personnalisée (Custom Area). Si du texte est détecté à l'intérieur de la zone sélectionnée, vous êtes invité à choisir le type de sélection entre Jetons (Tokens) ou Zone personnalisée (Custom area).

Utilisez le mode de sélection de la station de validation pour verrouiller votre sélection entre les jetons et les zones personnalisées.

Configuration des tables

Comme mentionné ci-dessus, il existe des champs dans lesquels des informations peuvent être ajoutées uniquement à l’aide de jetons (comme les champs Informations de correspondance de la page) ou uniquement en utilisant une zone personnalisée (comme des champs simples). Pour les champs Table, vous pouvez effectuer les opérations suivantes :

Définissez chaque cellule une par une, une fois l'éditeur de table développé, en ajoutant une sélection de zone personnalisée à chaque cellule.
utiliser la fonctionnalité de balisage de table en marquant la zone de table, en dessinant des séparateurs de lignes et de colonnes, puis en affectant la table ainsi marquée au champ. Assurez-vous que la zone extraite a le même nombre de colonnes et de lignes que la zone du modèle.

Pour utiliser la fonctionnalité de balisage de table :

Sélectionner Options supplémentaires pour le champ Table
Sélectionnez Extraire la nouvelle table.
Sélectionnez la table que vous souhaitez extraire.
Pour tous les champs situés au-dessus de chaque colonne de la table, sélectionnez le nom de colonne que vous souhaitez qu’il représente.
Vous pouvez également choisir d’extraire l’en-tête.
Enfin, sélectionnez Enregistrer la nouvelle table.

Image 11. Illustration animée d’un exemple où la fonctionnalité de balisage de table est utilisée

Configuration des ancres

Une méthode distinctive pour définir les limites d'une zone personnalisée à partir de laquelle les données doivent être extraites consiste à utiliser des ancres au niveau du champ. Ceux-ci permettent de cibler l'extraction de données en fonction des configurations au niveau du champ, permettant ainsi plus de flexibilité lors de la définition de vos règles d'extraction de formulaire.

Par conséquent, au moment de l'exécution, l'extracteur de formulaires est capable de réaliser les actions suivantes :

identifier si un modèle au niveau de la page correspond et extraire les informations en fonction de la meilleure correspondance de modèle au niveau de la page qu'il reconnaît ;
identifier si des paramètres basés sur les ancres correspondent et extraire les informations en fonction de leur application dans le document à traiter ;
calculer les scores de confiance appropriés pour toutes les correspondances possibles, afin de pouvoir rapporter le meilleur résultat (correspondance avec la probabilité la plus élevée) de toutes les options disponibles.

Création d'un nouveau paramètre d'ancrage

Assurez-vous que vous êtes en mode de sélection d'ancres (Anchor Selection).
Dessinez un cadre autour de la zone de valeur.
Sélectionnez un libellé (ancre principale) pour votre zone de valeur en utilisant l’une des méthodes suivantes :
- Sélectionnez le premier mot, puis utilisez Ctrl + Select pour le dernier mot de la sélection.
- Sélectionnez, faites glisser, puis relâchez pour capturer une plage de mots.
  Remarque : un libellé ne peut contenir que des mots consécutifs de la même ligne visuelle.
Sélectionnez toutes les ancres supplémentaires qui identifieraient de manière unique votre libellé. Le même principe de sélection s'applique.
Affectez votre construction d'ancrage au champ approprié en sélectionnant Extraire la valeur (Extract Value) pour ce champ particulier.
Image 12. Exemple de création de plusieurs ancres pour un champ

Remarque : vous pouvez également utiliser le précédent exemple de cette page pour apprendre à créer un modèle et à définir des zones d’extraction et des ancres.

Modifier un paramètre d'ancrage existant

Mettez en surbrillance votre paramètre d'ancrage.
Apportez-y des modifications (supprimez les éventuelles ancres, le libellé, voire la zone de valeur si vous le souhaitez, ajoutez de nouveaux éléments, etc.).
Sélectionnez les Options supplémentaires d’une ancre de champ, puis utilisez l’option Modifier la valeur extraite pour mettre à jour votre association de champ.
Image 13. Exemple de modification de la valeur extraite pour un champ
Remarque :
- Si vous supprimez la zone cible, toutes les ancres sont supprimées et vous recommencez.
- Si vous supprimez le libellé (ancre principale), la première ancre dans l'ordre dans laquelle elle a été créée devient le nouveau libellé.

Supprimer un paramètre d'ancrage existant

Pour supprimer un paramètre d’ancrage, vous pouvez utiliser l’une des options suivantes :

Sélectionnez les Options supplémentaires d’une ancre de champ et utilisez l’option Marquer comme manquant pour une valeur enregistrée.
Image 14. Exemple d’utilisation de l’option Marquer comme manquant pour supprimer un paramètre d’ancrage
Sélectionnez les Options supplémentaires d’une ancre de champ et utilisez l’option Supprimer la valeur, dans le cas d’une liste d’ancres définies pour un champ spécifique.
Image 15. Exemple d'utilisation de l'option Supprimer la valeur (Remove Value) pour supprimer un paramètre d'ancrage

Mélanger et assortir les configurations

Vous pouvez définir autant de modèles que vous le souhaitez pour un même type de document. Vous pouvez avoir plusieurs modèles au niveau de la page, plusieurs ancres pour le même champ, même des modèles contenant à la fois des ancres au niveau de la page et au niveau du champ.