Document Understanding
2020.10
false
Obsolète
Guide de l'utilisateur de Document Understanding
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 5 juin 2024

Form Extractor

Qu'est-ce que l'extracteur de formulaire

L'extracteur de formulaires est une méthode d'extraction qui convient le mieux aux cas d'utilisation dans lesquels des documents de format non variable doivent être traités avec des données qui en sont extraites. En d'autres termes, si la variation de mise en page de vos documents est faible ou nulle, alors vous avez bien fait de choisir l'extracteur de formulaire.

L'extracteur de formulaire s'appuie sur des modèles définis en amont, au stade de la conception, et applique un ensemble complexe de règles pour appliquer les modèles configurés aux documents entrants à traiter afin d'identifier et de rapporter les informations attendues.

L'activité est livrée avec un assistant de configuration qui vous aide à définir les modèles des types de documents et les champs que vous souhaitez cibler aux fins de l'extraction de données en suivant cette méthode.

L'activité prend en charge à la fois l'extraction de champ simple et l'extraction de champ de table.

Il est recommandé de rechercher d'autres méthodes d'extraction, au cas où :

  • beaucoup de mises en page doivent être gérées
  • les documents ne sont pas seulement de travers, pivotés ou de tailles différentes, mais également manifestement déformés (courbures dans certaines zones).
    Remarque :

    Pour l'extraction de forme fixe, afin d'évaluer si les mises en page de deux fichiers sont identiques, essayez de les superposer dans un outil avec une certaine transparence afin de voir si l'intégralité du contenu non variable se chevauche (après rotation inverse, désalignement et rapprochement des deux images à la même échelle).

    Si vous remarquez une variabilité (le contenu non variable apparaît plus à gauche/à droite/en haut/en bas pour certaines zones du document), alors les mises en page ne sont pas considérées comme identiques.

    L'extracteur de formulaires vous permet de définir plusieurs modèles pour le même type de document et, au moment de l'exécution, il :

  • identifie le meilleur modèle correspondant au document entrant et au type de document
  • applique l'algorithme de correspondance de modèle basé sur les ancres au niveau de la page à chaque page dont les données doivent être extraites (les pages manquantes ou répétées ne sont pas prises en charge
  • rapporte les informations identifiées à partir des zones de valeurs cibles.

Elle prend également en charge l'ajustement du traitement des cases à cocher/des champs booléens en permettant la configuration de synonymes pour les valeurs « Oui (Yes) » ou « Non (No) », selon votre cas d'utilisation.

Cet extracteur n'a pas de capacités d'apprentissage et nécessite une configuration initiale.

Exigences spécifiques

Pour utiliser cet extracteur, vous devez utiliser votre clé d'API Automation Cloud Document Understanding ou héberger votre propre instance de l'extracteur de formulaires dans AI Center sur site.

Comment configurer

Configuration de l'activité

L'extracteur de formulaires a deux configurations principales dont il faut tenir compte :

  • l'assistant du gestionnaire de modèles, qui vous permet de définir des modèles à appliquer aux documents entrants. Cet assistant met également à disposition l'assistant de l'éditeur de modèle ainsi que les paramètres d'interprétation des champs booléens.
  • le paramètre PourcentageChevauchementMin vous permet de contrôler la rigueur de la correspondance de la zone de valeur. Il accepte une valeur comprise entre 0 et 100 et contrôle les mots acceptés ou rejetés comme faisant partie d'une valeur donnée en fonction de l'adéquation de leur emplacement à la zone définie dans le modèle.

L'assistant du gestionnaire de modèles

Cet assistant vous permet de créer, modifier, gérer et exporter/importer des modèles pour les types de documents définis dans la taxonomie.

Création d’un modèle

  1. Ajoutez une activité Extracteur basé sur Regex (RegEx Based Extractor) à votre workflow dans une activité Étendue de l'extraction de données (Data Extraction Scope).
  2. Configurez l'extracteur en cliquant sur le bouton Gérer les modèles (Manage Templates).
    • La fenêtre du gestionnaire de modèles (Template Manager) s'ouvre.


  3. Cliquez sur le bouton Créer un modèle (Create Template) pour créer un nouveau modèle.


  4. Sélectionnez le type de document pour lequel vous définissez le modèle dans la liste déroulante Type de document (Document Type).
    Remarque : tous les types de documents sont basés sur la taxonomie. Assurez-vous d'ajouter ou de créer une taxonomie dans le dossier du projet.
  5. Nommez ce modèle dans le champ Nom du modèle (Template Name). Veillez à ce que ce nom décrive la version du document ou la mise en page que vous capturez et configurez par son intermédiaire.
  6. Ajoutez le chemin du document dans le champ Modèle de document (Template document).
    • Accédez au chemin du fichier à l'aide du bouton Parcourir (Browse).
  7. Sélectionnez un OCR dans la liste déroulante Moteur OCR et configurez-le en fonction de ses besoins.
  8. Cliquez sur le bouton Configurer (Configure) pour déclencher la modification du modèle.

Le moteur OCR n'est appliqué que si nécessaire. Si le document sélectionné pour créer un modèle est un PDF natif, aucun moteur OCR n'est exécuté.

Chaque moteur OCR est livré avec son propre ensemble d'options personnalisées. Vous trouverez ici plus de détails sur toutes les options disponibles pour chaque moteur OCR.

Si vous avez déjà créé un modèle, vous pouvez le modifier, l'exporter ou le supprimer.

Les boutons Supprimer (Delete) et Exporter (Export) deviennent disponibles uniquement lorsqu'au moins un modèle est sélectionné. Les options Modifier (Edit) et Supprimer (Remove) pour un modèle individuel sont toujours disponibles.



Configuration du traitement des champs booléens

Pour les documents qui incluent des cases à cocher, vous avez la possibilité d'ajouter des synonymes connus pour les options Oui (Yes) et Non (No), ou vous pouvez partir d'une liste compilée par nos soins (voir nos suggestions Ajouter les éléments recommandés. Ces valeurs sont utilisées pour l'interprétation du contenu booléen, qui mappe une valeur capturée à une valeur signalée Yes ou No.


Exportation et importation de modèles

Vous pouvez importer des modèles créés et exportés à partir d'autres workflows. Utilisez ces fonctionnalités pour partager des modèles entre les projets. Ainsi, une fois qu'un type de document est configuré à l'aide de l'extracteur de formulaire, vous n'aurez pas besoin de reconfigurer les modèles dans une nouvelle implémentation.

Procédure d'exportation

Voici les étapes à suivre pour exporter un modèle :

  1. Créez un ou plusieurs modèles en suivant les étapes expliquées au début de cette page.
  2. Sélectionnez les modèles que vous souhaitez exporter.
  3. Sélectionnez une option d'exportation (avec ou sans les fichiers originaux) comme indiqué dans la capture d'écran ci-dessous. L'exportation avec les fichiers originaux les joint à l'exportation. La deuxième option ne joint pas les fichiers utilisés aux fins de la création du modèle.


  4. Enregistrez l'archive du modèle avec le nom souhaité.
  5. Un message s'affiche une fois le modèle enregistré. Sélectionnez le bouton OK.


    Remarque :

    Si vous ne pouvez pas partager le contenu des documents sur lesquels vous avez construit vos modèles, utilisez l'option Sans fichiers originaux (Without Original Files). Vous pourrez toujours partager et importer les archives de modèles dans d'autres projets, mais vous ne pourrez plus les modifier ou les afficher.

    Si vous souhaitez pouvoir modifier les modèles une fois importés dans un autre projet, assurez-vous d'utiliser l'option Avec les fichiers d'origine (With Original Files) lors de l'exportation puis de l'importation.

Procédure d'importation

Voici les étapes à suivre pour importer un modèle :

  1. Sélectionnez le bouton Importer (Import).


  2. Sélectionnez une archive. L'assistant d'importation apparaît et présente tous les types de documents et tous les modèles disponibles dans l'archive d'exportation sélectionnée. Sélectionnez les modèles que vous souhaitez importer et choisissez la bonne option d'importation (Import) (avec ou sans les fichiers originaux).


    Remarque :
    • Lorsque les modèles sont importés, les types de documents sont créés automatiquement dans la taxonomie du projet. Si un type de document portant le même nom existe déjà, un autre est créé en ajoutant un nombre au nom du type de document.
    • Si vous importez des modèles qui ont été exportés sans les fichiers d'origine, ou si vous choisissez d'importer des modèles sans les fichiers d'origine, vous n'avez aucune option d'affichage ou de modification pour ces modèles.

Situations spéciales lors de l'importation d'un modèle

Lorsqu'un modèle est importé, plusieurs situations particulières peuvent se produire. Le tableau ci-dessous explique chaque situation et ses particularités :

Import Type

Comportement d'activité

Nouveau type de document

Si un nouveau type de document est importé, alors un nouveau champ est ajouté dans le configurateur de l'assistant, vous informant qu'un nouveau modèle est à créer.

Type de document en double

Si un type de document identique est importé, le message d'avertissement suivant s'affiche :

  • Ce modèle existe déjà et il sera remplacé.

Modèle étendu

Si un modèle de type de document qui inclut des champs supplémentaires par rapport à l'existant est importé, le message d'avertissement suivant s'affiche :

  • Ce type de document sera mis à jour comme suit :
  • le ou les champs suivants n'existent pas et seront créés :

Type de document étendu

Si l'utilisateur importe un type de document qui inclut des champs supplémentaires par rapport à l'existant, le message d'avertissement suivant s'affiche :

  • Ce type de document sera mis à jour comme suit :
  • Le ou les champs suivants n'ont pas de configurations à importer.

Type de document avec un nom identique mais un contenu différent

Si l'utilisateur importe un type de document portant le même nom que l'existant mais des champs différents, le message d'avertissement suivant s'affiche :

  • Ce type de document sera mis à jour comme suit :
  • Le ou les champs suivants n'existent pas et seront créés ;
  • Les champs suivants n'ont pas de configurations à importer

Type de document avec tableau manquant

Si l'utilisateur importe un type de document qui n'inclut pas de table, le message d'avertissement suivant s'affiche :

  • Ce type de document sera mis à jour comme suit :
  • Le ou les champs suivants n'ont pas de configurations à importer.

Type de document avec tableau étendu

Si l'utilisateur importe un type de document qui inclut une table avec des colonnes supplémentaires, le message d'avertissement suivant s'affiche :

  • Ce document sera mis à jour comme suit :
  • le ou les champs suivants n'existent pas et seront créés :

Type de document avec table réduite

Si l'utilisateur importe un type de document qui inclut une table avec des colonnes manquantes, le message d'avertissement suivant s'affiche :

  • Ce document sera mis à jour comme suit :
  • Le ou les champs suivants n'ont pas de configurations à importer.

Modèle de tableau avec différents types de documents

Si l'utilisateur importe un modèle de type de document qui inclut un tableau avec différents types de document, un nouveau modèle est créé.

Si votre taxonomie inclut une table qui contient un champ avec un type de document différent, le message suivant s'affiche :

  • Le champ avec l'ID xyz a été trouvé à la fois dans la taxonomie importée ainsi que dans la taxonomie existante, mais leurs types sont incompatibles (les deux doivent être des tables ou aucun des deux).

L'éditeur de modèles

Considérations générales

L'éditeur de modèles s'appuie sur les fonctionnalités présentes dans la station de validation.

Pour en savoir plus sur l'utilisation de base de la station de validation, lisez ceci.

Configuration des ancres au niveau de la page

Lors de la définition ou de l'édition d'un modèle, il faut tout d'abord sélectionner Information de correspondance de la page 1 (Page 1 Matching Info) afin de définir le modèle de formulaire fixe.

Ce champ qui apparaît en premier sur le côté gauche de l'écran doit être configuré avec des mots (seuls les jetons sont acceptés) de la première page du modèle, qui sont constamment à la même position dans cette disposition de modèle et qui forment un graphique unique de mots (en tenant compte des distances relatives et des angles entre les mots) sur tous les modèles définis pour un type de document donné. En d'autres termes, les informations de correspondance de la page 1 (et tous les autres champs d'informations de correspondance de page) sont les empreintes digitales d'une page donnée et sont fréquemment utilisées pour identifier le bon modèle de correspondance au moment de l'exécution.

Pour cette raison, dans le champ Page 1 Informations de correspondance (Page 1 Matching Info), il est fortement recommandé de sélectionner 10 à 20 mots, de préférence plus longs et répartis sur toute la zone de la page, qui formeront un motif unique sur tous les modèles définis de ce type de document.

Les autres champs d'informations de correspondance de page (un pour chaque page de modèle) ne doivent être remplis que si vous essayez d'extraire des données à partir de cette page et ne nécessitent plus l'unicité des modèles croisés. Si aucun champ ne doit être extrait d'une page donnée, la définition des informations de correspondance au niveau de la page pour cette page n'est alors pas requise.

Configuration de champs simples

Pour tous les champs autres que les tableaux, la configuration du modèle consiste à sélectionner une zone personnalisée et à l'affecter à un champ particulier.

Pour les configurations de formulaires fixes, les champs de données ne peuvent être configurés qu'à l'aide de sélections de zone personnalisée.

Pour n'importe quel champ, vous pouvez définir une ou plusieurs de ces zones personnalisées en utilisant le bouton (+). Si vous définissez deux zones personnalisées ou plus pour un seul champ, si le champ est défini dans la taxonomie en tant que valeur unique au moment de l'exécution, alors toutes les valeurs de l'intégralité des zones personnalisées seront concaténées en une seule valeur rapportée. Si, d'un autre côté, le champ est à valeurs multiples (Multi Value), alors la valeur de chaque zone personnalisée sera signalée individuellement.

L'animation ci-dessous illustre la différence entre une sélection de jetons ou de zone personnalisée :



Vous pouvez également connaître le type de sélection acceptée pour chaque champ en regardant l'icône à côté de chaque champ comme illustré par l'animation ci-dessous :



Remarque :

Si une zone vide est sélectionnée, la sélection est automatiquement définie comme Zone personnalisée (Custom Area). Si du texte est détecté à l'intérieur de la zone sélectionnée, vous êtes invité à choisir le type de sélection entre Jetons (Tokens) ou Zone personnalisée (Custom area).

Utilisez la fonction « mode de sélection » de la station de validation pour verrouiller votre sélection entre les jetons et les zones personnalisées.

Configuration des tables

Comme mentionné ci-dessus, il existe des champs dans lesquels des informations peuvent être ajoutées uniquement à l'aide de jetons [comme les champs Informations de correspondance de la page (Page Matching Info)] ou uniquement en utilisant une zone personnalisée (comme des champs simples). Pour les champs Table (Table), vous pouvez

  • définir chaque cellule une par une une fois l'éditeur de tableau développé en ajoutant une sélection de zone personnalisée à chaque cellule, ou
  • utiliser la fonctionnalité de balisage de table en marquant la zone de table, en dessinant des séparateurs de lignes et de colonnes, puis en affectant la table ainsi marquée au champ.

Consultez l'animation ci-dessous pour apprendre à utiliser la fonctionnalité de balisage de table :



Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2024 UiPath. Tous droits réservés.