document-understanding

2021.10

false

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Non pris en charge par l'assistance

Guide de l'utilisateur de Document Understanding

PRODUIT :

Dernière mise à jour 4 févr. 2025

Extracteur de formulaires intelligents

Qu'est-ce qu'un extracteur de formulaires intelligents

L'Extracteur de formulaires intelligents (Intelligent Form Extractor) est un outil spécialisé dans le traitement de documents à mise en page fixe à des fins d'extraction de données. Il s'appuie sur l'Extracteur de formulaires (Form Extractor) et comprend des fonctionnalités supplémentaires, telles que

la reconnaissance de l'écriture manuscrite et l'extraction de données manuscrites,
la détection de signatures.

Par rapport à l'extracteur de formulaires, les fonctionnalités supplémentaires de l'extracteur de formulaires intelligents en font un très bon choix pour le traitement de tous les types de formulaires

imprimés OU manuscrits,
nécessitant de vérifier si le formulaire est signé ou non.

Ces deux fonctionnalités supplémentaires sont paramétrables depuis l'assistant Gestionnaire de modèles (Template Manager) de l'activité en complément des configurations déjà présentes dans l'extracteur de formulaires.

Cet extracteur n'a pas de capacités d'apprentissage et nécessite une configuration initiale.

Remarque :

Plus d'informations sur l'Extracteur de formulaires intelligents (Intelligent Form Extractor)

Page d'activité Extracteur de formulaires intelligents (Intelligent Form Extractor)
Taxonomy Manager - instructions de configuration
Assistant du gestionnaire de modèles (Template Manager wizard) - instructions de configuration
Exemple de flux de travail basé sur des ancres

Exigences spécifiques

Vous devez utiliser votre clé d'API de Document Understanding d'Automation Cloud ou héberger votre propre instance de l'Extracteur de formulaires intelligent (Intelligent Form Extractor) dans la version locale d'AI Center, afin d'utiliser cet extracteur.

Comment configurer

Configuration de l'activité

L'Extracteur de formulaires intelligent (Intelligent Form Extractor) doit tenir compte de deux configurations principales :

l'assistant du gestionnaire de modèles (Template Manager) - qui vous permet de définir des modèles à appliquer aux documents entrants. Cet assistant active le gestionnaire de modèles (Template Editor) et les paramètres d'interprétation des champs booléens (Boolean field interpretation).
le paramètre PourcentageChevauchementMin - permet de contrôler la rigueur de la correspondance de la zone de valeur. Il accepte une valeur comprise entre 0 et 100, et contrôle les mots acceptés ou rejetés comme faisant partie d'une valeur donnée en fonction de l'adéquation de leur emplacement à la zone définie dans le modèle.

L'assistant du gestionnaire de modèles

Permet de créer, modifier, gérer et exporter/importer des modèles pour les types de documents définis dans la taxonomie.

Création d’un modèle

Ajoutez une activité Extracteur de formulaire intelligent (Intelligent Form Extractor) à votre workflow dans une activité Étendue de l'extraction de données (Data Extraction Scope).
Configurez l'extracteur en cliquant sur le bouton Gérer les modèles (Manage Templates).
- La fenêtre du gestionnaire de modèles (Template Manager) s'ouvre.
Cliquez sur le bouton Créer un modèle (Create Template) pour créer un nouveau modèle.
Sélectionnez le type de document pour votre modèle dans la liste déroulante Type de document (Document Type).
Remarque : Tous les types de documents sont basés sur la taxonomie. Assurez-vous d'ajouter ou de créer une taxonomie dans le dossier du projet.
Nommez ce modèle dans le champ Nom du modèle (Template Name). Choisissez un nom pertinent qui reflète la version ou la mise en page de votre document.
Ajoutez le chemin du document dans le champ Modèle de document (Template document).
- Accédez au chemin du fichier à l'aide du bouton Parcourir (Browse).
Sélectionnez un OCR dans la liste déroulante Moteur OCR et configurez-le en fonction de ses besoins.
Cliquez sur le bouton Configurer (Configure) pour déclencher la modification du modèle.

Le moteur OCR n'est appliqué que si nécessaire. Si le document sélectionné pour créer un modèle est un PDF natif, aucun moteur OCR n'est exécuté, sauf si l'option Forcer l'application d'OCR (Force Apply OCR) est cochée. Si cochée, l'OCR est appliqué même sur un fichier PDF natif.

Chaque moteur OCR est livré avec son propre ensemble d'options personnalisées. Vous trouverez ici plus de détails sur toutes les options disponibles pour chaque moteur OCR.

Si vous avez déjà créé un modèle, vous pouvez le modifier, l'exporter ou le supprimer.

Les boutons Supprimer (Delete) et Exporter (Export) deviennent disponibles uniquement lorsqu'au moins un modèle est sélectionné. Les options Modifier (Edit) et Supprimer (Remove) pour un modèle individuel sont toujours disponibles.

Remarque : Si un champ est coché à la fois dans les cases Signature et Manuscrit (Handwritten) dans le Gestionnaire de modèles (Template Manager) de l'activité Extracteur de formulaire intelligent (Intelligent Form Extractor), un message contextuel s'affiche pour vous informer qu'un champ ne peut être ajouté que dans une case, pas dans les deux.

Configuration du traitement des champs booléens

Pour les documents qui incluent des cases à cocher, vous pouvez ajouter des synonymes connus pour les options Oui (Yes) et Non (No), ou vous pouvez partir d'une liste compilée par nos soins (voir nos suggestions Ajouter les éléments recommandés). Ces valeurs sont utilisées pour l'interprétation du contenu booléen, qui mappe une valeur capturée à une valeur signalée Oui ou Non.

Exportation et importation de modèles

Vous pouvez importer des modèles créés et exportés à partir d'autres workflows. Utilisez ces fonctionnalités pour partager des modèles entre projets. Une fois qu'un type de document est configuré à l'aide de l'extracteur de formulaire intelligent, vous n'avez pas besoin de reconfigurer les modèles dans une nouvelle implémentation.

Procédure d'exportation

Voici les étapes à suivre pour exporter un modèle :

Créez un ou plusieurs modèles en suivant les étapes expliquées au début de cette page.
Sélectionnez les modèles que vous souhaitez exporter.
Sélectionnez une option d'exportation (avec ou sans les fichiers originaux) comme indiqué dans la capture d'écran ci-dessous. L'exportation avec les fichiers originaux les joint à l'exportation.
Enregistrez l'archive du modèle avec le nom souhaité.
Un message s'affiche une fois le modèle enregistré. Sélectionnez le bouton OK.

Remarque :
Si vous ne pouvez pas partager le contenu des documents sur lesquels vous avez construit vos modèles, utilisez l'option Sans fichiers originaux (Without Original Files). Vous pouvez toujours partager et importer l'archive de modèle dans d'autres projets, mais vous ne pouvez plus les modifier ou les afficher.

Si vous souhaitez modifier les modèles une fois importés dans un autre projet, assurez-vous d'utiliser l'option « Avec les fichiers d'origine (With Original Files) » lors de l'exportation puis de l'importation.

Procédure d'importation

Voici les étapes à suivre pour importer un modèle :

Sélectionnez le bouton Importer (Import).
Sélectionnez une archive. L'assistant d'importation apparaît et présente tous les types de documents et tous les modèles disponibles dans l'archive d'exportation sélectionnée. Sélectionnez les modèles que vous souhaitez importer et choisissez la bonne option d'importation (Import) (avec ou sans les fichiers originaux).
Remarque :
- Lorsque les modèles sont importés, les types de documents (Document Types) sont créés automatiquement dans la taxonomie du projet. Si un type de document portant le même nom existe déjà, un autre est créé en ajoutant un nombre au nom du type de document.
- Si vous importez des modèles qui ont été exportés sans les fichiers d'origine, ou si vous choisissez d'importer des modèles sans les fichiers d'origine, vous n'avez aucune option d'affichage ou de modification pour ces modèles.

Situations spéciales lors de l'importation d'un modèle

Lorsqu'un modèle est importé, plusieurs situations particulières peuvent se produire. Le tableau ci-dessous explique chaque situation et ses particularités :

Import Type	Comportement d'activité
Nouveau type de document	Si un nouveau type de document est importé, alors un nouveau champ est ajouté dans le configurateur de l'assistant, vous informant qu'un nouveau modèle est à créer.
Type de document en double	Si un type de document identique est importé, le message d'avertissement suivant s'affiche : Ce modèle existe déjà et il sera remplacé.
Modèle étendu	Si un modèle de type de document qui inclut des champs supplémentaires par rapport à l'existant est importé, le message d'avertissement suivant s'affiche : Ce type de document sera mis à jour comme suit : le ou les champs suivants n'existent pas et seront créés :
Type de document étendu	Si l'utilisateur importe un type de document qui inclut des champs supplémentaires par rapport à l'existant, le message d'avertissement suivant s'affiche : Ce type de document sera mis à jour comme suit : Le ou les champs suivants n'ont pas de configurations à importer.
Type de document avec un nom identique mais un contenu différent	Si l'utilisateur importe un type de document portant le même nom que l'existant mais des champs différents, le message d'avertissement suivant s'affiche : Ce type de document sera mis à jour comme suit : Le ou les champs suivants n'existent pas et seront créés ; Les champs suivants n'ont pas de configurations à importer
Type de document avec tableau manquant	Si l'utilisateur importe un type de document qui n'inclut pas de table, le message d'avertissement suivant s'affiche : Ce type de document sera mis à jour comme suit : Le ou les champs suivants n'ont pas de configurations à importer.
Type de document avec tableau étendu	Si l'utilisateur importe un type de document qui inclut une table avec des colonnes supplémentaires, le message d'avertissement suivant s'affiche : Ce document sera mis à jour comme suit : le ou les champs suivants n'existent pas et seront créés :
Type de document avec table réduite	Si l'utilisateur importe un type de document qui inclut une table avec des colonnes manquantes, le message d'avertissement suivant s'affiche : Ce document sera mis à jour comme suit : Le ou les champs suivants n'ont pas de configurations à importer.
Modèle de tableau avec différents types de documents	Si l'utilisateur importe un modèle de type de document qui inclut un tableau avec différents types de document, un nouveau modèle est créé. Si votre taxonomie inclut une table qui contient un champ avec un type de document différent, le message suivant s'affiche : Le champ avec l'ID `xyz` a été trouvé à la fois dans la taxonomie importée ainsi que dans la taxonomie existante, mais leurs types sont incompatibles (les deux doivent être des tables ou aucun des deux).

L'assistant de l'éditeur de modèles

Considérations générales

L'éditeur de modèles s'appuie sur les fonctionnalités présentes dans la station de validation. Accédez-y en cliquant sur le bouton d'un modèle.

Pour en savoir plus sur l'utilisation de base de la station de validation, lisez cette section.

Outre les options disponibles dans la partie droite de l'écran Station de validation, il existe deux options spécifiques à l'éditeur de modèles :

Option	Description
	Définit le mode de sélection d'ancre
	Efface toute la sélection d'ancres

Lors de la création d'un nouveau modèle, un texte d'explication apparaît lors de la première ouverture de l'éditeur de modèles. Si vous souhaitez accéder à nouveau au texte, suivez les étapes ci-dessous :

Configurer les ancres

Les ancres peuvent être définies une fois l'éditeur de modèles ouvert à partir du gestionnaire de modèles et peuvent être trouvées parmi les options du mode de sélection.

Lors de la définition ou de la modification d'un modèle au niveau de la page, bien qu'elle soit facultative, la première étape à effectuer est la sélection des Informations de correspondance de la page 1 (Page 1 Matching Info). Cette étape est obligatoire uniquement pour les modèles de formulaire fixes.

Située sur le côté gauche de l'écran, la sélection des Informations de correspondance de la page 1 (Page 1 Matching Info) requiert une entrée de texte (seuls les jetons sont acceptés) à partir de la première page du modèle, qui est toujours dans la même position dans cette disposition de modèle particulière et forme un graphique unique de mots (en tenant compte des distances et des angles relatifs entre les mots) sur tous les modèles définis pour un type de document particulier.

En d'autres termes, les Informations de correspondance de la page 1 (Page 1 Matching Info) (et tous les autres champs d'informations de correspondance de page) sont les empreintes digitales d'une page donnée et sont fréquemment utilisées pour identifier le bon modèle de correspondance au moment de l'exécution.

Pour cette raison, pour le champ Informations de correspondance de la Page 1 (Page 1 Matching Info), il est fortement recommandé de sélectionner 10 à 20 mots, de préférence plus longs, répartis sur toute la zone de la page.

Les autres champs d'informations de correspondance de page (un pour chaque page de modèle) ne doivent être remplis que si vous essayez d'extraire des données à partir de cette page et ne nécessitent plus l'unicité des modèles croisés. Si aucun champ ne doit être extrait d'une page donnée, la définition des informations de correspondance au niveau de la page pour cette page n'est alors pas requise.

Configuration de champs simples

Pour tous les champs autres que les tableaux, la configuration du modèle consiste à sélectionner une zone personnalisée et à l'affecter à un champ particulier.

Pour les configurations de formulaires fixes, les champs de données ne peuvent être configurés qu'à l'aide de sélections de zone personnalisée (Custom Area).

Pour n'importe quel champ, vous pouvez définir une ou plusieurs de ces zones personnalisées (Custom Areas) en utilisant le bouton (+). Si deux ou plusieurs zones personnalisées sont définies pour un seul champ, alors lors de l'exécution, si le champ est défini dans la taxonomie en tant que valeur unique (Single Value), toutes les valeurs sont concaténées en une seule valeur rapportée. Si le champ est défini comme Valeur multiple (Multi Value), chaque valeur est signalée individuellement.

L'animation ci-dessous illustre la différence entre une sélection de jetons (Tokens) ou de zone personnalisée (Custom Area) :

L'icône à côté de chaque champ indique le type de sélection pris en charge :

Remarque :

Si une zone vide est sélectionnée, la sélection est automatiquement définie comme Zone personnalisée (Custom Area). Si du texte est détecté à l'intérieur de la zone sélectionnée, vous êtes invité à choisir le type de sélection entre Jetons (Tokens) ou Zone personnalisée (Custom area).

Utilisez le mode de sélection de la station de validation pour verrouiller votre sélection entre les jetons et les zones personnalisées.

Configuration des tables

Comme mentionné ci-dessus, il existe des champs dans lesquels des informations peuvent être ajoutées uniquement à l'aide de jetons [comme les champs Informations de correspondance de la page (Page Matching Info)] ou uniquement en utilisant une zone personnalisée (Custom Area) (comme des champs simples). Pour les champs Table (Table), vous pouvez :

définir chaque cellule une par une une fois l'éditeur de tableau développé en ajoutant une sélection de zone personnalisée à chaque cellule, ou
utiliser la fonctionnalité de balisage de table en marquant la zone de table, en dessinant des séparateurs de lignes et de colonnes, puis en affectant la table ainsi marquée au champ. Assurez-vous que la zone extraite a le même nombre de colonnes et de lignes que la zone du modèle.

Consultez l'animation ci-dessous pour apprendre à utiliser la fonctionnalité de balisage de table :

Configuration des ancres

Une méthode distinctive pour définir les limites d'une zone personnalisée à partir de laquelle les données doivent être extraites consiste à utiliser des ancres au niveau du champ. Ceux-ci permettent de cibler l'extraction de données en fonction des configurations au niveau du champ, permettant ainsi plus de flexibilité lors de la définition de vos règles d'extraction de formulaire.

Par conséquent, au moment de l'exécution, l'Extracteur de formulaires intelligent sait comment :

identifier si un modèle au niveau de la page correspond et extraire les informations en fonction de la meilleure correspondance de modèle au niveau de la page qu'il reconnaît ;
identifier si des paramètres basés sur les ancres correspondent et extraire les informations en fonction de leur application dans le document à traiter ;
calculer les scores de confiance appropriés pour toutes les correspondances possibles, afin de pouvoir rapporter le meilleur résultat (correspondance avec la probabilité la plus élevée) de toutes les options disponibles.

Création d'un nouveau paramètre d'ancrage

Assurez-vous que vous êtes en mode de sélection d'ancres (Anchor Selection).
Dessinez un cadre autour de la zone de valeur.
Sélectionnez un libellé (ancre principale) pour votre zone de valeur en cliquant sur le premier mot, puis en Ctrl+Clic sur le dernier mot de la sélection, ou cliquez, faites glisser, puis relâchez pour capturer une plage de mots.
Remarque : un libellé ne peut contenir que des mots consécutifs de la même ligne visuelle.
Sélectionnez toutes les ancres supplémentaires qui identifieraient de manière unique votre libellé. Le même principe de sélection s'applique.
Affectez votre construction d'ancrage au champ approprié en sélectionnant Extraire la valeur (Extract Value) pour ce champ particulier.

Remarque : vous pouvez également utiliser l'exemple décrit ici pour apprendre à créer un modèle et à définir des zones d'extraction et des ancres.

Modifier un paramètre d'ancrage existant

Mettez en surbrillance votre paramètre d'ancrage.
Apportez-y des modifications (supprimez les éventuelles ancres, le libellé, voire la zone de valeur si vous le souhaitez, ajoutez de nouveaux éléments, etc.).
Utilisez l'option Modifier la valeur extraite (Change Extracted Value) pour mettre à jour votre association de champ.
Remarque :
- Si vous supprimez la zone cible, toutes les ancres sont supprimées et vous recommencez.
- Si vous supprimez le libellé (ancre principale), la première ancre dans l'ordre dans laquelle elle a été créée devient le nouveau libellé.

Supprimer un paramètre d'ancrage existant

Pour supprimer un paramètre d'ancrage, vous pouvez :

utiliser les options Marquer comme manquant (Mark as Missing) pour une valeur enregistrée
utiliser la fonction Supprimer la valeur (Remove Value) dans le cas d'une liste d'ancres définies pour un champ donné

Mélanger et assortir les configurations

Vous pouvez définir autant de modèles que vous le souhaitez pour un même type de document. Vous pouvez avoir plusieurs modèles au niveau de la page, plusieurs ancres pour le même champ, même des modèles contenant à la fois des ancres au niveau de la page et au niveau du champ.

Remarque :

Lorsque vous définissez des ancres au niveau du champ, assurez-vous que votre libellé est proche de votre zone de valeur et qu'elle est prise en charge par des ancres supplémentaires si la même construction de texte peut être trouvée à plusieurs endroits dans le même document.
Plus vos libellés et vos ancres sont longs, meilleure est la précision.
La zone de valeur est toujours calculée en fonction de sa position relative par rapport à votre libellé (ancre principale). Choisissez vos ancres principales en conséquence.
Le fait d'avoir des ancres au niveau du champ permet aux champs d'être déplacés dans le modèle et d'être toujours capturés, offrant plus de flexibilité dans les changements de mise en page du document.

Sommaire de la page