- Vue d'ensemble (Overview)
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Composants de l'infrastructure
- Vue d’ensemble de l'entraînement de la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Machine Learning Classifier Trainer
- Activités liées à l'entraînement de la classification des documents
- Paquets ML
- Pipelines
- Document Manager
- Services OCR
- Document Understanding déployé dans Automation Suite
- Document Understanding déployé dans une version AI Center autonome
- Apprentissage profond
- Licences
- Référence (Reference)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guide de l'utilisateur de Document Understanding
Form Extractor
L’extracteur de formulaire (Form Extractor) est le mieux adapté pour extraire, faire correspondre et rapporter des informations spécifiques en analysant la position du mot dans le document ou en détectant une signature.
L'Extracteur de formulaires (Form Extractor) s'appuie sur des modèles définis en amont, lors de la conception. Un ensemble complexe de règles applique les modèles configurés aux documents entrants qui doivent être traités, identifiant et signalant ainsi les informations attendues.
L'activité est livrée avec un assistant de configuration qui vous aide à définir les modèles des types de documents et les champs que vous souhaitez cibler aux fins de l'extraction de données.
L’activité prend en charge l’extraction de champ simple et de champ de table et, comme mentionné précédemment, peut détecter un champ de signature.
Plus d’informations sur l’Extracteur de formulaires (Form Extractor) :
- Page d'activité Extracteur de formulaires (Form Extractor)
- Taxonomy Manager - instructions de configuration
- Assistant du gestionnaire de modèles (Template Manager wizard) - instructions de configuration
- Exemple de flux de travail basé sur des ancres
Il est recommandé de rechercher d'autres méthodes d'extraction, au cas où :
- beaucoup de mises en page doivent être gérées
-
les documents ne sont pas seulement de travers, pivotés ou de tailles différentes, mais également manifestement déformés (courbures dans certaines zones).
Remarque :Pour l'extraction de forme fixe, afin d'évaluer si les mises en page de deux fichiers sont identiques, essayez de les superposer dans un outil avec une certaine transparence afin de voir si l'intégralité du contenu non variable se chevauche (après rotation inverse, désalignement et rapprochement des deux images à la même échelle).
Si vous remarquez une variabilité (le contenu non variable apparaît plus à gauche/à droite/en haut/en bas pour certaines zones du document), alors les mises en page ne sont pas considérées comme identiques.
L'Extracteur de formulaires (Form Extractor) vous permet de définir plusieurs modèles pour le même type de document et, au moment de l'exécution, il :
- identifie le meilleur modèle correspondant au document entrant et au type de document
- applique l'algorithme de correspondance de modèle basé sur les ancres au niveau de la page à chaque page dont les données doivent être extraites (les pages manquantes ou répétées ne sont pas prises en charge)
- applique tous les paramètres d'ancrage au niveau du champ à chaque page, pour capturer les valeurs associées à toutes les correspondances potentielles
- rapporte les informations identifiées à partir des zones de valeurs cibles.
Il prend également en charge l'ajustement du traitement des cases à cocher/des champs booléens en permettant la configuration de synonymes pour les valeurs « Oui (Yes) » ou « Non (No) », selon votre cas d'utilisation.
Cet extracteur n'a pas de capacités d'apprentissage (entraînement) et nécessite une configuration.
L'extracteur de formulaires a deux configurations principales dont il faut tenir compte :
- l'assistant du gestionnaire de modèles (Template Manager) - qui vous permet de définir des modèles à appliquer aux documents entrants. Cet assistant active le gestionnaire de modèles (Template Editor) et les paramètres d'interprétation des champs booléens (Boolean field interpretation).
- le paramètre PourcentageChevauchementMin - permet de contrôler la rigueur de la correspondance de la zone de valeur. Il accepte une valeur comprise entre
0
et100
, et contrôle les mots acceptés ou rejetés comme faisant partie d'une valeur donnée en fonction de l'adéquation de leur emplacement à la zone définie dans le modèle.
Vous trouverez plus d'informations sur l'utilisation de l'assistant d'activité Extracteur de formulaires intelligents (Intelligent Form Extractor) ici.