- Vue d'ensemble (Overview)
- Démarrage
- Activités (Activities)
- Tableaux de bord Insights.
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Extraction des données depuis des reçus
- Factures réentraînées avec un champ supplémentaire
- Extraire des données depuis des formulaires
- Créer une nouvelle automatisation à partir d’un fichier
- Composants de l'infrastructure
- Vue d'ensemble (Overview)
- Activités Document Understanding
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- Intelligent Keyword Classifier
- Keyword Based Classifier
- Machine Learning Classifier
- Classifieur génératif
- Activités liées à la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Vue d’ensemble de l'entraînement de la classification des documents
- Activités liées à l'entraînement de la classification des documents
- Machine Learning Classifier Trainer
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Vue d’ensemble de l’extraction des données
- Activités liées à l'extraction de données
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- Regex Based Extractor
- Consommation de données
- Appels API
- Paquets ML
- Vue d'ensemble (Overview)
- Paquets ML - Document Understanding
- Classifieur de documents - Paquet ML
- Paquets ML avec capacités OCR
- 1040 - Paquet ML
- Annexe C du formulaire 1040 Planification C - Paquet ML
- 1040 Planification D - Paquet ML
- Annexe E du formulaire 1040 - Paquet ML
- Paquet ML - 1040x
- Paquet ML 3949a
- 4506T - Paquet ML
- Paquet ML 709
- Paquet ML 941x
- Paquet ML 9465
- ACORD131 - Paquet ML
- ACORD140 - Paquet ML
- ACORD25 - Paquet ML
- États financiers - Paquet ML
- Connaissement - Paquet ML
- Paquet ML - Certificat de constitution
- Paquet ML - Certificat d'origine
- Chèques - Paquet ML
- Paquet ML - Certificat de produit pour enfants
- CMS1500 - Paquet ML
- Paquet ML - Déclaration de conformité de l’UE
- États financiers - Paquet ML
- FM1003 - Paquet ML
- I9 - Paquet ML
- Cartes d’identité - Paquet ML
- Factures - Paquet ML
- FacturesAustralie - Paquet ML
- FacturesChine - Paquet ML
- Paquet ML - Factures hébreu
- FacturesInde - Paquet ML
- FacturesJapon - Paquet ML
- Paquet ML - Livraison des factures
- Listes de colisage - Paquet ML
- Fiches de paie - Paquet ML
- Passeports - Paquet ML
- Bons de commande - Paquet ML
- Reçus - Paquet ML
- RemittanceAdvices - Paquet ML
- Formulaire UB04 - Paquet ML
- Factures de services publics - Paquet ML
- Titres de véhicule - Paquet ML
- W2 - Paquet ML
- W9 - Paquet ML
- Autres paquets ML prêts à l’emploi
- Points de terminaison publics
- Limitations du trafic
- Configuration OCR
- Pipelines
- Services OCR
- Langues prises en charge
- Apprentissage profond
- Licences
Guide de l'utilisateur de Document Understanding
Extraire des données depuis des formulaires
Le but de cette page est d'aider les nouveaux utilisateurs à se familiariser avec Document UnderstandingTM.
Pour les déploiements de production évolutifs, nous vous recommandons vivement d’utiliser le Processus Document Understanding disponible dans la section Modèles d’ UiPath® Studio.
Ce guide de démarrage rapide vous guide à travers les étapes nécessaires pour extraire les informations des formulaires W-9 à l'aide de l'Extracteur de formulaires intelligents (Intelligent Form Extractor). Les formulaires W-9 sont utilisés à titre d'exemple, mais la procédure est similaire pour les autres types de documents où les données sont structurées.
En partant de zéro, voici les étapes à suivre :
- Créer un processus vierge
- Installer les packages d'activités requis
- Créer une taxonomie
- Numériser le document
- Extraire les données à l'aide de l'Extracteur de formulaires intelligents (Intelligent Form Extractor)
- Valider les résultats à l'aide de la Station de validation (Validation Station)
- Export Extraction Results
Voyons maintenant chaque étape en détail.
Lancer UiPath Studio.
Dans le mode backstage ACCUEIL (HOME), cliquez sur Traiter (Process) pour créer un nouveau projet.
La fenêtre Nouveau processus vierge (New Blank Process) s'affiche. Dans cette fenêtre, entrez un nom pour le nouveau projet. Si vous le souhaitez, vous pouvez également ajouter une description pour trier plus facilement vos projets.
Cliquez sur Créer (Create). Le nouveau projet est ouvert dans Studio.
À partir du bouton Gérer les packages (Manage Packages) du ruban, outre les packages d'activités de base (UiPath.Excel.Activities, UiPath.Mail.Activities, UiPath.System.Activities, UiPath.UIAutomation.Activities) qui sont ajoutés au projet par défaut, installez les packages d'activités suivants :
Une fois les packages installés, répertoriez les champs obligatoires. Nous ferons l'extraction de données pour les champs ci-dessous :
- 1_Name -
Text
- 2_BusinessName -
Text
- 3a_Individual -
Boolean
- 3b_CCorp -
Boolean
- 3c_SCorp -
Boolean
- 3d_Partnership -
Boolean
- 3e_TrustEstate -
Boolean
- 3f_LLC -
Boolean
- 3f_LLC TaxClassification -
Boolean
- 3g_Other -
Boolean
- 3g_AutreDétail -
Boolean
- 5_Address -
Text
- 6_CityStateZip -
Text
- 7_AcctNumber -
Text
- TIN_SSN -
Text
- TIN_ETN -
Text
- Certification_Signature -
Boolean
- Certification_SignatureDate -
Date
Ouvrez Taxonomy Manager et créez un groupe nommé Documents semi-structurés, une catégorie nommée Finance et un type de document nommé W-9. Créez les champs listés ci-dessus avec des noms conviviaux ainsi que les types de données respectifs.
Dans le fichier Main.xaml, ajoutez une activité Ajouter une taxonomie (Load Taxonomy) et créez une variable pour la sortie de taxonomie.
Ajoutez une activité Numériser le document (Digitize Document) avec UiPath Document OCR. Fournissez la propriété d'entrée Chemin du document (Document Path) et créez des variables de sortie pour Texte du document (Document Text) et Modèle d'objet document (Document Object Model).
N'oubliez pas d'ajouter la clé API Document Understanding dans l'activité UiPath Document OCR.
5. Extraire les données à l'aide de l'Extracteur de formulaires intelligents (Intelligent Form Extractor)
Ajoutez une activité Étendue de l'extraction de données (Data Extraction Scope) et renseignez les propriétés.
Faites glisser et déposez l'Extracteur de formulaires intelligents (Intelligent Form Extractor) à l'intérieur. Le point de terminaison doit être rempli automatiquement avec le point de terminaison de l'Extracteur de formulaires intelligents (Intelligent Form Extractor), à savoir https://du.uipath.com/svc/intelligentforms. Fournissez la clé d'API Document Understanding.
Une fois cela fait, pour créer un nouveau modèle, cliquez sur Gérer les modèles (Manage Templates) > Créer un modèle (Create Template). Une fenêtre contextuelle s'ouvre.
Sous Type de document (Document type), sélectionnez le type de document W-9 créé précédemment.
Sous Nom du document (Document name), saisissez un nom pour votre modèle.
Sous Modèle de document (PDF natif si possible), joignez un document modèle dans lequel vous allez mapper les positions des champs.
Sous Moteur OCR (OCR Engine), sélectionnez à nouveau UiPath Document OCR. Comme avant, le point de terminaison doit être rempli automatiquement, à savoir https://du.uipath.com/ocr, et il vous suffit de fournir la clé API.
Cliquez sur Configurer (Configure) pour passer à l'étape suivante. La fenêtre contextuelle du gestionnaire de modèles (Template Manager) s'ouvre.
Ici, nous devrons sélectionner les zones dans lesquelles nous voulons que l'Extracteur de formulaires intelligents (Intelligent Form Extractor) recherche nos champs. Configurez-les en suivant les étapes détaillées ici. Vous avez également la possibilité d'utiliser des ancres pour vos champs. Plus d'informations sur les ancres ici.
Vous devriez vous retrouver avec quelque chose comme ça :
Cliquez sur Enregistrer (Save). Dans cet écran, vous pouvez définir les champs manuscrits ou de signature, le cas échéant. Vous pouvez également définir des synonymes pour les champs booléens. Fermez la fenêtre une fois que vous avez terminé.
L'étape suivante consiste à configurer l'Extracteur, ce qui signifie que l'Extracteur de formulaires intelligents (Intelligent Form Extractor) traite tous les documents de type W-9.
Pour vérifier les résultats via la Station de validation (Validation Station), glissez-déposez l'activité Présenter la station de validation (Present Validation Station) et fournissez les détails d'entrée.
DataSet
contenant plusieurs tables, qui peuvent ensuite être écrites dans un fichier Excel ou être utilisées directement dans un processus en aval.
Téléchargez cet exemple de projet pour exécuter le workflow W-9 avec l'Extracteur de formulaires intelligents (Intelligent Form Extractor) à l'aide de ce lien (link).
- 1. Créer un processus vierge
- 2. Installer les packages d'activités requis
- 3. Créer une taxonomie
- 4. Numériser le document
- 5. Extraire les données à l'aide de l'Extracteur de formulaires intelligents (Intelligent Form Extractor)
- 6. Valider les résultats à l'aide de la Station de validation (Validation Station)
- 7. Exporter les résultats de l'extraction
- Téléchargez l'exemple