- Vue d'ensemble (Overview)
- Document Processing Contracts
- Notes de publication
- À propos des contrats de traitement de documents
- Classe Zone
- Interface ActivitéIPersisted
- Classe PrettyBoxConverter
- Interface ActivitéIClassifier
- Interface FournisseurIClassifieurCapacités
- Classe TypeDocumentClassifieur
- Classe RésultatClassifieur
- Classe ActivitéCodeClassifieur
- Classe ActivitéClassifieurNatif
- Classe ActivitéClassifieurCodeAsync
- Classe CapacitéClassifieurTypeDocument
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- Classe ActivitéExtracteurCodeAsync
- Classe ActivitéExtracteurCode
- Classe ExtracteurTypeDocument
- Classe ExtracteurDocumentTypeCapacités
- Classe ExtracteurChampCapacités
- Classe ActivitéExtracteurNatif
- Classe ExtracteurRésultat
- FieldValue Class
- FieldValueResult Class
- Interface FournisseurICapabilities
- Interface ActivitéIExtractor
- Classe ChargeUtileExtracteur
- Énumération PrioritéActionDocument
- Classe DocumentActionData
- Énumération StatutActionDocument
- Énumération TypeActionDocument
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe DonnéesUtilisateur
- Classe Documents
- Classe RésultatDivisionDocument
- Classe ExtensionDom
- Classe Page
- Classe SectionPage
- Classe Polygone
- Classe ConvertisseurPolygones
- Classe de métadonnées
- Classe GroupeMot
- Classe Mot
- Énumération SourceTraitement
- Classe CelluleRésultatsTable
- Classe ValeurTableRésultats
- Classe InformationsColonnesTableRésultats
- Classe TableRésultats
- Énumération Rotation
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- Énumération TypeSection
- Énumération TypeGroupeMot
- ProjectionTexteIDocument Interface
- Classe RésultatClassification
- Classe RésultatExtraction
- Classe ResultatsDocument
- Classe ResultatsLimitesDocument
- Classe ResultatsDonnéesPoint
- Classe RésultatsValeur
- Classe ResultatsContenuRéference
- Classe ResultatsValeurJetons
- Classe ResultatsChampDérivé
- Énumération ResultatsSourceDonnées
- Classe ResultatsConstantes
- Classe ChampValeurSimple
- Classe ValeurChampTable
- Classe GroupeDocument
- Classe DocumentTaxonomie
- Classe TypeDocument
- Classe Champ
- Énumération TypeChamp
- FieldValueDetails Class
- Classe InfoLangage
- Classe SaisieMétadonnées
- Énumération TypeTexte
- Classe TypeFieldTypeField Class
- Interface ActivitéISuivi
- ITrainableActivity Interface
- Interface ActivitéClassifieurITrainable
- Interface ActivitéExtracteurITrainable
- Classe ActivitéFormationClassifieurCodeAsync
- Classe ActivitéFormationClassifieurCode
- Classe ActivitéFormationClassifieurNatif
- Classe ActivitéFormationExtracteurCodeAsync
- Classe ActivitéFormationExtracteurCode
- Classe ActivitéFormationExtracteurNative
- Numériseur de Document Understanding
- Document Understanding ML
- Serveur local OCR Document Understanding
- Document Understanding
- Notes de publication
- À propos du package d’activités Document Understanding
- Compatibilité du projet
- Configuration de la connexion externe
- Définir le mot de passe du PDF
- Merge PDFs
- Get PDF Page Count
- Extraire le texte PDF (Extract PDF Text)
- Extract PDF Images
- Extract PDF Page Range
- Extraire les données du document
- Extraire les données du document - Aperçu
- Create Validation Task and Wait
- Attendre la tâche de validation et reprendre
- Create Validation Task
- Créer une tâche de validation de classification (Create Classification Validation Task)
- Créer une tâche de validation de classification et attendre (Create Classification Validation Task and Wait)
- Attendre la tâche de validation de la classification et reprendre
- IntelligentOCR
- Notes de publication
- À propos du package d'activités IntelligentOCR
- Compatibilité du projet
- Configuration de l'authentification
- Load Taxonomy
- Digitize Document
- Classify Document Scope
- Keyword Based Classifier
- Classifieur de projet Document Understanding (Document Understanding Project Classifier)
- Intelligent Keyword Classifier
- Create Document Classification Action
- Créer une action de validation de document (Create Document Validation Action)
- Retrieve Document Validation Artifacts
- Attendre l'action de classification du document et reprendre
- Tester l'étendue des classifieurs
- Outil d'entraînement de classifieur basé sur des mots-clés
- Intelligent Keyword Classifier Trainer
- Data Extraction Scope
- Extracteur de projet Document Understanding (Document Understanding Project Extractor)
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Tester l'étendue des extracteurs
- Export Extraction Results
- Services ML
- OCR
- Contrats OCR
- Notes de publication
- À propos des contrats OCR
- Compatibilité du projet
- Interface ActivitéIOCR
- Classe OCRCodeAsync
- Classe ActivitéCodeOCR
- Classe ActivitéOCRNatif
- Classe Caractère
- Classe RésultatOCR
- Classe Mot
- Énumération StylesPolice
- Énumération RotationOCR
- Classe OCRCapabilities
- Classe BaseCaptureOCR
- Classe UsineCaptureOCR
- Classe BaseContrôleCapture
- Énumération UtilisationCaptureMoteur
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Non listé] Abbyy
- Notes de publication
- À propos du package d'activités Abbyy
- Compatibilité du projet
- Reconnaissance optique des caractères ABBYY (ABBYY OCR)
- Reconnaissance optique des caractères ABBYY Cloud (ABBYY Cloud OCR)
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Classer un document (Classify Document)
- Traiter le document (Process Document)
- Valider le document (Validate Document)
- Exporter le document (Export Document)
- Obtenir le champ (Get Field)
- Obtenir la table (Get Table)
- Prepare Validation Station Data
- [Non listé] Abbyy intégré

Activités Document Understanding
Extraire les données du document
UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>
Extrait les données d'un fichier d'entrée ou d'un objet Données du document (Document Data) et stocke les résultats dans un objet Données du document (Document Data).
Module Designer
- Entrée (Input) : vous devez spécifier le fichier lui-même, ou les Données du document (Document Data), au cas où vous auriez déjà utilisé d'autres activités Document Understanding dans votre workflow (par exemple, Classer un document (Classify Document)).
Important : un fichier peut avoir au maximum 500 pages. Les fichiers dépassant cette limite ne pourront pas être extraits.
- Projet (Project) : vous devez sélectionner votre projet Document Understanding dans la liste déroulante. Les options disponibles sont les suivantes :
- Prédéfini (Predefined) : type de projet classique qui utilise des modèles spécialisés pré-entraînés recommandés dans le cadre de scénarios standard.
Pour plus d’informations sur la logique de facturation d’un projet classique, consultez la section Logique de mesure et de facturation.
- Projets du locataire et du dossier auxquels vous êtes connecté.
- Vous pouvez créer un projet personnalisé en accédant à Document Understanding.
Pour plus d'informations, consultez la section Introduction à la création de modèles.
Remarque : si vous avez créé plus de 500 projets sur votre locataire et que vous utilisez l’activité Extraire les données du document (Extract Document Data), UiPath Studio ou Studio Web n’affichera aucun projet au-delà des 500 initiaux. Par conséquent, ces projets ne peuvent pas être utilisés. - Prédéfini (Predefined) : type de projet classique qui utilise des modèles spécialisés pré-entraînés recommandés dans le cadre de scénarios standard.
- Extracteur (Extractor) : après avoir sélectionné un projet, vous pouvez également sélectionner l'extracteur que vous souhaitez utiliser.
- Pour le projet prédéfini, deux choix s’offrent à vous :
- Sélectionnez un modèle pré-entraîné. Consultez Modèles prêts à l’emploi pour obtenir une liste des modèles pré-entraînés que vous pouvez utiliser.
Remarque : l'activité Extraire les données du document (Extract Document Data) extrait les informations des champs disponibles sur le type de document de l'extracteur sélectionné (indépendamment du type réel du document). Cela ne s'applique pas aux modèles génératifs.
- Sélectionnez l’extracteur génératif.
Remarque : les informations envoyées à l’extracteur génératif sont envoyées à une instance de modèle LLM. Cette instance n’est pas accessible au public, ne stocke pas les données envoyées et ne les utilise pas à des fins d’entraînement.Important :
Cette fonctionnalité fait actuellement partie d'un processus d'audit et ne doit pas être considérée comme faisant partie de l'autorisation FedRAMP tant que la révision n'est pas finalisée. Consultez ici la liste complète des fonctionnalités en cours de révision.
- Sélectionnez un modèle pré-entraîné. Consultez Modèles prêts à l’emploi pour obtenir une liste des modèles pré-entraînés que vous pouvez utiliser.
- Pour le projet prédéfini, deux choix s’offrent à vous :
- Invite (Prompt) : ce champ s’affiche si vous choisissez l’option Génératif (Generative). Invite pour identifier les champs à extraire, fournie sous forme de paires clé-valeur, où la clé représente le nom du champ et la valeur une description de celui-ci, permettant à l’extracteur d’identifier la valeur correspondante. Sélectionnez le champ pour obtenir une invite avec les options suivantes, fournies par paires :
- Nom du champ (Field name) : vous devez saisir le nom du champ à extraire (ex. Date d'échéance) (limite de 30 caractères)
- Invite générative ( Generative invite ) : vous devez fournir l'invite en tant qu'entrée pour l'Extracteur génératif. Le nombre maximum de caractères autorisés est de 1 000. La réponse, résultat de l'extraction, également appelée Achèvement, a une limite de 700 mots. Ceci est limité à 700 mots. Cela signifie que vous ne pouvez pas extraire plus de 700 mots d'une seule invite. Si vos besoins d'extraction dépassent cette limite, vous pouvez diviser le document en plusieurs pages, les traiter individuellement, puis fusionner les résultats.
Astuce : pour connaître les bonnes pratiques d'utilisation des invites génératives, consultez la page Extracteur génératif - Bonnes pratiques .
Panneau propriétés
Entrée
- Délai d' attente (secondes) (Timeout (seconds) : délai d'exécution maximal (en secondes) pour l'appel vers le modèle génératif. Si l'opération dépasse ce délai, elle est automatiquement arrêtée pour éviter les retards ou les blocages. Cette propriété s'affiche uniquement si l' extracteur génératif est sélectionné en tant qu'extracteur.
- Validation automatique - Utilisez cette option pour activer la validation automatique, une fonctionnalité qui permet de valider les résultats obtenus pour l'extraction de données par rapport à un modèle génératif. La valeur par défaut du champ Validation automatique est
False
.- Seuil de confiance ( Confidence threshold ) : ce champ devient visible une fois que vous avez activé la Validation automatique (Auto-validation). Les résultats de l'extraction inférieurs au seuil sont comparés au modèle d'extraction génératif. Si elles correspondent, le système ajuste la confiance d'extraction pour répondre à la valeur limite. Les valeurs de seuil possibles sont comprises entre 0 et 100.
Si la valeur est définie sur 0, aucune validation n'est appliquée. Cependant, si vous définissez une valeur spécifique (de 0 à 100), le système vérifie tous les résultats d'extraction inférieurs à cette valeur. Par exemple, si vous définissez un seuil de confiance de 80 %, le système appliquera la validation générative pour les champs avec une confiance inférieure à 80 %.
Remarque : la validation automatique n'est disponible que pour les modèles d'extraction spécialisés.
- Seuil de confiance ( Confidence threshold ) : ce champ devient visible une fois que vous avez activé la Validation automatique (Auto-validation). Les résultats de l'extraction inférieurs au seuil sont comparés au modèle d'extraction génératif. Si elles correspondent, le système ajuste la confiance d'extraction pour répondre à la valeur limite. Les valeurs de seuil possibles sont comprises entre 0 et 100.
- Générer un type de données (Generate Data Type) : si défini sur
True
, indique que la sortie doit être générée en fonction de l’extracteur sélectionné, résultant en un objetIDocumentData<ExtractorType>
. Sinon, si défini surFalse
, indique que la génération de données doit être ignorée, ce qui permet d’obtenir un objetIDocumentData<DictionaryData>
générique.Consultez la page Données du document pour plus de détails et les limitations disponibles pour les deux types d’objets.
Sortie
- Données du document (Document Data ) : toutes les données de champ extraites du fichier. Les informations peuvent également être reçues de Classer un document (Classify Document).
Visitez la page Données du document pour en savoir plus sur le fonctionnement des données de document et sur la façon d’utiliser les résultats extraits pour les champs à une ou plusieurs valeurs.
Pour commencer rapidement à utiliser les fonctionnalités génératives de l’activité Extraire les données du document (Extract Document Data), procédez aux étapes suivantes :
- Ajoutez une activité Extraire les données du document .
- Dans la liste déroulante Projet (Project) , sélectionnez Prédéfini(Predefined).
- Pour Extracteur(Extractor), sélectionnez Extracteur génératif ( Generative Extractor).
La propriété Détails du type de document s’affiche dans le corps de l’activité.
- Pour Dictionnaire, indiquez vos instructions sous la forme de paires clé-valeur de dictionnaire, où :
- Nom de champ représente le nom du champ que vous souhaitez extraire du document. Par exemple,
email address
. - Instruction représente l’instruction sur les informations que vous souhaitez donner à l’extracteur pour l’extraction du champ. Il s’agit de la description utilisée par l’extracteur génératif pour identifier la valeur correspondante.
Par exemple, consultez la table suivante pour un exemple de paires clé-valeur :
Tableau 1. Exemples de paires clé-valeur pour l’invite de l’extracteur génératif Nom du champ Instruction Nom « Quel est le nom du candidat ? » Exécution actuelle « Quelle est la tâche actuelle du candidat ? » Employeur « Quel est l'employeur actuel du candidat ? » Figure 1. Détails des paires clé-valeur pour l’extracteur génératif
- Nom de champ représente le nom du champ que vous souhaitez extraire du document. Par exemple,