activities

latest

false

Important :

Veuillez noter que ce contenu a été localisé en partie à l’aide de la traduction automatique.

Activités Document Understanding

Last updated 21 nov. 2024

Extraire les données du document

UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>

Description

Extrait les données d'un fichier d'entrée ou d'un objet Données du document (Document Data) et stocke les résultats dans un objet Données du document (Document Data).

Avant de commencer

Prérequis

L’activité Extraire les données du document (Extract Document Data) nécessite des objets d’entrée de type Données de document (Document Data) ou Fichier (File). Un cas d’utilisation possible pour utiliser cette activité consiste à la précéder d’une activité Classer un document (Classify Document), qui génère un objet de type Données du document (Document Data).

Options d'entrée

L'activité Extraire les données du document (Extract Document Data) reçoit en entrée l'un des choix suivants :

Données du document (Document Data) : à partir de l'activité Classer un document (Classify Document)
Fichier (File) : à partir des activités Obtenir un fichier/dossier (Get File/Folder) ou Obtenir l'e-mail le plus récent (Get Newest Email)

Langues prises en charge pour les modèles génératifs

Les langues prises en charge pour les modèles génératifs sont les mêmes que celles du moteur OCR utilisé, lequel dépend du projet. Pour les projets prédéfinis, le moteur OCR utilisé est UiPath Document OCR. Pour plus d’informations, consultez la page Langues prises en charge par l’OCR.

Modèles utilisés par l’activité

L’activité Extraire les données du document (Extract Document Data) utilise les éléments suivants :

Points de terminaison publics pour les modèles prêts à l'emploi.
Modèles de ML personnalisés déployés dans les projets d'application Document Understanding.
Modèle d’extraction générative.

Compatibilité du projet

Windows | Multiplate-forme

Configuration

Module Designer

Projet (Project) : vous devez sélectionner votre projet Document Understanding dans la liste déroulante. Les options disponibles sont les suivantes :
- Prédéfini (Predefined) : le projet par défaut
- Vous pouvez créer un projet personnalisé en accédant à Document Understanding.
Remarque : si vous avez créé plus de 500 projets sur votre locataire et que vous utilisez l’activité Extraire les données du document (Extract Document Data), UiPath Studio ou Studio Web n’affichera aucun projet au-delà des 500 initiaux. Par conséquent, ces projets ne peuvent pas être utilisés.

Extracteur (Extractor) : sélectionnez un extracteur pour votre projet actuel.
- Pour le projet prédéfini, deux choix s’offrent à vous :
  - Sélectionner un paquet ML. Consultez Modèles prêts à l’emploi pour obtenir une liste des modèles pré-entraînés que vous pouvez utiliser.
    Remarque : l’activité Extraire les données du document (Extract Document Data) remplace le type de document par l’extracteur sélectionné. Ceci ne s'applique pas aux modèles génératifs.
  - Sélectionnez l’extracteur génératif.
    Remarque : les informations envoyées à l’extracteur génératif sont envoyées à une instance de modèle LLM. Cette instance n’est pas accessible au public, ne stocke pas les données envoyées et ne les utilise pas à des fins d’entraînement.
    
    Important :
    Cette fonctionnalité fait actuellement partie d'un processus d'audit et ne doit pas être considérée comme faisant partie de l'autorisation FedRAMP tant que la révision n'est pas finalisée. Consultez ici la liste complète des fonctionnalités en cours de révision.
Invite (Prompt) : ce champ s'affiche si vous choisissez l'option Génératif (Generative). Invite pour identifier les champs à extraire, fournie sous forme de paires clé-valeur, où la clé représente le nom du champ et la valeur une description de celui-ci, permettant à l'extracteur d'identifier la valeur correspondante. Cliquez sur le champ pour obtenir une invite avec les options suivantes, fournies par paires :
- Nom du champ (Field name) : vous devez saisir le nom du champ à extraire (ex. Date d'échéance) (limite de 30 caractères)
- Invite générative ( Generative invite ) : vous devez fournir l'invite en tant qu'entrée pour l'Extracteur génératif. Le nombre maximum de caractères autorisés est de 1 000. La réponse, résultat de l'extraction, également appelée Achèvement, a une limite de 700 mots. Ceci est limité à 700 mots. Cela signifie que vous ne pouvez pas extraire plus de 700 mots d'une seule invite. Si vos besoins d'extraction dépassent cette limite, vous pouvez diviser le document en plusieurs pages, les traiter individuellement, puis fusionner les résultats.
Astuce : pour connaître les bonnes pratiques d'utilisation des invites génératives, consultez la page Extracteur génératif - Bonnes pratiques .
Entrée (Input) : vous devez spécifier le fichier lui-même, ou les Données du document (Document Data), au cas où vous auriez déjà utilisé d'autres activités Document Understanding dans votre workflow (par exemple, Classer un document (Classify Document)).
Important : un fichier peut avoir au maximum 500 pages. Les fichiers dépassant cette limite ne pourront pas être extraits.

Panneau propriétés

Entrée

Délai d' attente (secondes) (Timeout (seconds) : délai d'exécution maximal (en secondes) pour l'appel vers le modèle génératif. Si l'opération dépasse ce délai, elle est automatiquement arrêtée pour éviter les retards ou les blocages. Cette propriété s'affiche uniquement si l' extracteur génératif est sélectionné en tant qu'extracteur.
Validation automatique - Utilisez cette option pour activer la validation automatique, une fonctionnalité qui permet de valider les résultats obtenus pour l'extraction de données par rapport à un modèle génératif. La valeur par défaut du champ Validation automatique est False.
- Seuil de confiance ( Confidence threshold ) : ce champ devient visible une fois que vous avez activé la Validation automatique (Auto-validation). Les résultats de l'extraction inférieurs au seuil sont comparés au modèle d'extraction génératif. Si elles correspondent, le système ajuste la confiance d'extraction pour répondre à la valeur limite. Les valeurs de seuil possibles sont comprises entre 0 et 100.
  Si la valeur est définie sur 0, aucune validation n'est appliquée. Cependant, si vous définissez une valeur spécifique (de 0 à 100), le système vérifie tous les résultats d'extraction inférieurs à cette valeur. Par exemple, si vous définissez un seuil de confiance de 80 %, le système appliquera la validation générative pour les champs avec une confiance inférieure à 80 %.
  
  Remarque : la validation automatique n'est disponible que pour les modèles d'extraction spécialisés.
Générer un type de données (Generate Data Type) : si défini sur True, indique que la sortie doit être générée en fonction de l’extracteur sélectionné, résultant en un objet IDocumentData<ExtractorType>. Sinon, si défini sur False, indique que la génération de données doit être ignorée, ce qui permet d’obtenir un objet IDocumentData<DictionaryData> générique.
Consultez la page Données du document pour plus de détails et les limitations disponibles pour les deux types d’objets.

Sortie

Données du document (Document Data ) : toutes les données de champ extraites du fichier. Les informations peuvent également être reçues de Classer un document (Classify Document).
Visitez la page Données du document pour en savoir plus sur le fonctionnement des données de document et sur la façon d’utiliser les résultats extraits pour les champs à une ou plusieurs valeurs.

Utilisation de l'extracteur génératif

Pour commencer rapidement à utiliser les fonctionnalités génératives de l’activité Extraire les données du document (Extract Document Data), procédez aux étapes suivantes :

Ajoutez une activité Extraire les données du document .
Dans la liste déroulante Projet (Project) , sélectionnez Prédéfini(Predefined).
Pour Extracteur(Extractor), sélectionnez Extracteur génératif ( Generative Extractor).
La propriété Invite (Prompt) apparaît dans le corps de l'activité.

Dans le champ Invite (Prompt), indiquez vos instructions sous forme de paires clé-valeur de dictionnaire, où :

La clé représente le nom de champ (exemple : adresse e-mail).
La valeur représente l' invite générative: la description utilisée par l'extracteur génératif pour identifier la valeur correspondante.
Par exemple, consultez la table suivante pour un exemple de paires clé-valeur :

Tableau 1. Exemples de paires clé-valeur pour l’invite de l’extracteur génératif
Nom du champ	Invite générative
Nom	« Quel est le nom du candidat ? »
Exécution actuelle	« Quelle est la tâche actuelle du candidat ? »
Employeur	« Quel est l'employeur actuel du candidat ? »