activities

latest

false

Activités Document Understanding

Dernière mise à jour 5 déc. 2024

Data Extraction Scope

UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope

Description

Fournit une étendue des activités de l'extracteur, permettant ainsi de les configurer en fonction des types de documents définis dans votre taxonomie. La sortie de l'activité est stockée dans une variable ExtractionResult, contenant toutes les données extraites automatiquement, et peut être utilisée comme entrée pour l'activité Export Extraction Results. Cette activité présente également un assistant de configuration des extracteurs (Configure Extractors), qui permet de spécifier exactement les champs des types de documents définis dans la taxonomie à extraire.

Compatibilité du projet

Windows - Héritage | Windows

Configuration

Module Designer

Entrée

DocumentPath : le chemin d'accès au document à valider. Ce champ ne prend en charge que les chaînes et les variables String.
Remarque : les types de fichiers pris en charge pour ce champ de propriété sont les suivants : .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp et .pdf.
TexteDocument : le texte du document lui-même, stocké dans une variable String. Cette valeur peut être récupérée à partir de l’activité Numériser le document (Digitize Document). Consultez la page Numériser le document pour plus d’informations sur la façon de procéder. Ce champ ne prend en charge que les chaînes et les variables String.
ModèleObjetDocument : le modèle d’objet de document que vous souhaitez utiliser pour valider le document. Ce modèle est stocké dans une variable Document et peut être récupéré à partir de l’activité Numériser le document (Digitize Document). Consultez la page Numériser le document pour plus d’informations sur la façon de procéder. Ce champ ne prend en charge que les variables Document.
Taxonomie - La taxonomie par rapport à laquelle le document doit être traité, stockée dans une variable DocumentTaxonomy. Vous pouvez obtenir cet objet à l'aide d'une activité Load Taxonomy. Ce champ prend uniquement en charge les variables DocumentTaxonomy.
ClassificationResults : les résultats de l'exécution des fichiers du classifieur sur le fichier spécifié, stockés dans un objet ClassificationResult. Ce champ est facultatif si vous spécifiez IDTypeDocument à la place. Ce champ prend uniquement en charge les variables ClassificationResult.
IDTypeDocument : ID du type de document, tel qu’il apparaît dans Taxonomy Manager. Ce champ est facultatif si vous avez spécifié un fichier dans le champ RésultatsClassification. Ce champ prend uniquement en charge les chaînes et les variables String.

Sortie

ExtractionResults : résultats du processus d'extraction des données, stockés dans une variable ExtractionResult.
Remarque : si la plage de pages pour l'extraction de données indique que seule une partie du fichier d'origine est ciblée, Data Extraction Scope génère un fichier dans le dossier du projet TEMP qui est ensuite transmis aux extracteurs. Le fichier temporaire contient uniquement la plage de pages que les extracteurs doivent recevoir pour le traitement du document.

Panneau propriétés

Authentification

Les propriétés d’authentification de cette activité vous permettent de procéder à une validation automatique via des robots locaux. Avant de configurer ces propriétés, veillez à bien respecter les exigences détaillées sur la page Configuration de l’authentification. Une fois ces étapes terminées, vous pouvez remplir les propriétés d’authentification de l’activité.

Ressource d’informations d’identification de runtime : utilisez ce champ lorsque vous avez besoin d’accéder aux fonctionnalités de validation automatique de Document Understanding lorsque le Robot est connecté à un Orchestrator local, ou bien à partir d’un locataire différent. À des fins d’authentification, vous pouvez choisir de saisir une ressource d’informations d’identification de l’une des manières suivantes :
- Dans la liste déroulante, sélectionnez la ressource d’informations d’identification souhaitée dans l’Orchestrator auquel le Robot UiPath® est connecté.
- Saisissez manuellement le chemin d’accès à la ressource d’informations d’identification Orchestrator où vous stockez les informations d’identification de l’application externe pour accéder aux fonctionnalités de validation automatique.
  Le format du chemin d'accès doit être : <OrchestratorFolderName>/<AssetName>.
URL du locataire au runtime : utilisez ce champ, conjointement au champ Ressource d’informations d’identification du runtime. Saisissez l’URL du locataire auquel le robot se connectera afin d’exécuter la validation automatique. L’URL doit être au format suivant : https://<baseURL>/<OrganizationName>/<TenantName>.

Commun

NomAffichage (DisplayName) - Nom affiché de l'activité.

Entrée

AppliquerValidationAutomatique : ajustez la confiance à l’aide de la vérification croisée de l’extraction générative. Les confiances pour les valeurs rapportées confirmées par l’IA générative seront augmentées à 99 %. L’activation de cette fonctionnalité entraîne la consommation d’AI Units supplémentaires.
Important :
Cette fonctionnalité fait actuellement partie d'un processus d'audit et ne doit pas être considérée comme faisant partie de l'autorisation FedRAMP tant que la révision n'est pas finalisée. Consultez ici la liste complète des fonctionnalités en cours de révision.
ClassificationResults : les résultats de l'exécution des fichiers du classifieur sur le fichier spécifié, stockés dans un objet ClassificationResult. Ce champ est facultatif si vous spécifiez IDTypeDocument à la place. Ce champ prend uniquement en charge les variables ClassificationResult.
ModèleObjetDocument : le modèle d’objet de document que vous souhaitez utiliser pour valider le document. Ce modèle est stocké dans une variable Document et peut être récupéré à partir de l’activité Numériser le document (Digitize Document). Consultez la page Numériser le document pour plus d’informations sur la façon de procéder. Ce champ ne prend en charge que les variables Document.
DocumentPath : le chemin d'accès au document à valider. Ce champ ne prend en charge que les chaînes et les variables String.
Remarque : les types de fichiers pris en charge pour ce champ de propriété sont les suivants : .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp et .pdf.
TexteDocument : le texte du document lui-même, stocké dans une variable String. Cette valeur peut être récupérée à partir de l’activité Numériser le document (Digitize Document). Consultez la page Numériser le document pour plus d’informations sur la façon de procéder. Ce champ ne prend en charge que les chaînes et les variables String.
IDTypeDocument : ID du type de document, tel qu’il apparaît dans Taxonomy Manager. Ce champ est facultatif si vous avez spécifié un fichier dans le champ RésultatsClassification. Ce champ prend uniquement en charge les chaînes et les variables String.
FormatValeursSiPossible : indique que si une valeur comporte des éléments dérivés, elle n'est pas remplacée par l'étendue d'extraction des données, mais si elle n'a pas d'éléments dérivés, l'étendue d'extraction des données essaie de la calculer. Si l'option est définie sur False , les valeurs ne sont pas formatées.
AutoValidationConfidenceThreshold : seuil de confiance pour la validation générative. Seules les valeurs de champ fiables inférieures à ce seuil seront validées. Si les valeurs sont confirmées, la confiance de ces valeurs sera définie sur ce seuil.
Important :
Cette fonctionnalité fait actuellement partie d'un processus d'audit et ne doit pas être considérée comme faisant partie de l'autorisation FedRAMP tant que la révision n'est pas finalisée. Consultez ici la liste complète des fonctionnalités en cours de révision.
Taxonomie - La taxonomie par rapport à laquelle le document doit être traité, stockée dans une variable DocumentTaxonomy. Vous pouvez obtenir cet objet à l'aide d'une activité Load Taxonomy. Ce champ prend uniquement en charge les variables DocumentTaxonomy.

Divers

Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).

Sortie

ExtractionResults : résultats du processus d'extraction des données, stockés dans une variable ExtractionResult.
Remarque : si la plage de pages pour l'extraction de données indique que seule une partie du fichier d'origine est ciblée, Data Extraction Scope génère un fichier dans le dossier du projet TEMP qui est ensuite transmis aux extracteurs. Le fichier temporaire contient uniquement la plage de pages que les extracteurs doivent recevoir pour le traitement du document.

Utilisation de l'assistant de configuration de l'extracteur

L'assistant Configurer les extracteurs (Configure Extractors) accessible via l'activité Étendue de l'extraction des données (Data Extraction Scope) vous permet de choisir les extracteurs à appliquer à chaque type de document et chaque champ.

Dans le corps de l’activité, sélectionnez Configurer les extracteurs. Le bouton de l’assistant devient disponible après avoir fait glisser au moins une activité de l’extracteur dans le corps de l’activité Étendue de l’extraction des données (Data Extraction Scope). Cet assistant affiche tous les types de documents définis dans la taxonomie et leurs champs correspondants. Il permet de choisir l’extracteur à utiliser pour chacun.

Image 1. Présentation de l’assistant de configuration des extracteurs

Vous pouvez développer chaque type de document, afficher ses champs dans l'assistant et les sélectionner pour l'extraction.

Image 2. La sélection d’un extracteur pour un type de document dans l’assistant Configurer les extracteurs

Le champ Alias d’infrastructure peut être utilisé pour mapper un extracteur à un ou plusieurs outils d’entraînement. Par exemple, vous pouvez donner à un extracteur d’apprentissage automatique l’alias R2D2, puis utiliser le même alias pour un entraîneur d’extracteur d’apprentissage automatique. Cela va permettre de créer un lien entre l’extracteur et l’outil d’entraînement, et de fixer des objectifs d’entraînement pour l’extracteur. Chaque extracteur dispose d’un alias unique, tandis que plusieurs outils d’entraînement peuvent partager le même alias.

Vous pouvez configurer le champ Confiance minimum pour définir un seuil de confiance compris entre 0 et 100. La valeur prédite d’un champ ne sera prise en compte que si le score de confiance de la prédiction est égal ou supérieur à la confiance minimale configurée. Si le score de confiance d’une prédiction est inférieur au seuil de Confiance minimum, la valeur prédite ne sera pas stockée dans la sortie de l’activité Étendue de l’extraction de données (Data Extraction Scope).

Astuce : vous pouvez identifier un niveau de confiance optimal en testant divers documents dans votre workflow, en enregistrant les résultats dans une feuille de calcul Excel, par exemple, puis en analysant la valeur la plus adéquate pour définir un seuil.

Sélectionnez Obtenir ou rafraîchir les capacités de l’extracteur (Get or refresh extractor capabilities), pour les extracteurs qui prennent en charge cette fonctionnalité, pour mapper facilement vos champs de taxonomie avec les champs d’extraction disponibles ou pour les actualiser au cas où les champs d’extraction auraient changé.

Si les cases en regard de chaque champ des colonnes sont sélectionnées, l’activité Étendue de l’extraction de données (Data Extraction Scope) va demander ce champ spécifique à l’extracteur. Si la case n’est pas cochée, l’activité Étendue de l’extraction de données (Data Extraction Scope) ne demande pas de valeur à l’extracteur pour ce champ.

Les entrées de texte en regard de chaque champ permettent de mapper les champs définis dans votre taxonomie avec ceux de la taxonomie interne de l’extracteur, le cas échéant. Pour les champs réguliers, ajoutez dans l’entrée de texte l’identifiant du champ cible de la taxonomie interne de l’extracteur. Pour les champs de table, le champ de table parent est mappé au niveau de la table, tandis que les colonnes correspondantes sont mappées individuellement.

Remarque : lorsque vous utilisez l’extracteur d’apprentissage automatique dans une configuration avec des champs de colonne définis, ceux-ci pourront être mappés à un champ de table à partir de votre taxonomie. Ils s’afficheront dans une collection appelée éléments.

Le nombre de colonnes de l'assistant varie en fonction du nombre d'extracteurs présents dans l'activité de périmètre. Le nom de chaque colonne est donné par le nom d'affichage de chaque activité d'extraction.

Image 3. Plusieurs extracteurs présents dans l’assistant Configurer les extracteurs

Si plusieurs extracteurs sont utilisés dans l’activité, l’ordre des extracteurs dans l’étendue définit leur priorité. Prenons à titre d’exemple trois extracteurs. Si l’extracteur 1 renvoie une valeur acceptable (c’est-à-dire supérieure au niveau de confiance minimum) pour un champ demandé, alors ce champ n’est pas demandé lors de l’exécution de l’extracteur 2 et de l’extracteur 3. Si l’extracteur 1 et l’extracteur 2 renvoient des valeurs inférieures au niveau de confiance minimum pour ce champ, ou ne renvoient rien du tout, les résultats de l’extracteur 3 sont pris en compte s’ils satisfont aux conditions d’acceptabilité de la confiance.

Intégration de Document Understanding

L'activité Classify Document Scope fait partie des Document Understanding Solutions. Consultez le document Document Understanding Guide pour plus d'informations.

Sommaire de la page

Description
Compatibilité du projet
Configuration
Utilisation de l’Assistant de configuration de l’extracteur
Intégration de Document Understanding

Cette page vous a-t-elle été utile ?

PrécédentIntelligent Keyword Classifier Trainer

SuivantExtracteur de projet Document Understanding (Document Understanding Project Extractor)

Support et Services

Obtenez l'aide dont vous avez besoin

UiPath Academy

Formation RPA - Cours d'automatisation

UiPath Forum

Forum de la communauté UiPath

Confiance et sécurité

Conditions d’utilisation

Politique de confidentialité

Politique de cookies