Activités - Étendue de l'extraction de données

activities

latest

false

Activités Document Understanding

Important :

Veuillez noter que ce contenu a été localisé en partie à l’aide de la traduction automatique. La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Data Extraction Scope

Activité Étendue de l’extraction de données, fournissant une étendue pour les activités d’extraction configurées par rapport aux types de documents définis par la taxonomie.

UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope

Description

Fournit une étendue des activités de l'extracteur, permettant ainsi de les configurer en fonction des types de documents définis dans votre taxonomie. La sortie de l'activité est stockée dans une variable ExtractionResult, contenant toutes les données extraites automatiquement, et peut être utilisée comme entrée pour l'activité Export Extraction Results. Cette activité présente également un assistant de configuration des extracteurs (Configure Extractors), qui permet de spécifier exactement les champs des types de documents définis dans la taxonomie à extraire.

Compatibilité du projet

Windows - Héritage | Windows

Configuration

Module Designer

Entrée

DocumentPath : le chemin d'accès au document à valider. Ce champ ne prend en charge que les chaînes et les variables String.
Remarque :
Les types de fichiers pris en charge pour ce champ de propriété sont les suivants : .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp et .pdf.
DocumentText - le texte du document lui-même, stocké dans une variable String. Cette valeur peut être récupérée à partir de l'activité Numériser le document . Consultez la page Numériser le document pour plus d’informations sur la façon de procéder. Ce champ ne prend en charge que les chaînes et les variables String .
DocumentObjectModel - Le modèle d'objet de document que vous souhaitez utiliser pour valider le document. Ce modèle est stocké dans une variable Document et peut être récupéré à partir de l'activité Numériser le document . Consultez la page Numériser le document pour plus d’informations sur la façon de procéder. Ce champ prend uniquement en charge les variables Document .
Taxonomie : la taxonomie pour laquelle le document doit être traité, stocké dans une variable DocumentTaxonomy . Vous pouvez obtenir cet objet à l'aide d'une activité Load Taxonomy . Ce champ prend uniquement en charge les variables DocumentTaxonomy .
ClassificationResults : résultats de l'exécution d'une activité de classifieur sur le document spécifié, stockés dans un objet ClassificationResult. Ce champ est facultatif si vous spécifiez IDTypeDocument à la place. Ce champ prend uniquement en charge les variables ClassificationResult.
IDTypeDocument : ID du type de document, tel qu’il apparaît dans Taxonomy Manager. Ce champ est facultatif si vous avez spécifié un fichier dans le champ RésultatsClassification. Ce champ prend uniquement en charge les chaînes et les variables String.

Sortie

ExtractionResults : résultats du processus d'extraction des données, stockés dans une variable ExtractionResult.
Remarque :
If the page range for data extraction indicates that only a part of the original file is targeted, the Data Extraction Scope generates a file in the TEMP project folder that is then passed to the extractors. The temporary file contains only the page range that extractors should receive for document processing.

Panneau propriétés

Authentification

Les propriétés d’authentification de cette activité vous permettent de procéder à une validation automatique via des robots locaux. Avant de configurer ces propriétés, veillez à bien respecter les exigences détaillées sur la page Configuration de l’authentification. Une fois ces étapes terminées, vous pouvez ensuite remplir les propriétés d’authentification de l’activité.

Ressource d’informations d’identification de runtime : utilisez ce champ lorsque vous avez besoin d’accéder aux fonctionnalités de validation automatique de Document Understanding lorsque le Robot est connecté à un Orchestrator local, ou bien à partir d’un locataire différent. Vous pouvez choisir d’entrer une ressource d’informations d’identification à des fins d’authentification de l’une des manières suivantes :
- Dans la liste déroulante, sélectionnez la ressource d’informations d’identification souhaitée dans l’Orchestrator auquel le robot UiPath® est connecté.
- Saisissez manuellement le chemin d’accès à la ressource d’informations d’identification Orchestrator où vous stockez les informations d’identification de l’application externe pour accéder aux fonctionnalités de validation automatique.
  
  Le format du chemin d'accès doit être : <OrchestratorFolderName>/<AssetName>.
URL du locataire au runtime : utilisez ce champ, conjointement au champ Ressource d’informations d’identification du runtime . Saisissez l’URL du locataire auquel le robot se connectera afin d’exécuter la validation automatique. L’URL doit être au format suivant : https://<baseURL>/<OrganizationName>/<TenantName>.

Commun

NomAffichage (DisplayName) - Nom affiché de l'activité.

Entrée

AppliquerValidationAutomatique : ajustez la confiance à l’aide de la vérification croisée de l’extraction générative. Si les valeurs sont validées automatiquement, la confiance de ces valeurs sera définie sur le seuil de confiance. L’activation de cette fonctionnalité entraîne la consommation d’AI Units supplémentaires.
ClassificationResults : résultats de l'exécution d'une activité de classifieur sur le document spécifié, stockés dans un objet ClassificationResult. Ce champ est facultatif si vous spécifiez IDTypeDocument à la place. Ce champ prend uniquement en charge les variables ClassificationResult.
DocumentObjectModel - Le modèle d'objet de document que vous souhaitez utiliser pour valider le document. Ce modèle est stocké dans une variable Document et peut être récupéré à partir de l'activité Numériser le document . Consultez la page Numériser le document pour plus d’informations sur la façon de procéder. Ce champ prend uniquement en charge les variables Document .
DocumentPath : le chemin d'accès au document à valider. Ce champ ne prend en charge que les chaînes et les variables String.
Remarque :
Les types de fichiers pris en charge pour ce champ de propriété sont les suivants : .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp et .pdf.
DocumentText - le texte du document lui-même, stocké dans une variable String. Cette valeur peut être récupérée à partir de l'activité Numériser le document . Consultez la page Numériser le document pour plus d’informations sur la façon de procéder. Ce champ ne prend en charge que les chaînes et les variables String .
IDTypeDocument : ID du type de document, tel qu’il apparaît dans Taxonomy Manager. Ce champ est facultatif si vous avez spécifié un fichier dans le champ RésultatsClassification. Ce champ prend uniquement en charge les chaînes et les variables String.
FormatValeursSiPossible : indique que si une valeur comporte des éléments dérivés, elle n’est pas remplacée par l’étendue d’extraction de données, mais si elle n’a pas d’éléments dérivés, l’étendue d’extraction de données tentera de la calculer. Si l’option est définie sur Faux , les valeurs ne sont pas formatées.
SeuilConfianceValidationAutomatique : seuil de confiance pour la validation générative. Seules les valeurs de champ avec un niveau de confiance inférieures à ce seuil seront validées. Si les valeurs sont confirmées, la confiance de ces valeurs sera définie sur ce seuil.
Taxonomie : la taxonomie pour laquelle le document doit être traité, stocké dans une variable DocumentTaxonomy . Vous pouvez obtenir cet objet à l'aide d'une activité Load Taxonomy . Ce champ prend uniquement en charge les variables DocumentTaxonomy .

Divers

Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).

Sortie

ExtractionResults : résultats du processus d'extraction des données, stockés dans une variable ExtractionResult.
Remarque :
If the page range for data extraction indicates that only a part of the original file is targeted, the Data Extraction Scope generates a file in the TEMP project folder that is then passed to the extractors. The temporary file contains only the page range that extractors should receive for document processing.

Utilisation de l'assistant de configuration de l'extracteur

The Configure Extractors Wizard can be accessed via the Data Extraction Scope and allows you to choose which extractors are applied to each document type and field.

Dans le corps de l’activité, sélectionnez Configurer les extracteurs. Le bouton de l'assistant devient disponible après avoir fait glisser au moins une activité de l'extracteur dans le corps de l'activité Étendue de l'extraction des données (Data Extraction Scope). Cet assistant affiche tous les types de documents définis dans la taxonomie et leurs champs correspondants. Il permet de choisir l’extracteur à utiliser pour chacun.

Figure 1. Présentation de l’assistant de configuration des extracteurs

Vous pouvez développer chaque type de document, afficher ses champs dans l'assistant et les sélectionner pour l'extraction.

Image 2. La sélection d’un extracteur pour un type de document dans l’assistant Configurer les extracteurs

Le champ Alias d’infrastructure peut être utilisé pour mapper un extracteur à un ou plusieurs outils d’entraînement. Par exemple, vous pouvez donner à un extracteur d’apprentissage automatique l’alias R2D2 , puis utiliser le même alias pour un entraîneur d’extracteur d’apprentissage automatique. Cela va permettre de créer un lien entre l’extracteur et l’outil d’entraînement, et de fixer des objectifs d’entraînement pour l’extracteur. Chaque extracteur dispose d’un alias unique, tandis que plusieurs outils d’entraînement peuvent partager le même alias.

Vous pouvez configurer le champ Confiance minimum pour définir un seuil de confiance compris entre 0 et 100. La valeur prédite d’un champ ne sera prise en compte que si le score de confiance de la prédiction est égal ou supérieur à la confiance minimale configurée. Si le score de confiance d’une prédiction est inférieur au seuil de Confiance minimum, la valeur prédite ne sera pas stockée dans la sortie de l’activité Étendue de l’extraction de données (Data Extraction Scope).

Astuce :

Vous pouvez identifier un niveau de confiance optimal en testant divers documents dans votre workflow, en enregistrant les résultats dans une feuille de calcul Excel, par exemple, puis en analysant la valeur la plus adéquate pour définir un seuil.

Sélectionnez Obtenir ou rafraîchir les capacités de l’extracteur (Get or refresh extractor capabilities), pour les extracteurs qui prennent en charge cette fonctionnalité, pour mapper facilement vos champs de taxonomie avec les champs d’extraction disponibles ou pour les actualiser au cas où les champs d’extraction auraient changé.

Si les cases en regard de chaque champ des colonnes sont sélectionnées, l’activité Étendue de l’extraction de données (Data Extraction Scope) va demander ce champ spécifique à l’extracteur. Si la case n’est pas cochée, l’activité Étendue de l’extraction de données (Data Extraction Scope) ne demande pas de valeur à l’extracteur pour ce champ.

Les entrées de texte en regard de chaque champ permettent de mapper les champs définis dans votre taxonomie avec ceux de la taxonomie interne de l’extracteur, le cas échéant. Pour les champs réguliers, ajoutez dans l’entrée de texte l’identifiant du champ cible de la taxonomie interne de l’extracteur. Pour les champs de table, le champ de table parent est mappé au niveau de la table, tandis que les colonnes correspondantes sont mappées individuellement.

Remarque :

Lorsque vous utilisez l’ extracteur d’apprentissage automatique dans une configuration avec des champs de colonne définis, ceux-ci pourront être mappés à un champ de table à partir de votre taxonomie. Ils s’afficheront dans une collection appelée éléments.

Le nombre de colonnes de l'assistant varie en fonction du nombre d'extracteurs présents dans l'activité de périmètre. Le nom de chaque colonne est donné par le nom d'affichage de chaque activité d'extraction.

Image 3. Plusieurs extracteurs présents dans l’assistant Configurer les extracteurs

Si plusieurs extracteurs sont utilisés dans l’activité, l’ordre des extracteurs dans l’étendue définit leur priorité. Prenons à titre d’exemple trois extracteurs. Si l’extracteur 1 renvoie une valeur acceptable (c’est-à-dire supérieure au niveau de confiance minimum) pour un champ demandé, alors ce champ n’est pas demandé lors de l’exécution de l’extracteur 2 et de l’extracteur 3. Si l'extracteur 1 et l'extracteur 2 renvoient des valeurs inférieures au niveau de confiance minimum pour ce champ, ou ne renvoient rien du tout, les résultats de l'extracteur 3 sont pris en compte s'ils satisfont aux conditions d'acceptabilité de la confiance.

Intégration de Document Understanding

L'activité Classify Document Scope fait partie des Document Understanding Solutions. Consultez le document Document Understanding Guide pour plus d'informations.

Sommaire de la page

Description
Compatibilité du projet
Configuration
Module Designer
Panneau propriétés
Utilisation de l'assistant de configuration de l'extracteur
Intégration de Document Understanding

Cette page vous a-t-elle été utile ?

PrécédentIntelligent Keyword Classifier Trainer

SuivantExtracteur de projet Document Understanding (Document Understanding Project Extractor)

Description​

Compatibilité du projet​

Configuration​

Module Designer​

Entrée​

Sortie​

Panneau propriétés​

Authentification​

Commun​

Entrée​

Divers​

Sortie​

Utilisation de l'assistant de configuration de l'extracteur​

Intégration de Document Understanding​

Cette page vous a-t-elle été utile ?

Description

Compatibilité du projet

Configuration

Module Designer

Entrée

Sortie

Panneau propriétés

Authentification

Commun

Entrée

Divers

Sortie

Utilisation de l'assistant de configuration de l'extracteur

Intégration de Document Understanding